您現在的位置是:首頁 >互聯網 > 2021-01-08 13:57:05 來源:
企業是否使用優質數據新研究評估數據質量工具中的變量
數據是至關重要的資源。它的見解不僅會推動針對Google,Facebook和亞馬遜等大數據巨頭的運營和戰略決策,而且還會推動一系列行業的發展,從噴氣發動機制造商 到職業籃球大聯盟, 再到 使用數據來提高作物產量的農業學家。
通常將原始數據作為資源與原油作為經濟變化的驅動力進行比較。與原油一樣,數據在其自然狀態下也無法使用。僅在將基礎產品精煉成可用形式后才能獲得該值。與石油一樣,輸出的質量也會變化。
但是與基于石油的產品不同,數據沒有明確的標簽系統,這意味著企業通常對使用100辛烷航空燃料或高硫越野柴油的數據視而不見。
統計數據顯示,全球首席執行官中有 84%擔心數據標準,有缺陷的數據每年給企業造成1500萬美元的損失。這導致用于監視數據質量的軟件工具的激增;其中一些本身的質量令人懷疑。在剛剛發布的“數據質量測量和監視工具調查”中記錄了確定“如何在最新的數據質量工具中實現數據質量測量和監視”的信息。
約翰內斯·開普勒大學高級研究員,該研究的合著者Lisa Ehrlinger(如圖)說:“這項研究的主要動機實際上是一種非常實用的動機。” “我們在[我們的]大數據項目中花費了大部分時間來進行數據質量測量和改進任務。因此,我們[詢問]市場上有哪些工具可以自動化這些數據質量任務。”
Ehrlinger采訪過戴夫Vellante表示和保羅·吉林,theCUBE,SiliconANGLE Media的移動即時串流工作室共同主辦的MIT CDOIQ研討會在馬薩諸塞州劍橋期間。他們討論了研究方法和研究結果(請在此處查看完整的采訪記錄)。
本周,CUBE在其“科技女性”專題節目中聚焦了Lisa Ehrlinger 。
自動化數據質量測量
從大學時代起,埃林格就一直在 奧地利林茨的約翰內斯開普勒大學就讀,并擁有該大學的計算機科學學士學位和碩士學位。目前,她正在約翰內斯·開普勒(Johannes Kepler)面向應用的知識處理研究所的WolframWöß教授的指導下,從事自動連續數據質量測量的博士學位論文 。
在學習期間,Ehrlinger通過為各種雇主從事信息技術項目而擴展了她的經驗。其中包括甲骨文,軟件情報公司Dynatrace LLC,奧地利林茨市的羅馬教區,以及最近的哈根堡軟件能力中心。
在過去的四年中,Ehrlinger發表了她的碩士論文“集成信息系統的模式級數據質量評估”,與他人合著了10篇研究論文,并共同編輯 了第十屆國際進步大會的會議記錄。在數據庫,知識和數據應用程序中。
Ehrlinger是麻省理工學院CDOIQ專題討論會的演講嘉賓,她的博士論文題為“使用工具自動進行數據質量測量”。
并非所有的數據質量工具都是平等的
Ehrlinger和她的團隊確定了市場上的667種數據質量工具,然后根據其域獨立性,非特異性和免費或試用的可用性,將該數字縮小到13個,以進行詳細的測試和分析。僅有一半以上(50.8%)的工具被排除在外,因為它們是特定于領域的。意味著它們專用于特定的數據類型或專有工具。
“我們真的只是想找到通常適用于不同種類的數據,結構化數據,非結構化數據等的工具,” Ehrlinger說。
排除了另外40%,因為它們專用于特定的管理任務,例如數據可視化,集成或清理。
所選擇的工具必須提供研究團隊確定為最重要的三個功能區域:數據概要分析,質量指標和質量監視:“數據概要分析可以對數據質量有一個初步的了解……在維度,指標和指標方面進行數據質量管理規則……[以及隨時間推移的數據質量監控,” Ehrlinger解釋說。
Ehrlinger表示,盡管Gartner數據質量工具魔力象限是該領域最著名的研究,但它并未關注特定的測量功能。她的研究團隊花了整整一年的時間親身實踐這些工具,并獲得了使用它們的第一手經驗。
Ehrlinger團隊與Gartner研究之間的另一個區別是所評估工具的范圍。Ehrlinger選擇的最后13種工具包括9種商業和封閉源代碼工具,其中4種(Informatica數據質量,Oracle企業數據質量,SAS數據質量和Talend Open Studio for Data Quality)在Gartner的魔力象限中被列為領導者。
研究中評估的其他五種工具是免費和開源的,而Gartner僅提及了其中一種(Talend)。其他四個是OpenRefine,Aggregate Profiler,Moby DQ和Apache Griffin,“它們確實具有很好的監視功能,但缺少這些綜合工具中的其他功能,” Ehrlinger說。
個人風格與眾不同
除了功能之外,客戶服務也被考慮在總體評估中。“重點是功能,但我們當然必須聯系客戶支持,”埃林格說。
對于商業工具來說尤其如此。Ehrlinger說:“我們必須要求他們向我們提供一些試用許可證,在那里,我們感受到了來自這些公司的不同反饋。”
她還詢問參加者有關其客戶體驗的數據質量事件:“獲得有關單個工具的反饋并驗證我們的結果很有趣,而且匹配得很好,”她說。
客戶服務方面的贏家是Informatica Data Quality和Experian Pandora。“在支持,試用許可證和特定功能方面,我們認為與[Informatica]的互動非常緊密,” Ehrlinger說。
其他公司,例如IBM,得分不高。她補充說:“他們專注于大廠商。”
使埃林格和她的團隊感到驚訝的一個結果是,許多工具缺乏自動化。她說:“我們認為自動化的潛力肯定更大。”
工具需要改進的另一個領域是詳細信息。“我們觀察到一些工具說……'我們應用機器學習',然后查看它們的文檔,找不到關于哪種算法,哪些參數,哪些閾值的信息,” Ehrlinger說。“如果您想評估數據質量,您確實需要知道什么算法以及如何對其進行調整。”
這一點特別重要,因為這些工具的用戶通常具有很高的技術專長。她補充說:“他(或她)確實需要調整這些算法以獲得可靠的結果,并知道發生了什么以及為什么,選擇了哪些記錄,”。
對質量數據的追求仍在繼續
Ehrlinger和她的研究團隊已經開始了他們的下一個研究,名為“用于數據質量評估的知識圖”。根據Ehrlinger的說法,該項目與當前的企業級自動化趨勢緊密相關,可以“同時解決兩個問題”。
她說:“首先是想出公司中數據格局的語義表示。” “但不僅是數據元數據本身在收集元數據方面,而且還可以使用數據概要文件自動改進或注釋該數據模式。”