您現在的位置是:首頁 >互聯網 > 2021-01-08 13:57:05 來源:
真正的大數據問題以及為什么只有機器學習才能解決它
為什么這么多公司仍在努力建立從數據到見解的平穩運行的管道?他們投資于大肆宣傳的機器學習算法,以分析數據并做出業務預測。
但是,然后,他們不可避免地意識到算法不是魔術:如果將垃圾數據提供給他們,他們的見識就不會那么出色。因此,他們聘用了數據科學家,他們花費90%的時間在數據清潔自助洗衣店里清洗和折疊,而只剩下10%的時間去做被雇用的工作。
這個過程的另一個缺點是,公司只會為在線端算法的機器學習而感到興奮。Tamr Inc.聯合創始人兼首席執行官安迪·帕爾默(Andy Palmer)表示,他們應該在清理的早期階段就自由地應用機器學習,而不是依靠人們來處理龐大的數據集 ,這有助于組織使用機器學習來統一他們的機器。數據孤島。
許多公司已經在用于大數據收集的系統上花費了大量金錢。他們對數據量超過質量的重視顯而易見。帕爾默說:“在這些大公司之一工作的任何人都可以告訴你,他們從大多數內部系統中獲得的數據都是簡單明了的。”
Tamr的聯合創始人兼首席技術官Palmer和Michael Stonebraker(如圖)與 SiliconANGLE Media移動直播工作室CUBE的聯合主持人Dave Vellante 和Paul Gillin進行了交談,該會議涵蓋了最近在馬薩諸塞州劍橋舉行的MIT CDOIQ研討會。他們討論了大數據清洗中的機器學習,以及為什么Tamr毫不奇怪地相信初創企業提供的技術要比傳統公司更好,更具擴展性的大數據解決方案(請參閱此處 和 此處的全文訪談 )。
本周,CUBE在其每周啟動功能中聚焦Tamr Inc.。
大數據?大呼啦
多年來,帕爾默和斯通布雷克一直在努力消除大數據的炒作泡沫。一直追溯到2007年,他們預測Apache Hadoop大數據框架不會提供如此多的預期結果。
帕爾默說:“邁克實際上非常激進地說這將是一場災難。”
并不是說大數據集是壞的。顯然,它們對于訓練分析模型和人工智能是必不可少的。有一種觀點認為,只要數據量很大,其余的分析或AI片段就會落在原地,這讓很多公司都幻滅了。
企業現在意識到數據質量不可忽略。他們還知道,數據科學家不必花費80%至90%或更多的時間來清理和整理數據。必須有一種更好,更快的方法來準備好數據以供分析和AI使用。
答案是開始將機器學習視為完成這些笨拙,繁瑣的任務的高度實用的工具。因此,許多供應商都使用機器學習使預測,推薦引擎等軟件營銷更具吸引力。Tarr將其用于最沒有魅力的東西:在任何人使用任何東西進行分析,預測,營銷或出售之前,都要清理和整理大數據。它。
機器學習提示規模
市場并不完全缺乏針對數據交換問題的建議解決方案。大量的科技公司正在將它們帶出 或更新其原始產品。Stonebraker指出,這些系統中通常使用的主要技術存在關鍵缺陷。這些傳統技術包括提取,轉換,加載系統和主數據管理系統。
Stonebraker說:“一個骯臟的小秘密是技術無法擴展。”
ETL的前提 是,真正聰明的人會 為用戶想要的所有數據源提供一個全局數據模型。然后, 人員與每個業務部門 進行面談,以查看他們擁有的數據, 如何在全局數據模型中獲取數據,將其加載到數據倉庫中,等等。 過程 是人類密集的往往不是規模,按照斯通布雷克。他補充說,他們通常在數據倉庫中集成10或20個源。
這足夠嗎?讓我們看一個現實世界的公司。Tamr客戶 Toyota Motor Europe在不同國家(有時是州)設有分銷商。如果有人 在西班牙買了一輛豐田汽車,然后搬到法國, 那法國公司對車主一無所知。
總計,TME 擁有250個獨立的客戶數據庫 ,以50種語言記錄了4000萬條記錄。該公司正在 將它們集成 到單個客戶數據庫中,以解決此客戶服務問題。機器學習提供了一種可行的方法。 “我從未見過能夠 處理這種規模的ETL系統,” Stonebraker說。
Stonebraker解釋說,MDM無法擴展的原因基本上是因為它基于規則。另一個Tamr客戶,通用電氣公司(General Electric Co.),希望進行支出分析。從前一年開始,它有2000萬筆支出交易。它試圖將所有這些分類為基于規則的層次結構。
他說:“因此,通用電氣制定了500條規則,這幾乎是 任何一個人都能武裝起來的規則。” “牛逼帽子分為20萬次交易的200萬美元。 您現在有18了。 另外500條規則不會給您200萬條規則。
他指出,這就是 收益遞減的規律。斯通布雷克說: “你將不得不編寫大量 沒人能理解的規則。” “如果您不使用機器學習,那絕對是敬酒。”
文化商
Stonebraker承認,機器學習不是萬靈藥。要成為真正的數據驅動者,就需要進行技術和文化調整。實際上,根據NewVantage Partners LLC的研究,接受調查的高管中有77%的人表示,企業對其組織難以采用大數據/人工智能計劃。盡管有大量新軟件涌入市場,但仍比去年有所增加。
這些高管列舉了許多阻礙采用的障礙,其中有95%是文化或組織上的,而不是技術上的。“組織……需要制定計劃才能投入生產。Gartner公司分析師Nick Heudecker表示: “大多數人都不將大數據作為技術零售療法來對待和計劃。”
盡管如此,技術仍然在一定程度上影響著文化,反之亦然。以上案例說明了數據科學家如何花90%的時間進行篩選和排序-而不是幫助實際的混合動力設備得到維修或開發燃氣輪機。根據Stonebraker的說法,如果大數據對現實世界的企業來說可行,那么機器學習是前進的方向。
他說:“您必須用機器學習代替人類…… 人們意識到,大規模地使用 傳統的數據集成 技術是行不通的。”
年輕的公司正在解決這個問題,并將機器學習融入其產品的核心。Stonebraker說:“傳統的供應商總體上比時代落后了10年,如果您想獲得最前沿的產品,就必須去創業公司。”
這些“最前沿”的東西是否為數據貨幣化提供了簡便的途徑?它會彌補因數據沼澤而在沮喪中所花費的時間嗎?帕爾默指出,我們正在進入一個階段,可以更快地使數據“消耗”。
“這一階段會最終達到20年前30年來企業數據倉庫設定的高期望嗎?” 他說:“我不知道。但是我們肯定會越來越接近。”