您現在的位置是:首頁 >市場 > 2020-10-29 14:39:21 來源:
綜合數據的真正希望
每年,世界產生的數據都比前一年更多。根據國際數據公司(International Data Corporation)的數據,僅在2020年,估計將“創建,捕獲,復制和使用” 59 ZB的數據,足以填充大約1萬億兆的64 GB硬盤。
但是,僅僅因為數據激增并不意味著每個人都可以實際使用它們。正確關心用戶隱私的公司和機構通常會限制對數據集的訪問,有時是在自己的團隊中。現在,COVID-19大流行已經關閉了實驗室和辦公室,阻止人們訪問集中式數據存儲,安全地共享信息變得更加困難。
如果無法訪問數據,則很難使工具真正起作用。輸入合成數據:人工信息開發人員和工程師可以用作真實數據的替代者。
合成數據有點像減肥汽水。為了有效,它必須在某些方面類似于“真實的事物”。減肥汽水的外觀,味道和泡沫應該像普通汽水一樣。同樣,合成數據集必須具有與實際數據集相同的數學和統計屬性。“看起來很像,而且格式也很像,” Kalyan Veeramachaneni說,他是MIT信息與決策系統實驗室的首席數據科學家,也是AI數據研究所(DAI)的首席研究員。如果它通過模型運行,或者用于構建或測試應用程序,則其性能將與真實數據一樣。
但是,就像低碳蘇打水比常規蘇打水具有更少的卡路里一樣,合成數據集在關鍵方面也必須與真實數據集有所不同。例如,如果它基于真實數據集,則不應包含甚至暗示該數據集中的任何信息。
給該針穿線很棘手。經過多年的工作,Veeramachaneni和他的合作者最近推出了一套開源數據生成工具-一站式商店,用戶可以在其中以表格到時間序列的格式獲取項目所需的盡可能多的數據。他們稱其為“合成數據倉庫”。
在保持隱私的同時最大化訪問權限
Veeramachaneni和他的團隊于2013年首次嘗試創建綜合數據。他們的任務是分析來自在線學習程序edX的大量信息,并希望吸引一些MIT學生來提供幫助。數據非常敏感,無法與這些新員工共享,因此該團隊決定創建供學生使用的人工數據-假設“一旦他們編寫了處理軟件,我們就可以在實際數據上使用它”,Veeramachaneni說。