• 您現在的位置是:首頁 >人工智能 > 2022-07-21 16:48:42 來源:

    開源平臺支持隱私保護機器學習研究

    導讀 密歇根大學的研究人員已開源發布了迄今為止最大的基準數據集,用于機器學習技術的設計并考慮到數據隱私。這種稱為聯合學習的方法在最終用戶

    密歇根大學的研究人員已開源發布了迄今為止最大的基準數據集,用于機器學習技術的設計并考慮到數據隱私。這種稱為聯合學習的方法在最終用戶設備(如智能手機和筆記本電腦)上訓練學習模型,而不需要將私人數據傳輸到中央服務器。

    “通過在生成數據的地方進行現場訓練,我們可以在更大的真實世界數據上進行訓練,”UM 計算機科學與工程博士生 Fan Lai 解釋說,他在國際機器學習會議上展示了 FedScale 訓練環境本星期。

    “這也使我們能夠減輕與將原始數據從最終用戶設備收集到云中相關的隱私風險以及高昂的通信和存儲成本,”賴說。

    聯邦學習仍然是一項新技術,它依賴于一種充當集中協調器的算法。它將模型交付給設備,在相關用戶數據上對其進行本地訓練,然后將每個經過部分訓練的模型帶回并使用它們生成最終的全局模型。

    對于許多應用程序,此工作流程提供了額外的數據隱私和安全保護。消息應用程序、醫療保健數據、個人文檔和其他敏感但有用的培訓材料可以改進模型,而不必擔心數據中心漏洞。

    除了保護隱私外,聯邦學習還可以通過減少甚至消除大數據傳輸來使模型訓練更加資源高效,但在廣泛使用之前它面臨著一些挑戰。跨多個設備進行培訓意味著無法保證可用的計算資源,并且用戶連接速度和設備規格等不確定性會導致數據選項池質量參差不齊。

    “聯邦學習作為一個研究領域正在迅速發展,”密歇根大學計算機科學與工程副教授 Mosharaf Chowdhury 說。“但大部分工作都使用了少數數據集,這些數據集非常小,并不代表聯邦學習的許多方面。”

    這就是 FedScale 的用武之地。該平臺可以在幾個 GPU 和 CPU 上模擬數百萬用戶設備的行為,使機器學習模型的開發人員能夠探索他們的聯合學習程序將如何執行,而無需大規模部署。它服務于各種流行的學習任務,包括圖像分類、對象檢測、語言建模、語音識別和機器翻譯。

    “任何在最終用戶數據上使用機器學習的東西都可以聯合起來,”Chowdhury 說。“應用程序應該能夠學習和改進它們提供服務的方式,而無需實際記錄用戶所做的一切。”

    作者指定了幾個必須考慮的條件才能真實地模擬聯邦學習體驗:數據的異質性、設備的異質性、異質的連接性和可用性條件,所有這些都能夠在各種機器學習任務上以多尺度運行。Chowdhury 表示,FedScale 的數據集是迄今為止發布的最大的數據集,專門針對聯邦學習中的這些挑戰。

    “在過去的幾年里,我們收集了幾十個數據集。原始數據大多是公開的,但很難使用,因為它們有各種來源和格式,”賴說。“我們也在不斷努力支持大規模的設備上部署。”

    FedScale 團隊還推出了排行榜,以推廣在 UM 系統上訓練的最成功的聯邦學習解決方案。

  • 成人app