您現在的位置是:首頁 >要聞 > 2020-12-11 08:17:22 來源:
新研究有助于消除社交媒體的錯誤信息
賴斯大學的研究人員發現了一種更有效的方法,可以使社交媒體公司使用經過人工智能訓練的概率過濾器來防止錯誤信息在網上傳播。賴斯計算機科學家Anshumali Shrivastava和統計專業的研究生Dai Zhenwei今天在僅在線的2020年神經信息處理系統大會(NeurIPS 2020)上發表的一項研究中概述了掃描社交媒體的新方法。他們的方法以更智能的方式應用了機器學習,以改善Bloom濾波器的性能,Bloom濾波器是半個世紀前設計的一種廣泛使用的技術。
通過使用虛假新聞和計算機病毒的測試數據庫,Shrivastava和Dai展示了他們的自適應學習型Bloom過濾器(Ada-BF)所需的內存減少了50%,以實現與學習型Bloom過濾器相同的性能水平。
為了解釋他們的過濾方法,Shrivastava和Dai引用了Twitter的一些數據。這家社交媒體巨頭最近透露,其用戶每天增加約5億條推文,而這些推文通常在用戶點擊“發送”后一秒鐘就在線出現。
Shrivastava說:“在選舉期間,他們每秒收到約10,000條推文,而一秒鐘的延遲大約是每毫秒六條推文。” “如果您想應用一個過濾器來讀取每條推文,并用已知為偽造的信息標記這些推文,則您的標記機制不能慢于6毫秒,否則您將落在后面而永不追趕。”
如果發送標記的tweet進行額外的手動審核,則低假陽性率也至關重要。換句話說,您需要最大程度地減少錯誤標記的真實推文數量。
他說:“如果您的假陽性率低至0.1%,那么即使您錯誤地將每秒10條推文(或每天超過80萬條)標記為要人工審核,” “這就是為什么大多數傳統的僅使用AI的方法禁止控制錯誤信息的原因。”
Shrivastava表示,Twitter并未透露其過濾推文的方法,但據信它們采用了Bloom過濾器,Bloom過濾器是1970年發明的一種低內存技術,用于檢查特定數據元素(例如一段計算機代碼)是否是其中的一部分已知元素集的集合,例如已知計算機病毒的數據庫。布隆過濾器可以確保找到與數據庫匹配的所有代碼,但它也會記錄一些誤報。
Shrivastava說:“假設您發現了一條錯誤信息,并希望確保它不會在推文中傳播。” “ Bloom過濾器可讓您在百萬分之一秒或更短的時間內非常快地檢查tweet。如果它說tweet是干凈的,則它與您的錯誤信息數據庫中的任何內容都不匹配,這是100%保證的。因此沒有可以通過已知的錯誤信息發送一條推文。但是Bloom過濾器會在很短的時間內標記無害的推文。”
在過去三年中,研究人員提供了各種使用機器學習的方案,以增強Bloom過濾器并提高其效率。可以訓練語言識別軟件來識別和批準大多數推文,從而減少需要使用Bloom過濾器處理的數量。機器學習分類器的使用可以減少過濾數據所需的計算開銷,從而使公司可以在更短的時間內使用相同的資源處理更多的信息。
“當人們今天使用機器學習模型時,他們浪費了許多來自機器學習模型的有用信息,”戴說。
典型的方法是設置容差閾值,并將低于該閾值的所有內容發送到Bloom過濾器。如果置信度閾值為85%,則意味著分類器認為安全性為80%的信息所接受的檢查級別與僅10%的信息相同。
戴說:“即使我們不能完全依靠機器學習分類器,它仍然可以為我們提供有價值的信息,可以減少Bloom過濾器資源的數量。” “我們所做的是概率性地應用這些資源。當分類器只有10%的置信度時,我們會提供更多的資源;而當分類器只有20%的置信度時,我們會提供較少的資源,依此類推。我們將整個分類器用于分析并使用可以從布隆過濾器分配的全部資源。”
Shrivastava說,Ada-BF減少的內存需求直接轉化為實時過濾系統的額外容量。
他說:“我們需要一半的空間。” “因此,實質上,我們可以使用相同的資源處理兩倍的信息。”