您現在的位置是:首頁 >綜合 > 2021-04-29 12:52:38 來源:
IBM研究人員培訓AI遵循道德準則
近年來,人工智能算法已經非常擅長向用戶推薦內容 - 你可能會說,這有點太好了。技術公司使用AI根據用戶對內容的反應來優化他們的推薦。這對于提供內容的公司來說是好事,因為它會導致用戶在應用程序上花費更多時間并產生更多收入。
但對公司有利的事情并不一定對用戶有利。通常,我們想要看到的并不一定是我們應該看到的。但是,那些商業模式依賴于竊取我們越來越多的注意力的公司如何尊重道德規范,同時為用戶提供優質內容?
為了應對這一挑戰,IBM研究院的一個科學家團隊與麻省理工學院媒體實驗室合作開發了一種人工智能推薦技術,該技術在優化用戶偏好的結果的同時,也確保其符合其他約束條件,例如道德規范和行為準則。在IBM Research的人工智能倫理全球領導者Francesca Rossi的帶領下,科學家團隊在電影推薦系統中展示了AI的功能,允許家長為孩子設定道德約束。
之前曾嘗試將道德規則集成到AI算法中,但它們主要基于靜態規則。例如,用戶可以指定算法應該避免推薦的特定插座或新聞類別。雖然這種方法可以在某些環境中使用,但它有其局限性。
“定義明確的規則集很容易,” IBM研究員Nicholas Mattei說。“但是在互聯網上的很多東西中,在擁有大量數據的地區,你不能總是寫下你希望機器遵循的所有規則。”
為了解決這個問題,Mattei和他的同事開發的方法使用機器學習來通過實例來定義規則。“我們認為,通過實例學習什么是合適的,然后轉移這種理解,同時仍然對在線獎勵反應是一個非常有趣的技術問題,”Mattei說。
以身作則教授道德規范
研究人員選擇電影推薦作為演示項目,因為相當多的電影相關數據已經存在,并且它是一個用戶偏好和道德規范之間的差異清晰可見的領域。例如,父母不希望視頻流服務向他們的孩子提供不適當的內容,即使他們的孩子對他們表現出積極的反應。
AI推薦技術使用兩個不同的訓練階段。第一階段發生離線,這意味著它發生在系統開始與最終用戶交互之前。在此階段,仲裁器給出系統示例,用于定義推薦引擎應遵守的約束。然后,AI會檢查這些示例以及與它們相關的數據,以創建自己的道德規則。與所有機器學習系統一樣,您提供的示例越多,數據越多,創建規則的效果就越好。
在電影推薦的情況下,在離線訓練階段,父母向AI提供一組適當和不適當內容的示例。“系統應該能夠從這些例子中學習,并使用這些例子在與其他用戶,孩子一起工作時不推薦某些類型的內容,”Mattei說。
培訓的第二階段在線與最終用戶直接互動。與傳統的推薦系統一樣,AI試圖通過針對用戶的偏好優化其結果并顯示用戶更傾向于與之交互的內容來最大化其獎勵。
由于滿足道德約束和用戶偏好有時可能是沖突的目標,仲裁者可以設置一個閾值,定義每個人獲得多少優先級。在IBM提供的演示中,一個滑塊允許父母選擇道德原則和孩子的偏好之間的平衡。
很容易看出這個系統如何幫助解決與AI推薦系統工作方式相關的其他問題。IBM研究人員還在醫療保健中測試了該技術,他們使用該算法通過在測試環境中在藥物成功變量和生活質量約束之間建立平衡來確定最佳藥物劑量。
該團隊還致力于改進系統可以訓練的示例類型。研究小組的負責人羅西說:“我們還嘗試了不僅是肯定/沒有約束的例子,而是像優先事項那樣的事情,這樣我們就可以在提供道德行為示例方面更加清晰。”
并非沒有限制
將來,研究團隊將致力于使AI能夠在更復雜的情況下工作。“在這個用例中,我們專注于單一建議,例如是否應該推薦特定的電影,”羅西說。“我們計劃擴大這項工作,以便能夠對行動序列施加限制。”
這樣的改變將使算法能夠解決其他類型的問題,例如濾泡泡和技術成癮,其中一個無害的動作(例如檢查手機上的通知或從有偏見的來源閱讀新聞)在重復時會產生不利影響長期或與其他類似的行為相結合。
雖然Rossi和她的同事開發的方法在親子或醫患情況下表現良好,但在只涉及一個用戶的環境中會遇到限制,這占我們在互聯網上使用的大多數應用程序。在這種情況下,用戶將負責定義他們自己的道德準則和約束。
“在一些更個性化的系統中,你可能能夠表達一些高級別的想法,比如'我希望看到更多種類'或'我希望花更少的時間在手機上',”Mattei說。“但如果你能表達它們,你也可以覆蓋它們。你必須表達自己的美德并堅持下去。“
解決方案可能是讓用戶選擇家庭成員的朋友來設置和控制規則,正如一些技術高管已經嘗試過的那樣。這可能是IBM研究團隊在更廣泛的工程道德推理項目中繼續與麻省理工學院媒體實驗室合作時所探討的問題的一部分。
IBM研究人員將于7月17日在瑞典斯德哥爾摩舉行的第27屆國際人工智能聯合會議上展示他們的算法。
Ben Dickson是一名軟件工程師,也是TechTalks的創始人, TechTalks是一個博客,探討技術解決和創造問題的方式。