您現在的位置是:首頁 >人工智能 > 2022-08-11 16:51:25 來源:
一種新的可解釋的人工智能范式可以增強人機協作
在過去的幾十年中,人工智能(AI)方法變得越來越先進,在許多現實世界的任務中取得了顯著成果。盡管如此,大多數現有的人工智能系統并沒有與人類用戶分享他們的分析和導致他們預測的步驟,這使得可靠地評估它們極具挑戰性。
來自加州大學洛杉磯分校、加州大學圣地亞哥分校、北京大學和北京通用人工智能研究院(BIGAI)的一組研究人員最近開發了一種新的人工智能系統,可以向人類用戶解釋其決策過程。該系統在《科學機器人》雜志上發表的一篇論文中進行了介紹,它可能是朝著創建更可靠和更易于理解的人工智能邁出的新一步。
“可解釋人工智能(XAI)領域旨在建立機器人和人類之間的協作信任,而DARPAXAI項目為推進該領域的研究提供了巨大的催化劑,”該論文的第一作者之一袁路耀博士,告訴TechXplore。“在DARPAXAI項目之初,研究團隊主要專注于通過向用戶揭示AI系統的決策過程來檢查用于分類任務的模型;例如,某些模型可以可視化CNN模型的某些層,聲稱可以實現一定的XAI級別。”
袁博士和他的同事們參與了DARPAXAI項目,該項目專門針對開發新的和有前途的XAI系統。在參與該項目時,他們開始思考XAI在更廣泛意義上的含義,特別是它可能對人機協作產生的影響。
該團隊最近的論文建立在他們之前的一篇論文的基礎上,該論文也發表在《科學機器人》上,該團隊探討了可解釋系統在人機交互過程中對用戶對人工智能的感知和信任可能產生的影響。在他們過去的研究中,該團隊在物理上(即在現實世界中)實施并測試了一個人工智能系統,而在他們的新研究中,他們在模擬中對其進行了測試。
“我們的范式與DARPAXAI項目中團隊提出的幾乎所有范式形成鮮明對比,后者主要關注我們所謂的被動機器-主動用戶范式,”該項目的主管之一朱一新教授告訴TechXplore。“在這些范例中,人類用戶需要通過利用一些揭示人工智能模型潛在決策過程的模型來積極檢查并試圖弄清楚機器在做什么(因此是‘活躍用戶’)。”
遵循朱教授所說的“被動機器-主動用戶”范式的XAI系統要求用戶不斷與AI簽到以了解其決策背后的過程。在這種情況下,用戶對人工智能過程的理解和對其預測的信任不會影響人工智能未來的決策過程,這就是機器被稱為“被動”的原因。
相比之下,袁博士、朱教授及其同事引入的新范式遵循了團隊所說的主動機器-主動用戶范式。這實質上意味著他們的系統可以根據用戶即時收到的反饋主動學習和調整其決策。這種適應環境的能力是通常被稱為第三波/下一波人工智能的特征。
“為了讓人工智能系統像我們期望的那樣幫助他們的用戶,當前的系統要求用戶按照專家定義的目標進行編碼,”袁博士說。“這限制了人機協作的潛力,因為這樣的目標在許多任務中很難定義,使得大多數人無法訪問人工智能系統。為了解決這個問題,我們的工作使機器人能夠在協作過程中估計用戶的意圖和價值實時,無需事先為機器人編寫復雜和特定目標的代碼,從而提供更好的人機協作范式。”
袁博士和他的同事們創建的系統的目標是達到所謂的“價值一致性”。這實質上意味著人類用戶可以理解為什么機器人或機器以特定方式行動或得出特定結論,并且機器或機器人可以推斷人類用戶以特定方式行動的原因。這可以顯著增強人機通信。
“這種雙向性和實時性是該問題的最大挑戰,也是我們貢獻的亮點,”朱教授說。“綜合以上幾點,我想你現在應該明白為什么我們的論文題目是“原位雙向人機價值對齊”了。
為了訓練和測試他們的XAI系統,研究人員設計了一款名為“偵察探索”的游戲,在該游戲中,人類需要在團隊中完成一項任務。這個游戲最重要的方面之一是人類和機器人需要調整他們所謂的“價值功能”。
童子軍探索游戲的研究設計。時間線(A)表示在單輪游戲中發生的事件。時間線(B)和(C)分別描繪了機器人和用戶的心理動態。圖片來源:陳珍女士@BIGAI。
“在游戲中,一組機器人可以感知環境;這模擬了現實世界的應用,其中一組機器人應該自主工作,以最大限度地減少人為干預,”朱教授說。“然而,人類用戶不能直接與環境交互;相反,用戶被賦予了一個特定的價值函數,由幾個因素的重要性表示(例如,完成時間的總時間,以及在旅途中收集的資源)。”
在偵察探索游戲中,機器人團隊無法訪問賦予人類用戶的價值函數,他們需要對其進行推斷。由于這個值不容易表達和傳達,為了完成任務,機器人和人類團隊必須相互推斷。
“游戲中的交流是雙向的:一方面,機器人向用戶提出多個任務計劃并解釋每個任務的優缺點,另一方面,用戶對建議進行反饋并對每個解釋進行評分,”該論文的第一作者之一高曉峰博士告訴TechXplore。“這些雙向通信實現了所謂的價值對齊。”
本質上,要完成“偵察探索”中的任務,機器人團隊必須簡單地根據人類的反饋了解人類用戶的價值函數是什么。同時,人類用戶學習機器人的當前價值估計,并可以提供幫助他們改進的反饋,并最終引導他們做出正確的反應。
“我們還將心智理論集成到我們的計算模型中,使人工智能系統能夠生成適當的解釋,以揭示其當前價值,并在交互過程中根據用戶的反饋實時估計用戶的價值,”高博士說。“然后我們進行了廣泛的用戶研究來評估我們的框架。”
在初步評估中,由袁博士、朱教授、高博士和他們的同事創建的系統取得了顯著的效果,從而在童子軍探索游戲中實現了動態和互動的價值觀對齊。團隊發現,機器人早在游戲進行到25%時就與人類用戶的價值函數對齊,而用戶可以在游戲進行到一半左右獲得對機器價值函數的準確感知。
“(i)從機器人的價值到用戶的真實價值,以及(ii)從用戶對機器人價值的估計到機器人的當前價值,收斂配對形成了以用戶真實價值為基礎的雙向價值對齊,”博士.袁說。“我們相信,我們的框架強調了構建智能機器的必要性,這些機器通過交互來學習和理解我們的意圖和價值觀,這對于避免小說和大銀幕上描繪的許多反烏托邦科幻故事至關重要。”
這組研究人員最近的工作對專注于開發更易于理解的人工智能的研究領域做出了重大貢獻。他們提出的系統可以作為創建其他XAI系統的靈感,在這些系統中,機器人或智能助手積極與人類互動,分享他們的流程并根據他們從用戶那里收到的反饋提高他們的性能。
“價值對齊是我們邁向通用人機協作的第一步,”袁博士解釋說。“在這項工作中,價值對齊發生在單個任務的背景下。但是,在許多情況下,一組代理在許多任務中進行合作。例如,我們希望一個家用機器人幫助我們完成許多日常瑣事,而不是購買許多機器人,每個只能做一種工作。”
到目前為止,研究人員XAI系統已經取得了非常有希望的結果。在接下來的研究中,袁博士、朱教授、高博士和他們的同事計劃探索可應用于許多不同現實世界任務的人機價值對齊實例,以便人類用戶和AI代理可以積累他們在不同任務上協作時獲得的有關彼此流程和能力的信息。
“在我們接下來的研究中,我們還尋求將我們的框架應用于更多的任務和物理機器人,”高博士說。“除了價值觀之外,我們相信在人類和機器人之間協調心智模型的其他方面(例如,信念、欲望、意圖)也將是一個有希望的方向。”
研究人員希望他們新的可解釋人工智能范式將有助于加強人與機器在眾多任務上的協作。此外,他們希望他們的方法能夠增加人類對基于人工智能的系統的信任,包括智能助手、機器人、機器人和其他虛擬代理。
“例如,當Alexa或GoogleHome出錯時,你可以糾正它;但下次使用它時,它會犯同樣的錯誤,”朱教授補充道。“當你的Roomba去某個你不想讓它去的地方并試圖與之對抗時,它不會理解,因為它只遵循預先定義的AI邏輯。所有這些都禁止現代AI進入我們的家。作為第一個一步,我們的工作展示了解決這些問題的潛力,更接近于在第三次人工智能浪潮中實現DARPA所謂的‘情境適應’。”