• 您現在的位置是:首頁 >動態 > 2021-04-17 07:40:53 來源:

    為什么聊天機器人仍然讓我們感到寒冷

    導讀 結果是,聊天機器人仍然非常不滿意。 Facebook和微軟以及一些合作機構的研究人員上周公布了一項名為第二次會話智能挑戰的正式文章,這是12

    結果是,聊天機器人仍然非常不滿意。

    Facebook和微軟以及一些合作機構的研究人員上周公布了一項名為“第二次會話智能挑戰”的正式文章,這是12月在蒙特利爾舉行的NeurIPS人工智能會議期間舉行的聊天機器人之間的競賽。

    雖然比賽發現一些更好的和一些更糟糕的聊天機器人程序,但總的來說,這些計算機的對話質量與你在網上聊天機器人的任何互動一樣缺乏。

    為什么聊天機器人仍然讓我們感到寒冷

    來自獲勝的實例 - 讓我們強調他們是獲勝者 - 神經網絡方法包括如此惱人的蠢事作為陳述序列中的不一致。例如,競爭中的頂級團隊Lost in Conversation在一個關于他們都喜歡什么的隨意談話中聘請了一個人與機器人。機器說出了“我喜歡畫畫”這句話。當人類回應“太棒了!你喜歡畫什么?” 機器不會對繪畫有所反應,而是“我喜歡畫出我喜歡的汽車的肖像”。(讓我們稱之為雙重錯誤:不僅繪畫不是繪畫,人們通常不繪制或繪制無生命物體的“肖像”。)

    其他煩惱包括在同一話語中無意識地重復短語,例如“你有沒有寵物嗎?你有寵物嗎?” 來自第二名的球隊Hugging Face。熱鬧的例子包括自相矛盾。計算機上寫著“剛讀完一本書”,一個人問道:“哪本書?” 計算機回答“我讀的不多,我更喜歡閱讀。”

    研究人員寫道,也許表明了令人厭惡的聊天機器人,通過在Facebook的Messenger應用程序上進行交談而自愿測試這些東西的人,大多數人最終調出機器人或進行“毫無意義”甚至“冒犯”的對話。那些“在野外”的免費評估是如此混亂,他們不得不從機器人的評估中完全消除。

    另一組人員獲得了在亞馬遜機械土耳其眾包平臺上測試機器的報酬。他們通常更加勤勉地堅持這項任務,毫不奇怪,因為他們得到了報酬。

    作者看著土耳其志愿者給予機器的評級,他們指出,即使是像Lost in Translation and Hugging Face這樣表現最好的神經網絡也“遭受了重復,一致性或有時'無聊'的錯誤。” 另一個缺陷是機器“問了太多問題。”

    “當模型提出太多問題時,”作者寫道,“它可以使談話變得脫節,特別是如果問題與之前的談話無關。”

    他們指出,頂級競爭對手的神經網絡“經常在幾次對話中無法自我控制”。“即使他們偶爾發生這些問題,這些問題對于一個人類說話的伙伴來說也會特別刺耳。” 人工智能還“提出已經回答的問題。一個模特問'你做什么工作?' 即使人類早先說“我在電腦上工作”導致人們回答“我只是告訴你傻”。

    論文“第二次會話智力挑戰(ConvAI2)”由Facebook AI Research的Emily Dinan,Alexander Miller,Kurt Shuster,Jack Urbanek,Douwe Kiela,Arthur Szlam,Ryan Lowe,Joelle Pineau和Jason Weston撰寫,同時來自莫斯科物理科學與技術學院的Varvara Logacheva,Valentin Malykh和Mikhail Burtsev; 蒙特利爾大學的尤利安塞爾班; Shrimai Prabhumoye,Alan W Black和Carnegie Mellon的Alexander Rudnicky; 和微軟的杰森威廉姆斯。該論文發布在arXiv預打印服務器上。

    聊天機器人的缺陷來自于盡管事實上研究人員在2017年相對于之前的競爭對手在團隊競爭的培訓和測試框架方面做了很多改進。

    這一次,作者提供了一套基準的會話數據,一年前由Dinan,Urbanek,Szlam,Kiela和Weston以及蒙特利爾Mila機器學習研究所的Saizheng Zhang發布。這個名為“Persona-Chat”的數據集包含16,064個人類發言人的話語實例,要求他們在Mechanical Turk上互相聊天。另外一組1000多個人類話語作為神經網絡的測試集保密。該數據集已提供給所有競爭研究人員,但并非所有人都使用過它。

    幫助眾包Persona-Chat的每個人都被賦予了“他們應該是誰”的形象 - 喜歡滑雪的人,或者最近有貓的人 - 以便人類對話者發揮作用。兩個發言者中的每一個都試圖在他們進行對話時保持他們的話語與該角色一致。同樣,可以在訓練期間將配置文件提供給神經網絡,因此堅持個性是競爭的嵌入式挑戰之一。

    正如作者描述的挑戰,“任務旨在模擬兩個對話者第一次見面時的正常對話,并相互了解。

    “這項任務在技術上具有挑戰性,因為它涉及提問和回答問題,以及保持一致的角色。”

    不同的團隊使用了各種方法,但特別受歡迎的是“變形金剛”,這是對典型的“長期短期記憶”的修改,或由Google的Ashish Vaswani及其同事在2017年開發的 LSTM神經網絡。

    那么為什么所有糟糕的結果呢?

    回顧這些缺點,很明顯一些問題是機器在測試時試圖提高分數的機械方式。對于表示輪廓或角色的神經網絡,機器似乎試圖通過重復句子來產生最佳分數,而不是創建真正引人入勝的句子。“我們經常觀察模型幾乎逐字逐句地重復人物句,”他們寫道,“這可能會導致高人格檢測分數但是低接合度分數。

    “訓練模型使用角色創建引人入勝的反應而不是簡單地復制它仍然是一個懸而未決的問題。”

  • 成人app