您現在的位置是:首頁 >要聞 > 2020-12-17 08:43:20 來源:
人形機器人共語音手勢生成的端到端學習
韓國電子與電信研究所(ETRI)的研究人員最近開發了一種神經網絡模型,該模型可以生成同聲手勢序列。他們的模型經過TED演講長達52個小時的訓練,成功產生了與語音內容相匹配的類人手勢。
進行這項研究的研究人員之一Youngwoo Yoon對TechXplore表示:“我們正在與之交互的智能設備已經從個人計算機發展到手機和智能揚聲器。” “我們認為社交機器人可以成為下一個交互平臺。物理運動是社交機器人與其他智能設備之間的主要區別之一,為模仿人或動物的行為開辟了新的可能性,可以增加親密感。”
同語音手勢可以極大地改善人類與社交機器人之間的交互質量。現有的大多數機器人都使用基于規則的語音手勢關聯方法來產生手勢。但是,這些技術需要大量的努力,因為它們基于人類的專業知識和知識。
尹恩說:“我們希望產生自然的和人類般的社交行為,尤其是說話時的手勢。” “觀察他人是學習新行為的非常自然的方式,因此我們提出了一種基于學習的手勢生成 模型,該模型在TED演講的數據集上進行了訓練。”
Yoon和他的同事設計的模型在包含TED演講的52小時視頻鏡頭的數據集上進行了訓練。訓練后,該模型可以生成類似于人的手勢和上身姿勢的序列,以匹配書面語音文本。
Yoon解釋說:“設計機器人的社會行為既困難又費時,因為我們必須考慮環境,自然性,運動的美感,機器人的控制空間以及許多其他因素。” “最近的端到端學習研究揭示了人工智能產生這種復雜行為的潛力。在看到自動駕駛和面部運動生成成功應用后,我們決定將端到端學習應用于語音合成手勢生成。”
Yoon和他的同事開發的神經網絡模型成功生成了幾種類型的手勢,包括標志性,隱喻,指示性和拍打手勢。而且,它能夠為任何長度的語音文本生成連續的手勢序列。
研究人員發現,他們的方法在創建類似于人類的手勢方面優于基線方法。在一項主觀評估中,在Amazon Mechanical Turk上招募的46個人認為該手勢所產生的手勢類似于人,并且與語音內容非常匹配。
Yoon說:“我們發現機器人可以學習社交技能。” “對于共語音手勢的生成,在大規模數據集上訓練的模型足夠通用,因此機器人可以為任何語音做出類似人的手勢。我們認為這種方法可以應用于其他社交技能,以及視頻游戲和VR世界中的角色。”
Yoon和他的同事進行的這項研究強調了端到端學習對于共語音手勢生成的潛力。在未來,它可以被用來提高人-機器人互動,還可能激發類似的研究,作為TED演講集他們使用的是公開的。研究人員現在正計劃通過為不同的機器人生成個性化手勢來使他們的研究向前邁進一步。
Yoon說:“機器人可能像人一樣有自己的個性。” “個性化的手勢生成方法可以確保不同的機器人根據其角色來表達自己不同的手勢樣式。”