• 您現在的位置是:首頁 >綜合 > 2021-04-30 23:20:38 來源:

    研究結果在AI風格傳輸數據集中具有無與倫比的質量

    導讀 為了尋找改進計算機文本翻譯的靈感,達特茅斯學院的研究人員轉向圣經尋求指導。結果是在各種版本的神圣文本上訓練的算法可以將書面作品轉換

    為了尋找改進計算機文本翻譯的靈感,達特茅斯學院的研究人員轉向圣經尋求指導。結果是在各種版本的神圣文本上訓練的算法可以將書面作品轉換成針對不同觀眾的不同風格。

    可以廣泛使用互聯網工具來翻譯英語和西班牙語等語言。創建樣式轉換器 - 使文本保持相同語言但轉換樣式的工具 - 出現的速度要慢得多。在某種程度上,由于難以獲得所需的大量數據,開發譯員的努力受到了阻礙。這是研究小組轉向圣經的地方。

    研究結果在AI風格傳輸數據集中具有無與倫比的質量

    除了成為全球許多人的精神指導之外,達特茅斯領導的團隊還在圣經中看到了“一個大型的,以前尚未開發的對齊平行文本數據集”。除了提供無限的靈感之外,圣經的每個版本都包含超過31,000節經文,研究人員用這些經文為機器學習訓練集生成超過150萬個源和目標經文的獨特配對。

    根據發表在皇家學會開放科學雜志上的研究,這不是第一個為風格翻譯創建的并行數據集。但它是第一個使用圣經的人。過去使用的其他文本,從莎士比亞到維基百科條目,提供的數據集要么小得多,要么不適合學習風格翻譯的任務。

    “英語圣經有許多不同的書面風格,使其成為風格翻譯的完美源文本,”達特茅斯博士生,該研究論文的主要作者基思卡爾森說。

    作為研究團隊的一個額外好處,圣經已經被書籍,章節和詩歌數字的一致使用完全編入索引。跨版本的文本的可預測組織消除了可能由匹配相同文本的不同版本的自動方法引起的對齊錯誤的風險。

    “圣經是一個'神圣的'數據集,可用于研究這項任務,”達特茅斯計算機科學教授丹尼爾洛克莫爾說,他是這項研究的作者。“幾個世紀以來,人類一直在執行組織圣經文本的任務,因此我們不必將信仰置于不太可靠的對齊算法中。”

    為了定義研究的“風格”,研究人員參考句子長度,被動或主動語音的使用,以及可能導致文本具有不同程度的簡單性或形式的單詞選擇。根據這項研究:“不同的措辭可能會傳達不同程度的禮貌或對讀者的熟悉程度,顯示關于作者的不同文化信息,對某些人群更容易理解。”

    該團隊使用了34種風格獨特的圣經版本,其語言復雜程度從“詹姆斯國王版”到“基礎英語圣經”。這些文本被輸入兩種算法 - 一種稱為“摩西”的統計機器翻譯系統和一種常用于機器翻譯的神經網絡框架“Seq2Seq”。

    雖然使用了不同版本的圣經來訓練計算機代碼,但最終可以開發出能夠為不同受眾翻譯任何書面文本風格的系統。例如,風格翻譯可以從“Moby Dick”中選擇英語,并將其翻譯成適合年輕讀者,非英語母語人士或各種受眾中的任何一種的不同版本。

    “文本簡化只是一種特定類型的風格轉移。更廣泛地說,我們的系統旨在生成與原文具有相同含義的文本,但使用不同的單詞,”卡爾森說。

    達特茅斯學院在計算機科學領域有著悠久的創新歷史。“人工智能”一詞是在1956年創建AI研究學科的會議期間在達特茅斯創造的。其他進步包括BASIC的設計 - 第一個通用和可訪問的編程語言 - 以及為現代操作系統做出貢獻的達特茅斯時間共享系統。

  • 成人app