您現在的位置是:首頁 >要聞 > 2020-12-10 09:21:20 來源:
新研究測試機器學習以檢測世界語言中的借用單詞
導讀 秘魯天主教大學和馬克斯·普朗克人類歷史科學研究所的研究人員研究了機器學習算法使用一種語言中的單詞列表來識別詞匯借用的能力。發表在《
秘魯天主教大學和馬克斯·普朗克人類歷史科學研究所的研究人員研究了機器學習算法使用一種語言中的單詞列表來識別詞匯借用的能力。發表在《PLOS ONE》雜志上的結果表明,僅當前的機器學習方法不足以進行借位檢測,這證明需要額外的數據和專家知識來應對歷史語言學最緊迫的挑戰之一。
詞匯借用或單詞從一種語言直接轉移到另一種語言已經引起了幾千年的學者的興趣,這在柏拉圖的Kratylos對話中得到了證明,蘇格拉底在對話中討論了借用單詞對詞源學研究帶來的挑戰。在歷史語言學中,詞匯借用可幫助研究人員追蹤現代語言的發展,并指出不同語言群體之間的文化聯系(無論是近期的還是古代的)。但是,用于識別借用單詞的技術卻難以形式化,要求研究人員依賴各種代理信息以及多種語言的比較。
主持這項研究的約翰·馬蒂斯·李斯特說:“詞匯借用的自動檢測仍然是我們在計算歷史語言學中面臨的最困難的任務之一。”
在當前的研究中,來自PUCP和MPI-SHH的研究人員采用了不同的機器學習技術來訓練語言模型,這些模型模仿了語言學家在僅考慮一種語言提供的證據時識別借用的方式:聲音或聲音的組合方式當將它們與同一種語言的其他單詞進行比較時,形成單詞是非典型的,這通常暗示了最近的借用。然后將模型應用于世界貸款數據庫的修改版本,該數據庫是世界各地不同語言家族的40種語言樣本的借入信息目錄,目的是查看給定語言中的單詞將被分類為:是否借用了不同的技術。
在許多情況下,結果令人不滿意,這表明借詞檢測對于最常用的機器學習方法來說太困難了。但是,在特定情況下,例如在外來詞比例很高的列表中或外來詞主要來自單一捐助者語言的語言中,團隊的詞匯語言模型顯示出一定的希望。