• 您現在的位置是:首頁 >人工智能 > 2021-06-02 20:05:56 來源:

    Google開源MT5 這是一種多語言模型經過101種語言的培訓

    導讀 不甘示弱通過的Facebook和微軟本星期,他們兩人在十月下旬詳細尖端機器學習語言算法,谷歌開源了一個名為模型MT5,公司宣稱實現了國家的先

    不甘示弱通過的Facebook和微軟本星期,他們兩人在十月下旬詳細尖端機器學習語言算法,谷歌開源了一個名為模型MT5,公司宣稱實現了國家的先進成果在一系列英語自然處理任務。MT5是Google T5模型的多語言變體,已在涵蓋101種語言的數據集上進行了預訓練,包含3億至130億個參數(模型內部用于進行預測的變量),表面上具有足夠的能力來學習100多種語言而不會產生重大影響“干擾”效應。

    多語言AI模型設計的目標是建立一個可以理解世界7,000多種語言的模型。多語言AI模型在相似語言之間共享信息,這有益于資源貧乏的語言,并允許零鏡頭語言處理或模型未見過的語言處理。隨著模型尺寸的增加,它們需要較大的數據集,這些數據集可能很費力且難以創建,這導致研究人員將重點放在網絡抓取的內容上。

    MT5在MC4(C4的子集)上接受了培訓,MC4是從公共Common Crawl存儲庫中提取的約750GB英語文字的集合。(Common Crawl包含數十億個從Internet抓取的網頁。)雖然C4數據集被明確設計為僅英語,但MC4覆蓋了Common Crawl迄今為止發布的71個月度所有月度刮擦中的107種語言,具有10,000個或更多的網頁。

    有證據表明,語言模型會放大他們所訓練的數據集中存在的偏見。盡管一些研究人員聲稱目前沒有任何機器學習技術可以充分防止有害輸出,但Google研究人員試圖通過對MC4文檔中的行進行重復數據刪除和過濾包含不良詞的頁面來減輕MT5中的偏差。他們還使用工具檢測了每個頁面的主要語言,并刪除了置信度低于70%的頁面。

    谷歌表示,最大的MT5模型(具有130億個參數)超過了2020年10月所測試的所有基準測試。其中包括Xtreme多語言基準測試的五項任務;XNLI涵蓋任務涵蓋14種語言;XQuAD,MLQA和TyDi QA閱讀理解基準分別使用10、7和11種語言;以及具有7種語言的PAWS-X復述識別數據集。

    當然,基準是否充分反映模型的真實性能是一個爭論的話題。一些研究表明,開放域問答模型(理論上可以用新穎答案回答新穎問題的模型)通常只是根據數據集簡單地記住在訓練數據中找到的答案。但是Google研究人員斷言MT5是邁向功能強大的模型的一步,這些功能不需要具有挑戰性的建模技術。

    “總體而言,我們的研究結果突出了模型能力在跨語言表示學習中的重要性,并建議通過(依靠)……過濾,并行數據或中間任務來擴展簡單的預訓練方法可能是一種可行的選擇。”在描述MT5的論文中寫道。“我們證明了T5配方可直接適用于多種語言環境,并在各種基準測試中均表現出色。”

  • 成人app