• 您現在的位置是:首頁 >財經 > 2021-04-28 22:29:02 來源:

    谷歌發布了用于培訓AI模型的開源強化學習框架

    導讀 強化學習 - 一種人工智能(AI)技術,使用獎勵(或懲罰)來驅動代理人朝著特定目標前進 - 訓練系統擊敗Alpha Go世界冠軍并掌握Valve的Dota

    強化學習 - 一種人工智能(AI)技術,使用獎勵(或懲罰)來驅動代理人朝著特定目標前進 - 訓練系統擊敗Alpha Go世界冠軍并掌握Valve的Dota 2。它是谷歌子公司DeepMind的深度Q網絡(DQN)的核心部分,它可以在多個工作人員中分配學習,例如,在Atari 2600游戲中實現“超人”性能。麻煩的是,強化學習框架需要時間來掌握一個目標,往往是不靈活的,并不總是穩定的。

    這就是谷歌提出替代方案的原因:基于TensorFlow的開源強化框架,它是機器學習庫。 從今天開始,它可以從Github獲得 。

    “受到大腦中獎勵動機行為的主要成分之一的啟發,并反映了神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可以推動激進發現的那種投機性研究,”Pablo Samuel Castro和Google Brain Team的研究人員Marc G. Bellemare在一篇博文中寫道。“這個版本還包括一組闡明如何使用我們框架的colabs。”

    谷歌發布了用于培訓AI模型的開源強化學習框架

    他們和Google Brain團隊開發了強化框架,其中考慮了三個原則:靈活性,穩定性和可重復性。

    為此,它包括一套精心編寫的代碼(15個Python文件),專注于街機學習環境 - 一個用視頻游戲評估AI技術的平臺 - 以及四種不同的機器學習模型:上述DQN; C51; Rainbow代理的簡化版本; 和隱式分位數網絡。為了重現性,代碼在Arcade學習環境支持的60個游戲中提供完整的測試覆蓋率和訓練數據(以JSON和Python pickle格式),并遵循標準化經驗評估結果的最佳實踐。

    除了增強框架的發布,谷歌還推出了一個網站,允許開發人員快速可視化多個代理的培訓運行。它還提供經過訓練的模型,原始統計日志和TensorFlow事件文件,用于TensorBoard繪圖,TensorBoard是Mountain View公司的TensorFlow程序可視化工具套件。

    “我們的希望是,我們的框架的靈活性和易用性將使研究人員能夠嘗試新的思想,包括增量和激進,”Bellemare和Castro寫道。“我們已經積極地將它用于我們的研究,并發現它使我們能夠靈活地快速迭代許多想法。我們很高興看到更大的社區可以做些什么。

  • 成人app