您現在的位置是:首頁 >要聞 > 2020-12-25 08:19:13 來源:
DeepMind的MuZero可以征服并學習規則
愛因斯坦(Albert Einstein)曾經說過:“您必須學習游戲規則,然后才能比其他人玩得更好。” 這很可能是DeepMind的座右銘,因為一份新的報告顯示它已經開發了一個程序,可以在不知道規則的情況下掌握復雜的游戲。
Alphabet的子公司DeepMind此前曾通過加強學習來開創性的進步,該課程教授掌握中國棋盤游戲Go和日本戰略游戲Shogi以及國際象棋和具有挑戰性的Atari電子游戲的程序。在所有這些情況下,計算機都被賦予了游戲規則。
但是《自然》雜志今天報道說,DeepMind的MuZero在沒有首先學習規則的情況下也完成了相同的壯舉,并且在某些情況下擊敗了早期的程序。
DeepMind的程序員依賴于稱為“超前搜索”的原理。通過這種方法,MuZero可以根據對手的反應來評估許多潛在的舉動。雖然在象棋這樣的復雜游戲中可能會有驚人數量的潛在動作,但MuZero優先考慮最相關和最可能的動作,從成功的技巧中學習,并避免失敗的技巧。
據研究人員稱,在與雅達利(Atari)的吃豆女士(Pac-Man)對抗時,MuZero只能考慮考慮六到七個潛在的未來舉動,但仍然表現出色。
“實際上,我們首次擁有了一個系統,能夠建立自己對世界運作方式的理解,并利用這種理解來進行這種復雜的預見性計劃,這是您以前在象棋這樣的游戲中所見過的,” DeepMind的首席研究科學家David Silver說。MuZero可以“從零開始,通過反復試驗,發現世界規則,并使用這些規則實現某種超人的表現。”
Silver預計MuZero的應用將比單純的游戲更多。視頻壓縮已經取得了進展,考慮到大量不同的視頻格式和多種壓縮模式,這是一項艱巨的任務。到目前為止,它們的壓縮率提高了5%,這對Google擁有的公司而言可謂是不小的壯舉,該公司還處理著世界第二受歡迎的網站YouTube上巨大的視頻緩存,其中十億小時的內容每天查看。(排名第一的網站?Google。)
西爾弗說,實驗室還正在研究機器人程序設計和蛋白質結構設計,這有望使藥物個性化生產。