您現在的位置是:首頁 >教育 > 2020-11-19 17:16:27 來源:
DeepMind的AlphaZero為古老的棋藝注入了新的活力
國際象棋大師威廉·納皮爾(William Napier)曾說:“對于象棋來說,生命還不夠長,但這是生命的錯,而不是象棋。”該游戲的棋本身已經有一個光榮使用壽命長,具有最早在公元600年恢復古老的游戲約會的文物是古代波斯薩珊王朝。
幾個世紀以來,該游戲經歷了數百次修改,調整和增強。在估計的2,000種游戲變體中,大多數只是在最近幾年才開發出來。一個單獨的版本本身稱為Chess960(由世界象棋冠軍Bobby Fischer創建),具有960種游戲變體,每個版本都重新排列了所有游戲棋子的標準位置。
游戲的吸引力是普遍的。在過去的幾十年中,隨著計算機播放器的推出,引起了人們的興趣。計算機被證明是強大的,最終是無與倫比的敵人。1997年,IBM龐大的Deep Blue擊敗了衛冕世界國際象棋冠軍Gary Kasparov,取得了空前的勝利。到2007年,一部手機已經以9次勝利和1次平局征服了比賽挑戰者。
但是近年來,隨著玩家越來越依賴計算機象棋引擎進行游戲的制定和策略,越來越多的游戲愛好者表示了驚ster 。決定性比賽的數量也明顯減少。
正如國際象棋大師弗拉基米爾·克拉姆尼克(Vladimir Kramnik)最近對《連線》雜志說的那樣:“對于很多最高級別的游戲來說,一半的游戲(有時是一整場游戲)的記憶力不足。您計算機的準備工作。”
谷歌的DeepMind AI項目的人們開始為此做點事情。他們邀請Kramnik與AI研究人員合作,因為他們發布了AlphaZero.AlphaZero在2017年自學成敗于象棋,圍棋和將棋等游戲的專家。他們的目標是:“創造性地探索和設計新的國際象棋變體”,同時保留游戲的基本原理。
給AlphaZero提供了九個參數,這些參數可以改變游戲的主要動作,然后獨自學習游戲并制定新的取勝策略。
DeepMind在周三發布的博客中說:“通過不斷地從自身經驗中學習,該系統可以從頭開始為任何規則集學習近乎最優的策略,”
除了這9個變量之外,AlphaZero還從頭開始學習國際象棋。例如,它不知道它可以捕獲對手的棋子。它基本上是在幾個小時內學會了人類需要數年才能掌握的知識。
引入的變量為游戲帶來了新的深度,其中包括禁止擲骰子(此舉可以保護國王的身后幾步之類的動作)和自我俘獲的概念,在這種情況下,人們可以擊敗自己的民兵來實現戰略優勢。 。魚雷的另一個新元素是魚雷,它允許棋子在整個游戲中一次移動兩個空間。
DeepMind博客指出:“通過使用AlphaZero為每種變體學習接近最佳的策略,我們確定了如果采用了這些變體,則在強大的人類玩家之間的游戲會是什么樣子。我們的發現證明了現代規則之外的豐富可能性棋。”
隨著AlphaZero的發展,它從本質上重建了游戲的歷史性戰略發展,但是卻在幾個小時而不是幾個世紀的時間內進行了重建。
有人說,AlphaZero戰略比老式象棋引擎更自然地進行。英國大師馬修·薩爾德(Matthew Salder)驚嘆于AlphaZero的娛樂性和對看似無限的國際象棋策略的探索。他說,這就像“發現過去某個偉大球員的秘密筆記本”。
分析AlphaZero的策略,應用變體,甚至重新設計棋盤(就像Fischer日益流行的Chess960所做的那樣),都在推動人們將其視為對百年國際象棋藝術的重塑。