您現在的位置是:首頁 >財經 > 2020-11-10 15:18:46 來源:
強化學習到底是什么如何運作
強化學習是機器學習的一個子集。它使代理能夠了解特定環境中操作的后果。例如,它可以用于教機器人新技巧。強化學習是一種行為學習模型,其中算法提供數據分析反饋,將用戶引導到最佳結果。它不同于其他形式的監督學習,因為樣本數據集不會訓練機器。相反,它是通過反復試驗來學習的。因此,一系列正確的決策將加強該方法,因為它可以更好地解決問題。
強化學習類似于我們小時候人類所擁有的東西。我們所有人都經歷了學習的強化–當您開始爬行并試圖站起來時,您一遍又一遍跌倒,但是您的父母卻在那里扶著您并教您。
它是基于經驗的教學,在這種教學中,機器必須處理之前發生的問題并尋找正確的方法。
盡管我們沒有描述獎勵政策(即游戲規則),但我們并未向模型提供任何有關如何解決游戲的提示或建議。由模型決定從隨機測試和復雜的戰術開始,如何執行任務以優化獎勵。
通過利用研究能力和多次嘗試,強化學習是表明計算機想象力的最成功方法。與人類不同,人工智能將從成千上萬的輔助游戲中獲取知識。同時,強化學習算法可在強大的計算機基礎結構上運行。
例如,在YouTube上的推薦就是強化學習的一個例子。觀看視頻后,該平臺將向您顯示您認為喜歡的類似標題。但是,假設您開始觀看推薦并且沒有完成推薦。在這種情況下,機器會理解該建議不是一個好的建議,并且下次將嘗試另一種方法。
強化學習挑戰
強化學習的主要挑戰是計劃仿真環境,該環境很大程度上取決于要執行的任務。如果接受過國際象棋,圍棋或Atari游戲的訓練,則模擬環境的準備相對容易。建立能夠駕駛自動駕駛汽車的模型,是在讓汽車駛上街道之前創建逼真的原型的關鍵。該模型必須決定如何在安全的環境中打破或防止碰撞。將模型從訓練環境轉移到現實世界變得成問題。
擴展和修改代理的神經網絡是另一個問題。除了獎勵和處罰外,沒有其他方法可以與網絡建立聯系。這可能會導致災難性的健忘,在這種情況下,獲取新信息會導致一些舊知識從網絡中刪除。換句話說,我們必須繼續在代理的“記憶”中學習。
另一個困難是到達一個合適的位置-即,代理人按原樣執行任務,但沒有以理想或要求的方式執行任務。像袋鼠一樣跳躍的“跳躍者”而不是期望他做的是一個很好的例子。最后,某些特工可以在不完成任務的情況下最大化獎品。