增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡羅方法的基本思想
蒙特卡羅方法又叫統計模擬方法,它使用隨機數(或偽隨機數)來解決計算的問題,是一類重要的數值計算方法。該方法的名字來源于世界著名的賭城蒙特卡羅,而蒙特卡羅方法正是以概率為基礎的方法。
一個簡單的例子可以解釋蒙特卡羅方法,假設我們需要計算一個不規則圖形的面積,那么圖形的不規則程度和分析性計算(比如積分)的復雜程度是成正比的。而采用蒙特卡羅方法是怎么計算的呢?首先你把圖形放到一個已知面積的方框內,然后假想你有一些豆子,把豆子均勻地朝這個方框內撒,散好后數這個圖形之中有多少顆豆子,再根據圖形內外豆子的比例來計算面積。當你的豆子越小,撒的越多的時候,結果就越精確。
2. 增強學習中的蒙特卡羅方法
現在我們開始講解增強學習中的蒙特卡羅方法,與上篇的DP不同的是,這里不需要對環境的完整知識。蒙特卡羅方法僅僅需要經驗就可以求解最優策略,這些經驗可以在線獲得或者根據某種模擬機制獲得。
要注意的是,我們僅將蒙特卡羅方法定義在episode task上,所謂的episode task就是指不管采取哪種策略π,都會在有限時間內到達終止狀態并獲得回報的任務。比如玩棋類游戲,在有限步數以后總能達到輸贏或者平局的結果并獲得相應回報。
那么什么是經驗呢?經驗其實就是訓練樣本。比如在初始狀態s,遵循策略π,最終獲得了總回報R,這就是一個樣本。如果我們有許多這樣的樣本,就可以估計在狀態s下,遵循策略π的期望回報,也就是狀態值函數Vπ(s)了。蒙特卡羅方法就是依靠樣本的平均回報來解決增強學習問題的。
盡管蒙特卡羅方法和動態規劃方法存在諸多不同,但是蒙特卡羅方法借鑒了很多動態規劃中的思想。在動態規劃中我們首先進
總結
以上是生活随笔為你收集整理的增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 增强学习(五)----- 时间差分学习(
- 下一篇: 增强学习(三)----- MDP的动态规