增强学习(三)----- MDP的动态规划解法
生活随笔
收集整理的這篇文章主要介紹了
增强学习(三)----- MDP的动态规划解法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
上一篇我們已經說到了,增強學習的目的就是求解馬爾可夫決策過程(MDP)的最優策略,使其在任意初始狀態下,都能獲得最大的Vπ值。(本文不考慮非馬爾可夫環境和不完全可觀測馬爾可夫決策過程(POMDP)中的增強學習)。
那么如何求解最優策略呢?基本的解法有三種:
動態規劃法(dynamic programming methods)
蒙特卡羅方法(Monte Carlo methods)
時間差分法(temporal difference)。
動態規劃法是其中最基本的算法,也是理解后續算法的基礎,因此本文先介紹動態規劃法求解MDP。本文假設擁有MDP模型M=(S, A, Psa, R)的完整知識。
1. 貝爾曼方程(Bellman Equation)
上一篇我們得到了Vπ和Qπ的表達式,并且寫成了如下的形式
在動態規劃中,上面兩個式子稱為貝爾曼方程,它表明了當前狀態的值函數與下個狀態的值函數的關系。
優化目標π*可以表示為:
分別記最優策略π*對應的狀態值函數和行為值函數為V*(s)和Q*(s, a),由它們的定義容易知道,V*(s)和Q*(s, a)存在如下關系:
狀態值函
總結
以上是生活随笔為你收集整理的增强学习(三)----- MDP的动态规划解法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 增强学习(四) ----- 蒙特卡罗方法
- 下一篇: 增强学习(二)----- 马尔可夫决策过