kl散度度量分布_强化学习新思潮1:值分布强化学习(04)
經(jīng)典強(qiáng)化學(xué)習(xí)有比較好的理論保證,盡管值分布強(qiáng)化學(xué)習(xí)的效果很好,但理論分析比較少。本文繼續(xù)介紹值分布強(qiáng)化學(xué)習(xí)算法的理論分析。參考論文為“An Analysis of Categorical Distributional Reinforcement Learning”。
Wasserstein 度量
Bellemare等在他們的第一篇值分布強(qiáng)化學(xué)習(xí)論文“A Distributional Perspective on Reinforcement Learning”中給出了一個重要的引理。
引理3:分布式貝爾曼操作符
對于 來說是 收縮的。我們并不證明引理3,但要說明引理3中每個符號,以及引理3在說什么事情。
首先要說明符號
, 這個符號來源于Wasserstein度量。Wasserstein度量在最近兩年的機(jī)器學(xué)習(xí)中被廣泛討論和應(yīng)用,該度量被引起廣泛關(guān)注來源于2017年的Arjovsky寫的“神文”:”Wasserstein GAN”。在該論文中,作者指出Wasserstein度量比之前廣泛應(yīng)用的KL散度更適合做損失函數(shù)。一個重要的原因是KL散度無法度量支集沒有交疊的兩個概率分布,而Wasserstein卻可以很好地描述任意概率分布之間的距離。
下面我們看看Wasserstein度量的定義:
Wasserstein距離俗稱“推土機(jī)”距離,是指將概率分布為
的土挪成概率分布為 的土所需要的“消耗”。更學(xué)術(shù)的語言表達(dá)為:
其中
表示邊緣分布分別為 和 所有聯(lián)合概略分布 的集合。直觀上來說, 表示多少“質(zhì)量”必須從x處運(yùn)輸?shù)統(tǒng).用更形象的圖像來表示為:
如圖13為Wasserstein的圖像解釋,將概率分布
變?yōu)楦怕史植? 最小的代價如圖13中的移動方式。圖13 Wasserstein度量圖解p-Wasserstein距離的定義是原Wasserstein距離定義的泛化,即利用兩個概率分布的 階矩來定義,定義如下:
其中
表示下界,即表示最小值。 為邊際分布為 的所有的聯(lián)合概率分布。該定義(2)式與定義(1)式類似。對于有限馬爾科夫決策過程,狀態(tài)行為對的個數(shù)為
,因此在每個狀態(tài)行為對處都有一個分布,我們用所有點(diǎn)處的p-Wasserstein距離的上界來度量兩個概率分布集的距離,即supremum-p-Wasserstein 度量 定義為:有了這些定義,我們再次闡述一遍Bellemare等在2017年的論文“A Distributional Perspective on Reinforcement Learning” 中的引理
引理1:分布式貝爾曼操作符
在上界p-Wasserstein度量下是 收縮的,并且對于任意的初始分布集合 ,我們有:引理1是說,對于分布式貝爾曼操作符,從任意初始概率分布出發(fā),根據(jù)策略
進(jìn)行迭代更新,最終會收斂到一個固定的概率分布。這個結(jié)果在上一篇文章中已經(jīng)給出來了,但C51引入了四個近似(前文已經(jīng)說明)。現(xiàn)在的問題是,當(dāng)引入四個近似時,引理1是否依然成立?
論文“An Analysis of Categorical Distributional Reinforcement Learning”用引理2給出了答案。我們先看看引理2是什么。
引理2:操作符
一般在上界p-Wasserstein度量 下并不是收縮的。引理2直接給出了一個答案:盡管分布式操作符
在 下是收縮的,但是加了一個投影操作之后,在 下就不收縮了。為了理解引理2,我們給出一個很簡單的例子:
圖14 兩個簡單的分布如圖14為兩個簡單的分布,分別為
,根據(jù)p-Wasserstein的定義(2),兩個分布之間的距離為:將該分布進(jìn)行投影操作后,兩個分布變?yōu)?#xff1a;
, 圖15 兩個分布在投影算子下的投影根據(jù)p-Wasserstein的定義(2), 兩個投影后的分布距離為:
當(dāng)
時,因此投影操作符并不是收縮的。從直觀上來解釋下,原來的分布在投影后p-Wasserstein距離會變大。
既然投影映射在p-Wasserstein距離下并非收縮的,那么投影貝爾曼操作符就一定不收縮嗎?
答案是:未必。因為投影映射在Cramer距離下是收縮的
從Wasserstein距離到Cramer距離
Bellemare在2017年的論文“The Cramer Distance as a Solution to Biased Wasserstein Gradients”中指出,跟Wasserstein距離相比,Cramer距離有更好的特性:用樣本計算Cramer距離的梯度是無偏的,而用樣本計算Wasserstein距離的梯度其實(shí)是有偏的。
作者在論文“An Analysis of Categorical Distributional Reinforcement Learning”中進(jìn)一步利用Cramer距離證明了投影算子的收縮性。下面我們先介紹Cramer距離的定義。
Cramer距離
兩個分布
的Cramer距離 由其對應(yīng)的累積分布函數(shù) 進(jìn)行定義:在分布集合
上定義上界cramer度量 :有了上述定義,我們不加證明地給出幾個命題。
命題1:Cramer度量
賦予了概率空間 一個特殊的投影子空間,該投影操作符正好是啟發(fā)式投影 ,因此 相對于Cramer度量是非擴(kuò)展的。如圖16為Cramer距離的幾何解釋。其中
為參數(shù)化空間。由幾何解釋可以很自然地得到距離關(guān)系:其中
圖16 Cramer距離的幾何解釋命題2:操作符
在cramer度量 下是一個 收縮的。進(jìn)一步,存在唯一的分布函數(shù) 使得給定初始分布函數(shù) 我們有:命題2是說在投影貝爾曼操作符下,分布會收斂到極限分布
,一個很自然的問題是該極限分布 與真正的分布 之間到底差多少。命題3回答了這個問題:
命題3:令
為命題2的極限回報分布函數(shù),如果 的支集在 ,則我們有:命題3是說隨著離散分辨率越來越小,極限回報分布函數(shù)與真實(shí)分布函數(shù)之差越來越小。
命題3假設(shè)了真實(shí)的分布
的支集都限制在 ,即與參數(shù)化的分布有相同的支集。但是在實(shí)際中我們并不知道真實(shí)的分布的定義域在哪,那么命題2的極限分布于真實(shí)分布之間的差距是多少呢?命題4給出了答案。命題4 :令
為命題2的極限回報分布函數(shù),如果 的支集在 ,并且 ,則我們有:文章的其余部分則是作者利用隨機(jī)近似理論證明基于采樣的值分布強(qiáng)化學(xué)習(xí)算法的收斂性,這里就不再細(xì)說了。最后作者提出還沒有解決和證明的問題是當(dāng)引入函數(shù)逼近來表示分布值函數(shù)的時候的收斂性,而這個主題非常非常重要但又非常非常難!留待以后的工作。
寫得好累,休息休息一下。C51算法及其分析已經(jīng)差不多,下次更新會講分位數(shù)回歸算法,參考論文為:“DistributionalReinforcementLearningwithQuantileRegression”敬請期待!
總結(jié)
以上是生活随笔為你收集整理的kl散度度量分布_强化学习新思潮1:值分布强化学习(04)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 老人用32g内存够用吗(老人高清摄影照片
- 下一篇: 多少人能过初赛_蜂蜜和水的比例是多少?蜂