增強學習reinforcement learning經典算法梳理_第1頁
已閱讀1頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、增強學習增強學習ReinfcementLearning經典算法梳理經典算法梳理1:policyvalueiteration前言前言就目前來看,深度增強學習(DeepReinfcementLearning)中的很多方法都是基于以前的增強學習算法,將其中的valuefunction價值函數(shù)或者Policyfunction策略函數(shù)用深度神經網絡替代而實現(xiàn)。因此,本文嘗試總結增強學習中的經典算法。本文主要參考:1ReinfcementLearn

2、ing:AnIntroduction;2ReinfcementLearningCoursebyDavidSilver1預備知識預備知識對增強學習有所理解,知道MDP,Bellman方程詳細可見:DeepReinfcementLearning基礎知識(DQN方面)很多算法都是基于求解Bellman方程而形成:ValueIterationPolicyIterationQLearningSARSA2PolicyIteration策略迭代策略迭

3、代PolicyIteration的目的是通過迭代計算valuefunction價值函數(shù)的方式來使policy收斂到最優(yōu)。PolicyIteration本質上就是直接使用Bellman方程而得到的:那么PolicyIteration一般分成兩步:PolicyEvaluation策略評估。目的是更新ValueFunctionPolicyImprovement策略改進。使用greedypolicy產生新的樣本用于第一步的策略評估。然后改變成迭

4、代形式valueiteration的算法如下:那么問題來了:PolicyIteration和ValueIteration有什么本質區(qū)別?為什么一個叫policyiteration,一個叫valueiteration呢?原因其實很好理解,policyiteration使用bellman方程來更新value,最后收斂的value即vπ是當前policy下的value值(所以叫做對policy進行評估),目的是為了后面的policyimpro

5、vement得到新的policy。而valueiteration是使用bellman最優(yōu)方程來更新value,最后收斂得到的value即v?就是當前state狀態(tài)下的最優(yōu)的value值。因此,只要最后收斂,那么最優(yōu)的policy也就得到的。因此這個方法是基于更新value的,所以叫valueiteration。從上面的分析看,valueiteration較之policyiteration更直接。不過問題也都是一樣,需要知道狀態(tài)轉移函數(shù)p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論