

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、增強(qiáng)學(xué)習(xí)增強(qiáng)學(xué)習(xí)ReinfcementLearning經(jīng)典算法梳理經(jīng)典算法梳理1:policyvalueiteration前言前言就目前來(lái)看,深度增強(qiáng)學(xué)習(xí)(DeepReinfcementLearning)中的很多方法都是基于以前的增強(qiáng)學(xué)習(xí)算法,將其中的valuefunction價(jià)值函數(shù)或者Policyfunction策略函數(shù)用深度神經(jīng)網(wǎng)絡(luò)替代而實(shí)現(xiàn)。因此,本文嘗試總結(jié)增強(qiáng)學(xué)習(xí)中的經(jīng)典算法。本文主要參考:1ReinfcementLearn
2、ing:AnIntroduction;2ReinfcementLearningCoursebyDavidSilver1預(yù)備知識(shí)預(yù)備知識(shí)對(duì)增強(qiáng)學(xué)習(xí)有所理解,知道MDP,Bellman方程詳細(xì)可見(jiàn):DeepReinfcementLearning基礎(chǔ)知識(shí)(DQN方面)很多算法都是基于求解Bellman方程而形成:ValueIterationPolicyIterationQLearningSARSA2PolicyIteration策略迭代策略迭
3、代PolicyIteration的目的是通過(guò)迭代計(jì)算valuefunction價(jià)值函數(shù)的方式來(lái)使policy收斂到最優(yōu)。PolicyIteration本質(zhì)上就是直接使用Bellman方程而得到的:那么PolicyIteration一般分成兩步:PolicyEvaluation策略評(píng)估。目的是更新ValueFunctionPolicyImprovement策略改進(jìn)。使用greedypolicy產(chǎn)生新的樣本用于第一步的策略評(píng)估。然后改變成迭
4、代形式valueiteration的算法如下:那么問(wèn)題來(lái)了:PolicyIteration和ValueIteration有什么本質(zhì)區(qū)別?為什么一個(gè)叫policyiteration,一個(gè)叫valueiteration呢?原因其實(shí)很好理解,policyiteration使用bellman方程來(lái)更新value,最后收斂的value即vπ是當(dāng)前policy下的value值(所以叫做對(duì)policy進(jìn)行評(píng)估),目的是為了后面的policyimpro
5、vement得到新的policy。而valueiteration是使用bellman最優(yōu)方程來(lái)更新value,最后收斂得到的value即v?就是當(dāng)前state狀態(tài)下的最優(yōu)的value值。因此,只要最后收斂,那么最優(yōu)的policy也就得到的。因此這個(gè)方法是基于更新value的,所以叫valueiteration。從上面的分析看,valueiteration較之policyiteration更直接。不過(guò)問(wèn)題也都是一樣,需要知道狀態(tài)轉(zhuǎn)移函數(shù)p
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 增強(qiáng)學(xué)習(xí)reinforcementlearning經(jīng)典算法梳理
- Multi-Agent Reinforcement Learning Through Weighted Experience Sharing.pdf
- deep reinforcement learning hands-on - apply modern rl methods, with deep q-netw
- Q-learning強(qiáng)化學(xué)習(xí)算法改進(jìn)及其應(yīng)用研究.pdf
- 基于增強(qiáng)學(xué)習(xí)算法的智能排課模型.pdf
- 基于字典學(xué)習(xí)的語(yǔ)音增強(qiáng)算法研究.pdf
- 14只債轉(zhuǎn)股經(jīng)典案例全面梳理
- deep learning學(xué)習(xí)筆記整理系列
- Q_learning強(qiáng)化學(xué)習(xí)算法的改進(jìn)及應(yīng)用研究.pdf
- 經(jīng)典算法
- q何謂學(xué)習(xí)(learning)與教學(xué)(instruction)
- 向騰訊學(xué)習(xí)騰訊q-learning
- 學(xué)習(xí)與記憶(learning & memory)
- 基于增強(qiáng)學(xué)習(xí)的靈巧手控制算法及其應(yīng)用.pdf
- 經(jīng)典算法(c)
- E-learning中基于聚類算法的多維度學(xué)習(xí)社區(qū)的研究.pdf
- 市民E-Learning在線學(xué)習(xí)平臺(tái).pdf
- 圖像增強(qiáng)算法綜述
- 企業(yè)e-learning學(xué)習(xí)平臺(tái)建設(shè)方案
- challenge based learning 挑戰(zhàn)性學(xué)習(xí)(基于挑戰(zhàn)的學(xué)習(xí))
評(píng)論
0/150
提交評(píng)論