版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、本文研究了采用多步信息更新值函數(shù)的多步Q學(xué)習(xí)算法、能夠有效平衡智能體(Agent)選擇動(dòng)作時(shí)面臨的新知識(shí)探索與當(dāng)前策略遵循的模擬退火Metropolis準(zhǔn)則和能夠提高經(jīng)驗(yàn)利用率、加快收斂速度的最小二乘強(qiáng)化學(xué)習(xí)方法,構(gòu)建了基于多智能體系統(tǒng)(MAS)的協(xié)同概念設(shè)計(jì)系統(tǒng),并將強(qiáng)化學(xué)習(xí)應(yīng)用到該系統(tǒng)的任務(wù)調(diào)度和方案優(yōu)化中,旨在深化強(qiáng)化學(xué)習(xí)在理論與應(yīng)用方面的研究,促進(jìn)協(xié)同概念設(shè)計(jì)技術(shù)的發(fā)展。所做的主要工作和研究成果如下: 首先,提出了基于模
2、擬退火Metropolis準(zhǔn)則的多步Q學(xué)習(xí)算法。針對(duì)經(jīng)典的Q學(xué)習(xí)算法收斂速度慢的問(wèn)題,從兩個(gè)方面進(jìn)行了改進(jìn):一是改進(jìn)了一步更新策略,單純的一步更新不能充分利用經(jīng)驗(yàn)信息,因此提出了采用多步信息更新值函數(shù)的多步Q學(xué)習(xí)算法;二是在多步Q學(xué)習(xí)算法的動(dòng)作選擇中引入了模擬退火中的Metropolis準(zhǔn)則,較好地解決了Agent選擇動(dòng)作時(shí)面臨的新知識(shí)探索還是當(dāng)前策略遵循的關(guān)鍵問(wèn)題。 其次,提出了離策略的最小二乘Q(λ)算法和在策略的最小二乘S
3、ARSA(λ)算法,以及各自的改進(jìn)遞推算法。針對(duì)經(jīng)典的Q(λ)和SARSA(λ)算法存在的經(jīng)驗(yàn)利用率低、收斂速度慢的問(wèn)題,根據(jù)當(dāng)前和多步的經(jīng)驗(yàn)知識(shí)樣本建立了狀態(tài)-動(dòng)作對(duì)值函數(shù)的最小二乘逼近模型,推導(dǎo)了逼近函數(shù)在一組基底上的權(quán)向量所滿(mǎn)足的一組線(xiàn)性方程,從而提出了最小二乘Q(λ)和最小二乘SARSA(λ)算法。并且根據(jù)遞推最小二乘參數(shù)估計(jì)方法,給出了各自的改進(jìn)遞推算法。由于最小二乘算法實(shí)際上是構(gòu)造了強(qiáng)化學(xué)習(xí)問(wèn)題的經(jīng)驗(yàn)?zāi)P?,因而能夠加快收斂?/p>
4、度。 再次,通過(guò)分析復(fù)雜產(chǎn)品協(xié)同概念設(shè)計(jì)過(guò)程的特點(diǎn),提出了協(xié)同概念設(shè)計(jì)的集成模型,進(jìn)而提出了基于MAS的協(xié)同概念設(shè)計(jì)系統(tǒng)的層次化聯(lián)邦結(jié)構(gòu),設(shè)計(jì)了系統(tǒng)中管理Agent和設(shè)計(jì)Agent的結(jié)構(gòu)。在這兩類(lèi)Agent中分別實(shí)現(xiàn)了任務(wù)調(diào)度、沖突消解、方案評(píng)價(jià)與優(yōu)化、智能設(shè)計(jì)等功能。提出了適用于復(fù)雜產(chǎn)品概念設(shè)計(jì)的信念型承諾,給出了Agent的形式化表示,詳細(xì)討論了基于信念型承諾的Agent協(xié)作機(jī)制。該協(xié)同概念設(shè)計(jì)系統(tǒng)的建立為研究強(qiáng)化學(xué)習(xí)在其中
5、的應(yīng)用奠定了基礎(chǔ)。 最后,針對(duì)協(xié)同概念設(shè)計(jì)系統(tǒng)管理Agent中的任務(wù)調(diào)度和方案優(yōu)化問(wèn)題,提出了基于強(qiáng)化學(xué)習(xí)的求解方法。任務(wù)調(diào)度問(wèn)題是協(xié)同設(shè)計(jì)的重要內(nèi)容之一,目前的方法大多存在算法效率較低、收斂于局部最優(yōu)解等缺點(diǎn)。建立了調(diào)度問(wèn)題的馬爾可夫決策過(guò)程(MDP)模型,從理論上證明了采用強(qiáng)化學(xué)習(xí)求解調(diào)度問(wèn)題的可行性,給出了基于O學(xué)習(xí)和Q(λ)學(xué)習(xí)的任務(wù)調(diào)度算法,從而為有向無(wú)環(huán)圖(DAG)調(diào)度提供了一種新解法?,F(xiàn)有的概念設(shè)計(jì)方案優(yōu)化方法存在
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 強(qiáng)化學(xué)習(xí)及其在協(xié)同虛擬環(huán)境導(dǎo)航知識(shí)中的應(yīng)用研究.pdf
- 強(qiáng)化學(xué)習(xí)及其在倒立擺控制中的應(yīng)用研究.pdf
- 強(qiáng)化學(xué)習(xí)及其在機(jī)器人系統(tǒng)中的應(yīng)用研究.pdf
- 多種群協(xié)同進(jìn)化及其在創(chuàng)新概念設(shè)計(jì)中的應(yīng)用.pdf
- 強(qiáng)化學(xué)習(xí)算法在電力市場(chǎng)中的應(yīng)用.pdf
- 多Agent系統(tǒng)強(qiáng)化學(xué)習(xí)及其在CAS仿真建模中的應(yīng)用.pdf
- 強(qiáng)化學(xué)習(xí)及其在自主機(jī)器人行為學(xué)習(xí)中的應(yīng)用.pdf
- 多微粒群協(xié)同進(jìn)化模型的研究及其在創(chuàng)新概念設(shè)計(jì)中的應(yīng)用.pdf
- 強(qiáng)化學(xué)習(xí)在RoboCup Agent智能策略中的研究與應(yīng)用.pdf
- MAS結(jié)構(gòu)和協(xié)作機(jī)制研究及其在Robocup中的應(yīng)用.pdf
- 強(qiáng)化學(xué)習(xí)在用戶(hù)學(xué)習(xí)中的應(yīng)用研究.pdf
- MAS及其在電力系統(tǒng)中的應(yīng)用研究.pdf
- 多智能體強(qiáng)化學(xué)習(xí)及其在機(jī)器人足球中的應(yīng)用研究.pdf
- 強(qiáng)化學(xué)習(xí)及其在城市交通信號(hào)控制中的應(yīng)用研究.pdf
- 徑向基函數(shù)網(wǎng)絡(luò)和實(shí)例學(xué)習(xí)在強(qiáng)化學(xué)習(xí)中的應(yīng)用.pdf
- 可重構(gòu)MAS及其在入侵檢測(cè)中的應(yīng)用.pdf
- 多Agent強(qiáng)化學(xué)習(xí)及其應(yīng)用研究.pdf
- 分層強(qiáng)化學(xué)習(xí)算法及其應(yīng)用研究.pdf
- 基于動(dòng)機(jī)的強(qiáng)化學(xué)習(xí)及其應(yīng)用研究.pdf
- 強(qiáng)化學(xué)習(xí)在機(jī)械手路徑規(guī)劃中的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論