Skinner操作條件反射模型與機(jī)器人仿生自主學(xué)習(xí)控制.pdf_第1頁(yè)
已閱讀1頁(yè),還剩167頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、人或動(dòng)物的諸多技能或行為是在其神經(jīng)系統(tǒng)自學(xué)習(xí)和自組織的過(guò)程中漸進(jìn)地形成和發(fā)展起來(lái)的,理解和模擬人和動(dòng)物神經(jīng)系統(tǒng)內(nèi)在的學(xué)習(xí)和組織機(jī)制,并將這種機(jī)制賦予機(jī)器,是控制科學(xué)、人工智能和機(jī)器人學(xué)研究的重要課題。操作條件反射(Operant Conditioning)機(jī)制是人和動(dòng)物神經(jīng)系統(tǒng)內(nèi)在的重要學(xué)習(xí)機(jī)制,人和動(dòng)物的運(yùn)動(dòng)平衡控制技能是基于這種機(jī)制漸進(jìn)的形成、發(fā)展和完善的。
   本文模擬人和動(dòng)物的操作條件反射機(jī)制,研究?jī)奢喿云胶鈾C(jī)器人自主

2、學(xué)習(xí)運(yùn)動(dòng)平衡控制技能的問(wèn)題,取得了以下主要成果:
   第一:Skinner操作條件反射自動(dòng)機(jī)的設(shè)計(jì)
   本文在隨機(jī)概率自動(dòng)機(jī)的理論框架中,基于Skinner的操作條件反射理論,建立了一種操作條件反射模型,稱為Skinner操作條件反射自動(dòng)機(jī)(SkinnerOperant Conditioning Automaton, SOCA)。SOCA自動(dòng)機(jī)是一個(gè)七元組,包括:1)有限狀態(tài)集合;2)操作行為集合;3)映射集合-隨機(jī)

3、“條件-操作”映射集合;4)狀態(tài)轉(zhuǎn)移函數(shù)-意味著操作產(chǎn)生的后果;5)取向單元-定義取向性函數(shù),規(guī)定SOCA自動(dòng)機(jī)的期望狀態(tài);6)操作條件反射單元-利用取向單元提供的取向性信息,調(diào)節(jié)其學(xué)習(xí)機(jī)制,改變各操作行為的選取概率;7)操作行為熵-衡量SOCA自動(dòng)機(jī)的自組織程度。SOCA自動(dòng)機(jī)的主要特征在于模擬生物的操作條件反射機(jī)制,具有仿生的自組織功能,包括自學(xué)習(xí)和自適應(yīng)功能,可用于描述、模擬、設(shè)計(jì)各種自組織系統(tǒng)。論文對(duì)SOCA自動(dòng)機(jī)進(jìn)行了理論分析

4、,從理論上證明了SOCA自動(dòng)機(jī)的操作條件反射學(xué)習(xí)機(jī)制的收斂性,即:最優(yōu)操作出現(xiàn)的概率隨學(xué)習(xí)進(jìn)程趨于1,操作行為熵隨學(xué)習(xí)進(jìn)程收斂至極小。論文將SOCA自動(dòng)機(jī)應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制,SOCA自動(dòng)機(jī)的狀態(tài)集合用于描述機(jī)器人的傾角和傾角速度,操作行為集合用于描述施加到機(jī)器人左右輪電機(jī)上的控制信號(hào)。初始狀態(tài)下,機(jī)器人不具備運(yùn)動(dòng)平衡的能力,操作行為集合中各操作的選取概率是均等的,隨著學(xué)習(xí)的進(jìn)行,最優(yōu)操作的選取概率逐漸增大,操作行為熵逐漸減小

5、,大約進(jìn)行25輪訓(xùn)練后,最優(yōu)操作的選取概率漸趨于1,操作行為熵漸趨于極小,機(jī)器人的運(yùn)動(dòng)平衡能力逐漸增強(qiáng)。
   第二:映射領(lǐng)域可自主收縮的SOCA自動(dòng)機(jī)
   SOCA自動(dòng)機(jī)存在發(fā)生小概率操作行為的現(xiàn)象,小概率操作行為的發(fā)生,會(huì)引發(fā)不良的操作后果。為了避免這一現(xiàn)象,本文設(shè)計(jì)了一種映射領(lǐng)域可在線自主收縮移動(dòng)的SOCA自動(dòng)機(jī),映射領(lǐng)域指機(jī)器人各狀態(tài)映射的操作行為集合,其收縮是通過(guò)定義學(xué)習(xí)誤差的界限值和操作行為選取的概率閾值兩

6、個(gè)指標(biāo)來(lái)實(shí)現(xiàn)的。論文對(duì)映射領(lǐng)域可自主收縮的操作條件反射學(xué)習(xí)的收斂性進(jìn)行了分析,從理論上證明:最優(yōu)操作出現(xiàn)的概率隨映射領(lǐng)域的收縮趨于1,操作行為熵隨映射領(lǐng)域的收縮收斂至極小。論文將映射領(lǐng)域可自主收縮的SOCA自動(dòng)機(jī)應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制,初始映射領(lǐng)域是一個(gè)給定的含有多個(gè)操作行為的操作行為集合,隨著學(xué)習(xí)的進(jìn)行,不良操作出現(xiàn)的概率逐漸減小,概率值低于給定閾值的不良操作被剔除,大約進(jìn)行20輪訓(xùn)練后,映射領(lǐng)域收縮至含一個(gè)或幾個(gè)操作行為的集

7、合。映射領(lǐng)域的收縮性使SOCA自動(dòng)機(jī)可以在線地在最有意義的映射領(lǐng)域內(nèi)搜索學(xué)習(xí),通過(guò)有效的動(dòng)態(tài)的消除無(wú)用的映射區(qū)域,提高了系統(tǒng)的學(xué)習(xí)速度和精度。
   第三:模糊Skinner操作條件反射自動(dòng)機(jī)的設(shè)計(jì)
   本文進(jìn)一步結(jié)合模糊集(Fuzzy Sets)理論,構(gòu)建了模糊Skinner操作條件反射自動(dòng)機(jī)(Fuzzy Skinner Operant Conditioning Automaton, FSOCA)。FSOCA自動(dòng)機(jī)的

8、主要特征在于,高斯函數(shù)對(duì)狀態(tài)的模糊化結(jié)果作為模糊狀態(tài)集合,模糊“條件-操作”規(guī)則代替隨機(jī)“條件-操作”映射,F(xiàn)SOCA自動(dòng)機(jī)可用于描述、模擬和設(shè)計(jì)各種模糊不確定系統(tǒng)的自組織行為。為了確保FSOCA自動(dòng)機(jī)的模糊映射規(guī)則數(shù)是最佳的,論文采用在線聚類的方法實(shí)現(xiàn)了對(duì)輸入狀態(tài)空間的劃分,利用映射規(guī)則的激發(fā)強(qiáng)度來(lái)決定是否需要產(chǎn)生一個(gè)新的映射規(guī)則。論文將FSOCA自動(dòng)機(jī)應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制,隨著學(xué)習(xí)的進(jìn)行,最優(yōu)模糊后件操作的選取概率逐漸增大

9、,模糊操作行為熵逐漸減小,模糊映射規(guī)則自動(dòng)增減,大約進(jìn)行17輪訓(xùn)練后,最優(yōu)模糊后件操作的選取概率漸趨于1,模糊操作行為熵漸趨于極小,映射規(guī)則數(shù)漸趨于最佳,機(jī)器人逐漸掌握運(yùn)動(dòng)平衡控制的技能。FSOCA自動(dòng)機(jī)不僅實(shí)現(xiàn)了平滑輸出,而且進(jìn)一步改善了學(xué)習(xí)模型的學(xué)習(xí)速度和精度。
   第四:魯棒自主學(xué)習(xí)系統(tǒng)的設(shè)計(jì)
   本文針對(duì)仿生自主學(xué)習(xí)模型的穩(wěn)定性和性能問(wèn)題,在FSOCA自動(dòng)機(jī)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)魯棒自主學(xué)習(xí)控制系統(tǒng),主要包括模

10、糊基函數(shù)網(wǎng)絡(luò)(Fuzzy BaseFunction Network, FBFN)、增益控制單元和魯棒單元三部分。其中,F(xiàn)BFN網(wǎng)絡(luò)的功能與FSOCA自動(dòng)機(jī)一樣,主要執(zhí)行操作行為產(chǎn)生的功能,同時(shí)利用性能測(cè)量機(jī)制提供的誤差測(cè)量信號(hào),產(chǎn)生取向值信息,以對(duì)操作行為產(chǎn)生網(wǎng)絡(luò)進(jìn)行調(diào)整;引入增益控制單元,是為了確保系統(tǒng)的穩(wěn)定性,同時(shí)可以對(duì)系統(tǒng)的性能進(jìn)行改善;魯棒單元主要用來(lái)消除FBFN網(wǎng)絡(luò)的學(xué)習(xí)誤差及外部干擾。論文對(duì)魯棒自主學(xué)習(xí)控制系統(tǒng)進(jìn)行了理論分析

11、,從理論上證明魯棒自主學(xué)習(xí)系統(tǒng)是漸近穩(wěn)定的;將其應(yīng)用于兩輪機(jī)器人的運(yùn)動(dòng)平衡控制,仿真結(jié)果表明,機(jī)器人在學(xué)習(xí)過(guò)程中避免了試錯(cuò)的學(xué)習(xí)過(guò)程,確保了系統(tǒng)的穩(wěn)定性和學(xué)習(xí)性能,并且在存在干擾時(shí),仍能達(dá)到期望的控制目標(biāo)。
   本文的研究工作得到了國(guó)家自然科學(xué)基金項(xiàng)目(60774077)、國(guó)家“863計(jì)劃”資助項(xiàng)目(2007AA04Z226)和北京市教委科研計(jì)劃和北京市自然科學(xué)基金重點(diǎn)項(xiàng)目(KZ200810005002)的支持。研究成果為機(jī)器

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論