第五章多agent交互_第1頁(yè)
已閱讀1頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、交互式系統(tǒng)才是日常計(jì)算世界的典型形式,幾乎最普通的系統(tǒng)中也包含一些子系統(tǒng),他們必須互相交互以成功地完成它們的任務(wù)。構(gòu)造單Agent->構(gòu)造Agent社會(huì),多Agent系統(tǒng)的標(biāo)準(zhǔn)結(jié)構(gòu)(Jennings,2000),標(biāo)準(zhǔn)結(jié)構(gòu)的說(shuō)明,包含多個(gè)Agent,通過(guò)通信互相交互;Agent可以在環(huán)境中動(dòng)作,不同的Agent有不同的作用范圍,表示它們可以控制、至少是影響環(huán)境的不同部分。在有些情況下,影響的范圍可能會(huì)有重疊,而影響范圍重疊的事

2、實(shí)會(huì)產(chǎn)生Agent之間的依賴關(guān)系。例如不能通過(guò)同一道門。Agent一般也會(huì)通過(guò)其他關(guān)系關(guān)聯(lián)起來(lái),如“權(quán)力”的例子,一個(gè)Agent是另一個(gè)Agent的老板。,第五章 多Agent交互,博弈論相關(guān)介紹效用和偏好多Agent相遇優(yōu)勢(shì)策略與Nash平衡競(jìng)爭(zhēng)與零和交互囚犯兩難多Agent系統(tǒng)的依賴關(guān)系,例子1.石頭、剪刀、布,豬八戒,石頭    剪刀   布,孫悟空,石頭剪刀布,定義:博弈論是專門研究博弈如何出現(xiàn)均衡的規(guī)律的學(xué)

3、科。,例子2.諾曼底登陸,定義:博弈是指決策主體在相互對(duì)抗中,對(duì)抗雙方(或多方)相互依存的一系列策略和行動(dòng)的過(guò)程集合。,德軍,馬賽設(shè)防 諾曼底設(shè)防,盟軍,馬賽登陸諾曼底登陸,博弈的四要素,參與者:參與博弈的決策主體。判斷博弈參與者的根本標(biāo)志是是否是博弈的利害關(guān)系者。博弈的規(guī)則:對(duì)博弈作出具體規(guī)定的集合。它包含對(duì)參與者行動(dòng)順序的規(guī)定、當(dāng)某個(gè)參與者行動(dòng)時(shí)他所知道的信息、有什么樣的行動(dòng)可供選擇、選擇之后會(huì)有什么樣的結(jié)果,等等。結(jié)果:對(duì)所

4、有參與者的每一個(gè)可能的行動(dòng)組合,會(huì)出現(xiàn)什么樣的結(jié)果。收益:在可能的每一個(gè)結(jié)果上,參與者的所得和所失,就是在所有可能的結(jié)果上參與者的偏好是什么,這意味著博弈的每一位參與者會(huì)在不同結(jié)果之間進(jìn)行比較,以尋求最好的收益。,博 弈 的 表 述,可以用參與者、策略和收益函數(shù)來(lái)表述一個(gè)博弈。,孫悟空的策略函數(shù):豬八戒的策略函數(shù):,如石頭、剪刀、布的例子:,參與者集合:I={1,2}//其中1表示孫悟空,2表示豬八戒,收益函數(shù)是策略組合和收益之

5、間所建立的一種函數(shù)關(guān)系。 如:,博 弈 的 分 類,靜態(tài)博弈動(dòng)態(tài)博弈完全信息博弈不(非)完全信息博弈,如果博弈雙方同時(shí)行動(dòng),即一方在作出行動(dòng)時(shí)并不清楚對(duì)手是否已經(jīng)作出了行動(dòng),則為靜態(tài)博弈。如果一方在作出行動(dòng)時(shí),知道對(duì)手已經(jīng)作出了行動(dòng)(可能不知道具體行動(dòng)是什么),則為動(dòng)態(tài)博弈。,如果所有參與者對(duì)其收益的信念是確定的,那么這個(gè)博弈就是完全信息的。也就是每一個(gè)參與者都能明確地計(jì)算出彼此的收益。相反,則為不完全信息博弈。

6、,博弈的其他例子,1.鴿派和鷹派2.燭光晚餐3.……思考:能否將身邊一些情況描述成博弈?具體例子?抽象成博弈的四個(gè)要素,并進(jìn)行表述和分類。,效用和偏好,自利的:即每個(gè)Agent對(duì)世界應(yīng)該是什么樣子有自己的偏好和愿望。存在一個(gè)關(guān)于Agent偏好的結(jié)局或者狀態(tài)的集合,假設(shè)只有兩個(gè)Agent為i和j,效用和偏好,可以用效用函數(shù)形式化地描述這兩個(gè)Agent的偏好,每個(gè)Agent有一個(gè)效用函數(shù)。給每個(gè)結(jié)局賦予一個(gè)實(shí)數(shù),表示這個(gè)結(jié)局對(duì)

7、于該Agent來(lái)說(shuō)有多“好”,數(shù)值越大,從這個(gè)Agent的角度來(lái)說(shuō)效用越好。,導(dǎo)出一個(gè)關(guān)于輸出的偏好排序,效用和金錢的比喻,富人和窮人,在一個(gè)小區(qū)內(nèi),住著一個(gè)富人和一個(gè)窮人。組織夜間巡邏能有效防止偷盜,但夜間巡邏的成本為4。假設(shè)富人的財(cái)產(chǎn)為8,窮人的財(cái)產(chǎn)為2。如果兩人都巡邏,那么巡邏成本由兩人均攤,如果只有一人巡邏,則由巡邏者承擔(dān)。,窮人,巡邏  不巡邏,富人,巡邏不巡邏,偏好排序,如果 和 是集合 中可能

8、的結(jié)局,有,則Agent i的結(jié)局 至少與 一樣好,簡(jiǎn)寫為:,嚴(yán)格好于,偏好排序 的性質(zhì),自反性:具體含義見板書 傳遞性:具體含義見板書 比較性:具體含義見板書,說(shuō)明:嚴(yán)格偏好關(guān)系僅滿足后兩個(gè)性質(zhì),顯然不是自反的。,多Agent相遇,前面所述為Agent偏好的模型,下面引入環(huán)境模型,使得Agent可以在這個(gè)環(huán)境中動(dòng)作。用下面的環(huán)境函數(shù)表示:,說(shuō)明:,,Agent i的動(dòng)作,,Agent j的

9、動(dòng)作,C代表合作,D代表不合作,每個(gè)Agent必須執(zhí)行一個(gè)動(dòng)作,且它們不能看到其他Agent執(zhí)行的動(dòng)作,環(huán)境函數(shù)例子,這個(gè)環(huán)境把每個(gè)動(dòng)作組合映射成不同的結(jié)局,因此環(huán)境對(duì)每個(gè)Agent執(zhí)行的動(dòng)作都是敏感的。思考??jī)煞N極端怎么表示?? 只對(duì)一個(gè)Agent的動(dòng)作敏感只對(duì)一個(gè)動(dòng)作敏感,標(biāo)準(zhǔn)的博弈論收益矩陣的表示法,優(yōu)勢(shì)策略,定義:優(yōu)勢(shì)假設(shè)兩個(gè) 的子集—— ,如果對(duì)i希望 中的每個(gè)結(jié)局超過(guò)

10、中的每個(gè)結(jié)局,則對(duì)于Agent i來(lái)說(shuō) 優(yōu)勢(shì)于舉例見板書進(jìn)一步引出強(qiáng)優(yōu)于,策略:將動(dòng)作視為策略,在多Agent交互的情形下,對(duì)于Agent i的任何特定策略s,會(huì)有很多可能 的結(jié)局,用s*表示采用策略s產(chǎn)生的結(jié)局。,強(qiáng)優(yōu)勢(shì)策略弱優(yōu)勢(shì)策略,優(yōu)勢(shì)策略的作用??如果有多個(gè)優(yōu)勢(shì)策略,怎么辦???,Nash(納什)平衡,兩個(gè)策略s1和s2是處于Nash平衡,如果:(1)在Agent i執(zhí)行s1這樣的假設(shè)下,Agent j最好執(zhí)行

11、s2;(2)在Agent j執(zhí)行s2這樣的假設(shè)下,Agent i最好執(zhí)行s1;,重要性是什么:???,然而,(1)并不是每個(gè)交互的情形都有Nash平衡; (2)有些交互的情形存在有一個(gè)以上的Nash平衡。,習(xí)題(1),問(wèn)題:哪些集合(如果存在的話)優(yōu)勢(shì)于另一些集合?當(dāng)沒有集合優(yōu)勢(shì)于其他集合時(shí),給出說(shuō)明。,習(xí)題(2),設(shè)想在古代的一個(gè)村莊有兩個(gè)獵人。為了簡(jiǎn)化問(wèn)題,假設(shè)主要的獵物只有兩種:鹿和兔子。在古代,人類的狩

12、獵手段比較落后,弓箭的威力也有限。在這樣的條件下,我們可以假設(shè),兩個(gè)獵人一起去獵鹿,才能獵獲1只鹿。如果一個(gè)獵人單兵作戰(zhàn),他只能打到4只兔子。從填飽肚子的角度來(lái)說(shuō),4只兔子算管4天吧,1只鹿卻差不多能夠解決一個(gè)月的問(wèn)題。這樣,兩個(gè)人的行為決策就可以寫成以下的博弈形式:要么分別打兔子,每人得4;要么合作,每人得10(平分鹿之后的所得)。判斷其中的Nash平衡。,習(xí)題(3),問(wèn)題:(1)從非形式地分析各情形,決定兩個(gè)Agent應(yīng)該做什

13、么行動(dòng)。(2)根據(jù)結(jié)局對(duì)Agent的偏好進(jìn)行排序。(3)決定哪個(gè)策略是強(qiáng)優(yōu)勢(shì)策略或弱優(yōu)勢(shì)策略。(4)判斷出任何Nash平衡。,競(jìng) 爭(zhēng),競(jìng)爭(zhēng)的定義:Agent i希望得到結(jié)局 超過(guò)得到結(jié)局 ,當(dāng)且僅當(dāng)Agent j希望得到 超過(guò)得到結(jié)局 這樣,局中人的偏好相互處在完全對(duì)立的位置上:一個(gè)Agent要提高其效用,必須以另一個(gè)Agent的付出為代價(jià)。例子??,零和交互,定義:對(duì)于任何特定的結(jié)局,兩

14、個(gè)Agent的效用之和為零。,任何零和的情形都是嚴(yán)格的競(jìng)爭(zhēng)。,囚犯兩難,兩個(gè)人被共同起訴一項(xiàng)罪名,被關(guān)押在隔離的牢房里,它們沒有辦法互相通信,也沒有辦法達(dá)成任何一致,這兩個(gè)人被告知:(1)如果其中一人承認(rèn)有罪而另一個(gè)人沒有承認(rèn),承認(rèn)有罪者將被釋放,另一個(gè)人將被關(guān)押3年;(2)如果兩個(gè)人都承認(rèn)有罪,則每人將被關(guān)押2年;(3)如果都不承認(rèn)有罪,則每個(gè)人將被關(guān)押1年。,思考和討論:如果是你,你將怎么做?,囚犯兩難問(wèn)題的收益矩陣,課堂習(xí)題

15、:根據(jù)收益矩陣寫出效用函數(shù),并對(duì)每個(gè)結(jié)局進(jìn)行排序;分析有沒有強(qiáng)優(yōu)勢(shì)策略,如果有,是什么?分析是否存在Nash平衡,如果有,是什么?,思考為什么說(shuō)是囚犯兩難?,囚犯兩難問(wèn)題的改進(jìn)(Axelrod),進(jìn)行一次以上的對(duì)策。可重復(fù)進(jìn)行對(duì)局,且每個(gè)Agent都可以看到其對(duì)手前一輪的選擇。另外,假設(shè)對(duì)局將連續(xù)永不停止,那么,理性的動(dòng)作是什么?如果你知道下一輪會(huì)遇到同一個(gè)對(duì)手,不合作的動(dòng)機(jī)似乎會(huì)大大減少,這有兩個(gè)原因:(1)如果你現(xiàn)在不合作,

16、你的對(duì)手也可以通過(guò)不合作懲罰你,雖然這種懲罰不可能發(fā)生某一輪;(2)因?yàn)橐M(jìn)行無(wú)限輪的對(duì)局,某次的效用損失會(huì)在將來(lái)的輪次中“償還”,也就是,由于是無(wú)限期的對(duì)局,一個(gè)單元的效用損失只是獲得的整個(gè)效用的一小部分。,做試驗(yàn),采用幾個(gè)策略:ALL-DRANDOMTIT-FOR-TATTESTER或者更多策略,分析哪個(gè)測(cè)略更好,多Agent系統(tǒng)的依賴關(guān)系,,獨(dú)立:Agent之間沒有依賴關(guān)系; 單向依賴:一個(gè)Agent依賴于另一個(gè)A

17、gent,反之不成立 相互依賴:為了共同的目標(biāo),兩個(gè)Agent相互依賴; 交互依賴:為了某一目標(biāo)第一個(gè)Agent依賴于第二個(gè)Agent,而第二個(gè)Agent為了實(shí)現(xiàn)某一目標(biāo)也依賴于第一個(gè)Agent(兩個(gè)目標(biāo)不必相同)。注意:相互依賴蘊(yùn)含著交互依賴。這些關(guān)系可以通過(guò)局部信念還是全局信念加以限定。,局部信念:如果一個(gè)Agent相信依賴關(guān)系存在,但是不認(rèn)為其他Agent相信依賴關(guān)系存在;全局信念:當(dāng)Agent相信依賴關(guān)系存在,還相

18、信另一個(gè)Agent也知道這一點(diǎn)。,博弈論題目:屠夫砍人  有一個(gè)屠夫抓了100人,讓他們面朝一個(gè)方向排成一堅(jiān)列,然后給這100人分別戴上帽子,帽子只有黑和白兩種顏色,屠夫是隨機(jī)給他們帶上的,且自己看不見自己帽子的顏色,也不能回頭,只能看到自己前面人的顏色。 他們的視力很好,排最后的那個(gè)人(100號(hào))可以看見前面所有人的帽子顏色,他們的聽力都很好,最前面的那個(gè)人(1號(hào)),可以聽見后面所有人說(shuō)的話。屠夫會(huì)從100號(hào)開始要他猜自己

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論