版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、博弈論與信息經(jīng)濟學Game Theory and Economics of Information,,博弈論基本思想,人們在日常生活中進行著博弈,與配偶,朋友,陌生人,老板/員工,教授等。類似的博弈也在商業(yè)活動、政治和外交事務、戰(zhàn)爭中進行著——在任何一種情況下,人們相互影響以達成彼此有利的協(xié)議或者解決爭端。博弈論為眾多學科提供了分析的概念和方法:經(jīng)濟學和商學,政治科學,生物學, 心理學和哲學。,如何在“博弈”中獲勝?,日常生活中
2、的博弈(“游戲”)往往指的是諸如賭博和運動這樣的東西: 賭拋硬幣 百米賽跑 打網(wǎng)球/橄欖球How can you win such games?許多博弈都包含著運氣、技術(shù)和策略。策略是為了獲勝所需要的一種智力的技巧。它是對于如何最好地利用身體(物質(zhì))的技巧的一種算計。,什么是策略博弈?What is a Game of Strategy?,策略思考本質(zhì)上涉及到與他人的相互影響。其他人在同一時間
3、、對同一情形也在進行類似的思考。 博弈論就是用來分析這樣交互式的決策的。 理性的行為指的是:明白自己的目的和偏好,同時了解自己行動的限制和約束,然后以精心策劃的方式選擇自己的行為,按照自己的標準做到最好。博弈論對理性的行為又從新的角度賦予其新的含義——與其他同樣具有理性的決策者進行相互作用。博弈論是關于相互作用情況下的理性行為的科學。,如何在博弈中獲勝?,…… 真的能在博弈中(總是)獲勝嗎?對手和你一樣聰明! 許多博弈相
4、當復雜,博弈論并不能提供萬無一失的應對辦法。,例1:無謂競爭(The GPA Rat Race),你所注冊的一門課程按照比例來給分:無論卷面分數(shù)是多少,只有40%的人能夠得優(yōu)秀,40%的人能得良好。所有學生達成一個協(xié)議,大家都不要太用功,如何?想法不錯,但無法實施!稍加努力即可勝過他人,誘惑大矣。問題是,大家都這么做。這樣一來,所有人的成績都不比大家遵守協(xié)議來得高。而且,大家還付出了更多的功夫。正因為這樣的博弈對所有參與者存在著或
5、大或小的潛在成本,如何達成和維護互利的合作就成為一個值得探究的重要問題。存在雙贏的博弈嗎?,例2:焦點博弈 “We Can’t Take the Exam,Because We Had a Flat Tire”,兩個學生想要推遲考試,謊稱由于返校途中輪胎漏氣,未能很好地備考。教授分別對他們提出了問題:“哪個輪胎漏氣?”如何應答?他們本應該預計到教授的招數(shù),提前準備好答案。在博弈中,參與者應該向前看到未來的行動,然后通過向后推理
6、,推算出目前的最佳行動。如果雙方都沒有準備,他能夠獨立地編出一個相互一致的謊言嗎?,例2:焦點博弈 “We Can’t Take the Exam,Because We Had a Flat Tire”,“乘客側(cè)前輪”看起來是一個合乎邏輯的選擇。但真正起作用的是你的朋友是否使用同樣的邏輯,或者認為這一選擇同樣顯然。并且是否你認為這一選擇是否對他同樣顯然;反之,是否她認為這一選擇對你同樣顯然?!源祟愅?。也就是說,需要的是對這樣
7、的情況下該選什么的預期的收斂。這一使得參與者能夠成功合作的共同預期的策略被稱為焦點。心有靈犀一點通。,例2:焦點博弈 “We Can’t Take the Exam,Because We Had a Flat Tire”,我們無法從所有這樣的博弈的結(jié)構(gòu)中找到一般和本質(zhì)的東西,來保證這樣的收斂。某些博弈中,由于偶然的外因可以對策略貼標簽,或者參與者之間擁有某些共同的知識體驗,導致了焦點的存在。沒有某個這樣的暗示,默契的合作就完全不可
8、能。,例3:為什么教授如此苛刻?,許多教授強硬地規(guī)定,不進行補考,不允許遲交作業(yè)或論文。教授們?yōu)楹稳绱丝量蹋咳绻试S某種遲交,而且教授又不能辨別真?zhèn)?,那么學生就總是會遲交。期限本身就毫無意義了。避免這一“滑梯”通常只有一種辦法,就是“沒有例外”的策略。,例3:為什么教授如此苛刻?,問題是,一個好心腸的教授如何維持如此鐵石心腸的承諾?他必須找到某種使拒絕變得強硬和可信的方法。拿行政程序或者學校政策來做擋箭牌在課程開始時做出明
9、確和嚴格的宣布通過幾次嚴打來獲得“冷面殺手”的聲譽,導論,博弈均衡與一般均衡博弈論與諾貝爾經(jīng)濟學獎獲得者博弈論的基本概念與類型主要參考文獻,導論,一、博弈均衡與一般均衡,案例:囚犯困境,,,支付,嫌疑人B,嫌疑人A,與傳統(tǒng)微觀經(jīng)濟學的比較,一致性利益最大化原則均衡原則不一致人與人之間的關系-個人理性導致集體非理性-設計協(xié)調(diào)性機制-滿足個人理性前提下達到集體理性信息不完全-委托-代理理論、信號傳遞與信息篩選模型,導論,二
10、、博弈論與諾貝爾經(jīng)濟學獎獲得者,1994年諾貝爾經(jīng)濟學獎獲得者,美國人約翰-海薩尼(John C. Harsanyi) 和美國人約翰-納什(John F. Nash Jr.)以及德國人萊因哈德-澤爾騰(Reinhard Selten) 獲獎理由:在非合作博弈的均衡分析理論方面做出了開創(chuàng)性的貢獻,對博弈論和經(jīng)濟學產(chǎn)生了重大影響 。,約翰·納什1928年生于美國,約翰·海薩尼1920年生于美國,萊因哈
11、德·澤爾騰,1930年生于德國,1996年諾貝爾經(jīng)濟學獎獲得者,英國人詹姆斯·莫里斯 (James A. Mirrlees)和美國人威廉-維克瑞(William Vickrey) 獲獎理由:前者在信息經(jīng)濟學理論領域做出了重大貢獻,尤其是不對稱信息條件下的經(jīng)濟激勵理論的論述;后者在信息經(jīng)濟學、激勵理論、博弈論等方面都做出了重大貢獻。,詹姆斯·莫里斯1936年生于英國,威廉·維克瑞,1914-19
12、96,生于美國,2001年諾貝爾經(jīng)濟學獎獲得者,三位美國學者喬治-阿克爾洛夫(George A. Akerlof)、邁克爾-斯彭斯(A. Michael Spence)和約瑟夫-斯蒂格利茨(Joseph E. Stiglitz) 獲獎理由:在“對充滿不對稱信息市場進行分析”領域做出了重要貢獻。,2005年諾貝爾經(jīng)濟學獎獲得者,以羅伯特·奧曼色列經(jīng)濟學家羅伯特-奧曼(Robert J. Aumann)和美國經(jīng)濟學家托馬斯
13、83;謝林(Thomas C. Schelling) 獲獎原因:“通過博弈論分析加強了我們對沖突和合作的理解”所作出的貢獻而獲獎。,導論,三、博弈論的基本類型,合作博弈與非合作博弈,合作博弈(cooperative game) 達成有約束力的協(xié)議(binding agreement),強調(diào)團體理性,強調(diào)效率、公正、公平非合作博弈(non-cooperative game) 強調(diào)個人理性,其結(jié)果可能有效率,也可能無效率。,
14、非合作博弈的基本分類,靜態(tài)博弈與動態(tài)博弈(static games and dynamic games),同時決策或者同時行動的博弈屬于靜態(tài)博弈;先后或序貫決策或者行動的博弈,屬于動態(tài)博弈即使決策或行動有先后,但只要局中人在決策時都還不知道對手的決策或者行動是什么,也算是靜態(tài)博弈,完全信息博弈與不完全信息博弈(games of complete information and games of incomplete inform
15、ation),按照大家是否清楚對局情況下每個局中人的得益。“各種對局情況下每個人的得益是多少” 是所有局中人的共同知識(common knowledge)。據(jù)“共同知識”的掌握分為完全信息與不完全信息博弈。,完美信息博弈與不完美信息博弈(games with perfect information and games with imperfect information),是關于動態(tài)博弈進行過程之中面臨決策或者行動的參與人對于博
16、弈進行迄今的歷史是否清楚的一種刻劃。如果在博弈進行過程中的每一時刻,面臨決策或者行動的參與人,對于博弈進行到這個時刻為止所有參與人曾經(jīng)采取的決策或者行動完全清楚,則稱為完美信息博弈;否則位不完美信息。,零和博弈與非零和博弈(zero-sum game and non-zero-sum game),如果一個博弈在所有各種對局下全體參與人之得益總和總是保持為零,這個博弈就叫零和博弈;相反,如果一個博弈在所有各種對局下全體參與人之得益總
17、和不總是保持為零,這個博弈就叫非零和博弈。零和博弈是利益對抗程度最高的博弈。,常和博弈與非常和博弈(constant-sum game and variable-sum game),如果一個博弈在所有各種對局下全體參與人之得益總和總是保持為一個常數(shù),這個博弈就叫常和博弈;相反,如果一個博弈在所有各種對局下全體參與人之得益總和不總是保持為一個常數(shù),這個博弈就叫非常和博弈。常和博弈也是利益對抗程度最高的博弈。非常和(變和)博弈蘊含
18、雙贏或多贏。,導論,四、主要參考文獻,張維迎著,《博弈論與信息經(jīng)濟學》,上海三聯(lián)書店、上海人民出版社,1996年版。Roger B. Myerson著:Game Theory(原文版、譯文版),中國經(jīng)濟出版社,2001年版。王則柯、李杰編著,《博弈論教程》,中國人民大學出版社,2004年版。艾里克.拉斯繆森(Eric Rasmusen)著,《博弈與信息:博弈論概論》,北京大學出版社,2003年版。因內(nèi)思·馬可-斯達德勒
19、,J.大衛(wèi)·佩雷斯-卡斯特里羅著,《信息經(jīng)濟學引論:激勵與合約》,上海財經(jīng)大學出版社,2004年版。施錫銓編著,《博弈論》上海財大出版社,2000年版。謝識予編著,《經(jīng)濟博弈論》,復旦大學出版社,2002年版。謝識予主編,《經(jīng)濟博弈論習題指南》,復旦大學出版社,2003年版。,課程主要內(nèi)容,第一章 完全信息靜態(tài)博弈第二章 完全信息動態(tài)博弈第三章 不完全信息靜態(tài)博弈第四章 不完全信息動態(tài)博弈第五章 委托-代理理論
20、第六章 逆向選擇與信號傳遞,第一章 完全信息靜態(tài)博弈,博弈論的基本概念及戰(zhàn)略式表述納什均衡納什均衡應用舉例混合戰(zhàn)略納什均衡納什均衡的存在性與多重性,第一節(jié) 博弈論的基本概念與戰(zhàn)略式表述,博弈論的基本概念與戰(zhàn)略式表述,博弈論(game theory)是研究決策主體的行為發(fā)生直接相互作用時候的決策以及這種決策的均衡問題。博弈的戰(zhàn)略式表述:G={N,(Si)i?N,(Ui)i?N}有三個基本要素:(1)參與人(players
21、)i?N={1,2,…,n} ;(2)戰(zhàn)略(strategies),si?Si(戰(zhàn)略空間);(3)支付(payoffs),ui=ui(s-i,si)。,案例1:囚犯困境,,,支付,嫌疑人B,嫌疑人A,均衡與均衡結(jié)果,均衡戰(zhàn)略(坦白,坦白)均衡支付(-6,-6),第二節(jié) 納什均衡,占優(yōu)戰(zhàn)略均衡重復剔除的占優(yōu)戰(zhàn)略均衡納什均衡,完全信息靜態(tài)博弈的幾點特性,同時出招,出招一次; 知道博弈結(jié)構(gòu)與游戲規(guī)則(共同知識); 不管是否溝
22、通過,無法做出有約束力的 承諾(非合作),一、占優(yōu)戰(zhàn)略均衡,占優(yōu)戰(zhàn)略:不管對手戰(zhàn)略為何,該參與人可找到一最佳戰(zhàn)略。定義:在博弈G={N,(Si)i?N,(Ui)i?N}中,如果對所有的參與人i,si*是它的占優(yōu)戰(zhàn)略,那么所有參與人選擇的戰(zhàn)略組合(s1*,…,sn*)成為該對策的占優(yōu)戰(zhàn)略均衡。,案例1:囚犯困境,,,支付,嫌疑人B,嫌疑人A,“囚犯困境” 的擴展,兩個寡頭企業(yè)選擇產(chǎn)量公共產(chǎn)品的供給軍備競賽經(jīng)濟改革 結(jié)論
23、:一種制度安排,要發(fā)生效力。必須是一種納什均衡;否則,制度安排便不能成立。,價格大戰(zhàn),,,支付,百事可樂,可口可樂,案例2:智豬博弈,豬圈里圈兩頭豬,一頭大豬,一頭小豬。豬圈的一頭有一個豬食槽,另一頭安裝一個按鈕,控制著豬食的供應。按一下按鈕會有10個單位的豬食進槽,但誰按按鈕誰就要付出2個單位的成本。若大豬先到,大豬吃到9個單位,小豬只能吃1個單位;若同時到,大豬吃7個單位,小豬吃3個單位;若小豬先到,大豬吃6個單位,小豬吃4個單位。
24、支付如表。,案例2:智豬博弈,,,支付,小豬,大豬,智豬博弈的擴展,股份公司承擔監(jiān)督經(jīng)理職能的大股東與小股東股票市場上炒股票的大戶與小戶市場中大企業(yè)與小企業(yè)在研發(fā)、廣告上的博弈公共產(chǎn)品的提供(富戶與窮戶)改革中不同利益分配對改革的推動,二、重復剔除的占優(yōu)戰(zhàn)略均衡,絕對劣勢戰(zhàn)略:si是一絕對劣勢戰(zhàn)略當且僅當存在另一戰(zhàn)略si’?Si使得ui(si,s-i)< ui(si’,s-i) 對所有s-i?S-i均成立。( si’ 未必
25、是優(yōu)勢戰(zhàn)略)重復剔除的占優(yōu)戰(zhàn)略均衡:逐次刪去絕對劣勢戰(zhàn)略得到唯一的占優(yōu)戰(zhàn)略。,例:重復剔除的占優(yōu)戰(zhàn)略均衡,參與人2 L M R,參與人1,U,D,例 重復剔除的占優(yōu)戰(zhàn)略均衡,參與人2L M R,參與人1,U,D,M,例 重復剔除的占優(yōu)戰(zhàn)略均衡,參與人2L M
26、 R,參與人1,U,D,M,三、納什均衡,定義:指一戰(zhàn)略組合有以下特性:當參與人持此戰(zhàn)略后,任一參與人均無誘因偏離這一均衡;s*=(s1*,…,sn*)=(si*,s-i*)是一納什均衡,當且僅當對所有參與人而言,ui (si*,s-i*)? ui (si’,s-i*)對所有si’?Si 均成立。簡單而言,當s1*是對s2*的最適反應,s2*也是s1*的最適反應時,(s1*,s2*)就是二人博弈的
27、納什均衡。命題1:納什均衡在占優(yōu)戰(zhàn)略重復剔除解法中不會被剔除命題2:重復剔除的嚴格占優(yōu)戰(zhàn)略均衡一定是納什均衡。,例 納什均衡求解,參與人2L M R,參與人1,U,D,M,作業(yè),乙 左 中 右,上中下,甲,一個兩人同時博弈的支付競爭如下所示,試求納什均衡。是
28、否存在重復剔除占優(yōu)戰(zhàn)略均衡?,第三節(jié) 納什均衡應用舉例,古諾(Cournot)寡頭模型沙灘賣冰豪泰林(Hotelling)價格競爭模型公共地的悲劇,一、古諾寡頭模型,特點:存在兩家廠商;同時行動確定產(chǎn)量。通過預測另一家廠商的產(chǎn)量來選擇自己的利潤最大化產(chǎn)量,尋求預測均衡。廠商1表示為:max p(y1+y2e)y1-c(y1),得出y1=f1(y2e),同理得出y2=f2(y1e),稱為反應函數(shù),兩條曲線的交點為古諾模型的解。,
29、古諾寡頭模型的納什均衡,反應函數(shù) y1=f1(y2) y2=f2(y1)(y1*,y2*)是該對策的納什均衡解。,例題:古諾模型的解,假設p=a-(y1+y2),C1=y1c,C2=y2c則根據(jù)利潤最大化的一階條件分別得到反應函數(shù)y1=f1(y2)=(a-y2-c)/2,y2=f2(y1)=(a-y1-c)/2,求出均衡產(chǎn)量為(1/3(a-c),1/3(a-c)),為納什均衡,均衡利潤為(1/9(a-c)2
30、,1/9(a-c)2),古諾模型的解:與壟斷市場的比較,假設為一壟斷企業(yè),則有: Max ?=y(a-y-c), 得到壟斷企業(yè)的最優(yōu)產(chǎn)量 y=1/2(a-c) ? y1+y2=2/3(a-c) 壟斷利潤為?=1/4(a-c)2 ? 2/9(a-c)2寡頭競爭的總產(chǎn)量大于壟斷產(chǎn)量的原因在于每個企業(yè)在選擇自己的最優(yōu)產(chǎn)量時,只考慮對本企業(yè)利潤的影響,而忽視對另一個企業(yè)的外部負效應。,寡頭廠商與壟斷廠商的比較
31、,,,0 ¼ ½ ¾ 1,,,,,,二、沙灘賣冰,假設游客沿沙灘{0,1}間均勻分布,現(xiàn)有兩位賣冰者,他們會將攤位選在哪個位置?假設游客就近購買。,生活中還有哪些類似的例子?,三、豪泰林模型,寡頭企業(yè)競爭戰(zhàn)略是價格伯川德(Bertrand)模型:產(chǎn)品同質(zhì),均衡價格等于邊際成本,類似于完全競爭市場均衡。豪泰林(Hotelling)模型:
32、存在產(chǎn)品差異,均衡價格不等于邊際成本,壟斷性提高,,假定長度為1的線性城市,消費者均勻分布在[0,1]區(qū)間內(nèi),分布密度為1;兩個商店1、2分別位于x=0,x=1,即城市的兩端;消費者購買商品的旅行成本與商店的距離成反比,單位距離的成本為t;住在x的消費者在兩個商店之間是無差異的,需求D1=x,D2=1-x,x滿足:p1+tx=p2+t(1-x),解得x=(p2-p1+t)/2t。,豪泰林模型:以空間上差異為例,豪泰林模型:以空間上差異為
33、例,根據(jù)兩個商店的利潤函數(shù),?1=(p1-c)x, ?2=(p2-c)(1-x)選擇使利潤最大化的價格,得到一階條件,求得p1*=p2*=c+t,均衡利潤?1=?2=t/2旅行成本越高,產(chǎn)品差異越大,均衡價格從而均衡利潤也越高。原因:隨著旅行成本上升,不同商店出售的產(chǎn)品之間的替代性下降,每個商店對附近的消費者的壟斷能力加強,當旅行成本為零時,不同商店的產(chǎn)品之間具有完全的替代性,則為伯川德均衡結(jié)果。,四、公共地的悲劇,生物學家和生態(tài)
34、學家哈丁(Garrett Harden)在《科學》(1968年,第162卷)發(fā)表《公地的悲劇》??紤]一塊對所有的人都開放的牧場,在著的制度下,可以預期,每一個放牧的人都會在公地上放牧盡可能多的牲口。增加一頭牲口既有正效用,也有負效用。正效用是牲口的銷售收入,增加一頭為+1負效用使每增加一頭帶來的過度放牧的損失,每一個放牧著承擔-1/n放牧者合理的決策是增加牲口,直至馬瘦毛長,公地毀滅。,四、公共地的悲劇,資源沒有排他性產(chǎn)權(quán):草
35、地放牧、公海捕魚、小煤窯的過度開發(fā);另一類是人們向其中排放廢物的公地。草地放牧:n個農(nóng)民,每個擁有羊的數(shù)量為gi,G=?gi,v(G)代表每只羊的價值,與草地上放牧的總數(shù)G相關,飼養(yǎng)量增加到一定程度,隨著數(shù)量繼續(xù)增加,羊的價值會下降,即v’(G)<0農(nóng)民的利潤函數(shù)?i=giv(?gj)-gic最優(yōu)化的一階條件:??i/?gi=v(G)+giv’(G)-c=0增加一只羊有正效應(羊的價值)、負效應(新增羊使之前所有羊的價值下
36、降)個人邊際成本小于社會邊際成本,個人最優(yōu)決定的飼養(yǎng)總量大于社會最優(yōu)決定的飼養(yǎng)總量,五、斗雞博弈,,,1,2,支付,“斗雞博弈”的擴展,夫妻間吵架警察與游行隊伍公共產(chǎn)品的供給(兩富戶修路),第四節(jié) 混合戰(zhàn)略納什均衡,混合戰(zhàn)略(mixed strategies),定義:?*=(?1*,…,?n*)=(?i*,?-i *)是一納什混合戰(zhàn)略均衡,當且僅當對所有參與人而言, ?i*是?-i*的最適反應,ui(?i*,?-i *)? ui(
37、?I’,?-i *),對所有?i’??i成立)。持混合戰(zhàn)略的前提是在均衡時兩種戰(zhàn)略的報酬會相等,是預期支付最大化的推導結(jié)果。,擲硬幣,參與人1:max Eu=q(p(-1)+(1-p)1)+(1-q)(p1+(1-p)(-1)) =-pq+q-pq+p-pq-1+q+p-pq =-4pq+2q+2p-1一階條件為零求得:p
38、=1/2,擲硬幣的分析,給定參與人1(q,1-q),參與人2的支付是:q+(-1)(1-q)(正面)=(-1)q+(1-q)(反面); 給定參與人2(p,1-p),參與人1的支付為: p(-1)+(1-p)(正面)=p+(-1)(1-p)(反面);求得(1/2,1/2)是納什混合戰(zhàn)略均衡 如果兩種戰(zhàn)略報酬不相等,那么就變?yōu)?純戰(zhàn)略(pure strategies) 了。,混合戰(zhàn)略均衡的博弈原則,兩博弈方不能讓
39、對方知道或猜到自己的選擇,因而必須在決策時利用隨機性;兩博弈方選擇每種策略的概率一定要恰好使對方無機可乘,即讓對方無法通過針對性地傾向某一策略而在博弈中占上風。例:在擲硬幣的博弈中,參與人1選正面、反面的概率q,1-q,一定要使參與人2選正面的和反面的期望得益相等。,單純戰(zhàn)略與混合戰(zhàn)略的定義,G={N,S,U}是一個戰(zhàn)略式有限博弈,參與人i的戰(zhàn)略空間S中的任一元素si稱為i的一個單純戰(zhàn)略(pure strategy);定義在Si上的
40、一個概率分布函數(shù)pi(si)代表了一個混合戰(zhàn)略(mixed strategy)——這個戰(zhàn)略的內(nèi)容是:參與人i以概率pi(sij)選擇單純戰(zhàn)略sij,而?pi(sij)=1。單純戰(zhàn)略是混合戰(zhàn)略的特例,因為任一單純戰(zhàn)略si都可以理解為i以概率1選擇si,以0概率選取其他所有單純戰(zhàn)略。引入混合戰(zhàn)略,參與人的目標需要修改為“最大化自己的期望支付”,Selton:小偷和守衛(wèi)的博弈,一小偷欲偷竊有一守衛(wèi)看守的倉庫,如果小偷偷竊時守衛(wèi)在睡覺,則小
41、偷就能得手,偷得價值為V的贓物;如果小偷偷竊時守衛(wèi)沒有睡覺,則小偷就會被抓住。設小偷被抓后要坐牢,負效用為-P,守衛(wèi)睡覺而未遭偷竊有S的正效用,因睡覺被竊要被解雇,其負效用為-D。而如果小偷不偷,則他既無得也無失,守衛(wèi)不睡意味著出一份力掙一分錢,他也沒有得失。,,,小偷,守衛(wèi),支付,小偷與守衛(wèi)的博弈,小偷的混合策略,S到-D連線的縱坐標是在橫坐標對應的小偷“偷”竊概率下的守衛(wèi)選擇“睡”的期望得益,即S(1-pt)+(-D)pt,加重對守
42、衛(wèi)的處罰在短期中的效果是使守衛(wèi)真正盡職,但在長期中恰恰是會降低盜竊發(fā)生的概率(激勵的悖論),守衛(wèi)的混合策略,小偷的混合策略分布不受P的影響,因此政府加重對小偷的懲罰在長期中并不能抑制盜竊,最多只能抑制短期的盜竊發(fā)生率,它的作用主要是使守衛(wèi)可以更多地偷懶,齊威王田忌賽馬,古代齊威王與大將田忌賽馬,田忌的謀士孫臏運用計謀幫助田忌以弱勝強。比賽規(guī)則:田忌與齊威王各出三匹馬,一對一比賽三場,每一場的輸方要賠1000斤銅給贏方。雙方的馬按實力都
43、可以分為上、中、下,但齊威王的上、中、下均優(yōu)于田忌的上、中、下。實際上,田忌的上馬、中馬要優(yōu)于齊威王的中馬、下馬。比賽結(jié)果:田忌連輸三場;后孫臏建議,以上對中、以中對下、以下對上,結(jié)果以2:1贏得比賽。,前述為單方面運用策略的故事,如果齊威王預料到田忌的做法,必然會改變各匹馬出場的次序。本博弈中博弈雙方的利益是完全對立的,是嚴格競爭的零和博弈,不會有純策略納什均衡,必然是一個混合策略均衡。假設齊威王采取六種戰(zhàn)略的概率分別為pa,p
44、b,pc,pd,pe,pf(加總為1),則田忌采取六種戰(zhàn)略的期望得益相等,則得出齊威王與田忌均以1/6的相同概率隨機選擇各自的六個純策略,構(gòu)成本博弈唯一的混合策略納什均衡。,齊威王田忌賽馬,齊威王,,田忌,齊威王田忌賽馬,齊威王田忌賽馬,在上述混合策略下,齊威王的期望得益為1/6(3+1+1+1+1-1)=1;田忌的期望得益為1/6(1-3-1-1-1-1)=-1,即多次進行這樣的賽馬,齊威王平均每次能贏田忌1000斤銅,這是因為齊威王
45、三匹馬的總體實力略勝田忌三匹馬總體實力的緣故,混合策略反應函數(shù),將博弈方的策略空間擴展到包括混合策略,將納什均衡擴展到包括混合策略納什均衡以后,求納什均衡反應函數(shù)的分析方法也可以擴展到求混合策略納什均衡。反應函數(shù)即一博弈方對另一博弈方每種可能的決策內(nèi)容的最佳反映決策構(gòu)成的函數(shù)。在純策略的范疇內(nèi),反應函數(shù)是各博弈方選擇的純策略對其他博弈方純策略的反應。在混合策略的范疇內(nèi),博弈方的決策內(nèi)容為選擇概率分布,反應函數(shù)就是一方對另一方的概率分布
46、的反應。,擲硬幣,,,1,2,支付,q 1-q,1-p,p,當2出正面的概率q?1/2,1出正面的概率為1,因為他出正面得到的預期收益大于他出反面;當2出正面的概率q?1/2,1出正面的概率為0,因為他出反面的期望收益大于他出正面。,第五節(jié) 納什均衡的存在性與多重性,混合戰(zhàn)略納什均衡,純戰(zhàn)略納什均衡,重復剔除占優(yōu)均衡,占優(yōu)均衡,不同均衡概念之間的關系,納什均衡的存在性 每個有限戰(zhàn)略式
47、博弈(參與人與戰(zhàn)略數(shù)目均為有限)都有納什均衡存在,這均衡有可能是混合戰(zhàn)略均衡納什均衡的多重性 納什均衡不唯一,如性別戰(zhàn),案例 性別戰(zhàn),性別戰(zhàn):混合策略均衡,給定妻子分別以q,1-q的概率選擇時裝、足球,則丈夫選擇時裝、足球的期望收益相等,即1.q+0.(1-q)=0.q+3.(1-q),解得妻子選擇時裝、足球的概率分別為(3/4,1/4)給定丈夫分別以p,1-p的概率選擇時裝、足球,則妻子選擇時裝、足球的期望收益相等,即2.p
48、+0.(1-p)=0.p+1.(1-p),解得妻子選擇時裝、足球的概率分別為(1/3,2/3),當妻子以(3/4,1/4)的概率分布隨機選擇時裝表演和足球,丈夫以(1/3,2/3)的概率隨機選擇時裝表演和足球時,雙方都無法通過單獨改變策略,即單獨改變隨機選擇純策略的概率分布而提高利益,因此雙方的上述概率分布的組合構(gòu)成一個混合策略納什均衡。該混合策略納什均衡給妻子和丈夫各自帶來的期望收益分別為: q.p.2+q.(1-p).0+(
49、1-q).p.0+(1-q).(1-p).1=2/3; q.p.1+q.(1-p).0+(1-q).p.0+(1-q).(1-p).3=3/4雙方的期望收益均小于純策略時的期望收益。,性別戰(zhàn):混合策略均衡,夫妻之爭兩博弈方的反應函數(shù),如果p?1/3,則妻子選擇時裝的期望得益小于選擇足球,因此妻子應選擇足球,即q=0;如果p?1/3,則妻子選擇時裝的期望得益為大于選擇足球的得益,因此選時裝,即p=1,焦點均衡(focal poin
50、t),當一個博弈有多個納什均衡時,博弈論并沒有一個一般的理論來證明納什均衡結(jié)果一定會出現(xiàn)。在現(xiàn)實生活中,參與人可能使用某些被博弈模型抽象掉的信息來達到一個“焦點”均衡。這些信息可能與社會文化習慣、參與人過去博弈的歷史有關。例,在性別戰(zhàn)中,如果今天是丈夫的生日,(足球、足球)可能是一個焦點均衡;而如果是妻子的生日,(時裝、時裝)可能是一個焦點均衡。還有分蛋糕等。,課堂練習:求納什均衡,市場進入阻撓,威脅是可置信的嗎?,作業(yè)1,,春節(jié)
51、前夕,某小鎮(zhèn)上兩個商鋪主甲和乙同時看到一個賺錢機會:去城里販一批鞭炮回來零售,購貨款加上運輸費用共5000元,如果沒有競爭對手,這批貨在小鎮(zhèn)上能賣6000元;但如果另一家商鋪同時在小鎮(zhèn)上賣鞭炮,價格下跌使得這批鞭炮只能賣4000元。請用戰(zhàn)略式表示支付矩陣;請找出納什均衡。,作業(yè)二,乙 左 中 右,上中下,甲,一個兩人同時博弈的支付競爭如下所
52、示,試求納什均衡。是否存在重復剔除占優(yōu)戰(zhàn)略均衡?,第二章 完全信息動態(tài)博弈,博弈的擴展式表述子博弈精煉納什均衡子博弈精煉納什均衡舉例重復博弈和無名氏定理,第一節(jié) 博弈的擴展式表述,完全信息動態(tài)博弈,一般以擴展型式來表示:G=(N,H,P,I,U),包括5要素:(1)局中人N;(2)歷史H:博弈樹是一個多環(huán)節(jié)與枝干的集合,從單一的起始環(huán)節(jié),直到終結(jié)環(huán)節(jié),代表博弈歷史;(3)對每個環(huán)節(jié)的分配法則P:將每個環(huán)節(jié)(除終結(jié)環(huán)節(jié)外)分配
53、給不同的局中人,并賦予行動時可選的策略;(4)局中人行動時的信息集合I;(5)對應局中人可能選擇策略,各局中人在終結(jié)環(huán)節(jié)所得到的報酬U。,戰(zhàn)略式表述(strategic form representation)多用矩陣,2L S,L S,1,,擴展式表述(extensive form representation)多用博弈樹,戰(zhàn)略式與擴展式,A,B,(進入,進入),進入,
54、不進入,(進入,不進入),(不進入,進入),(不進入,不進入),市場進入博弈的標準式,市場進入的擴展式,在市場進入博弈中:A有兩個行動:“進入”、“不進入”。由于是先行動者,只有兩個戰(zhàn)略:選擇“進入”或“不進入”。 B有兩個行動:“進入”、“不進入”。但是,有4個戰(zhàn)略:,(1)若A選擇“進入”,B選擇“進入”,若A選擇“不進入”,B選擇“進入”,即(進入,進入)(2)若A選擇“進入”,B選擇“進入”,若A選擇“
55、不進入”,B選擇“不進入”,即(進入,不進入),(3)若A選擇“進入”,B選擇“不進入”,若A選擇“不進入”,B選擇“不進入”,即(不進入,進入)(4)若A選擇“進入”,B選擇“不進入”,若A選擇“不進入”,B選擇“不進入”,即(不進入,不進入),博弈樹的構(gòu)成,1.結(jié)(nodes):結(jié)包括決策結(jié)(decition nodes)和終點結(jié)(terminal nodes)兩類。決策結(jié)是參與人采取行動的時點,終點結(jié)是博弈行動路徑的終點
56、。 在博弈樹中,“誰在什么時候行動”用在決策結(jié)旁邊標注參與人的辦法來表示。參與人的支付標注在博弈樹終點結(jié)處。2.枝(branches):在博弈樹上,枝是從一個決策結(jié)到它的直接后續(xù)結(jié)的連線,每一個枝代表參與人的一個行動選擇。3.信息集(information sets):博弈樹上的所有決策結(jié)分割成不同的信息集。每一個信息集是決策結(jié)集合的一個子集。該子集包括所有滿足下列條件的決策結(jié):(1)每一個決策結(jié)都是同一參與人的決策
57、結(jié);(2)該參與人知道博弈進入該集合的的某個決策結(jié),但不知道自己究竟處于哪一個決策結(jié)。,結(jié)nodes,信息集分單節(jié)信息集和多節(jié)信息集;如果用虛線匡起來表示2知道自己位于信息集內(nèi),但不知道是哪一點,因為他沒能觀察到對手的行動;如果博弈樹的所有信息集都是單結(jié)的,稱為完美信息博弈,完美信息(perfect information)與不完美信息(imperfect information),,不完美信息:2不能區(qū)分1是采用了L還是S,完美信息
58、:2能區(qū)分1是選擇了L還是S,第二節(jié) 子博弈精煉納什均衡,子博弈子博弈精煉納什均衡求解方法:逆向歸納法承諾行動與子博弈精煉納什均衡,一、子博弈(sub-game),子博弈定義:在一個擴展型博弈中,如果一個博弈由它的一個決策結(jié)及其所有后續(xù)結(jié)構(gòu)成,并滿足(1)起始結(jié)是一個單結(jié)的信息結(jié);(2)子博弈保留了原博弈的所有結(jié)構(gòu),則稱它為原博弈的一個子博弈(子博弈)。,,(1)起始結(jié)是一個單結(jié)的信息結(jié),(2)子博弈保留了原博弈的所有結(jié)構(gòu):子博
59、弈的信息集和支付向量都直接繼承自原博弈,在市場進入博弈中,包含3個子博弈(包括原博弈)。而在囚徒博弈中,只有一個子博弈(?),二、子博弈精煉納什均衡,子博弈精煉納什均衡定義: 在博弈G中,如果s*=(s1,…,sn)是G的一個納什均衡,并且對所有可能的子博弈而言仍是一個納什均衡,則稱s*=(s1,…,sn)為一個子博弈精煉納什均衡,市場進入博弈的納什均衡,A,B,(進入,進入),進入,不進入,(進入,不進入),(不進入,進入),(
60、不進入,不進入),該博弈中有三個納什均衡:不進入,(進入,進入)進入,(不進入,進入)進入,(不進入,不進入)前兩個均衡的結(jié)果(進入,不進入),即A進入,B不進入;第二個均衡結(jié)果是(不進入,進入),即A不進入,B進入,如果理論得到這樣的結(jié)果,無助于預測博弈參與人的行為。此外,納什均衡假定,每一個參與人選擇的最優(yōu)戰(zhàn)略是在所有其他參與人的戰(zhàn)略選擇給定時的最優(yōu)反應,即參與人并不考慮自己的選擇對其他人選擇的影響,因而納什均衡很難說
61、是動態(tài)博弈的合理解。,必須在多個納什均衡中剔除不合理的均衡解,即所謂“不可置信威脅”。子博弈精煉納什均衡是對納什均衡概念的最重要的改進。它的目的是把動態(tài)博弈中的“合理納什均衡”與“不合理納什均衡”分開。正如納什均衡是完全信息靜態(tài)博弈解的基本慨念一樣,子博弈精煉納什均衡是完全信息動態(tài)博弈解的基本概念。,①{不進入,(進入,進入)}② {進入,(不進入,進入)}③{進入,(不進入,不進入)},前邊得到的三個納什均衡中,均衡①意味著當A不進
62、入時,B選擇進入;而當A選擇進入時,B仍選擇進入(B威脅無論如何都要進入市場)。,顯然,當A選擇進入時,B仍選擇進入是不合理的,如果A進入市場,B選擇“不進入”比選擇“進入”收益要更大,理性的B不會選擇進入,而A知道B是理性的,因此也不會把該戰(zhàn)略視為B會選擇的戰(zhàn)略。因此,B的戰(zhàn)略(進入,進入)是不可置信威脅。,均衡③意味著當A進入時,B選擇不進入;而當A選擇不進入時,B仍選擇進入(B威脅無論如何都不進入市場)。顯然,當A選擇不進入時,B
63、仍選擇不進入是不合理的,B的戰(zhàn)略是不可置信的。,①{不進入,(進入,進入)} ② {進入,(不進入,進入)} ③{進入,(不進入,不進入)},只有均衡②是合理的:如果A進入,B不進入;如果A不進入,B進入。因為A是先行動者,理性的A會選擇“進入”(他知道B是理性的,B不會選擇“進入”),而理性的B選擇“不進入”。 觀察博弈樹上的三個均衡中,B的不可置信戰(zhàn)略中的反應,在第二階段B開始行動的兩個子博弈中不是最優(yōu);而合
64、理的納什均衡中,B的戰(zhàn)略在所有子博弈中都是最優(yōu)的,與A的第一階段可能選擇的行動構(gòu)成該子博弈的納什均衡。,只有當一個戰(zhàn)略規(guī)定的行動規(guī)則在所有可能的情況下都是最優(yōu)的時,它才是一個合理的、可置信的戰(zhàn)略。子博弈精煉納什均衡就是要剔除掉那些只在特定情況下是合理的而在其他情況下并不合理的行動規(guī)則。 子博弈精煉納什均衡: 如果參與者的戰(zhàn)略在每一個子博弈中都構(gòu)成了納什均衡,則稱納什均衡是子博弈精練的(澤爾滕,1965) 。,為簡單起見,假定博弈有兩個
65、階段,第一階段參與人1行動,第2階段參與人2行動,并且2在行動前觀測到1的選擇。令A1是參與人1的行動空間,A2是參與人2的行動空間。當博弈進入第二階段,給定參與人1在第一階段的選擇為a1∈ A1 ,參與人2面臨的問題是:,顯然參與人2的最優(yōu)選擇a2*依賴于參與人1的選擇a1。用a2*=R(a1)代表上述最優(yōu)化問題的解(即2的反應函數(shù))。因為參與人1應該預測到參與人2在博弈的第二階段將按a2*=R(a1)的規(guī)則行動,參與人1在第一階段面
66、臨的問題是:,令上述問題的最優(yōu)解為a1*。那么,這個博弈的子博弈精煉納什均衡為{a1*,R2(a1)},均衡結(jié)果為{a1*,R2(a1*)}。(a1*,R2(a1*))是一個精煉均衡,因為a2*=R2(a1)在博弈的第二階段是最優(yōu)的。除a2*=R2(a1)之外,任何其他的行為規(guī)則都不滿足精練均衡的要求。 上述思路就是逆向歸納法尋找子博弈精煉納是均衡的基本思路。,乙{左,左} {左,右} {右,左} {右,右},上下,甲
67、,納什均衡?子博弈精煉納什均衡,三個納什均衡:(上,{左,左})(下,{左,右})(下,{右,右})排除(上,{左,左}),(下,{右,右}),只有(下{左,右}) 是子博弈精煉納什均衡,三、求解方法:逆推法,逆向歸納法求解子博弈精煉納什均衡的過程,實質(zhì)是重復剔除劣戰(zhàn)略過程在擴展式博弈上的擴展:從最后一個決策結(jié)開始依次剔除掉每個子博弈的劣戰(zhàn)略,最后生存下來的戰(zhàn)略構(gòu)成精煉納什均衡。如同重復剔除的占優(yōu)均衡要求“所有參與人是理性的”
68、是共同知識一樣,用逆向歸納法求解均衡也要求“所行參與人是理性的”是共同知識。,逆推法:例1,逆推法:例2,逆推法:例3,四、承諾行動(commitment)與子博弈精煉納什均衡,納什均衡之所以不是精煉均衡,是因為不可置信的威脅存在,如父母與子女之間的博弈。如果參與人在博弈前采取措施改變行動空間或支付函數(shù),原來不可置信威脅就變得可置信,博弈的精煉均衡就會改變;將改變博弈結(jié)果而采取的措施稱為“承諾行動”完全承諾,如破釜沉舟、軍事博弈
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 身邊的博弈論博弈論與信息經(jīng)濟學淺說
- 身邊的博弈論博弈論與信息經(jīng)濟學淺說
- 《博弈論與信息經(jīng)濟學導論》講義
- 博弈論與信息經(jīng)濟學課后答案
- 《博弈論與信息經(jīng)濟學》習題庫
- 博弈論信息經(jīng)濟學知識點
- 博弈論信息經(jīng)濟學知識點
- [學習]委托-代理理論-博弈論與信息經(jīng)濟學gametheoryandinforma
- 張維迎博弈論與信息經(jīng)濟學講義課后習題答案
- 《身邊的博弈論:博弈論與信息經(jīng)濟學淺說》第一稿未定稿1
- 信息經(jīng)濟學
- 博弈論在經(jīng)濟學中的應用
- 信息經(jīng)濟學總結(jié)
- 基于博弈論和信息經(jīng)濟學對風險投資中委托代理問題的研究.pdf
- 我國中小銀行與中小企業(yè)融資問題研究——從信息經(jīng)濟學和博弈論角度.pdf
- 信息經(jīng)濟學考試重點
- 信息經(jīng)濟學——契約理論
- 《信息經(jīng)濟學》復習提綱
- 第14章信息經(jīng)濟學
- 《信息經(jīng)濟學》選擇題
評論
0/150
提交評論