策略與博弈.ppt_第1頁
策略與博弈.ppt_第2頁
策略與博弈.ppt_第3頁
策略與博弈.ppt_第4頁
策略與博弈.ppt_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、策略與博弈Strategies and Games,華南熱帶農(nóng)業(yè)大學(xué)基礎(chǔ)學(xué)院數(shù)學(xué)教研室 舒興明,獲取講義或者演示稿郵箱: 密碼:31115085 交流信息或交作業(yè)郵箱: ,博弈的游戲,游戲1,拿子游戲(Nim和Marienbad),有兩堆火柴,以及兩個局中人。游戲從局中人1開始,此后兩個局中人輪流行動。在每個局中人的輪次里,他可以從兩堆火柴的任何一堆中拿走任何(整數(shù))數(shù)量的火柴。只要任何一堆火柴中尚有剩余的火柴,則要求每個局中人拿走一定數(shù)量且不能空手而返,但是每次只能從其中一堆中取火柴。,在“拿子游戲”Nim中,無論哪個局中人,取走最后一根火柴者都算贏。在Marienbad中,誰難走最后一根火

2、柴者就算輸。,感興趣問題,在拿子游戲中,任何一個人是否存在贏的策略。也就是是否存在這樣的策略,只要在你的輪次中使用它,不管以后游戲如何進(jìn)行,可以保證你穩(wěn)操勝券?,游戲分析,如果兩堆火柴數(shù)目相同,稱為兩堆平衡,則局中人2存在贏策略。反之,如果兩堆不平衡,則局中人1存在贏策略。對于平衡問題,局中人2仿照局中人1在另外一堆中拿子;對于非平衡問題,局中人1通過第一次拿子,使得兩堆平衡,然后,回到平衡問題,局中人2和1的位置置換。,Nim游戲,思考,Nim拿子游戲是否存在其他策略?如果火柴堆不止兩堆,你認(rèn)為會發(fā)生什么?試試Marienbad游戲,找出贏的策略。,游戲2,投票,假設(shè)有兩個競爭議案A與B;3

3、個議員,投票人1,2和3,他們投票決定是否通過這些議案。結(jié)局可能會有兩個:要么通過A和B中的一個,要么議員們沒有通過任何一項議案(延緩而代之以現(xiàn)行法律)。投票過程如下:首先,讓議案A和B相互競爭;然后,競爭的獲勝方與原法律相互競爭,為了簡便,我們將原來的法律成為“都不贊成”(N)。在兩輪投票中的每一輪,獲多數(shù)的法案勝出。三個議員在可適用的選擇中有如下偏好:,投票人1:AN B 投票人2:B A N 投票人3:N A B,A B:喜歡議案A甚于喜歡議案B,感興趣問題,如果三個議員都“真實”投票,誰將勝出;如果存在“不真實”投票,那么誰將勝出第一輪,第二輪呢?,游戲分析,比較系統(tǒng)的分析方法:首先,

4、注意到在第二輪投票中每個投票人有可能真實地投票。這是因為如果議員對不太喜歡的議案投贊成票,那就可能讓他通過,因為這顯然比阻止它通過更加糟糕(為什么?)。因此,如果A在第一輪中勝出,最終結(jié)局就是A,而如果B在第一輪勝出,最后結(jié)局是N。每個理性的議員都了解這點。所以,在第一輪關(guān)于A和B的競爭投票時,他們實際上是在A和N之間投票。因而,投票人1和投票人2在第一輪中投票給A,于是A最終被選中。,思考,策略投票和真實投票有什么不同?結(jié)局呢?,游戲3,囚徒困境,兩個囚徒,Calvin和Klein被懷疑犯罪而被逮捕拘押。地方檢察官Kash分別同他們談話,告訴他們,她或多或少有點證據(jù)證明他們有罪。但如果他們認(rèn)

5、罪的話,就可以使她的工作稍微容易一些(同時也幫助了他們自己)。她對每個人提供如下政策:“認(rèn)罪,并為政府翻出證據(jù)來,并揭發(fā)另一個同伙你將用不著服刑。當(dāng)然,如果另外一個同伙也認(rèn)罪的話,你的認(rèn)罪價值將大大減少。出現(xiàn)這種情況,你們每個人將服刑5年。但是,如果你拒絕認(rèn)罪,就要意識到我們將以另外一個同伙的招供而逮捕你,于是你將服刑15年。在我們不能夠從你們?nèi)魏我粋€那里得到認(rèn)罪的情況下,我們將有足夠的證據(jù)將你們送進(jìn)監(jiān)獄1年?!?最古老的博弈論問題之一,問題的表示形式:,上表中各項為囚禁期限。對于(認(rèn)罪、不認(rèn)罪)項的第一個數(shù)字表示Calvin認(rèn)罪,而klein不認(rèn)罪時分別對Calvin的判刑期限(0年)與對k

6、lein的判刑期限(15年)。由于這些都是囚禁期限,因此較小的數(shù)優(yōu)于較大的數(shù)。,游戲分析,如果兩個人合作,最好的結(jié)果就是(不認(rèn)罪,不認(rèn)罪)。問題是,在押期間,兩人無法合作,只能看成兩個獨立的理性人。經(jīng)過分析得到最后結(jié)果為(認(rèn)罪,認(rèn)罪)。,思考1,兩個大國的軍備競賽(削減軍費,增加軍費);爭執(zhí)的雙方(離婚、勞務(wù)爭端)等(請律師、不請律師)。,思考2,利用囚徒困境,說明個體理性和集體理性之間的矛盾。,思考3,看看下面的例子是不是囚徒困境?,價格戰(zhàn),惡性廣告競爭,初等和高等的應(yīng)試教育.,思考4,在囚徒困境模型中,如果把服刑時間修改一下,會有什么結(jié)果?又在這個博弈中,如果嫌疑犯存在行動的先后順序,會怎

7、么樣?,博弈要素,players,strategies,參與人或者局中人,局中人可以是個體,也可以是團(tuán)體,自然;局中人是一個理性決策人:以自己的利益最大化作出行動選擇。局中人可以是兩個,也可以是多個,記I=1,2,n,策略,例如,乒乓球團(tuán)體比賽的運動員出場順序就是一個策略;這里所說的策略,是局中人在競爭中,為了對抗其他局中人所采取的一個完整的辦法,并不是某一步采取的辦法。例如,下象棋的“當(dāng)頭炮”,只能算是策略的一個組成部分,并非完整的策略。局中人所有的策略的集合,就構(gòu)成了該局中人的策略集合,可以是有限的,也可以是無限的。用Si表示第i個局中人的策略集合。每個局中人都從自己的集合中選出一個策略,

8、得到一個博弈結(jié)果,這樣的每個局中人的策略放在一起,就構(gòu)成一個局勢。,payoffs,支付函數(shù),或者叫贏得函數(shù),表示可能的對局結(jié)果。支付函數(shù)定義在局勢集合上的函數(shù)。用Hi表示第i個人的支付函數(shù)。,對策模型(博弈模型),對策過程,每個局中人都從自己的策略集合中選出一個策略s(i),s(i) Si,就組成一個局勢,把局勢帶入每個人的支付函數(shù)中,獲得Hi(s)。,案例1,有兩個人決斗,這兩個人從相距1的地方同時起步,迎面走向?qū)Ψ?,只能前進(jìn),不能后退,他們在決斗開始后任何地點都可以開槍,每個人只有一發(fā)子彈,如果一個人開了槍而沒有擊中對方,那么他的對手知道他已用掉了僅有的一發(fā)子彈,就可以走到面對面的地方,

9、然后開槍,一定擊中對方,現(xiàn)開槍的當(dāng)然可能先擊中對方,但距離較遠(yuǎn)的時候擊中的概率比較小,后開槍擊中對方概率大,但是有可能先被對方擊中。所以要選擇合適的距離開槍。,二人決斗模型(支付函數(shù)連續(xù),多元函數(shù)表達(dá)),規(guī)定勝利者得到支付為1,敗者支付為-1,雙方同時開槍,都擊中對方或者都沒有擊中對方的時候,支付都為0。,分析,局中人1的策略為x:距離x處開槍;局中人2的策略為y:距離y處開槍。策略集合分別為,I=1,2;,局中人集合,策略 集合,局勢集合,局中人1的策略,局中人2的策略,支付函數(shù),局中人1,局中人2,案例2,布什上校(支付離散,矩陣表達(dá)),在一場戰(zhàn)斗中,布什上校有兩個步兵團(tuán)可以自由分派到一對

10、地點(1,2 1,3 1,4 2,3 2,4 3,4);而薩達(dá)姆上校只有一個步兵團(tuán)派往四個地點(1,2,3,4)的任何一處。如果一個團(tuán)到達(dá)無人爭奪的地點,那么它就贏得這一處;如果敵方一個團(tuán)也來到同一地點,那么它們將進(jìn)行戰(zhàn)斗而陷入困境。贏可以獲得一個單元效用;陷入困境則產(chǎn)生零效用。,雙支付矩陣,占優(yōu)策略型對策,案例分析,囚徒困境,如果Calvin是個理性的個體,他的策略有“認(rèn)罪”和“不認(rèn)罪”兩種,如果他選擇不認(rèn)罪,Klein不管認(rèn)罪不認(rèn)罪,他的判刑都比Calvin年限少,故對Calvin不利。所以Calvin認(rèn)為他的兩個策略中,“認(rèn)罪”策略比“不認(rèn)罪”策略好。同樣的分析,Klein也會認(rèn)為“認(rèn)罪

11、”比“不認(rèn)罪”策略好。所以,最后,兩個囚徒的合理的博弈結(jié)果應(yīng)該是“認(rèn)罪”,“認(rèn)罪”,各判5年。這里我們記:,“認(rèn)罪”優(yōu)于“不認(rèn)罪”,b1b2,a1 a2,又記:H1(a1,b1)=5=a11 H1(a1,b2)=15=a12 H1(a2,b1)=0=a21 H1(a2,b2)=1=a22,則,即,于是,得到如下定義,注意:數(shù)字越小越優(yōu),不管其他局中人選擇怎樣的策略,局中人i的策略si盈利嚴(yán)格大于他的其他任何其他策略的盈利,即,強 優(yōu) 策 略,對一切 和 都成立。,則稱策略si強優(yōu)于局中人i的所有其他策略。,其中,s-i表示除了局中人 i 外的其他所有局中人的策略向量。,在囚徒困境中,局中人1的

12、策略a1=“認(rèn)罪”,就是他的所有策略的強優(yōu)策略;同理,局中人2的策略b1=“認(rèn)罪”也是他的所有策略中的強優(yōu)策略。所以,最后局勢為(a1,b1)。,思考1,在博弈對策中,一個局中人如果存在強優(yōu)策略,是否存在兩個或者兩個以上的強優(yōu)策略?(利用定義判別),思考2,分析案例2,布什上校和薩達(dá)姆上校是否分別存在強優(yōu)策略?,如果局中人i存在強優(yōu)策略si,那么他的其他策略si都稱為強劣策略。對于局中人i來說,沒有理由選擇強劣策略。,對于局中人i來說,并不是強優(yōu)策略都存在,比如:,弱 優(yōu) 策 略,如果不管其他局中人選擇怎樣的策略,局中人i的策略si盈利不小于他的其他任何其他策略的盈利,即,對一切 和 都成立。

13、,則稱策略si弱優(yōu)于局中人i的所有其他策略。,其中,s-i表示除了局中人 i 外的其他所有局中人的策略向量。,強優(yōu)策略和弱優(yōu)策略統(tǒng)稱優(yōu)策略。,非 劣 策 略,對于局中人i的策略si#和si*,若對于其他局中人的所有策略向量s-i,有,而對于其他局中人的某些策略向量s1-i,有,則稱si#為局中人i的劣策略。如果一個策略不是劣策略,則稱為非劣策略。前面所講的優(yōu)策略是非劣策略的特殊類型。,一般來說,局中人i有許多策略。下面兩件事必有一件真: (1)可能存在一個優(yōu)策略;(2)必然存在一個非劣策略。,案例3,(伯川德)價格競爭模型,假設(shè)雙寡頭壟斷市場中的兩個公司都可以開出三個價格中的任何一個高、中、低

14、。不管哪個公司開出較低的價格就可以得到整個市場。如果兩個公司開價相同,則他們將平分市場。他們的價格局勢造成的收益矩陣如下:,利用優(yōu)策略概念,求解兩個公司的最終局勢(價格對)。,分析,由盈利矩陣可以觀察出,對于兩個公司,“高”價格策略劣于“中”價格策略,于是,每個公司都沒有理由選擇這個“差”策略。于是“剔除”這個策略,得到:,從這個新的盈利矩陣可以看出,對任何一家公司,“低”價格策略優(yōu)于“中”價格策略,故最后兩家公司的有效局勢為(低,低)。,思考1,在一個沒有品牌的市場(產(chǎn)品完全一樣)旁邊有一個價格低的小商販,你認(rèn)為顧客趨向如何?,思考2,舉例分析兩家相鄰的食品店和折扣家電的商店的情況。,案例4

15、,奧斯卡和金棕櫚共阻一套房間。他們對整潔優(yōu)美有明顯的不同觀點,從而,對于是否愿意花費必要的時間打掃房間也存在不同的看法。假使每周至少花費12小時的工作才能保持住所有的干凈,至少9小時的清潔工作才能使得房間過得去,而少于9小時則房間骯臟不堪。又假使兩個人都可以奉獻(xiàn)3、6或9小時進(jìn)行打掃。奧斯卡和金棕櫚都同意過得去的適宜住房有效值為2。但是在清潔住所的效用值方面兩個人看法不一致:奧斯卡認(rèn)為它值10個效用單位,而金棕櫚認(rèn)為它值5。他們兩關(guān)于骯臟房間的令人不愉快性也有不同的估價:奧斯卡認(rèn)為它值-10個有效單位,而金棕櫚認(rèn)為它值-5。每個人的盈利是由來自干凈房間的有效值減去他打掃房間花費時間數(shù)。例如,奧

16、斯卡和金棕櫚都花費6小時打掃房間,干凈的房間使得奧斯卡獲得盈利4,而金棕櫚獲得盈利-1。,古怪的一對,分析,根據(jù)提示,計算得到如下盈利矩陣:,首先,由于金棕櫚懶蟲認(rèn)為每周花費9個小時打掃房間是不可行的(都是-4,這簡直是發(fā)瘋?。?;這個策略劣于每周6小時,故剔除這個策略,得到如下關(guān)聯(lián)盈利矩陣:,對于這個新的盈利矩陣來說,每周工作3小時是劣策略,故剔除這個策略,得到:,對于這個新的盈利矩陣,對奧斯卡來說,6小時是劣策略(愛干凈),故奧斯卡選擇9小時掃地,這樣,對于金棕櫚來說,6小時又是劣策略,故最后局勢為(9小時,3小時)。(或者6小時是金棕櫚的劣策略,故金棕櫚不會選擇6小時,而選擇3小時,對于奧

17、斯卡來說,6小時又成了劣策略,故最后局勢仍然為(9小時,3小時)。,案例5,選舉聯(lián)合國秘書長,聯(lián)合國1996年12月選舉19972001年5年期的聯(lián)合國秘書長。候選人之一是來自埃及的波.波.加利(Boutros Boutros-Ghali),他是19921996年期間的秘書長。他在尋求連任,卻一開始面臨來自美國政府的強烈反對(1996年夏季末,美國政府宣布反對加利,美國政府說加利在聯(lián)合國內(nèi)部沒有足夠地消除浪費以及管理上的失誤。政治觀察家們推測美國的決策大多按照總統(tǒng)的政治主張做出的??肆诸D總統(tǒng)(反對加利連任的共和黨占上風(fēng))的選舉即將來臨)趨向于婦女秘書長,提及的有可能性的婦女為挪威首相布魯特萊特

18、(Glo Harlern Brundtland,11月辭去首相職務(wù),全力競選秘書長)。但是,聯(lián)合國的非洲成員希望有第二任非洲秘書長。另一個非洲人-并且是由豐富的聯(lián)合國經(jīng)驗的人-來自加納的安南(Kofi Annan),不久他的名字在競選中浮出水面。,博弈分析,局中人,博 弈 過 程,首先美國投票并著手否決三個候選人A(安南)、B(加利)、H(布魯特萊特)中的一個,然后,非洲投票否決兩個剩下候選人中的一個。且選舉開始知道兩個局中人的偏好順序:,美國:HAB 非洲:BAH,盈 利,如果最中意的人當(dāng)選的話,盈利為1,如果較中意的人當(dāng)選,盈利為0,不喜歡的人當(dāng)選的,盈利為-1。,策 略,局中人1:A B

19、 H,局中人2:有三個分量(X,Y,Z),X表示,如果局中人1否決A,局中人2的否決;Y表示劇中人1否決B,局中人2的否決;Z表示局中人1否決H,局中人2的否決。那么,局中人2的策略為:HAA HHA HAB HHB BAA BHA BAB BHB,博弈矩陣為:,局中人2(非洲)的偏好是B優(yōu)于A,A優(yōu)于H,故局中人2的策略HHA優(yōu)于其它任何策略(不管局中人1(美國)用哪一個策略),也就是如果加利有資格的話,非洲將會否決其他任何候選人。另外一方面,從矩陣中可以看出,HHA這一列(局中人2的盈利)不小于任何一列,故也決定了HHA為弱優(yōu)策略。這樣上述博弈矩陣變成:,這是可以看出,局中人1(美國)否決

20、A或者H是劣策略,(也就是說,否決安南或者布魯特萊特,為加利打開了大門)。所以,最后美國在第一輪否決加利,第二輪非洲否決了布魯特萊特。折中候選人安南就被選為秘書長。,占優(yōu)策略剔除法說明,在第I輪,局中人i的劣策略集合表示為,理性的局中人都不會采用劣策略,對每個局中人這個說法都成立。,在第II輪,局中人i可以在留給自己的策略集合Si-Di(I)中作進(jìn)一步的決定,看看他們中間是否有新的策略成了劣策略。在采用剔除法剔除劣策略構(gòu)成了Di(II)。這樣不斷循環(huán)下去,直到出現(xiàn)占優(yōu)策略為止。,算例,案例3、案例4、案例5的計算,局中人2的右策略與中心策略相比,是劣策略,局中人1的底策略與中間相比,是劣策略,

21、第一輪剔除結(jié)果,第二輪剔除結(jié)果,中心左,給定局中人2的每個策略,對局中人1的相應(yīng)盈利最大值劃線,再給定局中人1的每個策略,對局中人2的盈利最大值劃線,兩個值都劃線的對應(yīng)的策略就是兩個局中人的最佳策略。,結(jié)果與剔除順序有關(guān),當(dāng)策略之間的劣與優(yōu)是強(非弱)的時候,最后結(jié)果與剔除順序沒有關(guān)系,但是當(dāng)策略之間的劣與優(yōu)是弱的(非強)的,則最后結(jié)果與剔除順序有關(guān)。,案例6,一個市場存在一個壟斷企業(yè),另一個新的企業(yè)希望進(jìn)入這一市場,壟斷者為了保持自己的壟斷地位,需要對進(jìn)入者進(jìn)行阻撓。這種對策中,進(jìn)入者有兩種策略:“進(jìn)入”與“不進(jìn)入”;壟斷者也有兩種策略:“默許”與“阻撓”。他們的盈利函數(shù)如下:,剔 除 法,

22、根據(jù)劃線法,該問題有兩個最后局勢: (進(jìn)入,默許)和(不進(jìn)入,阻撓)。但是,根據(jù)根據(jù)剔除法,我們根據(jù)占優(yōu)策略剔除劣策略,而只能得到一個最后局勢。所以今后在求解占優(yōu)策略的時候,最好用劃線法。,納什均衡博弈論的第一個重量級概念,最 優(yōu) 反 應(yīng) 策 略,局中人i的策略si*與其他局中人的策略向量s-i*,如果他們滿足:,則稱si*是關(guān)于s-i*的最優(yōu)反應(yīng)。也就是假定其他局中人取定策略組合s-i*,那么局中人i采用的最好策略就是si*。,在對策中使用最優(yōu)反應(yīng)策略,必須有兩個假設(shè):,每個局中人必須采用自己猜測其他局中人的策略組合的最優(yōu)反應(yīng)策略。,這種猜測必須是正確的。,案例7,豪泰林競爭模型,假定有一個

23、長度為1的線性城市,消費者均勻分布在這個區(qū)間內(nèi),有兩個商店(工廠)位于這個城市的兩端,出售同質(zhì)產(chǎn)品,記商店1在x=0處,商店2在x=1處,每個商店的單位成本為c。消費者一單位的交通成本為t,他們需要一個單位的商品,而且為這一個單位商品最多愿意支付s。兩家商店的價格如何?,D為需求函數(shù),分析,需求分界點,需求函數(shù),對策支付 函數(shù)(盈利),求解最優(yōu)反應(yīng)策略(定價),給定p2*,對p1求偏導(dǎo),得到,給定p1*,對p2求偏導(dǎo),得到,解釋1,商店1猜測商店2采用(價格)策略p2*,那么商店1的最優(yōu)反應(yīng)策略是采用(價格)策略p1*(也就是說,如果商店1采用其它策略,他的盈利就會減少);同樣,商店2猜測商店

24、1采用(價格)策略p1*,那么,商店2最優(yōu)反應(yīng)策略是采用(價格)策略p2*。也就是說,p1*和p2*互為最優(yōu)反應(yīng)。,解釋2,商店1和2的最優(yōu)反應(yīng)是建立在外部環(huán)境給定的情況下的最優(yōu)反應(yīng)。這兩個最優(yōu)反應(yīng)需要根據(jù)外部環(huán)境參數(shù)變化而變化,因為 p1*=p2*=c+t 當(dāng)c和t發(fā)生改變的時候,兩個最優(yōu)反應(yīng)都相應(yīng)發(fā)生改變。,解釋3,當(dāng)c和t增加超過一定限度,即總支付超過了消費者的支付能力(最多愿意支付),那么,消費者就從商店1和商店2流失。由于,即c和t也應(yīng)該受到消費者的支付能力的約束!,納 什 均 衡,在案例7中,局中人(兩個商店)分別猜測對方會用策略(價格)p1*和p2*,誰偏離了這個策略,都會吃虧。

25、所以,局中人都有沒有偏離(p1*,p2*)的動機。也就是說,在這個對策中,局中人分別選擇策略(p1*,p2*)是穩(wěn)定的。稱這樣的策略向量(p1*,p2*)為納什均衡。,也就是說,如果局中人i正確的猜測其它局中用人的策略向量為s-i*,那么,他的最優(yōu)反應(yīng)是si*,如果偏離了這個策略,他的盈利就會下降。同樣的道理,每個局中人都有這樣的猜測,那么,誰都不會偏離這個均衡策略向量。即納什均衡具有穩(wěn)定性。,思考1,局中人都存在強優(yōu)策略,那么,這種由強優(yōu)策略組成的策略向量是不是納什均衡?,思考2,納什均衡是唯一的嗎?利用弱優(yōu)策略說明。,思考3,是不是所有的對策都有納什均衡?,思考4,局中人都有多個策略,他們

26、怎么達(dá)到納什均衡?想一下在商業(yè)競爭中,為什么存在商家談判?,思考5,對于弱優(yōu)策略型,用剔除法會不會剔除納什均衡?,納什均衡的補充說明,行動指令,納什均衡s*猶如行動指令。如果這個策略向量是局中人提出的,沒有一個人愿意采用其它策略,那么它就是一個穩(wěn)定的指令。,廉價磋商,局中人在通過實際博弈過程中通過討論他們的選擇來進(jìn)行協(xié)調(diào)。只有在納什均衡上達(dá)成的協(xié)議才能夠被所有局中人付諸行動;在非納什均衡上達(dá)成的任何協(xié)議,至少有一個人不忠于這樣的協(xié)議。,理性自省,每個局中人可能自問他期望的博弈結(jié)局將是什么,某些候選的結(jié)局似乎不合理,因為有些局中人可以比他們正在做的獲益更好,也就是說,可能有局中人沒有采用最優(yōu)反應(yīng)

27、。當(dāng)處在納什均衡的時候,沒有一個人愿意在其他人都選擇最優(yōu)反應(yīng)的時候犯錯誤。,聚焦點,納什均衡形成了局中人的聚焦點。也就是說,納什均衡比其他策略向量更加引人注目,因為它具有異于其他策略向量的特點,那就是納什均衡下,每個局中人都是最優(yōu)反應(yīng)。,例如,在兩個人面前擺著一塊蛋糕,讓這兩個人各自默寫出一個0到1的分法比例值,即自己愿意占這塊蛋糕的比例。當(dāng)兩個人想法相等且可行的時候,他們就可以分享這塊蛋糕,否則,他們將一無所獲!,在這個問題中,兩個人都會聚焦到1/2這個分配比例上,所以(1/2,1/2)是一個合理的納什均衡。當(dāng)然這里有很多納什均衡,但是,人們最容易想到的就是這個分法就是各占一半。,案例8,動

28、物王國里的納什均衡,動物為了爭奪配偶、稀缺生活資源、后代的繁衍資源而發(fā)生戰(zhàn)斗,一旦發(fā)生爭斗,戰(zhàn)斗的代價十分昂貴,比如失去臂或者腿甚至生命。生長在墨西哥的荒漠的荒漠蜘蛛,雌蜘蛛在網(wǎng)里產(chǎn)卵,由于這樣的網(wǎng)很難建搭,因此,網(wǎng)是稀少的。雌蜘蛛經(jīng)常為了爭奪已有的網(wǎng)而爭斗,或者接近爭斗;兩只雌蜘蛛并排在網(wǎng)前,猛烈地?fù)u晃蜘蛛網(wǎng)。當(dāng)一只蜘蛛撤退下來而留下另外一只單獨占有蜘蛛網(wǎng)時,沖突就結(jié)束了。,生物學(xué)家們試圖解釋兩個特定的事實:,多數(shù)沖突無需戰(zhàn)斗而得到解決。沖突勝利者常常從失敗者那里獲得“維持生命”的必須品(作為獎勵)。,當(dāng)獎勵較高時候,戰(zhàn)斗的可能性更大!,利用已經(jīng)學(xué)到的知識,建立如下博弈矩陣:,其中,擁有一張

29、蛛網(wǎng)的價值是10,如果兩只蜘蛛戰(zhàn)斗,肉體損傷超過了擁有蛛網(wǎng)的價值,那么,x0。,?,這個博弈的納什均衡是什么呢?,X0,存在兩個納什均衡,一只準(zhǔn)備戰(zhàn)斗,另外一只認(rèn)輸。這時肉體損傷太大,贏得蜘蛛網(wǎng)的獎勵不大!,x0,這時候,唯一的納什均衡為(戰(zhàn)斗,戰(zhàn)斗),也就是說,較高的獎勵導(dǎo)致了更多的戰(zhàn)斗!,不發(fā)生戰(zhàn)斗時,我們?nèi)绾晤A(yù)測哪一個納什均衡會發(fā)生呢?,研究發(fā)現(xiàn):贏得蜘蛛網(wǎng)與兩件事情有關(guān)占有狀態(tài)和體重。如果體重大致相當(dāng),占有者保住蛛網(wǎng);如果體重相差懸殊(通過搖晃蛛網(wǎng)的劇烈程度可知),體重大的占有蛛網(wǎng),另外一只逃走!這時候,對蜘蛛1,有x0,這樣的話,蜘蛛1體重小,而蜘蛛2的體重大,蜘蛛2因為戰(zhàn)斗蒙受的損

30、失小一些,故蜘蛛1逃走,蜘蛛2正想打架。,案例9,古諾雙頭賣主壟斷模型,兩家公司以同類產(chǎn)品(從顧客的角度看,兩家公司的產(chǎn)品相差不多,或者無法區(qū)別?。┰谑袌錾细偁帯杉夜久媾R單純的需求曲線: P=a-bQ a0,b0,Q=Q1+Q2是公司1和公司2的總產(chǎn)量。,現(xiàn)在假設(shè)每家公司的成本函數(shù)相同,并且邊際成本是常數(shù)c0。問:每家公司將生產(chǎn)多少?,(1) 一家公司對另外一家公司的產(chǎn)量的預(yù)測; (2) 然后決定自己生產(chǎn)的數(shù)量。 (公司1可以自問:公司2將要生產(chǎn)Q2*,我應(yīng)該生產(chǎn)多少),步驟:,模型分析,總產(chǎn)量,Q1+Q2*,市場價,a-b(Q1+Q2*),總成本,總收益,cQ1,總利潤,兩家企業(yè)競爭模型

31、,Q,P,市場供給量,市場價格,a,公司1對公司2的產(chǎn)量Q2*的最優(yōu)反應(yīng)函數(shù):,公司2對公司1的產(chǎn)量Q1*的最優(yōu)反應(yīng)函數(shù):,(Q1*,Q2*),納什均衡,結(jié)論,生產(chǎn)數(shù)量,產(chǎn)品價格,公司利潤,例如,P=10-Q,c=1,3,4,9,古諾納什均衡,思考1,在案例10種,兩家公司聯(lián)合決決定產(chǎn)量(卡特爾模型),其結(jié)果會怎么樣?利用案例10的結(jié)果對比。,Max L(Q1,Q2)=a-b(Q1+Q2)-c(Q1+Q2),卡特爾模型,生產(chǎn)數(shù)量,產(chǎn)品價格,公司利潤,思考2,針對今日之歐佩克(OPEC,石油輸出國組織),利用布諾納什均衡分析,為什么近期歐佩克樂意投資新的油田開采和提高價格?(與非OPEC博弈的囚

32、徒困境),思考3,留意一個國家的主要產(chǎn)品的生產(chǎn),是不是可以用古諾模型解釋?(例如,汽車、飛機、軍火、石油),思考4,在一個卡特爾組織內(nèi),有組織成員存在欺騙:私自提高產(chǎn)量,會有什么后果?(譬如,歐佩克和非歐佩克之間),思考5,古諾模型中,反應(yīng)函數(shù)曲線傾斜向下(遞減,對手增加,自己減少),每個公司有沒有占優(yōu)策略。如果有,反應(yīng)曲線應(yīng)該是什么形狀?(),思考6,如果,古諾模型的局中人不止兩個(N個公司),或者需求曲線不是直線型,你能夠?qū)⒂嬎氵^程推廣并得到結(jié)論嗎?,思考7,你能夠處理處理公司1和公司2兩個決策時間不一致所帶來的問題嗎?,案例10,籠子里有兩只豬,一只比較大,一只比較小?;\子很長,一頭有一

33、個按鈕,另一頭是飼料的出口和食槽。按一下按鈕,將有相當(dāng)于10個單位的豬食進(jìn)槽,但是按按鈕后跑到食槽所需付出的“勞動”,加起來相當(dāng)于2個單位的豬食。問題是按鈕和食槽分置在籠子兩端,按按鈕的豬付出勞動跑到食槽的時候,坐享其成的另一頭豬早已吃了不少。如果大豬先到,大豬呼啦啦吃到9個單位,小豬吃到1個單位;如果同時到達(dá),大豬吃到7個單位,小豬吃到3個單位;如果小豬先到,小豬可以吃到4個單位,大豬吃到6個單位。問?小豬和大豬的決策結(jié)果如何?,博弈矩陣,博弈求解,納什均衡,(按,等),主要消費體大豬起到主動作用,次要消費體小豬坐享其成。這就是搭便車問題。,思考1,股份制企業(yè)里,為什么大股東挑起監(jiān)督經(jīng)理的重

34、任?,思考2,大國與小國結(jié)盟,為什么國防支出主要是大國承擔(dān)?,思考3,在我國,生產(chǎn)化學(xué)藥品有關(guān)的企業(yè)實力相當(dāng)?shù)钠髽I(yè)很多?能否把化學(xué)藥品的排污等問題交給企業(yè)來管理?,思考4,在我國,教育屬于公共資源,是否存在搭便車的現(xiàn)象?舉例說明(教育收費,各類不相關(guān)費用的發(fā)生),思考5,為什么在我國,主要河流的兩岸企業(yè)的污染屢禁不止?,思考6,三家居民住在一起,公用一條多年失修的道路。其中一家較富裕,另外兩家很拮據(jù)。你認(rèn)為這條道路會有人修理嗎?是誰修?,思考7,能否用搭便車問題解釋歐佩克和非歐佩克成員之間的價格、產(chǎn)量、利潤之間的博弈問題。,思考8,貧富差距較大的今天的中國,為什么公共形象的城市建設(shè)發(fā)展如此之快

35、?而公共交通、公共教育、公共醫(yī)療等發(fā)展如此之慢?,案例11,公共問題,公共資源悲劇,公共資源的兩個特征:,(幾乎)人人都享用,限制享用(環(huán)境問題)是行不通的和不可取的(公園問題)。,資源枯竭,使用資源人越多,使用資源越密集,未來資源就越少。,有大小為y0的公共資源。兩個局中人的每一個都可以提取一個非負(fù)量c1和c2用于消費,假設(shè)c1+c2y。,問題,均衡分配就是c1=c2=y/2。,第1周期,c1+c2,第2周期,y-(c1+c2),合理假設(shè),消耗資源量x,帶來的效用為ln(x),分析問題,在第2個周期,剩余資源每個局中人分一半。于是局中人1在假設(shè)局中人2第一周期消費資源量為c2*基礎(chǔ)上,最優(yōu)反

36、應(yīng)就是取c1,使得效用最大:,同理,局中人2的最優(yōu)反應(yīng)為,局中人1的最優(yōu)反應(yīng)為,求解均衡,也就是第一個周期每人消費y/3單位,第二個周期每人消費y/6單位。每個人的效用為ln(y/3)+ln(y/6)。,思考1,資源合理利用(社會最優(yōu),剛才的是個人最優(yōu))情況怎樣?,這種社會最優(yōu)與個人最優(yōu)的區(qū)別在那里?資源的分配方式有什么不同?,在個人最優(yōu)情況下第一周期攫取2/3消費,留下1/3;在社會最優(yōu)情況下,第一周期消費1/2,留下1/2。故對于公共資源,我們正在經(jīng)歷一場悲?。?思考2,思考4,在公共資源模型中,如果局中人增加到N個,第一周期消耗情況怎樣?留下多少到第二周期?,思考3,發(fā)生公共悲劇的原因是

37、什么?,局中人1消減一個單位資源留到第2個周期,但是,在第2個周期,由于平分的作用,他只得到其中的一半,另外一半給了對手!所以,每個人都不肯在第一個周期少消耗!,現(xiàn)在應(yīng)該更加明白公共資源的悲??!,思考5,為什么人們在消費各種公共資源時,如果各取所需,留給下一代的越來越少?而在社會優(yōu)化分配中,消耗一半,留下一半給后代。也就是說,當(dāng)一種資源成了公共資源的時候,還能夠?qū)嵭懈魅∷鑶幔?思考6,全球轉(zhuǎn)暖的溫室效應(yīng)是否屬于公共資源悲???,思考7,在我國,利用電話線的網(wǎng)絡(luò)快車(ADSL),包月租或者包年租的時候,每個人都想把網(wǎng)絡(luò)打開掛在網(wǎng)絡(luò)上(在線游戲的激勵),這樣是不是公共悲???你家里的網(wǎng)絡(luò)快車是否真的

38、快?,思考8,如何避免悲劇的發(fā)生?公共資源分割私有化行嗎?比如環(huán)境?增加使用稅?(搭便車)行嗎?比如國家圖書館?當(dāng)稅收使得人們的享受公共資源的邊際效用為零的時候,稅收合理嗎?,混合策略,引例,Battle of the sexes,丈夫和妻子試圖決定是去欣賞歌劇還是去看足球。他們一個喜歡足球,一個喜歡歌劇。同時,他們中的每個人都寧愿和配偶在一起而不愿單獨出行。,博弈矩陣,博弈求解,博弈的納什均衡為夫妻兩個要么一起看足球,一起欣賞歌?。?情侶博弈,對于這個溫馨的博弈,丈夫表面上看起來只有兩個選擇,(a)足球;(b)歌劇。實際上,丈夫可以按照如下來決策:拋一枚硬幣,如果它出現(xiàn)正面,就去看足球,如果

39、出現(xiàn)反面,就去看歌劇。雖然,拋硬幣結(jié)果,最終還是選擇足球或者歌劇,沒有擴大你的策略集合。但是,在開始選擇的時候,硬幣的結(jié)果沒有出來,妻子也不敢肯定選擇足球,也不能肯定選擇歌劇。那么這個選擇就明顯不同于(a)和(b)這兩個策略,這樣就多出了一個策略(c)稱之為混合策略。那么(a)和(b)以及我們前面講的策略都稱為純策略。,對于這個混合策略,不同的生成方式,就構(gòu)成了不同的混合策略:,拋硬幣,拋一枚硬幣,正面和反面出現(xiàn)等可能,兩個事件發(fā)生的概率都為1/2,也就是說丈夫可以按照概率(1/2,1/2)取(足球,歌劇),生成混合策略c1,抓鬮,用三張相同的紙,分別寫上1、2、3。然后折起來混合,事前約定,

40、抽到1、2,就去看歌劇,如果抽到3,就去看足球。然后讓妻子隨機抽一張,決定丈夫的行動。這樣,丈夫就按照概率(1/3,2/3)取(足球,歌劇),生成混合策略c2。,摸球,將3個紅球和兩個黑球放在盒子里,約定取出紅球去看歌劇,取出黑球去看歌劇。然后讓妻子從盒子中隨機取一個球決定丈夫的行動。丈夫就按照概率(2/5,3/5)?。ㄗ闱?,歌劇),生成混合策略c3。,如法炮制,我們可以生成無窮多混合策略。丈夫可以按照任意概率(p1,p2)?。ㄗ闱?,歌?。灰獫M足p1+p2=1,p1,p20。當(dāng)p1=1或者p2=1時,就成了前面的純策略。,歸納,混 合 策 略,假設(shè)局中人i有M個純策略,s1,s2,s3,s

41、M。對于在純策略s1,s2,s3,sM上的任意分布:,滿足,則稱這個概率向量pi=(p1,p2,pM)為局中人i的混合策略。,局中人采用混合策略后,局中人的盈利函數(shù)就不能夠簡單由局勢來決定。必須通過期望盈利來衡量混合策略的好壞。,期望盈利的計算,第一步,對每一個純策略的盈利采取對該策略的概率加權(quán);,第二步,把加權(quán)了的盈利合計在一起。,算例,丈夫以(1/3,2/3)取(足球,歌劇),妻子采用純策略。,情侶博弈,1,也就是說,丈夫的期望盈利依賴于妻子的選擇。而妻子的盈利仍然按照前面的計算。因為她還不知道丈夫的選擇機制如何?,丈夫以(1/3,2/3)取(足球,歌劇),妻子采用混合純策略(1/2,1/

42、2)?。ㄗ闱?,歌劇)。則丈夫的期望盈利為,2,注意到妻子和丈夫的選擇相互獨立(互不影響),那么按照離散隨機向量的數(shù)學(xué)期望的計算方法有:,丈夫盈利,妻子盈利,3,混合策略的期望盈利的計算,定義1,假設(shè)局中人i采用混合策略(p1,p2,pM)。又假如其他局中人采取純策略s-i#,那么局中人i的期望盈利等于:,定義2,如果其他局中人也采用混合策略;假如,以概率q取s-i#,而以概率1-q取策略s-i*,那么局中人i的期望盈利為:,案例12,期望盈利的計算,無名博弈,假設(shè)局中人1以概率0.6和0.4取策略U和D,局中人2以概率0.2、0.4、0.4取策略(M1,M2,R)。則局中人1的期望盈利:,先轉(zhuǎn)

43、化為離散聯(lián)合分布律,局中人1取策略M的概率為0,局中人2取L的概率也是0!,根據(jù)離散隨機變量的數(shù)學(xué)期望計算方法計算期望盈利:, H1=4 2 3;1 2 3;p1=0.6 0.4;p2=0.2 0.4 0.4; EH1=p1*H1*p2 EH1 = 2.5600, H2=2 4 1;4 0 1; EH2=p1*H2*p2 EH2 =1.9200,丈夫的期望盈利,妻子的期望盈利,也就是說,給定了局中人i和j的混合策略pi,pj,局中人i的贏利函數(shù)Hi,那么局中人的期望盈利為,期望盈利的矩陣和向量計算為:,混合策略的優(yōu)勢,混合策略可以優(yōu)于某些純策略,局中人1取混合策略(0.49,0.02,0.49

44、),那么不管局中人2取那一個策略,有, H1=1,4,2,3;2 2 2 2;4,1 2 3; p=0.49,0.02,0.49; H1(1,1:4)*p(1)+H1(2,1:4)*p(2)+H1(3,1:4)*p(3) ans = 2.4900 2.4900 2.0000 2.9800,通過計算可以看出,局中人1取混合策略(0.49,0.02,0.49)弱優(yōu)于純策略M。,同理,局中人2取混合策略(1/3,1/3,1/3,0),優(yōu)于純策略R。但是,對于局中人1來說,純策略M并不劣于其它純策略U和D;對于局中人2來說,純策略R也不劣于其它策略L,M1,M2。也就是說。利用混合策略,可以剔出劣策略

45、。這樣,局中人1和局中人2沒有理由選擇純策略M和R。,混合策略可以虛張聲勢,讓對手增加對自己的不了解程度,增加對手對你的預(yù)測難度。且混合策略的最差情況會好于所有純策略的最差情況。,壁球游戲,如果局中人1取前面的策略偏多,如果局中人2猜測到這個結(jié)果,那么,就前進(jìn)居多,則局中人1的期望盈利偏少(特殊情況,局中人老是取策略1,局中人每次都猜對了,那么局中人1只能獲得盈利0.2)。其實,這類博弈,就是關(guān)于對手的猜測的猜測的博弈。如果要想一個對手增加猜測的難度,取混合策略(1/2,1/2),是最難猜測的!但是,不管局中人1選擇什么樣的混合策略,有個事實的結(jié)果:,也就是說,只要局中人1不取純策略,而取混合

46、策略(p,1-p),那么,期望盈利總好于取純策略的最差情況!,在策略型博弈中,當(dāng)采用純策略的時候,不存在納什均衡,但是采用混合策略,就存在納什均衡!,混合策略的納什均衡,案例13,拋硬幣模型,這個博弈不存在納什均衡,,假設(shè)局中人1采用混合策略(p,1-p)取(H,T),局中人2采用混合策略(q,1-q)取(H,T)。,局中人1猜測局中人2的混合策略為(q*,1-q*),那么,局中人1的期望盈利為,局中人2猜測局中人1混合策略(p*,1-p*),則局中人2的期望盈利為:,繪制局中人1的期望盈利函數(shù)曲線,從圖可以看出,局中人1的期望盈利隨著q*變化而變化,當(dāng)q*1/2時,局中人取純策略H時,期望盈利最大。但是,在這兩種情況下,局中人2有改變策略的動機。,繪制局中人1對局中人2的策略的最優(yōu)反應(yīng)曲線,1,由上圖可以看出,當(dāng)p=1/2時,不管局中人2選取怎樣的混合策略,局中人1采取概率1/2取H,都得到相同的期望盈利。同樣的道理,局中人2也采取1/2概率取H。這樣就得到一對穩(wěn)定的策略組合(H,1/2),(H,1/2)。稱這對穩(wěn)定的策略組合,為混合策略的納什均衡。當(dāng)對策雙方處在納什均衡時,誰都沒有單方面改變策略的動機,因為那樣只會使得自己的期望盈利減少。,案例14,隨機藥檢,兩個游泳運動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論