常態(tài)型策略型博弈

上傳人：x*** IP屬地：山西上傳時間：2024-05-19 格式：PPT 頁數(shù)：33 大?。?12.50KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩28頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

非合作性博弈理論（NoncooperativeGameTheory）前面所論記的，還是非策略性的決策只涉及到一個人/一個國家的決策；還沒有必要把別人的決策考慮進(jìn)來?！安┺摹笔顷P(guān)于理性的策略互動的模型展開型博弈12策略型(常態(tài)型)博弈12同時選擇順序選擇但互不知道對方選什么1策略型(常態(tài)型)博弈基本因素決策者(Player)策略（strategies）功效（utilitiesforoutcomes）例子:囚犯悖論（Prisoner’sDilemma）12決策者１號決策者的策略２號決策者的策略２號決策者從ＣＤ之所得１號決策者從ＤＤ之所得2策略（Strategies）策略（Strategy)關(guān)于一個博弈格局的完整計劃;

關(guān)于策略的選擇要在博弈開始之前就決定了;這一策略計劃,即使交給別人,也必須能夠執(zhí)行.例如:存在兩個國家國家1可以選擇無威脅,T,或不去威脅國家2;如果不去威脅的話,結(jié)局是維持現(xiàn)狀,SQ國家2可以選擇抵抗,R,或不抵抗;如果不抵抗,結(jié)局就是默許,Acq2國家1可以選擇動武,F,或不動武;如果不動武,結(jié)局就是投降,Cap1,動武則導(dǎo)致戰(zhàn)爭,War戰(zhàn)爭默許2投降1默許2現(xiàn)狀現(xiàn)狀現(xiàn)狀現(xiàn)狀3策略純策略(PureStrategy)每個博弈者所具有的具體的確切的選擇(non-probabilistic)例子:美-蘇軍備競賽1的純策略:{擴(kuò)軍,裁軍}2的純策略:{擴(kuò)軍,裁軍}

Gameiswrittendownintermsofpurestrategies.However,strategiescanbeprobabilistic美國蘇聯(lián)4策略美方可以用一個混合策略: {?裁軍,?擴(kuò)軍}美方可以用一個混合策略: {?裁軍,?擴(kuò)軍}混合策略(MixedStrategy)USSoviets就純策略所進(jìn)行的博彩lotteryoverthepurestrategies

(給每一個純策略所賦予的幾率probabilitiesassignedtoeachpurestrategy)Example:US-Soviet軍備競賽Gameiswrittendownintermsofpurestrategies.However,strategiescanbeprobabilistic5最佳回應(yīng)(bestreply)給定上述利益動機(jī),如果蘇方選擇裁軍,美國的最佳行動是什么?美國的“最佳回應(yīng)”是擴(kuò)軍.例子:美-蘇軍備競賽USSoviets6最佳回應(yīng)就蘇方而言,對美方選擇擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍,因為

U2(擴(kuò)軍|擴(kuò)軍)=1>U2(裁軍|擴(kuò)軍)=0策略S是對t的最佳回應(yīng),如果這一策略可以帶來的利益功效要大于比任何別的策略所帶來的利益功效.美方蘇方7最佳回應(yīng)假設(shè)博弈者1有一個純策略集，

{S1,S2,…,Sm}博弈者1有一個純策略集，{t1,t2,…,tn}策略Si是博弈者1對博弈者2的策略

tj的最佳回應(yīng)，當(dāng)且僅當(dāng)博弈者1所有的其它策略滿足以下條件,

U1(Si|tj)

U1(Sk|tj)，就所有的k

I而言Si是對tj的嚴(yán)格最佳回應(yīng)(strictlybestreply)，當(dāng)且僅當(dāng)

U1(Si|tj)>U1(Sk|tj)

就所有的k

I而言我們假設(shè)博弈者所做的選擇是為了使自己的利益功效最大化.8BestReplytoaBestReplytoa…Considerwhathappensiftwoplayersiteratebestreplies:1choosesastrategy2choosesbestreplystrategy1choosesitsbestreplytothatstrategy2choosesitsbestreplytothatstrategy…Eventually,thismaystabilize: 1willhavestrategySithatisabestreplyto2’stjand 2’stjwillbeabestreplytoSi均衡（Equilibrium）:一種誰都沒有動機(jī)去另作它選的策略互動狀態(tài)（noonehasanincentivetodeviate）9BestReplytoaBestReplytoa…1對擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍2開始選擇裁軍1對裁軍的最佳回應(yīng)是擴(kuò)軍2對擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍1對擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍2對擴(kuò)軍的最佳回應(yīng)是擴(kuò)軍如此等等…均衡Equilibrium:(擴(kuò)軍,擴(kuò)軍)Nowassumethatplayers,seeingthegame,dothisallintheirheadsandidentifytheequilibriumstrategiesofthegame.Example:USSoviets10納什均衡（NashEquilibrium）一對策略形成一個納什均衡，當(dāng)且僅當(dāng)那對策略相互之間都是最佳回應(yīng)（ApairofstrategiesformsaNashEquilibrium(NEQ)iffthestrategiesarebestrepliestoeachother).Note沒有博弈者可以因為單獨背離納什均衡而得到任何利益好處（NoplayerhasanincentivetodeviateunilaterallyfromtheNEQ）.給定每個博弈者都選擇納什均衡策略，納什均衡策略使利益功效最大化對博弈者而言，納什均衡并不一定都是她最希望的到的結(jié)果或“最好的”結(jié)果.11納什均衡就一個簡單的2x2博弈而言,只需要查看是否有人會從背離一個特定的結(jié)果而獲利:CC

是一個NEQ?不是.給定1方選擇C,2方就會選擇D;對1同理.DD

是一個

NEQ?12Prisoner’sDilemma是.對博弈雙方而言,1>0.12納什均衡就一個簡單的2x2博弈而言,只需要查看是否有人會從背離一個特定的結(jié)果而獲利:LR

是一個

NEQ?不是．給定1選L,2就回選L;對1同理.LL

是一個NEQ?12協(xié)調(diào)博弈Coordinationgame是.對雙方而言,1>0;注意，RR也是一個NEQ.13納什均衡有兩個博弈者1和2，各自的策略集為{S1,S2,…,Sm}和{t1,t2,…,tn},相應(yīng)地，一對策略Si*和tj*就形成了一個均衡，當(dāng)且僅當(dāng)這兩個策略正好是對各自對對方的最佳回應(yīng):U1(Si*|tj*)

U1(Sk|tj*),所有k

i以及U2(tj*|Si*)

U2(tk|Si*),所有k

j正式定義14被支配策略(DominatedStrategies)尋找被支配策略,是尋找納什均衡(NEQ)的一種方法

形式化定義:S1嚴(yán)格支配(strictlydominates)

iff

U1(S1|tj)>U1(S2|tj)forallj既然選擇一個嚴(yán)格被比支配策略總是帶來一個更小的利益功效,博弈者就沒有選擇嚴(yán)格被支配策略的動機(jī),因此,我們可以把嚴(yán)格被支配策略從選項中刪除掉。如果S1

嚴(yán)格支配

S2,那么,無論對方(博弈者2)選擇什么策略(tj),S1總能比S2給己方(博弈者1)

帶來更大的利益功效.15被支配策略例1:對博弈者1而言，D

嚴(yán)格支配C

，因為

U1(D|C)=5>3andU1(D|D)=1>0對博弈者2而言也如此，

由于對博弈雙方而言，D都是嚴(yán)格支配策略，因此，DD

是一個NEQ.1212例2:博弈雙方誰都沒有一個嚴(yán)格被支配策略.但是，嚴(yán)格被支配策略不是NEQ的必要條件.仍然存在兩個純策略NEQ.16重復(fù)支配（IteratedDominance）Example:注意，D

嚴(yán)格支配U–刪除U此后，L嚴(yán)格支配C–刪除C此后，D

嚴(yán)格支配M–刪除M此后，L嚴(yán)格支配R–刪除R最后就剩下(D,L)，它是一個唯一的NEQ如果我們能夠不斷地把嚴(yán)格被支配策略刪除掉，直到每個博弈者在博弈格局中只剩下一個策略，那刪除剩下的那一對策略，就是一個NEQ。（IterativelyEliminateStrictlyDominatedStrategies，IESDS）.17協(xié)調(diào)博弈（CoordinationGames）Generalclassofgames:Heads/Tails:Twopeopleflipcoin.Ifmatch,bothwin.MeetsomeoneinNYC.Twopeoplepickanumberbetween0and100.Ifsame,bothget$.例子:“兩性之爭”（BattleoftheSexes）不能通過IESDS求解。但HH與BB都是純策略NEQH=滑冰B=巴赫音樂會男方女方18協(xié)調(diào)博弈CoordinationGame可以存在多個NEQ.一般而言,NEQ的數(shù)量為奇數(shù).2.博弈雙方會選擇哪一個NEQ?

3. 第三個均衡在哪里?男方女方提出至少三個問題:19多均衡與聚焦點MultipleEquilibriaandFocalPoints謝林的聚焦點ThomasSchelling’sfocalpoints突出或顯著想象和邏輯沒有形式化假設(shè)雙方有溝通:假設(shè)雙方?jīng)]有溝通:可以直接達(dá)到NEQ.不在是一種博弈?仍然還會有關(guān)于分配的較量.第三個均衡何在?混合策略NEQ…男女20混合策略MixedStrategies有的博弈沒有純策略的NEQ.有的博弈有數(shù)個NEQ.所有的博弈至少有一個混合策略的NEQ注:純策略是混合策略的特例

例子:囚犯悖論博弈有一個唯一的純策略NEW(DD)21沒有純策略均衡NoPure-StrategyEquilibrium硬幣游戲(“手心-手背”游戲)---只要雙方出同樣的,1方贏,否則,2方贏.博弈雙方應(yīng)該如何選擇呢?如果他們承諾去選擇某個純策略,那就不會成為最佳回應(yīng)。博弈雙方可以用混合策略,計算他們的期待利益功效，然后決定最佳回應(yīng)。-->這實際上就是混合策略的NEQ。21沒有純策略的NEQ:H=正面,T=反面;h是正面,t是反面.1方對h的最佳回應(yīng)是

H2方對H的最佳回應(yīng)是t1方對

的最佳回應(yīng)是T2方對T

的最佳回應(yīng)是h22硬幣游戲MatchingPennies給定博弈者1方選擇混合策略(?H,?T),博弈者2方的最佳回應(yīng)是什么?

把混合策略做為一種博彩lottery.如果博弈者2選擇h,她的利益功效為U2(h)=pU2(h|H)+(1-p)U2(h|T) =(?)(-1)+(?)

(1) =?如果博弈者2選擇t,她的利益功效為U2(t)=pU2(t|H)+(1-p)U2(t|T) =(?)

(1)+(?)

(-1) =-?21因為

U2(h)>U2(t),博弈者2對

(?H,?T)的最佳回應(yīng)是

hp(1-p)23BestReplyFunctionMatchingPenniesWecandothisforallpossiblemixedstrategiesofplayer1andconstructabestreplyfunctionforplayer2:whatif1plays(?H,?T)U2(h)=?(-1)+?(1)=0U2(t)=?(1)+?(-1)=0p=Pr(H)q=Pr(h)2’sBRto(?H,?T)2’sBRto(?H,?T)2isindifferentbetweentandh:eitherway,theexpectedutilityis0.

Moreover,2isindifferentoverany

lotteryoftandh.11.5.5024BestReplyFunctionsandNEQMatchingPenniesWecandothesamethingforplayer1:p=Pr(H)q=Pr(h)11.5.501’sBR2’sBRNEQinmixedstrategies{(?H,?T),(?h,?t)}WhatisaNEQhere?Pairofstrategiesthatare

bestrepliestoeachother.21q(1-q)25MixedStrategyNEQMatchingPenniesLet’ssaywestartatp=Pr(H)q=Pr(h)11.5.501:p=.75

2’sBRisq=02:q=0

1’sBRisp=01:p=0

2’sBRisq=12:q=1

1’sBRisp=11:p=1

2’sBRisq=0Now,let’scheck:1:(?H,?T)

(?h,?t)isaBRby22:(?h,?t)

(?H,?T)isaBRby1

NEQ26混合策略MixedStrategiesNote:

這一均衡其實是很直觀的.

你不想你的對手能夠預(yù)測到你的選擇,所以你必須把選擇隨機(jī)化。

隨機(jī)化到讓你的對手對他自己選什么策略無所謂。

但是，對手也必須有所選擇，否則會被你占便宜。

所以你的對手也要把他的選擇隨機(jī)化。硬幣游戲MatchingPennies27BestReplyFunction&NEQBestReplyFunctionsinPrisoner’sDilemma011pqp(1-p)q(1-q)122’sBR1’sBRNEQBut…wedon’tneedtographtheBRfunctiontofindmixedstrategyequilibria!28混合策略納什均衡MixedStrategyNEQ選定一個混合幾率，使對方對他自己選什么策略無所謂（除了支配策略和被支配策略之外）p(1-p)12為了找出1方的這種混合策略:

讓p代表1方選擇U的幾率

1方執(zhí)行一個混合策略{pU,(1-p)D}要找到一個

p，以至于2方對選擇L

或

R無所謂:U2(L)=U2(R)pU2(L|U)+(1-p)U2(L|D)=pU2(R|U)+(1-p)U2(R|D)p(-3)+(1-p)(-2)=p(-1)+(1-p)(-4)-p-2=3p-4p=?2方選擇{?L,?R}的利益功效為?(-3)+?(-2)=-2?和?(-1)+?(-4)=-2?29混合策略納什均衡選定一個混合幾率，使對方對他自己選什么策略無所謂（除了支配策略和被支配策略之外）我們可以用同樣的方法找到2方的混合策略，以至于使1方無所謂。讓q代表2方選擇L的幾率

2方執(zhí)行一個混

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

常態(tài)型策略型博弈

文檔簡介

溫馨提示

最新文檔

評論

常態(tài)型策略型博弈

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔