博弈理論知識(shí)講義_第1頁(yè)
博弈理論知識(shí)講義_第2頁(yè)
博弈理論知識(shí)講義_第3頁(yè)
博弈理論知識(shí)講義_第4頁(yè)
博弈理論知識(shí)講義_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第八章博弈論

前面章節(jié)對(duì)經(jīng)濟(jì)人最優(yōu)決策的討論,是在簡(jiǎn)單環(huán)境下進(jìn)行的,沒(méi)有考慮經(jīng)濟(jì)人之間決策

相互影響的問(wèn)題。本章討論這個(gè)問(wèn)題,建立復(fù)雜環(huán)境下論決策理論。開(kāi)展這種研究的的理論叫

做博弈論,也稱為對(duì)策論(GameTheoc,)。最近十幾年來(lái),博弈論在經(jīng)濟(jì)學(xué)中得到了廣泛應(yīng)用,

在揭示經(jīng)濟(jì)行為相互制約性質(zhì)方面取得了重:大進(jìn)展。大部分經(jīng)濟(jì)行為都可視作博弈的特殊情況,

比如把經(jīng)濟(jì)系統(tǒng)看成是一種博弈,把競(jìng)爭(zhēng)均衡看成是該博弈的古諾-納什均衡。博弈論的思想

精髓與方法,已成為經(jīng)濟(jì)分析基礎(chǔ)的必要組成部分。

第一節(jié)博弈事例

博弈是一種日?,F(xiàn)象,例如棋手下棋,雙方都要根據(jù)對(duì)方的行動(dòng)來(lái)決定自己的行動(dòng),雙

方的目的都是要戰(zhàn)勝對(duì)方,互不相容,互相影響,互相制約。一般來(lái)講,博弈現(xiàn)象的特征表現(xiàn)

為兩個(gè)或兩個(gè)以上具有利害沖突的當(dāng)事人處于一種不相容的狀態(tài)中,一方的行動(dòng)取決于對(duì)方的

行動(dòng),每個(gè)當(dāng)事人的收益都取決于所有當(dāng)事人的行動(dòng)。當(dāng)所有當(dāng)事人都拿定主意作出決策時(shí),

博弈的局勢(shì)就暫時(shí)確定下來(lái)。博弈論就是研究這種不相容現(xiàn)象的一種理論,并把當(dāng)事人叫做局

中人(player)。

博弈論推廣了標(biāo)準(zhǔn)的一人決策理論。在每個(gè)局中人的收益都依賴于其他局中人的選擇的

情況下,追求收益最大化的局中人應(yīng)該如何采取行動(dòng)?顯然,為了確定出可行的策略,每個(gè)局

中人都必須考慮其他局中人面臨的問(wèn)題。下面來(lái)舉例說(shuō)明。

例1.便士匹配(MatchingPennies)(二人零和博弈:

設(shè)博弈中有兩個(gè)局中人甲和乙,每個(gè)局中人都有一決硬幣,并且各自獨(dú)立安排硬幣是否

正面朝上。局中人的收益情況是這樣的:如果兩個(gè)局中人同時(shí)出示硬幣正面或反面,那么甲贏

得1元,乙輸?shù)?元;如果一個(gè)局中人出示硬幣正面,另一個(gè)局中人出示硬幣反面,那么甲輸

掉1元,乙扁得1元。

對(duì)于這個(gè)博弈,每個(gè)局中人可選擇的策略都有兩種:

表1:便士匹配博弈局勢(shì)表

正面朝上和反面朝上,即甲和乙的策略集合都是{正面,

正面反面

反面}。當(dāng)甲和乙都作出選擇時(shí),博弈的局勢(shì)就確定了。

顯然,該博弈的局勢(shì)集合是{(正面,正面),(正面,反面),(反正面(正,正)(正,反)

面,正面),(反面,反面)},即各種可能的局勢(shì)的全體,也稱反面(反,正)(反,反)

為局勢(shì)表,即表1。

每個(gè)局中人的收益都取決于所有局中人的決策,也就是說(shuō),局中人的收益是博弈局勢(shì)的

函數(shù)。本例中,甲的收益函數(shù)/為:/(正,正)=1,

表2:甲和乙的收益表

,(正,反)=-1,/(反,正)=-1,/(反,反)=1;乙的收益函

正面反面

數(shù)g為:g(正,正)=-1,g(正,反)=1,g(反,正)=1,

g(反,反)=-1。局中人的收益函數(shù)也可用表格或矩陣加以正面1,-1-1,1

反面-i,11,-I

表示,并稱其為收益表或收益矩陣。表2中,甲的收益列

在左邊,乙的收益列在右邊。

該博弈的特點(diǎn)在于每個(gè)局中人的收益都是另一個(gè)局中人的付出,即甲和乙的收益之和為

零,收支發(fā)生在局內(nèi),不涉及任何局外人。這種博弈就是所謂的二人零和博弈。習(xí)慣上,人們

喜歡把二人博弈的第一個(gè)局中人甲叫做“列”,第二個(gè)局中人乙叫做“行”,而且總是把列的收

益寫在前面(即左邊),行的收益寫在后面(即右邊).

例2.囚徒難題(Prisoner'sDelimma)(二人變和博弈)

有兩個(gè)狂徒甲和乙因共同參與了一起犯罪活動(dòng)而被囚禁收審。他們可以選擇合作,拒絕

供山任何犯罪事實(shí);也可以選擇背叛,供出對(duì)方的犯罪行徑。這就是所謂的囚徒博弈,也叫做

囚徒難題。博弈的局中人甲和乙都有兩種可選擇的策略:合作與背叛。

囚徒博弈的意義在于它可以解釋寡頭壟斷廠商的

表3:囚徒博弈局勢(shì)表

行為,關(guān)鍵是賦予合作與背叛具體的經(jīng)濟(jì)含義。比如

Z

在雙頭壟斷的情況下,合作可以解釋為“保持索要一合作背粉

個(gè)高價(jià)”,背叛可解釋為“降價(jià)以爭(zhēng)奪對(duì)手的市場(chǎng)工合作(合作,合作)(合作,背叛)

右表給出了囚徒博弈的局勢(shì)表。

背叛(背叛.合作)(背叛,背叛)

局中人可以事先討論這局博弈,但實(shí)際決策必須

獨(dú)立地做出。如果甲采取合作策略,不供出乙的犯罪事實(shí),那么乙就能得到3000元的收益。

同樣,如果乙采取合作策略,那么甲就能得到3000元的收益。可見(jiàn),如果甲乙雙方都采取合

作策略,雙方各得3000元收益。

但是,審訊者用1000元獎(jiǎng)賞來(lái)鼓勵(lì)局中人采取背叛策略。這樣,只要局中人選挎背叛,

他就會(huì)得到1000元鼓勵(lì),而不管另一個(gè)局中人會(huì)采取什么策略。

需要注意的是,囚徒博弈中的貨幣支付來(lái)自第三方一一局外人,這正是囚徒博弈同便士

匹配博弈的不同之處。奧曼(Aumann)1987年對(duì)囚徒博弈給出了一個(gè)特別簡(jiǎn)單的描述:每個(gè)局

中人都可以對(duì)仲裁人簡(jiǎn)單地宣告”給我1000元”或“給對(duì)方3000元”。

簡(jiǎn)單分析一下就會(huì)發(fā)現(xiàn),如果一個(gè)局中人

表4:甲和乙的收益表

采取合作策略,而另一個(gè)局中人采取背叛策略,

那么采取合作策略的局中人的收益為零,而采合作背叛

取背叛策略的局中人的收益為4000元(3()0()元合作3000.30000,4000

收益再加I:1000元的背叛鼓勵(lì))。如果雙方都

背粉4000.()1000.1000

采取背叛策略,則雙方的收益各為1000元。表

4列出了甲乙雙方的收益情況。從收益表可以看出,甲乙雙方的收益之和不為零,而且收益和

是變化的。因此,囚徒博弈是一種變和博弈。

直覺(jué)上看,甲和乙都應(yīng)采取合作策略(互不供出對(duì)方的犯罪事實(shí)),各得3000元收益。但

從收益表可以得出這樣的結(jié)論:如果一個(gè)局中人認(rèn)為另一個(gè)局中人將合作,從而他將得到3000

元收益,那么他若采取背叛策略,就將總共能獲得4000元的收益;如果他認(rèn)為另一個(gè)局中人

為了得到1000元鼓勵(lì)而將背叛,那么他也就只好為了自己也取得1000元鼓勵(lì)而采取背叛策略

(否則,他將一無(wú)所獲)??傊谑找孀畲蠡瘎?dòng)機(jī)的驅(qū)使下,局中人的最優(yōu)選擇是背粉。這樣

一來(lái),甲乙雙方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3C00元。

這是一個(gè)典型的博弈悖論,問(wèn)題的關(guān)鍵在于每個(gè)局中人都有背叛的鼓勵(lì),而不管其他局中人將

做什么。

例3.古諾博弈(雙頭壟斷:產(chǎn)量較量)

法國(guó)經(jīng)濟(jì)學(xué)家古諾(Cournot)于1838年以天然礦泉井為例,首次建立了簡(jiǎn)單的雙頭壟斷

博弈模型,其特點(diǎn)是,壟斷廠商雙方都天真地以為對(duì)方不會(huì)改變?cè)挟a(chǎn)量水平,雙方都追求各

自利潤(rùn)最大化。古諾假定:①有兩個(gè)天然礦泉在?起,分別為廠商甲和乙占有;②兩個(gè)礦泉都

為自流井,生產(chǎn)成本為零,邊際成本也為零;③甲和乙面對(duì)相同的需求曲線,采用相同的價(jià)格;

④雙方都以為對(duì)方的產(chǎn)量水平不會(huì)改變。在這些假設(shè)前提下,甲和乙各自獨(dú)立決定自己的產(chǎn)量

水平,以求利潤(rùn)最大化。

設(shè)戶=。(。)是甲乙雙方共同面臨的反需求函數(shù)。當(dāng)甲的礦泉水產(chǎn)量為。1,乙的產(chǎn)量為。2

時(shí),礦泉水的市場(chǎng)價(jià)格為P=*(Q]+。2),甲的利潤(rùn)町=PQ1,乙的利潤(rùn)為生=絲2,在應(yīng)

個(gè)博弈中,甲乙雙方的策略都表現(xiàn)為選轉(zhuǎn)產(chǎn)量水平,局中人的收益即為廠商的舟潤(rùn)。當(dāng)甲的產(chǎn)

量為2時(shí),乙以為甲不會(huì)改變這一產(chǎn)量,而選擇一個(gè)合適的產(chǎn)量水平以使自己的利澗叫達(dá)

到最大。同樣,當(dāng)乙的產(chǎn)品水平為。2時(shí),甲以為乙不會(huì)改變這一產(chǎn)量,而選擇一個(gè)合適而產(chǎn)

量水平5以使自己的利潤(rùn)可達(dá)到最大。

為了說(shuō)明這個(gè)博弈的結(jié)果,假設(shè)甲乙雙方面臨的反需求函數(shù)尸=0(Q)=%-AQ。用表

示這局博弈中甲選擇的最優(yōu)產(chǎn)量,。2表示乙選擇的最優(yōu)產(chǎn)量水平,則甲乙各自的收益分別為

勺=(吊+k(Q1+Q2))Ql和42=(4+〃(。1+。2))。2。由于實(shí)現(xiàn)了利潤(rùn)最大化,因此

包=0,也=0

抽dQ2

解之得:當(dāng)乙的產(chǎn)量水平為時(shí),甲決定的產(chǎn)量水平為=(。0-。2)/2(這是甲對(duì)乙的反應(yīng)

函數(shù));當(dāng)甲的產(chǎn)量水平為Q1時(shí),乙決定的產(chǎn)曷水平為2=(4-。。/2(這是乙對(duì)甲的反應(yīng)

函數(shù))。其中,。0=6"表示礦泉水市場(chǎng)容量(即價(jià)格為零時(shí)的礦泉水需求量)。進(jìn)一步求解

可得:e,=e2=e()/3,即博弈的結(jié)果是雙方最終各占據(jù)礦泉市場(chǎng)的三分之一。反應(yīng)函數(shù)說(shuō)

明,古諾博弈由每個(gè)局中人的決策(選定的產(chǎn)量水平)不但依賴于其他局中人的決策,而且與市

場(chǎng)的容量有關(guān)。

例4.貝特蘭博弈(雙頭壟斷:價(jià)格較量)

古諾博弈模型描述了雙頭壟斷廠商之間展開(kāi)的產(chǎn)量較量。實(shí)際上廠商之間的產(chǎn)量較量并

不如價(jià)格較量那么普遍,其頭之間應(yīng)該有激烈的價(jià)格競(jìng)爭(zhēng)。不論市場(chǎng)價(jià)格如何,只要某一廠商

降低價(jià)格,而其他競(jìng)爭(zhēng)對(duì)手保持原價(jià)格不變,那么降價(jià)廠商就能占有全部市場(chǎng)。這就是說(shuō),我

們假定消費(fèi)者只從最低價(jià)格廠商那里購(gòu)買產(chǎn)品。為此,法國(guó)經(jīng)濟(jì)學(xué)家貝特蘭(Bertrand)于1883

年提出了以價(jià)格為選擇策略的貝特蘭博弈模型,反對(duì)古諾關(guān)于產(chǎn)量的博弈模型。

還以礦泉水為例,在貝特蘭博弈模型中各廠商都預(yù)期對(duì)手不會(huì)改變價(jià)格,從而將芻己的

價(jià)格確定在利潤(rùn)最大化的水平之上。這就是說(shuō),貝特蘭博弈的構(gòu)建同古諾博弈相似,所不同的

是貝特蘭博弈中局中人的策略是選擇價(jià)格,而古諾博弈局中人的策略是選擇產(chǎn)量水平。

貝特蘭博弈中兩個(gè)局中人甲和乙也是面臨相同的市場(chǎng)需求函數(shù),不過(guò)現(xiàn)在價(jià)格是自變量,

產(chǎn)量為因變量(占諾模型正好相反)。設(shè)市場(chǎng)需求函數(shù)為。=D(P),為了分析上簡(jiǎn)單起見(jiàn),進(jìn)

一步設(shè)Q=Qo-/^(這里,Q°=P0/k,b=\/k,即與古諾模型中的市場(chǎng)需求相同)。局中人的

收益仍是他所獲得的利潤(rùn)0

如果甲和乙不相互勾結(jié)串通,當(dāng)乙采取了價(jià)格水平P2時(shí),甲認(rèn)為乙不會(huì)改變這一價(jià)格水

平,從而為了占領(lǐng)市場(chǎng)而要采取低于乙的價(jià)格水平P2的價(jià)和G,于是甲的利潤(rùn)為勺=〃。(,),

乙的利潤(rùn)為零;同樣,當(dāng)甲采取了價(jià)格水平々時(shí),乙認(rèn)為甲不會(huì)改變這一價(jià)格水平,從而為

了占領(lǐng)市場(chǎng)而要采取低于甲的價(jià)格水平片的價(jià)格月,于是乙的利澗為乃2=8。(已),甲的利

潤(rùn)為零。

如果甲和乙相互勾結(jié)串通起來(lái),采取相同的價(jià)格策略,即匕=鳥(niǎo),那么甲和乙就能索要

一個(gè)壟斷價(jià)格,并且每人可收取一半的壟斷利潤(rùn)。

由此可見(jiàn),甲和乙的利潤(rùn)函數(shù)分別為:

”7)(6),當(dāng)勺〈令時(shí)當(dāng)尸]>?時(shí)

叼=勺(片,8)=]8。儲(chǔ))/2,當(dāng)勺=P2時(shí)

町=町(6,£)=?A°(4)/2,當(dāng)々=%時(shí),

0,當(dāng)外>2時(shí)0,當(dāng)勺<令時(shí)

如果甲和乙勾結(jié)串通,合作起來(lái),那么雙方就能按照最大利潤(rùn)價(jià)格P=Q()/(2〃)獲得壟斷

價(jià)格,并且各得最大利潤(rùn)的一半。這里,利潤(rùn)最大化價(jià)格是按照

率=黑PG?2QL2bp=0

確定的。但是,占領(lǐng)市場(chǎng)的誘惑對(duì)每個(gè)局中人都存在,只要他稍微降價(jià),他就能獲得全部市場(chǎng)。

假如甲先進(jìn)入該礦泉市場(chǎng),那么甲就按照利潤(rùn)最大化價(jià)格$P」=Q_o/(2b)$獲取最大利澗。繼

而乙進(jìn)入這個(gè)市場(chǎng),且乙認(rèn)為甲不會(huì)改變他的價(jià)格$P」$,于是乙為了奪取市場(chǎng)而采取低于甲

的價(jià)格水平A的一個(gè)價(jià)格。2(鳥(niǎo)〈6)。由于乙?jiàn)Z走了市場(chǎng),甲同樣又會(huì)采取低于乙的價(jià)格水

平尸,的價(jià)格乙,以?shī)Z同市場(chǎng)。這樣不斷往復(fù)下去,直至最后甲乙雙方都把價(jià)格水平定為零時(shí)

才可達(dá)到均衡,此時(shí)雙方的收益為零,市場(chǎng)各占一半(即甲的銷售量0和乙的銷售量。2相等,

且2=02=QO/2)。這就是甲乙雙方不合作的結(jié)果,雙方都變得更差。

以上分析表明:把貝特蘭博弈與古諾博弈作比較,對(duì)同一市場(chǎng)來(lái)說(shuō),由于選擇了不同的

策略集合(一個(gè)以產(chǎn)量作為策略,另一個(gè)以定價(jià)作為策略i,得出了不同的博弈結(jié)果,貝特蘭博

弈的均衡價(jià)格、均衡產(chǎn)量和均衡利潤(rùn)都呈完全競(jìng)爭(zhēng)狀態(tài)(超額利潤(rùn)為零),而古諾博弈的結(jié)果不

是這樣;再把貝特蘭博弈同囚徒難題博弈作比較,二者具有相似的結(jié)構(gòu),即局中人合作會(huì)取得

最好的結(jié)果,但利益的誘惑促使他們采取不合作的行動(dòng),致使雙方博弈的結(jié)局都變得更差。

貝特蘭博弈也可用囚徒博以來(lái)解釋:合作是指兩個(gè)廠商的勾結(jié),背叛是指兩個(gè)廠商獨(dú)立

行動(dòng),沒(méi)有勾結(jié)。合作,可以索要一個(gè)高的壟斷價(jià)格;背叛,則導(dǎo)致市場(chǎng)價(jià)格為零,雙方利潤(rùn)

為零??梢?jiàn),雙方合作起來(lái),對(duì)兩個(gè)廠商都有利,似乎成該合作。但博弈的最終結(jié)果是雙方都

采取背叛策略,導(dǎo)致誰(shuí)也得不到利潤(rùn)。

本節(jié)所舉的這些事例說(shuō)明,寡頭壟斷廠商之間展開(kāi)的競(jìng)爭(zhēng)與較量完全可以用博弈加以描

述和研究。實(shí)際上,經(jīng)濟(jì)學(xué)中大部分經(jīng)濟(jì)現(xiàn)象都可以作為博弈的特殊情形進(jìn)行研究,比如歷史

上解決競(jìng)爭(zhēng)均衡的存在性這?經(jīng)濟(jì)學(xué)基本問(wèn)題時(shí),就把經(jīng)濟(jì)系統(tǒng)看成為?局博弈。

為了研究博弈,必須孤住博弈現(xiàn)象的基本要素,這些要素是:局中人、策略、收益。也

就是說(shuō),博弈可以用局中人集合、策略集合和收益函數(shù)加以描述。局中人從策略集合中選擇一

種策略后所獲得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我們假定每一個(gè)

局中人都知道他自己和別人的策略集合與收益函數(shù),這就是說(shuō),每個(gè)局中人的策略集合與收益

函數(shù)為所有局中人所共知。當(dāng)然,每個(gè)局中人都知道其他局中人掌握著這些信息和知識(shí)。局中

人的收益不但依賴于他自己的策略選擇,而且依賴于其他局中人的策略選擇。我們?cè)偌俣總€(gè)

局中人在給定的主觀信念下會(huì)選擇收益最大化的行動(dòng),并且當(dāng)新的信息根據(jù)貝葉斯規(guī)則到來(lái)時(shí),

這些信息會(huì)得到修正(即根據(jù)貝葉斯全概率公式從先驗(yàn)概率計(jì)算后驗(yàn)概率)。

第二節(jié)策略博弈

為了能夠正確地應(yīng)用博弈論研究經(jīng)濟(jì)問(wèn)題,需要對(duì)博弈加以準(zhǔn)確地描述和定義。要定義

一個(gè)博弈,需要確定三件事情:一是局中人集合(seto「players),一是局中人的策略集合(set

ofstrategies),―?是局中人的收益函數(shù)(payofffunction)o這三件事情中,確定策略集合

是至關(guān)重要的。局中人以策略決定勝負(fù),目標(biāo)是使他的收益最大化。這種以策略定勝負(fù)的博弈,

稱為策略博弈(gameofstrategy)。正象比較古諾博弈和貝特蘭博弈時(shí)說(shuō)明的問(wèn)題?樣,用博

弈論研究經(jīng)濟(jì)問(wèn)題時(shí),對(duì)于同一經(jīng)濟(jì)現(xiàn)象,由于選擇了不同的策略集合,得到的博弈結(jié)果截然

不同。

用A表示博弈的局中人集合,兒表示局中人的策略集合,.。表示4的收益函數(shù),

則G=(S.,/〃)a€A就表示了一個(gè)博弈。根據(jù)局中人的多少,博弈可分為二人博弈和多人博弈。

根據(jù)博弈的策略集合是否有限,博弈還又可分為有限博弈和無(wú)限博弈。例如,便士匹配和囚徒

難題都是有限博弈,而古諾博弈和貝特蘭博弈都是無(wú)限博弈。還可根據(jù)所有局中人的收益總和

是否固定,把博弈分為常和博弈和變和博弈。常和博弈分為零和博弈(即收益總和為零的博弈)

和非零和博弈。二人零和有限博弈是所有博弈中最簡(jiǎn)單、最重要的一類,通常稱為矩險(xiǎn)博弈。

本節(jié)以二人博弈為重點(diǎn),介紹有關(guān)策略博弈的概念與理論。

策略表與收益矩陣

設(shè)二人博弈的局中人是甲和乙。甲有機(jī)種可選策略,策略表為乂={外4J;乙有〃

種可選策略,策略表為丫={%,當(dāng),…,孔}。當(dāng)甲采取策略七,乙采取策略當(dāng)時(shí),(勺,無(wú))稱

為博弈的局勢(shì),集合s=Xxy就是局勢(shì)集合(局勢(shì)表、局勢(shì)矩陣),即

(為,y\)3,力)3,%)、

(小,力)32,%)

小,必)…

每個(gè)局中人選擇自己的策略時(shí),都要考慮對(duì)手的行動(dòng)。這樣每個(gè)局中人的收益不但與自

己的選擇有關(guān),而且與對(duì)手的選擇有關(guān),收益函數(shù)是定義在局勢(shì)集合S上的函數(shù),這里假定了

局中人的收益是可以用實(shí)數(shù)來(lái)都來(lái)計(jì)量的。用/表示局中人甲的收益函數(shù),用g表示局中人

乙的收益函數(shù)。由于局勢(shì)集合S是有限集合,收益函數(shù)f和g都可用矩陣加以表示,這些矩

陣就稱為收益矩陣。記£4=/(廝,〃),g〃=g(匹,力),則甲和乙的收益矩陣分別為:

/=4)皿/八〃

當(dāng)力/+?尸C(常數(shù))。=1,2,…,=…時(shí),該博弈就是常和博弈。否則,就是變和

博弈。局中人的策略與收益也可用收益表加以表達(dá):

表1:博弈的收益表

一般情況下,二人博弈可表示成G=G2=(X,/;Rg)。但對(duì)于二人常和博弈,則可簡(jiǎn)單

地表示成G=5(c)=(x,y,/,c),其中c.為收益的常數(shù)和。而矩陣博弈則可更簡(jiǎn)單地表示

成G=G?=(x,y,/),或者直接用甲的收益矩陣/來(lái)表示矩陣博弈。

—.最小最大原理

局中人的目標(biāo)是選擇使自己收益最大化的策略,我們來(lái)分析局中人如何決策。假定甲乙

雙方彼此了解對(duì)方的收益表。如果甲通過(guò)間諜獲悉乙采取某種策略力時(shí),甲必然會(huì)采我相應(yīng)

的某種策略芍,以求自己的收益最大,即選擇此使下式成立:

fij=…、fmj]

但是,當(dāng)甲不知道乙會(huì)采取什么策略時(shí),如果甲是一個(gè)避險(xiǎn)者,那么他必將作最壞的打

算,以求取得較好的效果。首先,甲要從收益表中找出自己的每一種策略.勺下至少可獲得的

收益(即所能獲得的最小收益),即先求解min{1],-2,…J;”}a=1,2,…,〃?),然后從這些最小

收益策略中選擇出收益最大的策略,即“從最小收益中選擇最大收益”。從收益矩陣來(lái)看這個(gè)

決策過(guò)程,即甲首先選出自己的收益矩陣/的各行的最小值,然后從這些最小值中再選出最

大值:

maxminf—maxminf

ijl{IMB,”14J文u

這就是求解策略博弈的最小最大原理,其合理性表現(xiàn)為:如果甲采取按照最小最大原理確定的

策略,那么不論乙采取什么策略,甲都可至少得到這個(gè)最小最大收益。由此可見(jiàn),最小最大原

理是能夠確保局中人收益的一種原理。今后,我們把局中人甲按照最小最大原理所確定的策略,

叫做甲的穩(wěn)妥策略,

對(duì)于局中人乙來(lái)說(shuō),池的決策行為和決策過(guò)程同甲是一樣的,只不過(guò)乙要依賴于收益矩

陣g。乙決策的最小最大原理是:乙先選出收益矩陣g的各列的最小值,然后從這些最小值

中選出最大值:

maxming”=maxmin

jiIMjM"\<i^tr

局中人乙按照最小最大原理確定的策略,稱為乙的穩(wěn)妥簧略,

讀者可能會(huì)問(wèn):甲先找出他的收益矩陣各列的最大道,然后再?gòu)倪@些最大值中選出最小

值,不也是一種很好的決貸辦法嗎?其實(shí),這種決策辦法叫做最大最小法,照此辦法做出的決

策,在甲不知道乙會(huì)采取什么策略的情況下不能保證甲的最大最小收益能夠達(dá)到。原因在于最

大最小法需要確定出乙的每種策略下甲的最大可能的收益。假如甲按照最大最小法選出了策略

(即,#),那么當(dāng)乙采用策略力時(shí),甲可得到最大最小收益力八但是,若乙采用的不是黃略力,

而是策略以伙工力,那么甲如不重新選擇他的收益矩陣第k列的最大值的話,他的最大最小

收益加就不一定能夠達(dá)到,這正是最大最小法同最小最大原理的區(qū)別。

實(shí)際中,在甲不知道乙會(huì)采取什么策略的情況下選定了自己的策略以后,乙的策略才出

臺(tái),為甲也獲悉了乙的這一行動(dòng)時(shí),甲很有可能來(lái)不及調(diào)整自己原定的策略,從而給甲帶來(lái)一

定的損失。因此,最大最小法在保證局中人收益方面不如最小最大原理那么保險(xiǎn)。

當(dāng)甲和乙的穩(wěn)妥策略都已選定時(shí),二者結(jié)合起來(lái)能否成為博弈的結(jié)果呢?答案是未必。

請(qǐng)看下面二人零和博弈的事例。

例1.高度不確定的博弈

考慮二人博弈G2=(x,/;y,g),甲的策略集合X=3,M},乙的策略集合y={)%%},

甲和乙的收益矩陣f和g通過(guò)博弈的收益表給出(見(jiàn)表2)。

對(duì)于甲來(lái)說(shuō),max,min//〃?=2:對(duì)于乙來(lái)說(shuō),maxjmiih期了=-3。這說(shuō)明甲的檜妥策

略是X2,乙的穩(wěn)妥策略是以°表2:甲和乙的收益表

但是,當(dāng)甲采取孫時(shí),乙采取力的收益幻2=-3小于采

取>1的收益g21=-1,因而乙要改用策略凹。在乙改用力后,X乃72

甲采取策略的收益力小于采取而的收益為因而

M1=2=4,X14,-41,-1

甲也要改用策略汨。而當(dāng)甲改用由后,乙采用乃的收益

2,-23,-3

g“二T小于采用力的收益.2,于是乙又要改回到乃;在

乙改回到),2后,甲也要改回到收益最大的策略孫。這就讓我們看到:當(dāng)甲采取M時(shí),乙要采

用巾;然后甲改用為,乙隨之改用為;甲再改用心,乙又改用乃,如此不斷往復(fù)下去,博

弈的結(jié)局是高度不確定的。

一般來(lái)講,要想一個(gè)二人博弈G2=(x,/;y,g)具有確定的結(jié)局,必須存在這樣的局勢(shì)

Cv*,),*)wS=XxY:

/(滑,y*)=maxf(x,y*)

XGX

g(x*,y*)=maxg(",y)

滿足這個(gè)條件的的局勢(shì)(?色),*),叫做博弈G2的均衡或最優(yōu)解或最優(yōu)局勢(shì),其中的爐和產(chǎn)分

別叫做局中人甲和乙的最優(yōu)策略或均衡策略。這個(gè)條件乜就叫做博弈的均衡條件。

對(duì)于二人常和博弈G2=(x,r,/)米說(shuō),(爐,濟(jì))是博弈的最優(yōu)解當(dāng)且僅當(dāng)

/(.r*,y*)=max/(.r,y*)=min

xwXyer

數(shù)學(xué)中,滿足這個(gè)條件的點(diǎn)(x*,y*)叫做函數(shù)/的鞍點(diǎn)。因此,(X*,),*)是博弈的最優(yōu)解當(dāng)且

僅當(dāng)(N,),*)是收益函數(shù)/的鞍點(diǎn)。下面的定理給出了鞍點(diǎn)的判別條件。

鞍點(diǎn)定理.(產(chǎn),)冰)是收益函數(shù)/:XxyfR的鞍點(diǎn)的充要條件是:

/(A*,y*)=maxmin/*,),)=minmaxf(x,y)

xeXyeY

證明:必要性(n).沒(méi)(x*,y*)是/的鞍點(diǎn),即/(.產(chǎn),*)-max/(x,),*)-min。

XGXyeY

從min/(x,),')<f(x,y)可知,minf(x,),')<maxf(x\y)對(duì)一切(x,y)wXxy成立,這

y'cYy'eYVeX

z

就蘊(yùn)含著maxminf(x,y)?minmaxf(x',y)?即maxminf(xyv)<minmaxf(x,y)o

.vex/eryeYMXxeXycYyeYXGX

注意,maxminf(x,y)>min/(%*,y)=f(x*,v*)=maxf(x,y*)>minmaxf(x,y)o這就

XGXyeryeYxwXyeYxwX

證明Tf(x*,y*)=maxminf(x,y)=minmaxf(x,v)o

xeXyeYyeYxwX

充分性(<=).設(shè)(x*,y*)eXxy滿足f(分,y*)=maxmin/(x,y)=minmaxf(x,v)從

xwXyeYye/xeXo

/(x*,^*)=maxmin/(x,y)可知/(x*,y*)=minf(x*y);從/(%*,)?)=minmax/。,y)可

xeXy^Yy^YyeYXGX

知/(代,y*)=max/(x,產(chǎn))。所以,/(x*,),*)=max/(x,y*)=min/(%*,),),即(爐,)/)是函

xeXxeXye/

數(shù)/的鞍點(diǎn)。?

既然二人常和博弈的最優(yōu)解恰好就是收益函數(shù)的鞍點(diǎn),鞍點(diǎn)定理告訴我們,當(dāng)收益函數(shù)

的鞍點(diǎn)存在時(shí),利用最小最大原理確定的博弈局勢(shì)就是二人常和博弈的最優(yōu)解。

但是,當(dāng)收益矩陣不存在鞍點(diǎn)時(shí),常和博弈就沒(méi)有最優(yōu)解,博弈的結(jié)局就是高度不確定

的。鑒于此,我們將有鞍點(diǎn)的常和博弈稱為嚴(yán)格確定的博弈。

三.反應(yīng)函數(shù)

博弈G=(x,/、;y,g)的局中人總是要考慮對(duì)手的行動(dòng),然后確定自己的對(duì)策。當(dāng)乙采取

了某種策略),£丫,而且被甲所覺(jué)察時(shí),甲必然有所反應(yīng),要確定出相應(yīng)的對(duì)策X£X以使自

己的收益/在乙選擇y的情況下達(dá)到最大,即要使/(x,尸)=max{/(f,y):x'wX}。甲對(duì)乙的

行動(dòng)的這種反應(yīng),確定了個(gè)從乙的策略集合y到甲的策略集合X的映射0,即對(duì)任何),eV,

甲的反應(yīng)策略x=(p[y)是按照/(x,y)=f((p(y\y)=max{/(x',y):feX卜來(lái)確定的。這個(gè)映射

夕:YfX就叫做甲對(duì)乙的反應(yīng)函數(shù)。

同樣的道理,可以確定出乙對(duì)甲的反應(yīng)函數(shù)〃:XTV,即對(duì)任何xeX,y=〃Cv)是按

照g(x,y)=g(x,〃(切=mix{g(x,y):)/wy}來(lái)確定的。

利用反應(yīng)函數(shù),我們也可以解釋博弈的結(jié)局。就象古諾博弈一樣,假如甲先采取某種策

略RWX,乙通過(guò)某種途徑獲悉了甲的這一行動(dòng),并認(rèn)為甲不會(huì)改變他的策略,于是作出反

應(yīng),決定采取策略y=些(即),以使自己的收益最大化。當(dāng)乙采取策略力時(shí),甲掌握了這一信

息,并認(rèn)為乙不會(huì)改變他的策略,于是作出反應(yīng),改變?cè)瓉?lái)的策略,決定采用心=0(凹),以

求收益最大化。這時(shí),乙再次對(duì)甲的行為作出反應(yīng),采取新策略),2=〃(4)。甲也再次對(duì)乙

的行動(dòng)作出反應(yīng),采取新策略必=夕(")。這樣的反應(yīng)不斷下去,直到最后達(dá)到y(tǒng)=同用且

工=夕(),)時(shí)博弈實(shí)現(xiàn)了均衡,此時(shí)的局勢(shì)《),)就是博弈的最優(yōu)解(均衡、最優(yōu)局勢(shì))。

綜上所述,博弈的結(jié)局是實(shí)現(xiàn)均衡,并口均衡由甲乙雙方的反應(yīng)函數(shù)確定,即由方程組

(x=W、,)|7(代,)'*)=呻/*,)'*)

””決定。事實(shí)上,。*,產(chǎn))是該方程組的解當(dāng)且僅當(dāng)…*、r€X、,而這

>'=W(x)'g(x*,),*)=maxg(x%y)

IyeY

正是博弈G實(shí)現(xiàn)均衡的含義。注意,以上關(guān)于反應(yīng)函數(shù)的討論,沒(méi)有要求策略集合的有限性,

即集合x(chóng)和y可以是任何集合。

下面考慮二人無(wú)限博弈的一種特殊情況:策略集合x(chóng)和y都是實(shí)數(shù)區(qū)間。比如,本章第

一節(jié)例3中古諾博弈的局中人策略集合就是區(qū)間[0,+8)(半直線),例4中貝特蘭博弈的局中

人策略集合也是半直線。假設(shè)局中人甲和乙的收益函數(shù)六xfR和g:yfR可微,則甲對(duì)

乙的反應(yīng)函數(shù)x=0(),)由方程(一階條件)嫄工,),)/法=0決定,乙對(duì)甲的反應(yīng)函數(shù)y=3(x)由

方程(一階條件)dg(x,),)"),=0決定,從而博弈的最優(yōu)解就是如下方程組的解:

=0(甲對(duì)乙的反應(yīng)函數(shù)x=e(y))

dx

■(B)=0(乙對(duì)甲的反應(yīng)函數(shù)),="(外)

例2.二人博弈的反應(yīng)函數(shù)及最優(yōu)解

設(shè)二人博弈中,甲和乙的策略集合x(chóng)和y為x=y=[(),+8),收益函數(shù)/和g分別如下:

22

fix,y)=a}x+a2y+a3xy+aAx+a5y+a6

22

g(x,y)=bix+b2y+b3xy+b4x+b5y+b(t

求偏導(dǎo)數(shù)得方程組。由此可知局中人甲和乙的反應(yīng)函數(shù)分別為

og(xyy)/dy=2b2y+b、x+b5

博弈的最優(yōu)叫x*=(的%一2。4b2)](43仇-a3b3)

),*=(a?仇-2。山5)/(4。山2-外慶)

四.策略選擇的經(jīng)濟(jì)模擬

第一節(jié)中曾經(jīng)指出,描述一個(gè)博弈時(shí)策略集合的選擇至關(guān)重要。比較古諾博弈和貝特蘭

博弈,雖然二者的目的都是要模擬同一經(jīng)濟(jì)現(xiàn)象一一雙頭壟斷,但二者的結(jié)構(gòu)卻很不同。古諾

博弈中廠商的策略是選擇產(chǎn)量,廠商的收益是策略變量的連續(xù)函數(shù);而貝特蘭博弈中廠商的策

略是選擇價(jià)格,廠商的收益是策略變量的非連續(xù)函數(shù)。這導(dǎo)致了相當(dāng)不同的均衡,究竟哪一種

是正確的呢?

如果抽象地看待這個(gè)問(wèn)題,那么“哪一種模型正確”這樣的提問(wèn)并無(wú)什么意義。要回答

這個(gè)問(wèn)題,就必須看模型試圖模擬什么。不要問(wèn)哪一種模型是正確的,而去問(wèn)策略選擇中什么

樣的考慮是切入主題的,這樣的提問(wèn)可能會(huì)更加有益一些。比如,如果我們觀察OPEC公司的

公告,就會(huì)發(fā)現(xiàn)OPEC企圖為每一個(gè)員工決定產(chǎn)量配額,并且允許按照世界石油市場(chǎng)價(jià)格定價(jià),

這樣按照產(chǎn)量水平而不是按價(jià)格水平來(lái)模擬博弈策略,就可能更加合理。

在策略選擇的經(jīng)濟(jì)模祖中還有另一方面的考慮,乃就是一旦對(duì)手的行為被觀察到,那么

對(duì)手的策略應(yīng)該是被承諾的或者是難以改變的。然而到目前為I匕所描述的博弈是“一次性”

(one-shot)博弈,其特點(diǎn)是一旦知道對(duì)手的行動(dòng),策略變量可以很快地進(jìn)行調(diào)整。例如,假設(shè)

我為我的產(chǎn)品選擇一個(gè)價(jià)格,然后發(fā)現(xiàn)我的對(duì)手制定了?個(gè)略低一些的價(jià)格,在這種情況下我

可以很快地調(diào)整我的價(jià)格。因此,盡管“一次性”博弈所描述的現(xiàn)象應(yīng)該是發(fā)生在實(shí)際生活中

的現(xiàn)實(shí),但在“一次性”博弈中模擬這種能夠很快調(diào)整的策略反應(yīng)并不具有多大的意義。似乎

應(yīng)該使用多階段博弈,這樣才能捕獲到策略選擇行為的所有可能的內(nèi)容。

另一方面,如果我們史古諾博弈中的產(chǎn)量水平解釋成為廠商的生產(chǎn)能力,那么一定產(chǎn)量

的產(chǎn)品生產(chǎn)就可能是不可撤消或不可改變的資本投資。這種情況下,廠商一旦發(fā)現(xiàn)對(duì)手的產(chǎn)量

水平,而要改變廠商自己的產(chǎn)量水平,則可能是難以辦到或非常昂貴的。生產(chǎn)能力或產(chǎn)量水平

似乎是廠商策略的天然選擇,即使一次性博弈中也是這樣。

同大部分經(jīng)濟(jì)模擬一樣,在策略選擇的經(jīng)濟(jì)模擬中,如果既要讓博弈簡(jiǎn)單明了以便分析,

又要能夠說(shuō)明實(shí)際策略的迭接要素,那么如何表示博弈的策略選擇,就是一項(xiàng)藝術(shù)。

第三節(jié)重復(fù)博弈

到目前為止,所談?wù)摰牟┺氖且淮涡缘?。其?shí),任何博弈都可以一次一次地重復(fù)進(jìn)行,

且每一次重復(fù)都不是簡(jiǎn)單地重復(fù)前一次的著法,而會(huì)考慮得比前一次更全面些,技法也會(huì)更高

些。就好像棋手下棋一樣,一局結(jié)束了再開(kāi)一局,前一局在某些看法上吃了虧,這一局中就會(huì)

吸取教訓(xùn)而加以注意,正所謂“吃--暫,長(zhǎng)?智二反反復(fù)復(fù)地開(kāi)局,給棋手不斷積累經(jīng)驗(yàn),

讓棋手的技藝越來(lái)越高。

通過(guò)博弈的重復(fù)進(jìn)行,局中人的經(jīng)驗(yàn)越來(lái)越豐富,這種經(jīng)驗(yàn)源于博弈歷史。實(shí)際上,重

復(fù)博弈中的每一點(diǎn)處,局中人決定自己的選擇時(shí)會(huì)考慮到達(dá)該點(diǎn)之前的全部博弈歷史,比如象

棋棋手在上一局中因出車慢而吃了虧,那么這一局中就會(huì)吸取前一局的教訓(xùn)而趕快把車開(kāi)山來(lái)。

這樣一來(lái),重復(fù)博弈中局中人的策略空間隨著博弈被重復(fù)的次數(shù)的增加而變得越來(lái)越大,也就

是說(shuō),博弈歷史越長(zhǎng),局中人的策略空間越大,可以選擇的著法越多。由于''我的對(duì)手會(huì)基于

我的選擇歷史而修正他的行為,我必須在做出自己的選擇時(shí)考慮到這種影響”,所以,重及博

弈的結(jié)果不絕不是一次性博弈的簡(jiǎn)單重復(fù)。

例1.囚徒博弈的重復(fù)

我們以囚徒博弈為例,來(lái)分析重復(fù)博弈問(wèn)題。囚徒博弈中,企圖獲得“(合作,合作)”

解是兩個(gè)局中人的長(zhǎng)期利益所在。對(duì)于每個(gè)局中人來(lái)說(shuō),可行的做法是試著給另一個(gè)局中人發(fā)

出“信號(hào)”以表明他的“善意”,并且在博弈一開(kāi)始移動(dòng)就進(jìn)行合作。當(dāng)然,背物是另一個(gè)局

中人的短期利益所在。如果他不合作而采取背叛策略,那么對(duì)方就可能失去耐心而從此以后永

遠(yuǎn)只實(shí)行背叛。這樣一來(lái),背叛者就會(huì)因只看到眼前利益而喪失合作的長(zhǎng)期利益?;谶@種推

理可以得到的事實(shí)是,一個(gè)局中人目前的做法將在未來(lái)將得到回應(yīng)一一其他局中人的未來(lái)選擇

可能依賴于這個(gè)局中人當(dāng)前的選擇。

現(xiàn)在來(lái)分析一下“(合作,合作)”局勢(shì)能否成為重復(fù)囚徒博弈的一個(gè)均衡。我們分兩種

情況進(jìn)行討論,一種情況是有限次重及博弈,另一種情況是無(wú)限次重復(fù)博弈。

先討論有限次重復(fù)博弈,為此假定每個(gè)局中人都知道博弈將重復(fù)一個(gè)固定的次數(shù)(比如

重及5次)。考慮最后一輪博弈實(shí)施之前局中人給予的推理,此時(shí)每個(gè)人都認(rèn)為他們?cè)谶M(jìn)行一

次性博弈。由于這是最后一次移動(dòng),將來(lái)不會(huì)再有,因此均衡的標(biāo)準(zhǔn)邏輯推理便得以應(yīng)用,其

結(jié)果是局中人雙方都選擇“背叛”策略。再考慮最后一次移動(dòng)之前的移動(dòng),這里似乎每個(gè)局中

人都重視合作,以向?qū)Ψ桨l(fā)出他是“好人”的信號(hào),以便能在下一次以及最后一次移動(dòng)中合作。

但是,我們已經(jīng)看到,最后?次移動(dòng)中雙方都將采取背叛,因此在倒數(shù)第二次的移動(dòng)中合作就

沒(méi)有什么優(yōu)勢(shì)可言。采取合作是為了得到長(zhǎng)期利益,為了在將來(lái)最后一次移動(dòng)中得到回應(yīng)。然

而,將來(lái)最后一次移動(dòng)中并不能得到合作,雙方都背叛了,結(jié)果倒數(shù)第二次移動(dòng)中雙方也只有

采取背叛。同理不斷向后歸納(backwardsinduction),結(jié)果最后一次移動(dòng)之前的所有移動(dòng)中,

合作并不能帶來(lái)什么長(zhǎng)期利益,沒(méi)有什么優(yōu)點(diǎn),局中人惟有相信其他局中人將在最后一次移動(dòng)

中背叛,用現(xiàn)在的善意企圖去影響未來(lái)下一次的移動(dòng)是無(wú)利可圖的。因此,在重復(fù)某一司定次

數(shù)的囚徒難題重復(fù)博弈中,每一局博弈的均衡局勢(shì)都是“(背叛,背叛)”,而不是“(合作,合

作)

再來(lái)考慮博弈可無(wú)限次重復(fù)的情況。當(dāng)博弈的重復(fù)次數(shù)為無(wú)限時(shí),情況就大不相同了。

此時(shí),局中人在每一個(gè)階段都知道博弈至少還要重復(fù)一次以上,因而合作大有前景,長(zhǎng)期利益

在望。在這種無(wú)限次重復(fù)的囚徒博弈中,每個(gè)人的策略都是一個(gè)函數(shù)序列,它表明每個(gè)局中人

在每個(gè)階段是選擇合作還是選擇背叛,都是作為此階段之前博弈歷史的函數(shù)。重復(fù)博弈中,局

中人的收益是各階段收益的貼現(xiàn)值之總和一一貼現(xiàn)和(向時(shí)刻0貼現(xiàn))。具體地說(shuō),設(shè)局中人在

時(shí)刻/的收益(即第/局重復(fù)中的收益)為〃/。=1,2,3,…),他在重復(fù)博弈中的收益就是貼現(xiàn)和

X慧應(yīng)/(1+r)‘,其中,?為貼現(xiàn)率。只要貼現(xiàn)率不很高,囚徒博弈每一局重復(fù)的均衡局勢(shì)便都

是“(合作,合作)”,每個(gè)人在各個(gè)階段都會(huì)看到合作的利益。為了說(shuō)明這個(gè)事實(shí),我們采用

第一節(jié)例2提供的數(shù)據(jù)。

假設(shè)兩個(gè)局中人一直合作,移動(dòng)到了時(shí)刻丁。如果本次移動(dòng)中一個(gè)人決定背叛,那么另

一個(gè)人會(huì)因本次移動(dòng)中采取合作而未得收益,從而從下次以后永遠(yuǎn)采取背叛策略,給對(duì)方以懲

罰。第一個(gè)背叛者從本次開(kāi)始,以后只能繼續(xù)背叛(因?yàn)楹献鞯氖找鏋榱悖?,結(jié)果他雖然在本

次移動(dòng)中立即得到了4000元的收益,但也以以后無(wú)限次的1000元收益這個(gè)低收益流來(lái)毀滅自

己,他從背叛中得到的收益貼現(xiàn)和為a=4OOO+Z:=J00O/(l+r)”=4000+1000"元,另一

方面,如果他持續(xù)合作下去,永不背叛,那么對(duì)方也不會(huì)背叛,于是他從合作中得到的收益貼

現(xiàn)和為咫=3000+2久3000/(1+/)〃=3000+3000/r元。比較吊和R?可知,只要貼現(xiàn)系r<2,

就有K<寵2。這就說(shuō)明,只要貼現(xiàn)率不很高,當(dāng)一方背叛時(shí),另一方也采取背叛給其以懲罰,

就能使背叛者償其苦果?!醮丝磥?lái),只有雙方互相合作下去。如有一方背叛,另一方就要執(zhí)行

懲罰策略來(lái)使背叛者飽償苦果,因而沒(méi)有一方能夠從背叛中會(huì)有收獲。所以,在貼現(xiàn)率不很高

的情況下,囚徒博弈重復(fù)的均衡是局中人雙方在各階段都采取合作策略。

以上論述實(shí)際上是很有力的,有一個(gè)稱為弗爾克(Folk)的著名定理支持了這一論述。該

定理斷言:在重復(fù)的囚徒博弈中,任何收益如果高于局中人雙方一致背叛所能得到的收益,那

么都將被作為重復(fù)博弈均街而得到支持。上面我們還提到了懲罰策略,實(shí)際上這個(gè)策略可明確

敘述成:“在當(dāng)前移動(dòng)中合作,除非其他局中人在最后移動(dòng)中背叛工采取這個(gè)策略的理由是,

如果一個(gè)局中人背叛,那么他將在收益上得到永久性懲罰。另外,上面論述中還涉及到了貼現(xiàn)

率,并要求貼現(xiàn)率不很高。實(shí)際上,當(dāng)貼現(xiàn)率很高時(shí),當(dāng)前收益就是特別重要的,因?yàn)閷?lái)的

貨幣貶值太大了,現(xiàn)在的收益要抵得上將來(lái)收益的好幾倍,因而當(dāng)事人只好顧及當(dāng)前收益,力

求當(dāng)前收益越多越好,而把未來(lái)長(zhǎng)遠(yuǎn)利益放在次要位置上。

下面再看一個(gè)雙頭壟斷的重復(fù)博弈事例。

例2.維持卡特爾

考慮一個(gè)簡(jiǎn)單的重復(fù)雙頭壟斷,如果兩個(gè)廠商都執(zhí)行古諾博弈均衡策略,則得到利潤(rùn)

(乃「不Q:如果以共同利潤(rùn)最大化決定產(chǎn)量水平,即執(zhí)行卡特爾行動(dòng),則得到利潤(rùn)(肛〃,肛〃)。

我們知道,一次性博弈中共同利潤(rùn)最大化的產(chǎn)量不是博弈均衡,每個(gè)廠商都有激勵(lì)去傾銷額外

數(shù)量的產(chǎn)品,如果他認(rèn)為其他廠商將保持產(chǎn)量不變的話。但是在重復(fù)博弈中,只要貼現(xiàn)率不太

高,合作起來(lái)以使共同利泡最大化之策略,將是重復(fù)博弈的最優(yōu)解。

可以證明,如果這種簡(jiǎn)單的雙頭壟斷博弈是一次性的,那么每個(gè)廠商以古諾產(chǎn)量生產(chǎn)將

是博弈的最優(yōu)解。但是,如果這個(gè)博弈是不斷重復(fù)的,那么每個(gè)廠商都采取按照卡特爾產(chǎn)量生

產(chǎn)的策略,即都選擇合作,將是雙頭壟斷重復(fù)博弈的最優(yōu)解。對(duì)不合作的適當(dāng)懲罰,是采取生

產(chǎn)古諾產(chǎn)量水平這一策略C可見(jiàn),在不斷重復(fù)的雙頭壟斷博弈中,由于一次性博弈均衡這種懲

罰策略的存在,局中人都將以長(zhǎng)遠(yuǎn)利益為重,來(lái)維持卡特爾。

第四節(jié)混合策略

并非所有博弈都有嚴(yán)格確定的結(jié)局。進(jìn)一步,實(shí)際中博弈局中人常常希望自己的行動(dòng)隱

秘不被暴露,不被對(duì)手覺(jué)囊。對(duì)于這兩個(gè)問(wèn)題,目前意義上的策略博弈是解決不了的。在博弈

非嚴(yán)格確定或者局中人希望保守秘密的情況下,局中人的最好做法是采取混合策略,即以?定

的概率采取某種策略。這樣做,甚至連局中人自己也不知道每一次行動(dòng)中究竟采取什么策略,

競(jìng)爭(zhēng)對(duì)手就更不得而知廣。而且對(duì)于非嚴(yán)格確定的博弈來(lái)說(shuō),采用混合策略就可求得最優(yōu)解。

當(dāng)一種混合策略以概率1選擇某種策略時(shí),這種策略就是前三節(jié)所談?wù)摰摹凹儭辈呗?,可?jiàn)混

合策略擴(kuò)展了策略概念。

混合策略的概念

我們以兩人博弈為例,來(lái)對(duì)混合策略的概念以及采取混合策略時(shí)局中人的行動(dòng)目標(biāo)進(jìn)行

解釋。至于更一般的多人博弈,將在下一節(jié)中討論。

設(shè)G=(S1J;S2,g)為有限二人策略博弈,其中=囪,月,…,襦}為局中人甲的策略集合,

§2=0,4,…,4}為乙的策略集合,/和g分別為甲和乙的收益函數(shù)。

局中人為了保持自己決策的秘密性,不再象以前那樣選擇純策略,而決定采用隨鞏辦法

來(lái)選擇策略。也就是說(shuō),局中人對(duì)■純策略的選擇由某種隨機(jī)裝置來(lái)決定,對(duì)每個(gè)純策略來(lái)說(shuō),

采用它只有可能性的大小,也就是用多大的概率來(lái)選擇各個(gè)純策略。這樣,對(duì)方就不可能事先

知道究竟選擇哪個(gè)純策略,甚至連局中人自己也不可能事先知道,而純策略是在最后時(shí)刻借助

隨機(jī)裝置選擇出來(lái)的。通過(guò)借助隨機(jī)裝置,局中人原來(lái)對(duì)純策略的選擇變成為現(xiàn)在對(duì)各個(gè)純策

略的概率大小的選擇。

如果還嫌借助隨機(jī)裝置給出的選擇各個(gè)純策略的概率大小具有一定的客觀性,怕被對(duì)方

估計(jì)出來(lái),局中人還可進(jìn)一步采取主觀概率分布,以使對(duì)純策略的選擇帶有真正的不確定性(參

見(jiàn)第六章關(guān)于主觀概率的介紹)。

這種以某種概率選擇的策略就是混合策略,更準(zhǔn)確地說(shuō),選擇混合策略就是選擇一個(gè)概

率分布,然后按照這個(gè)分布給出的概率來(lái)選擇各個(gè)純策略。假如甲選擇策略4的概率為左

(i=l,2,…,〃7),=1,則向量工=3,八,代表著甲選擇各種純策略的概率分布,

實(shí)際上就表示了甲的一種混合策略。這就是說(shuō),混合策略是用概率分布x來(lái)表示的,混合策略

的變化完全反映為概率分布X的變化。今后,我們把概率分布“=(為,必,…,X,”)就稱為局中人

甲的混合策略。

原來(lái)的純策略M可看成是這樣的一種混合策略:以概率1選擇策略4,以概率0選擇其

他策略匕仇",&=1,2「?,/〃)。如此一來(lái),甲的策略集合由原來(lái)的純策略集合&擴(kuò)張成為混

合策略集合X={X€[01F:Z3Xi=l}。同樣,局中人乙的選擇集合也由原來(lái)的純策略集合S2

擴(kuò)張成為混合策略集合Y={yG[0,1:Z3乂=l}o當(dāng)甲采取混合策略x,乙采取混合策略),時(shí),

3,),)就稱為博弈G的混合局勢(shì)。

在采取混合策略的情況下,局中人的目標(biāo)是要使預(yù)期收益最大化。當(dāng)甲采取混合策略

xeX,乙采取混合策略)*丫時(shí),甲和乙的預(yù)期收益分別為野和四:

ntntnn..

可=Ef(x,y)=N£Xiyjf(Si,Sj)=££為乃%=M幾)yT=^fyT

r=lj=lf=ly=l

mnmit,、

/=ij=\i=ij=\

這里,X和),都寫成行向量形式,“T”為轉(zhuǎn)置運(yùn)算。甲的收益函數(shù)由原來(lái)的/:&xS2fR擴(kuò)

充成為號(hào):XxYTR,乙的收益函數(shù)由原來(lái)的g:S|x52TR擴(kuò)充成為Eg:XXYtR。

在策略集色和收益函數(shù)都得到擴(kuò)充四乒,原來(lái)的純策略博弈G=(S,/;S2,g)就擴(kuò)充成為

混合策略博弈G=(X,野;匕為),而且G可看成是一般的二人博弈,不過(guò)這個(gè)博弈的收益函

數(shù)具有雙線性性,即對(duì)于任何x,f,x"eX,),,)/,),"£兒及任何實(shí)數(shù),£[()1],都成立:

野(川+(1T)x",),)=舊(父,y)+(1T)野(Ky)

+(1-/)/)=例“)+(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論