混合策略線性規(guī)劃解法

上傳人：闖*** IP屬地：廣東上傳時間：2020-05-12 格式：PPT 頁數(shù)：27 大?。?8.50KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

3矩陣對策的混合策略,若不存在va=v=vb，則局中人甲、乙兩方?jīng)]有最優(yōu)純策略，就要考慮如何隨機地使用自己的策略，使對方捉摸不到自己使用何種策略。即使用混合策略。,設(shè)矩陣對策G=S1,S2,A。當(dāng)maxminaijminmaxaijijji時，不存在最優(yōu)純策略。例：設(shè)一個贏得矩陣如下:min595A=max6策略2866imax89min8策略1j,當(dāng)甲取策略2，乙取策略1時，甲實際贏得8比預(yù)期的多2，乙當(dāng)然不滿意?？紤]到甲可能取策略2這一點，乙采取策略2。若甲也分析到乙可能采取策略2這一點，取策略1，則贏得更多為9。此時，對兩個局中人甲、乙來說，沒有一個雙方均可接受的平衡局勢，其主要原因是甲和乙沒有執(zhí)行上述原則的共同基礎(chǔ)，即maxminaijminmaxaij。ijji一個自然的想法：對甲（乙）給出一個選取不同策略的概率分布，以使甲（乙）在各種情況下的平均贏得（損失）最多（最少）-即混合策略。,求解混合策略的問題有圖解法、迭代法、線性方程法和線性規(guī)劃法等，我們這里只介紹線性規(guī)劃法，其他方法略。例：設(shè)甲使用策略1的概率為X1，使用策略2的概率為X2，并設(shè)在最壞的情況下，甲贏得的平均值為V（未知）。59A=STEP1861)X1+X2=1X1,X20,2)無論乙取何策略，甲的平均贏得應(yīng)不少于V:對乙取1：5X1+8X2V對乙取2：9X1+6X2V注意V0,因為A各元素為正。STEP2作變換：X1=X1/V;X2=X2/V得到上述關(guān)系式變?yōu)椋篨1+X2=1/V(V愈大愈好）待定5X1+8X219X1+6X21X1,X20,建立線性模型：minX1+X2s.t.5X1+8X21X1=0.0489X1+6X21X2=0.095X1,X20所以，V=6.993返回原問題：X1=X1V=0.336X2=X2V=0.664于是甲的最優(yōu)混合策略為：以0.336的概率選1策略，以0.664的概率選2策略，簡記為（0.336,0.664）T，最優(yōu)值V=6.993。,同樣可求乙的最優(yōu)混合策略：設(shè)乙使用策略1的概率為Y1Y1+Y2=1設(shè)乙使用策略2的概率為Y2Y1,Y20設(shè)在最壞的情況下，甲贏得的平均值為V。這也是乙損失的平均值，越小越好。作變換：Y1=Y1/V，Y2=Y2/V建立線性模型：maxY1+Y2s.t.5Y1+9Y21Y1=1/148Y1+6Y21Y2=1/14Y1,Y201/V=Y1+Y2=1/7所以，V=6.993,返回原問題：Y1=Y1V=1/2Y2=Y2V=1/2于是乙的最優(yōu)混合策略為：以的概率選1；以的概率選2，最優(yōu)值V=7。當(dāng)贏得矩陣中有非正元素時，V0的條件不一定成立，可以作下列變換：選一正數(shù)k，令矩陣中每一元素加上k得到新的正矩陣A，其對應(yīng)的矩陣對策G=S1,S2,A與G=S1,S2,A解相同，但VG=VGk。,例1：求解“齊王賽馬”問題。已知齊王的贏得矩陣A求得故不存在純策略問題下的解，可求其混合策略。A中有負(fù)元素，可以取k=2,在A的每個元素上加2得到A如下：,建立對G=S1，S2，A中求甲方最佳策略的線性規(guī)劃如下：Minx1+x2+x3+x4+x5+x6約束條件：5x1+3x2+3x3+x4+3x5+3x613x1+5x2+x3+3x4+3x5+3x613x1+3x2+5x3+3x4+3x5+x613x1+3x2+3x3+5x4+x5+3x61x1+3x2+3x3+3x4+5x5+3x613x1+x2+3x3+3x4+3x5+5x61xi0,i=1,2,6可解得解為：x1=x4=x5=0,x2=x3=x6=0.111,v=3,x1=x4=x5=0，x2=x3=x6=1/3,即X*=(0,1/3,1/3,0,0,1/3)T，所以甲的最優(yōu)策略為作出策略2、3、6的概率都為0.333,而作出1、4、5的概率為0，此時VG=V=3。,同樣可以建立對策G=S1，S2，A中求乙方最佳策略的線性規(guī)劃如下：Miny1+y2+y3+y4+y5+y6約束條件：5y1+3y2+3y3+3y4+y5+3y613y1+5y2+3y3+3y4+3y5+y613y1+y2+5y3+3y4+3y5+3y61y1+3y2+3y3+5y4+3y5+3y613y1+3y2+3y3+y4+5y5+3y613y1+3y2+y3+3y4+3y5+5y61yi0,i=1,2,6可解得解為：y1=y4=y5=0.111,y2=y3=y6=0,v=3,y1=y4=y5=1/3，y2=y3=y6=0，即Y*=(1/3,0,0,1/3,1/3,0)T。所以田忌的最優(yōu)混合策略為作出策略1、4、5的概率都為1/3,而作出2，3，6的概率為0，此時VG=VG-k=1。,齊王賽馬問題的對策最優(yōu)解可簡記為X*=(0,1/3,1/3,0,0,1/3)T，Y*=(1/3,0,0,1/3,1/3,0)T，對策值VG=1。,例2兩個局中人進(jìn)行對策，規(guī)則是兩人互相獨立的各自從1、2、3這三個數(shù)字中任意選寫一個數(shù)字。如果兩人所寫的數(shù)字之和為偶數(shù)，則局中人乙支付給局中人甲以數(shù)量為此和數(shù)的報酬；如果兩人所寫數(shù)字之和為奇數(shù)，則局中人甲付給局中人乙以數(shù)量為此和數(shù)的報酬。試求出其最優(yōu)策略。解：首先計算局中人甲的贏得矩陣如下表：,4-56,-34-5,2-34,1（出1）2（出2）3（出3）,3（出3）,2（出2）,1（出1）,甲的贏得甲的策略,乙的策略,即甲的贏得矩陣為A：可知無純策略意義的解，下面求其在混合策略下的解。A的各元素都加上6，得到建立線性規(guī)劃模型如下：Minx1+x2+x3Maxy1+y2+y3S.T.8x1+3x2+10 x318y1+3y2+10y313x1+10 x2+x313y1+10y2+y3110 x1+x2+12x3110y1+y2+12y31x1,x2,x30y1,y2,y30,得到x1=0.25,x2=0.50,x3=0.25；y1=0.25,y2=0.50,y3=0.25。即此對策的解為X*=(0.25,0.50,0.25)T，Y*=(0.25,0.50,0.25)T。VG=VG-k=0。,在對策論中可以根據(jù)不同方式對對策問題進(jìn)行分類，通常分類的方式有:（1）根據(jù)局中人的個數(shù)，分為二人對策和多人對策；（2）根據(jù)各局中人的贏得函數(shù)的代數(shù)和是否為零，可分為零和對策和非零和對策；（3）根據(jù)局中人是否合作，又可分為合作對策和非合作對策；（4）根據(jù)局中人的策略集中個數(shù)，又分為有限對策和無限對策（或連續(xù)對策）；（5）也可根據(jù)局中人掌握信息的情況及決策選擇是否和時間有關(guān)可分為完全信息靜態(tài)對策、完全信息動態(tài)對策、非完全信息靜態(tài)對策及非完全信息動態(tài)對策；也可以根據(jù)對策模型的數(shù)字特征又分為矩陣對策、連續(xù)對策、微分對策、陣地對策、凸對策、隨機對策。本節(jié)只對對策論中非合作對策的完全信息對策、多人非合作對策、非零和對策作一個簡單的敘述性介紹。,4其他類型的對策論簡介,一、完全信息靜態(tài)對策該對策是指掌握了參與人的特征、戰(zhàn)略空間、支付函數(shù)等知識和信息并且參與人同時選擇行動方案或雖非同時但后行動者并不知道前行動者采取了什么行動方案。納什均衡是一個重要概念。在一個戰(zhàn)略組合中，給定其他參與者戰(zhàn)略的情況下，任何參與者都不愿意脫離這個組合，或者說打破這個僵局，這種均衡就稱為納什均衡。下面以著名的“囚徒困境”來進(jìn)一步闡述,4其他類型的對策論簡介,例1“囚徒困境”說的是兩個囚犯的故事。這兩個囚徒一起做壞事，結(jié)果被警察發(fā)現(xiàn)抓了起來，分別關(guān)在兩個獨立的不能互通信息的牢房里進(jìn)行審訊。在這種情形下，兩個囚犯都可以做出自己的選擇：或者坦白（即與警察合作，從而背叛他的同伙），或者抵賴（也就是與他的同伙合作，而不是與警察合作）。這兩個囚犯都知道，如果他倆都能抵賴的話，就都會被釋放，因為只要他們拒不承認(rèn)，警方無法給他們定罪。但警方也明白這一點，所以他們就給了這兩個囚犯一點兒刺激：如果他們中的一個人坦白，即告發(fā)他的同伙，那么他就可以被無罪釋放。而他的同伙就會被按照最重的罪來判決。當(dāng)然，如果這兩個囚犯都坦白，兩個人都會被按照輕罪來判決。如圖1-1所示。,圖1-1囚徒困境,由分析可知，上例中每個囚犯都會選擇坦白，因此這個戰(zhàn)略組合是固定的，(坦白，坦白)就是納什均衡解。而這個均衡是不會被打破的，即使他們在坐牢之前達(dá)成協(xié)議。囚徒困境反映了個人理性和集體理性的矛盾。對于雙方，（抵賴，抵賴）的結(jié)果是最好的，但因為每個囚徒都是理性人，他們追求自身效應(yīng)的最大化，結(jié)果就變成了（坦白，坦白）。個人理性導(dǎo)致了集體不理性。,二、完全信息動態(tài)對策在完全信息靜態(tài)對策中，假設(shè)各方都同時選擇行動?，F(xiàn)在情況稍復(fù)雜一些。如果各方行動存在先后順序，后行的一方會參考先行者的策略而采取行動，而先行者也會知道后行者會根據(jù)他的行動采取何種行動，因此先行者會考慮自己行動會對后行者的影響后選擇行動。這類問題稱為完全信息動態(tài)對策問題。例2某行業(yè)中只有一個壟斷企業(yè)A，有一個潛在進(jìn)入者企業(yè)B。B可以選擇進(jìn)入或不進(jìn)入該行業(yè)這兩種行動，而A當(dāng)B進(jìn)入時，可以選擇默認(rèn)或者報復(fù)兩種行動。如果B進(jìn)入后A企業(yè)報復(fù)，將造成兩敗俱傷的結(jié)果，但如果A默認(rèn)B進(jìn)入，必然對A的收益造成損失。同樣的，如果B進(jìn)入而A報復(fù)，則B受損，反之，將受益。把此關(guān)系用圖1-2表示。,由分析可知，上例中（B選擇不進(jìn)入，A選擇報復(fù)）和（B選擇進(jìn)入，A選擇默許）都是納什均衡解。但在實際中，（B選擇不進(jìn)入，A選擇報復(fù)）這種情況是不可能出現(xiàn)的。因為B知道他如果進(jìn)入，A只能默許，所以只有（B選擇進(jìn)入，A選擇默許）會發(fā)生?；蛘哒f，A選擇報復(fù)行動是不可置信的威脅。對策論的術(shù)語中，稱（A選擇默許，B選擇進(jìn)入）為精煉納什均衡。當(dāng)只當(dāng)參與人的戰(zhàn)略在每一個子對策中都構(gòu)成納什均衡，這個納什均衡才稱為精煉納什均衡。當(dāng)然，如果A下定決心一定要報復(fù)B，即使自己暫時損失。這時威脅就變成了可置信的，B就會選擇不進(jìn)入，（B選擇不進(jìn)入，A選擇報復(fù)）就成為精煉納什均衡。軍事交戰(zhàn)時，“破釜沉舟”講的就是一種可置信威脅。實際企業(yè)經(jīng)營中也有很多類似的例子。,三、多人非合作對策有三個或三個以上對策方參加的對策就是“多人對策”。多人對策同樣也是對策方在意識到其他對策方的存在，意識到其他對策方對自己決策的反應(yīng)和反作用存在的情況下尋求自身最大利益的決策活動。因而，它們的基本性質(zhì)和特征與兩人對策是相似的，我們常?？梢杂醚芯績扇藢Σ咄瑯拥乃悸泛头椒▉硌芯克鼈?，或?qū)扇藢Σ叩慕Y(jié)論推廣到多人對策。,不過，畢竟多人對策中出現(xiàn)了更多的追求各自利益的獨立決策者，因此，策略的相互依存關(guān)系也就更為復(fù)雜，對任一對策方的決策引起的反應(yīng)也就要比兩人對策復(fù)雜得多。并且，在多人對策中還有一個與兩人對策有本質(zhì)區(qū)別的特點，即可能存在“破壞者”。所謂破壞者即一個對策中具有下列特征的對策方：其策略選擇對自身的得益沒有任何影響，但卻會影響其它對策方的得益，有時這種影響甚至有決定性的作用。例如有三個城市爭奪某屆奧運會的主辦權(quán)。,四、非零和對策所謂零和對策，就是一方的收益必定是另一方的損失。這種對策的特點是不管各對策方如何決策，最后各對策方得益之和總是為零。有某些對策中，每種結(jié)果之下各對策方的得益之和不等于0，但總是等于一個非零常數(shù)，就稱之為“常和對策”。當(dāng)然，可以將零和對策本身看作是常和對策的特例。“零和對策”和“常和對策”之外的所有對策都可被稱為“非零和對策”。非零和對策即意味著在不同策略組合（結(jié)果）下各對策方的得益之和一般是不相同的。如前述囚徒困境就是典型的非零和對策。,應(yīng)該說，非零和對策是最一般的對策類型，而常和對策和零和對策都是它的特例。在非零和對策中，存在著總得益較大的策略組合和總得益較小的策略組合之間的區(qū)別，這也就意味著在對策方之間存在著互相配合，爭取較大的總得益和個人得益的可能性。兩人零和對策是完全對抗性的，總得益為0，其解法可能性根據(jù)矩陣對策予以求解，但在非零和對策下，矩陣對策求解法已經(jīng)不適用了，下面用例子予以說明。,例3甲乙兩公司生產(chǎn)同一產(chǎn)品，均想以登廣告擴大產(chǎn)品銷售，每家公司都有“登”與“不登”兩種策略，雙方的得益矩陣如下。,我

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

混合策略線性規(guī)劃解法

文檔簡介

溫馨提示

最新文檔

評論

混合策略線性規(guī)劃解法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔