1996MCM_B 建立更好的模擬評委模型-樊佩珊_第1頁
1996MCM_B 建立更好的模擬評委模型-樊佩珊_第2頁
1996MCM_B 建立更好的模擬評委模型-樊佩珊_第3頁
1996MCM_B 建立更好的模擬評委模型-樊佩珊_第4頁
1996MCM_B 建立更好的模擬評委模型-樊佩珊_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、MCM96問題-B 競賽評判問題在確定像數(shù)學(xué)建模競賽這種形式的比賽的優(yōu)勝者時(shí),常常要評閱大量論文。譬如說,有P100份論文,一個(gè)由J位評閱人組成的小組來完成評閱任務(wù),基于競賽資金對于能夠聘請的評閱人數(shù)量和評閱時(shí)間的限制,如果Pl00;通常取J8理想的情況是每個(gè)評閱人看所有的答卷,并將它們一一排序,但這種方法工作量太大。另一種方法是進(jìn)行一系列的篩選,在一次篩選中每個(gè)評閱人只看一定數(shù)量的答卷,并給出分?jǐn)?shù)。為了減少所看答卷的數(shù)量,考慮如下的篩選模式:如果答卷是被排序的,則在每個(gè)評閱人給出的排序中排在最下面的30答卷被篩除;如果答卷被打分(譬如說從1分到10分),則某個(gè)截止分?jǐn)?shù)線以下的答卷被篩除。這樣

2、,通過篩選的答卷重新放在一起返回給評閱小組,重復(fù)上述過程。人們關(guān)注的是,每個(gè)評閱人看的答卷總數(shù)要顯著地小于P評閱過程直到剩下W份答卷時(shí)停止,這些就是優(yōu)勝者。當(dāng)J100 時(shí)通常取W3。你的任務(wù)是利用排序、打分及其它方法的組合,確定一種篩選模式,按照這種模式,最后選中的w份答卷只能來自“最好的”2W份答卷(所渭“最好的”是指,我們假定存在著一種評閱人一致贊同的答卷的絕對排序)。例如,用你給出的方法得到的最后3份答卷將全部包括在“最好的”6份答卷中。在所有滿足上述要求的方法中,希望位能給出使每個(gè)評閱人所看答卷份數(shù)最少的一種方法。注意在打分時(shí)存在系統(tǒng)偏差的可能。例如,對于一批答卷,一位評閱人平均給70

3、分,而另一位可能給80分。在你給出的模型中如何調(diào)節(jié)尺度來適應(yīng)競賽參數(shù)(P,J和W)的變化?建立更好的模擬評委模型摘要我們要設(shè)計(jì)一個(gè)比賽的論文評閱系統(tǒng),來盡可能滿足兩個(gè)目標(biāo):使每位評閱員的評閱的論文盡量少,同時(shí)要保證比賽的公平性。我們首先設(shè)計(jì)一個(gè)模型,使之能預(yù)先估計(jì)出僅對兩份論文進(jìn)行的人為判斷和選擇。模型的基本前提是,兩份在絕對排序上越靠近的論文,排序上被顛倒的可能性就越大;相反,它們在排序上越不靠近,被顛倒的可能性越小。我們的模型適用于任意數(shù)量的評閱員、論文和優(yōu)勝者。P份論文分成S堆。公平起見,每一堆由兩位評閱員評閱。W份論文晉級到下一輪。如果兩位評閱員對哪W份論文晉級上意見不一,由評閱組長決

4、定。每一輪如此進(jìn)行下去,直到最終剩下2W份論文時(shí),此時(shí)由四位評閱人和評閱組長投票決定出W名優(yōu)勝者。我們可以預(yù)先設(shè)定評閱過程中的總評閱次數(shù),以及每位評閱人需進(jìn)行的評閱的最大數(shù)量。我們計(jì)算出最優(yōu)的評閱人數(shù)使每位評閱人的評閱量大致相同。經(jīng)計(jì)算機(jī)測試,我們發(fā)現(xiàn)模型從2W份論文中選出W份失敗的概率不超過0.1%。失敗的情況是由評閱中的人為因素引起的。對于給定由8位評閱人從100份論文中選出3位優(yōu)勝者的問題中,合理的假設(shè)l 關(guān)于論文:排序:根據(jù)論文的優(yōu)劣可以進(jìn)行絕對的排序,因此我們測定優(yōu)勝的論文是夠在最好的2W份論文之內(nèi)。數(shù)量:論文的數(shù)量遠(yuǎn)大于優(yōu)勝者的數(shù)量。l 評閱人:知識(shí):所有評閱人都對于提出的問題都有

5、很深的認(rèn)識(shí),且能輕松判斷出一份論文是否有價(jià)值。否則,論文不能獲得公正的評價(jià)。個(gè)人偏好:在允許的誤差下,所有的評閱人最終會(huì)對某份論文的排名達(dá)成一致。每位評閱人對論文里哪些地方值得肯定有個(gè)人的偏好。而且,當(dāng)一位評閱人要評閱大量的論文,在排序過程中必然會(huì)產(chǎn)生一定誤差。能力:一位評閱員一次可以評閱20份的論文并以某一合理的準(zhǔn)確度選出優(yōu)秀的論文。通過向一些教授和比賽評閱人的了解,我們得出20份論文是教授們認(rèn)為他們一次能保證公平評價(jià)的最大論文數(shù)量。評閱組長:評閱組長的工作僅為調(diào)解評判的分歧和在最終輪投票;評閱組長不計(jì)算在J個(gè)評閱人內(nèi)。人數(shù):最少評閱人數(shù)是5個(gè),包括評閱組長。我們必須設(shè)置足夠多的評閱人對所有

6、論文進(jìn)行公平評價(jià);評閱人越多,評閱過程的準(zhǔn)確性越高。l 公平是最根本的變量。在任何的比賽中,評閱人必須愿意為保證最好的論文在比賽中勝出而犧牲精力和時(shí)間。比賽的可靠性是以評判過程的公平性和準(zhǔn)確性為基礎(chǔ)的。常量的定義及術(shù)語P:總論文數(shù)J:總評閱人數(shù),不包括評閱組長:表示評閱人kW:總優(yōu)勝者數(shù)評閱次數(shù):一位評閱人一次評閱一份論文輪:一組論文被篩選剩下W份論文的一個(gè)淘汰的過程:表示第a輪:第a輪的堆數(shù)。一堆是一組數(shù)量少于P的論文。N:每堆包含論文的數(shù)量:表示第k論的第j堆失誤:評閱人排序情況與絕對排序不符論文競賽模型模型首先將P份論文分成S堆,接著評閱人進(jìn)行一輪淘汰,由每兩位評閱人一起將兩堆論文篩選至

7、剩下一堆數(shù)量為W份的論文。論文間的比較用排序來表示,不使用評分規(guī)則。淘汰階段重復(fù)進(jìn)行,直到剩下最后的兩堆論文。在最后一輪里采取投票制從最后兩堆論文里確定出優(yōu)勝者。準(zhǔn)備我們首先確定首輪里堆的數(shù)目,S1。為了保證淘汰能對稱地進(jìn)行,S1須為2的冪。根據(jù)我們的假設(shè),每位評閱人最多可以評閱20份論文,因此每一堆的論文數(shù)不超過20.每堆的論文數(shù)N=P2n,這里n表示滿足下式的最小值:當(dāng)2n不能整除P,N上舍入。論文竟可能地平均分配到S1份。我們分配給每位評閱人一堆,直到?jīng)]有堆可分配或沒有評閱人可分配。如果沒有評閱人可分配了,某些評閱人將被要求在第一輪評閱兩堆。第一輪評閱人J1和J2被分配了堆S11和堆S2

8、1。評閱人Ji從堆Si1里選出較好的W份以保證它們在第一輪不被淘汰。完成后,兩位評閱人交換堆,評閱人J1從S21里選出W份,而J2從S11里選W份。然后,他們比較各自選出的列表,從堆S11和堆S21里的集合里確定出最后的W份。當(dāng)分歧出現(xiàn)時(shí),評閱組長最終決定哪份論文晉級。以相同的方式,每兩堆論文都篩選剩W份。在第一輪結(jié)束時(shí),共有堆和每堆有份論文。為何每次選W份?在每輪都有最佳的2W份論文篩選成一堆的過程。如果選出的論文少于W份,模型會(huì)自然地失敗。若選出了論文多于W份,將會(huì)增加模型的穩(wěn)定性,但某程度上不保證必需的評閱次數(shù)增加。第二輪與隨后幾輪整個(gè)過程會(huì)有n-2個(gè)“中間”輪(見附錄A)。對于這些中間

9、輪,引進(jìn)變量r代表輪的次序。在的開始,我們有堆,每堆有份論文。把堆和堆分配給接下來的兩位評閱人,他們每人各自從與的集合中選出W份,并最終在評閱組長的協(xié)調(diào)下達(dá)成一致地讓W(xué)份晉級。每兩堆論文都以相同方式篩選剩W份。每一輪重復(fù)以上規(guī)則直到輪(包括此輪),完成時(shí)共剩下2W份論文。最終輪最終輪是投票階段,為保證公平性和表明最終決定的重要性,我們選擇了五位評閱人,包括評閱組長來評價(jià)這些論文。這些評閱人評閱剩下的2W分論文并排序,由一位公正員,或許是一名額外的評閱人統(tǒng)計(jì)投票結(jié)果,記排序第一位的為W分,第二位為W-1分,等等,一直到第W位為1分。得到最高分?jǐn)?shù)的W份論文成為優(yōu)勝者。若這過程中有相同得分等不能繼續(xù)

10、進(jìn)行的狀況,由評閱組長的投票來判定。人為因素該模型或其他任何模型的一個(gè)不可控變量就是人為因素。我們通過模仿現(xiàn)實(shí)中的評閱人可能的表現(xiàn)的概率分布來模擬人為因素。如果所有評閱人的想法完全一樣,那么論文1會(huì)永遠(yuǎn)地排在論文2的前面。然而,評閱人個(gè)體上對他們希望在論文上看到什么有偏向性。最常見的例子是,一位評閱人認(rèn)為表達(dá)效果比實(shí)質(zhì)重要,而另一位評閱人則認(rèn)為實(shí)質(zhì)比表達(dá)效果重要。這種情況下,論文2可能輕易地被排在論文1之前。為了對認(rèn)為因素建模,我們選擇了一下這個(gè)函數(shù)作為一位評閱人對兩份論文的排序與絕對排序不相同的概率這里比賽中共有P份論文,d是兩份對照的論文的絕對等級的距離。距離概率圖1:評閱人對兩份論文排名

11、的操作特征曲線。(注意并不是概率密度函數(shù)。)該方程給出了評閱人判斷錯(cuò)誤的概率作為針對描述對兩份論文排序時(shí)產(chǎn)生的真正差異。隨著兩個(gè)排名的距離增大,講它們順序顛倒的概率就降低得很快。當(dāng)兩論文間的差距是0.01P時(shí),判斷錯(cuò)誤的概率是50%。因此,對于P=100的情況論文5和論文6次序的安排是完全隨機(jī)的。當(dāng)距離大于0.17P時(shí),判斷錯(cuò)誤的概率是0.這種情況下,兩論文之間的差異太大了,比較中不可能產(chǎn)生錯(cuò)誤。錯(cuò)誤判斷概率的取值范圍介于.01P到.17P之間,代表了現(xiàn)實(shí)中的情況兩份論文越接近,評閱人個(gè)人的風(fēng)格偏好更可能影響到論文的排序。相似地,兩份論文相差越遠(yuǎn),評閱人的偏好更不容易影響到它們之間的比較結(jié)果。

12、結(jié)論總評閱次數(shù)不包括評閱組長給出的裁判,總評閱次數(shù)為第一項(xiàng)為中的評閱次數(shù),第二項(xiàng)是從到,第三項(xiàng)是的評閱次數(shù)(見附錄A)。評閱人數(shù)該模型要求有五位評閱人,包括評閱組長。模型可以應(yīng)用于所有J4的情況,但存在一個(gè)最優(yōu)評閱人數(shù)使每位評閱人評閱的最大次數(shù)最小化。改最有評閱人數(shù)等于且不包括評閱組長在內(nèi)。需要所有Jo個(gè)評閱人,需要一半,需要四分之一,如此類推。我們在第一輪以及后面的某一輪需要每一位評閱員,使得每位的評閱次數(shù)接近相等(見附錄A)。最大化每位評閱人的評閱次數(shù)如果,每位的最大評閱次數(shù)為如果,最大評閱次數(shù)可以變得非常大,甚至不合理的大。這種情況下,J位評閱人里的某些人會(huì)被要求在第一輪看多于兩堆的論文

13、。他們會(huì)不得不評閱超過40份論文甚至可能更多,因?yàn)榈诙喓徒酉聛韼纵嗊€沒開始。若已確定,那么J必須接近Jo否則很多評閱人會(huì)不愉快。模型的檢驗(yàn)我們用C語言實(shí)現(xiàn)該模型,并需要幾個(gè)次要的假定(見附錄B)。接著我們對變量組合P和W進(jìn)行測試,并總是使用最優(yōu)評閱人數(shù)Jo。我們對表1里的每種情況重復(fù)測試了10000次。測試數(shù)據(jù)返回的平均錯(cuò)誤率為0.0023%。表1:論文總數(shù)P和優(yōu)勝論文篇數(shù)W組合,對每個(gè)組合重復(fù)測試了10000次評閱人最大評閱次數(shù)總評閱次數(shù)失敗率該模型是可行的,它每人最大評閱次數(shù)和總次數(shù)上符合原則,最重要的是它使最終的W分論文包含在選出的2W份最佳論文里。微小的錯(cuò)誤率產(chǎn)生于人為因素。在涉及人

14、為因素的問題中,總是會(huì)有意外狀況發(fā)生。模型的優(yōu)缺點(diǎn)優(yōu)點(diǎn)l 模型失敗的概率十分低,通常低于0.1%。l 模型把人為錯(cuò)失情況考慮在內(nèi)。l 所有的評閱都是由直接比較產(chǎn)生,至少由兩位評閱人決定一份論文晉級。評閱過程不涉及分?jǐn)?shù)評價(jià),這樣不會(huì)產(chǎn)生評閱人對評分等級的偏向性,同時(shí),由于評閱人的錯(cuò)誤判斷導(dǎo)致無價(jià)值的論文晉級的機(jī)率降低。l 對于解決給出的原始問題(P = 100, W =3, 且 J =8),我們的模型有非常好的表現(xiàn)(見圖2)。每次的失敗率僅為0.08%,并且把每位評閱人的評閱次數(shù)限制在32次里(總論文數(shù)的1/3),總評閱次數(shù)限制在254次。l 最重要的是,該模型應(yīng)用在我們這次1996年的MCM比

15、賽的論文評論中會(huì)很合適。模型是公平的,最佳的數(shù)份論文實(shí)際上總能在比賽中勝出。缺點(diǎn)l 該模型有明確的有效范圍。我們設(shè)置了一位評閱人一次能連續(xù)評閱20份論文這個(gè)范圍。在第一輪結(jié)束后,評閱人們將在接下來的每輪評閱2W份論文。這樣,優(yōu)勝者的數(shù)量必須少于或等于10。若允許設(shè)置總論文數(shù)的2%成為優(yōu)勝者的話,論文總數(shù)須小于或等于500.對P很大的情況,一個(gè)可行的解決方案是將整個(gè)比賽分成每份少于500份論文的兩部分,然后用該模型對每部分進(jìn)行操作。l 我們不得不把復(fù)雜的人為因素考慮在內(nèi)?;谇€而得出的數(shù)據(jù)是我們對人性能做的最大程度的估計(jì)。我們沒有能反映人們在這些情況下的實(shí)際行為的數(shù)據(jù)可供參考。我們所做的所有測

16、試以及結(jié)果的正確性都是基于“我們的方程能真實(shí)代表現(xiàn)實(shí)世界的狀況”這一假設(shè)的。如果進(jìn)一步研究表明該方程不準(zhǔn)確,我們可以方便地把原方程修改為一個(gè)新方程。附錄A:依據(jù)及證明中間輪共有n-2輪每一輪中,恰好有分論文晉級到下一輪,其中。由于相繼的下一輪中的堆數(shù)都是前一輪的一半,新的每一輪都有W份論文。當(dāng)僅剩下2W份論文時(shí),進(jìn)行最后一輪。最后一輪中,或,即n=r,總輪數(shù)為n,包括第一輪和最后一輪。因此中間輪共有n-2輪。每堆3份每堆6份第2輪第3輪圖2:在原始設(shè)定P=100,W=3,J=8下,模型的操作簡圖總評閱次數(shù)在第一輪,每份論文被評閱了兩次,產(chǎn)生了2P次評閱次數(shù)。在中間輪,對每輪有W份一堆的論文堆。

17、每一堆被評閱了兩次,在該n-2輪里產(chǎn)生次評閱次數(shù)。輪有5位評閱人,每位都評閱了最后的2W份論文。如此,所有輪中所產(chǎn)生的總評閱次數(shù)為最優(yōu)評閱人數(shù)Jo的設(shè)定依據(jù)我們希望每位評閱人評閱的論文數(shù)大致相等。在第一輪滿足了這一條(可能當(dāng)論文不能平均分配到每堆時(shí),某些評閱人會(huì)額外多評閱一份論文)。在每一相繼的輪里,每位評閱人評閱的論文數(shù)為2W.如果評閱人數(shù)為2n,每位評閱人能保證剛好評閱兩輪。在每一相繼輪,需要的評閱人數(shù)較上一輪減半。這樣,在倒數(shù)第二輪總會(huì)有4位評閱人,留下4位評閱人還需要評閱第二次?。這四位評閱人加上評閱組長共5位共同評閱最終輪。如果使用了Jo位評閱人,由于每位評閱人參與了第一輪和后面某一輪的評閱,他們每位評閱了幾乎同樣數(shù)量的論文。每位評閱人最大評閱量如果,每位評閱人恰好參與了兩輪:第一輪,大約份論文,以及某一中間輪或最后一輪,2W份論文。于是,最大評閱量為如果,一些評閱人僅參與一輪評閱。只要,至少一位評閱人要參與兩輪評閱,所以最大評閱量跟上述情況相同。如果,一些評閱人在第一輪需評閱超

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論