統(tǒng)計(jì)推斷方法project-代成雷-21435068_第1頁(yè)
統(tǒng)計(jì)推斷方法project-代成雷-21435068_第2頁(yè)
統(tǒng)計(jì)推斷方法project-代成雷-21435068_第3頁(yè)
統(tǒng)計(jì)推斷方法project-代成雷-21435068_第4頁(yè)
統(tǒng)計(jì)推斷方法project-代成雷-21435068_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

客戶回復(fù)預(yù)測(cè)與效益最大化(浙江大學(xué)數(shù)學(xué)科學(xué)學(xué)院代成雷學(xué)號(hào):21435068)1.問題描述這個(gè)案例中,數(shù)據(jù)來自于KDDCup1998的競(jìng)賽。附件給出了大約481個(gè)變量,每個(gè)變量9萬(wàn)多條記錄。問題描述如下:通過給出的數(shù)據(jù)集,來估計(jì)一個(gè)直郵的回復(fù)量,以便獲得最大的捐款額。為了提高募捐效率,我們使用數(shù)據(jù)挖掘技術(shù)來優(yōu)化客戶的選擇。基于預(yù)測(cè)得分對(duì)客戶進(jìn)行排名,使得捐款的數(shù)額最大化。提供的附件學(xué)習(xí)數(shù)據(jù)集:cupxiaobeilrn.csv包含95412條記錄,481個(gè)字段。驗(yàn)證數(shù)據(jù)集cupxiaobeival.csv包含96367條記錄,479個(gè)字段。每一個(gè)記錄都包含一個(gè)CONTROLN字段作為唯一的標(biāo)識(shí)符。學(xué)習(xí)集中有兩個(gè)目標(biāo)變量:TARGET_B和TARGET_D.TARGET_B是一個(gè)二進(jìn)制變量,表示TARGET_D有捐款時(shí),該條記錄是否對(duì)郵件做了回復(fù)。2數(shù)據(jù)的處理和分析2.1目標(biāo)變量的分析和變量篩選通過簡(jiǎn)單的統(tǒng)計(jì),我們發(fā)現(xiàn)TARGET_B郵件回復(fù)情況,其中回復(fù)的比例約為5.1%。從中發(fā)現(xiàn)大多數(shù)是沒有捐贈(zèng)行為的,這些樣本我們稱之為負(fù)樣本。圖1郵件回復(fù)情況接下來,我們查看捐款數(shù)額大于0的記錄,分析其捐款數(shù)額(單位是美元),繪制條形圖,從中發(fā)現(xiàn)大部分客戶的捐款數(shù)額不超過25美元,但都是5的倍數(shù)。圖2捐款數(shù)額盒圖和條形圖基于以上的分析,使用函數(shù)cut()將變量TARGET_D分解,并生成一個(gè)新的變量TARGET_D2。其中right=F表示區(qū)間為左閉右開。有些變量需要?jiǎng)h除,因?yàn)闆]有可變信息。經(jīng)過檢查和考慮后,預(yù)測(cè)模型主要的變量分為:人口統(tǒng)計(jì)信息(捐贈(zèng)者第一次捐款日期,最初郵件列表,是否參加俱樂部,捐款額度,經(jīng)濟(jì)情況等),歷史信息(皇家空軍的地位,推廣歷史的匯總,捐贈(zèng)歷史的匯總),ID和目標(biāo),其他信息,如最近/頻繁/捐贈(zèng)額度等。2.2數(shù)據(jù)探索一般,數(shù)據(jù)探索需要分析3個(gè)步驟。第一是單變量分布,了解是否是缺失和離群點(diǎn)。第二查看因變量與自變量的關(guān)系,用于特征分析。第三是查看預(yù)測(cè)變量之間的關(guān)系,以便去除冗余。首先,查看數(shù)值型變量分布情況。從下面的盒圖可以看到,有小部分的值與大部分的HIT值遠(yuǎn)遠(yuǎn)分開,這些值全是240或241.因?yàn)闊o(wú)法判斷是否是離群點(diǎn)需要?jiǎng)h除,我們采用重構(gòu)數(shù)據(jù)的方法,利用中位數(shù)進(jìn)行替換。圖3HIT的盒圖我們需要查看捐贈(zèng)者年齡分布情況。發(fā)現(xiàn)年齡在30-60歲的人群平均捐款金額比其他年齡高,這個(gè)不足為奇。同時(shí)捐贈(zèng)者在不同年齡上有差異,結(jié)果如下,其中J代表共同賬戶。圖4捐贈(zèng)者在不同性別分組的分布情況可以使用函數(shù)cor()查看目標(biāo)變量與其他數(shù)值型變量的相關(guān)系數(shù)。由于數(shù)據(jù)眾多,這里不展示。對(duì)于分類變量,我們使用卡方檢驗(yàn)來查看變量之間的關(guān)聯(lián),如下:圖5分類變量的馬賽克圖經(jīng)過以上的分析,我們將原有的變量精簡(jiǎn)到29個(gè)。下面采用決策樹進(jìn)行分析。3決策樹的創(chuàng)建和建模 主要使用R中party包創(chuàng)建一棵決策樹。其中的一些參數(shù)MinSplit,MinBucket,MaxSurrogate,MaxDepth用來控制決策樹的訓(xùn)練,初始值分別為1000,400,4,10。對(duì)于數(shù)據(jù)集,我們將70%進(jìn)行訓(xùn)練,30%進(jìn)行測(cè)試,隨機(jī)選擇數(shù)據(jù)集,并重復(fù)進(jìn)行分析和測(cè)試9次,從中將訓(xùn)練出來的決策樹進(jìn)行對(duì)比。主要調(diào)用的程序如下:myCtree<-ctree(TARGET_D.,data=trainData,controls=ctree_control(minsplit=MinSplit,minbucket=MinBucket,Maxsurrogate=MaxSurrogate,Maxdepth=MaxDepth))將每次運(yùn)行結(jié)果進(jìn)行保存,下面是運(yùn)行出來的決策樹:圖6決策樹經(jīng)過9次運(yùn)行結(jié)果發(fā)現(xiàn),第7次結(jié)果較好。在決策樹模型中,按照預(yù)測(cè)的客戶捐款數(shù)額的降序?qū)ζ溥M(jìn)行排序。我們發(fā)現(xiàn),每一個(gè)通過接觸的客戶的平均卷額數(shù)額在圖表左側(cè)比較多,隨著接觸客戶增多,每一個(gè)客戶平均捐款減少,因此,建立的預(yù)測(cè)模型能有效從客戶排名中獲得捐款最多的客戶。圖79次運(yùn)行平均結(jié)果4決策樹的選取和評(píng)價(jià) 我們使用不同的參數(shù)來測(cè)試生成的決策樹,每一組設(shè)置運(yùn)行9次得到的平均結(jié)果進(jìn)行保存。參數(shù)有4個(gè)類型,parameters<-c("200-50-4-10","1000-400-4-6","1000-400-4-8","1000-400-4-10")圖8不同參數(shù)設(shè)置最后使用驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)價(jià)。對(duì)于預(yù)測(cè)捐款數(shù)額大于0.68(聯(lián)系成本)的客戶,將向其發(fā)送郵件已便籌集捐款,評(píng)估標(biāo)準(zhǔn)是總的捐款數(shù)額扣除所有的郵件成本。需要注意的是,樣本集的格式必須保持一致,需要評(píng)分的數(shù)據(jù)準(zhǔn)備好了以后,就是對(duì)這些數(shù)據(jù)進(jìn)行預(yù)測(cè)。圖9驗(yàn)證結(jié)果從上圖可以看到,預(yù)測(cè)得到的捐款總額是11996美元。和真實(shí)結(jié)比較接近。5討論和總結(jié) 我們發(fā)現(xiàn),由于捐款客戶所占的百分比只有5%,而大多數(shù)客戶是沒有捐款的,通過平衡正負(fù)樣本可以來平衡數(shù)據(jù)。其次,我們可以將問題分解,第一階段是預(yù)測(cè)捐款的可能性,第二是預(yù)測(cè)有條件的捐款數(shù)額,可以得到一個(gè)無(wú)條件的捐款數(shù)額。第三,將多種

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論