版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
客戶回復(fù)預(yù)測(cè)與效益最大化(浙江大學(xué)數(shù)學(xué)科學(xué)學(xué)院代成雷學(xué)號(hào):21435068)1.問題描述這個(gè)案例中,數(shù)據(jù)來自于KDDCup1998的競(jìng)賽。附件給出了大約481個(gè)變量,每個(gè)變量9萬(wàn)多條記錄。問題描述如下:通過給出的數(shù)據(jù)集,來估計(jì)一個(gè)直郵的回復(fù)量,以便獲得最大的捐款額。為了提高募捐效率,我們使用數(shù)據(jù)挖掘技術(shù)來優(yōu)化客戶的選擇。基于預(yù)測(cè)得分對(duì)客戶進(jìn)行排名,使得捐款的數(shù)額最大化。提供的附件學(xué)習(xí)數(shù)據(jù)集:cupxiaobeilrn.csv包含95412條記錄,481個(gè)字段。驗(yàn)證數(shù)據(jù)集cupxiaobeival.csv包含96367條記錄,479個(gè)字段。每一個(gè)記錄都包含一個(gè)CONTROLN字段作為唯一的標(biāo)識(shí)符。學(xué)習(xí)集中有兩個(gè)目標(biāo)變量:TARGET_B和TARGET_D.TARGET_B是一個(gè)二進(jìn)制變量,表示TARGET_D有捐款時(shí),該條記錄是否對(duì)郵件做了回復(fù)。2數(shù)據(jù)的處理和分析2.1目標(biāo)變量的分析和變量篩選通過簡(jiǎn)單的統(tǒng)計(jì),我們發(fā)現(xiàn)TARGET_B郵件回復(fù)情況,其中回復(fù)的比例約為5.1%。從中發(fā)現(xiàn)大多數(shù)是沒有捐贈(zèng)行為的,這些樣本我們稱之為負(fù)樣本。圖1郵件回復(fù)情況接下來,我們查看捐款數(shù)額大于0的記錄,分析其捐款數(shù)額(單位是美元),繪制條形圖,從中發(fā)現(xiàn)大部分客戶的捐款數(shù)額不超過25美元,但都是5的倍數(shù)。圖2捐款數(shù)額盒圖和條形圖基于以上的分析,使用函數(shù)cut()將變量TARGET_D分解,并生成一個(gè)新的變量TARGET_D2。其中right=F表示區(qū)間為左閉右開。有些變量需要?jiǎng)h除,因?yàn)闆]有可變信息。經(jīng)過檢查和考慮后,預(yù)測(cè)模型主要的變量分為:人口統(tǒng)計(jì)信息(捐贈(zèng)者第一次捐款日期,最初郵件列表,是否參加俱樂部,捐款額度,經(jīng)濟(jì)情況等),歷史信息(皇家空軍的地位,推廣歷史的匯總,捐贈(zèng)歷史的匯總),ID和目標(biāo),其他信息,如最近/頻繁/捐贈(zèng)額度等。2.2數(shù)據(jù)探索一般,數(shù)據(jù)探索需要分析3個(gè)步驟。第一是單變量分布,了解是否是缺失和離群點(diǎn)。第二查看因變量與自變量的關(guān)系,用于特征分析。第三是查看預(yù)測(cè)變量之間的關(guān)系,以便去除冗余。首先,查看數(shù)值型變量分布情況。從下面的盒圖可以看到,有小部分的值與大部分的HIT值遠(yuǎn)遠(yuǎn)分開,這些值全是240或241.因?yàn)闊o(wú)法判斷是否是離群點(diǎn)需要?jiǎng)h除,我們采用重構(gòu)數(shù)據(jù)的方法,利用中位數(shù)進(jìn)行替換。圖3HIT的盒圖我們需要查看捐贈(zèng)者年齡分布情況。發(fā)現(xiàn)年齡在30-60歲的人群平均捐款金額比其他年齡高,這個(gè)不足為奇。同時(shí)捐贈(zèng)者在不同年齡上有差異,結(jié)果如下,其中J代表共同賬戶。圖4捐贈(zèng)者在不同性別分組的分布情況可以使用函數(shù)cor()查看目標(biāo)變量與其他數(shù)值型變量的相關(guān)系數(shù)。由于數(shù)據(jù)眾多,這里不展示。對(duì)于分類變量,我們使用卡方檢驗(yàn)來查看變量之間的關(guān)聯(lián),如下:圖5分類變量的馬賽克圖經(jīng)過以上的分析,我們將原有的變量精簡(jiǎn)到29個(gè)。下面采用決策樹進(jìn)行分析。3決策樹的創(chuàng)建和建模 主要使用R中party包創(chuàng)建一棵決策樹。其中的一些參數(shù)MinSplit,MinBucket,MaxSurrogate,MaxDepth用來控制決策樹的訓(xùn)練,初始值分別為1000,400,4,10。對(duì)于數(shù)據(jù)集,我們將70%進(jìn)行訓(xùn)練,30%進(jìn)行測(cè)試,隨機(jī)選擇數(shù)據(jù)集,并重復(fù)進(jìn)行分析和測(cè)試9次,從中將訓(xùn)練出來的決策樹進(jìn)行對(duì)比。主要調(diào)用的程序如下:myCtree<-ctree(TARGET_D.,data=trainData,controls=ctree_control(minsplit=MinSplit,minbucket=MinBucket,Maxsurrogate=MaxSurrogate,Maxdepth=MaxDepth))將每次運(yùn)行結(jié)果進(jìn)行保存,下面是運(yùn)行出來的決策樹:圖6決策樹經(jīng)過9次運(yùn)行結(jié)果發(fā)現(xiàn),第7次結(jié)果較好。在決策樹模型中,按照預(yù)測(cè)的客戶捐款數(shù)額的降序?qū)ζ溥M(jìn)行排序。我們發(fā)現(xiàn),每一個(gè)通過接觸的客戶的平均卷額數(shù)額在圖表左側(cè)比較多,隨著接觸客戶增多,每一個(gè)客戶平均捐款減少,因此,建立的預(yù)測(cè)模型能有效從客戶排名中獲得捐款最多的客戶。圖79次運(yùn)行平均結(jié)果4決策樹的選取和評(píng)價(jià) 我們使用不同的參數(shù)來測(cè)試生成的決策樹,每一組設(shè)置運(yùn)行9次得到的平均結(jié)果進(jìn)行保存。參數(shù)有4個(gè)類型,parameters<-c("200-50-4-10","1000-400-4-6","1000-400-4-8","1000-400-4-10")圖8不同參數(shù)設(shè)置最后使用驗(yàn)證數(shù)據(jù)集進(jìn)行評(píng)價(jià)。對(duì)于預(yù)測(cè)捐款數(shù)額大于0.68(聯(lián)系成本)的客戶,將向其發(fā)送郵件已便籌集捐款,評(píng)估標(biāo)準(zhǔn)是總的捐款數(shù)額扣除所有的郵件成本。需要注意的是,樣本集的格式必須保持一致,需要評(píng)分的數(shù)據(jù)準(zhǔn)備好了以后,就是對(duì)這些數(shù)據(jù)進(jìn)行預(yù)測(cè)。圖9驗(yàn)證結(jié)果從上圖可以看到,預(yù)測(cè)得到的捐款總額是11996美元。和真實(shí)結(jié)比較接近。5討論和總結(jié) 我們發(fā)現(xiàn),由于捐款客戶所占的百分比只有5%,而大多數(shù)客戶是沒有捐款的,通過平衡正負(fù)樣本可以來平衡數(shù)據(jù)。其次,我們可以將問題分解,第一階段是預(yù)測(cè)捐款的可能性,第二是預(yù)測(cè)有條件的捐款數(shù)額,可以得到一個(gè)無(wú)條件的捐款數(shù)額。第三,將多種
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年幼兒園副園長(zhǎng)年度工作總結(jié)
- 2025年三級(jí)攝影(攝像)師考試題庫(kù)及完整答案
- 河道治理及生態(tài)修復(fù)工程施工方案與技術(shù)措施
- 醫(yī)療服務(wù)2026年特色發(fā)展
- 2026年銷售技巧提升培訓(xùn)課程
- 2026 年民政局離婚協(xié)議書正規(guī)模板含全部核心條款
- 2026 年離婚協(xié)議書合規(guī)制式模板
- 2026 年法定化離婚協(xié)議書規(guī)范模板
- 房地產(chǎn)融資公司年終總結(jié)(3篇)
- 2026痤瘡護(hù)理常規(guī)試題及答案
- 十五五規(guī)劃綱要解讀:循環(huán)經(jīng)濟(jì)模式推廣
- 2026年殘疾人聯(lián)合會(huì)就業(yè)服務(wù)崗招聘筆試適配題含答案
- 2026年山西警官職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考題庫(kù)帶答案解析
- 2026年農(nóng)夫山泉-AI-面試題目及答案
- 2026凱翼汽車全球校園招聘(公共基礎(chǔ)知識(shí))綜合能力測(cè)試題附答案
- 山東省威海市環(huán)翠區(qū)2024-2025學(xué)年一年級(jí)上學(xué)期1月期末數(shù)學(xué)試題
- 2025年手術(shù)室護(hù)理實(shí)踐指南知識(shí)考核試題及答案
- 外貿(mào)公司采購(gòu)專員績(jī)效考核表
- 彩禮分期合同范本
- 胸腺瘤伴重癥肌無(wú)力課件
- 十五五安全生產(chǎn)規(guī)劃思路
評(píng)論
0/150
提交評(píng)論