基于案例學(xué)習(xí)數(shù)據(jù)挖掘-第十周_第1頁
基于案例學(xué)習(xí)數(shù)據(jù)挖掘-第十周_第2頁
基于案例學(xué)習(xí)數(shù)據(jù)挖掘-第十周_第3頁
基于案例學(xué)習(xí)數(shù)據(jù)挖掘-第十周_第4頁
基于案例學(xué)習(xí)數(shù)據(jù)挖掘-第十周_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于案例學(xué)習(xí)數(shù)據(jù)挖掘 第十周DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)基于案例學(xué)習(xí)數(shù)據(jù)挖掘 第一版講師法律【】和幻燈片為煉數(shù)成金網(wǎng)絡(luò)課程的教學(xué)資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被責(zé)任。法律和經(jīng)濟(jì)課程詳情煉數(shù)成金培訓(xùn)http:DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)基于案例學(xué)習(xí)數(shù)據(jù)挖掘 第一版講師煉數(shù)成金逆向式網(wǎng)絡(luò)課程Dataguru(煉數(shù)成金)是專業(yè)數(shù)據(jù)分析,提供教育,內(nèi)容,社區(qū),數(shù)據(jù)分析業(yè)務(wù)等服務(wù)。的課程采用新興的互聯(lián)網(wǎng)教育形式,獨(dú)創(chuàng)地發(fā)展了逆向收費(fèi)式網(wǎng)絡(luò)培訓(xùn)課程模式。既繼承傳統(tǒng)教育重學(xué)習(xí)氛圍,重競爭壓力的特點(diǎn),同時(shí)又發(fā)揮互聯(lián)網(wǎng)的打破時(shí)空限制,把天南地北志同道合的朋友組織在一起

2、交流學(xué)習(xí),使到原先孤立的學(xué)習(xí)組有組織的探索力量。并且把原先動(dòng)輒成千上萬的學(xué)習(xí)成本,直線下降至百元范圍,造福大眾。中國第一的網(wǎng)上知識(shí)流轉(zhuǎn)陣地。的目標(biāo)是:低成本高價(jià)值知識(shí),構(gòu)架關(guān)于逆向式網(wǎng)絡(luò)的看的培訓(xùn)http:DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)基于案例學(xué)習(xí)數(shù)據(jù)挖掘 第一版講師挖掘案例背景背景示意 試用意愿最高的前挖掘案例背景20%客戶挖掘案例背景篩選全體用戶意愿全體客戶個(gè)人信息和個(gè)人信息的規(guī)律金融衍生品部門 新上線了一款金融 產(chǎn)品,而銷售方式為直接電郵,考慮到多數(shù)用戶可能不會(huì)對(duì) 產(chǎn)品感 ,所以銷售目標(biāo)為用戶群中對(duì)產(chǎn)品 度最高的前20%用戶數(shù)據(jù)簡述一般情況下,認(rèn)為,基于對(duì)客戶的研究,那么首先你要有一質(zhì)

3、量的客戶信息表(缺失少且有效字段多),該案例中客戶表的信息量尚可,可以作為標(biāo)準(zhǔn);日期對(duì)照表是每一個(gè)數(shù)據(jù)挖掘案例都必須準(zhǔn)備的表,不再贅述;賬號(hào)信息表中月費(fèi)和透支額度可數(shù)據(jù)表有效字段在一定程度作為用戶的;交易信息表中客戶表、職業(yè)、生日、收入交易金額是給用戶貼上最重要的一個(gè)的日期對(duì)照表日期的各種轉(zhuǎn)化形式 字段,即用戶和未用戶;賬號(hào)信息表賬號(hào)類型,月費(fèi)、透支額度等總體評(píng)價(jià):該數(shù)據(jù)源較為詳細(xì)地給出客戶賬戶-交易的產(chǎn)品線總信息,數(shù)據(jù)質(zhì)量較好交易信息表交易類型、交易日期、交易金額數(shù)據(jù)簡述數(shù)據(jù)包括表、日期對(duì)照表、賬號(hào)信息表、交易信息表。這四張表最后整 一個(gè)初級(jí)數(shù)據(jù)挖掘表,也叫數(shù)據(jù)寬表,大體意思是將客戶的有用信

4、息都完全包括的一個(gè)表數(shù)據(jù)評(píng)價(jià)數(shù)據(jù)源描述數(shù)據(jù)初表查看和加工數(shù)據(jù)初表有23個(gè)維度,其中包括性將Family_sus(家庭狀態(tài)) 和e別、收入、職業(yè)、家庭狀態(tài)、平均賬戶時(shí)長,以及一些初級(jí)加工的字段;(收入)進(jìn)行缺失值替換,家庭狀態(tài)替換為未知(unknown),e替換為0;樣本量為2385,其中用戶為184人,非2201,注意,這是將離散成6個(gè)階段的新變量;一個(gè)典型的需要進(jìn)行精準(zhǔn)挖掘的將將變量;相關(guān)變量離散成5個(gè)類別的名義變量;二分類比例;包含變量在內(nèi)共有5個(gè)維度為名e進(jìn)行離散,離散成3個(gè)類別的名義義型變量,其余為數(shù)值型;客戶ID為挖掘模型中的ID角色; 在初表中,有些字段是通過簡單的四則運(yùn)算或者條件

5、判斷生成的將用戶使用年限離散成4個(gè)類別的名義變量;將刪除某些各別值占總體量99%以上的變量數(shù)據(jù)初表查看和加工數(shù)據(jù)初表加工元數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)終表和權(quán)重優(yōu)化 般情況下會(huì)作為連接挖掘模型的數(shù)據(jù)表,數(shù)據(jù)終表和權(quán)重優(yōu)化精準(zhǔn)度結(jié)果決策樹文字截圖這個(gè)表的質(zhì)量很大程度上決定了挖掘結(jié)果好壞針對(duì)分類任務(wù)中,各類別分布不均勻造成的影響,會(huì)使用權(quán)重優(yōu)化,使得每個(gè)類別樣本都被賦予特定的權(quán)重?cái)?shù)據(jù)終表在初表處理后成型,這個(gè)表一權(quán)重優(yōu)化數(shù)據(jù)終表分類任務(wù)中的數(shù)據(jù)平衡一般的數(shù)據(jù)挖掘任務(wù)中,如果是進(jìn)行二元分類任務(wù),那么往往會(huì)存在數(shù)據(jù)嚴(yán)重不均衡的情況,過于不均衡的類別分配使得幾乎所有分類算法都徒勞無功,在這個(gè)問題中,解決辦法往往有三

6、個(gè);第一,將數(shù)據(jù)進(jìn)行平衡,對(duì)比例高的類別進(jìn)行篩選,讓兩類別盡量接近第二,將分類判定的概率閾值修改,修改閾值可以改變分類的歸屬,從而改變最終結(jié)果中兩類別的比例;第三,如果可以的話,將分類任務(wù)變?yōu)橛?jì)算概率,即變成回歸問題,將每個(gè)樣本屬于類別的概率模擬出來,這樣,就可以較為準(zhǔn)確地利用這個(gè)概率做最終的決定關(guān)于分類任務(wù)的一點(diǎn)感悟:分類任務(wù)是將樣本進(jìn)行類別上的硬性分配,而實(shí)際上很多樣本是在分配過程中是很模糊的,尤其在概率介于【0.4-0.6】之間的更是容易出現(xiàn)誤判分類任務(wù)中的數(shù)據(jù)平衡平衡數(shù)據(jù)后的圖平衡數(shù)據(jù)后,算法的總體精準(zhǔn)度固然下降,但是算法對(duì)于,這是這個(gè)分類任務(wù)的終極目的,精準(zhǔn)地找出最可能用戶的變得更好

7、了的那個(gè)“客戶群”的一種模擬,圖是針對(duì)模型進(jìn)行的挖掘結(jié)果統(tǒng)計(jì),可以看做針對(duì)體現(xiàn)的是有挖掘指導(dǎo)銷售和無挖掘指導(dǎo)銷售之間的差異圖平衡數(shù)據(jù)后的圖挖掘算力比較挖掘算力比較挖掘算法:如果在數(shù)據(jù)終表完成后,具體挖掘算法的選擇也是一個(gè)大問題ROC曲線:http/view/42249.htm個(gè)人解釋:是一種正類精度對(duì)負(fù)類比的散點(diǎn)圖,體現(xiàn)的是模型以較少樣本預(yù)測出全部正類的能力,是挖掘算法的分類能力的一種直接體現(xiàn)。DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)10剔除已客戶的模型是用完整的用戶信息和得出的規(guī)律,原本該針對(duì)一批新客戶進(jìn)行挖掘運(yùn)算并且進(jìn)行,那么考慮到兩點(diǎn),大膽進(jìn)行了下面的操作,即剔除客戶首先,規(guī)律的應(yīng)用本來是在完全

8、新客戶上,但是此案例中,不是,不符合規(guī)矩,但是,這個(gè)數(shù)據(jù)未必就是銷售完結(jié)的狀態(tài)(口述解釋)其次,對(duì)于已經(jīng)的客戶進(jìn)行,首先要考慮的不是算法的精準(zhǔn)度這些問題,而是產(chǎn)品本身,產(chǎn)品本身是否具有“排他性”,即已經(jīng)的用戶無疑強(qiáng)烈,但是因?yàn)橐呀?jīng)產(chǎn)品,則不會(huì)第二次,對(duì)于的金融產(chǎn)品,理應(yīng)具有排他性,當(dāng)然這里不能給出論斷,這里需要靈活處理在這個(gè)模型中,40%的用戶可能是的銷售目標(biāo),他們具有較大可能產(chǎn)品,但是目前并沒有剔除已客戶修改閾值在這個(gè)案例中,初始的醫(yī)院是找到那未用戶中意愿最高的20%用戶,所以目前的40%比例高了些,這樣把分類的閾值修改的高一些,可以達(dá)到目的默認(rèn)閾值:在分類任務(wù)中,默認(rèn)的分類閾值為0.5,即

9、屬于正類的概率不小于0.5,即被判定為正類,由此可知,提高閾值,可以讓后的正類中正類比例變高,提高效率,同時(shí)也會(huì)讓更少的被判定為正類DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)修改閾值從兩個(gè)角度講,應(yīng)該修改閾值: 首先,默認(rèn)的閾值使得只能挑選出大約40%的用戶,這和目標(biāo)有些差距;第二,模型的建立是通過平衡數(shù)據(jù)得到的,概率偏向于提高正類的概率,所以應(yīng)該修改如何評(píng)價(jià)修改閾值修改閾值后案例挖掘評(píng)價(jià)DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)案例挖掘評(píng)價(jià)這個(gè)案例,大部分挖掘工作都進(jìn)行的很流暢,思路緊湊,但是作為精益求精的數(shù)據(jù)挖掘來講,在算法選擇和參數(shù)優(yōu)化上只是一帶而過,這是這個(gè)案例的一個(gè)遺憾和 ,也就是沒有證明該算法比其他方

10、法優(yōu)秀參數(shù)優(yōu)化算法選擇源數(shù)據(jù),數(shù)據(jù)的來源 不清楚,但是這幾張表還是可以作為標(biāo)準(zhǔn),任何想致力于做數(shù)據(jù)挖掘的企業(yè)和組織,手中的數(shù)據(jù)如果達(dá)不到這個(gè)水準(zhǔn),那么因?yàn)閿?shù)據(jù)質(zhì)量造成的損失不好估量數(shù)據(jù)處理,數(shù)據(jù)處理還是緊貼業(yè)務(wù),對(duì)于相同類型的維度進(jìn)行集中處理的方式值得借鑒挖掘過程,目標(biāo)專注,從始至終的挖掘流程圍繞著如何找出這最可能 的20%用戶展開,并沒有一味地追求準(zhǔn)確度, 率等指標(biāo),這也提醒 ,數(shù)據(jù)挖掘是一個(gè)大工程,要綜合考慮,不要被數(shù)據(jù)牽著鼻子走課程預(yù)告DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)課程預(yù)告這節(jié)課,代表做挖掘的特點(diǎn),也給出一些自己的經(jīng)驗(yàn),在這節(jié)課,可能會(huì)需要結(jié)合數(shù)據(jù)庫來進(jìn)行操作,可以安裝Oracle或者、Sql server等數(shù)據(jù)庫,要通過綜合運(yùn)用來進(jìn)行數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論