大數(shù)據(jù)挖掘作業(yè)_第1頁
大數(shù)據(jù)挖掘作業(yè)_第2頁
大數(shù)據(jù)挖掘作業(yè)_第3頁
大數(shù)據(jù)挖掘作業(yè)_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、實(shí)用標(biāo)準(zhǔn)文案數(shù)據(jù)挖掘的第二次作業(yè)1.下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成,數(shù)據(jù)已泛化。例如,年齡“3135”表示31至IJ 35的之間。對于給定的行,count表示department, status, age 和salary 在該行上具有給定值的元組數(shù)。status 是類標(biāo)號屬性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior263026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5syst

2、emsjunior26.3046K.50K3systemssenior414566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本決策樹算法,以便考慮每個廣義數(shù)據(jù)元組(即每個行)的count。Status 分為2個部分:Senior共U 52Junior共 U 113MarketingDepartment分為4個部分:Sales共計(jì)110Systems共 U31Mf- 14Secretary

3、共 U 10Age分為6個部分:Salary分為6各部分:21-2592026K30K4626-304931K35K4031-357936K40K436-401041K45K441-45346K50K6346 一50466K70K8精彩文檔位位位由以上的計(jì)算知按信息增益從大到小對屬性排列依次為:salary、age、department ,所以定salary作為第一層,之后剩下的數(shù)據(jù)如下:departmentstatusagesalarycountsalessenior313546K.50K30systemsjunior21.2546K.50K20systemsjunior26.3046K.5

4、0K3marketingsenior364046K.50K10由這個表可知 department和age的信息增益將都為 0。所以第二層可以為age也可以為department 。2)構(gòu)造給定數(shù)據(jù)的決策樹。由上一小問的計(jì)算所構(gòu)造的決策樹如下:Age3)給定一個數(shù)據(jù)元組,它在屬性department, age和salary 上的值分別為"systems",“2630”和“ 4650K ”。該元組status的樸素貝葉斯分類結(jié)果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department

5、=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=26 30|status=senior)=1/52=0.0192P(age=26 30|status=junior)=49/113=0.4336P(salary=46K 50K|status=senior)=40/52=0.7692P(salary=46K 50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=system

6、s|status=senior)*P(age=2630|status=senior)* P(salary=46K 50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|status=junior)* P(salary=46K 50K|status= junior)=0.0180P(X|status=senior)* P(status=senior尸 7.2496e-004P(X|status=junior)* P(status=junior)=0.0123因此,對于元

7、組 X,樸素貝葉斯分類預(yù)測元組X的類為status=junior2.運(yùn)用決策樹或者貝葉斯算法,對鶯尾花數(shù)據(jù)集進(jìn)行分類,顯示分類結(jié)果。(可以采用Weka工具或者其他方法)在weka上運(yùn)用決策樹算法對鶯尾花數(shù)據(jù)集進(jìn)行分類,分類結(jié)果如下圖所示:petatwidih0 6'> 0.6'iris-setosa (50X),<= 4 9''lri-5-virginica (3P0)i Iris-versicolor (3.0/1.0)在weka上運(yùn)用貝葉斯算法對鶯尾花數(shù)據(jù)進(jìn)行分類,結(jié)果的具體情況如下:R-y K 匚:i F1cL國4m4亡亡 N t bu 七 u

8、It xs set os a.工 £ 工與一Uarni-a dJ. 0 工I.E"x 3ar-gr 工Ti3,uo(0 +33、<0.3.3)td33 isc*pn 11 encjrhmean1.9913& 937-9后 S79Sntii+ dw- + ?550 .5042-53we tl g"h"t sumSO二0£口,pz-e elsicn . L.OS 9 IQS 9Q . AQ59日藝口看lwi<iThmac3 » 401S2 .7«872號七 cL 曰" W 40. 992 50 .

9、03©0 .,3OBSweight mjmSO£CS0)E>x-e q X w J_ dzi LD 1n.1OSJLO.XO9XQ七七占T:L亡UL口再ELme tiiJi1.4fi44 .24S25 .SS1«三(.d, idiev *0 B 17620,4 7130«SS39w? ighT- num&050口P5匚工目。口G0.14050 i14050 + 1405口二 tz-n 1 w idttiirA- a n0,N力431 .,口343三電疝占 aww一 .工。鄉(xiāng)En.iais鼠二E"Mel.bhF Bum&0soBOprftcloalQn . L1 4 3X 14 30,1143Sunnary Correctly Classified In.5t*nces144兆考Incarretlv Classii5i liistances64%Kappa statistic0.94Mean absolute error0-Q342Rost ne an scared error-0.155Relative absolute error?,6997 %Root reldtlve uarel rcr32

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論