數(shù)據(jù)挖掘 戴組 期中報(bào)告 (一)_第1頁(yè)
數(shù)據(jù)挖掘 戴組 期中報(bào)告 (一)_第2頁(yè)
數(shù)據(jù)挖掘 戴組 期中報(bào)告 (一)_第3頁(yè)
數(shù)據(jù)挖掘 戴組 期中報(bào)告 (一)_第4頁(yè)
數(shù)據(jù)挖掘 戴組 期中報(bào)告 (一)_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云南大學(xué)軟件學(xué)院期末課程報(bào)告

FinalCourseReport

SchoolofSoftware,YunnanUniversity

個(gè)人成績(jī)

序號(hào)學(xué)號(hào)姓名成績(jī)

1

2

3

4

學(xué)期:2013-2014學(xué)年秋季學(xué)期

課程名稱:數(shù)據(jù)挖掘________________

任課教師:張?jiān)拼篲_________________

實(shí)踐題目:客戶購(gòu)買商品行為分析

小組長(zhǎng):戴志敏___________________

聯(lián)系電話______________

電子郵件:393165774@qq.com

完成提交時(shí)間:2013年12月19日

云南大學(xué)軟件學(xué)院2013-2014學(xué)年上學(xué)期

《數(shù)據(jù)挖掘》期末大作業(yè)成績(jī)考核表

年級(jí):專業(yè):學(xué)號(hào):姓名:

本人所做工作:____________________________________________________________

指標(biāo)內(nèi)容分值指標(biāo)內(nèi)涵及評(píng)估標(biāo)準(zhǔn)得分

技術(shù)路線的可行合理可行,具體不夠合理或不

15合理可行,具體基本合理可行

程度且有創(chuàng)新夠具體

程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思

程序或系統(tǒng)設(shè)計(jì)

20非常清晰、運(yùn)行基本清晰、運(yùn)行清晰、環(huán)境配置路不清晰,程序

思路

正確正確錯(cuò)誤無法運(yùn)行無法運(yùn)行

達(dá)到預(yù)期目標(biāo)的

15完全達(dá)到基本達(dá)到無法預(yù)見未能達(dá)到

程度

雉度很大,超出難度較大,達(dá)到難度一般,達(dá)到

項(xiàng)目完成的技術(shù)難度小,很容易

10一般本科生要求本科畢業(yè)論文水普通課程要求水

水平(個(gè)人)實(shí)現(xiàn)

水平平平

小組成員的工作高出平均要求工

高出平均要求工達(dá)到平均要求工低于平均要求

量(每個(gè)人分別打5作量的15%以

作量作星:的工作量

分)I-.

很強(qiáng)的團(tuán)隊(duì)合作合作不好,各自

團(tuán)隊(duì)合作情況5合作情況良好合作情況一般

粘神為政

5報(bào)告非常完整報(bào)告比較完整完整程度?般報(bào)告不完整

5邏輯結(jié)構(gòu)清晰邏輯組織較好邏輯組織一般邏輯不清

5內(nèi)容非常豐富內(nèi)容較豐富內(nèi)容一般內(nèi)容欠缺

報(bào)告撰寫質(zhì)量(總

文字表達(dá)差,意

分:30分)5文字表達(dá)非常好文字表達(dá)較好文字表達(dá)一般

思不明了

圖表制作非常專圖件制作效果

5圖件制作良好圖件制作一般

業(yè)化差

5整體效果優(yōu)秀整體效果良好整體效果一般整體效果差

綜合得分(總分:100

分)

評(píng)語:

任課老師簽名

注:該表每人一份,附在封面之后,小組成員的排列次序與封面一致。

云南大學(xué)軟件學(xué)院2013-2014學(xué)年上學(xué)期

《數(shù)據(jù)挖掘》期末大作業(yè)成績(jī)考核表

年級(jí):2011專業(yè):軟件工程學(xué)號(hào):20111120023姓名:李杰

本人所做工作:____________________________________________________________

指標(biāo)內(nèi)容分值指標(biāo)內(nèi)涵及評(píng)估標(biāo)準(zhǔn)得分

技術(shù)路線的可行合理可行,具體不夠合理或不

15合理可行,具體基本合理可行

程度且有創(chuàng)新夠具體

程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思

程序或系統(tǒng)設(shè)計(jì)

20非常清晰、運(yùn)行基本清晰、運(yùn)行清晰、環(huán)境配置路不清晰,程序

思路

正確正確錯(cuò)誤無法運(yùn)行無法運(yùn)行

達(dá)到預(yù)期目標(biāo)的

15完全達(dá)到基本達(dá)到無法預(yù)見未能達(dá)到

程度

雉度很大,超出難度較大,達(dá)到難度一般,達(dá)到

項(xiàng)目完成的技術(shù)難度小,很容易

10一般本科生要求本科畢業(yè)論文水普通課程要求水

水平(個(gè)人)實(shí)現(xiàn)

水平平平

小組成員的工作高出平均要求工

高出平均要求工達(dá)到平均要求工低于平均要求

量(每個(gè)人分別打5作量的15%以

作量作星:的工作量

分)I-.

很強(qiáng)的團(tuán)隊(duì)合作合作不好,各自

團(tuán)隊(duì)合作情況5合作情況良好合作情況一般

粘神為政

5報(bào)告非常完整報(bào)告比較完整完整程度?般報(bào)告不完整

5邏輯結(jié)構(gòu)清晰邏輯組織較好邏輯組織一般邏輯不清

5內(nèi)容非常豐富內(nèi)容較豐富內(nèi)容一般內(nèi)容欠缺

報(bào)告撰寫質(zhì)量(總

文字表達(dá)差,意

分:30分)5文字表達(dá)非常好文字表達(dá)較好文字表達(dá)一般

思不明了

圖表制作非常專圖件制作效果

5圖件制作良好圖件制作一般

業(yè)化差

5整體效果優(yōu)秀整體效果良好整體效果一般整體效果差

綜合得分(總分:100

分)

評(píng)語:

任課老師簽名

云南大學(xué)軟件學(xué)院2013-2014學(xué)年上學(xué)期

《數(shù)據(jù)挖掘》期末大作業(yè)成績(jī)考核表

年級(jí):專業(yè):學(xué)號(hào):姓名:

本人所做工作:____________________________________________________________

指標(biāo)內(nèi)容分值指標(biāo)內(nèi)涵及評(píng)估標(biāo)準(zhǔn)得分

技術(shù)路線的可行合理可行,具體不夠合理或不

15合理可行,具體基本合理可行

程度且有創(chuàng)新夠具體

程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思

程序或系統(tǒng)設(shè)計(jì)

20非常清晰、運(yùn)行基本清晰、運(yùn)行清晰、環(huán)境配置路不清晰,程序

思路

正確正確錯(cuò)誤無法運(yùn)行無法運(yùn)行

達(dá)到預(yù)期目標(biāo)的

15完全達(dá)到基本達(dá)到無法預(yù)見未能達(dá)到

程度

雉度很大,超出難度較大,達(dá)到難度一般,達(dá)到

項(xiàng)目完成的技術(shù)難度小,很容易

10一般本科生要求本科畢業(yè)論文水普通課程要求水

水平(個(gè)人)實(shí)現(xiàn)

水平平平

小組成員的工作高出平均要求工

高出平均要求工達(dá)到平均要求工低于平均要求

量(每個(gè)人分別打5作量的15%以

作量作星:的工作量

分)I-.

很強(qiáng)的團(tuán)隊(duì)合作合作不好,各自

團(tuán)隊(duì)合作情況5合作情況良好合作情況一般

粘神為政

5報(bào)告非常完整報(bào)告比較完整完整程度?般報(bào)告不完整

5邏輯結(jié)構(gòu)清晰邏輯組織較好邏輯組織一般邏輯不清

5內(nèi)容非常豐富內(nèi)容較豐富內(nèi)容一般內(nèi)容欠缺

報(bào)告撰寫質(zhì)量(總

文字表達(dá)差,意

分:30分)5文字表達(dá)非常好文字表達(dá)較好文字表達(dá)一般

思不明了

圖表制作非常專圖件制作效果

5圖件制作良好圖件制作一般

業(yè)化差

5整體效果優(yōu)秀整體效果良好整體效果一般整體效果差

綜合得分(總分:100

分)

評(píng)語:

任課老師簽名

注:該表每人一份,附在封面之后,小組成員的排列次序與封面一致。

云南大學(xué)軟件學(xué)院2013-2014學(xué)年上學(xué)期

《數(shù)據(jù)挖掘》期末大作業(yè)成績(jī)考核表

年級(jí):專業(yè):學(xué)號(hào):姓名:

本人所做工作:____________________________________________________________

指標(biāo)內(nèi)容分值指標(biāo)內(nèi)涵及評(píng)估標(biāo)準(zhǔn)得分

技術(shù)路線的可行合理可行,具體不夠合理或不

15合理可行,具體基本合理可行

程度且有創(chuàng)新夠具體

程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思路程序或系統(tǒng)思

程序或系統(tǒng)設(shè)計(jì)

20非常清晰、運(yùn)行基本清晰、運(yùn)行清晰、環(huán)境配置路不清晰,程序

思路

正確正確錯(cuò)誤無法運(yùn)行無法運(yùn)行

達(dá)到預(yù)期目標(biāo)的

15完全達(dá)到基本達(dá)到無法預(yù)見未能達(dá)到

程度

雉度很大,超出難度較大,達(dá)到難度一般,達(dá)到

項(xiàng)目完成的技術(shù)難度小,很容易

10一般本科生要求本科畢業(yè)論文水普通課程要求水

水平(個(gè)人)實(shí)現(xiàn)

水平平平

小組成員的工作高出平均要求工

高出平均要求工達(dá)到平均要求工低于平均要求

量(每個(gè)人分別打5作量的15%以

作量作星:的工作量

分)I-.

很強(qiáng)的團(tuán)隊(duì)合作合作不好,各自

團(tuán)隊(duì)合作情況5合作情況良好合作情況一般

粘神為政

5報(bào)告非常完整報(bào)告比較完整完整程度?般報(bào)告不完整

5邏輯結(jié)構(gòu)清晰邏輯組織較好邏輯組織一般邏輯不清

5內(nèi)容非常豐富內(nèi)容較豐富內(nèi)容一般內(nèi)容欠缺

報(bào)告撰寫質(zhì)量(總

文字表達(dá)差,意

分:30分)5文字表達(dá)非常好文字表達(dá)較好文字表達(dá)一般

思不明了

圖表制作非常專圖件制作效果

5圖件制作良好圖件制作一般

業(yè)化差

5整體效果優(yōu)秀整體效果良好整體效果一般整體效果差

綜合得分(總分:100

分)

評(píng)語:

任課老師簽名

目錄

目錄

第1章緒論..............................................................7

1.1數(shù)據(jù)挖掘概述..........................................................7

1.2數(shù)據(jù)挖掘現(xiàn)狀和前景....................................................7

1.3使用數(shù)據(jù)挖掘的意義...................................................8

第2章項(xiàng)目概要...........................................................8

第3章數(shù)據(jù)集說明.........................................................8

3.1數(shù)據(jù)集名稱............................................................8

3.2數(shù)據(jù)集來源............................................................8

3.3數(shù)據(jù)集屬性............................................................9

第4章算法簡(jiǎn)介...........................................................9

4.1C4.5模型樹算法分析...................................................9

4.2C4.5算法優(yōu)點(diǎn).........................................................9

4.3C4.5算法缺點(diǎn)........................................................10

4.4采用C4.5算法分析Mushroom數(shù)據(jù)集的優(yōu)點(diǎn)............................10

第5章Weka中數(shù)據(jù)操作..................................................10

5.1將數(shù)據(jù)集帶入Weka中.................................................10

5.2數(shù)據(jù)屬性對(duì)結(jié)論的影響分析.............................................11

5.3參數(shù)設(shè)置.............................................................16

5.4參數(shù)對(duì)比.............................................................17

5.5生成決策樹...........................................................21

第1章緒論

1.1數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(DataMining)是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律、提取有用知識(shí)的方

法和技術(shù)。因?yàn)閿?shù)據(jù)挖掘與數(shù)據(jù)庫(kù)密切相關(guān),又稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge

DiscoveryinDatabases,KDD),即將高級(jí)智能計(jì)算機(jī)技術(shù)應(yīng)用于大量數(shù)據(jù)中,

讓計(jì)算機(jī)在有人或是無人指導(dǎo)的情況下從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或

是知識(shí)。

廣義上說,任何從數(shù)據(jù)庫(kù)中挖掘信息的過程都叫數(shù)據(jù)挖掘。以此來看,數(shù)據(jù)

挖掘就是BI(商業(yè)智能)。但從技術(shù)術(shù)語上說,數(shù)據(jù)挖掘特指的是源數(shù)據(jù)經(jīng)過

清洗和轉(zhuǎn)換等步驟成為適合于挖掘的數(shù)據(jù)集。數(shù)據(jù)挖掘是在這種具有固定形式的

數(shù)據(jù)集中提煉知識(shí)的過程。數(shù)據(jù)挖掘往往針對(duì)特定的數(shù)據(jù)、特定的問題,選擇一

種或者多種挖掘算法,找到數(shù)據(jù)中隱藏的規(guī)律,這些規(guī)律往往被用來預(yù)測(cè)、支持

決策。

1.2數(shù)據(jù)挖掘現(xiàn)狀和前景

數(shù)據(jù)挖掘是適應(yīng)信息社會(huì)從海量的數(shù)據(jù)庫(kù)中提取信息的需要而產(chǎn)生的新科。

它是統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、模式識(shí)別、人工智能等學(xué)科的交叉。據(jù)IDC對(duì)

歐洲和北美62家采用了商務(wù)智能技術(shù)的企業(yè)的調(diào)查分析發(fā)現(xiàn),這些企業(yè)的3年

平均投資回報(bào)率為401%,其中25%的企業(yè)的投資回報(bào)率超過600%。調(diào)查結(jié)果

還顯示,一個(gè)企業(yè)要想在復(fù)雜的環(huán)境中獲得成功,高層管理者必須能夠控制及其

復(fù)雜的商業(yè)結(jié)構(gòu),若沒有詳實(shí)的事實(shí)和數(shù)據(jù)支持是很難辦到的。因此,隨著數(shù)據(jù)

挖掘技術(shù)的不斷改進(jìn)和日益成熟,它必將被更多的用戶采用,使更多的管理者得

到更多的商務(wù)智能。

現(xiàn)在,許多企業(yè)都把數(shù)據(jù)堪稱寶貴的財(cái)富,紛紛采用商務(wù)智能發(fā)現(xiàn)其中隱藏

的信息,借此獲得巨額的回報(bào)。國(guó)內(nèi)數(shù)據(jù)挖掘在各個(gè)行業(yè)都有一定的研究。常見

的應(yīng)用案例多發(fā)生在零售業(yè)、財(cái)務(wù)金融保險(xiǎn)、制造業(yè)、通訊及醫(yī)療服務(wù)行業(yè)。眾

所周知,IT就業(yè)市場(chǎng)競(jìng)爭(zhēng)已經(jīng)相當(dāng)激烈,而數(shù)據(jù)挖掘處理的核心技術(shù)更是得到

了前所未有的重視。數(shù)據(jù)挖掘和商業(yè)智能技術(shù)位于整個(gè)企業(yè)業(yè)務(wù)構(gòu)架的金字塔塔

Z//IsCO

1.3使用數(shù)據(jù)挖掘的意義

我們都聽說過如下的預(yù)測(cè):到2020年,全球以電子形式存儲(chǔ)的數(shù)據(jù)量將達(dá)

到35ZB,是2009年全球存儲(chǔ)量的40倍。而在2010年底,根據(jù)IDC的統(tǒng)計(jì),

全球數(shù)據(jù)量已經(jīng)達(dá)到了120萬PB,或L2ZB。如果將這些數(shù)據(jù)都刻錄在DVD

上,那么光把這些DVD盤片堆疊起來就可以從地球壘到月球一個(gè)來回(單程約

24萬英里)。對(duì)于動(dòng)不動(dòng)就憂天的杞人來說,如此龐大的數(shù)字可能是不詳?shù)?,預(yù)

示著世界末日的來臨。而對(duì)于樂觀主義者來說,這些數(shù)字卻是一座信息金礦,隨

著技術(shù)的進(jìn)步,其中所蘊(yùn)含的財(cái)富會(huì)越來越容易被挖掘出來。大數(shù)據(jù)的時(shí)代已經(jīng)

來臨,這?點(diǎn)沒有人會(huì)提出反對(duì)。毋庸置疑大數(shù)據(jù)的重點(diǎn)就是數(shù)據(jù)挖掘,或是說,

如何在海量的非結(jié)構(gòu)性數(shù)據(jù)里找出有意義的資料出來。這就預(yù)示著數(shù)據(jù)挖掘?qū)?huì)

有更廣闊的應(yīng)用前景。

第2章項(xiàng)目概要

本項(xiàng)目基于WEKA工作平臺(tái)對(duì)超市顧客購(gòu)買商品數(shù)據(jù)集進(jìn)行賬單號(hào),10

個(gè)商品種類等11種屬性分析并采用C4.5分類算法建立其決策樹,通過對(duì)不同

參數(shù)設(shè)置的比較得到較為精確的購(gòu)買分類規(guī)則

第3章數(shù)據(jù)集說明

3.1數(shù)據(jù)集名稱

Association

3.2數(shù)據(jù)集來源

(1)http:〃/data/44163(這個(gè)是某超市某周的部分銷售數(shù)

據(jù),T表示用戶買了對(duì)應(yīng)商品,F(xiàn)表示沒有買。數(shù)據(jù)規(guī)模不大,747條。)

(2)捐獻(xiàn)者:zhuixunxiyang(zhuixunxiyang@163.com)

(3)日期:24April2013

3.3數(shù)據(jù)集屬性

1.Zhangdanhao賬單號(hào)

2.1101飲料

3.1102沖飲食品

4.1103乳制沖飲

5.1104滋補(bǔ)保健品

6.1105罐頭食品

7.1201即食主食

8.1202中式掛面/通心粉

9.1203醬油

10.1204醋

11.1205調(diào)味品

第4章算法簡(jiǎn)介

4.1C4.5模型樹算法分析

由于ID3算法在實(shí)際應(yīng)用中存在一些問題,于是Quinlan提出了C4.5算

法,嚴(yán)格上說C4.5只能是ID3的一個(gè)改進(jìn)算法。ID3算法思想描述:

a.對(duì)當(dāng)前例子集合,計(jì)算屬性的信息增益;

b.選擇信息增益最大的屬性Ai;

c.把在Ai處取值相同的例子歸于同于子集,Ai取幾個(gè)值就得幾個(gè)子集;

d.對(duì)依次對(duì)每種取值情況下的子集,遞歸調(diào)用建樹算法,即返回a;

e.若子集只含有單個(gè)屬性,則分支為葉子節(jié)點(diǎn),判斷其屬性值并標(biāo)上相應(yīng)

的符號(hào),然后返回調(diào)用處。

4.2C4.5算法優(yōu)點(diǎn)

C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改

進(jìn):

1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取

值多的屬性的不足;

2)在樹構(gòu)造過程中進(jìn)行剪枝;

3)能夠完成對(duì)連續(xù)屬性的離散化處理;

4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。

4.3C4.5算法缺點(diǎn)

在構(gòu)造樹的過程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算

法的低效。此外,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無法

在內(nèi)存容納時(shí)程序無法運(yùn)行。

4.4采用C4.5算法分析association數(shù)據(jù)集的優(yōu)點(diǎn)

采用C4.5算法分析association數(shù)據(jù)集的優(yōu)點(diǎn)

1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的

屬性的不足,在association中有許多多值屬性,但實(shí)際中其并不是是否購(gòu)買的

關(guān)鍵因素,因此采用C4.5很好的避免了這一問題;

2)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理,在association中存在缺失值。因缺失的數(shù)據(jù)只

有商品屬性的部分值,對(duì)分類結(jié)果不會(huì)影響,所以采用C4.5算法是合適的。

第5章Weka中數(shù)據(jù)操作

5.1將數(shù)據(jù)集帶入Weka中

Filter

Status

OKI5I,°

圖5-1-1將數(shù)據(jù)集帶入Weka中

圖Viewer

Relation:Association

Ho.1:zhangdanhao2:11013:11024:11035:11046:11057:12018:12029:120310:120411:1205

Ncosi&slNcaxnalNcainalSoainalNosxnalSoainalNcainalNcainalNcainalNcainalNcainal

124P0011002FFFFFFFFFF▲

23P0059002TTFFFFFFFF

3124P0031005FFFFFFFFFF

4123P0031005FFFFFFFFFF

5122P0031005IFFFFFFFFF

6121P0031005TFFFFFFFFF

7120P0031005FFFFFFFFFF

8119P0031005FTFFFFFFFF

9118P0031005FFFFFFFFFF

10117P0031005FFFFFFFFFF

11116P0031005FFFFFFFFFF

12U5P0031005FFFFFFFFFF

13U4P0031005FFFFFFFFFF

14U3P0031005FFFFFFFFFF

15U2P0031005TFFFFFFFFF

16111P0031005FFFFFFFFFF

17110P0031005FFFFFFFFFF

18107P0031005FFFFFFFFFF

19106P0031005TFFFFFFFFF

20DJ5P0031005FFFFFFFFFF

21104P0031005FTFFFFFFFT

22103P0031005FFFFFFFFFF

23102P0031005TFFFFFFFFF▼

[Undo||OK||Cancel]

圖5-1-2將數(shù)據(jù)集帶入Weka中的Viewer圖

選用的算法是C4.5模型樹算法,數(shù)據(jù)導(dǎo)入weka后的結(jié)果:

5.2數(shù)據(jù)屬性對(duì)結(jié)論的影響分析

(注:下面對(duì)屬性的刪除以及得出的結(jié)果中,其他的參數(shù)是保持一致的。)

Start

Timetakentobuildmodel:0.04seconds

Resultlist(right-clickforoptions)

22:3916-trees.J48

=Stratifiedcross-validation=

===Suznoary===

CorrectlyClassifiedInstances54873.3601%

IncorrectlyClassifiedInstances19926.6399%

Kappastatistic0.4119

Meanabsoluteerror0.3528

Rootmeansquarederror0.4343

Relativeabsoluteerror75.7119%

Rootrelativesauarederror89.9875%

圖5-2-1數(shù)據(jù)導(dǎo)入weka后的結(jié)果:

圖5-2-1顯示了直接將數(shù)據(jù)導(dǎo)入到weka中的結(jié)果。

;Start||Stop

Timetakentobuildmodel:0.01seconds

Resultlist(right-clickforoptions)

=Stratifiedcross-validation=

=Summary=

CorrectlyClassifiedInstances54S73.36011

IncorrectlyClassifiedInstances19926.6399%

Kappastatistic0.4119

Meanabsoluteerror0.3528

Rootmeansquarederror0.4343

Relativeabsoluteerror75.7119%

Rootrelativesquarederror89.9875%

圖5-2-2刪除屬性zhangdanhao后的結(jié)果:

圖5-2-2顯示了在刪除屬性zhangdanhao后的結(jié)果??梢钥闯觯嚓P(guān)系數(shù)

沒有明顯變化,說明TIME對(duì)于這個(gè)結(jié)果相關(guān)度很低。

Sizeofthetree:19

OTom)1205▼

[Start]Stop

Timetakentobuildmodel:0.01seconds

Resultlist(right-clickforoptions)

122:39:16-trees.J48=Stratifiedcross-validation==

[22:41:56-trees.J48

=Summary=

22:4408-trees.J48

CorrectlyClassifiedInstances54973.494%

IncorrectlyClassifiedInstances19826.506*

Kappastatistic0.418

Meanabsoluteerror0.3534

Rootmeansquarederror0.4331

Relativeabsoluteerror75.8213%

Rootrelativesquarederror89.7389%

圖5-2-3刪除屬性1101后的結(jié)果:

圖5-2-3顯示了在刪除屬性1101后的結(jié)果。可以看出相關(guān)系數(shù)升高了,說明1101

對(duì)于這個(gè)結(jié)果相關(guān)度是很低。

Start]Stop

Timetakentobuildmodel:0.01seconds

Resultlist(right-clickforoptions)

22:39:16-trees.J48=Stratifiedcross-validation=

22:41:56-trees.J48=Summary=

22:44:08-trees.J48

|22:45:34-treesJ48CorrectlyClassifiedInstances54572.9585%

IncorrectlyClassifiedInstances20227.0415%

Kappastatistic0.4143

Meanabsoluteerror0.3544

Rootmeansquarederror0.4297

Relativeabsoluteerror76.0418%

Rootrelativesquarederror89.0356%

圖5-2-4刪除屬性1102后的結(jié)果:

圖5-2-4顯示了在刪除屬性1102后的結(jié)果??梢钥闯鰯?shù)據(jù)明顯降低,說明

1102對(duì)于這個(gè)結(jié)果相關(guān)度是很高的。

Timetakentobuildmodel:0.01seconds

===Stratifiedcross-validation=

=Summary=

CorrectlyClassifiedInstances55073.6278%

IncorrectlyClassifiedInstances19726.3722%

Kappastatistic0.4187

Meanabsoluteerror0.3522

Rootmeansquarederror0.4322

Relativeabsoluteerror75.5734%

Rootrelativesquarederror89.5449%

圖5-2-5刪除屬性1103后的結(jié)果:

圖5-2-5顯示了在刪除屬性1103后的結(jié)果。通過相關(guān)系數(shù)等可以看出1103

對(duì)于結(jié)論的相關(guān)性很低。

Start!

Timetakentobuildmodel:0seconds

Resultlist(right-clickforoptions)

22:39:16-trees.J48===Stratifiedcross-validation===

22:41:56-trees.J48===Sunnnary===

22:44:08-trees.J48

22:45:34-trees.J48Co

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論