下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、【原創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找“大數(shù)據(jù)部落”就可以了基于weka的數(shù)據(jù)分類分析實驗報告i實驗?zāi)康?1) 了解決策樹C4.5和樸素貝葉斯等算法的基本原理。(2)熟練使用weka實現(xiàn)上述兩種數(shù)據(jù)挖掘算法,并對訓(xùn)練出的模型進行 測試和評價。2實驗基本內(nèi)容本實驗的基本內(nèi)容是通過基于 weka實現(xiàn)兩種常見的數(shù)據(jù)挖掘算法(決策樹 C4.5和樸素貝葉斯),分別在訓(xùn)練數(shù)據(jù)上訓(xùn)練出分類模型,并使用校驗數(shù)據(jù)對各 個模型進行測試和評價,找出各個模型最優(yōu)的參數(shù)值,并對模型進行全面評價比 較,得到一個最好的分類模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗集數(shù)據(jù)一起構(gòu)造出一個最優(yōu)分類器,并利用該分
2、類器對測試 數(shù)據(jù)進行預(yù)測。3算法基本原理(1)決策樹C4.5C4.5是一系列用在機器學(xué)習(xí)和數(shù)據(jù)挖掘的分類問題中的算法。它的目標(biāo)是監(jiān)督學(xué)習(xí):給定一個數(shù)據(jù)集,其中的每一個元組都能用一組屬性值來描述,每一個元組屬于一個互斥的類別中的某一類。C4.5的目標(biāo)是通過學(xué)習(xí),找到一個從屬性值到類別的映射關(guān)系,并且這個映射能用于對新的類別未知的實體進行分 類。C4.5由J.Ross Quinlan在ID3的基礎(chǔ)上提出的。ID3算法用來構(gòu)造決策樹。 決策樹是一種類似流程圖的樹結(jié)構(gòu), 其中每個內(nèi)部節(jié)點(非樹葉節(jié)點)表示在一 個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節(jié)點存放一個類標(biāo)號。 一旦建立好了決策樹
3、,對于一個未給定類標(biāo)號的元組,跟蹤一條有根節(jié)點到葉節(jié) 點的路徑,該葉節(jié)點就存放著該元組的預(yù)測。決策樹的優(yōu)勢在于不需要任何領(lǐng)域 知識或參數(shù)設(shè)置,適合于探測性的知識發(fā)現(xiàn)?!驹瓌?chuàng)】附代碼數(shù)據(jù)有問題到淘寶找“大數(shù)據(jù)部落”就可以了從ID3算法中衍生出了 C4.5和CAR曬種算法,這兩種算法在數(shù)據(jù)挖掘中都非常 重要。屬性選擇度量又稱分裂規(guī)則,因為它們決定給定節(jié)點上的元組如何分裂。屬 性選擇度量提供了每個屬性描述給定訓(xùn)練元組的秩評定,具有最好度量得分的屬 性被選作給定元組的分裂屬性。目前比較流行的屬性選擇度量有-信息增益、增 益率和Gini指標(biāo)。(2)樸素貝葉斯貝葉斯分類是一類分類算法的總稱,這類算法均以貝
4、葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類 項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。通俗來說,就好比這么個道理,你在街上看到一個黑人,我問 你你猜這哥們哪里來的,你十有八九猜非洲。為什么呢?因為黑人中非洲人的比 率最高,當(dāng)然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。樸素貝葉斯分類的正式定義如下:1)設(shè)x=a_1,a_2,.,a_m 為一個待分類項,而每個
5、a為x的一個特征屬 性。2)有類別集合 C=y_1,y_2,.,y_n。3)計算 P(y_1|x),P(y_2|x),.,P(y_n|x)。4)如果 P(y_k|x)=maxP(y_1|x),P(y_2|x),.,P(y_n|x),則 x in y_k 。那么現(xiàn)在的關(guān)鍵就是如何計算第 3步中的各個條件概率。我們可以這么做: 1)找到一個已知分類的待分類項集合,這個集合叫做訓(xùn)練樣本集。2)統(tǒng)計得到在各類別下各個特征屬性的條件概率估計。即P(a_1|y_1),P(a_2|y_1),.,P(a_m|y_1);P(a_1|y_2),P(a_2|y_2),.,P(a_m| y_2);P(a_1|y_n)
6、,P(a_2|y_n),.,P(a_m|y_n)。3)如果各個特征屬性是條件獨立的,則根據(jù)貝葉斯定理有如下推導(dǎo):P(y_i|x尸fracP(x|y_i)P(y_i)P(x)【原創(chuàng)】附代碼數(shù)據(jù) 有問題到淘寶找“大數(shù)據(jù)部落”就可以了因為分母對于所有類別為常數(shù),因為我們只要將分子最大化皆可。又因為各 特征屬性是條件獨立的,所以有:P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)P(a_m|y_i)P(y_i)=P(y_i)pr0dAm_ j=1P(a_j|y_i)根據(jù)上述分析,樸素貝葉斯分類的流程分為三個階段:第一階段一一準備工作階段,這個階段的任務(wù)是為樸素貝葉斯分類做必要的
7、準備,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征屬性進行適當(dāng)劃分, 然后由人工對一部分待分類項進行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類 中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很 大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。第二階段一一分類器訓(xùn)練階段,這個階段的任務(wù)就是生成分類器,主要工作 是計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條 件概率估計,并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這 一階段是機械性階段,根據(jù)前面討論的公式可以由程序自
8、動計算完成。第三階段一一應(yīng)用階段。這個階段的任務(wù)是使用分類器對待分類項進行分 類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系。 這一階段 也是機械性階段,由程序完成。4實驗(1)實驗設(shè)置通過統(tǒng)計數(shù)據(jù)信息,發(fā)現(xiàn)帶有類標(biāo)號的數(shù)據(jù)一共有286行,為了避免數(shù)據(jù)的過度擬合,必須把數(shù)據(jù)訓(xùn)練集和校驗集分開,目前的拆分策略是訓(xùn)練集200行,校驗集86行。(2)決策樹分類用Explorer打開剛才 breast-cancer_train.arff”,并切換至 U “ Class。點Choose” 按鈕選擇tree (weka.classifiers.trees.j48) ”,這是 WEKA中實現(xiàn)的
9、決策樹算法。選擇 Cross-Validatioin folds=10 ,然后點擊“start”按鈕:訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹得出的結(jié)果【原創(chuàng)】附代碼數(shù)據(jù)有問題到淘寶找“大數(shù)據(jù)部落”就可以了C 3 3.= 31 j. 1=二.t=c s fl a s - val i fla t l an = Suukls 匚號CCirMcTL 二 1 三耳目二工二生!3 tFistaneeg1L41支。r? %Inccrzrclylr.stiin-35427.AS23 %SKapp a s - atzstic0.243Swean aDs*ute error0.Roct Dean 3quEred rrar0.4E0
10、lative arsclute 史2mE97/M *Rd匚工 zeLdblvt 出口口士:三eircrLDL.051J 之Toul nuxbr cf 工dstgces195- De t ail=d ZggU二 is ;第 By Clasi IP RataFP艮出二型fcr&ct SLMR必亡aLL3三赫電且才U注ROC Ar*a0.S33fl .5720.7470.903o.fiiafi.575匚匚二Et:3t工1EEL工亡亡ZJltJ0-3230.097D.0-60.323O.i20.575re currene-evea:自KfrlQhtcd 2口,0, 7230.4320,7030.723
11、O.fl0”=Cen:ion MAtruee b 4三 classified am121 13 |a = n 5-rSjr r# n c*-su#f:t s41 2Q )b - rriijELCt-r/rnLs使用不同配置訓(xùn)練參數(shù),得到的實驗數(shù)據(jù):配置小向的葉子節(jié)點的實例個數(shù)實例數(shù)/葉節(jié)點23457準確率72.33%70.8%72.8%73.3%73.8%結(jié)果分析:使用決策樹時,每個葉子節(jié)點最優(yōu)的實例個數(shù)為7。校驗數(shù)據(jù)集校驗決策樹得出的結(jié)果Cl ajssifiez ciotTiatC qFIP 0 3tett.3t.ZQ口.303M-ea2_ &LelLit-e u工工口工Q aRoot 諫魅力 flmu4ml errorM4T91RjClfl.tve1 -鑿Etp1=離 二仁工atiF suarec. erroxice.5412Tocal Number &r InaMiiceaK一 .EUaALKd JkD-D B歲 ciaaa .TP Rai;e FP F,m-e?rrcl?loinRecallT-MeasurcR3C ArmCl Q330-32160_633fi.137iQ,esfiO.7CS0.4騙ro-recuErr-e-aze-e-jtnt.30.170.1151OdVJ.167依納ixts j jle zenc e ejiL a?weianwd。,髓號o-if
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工許可證考試題目及答案
- 2025~2026學(xué)年濟南市天橋區(qū)九年級歷史第一學(xué)期期末考試試題以及答案
- DB14-T 2899-2023 火麻種子生產(chǎn)技術(shù)規(guī)程
- 輔導(dǎo)班介紹教學(xué)課件
- 引流管更換的護理教育
- 氫能源咨詢服務(wù)合同
- 2026年深圳中考生物生物圈中的其他生物試卷(附答案可下載)
- 2026年深圳中考生物耳的結(jié)構(gòu)和聽覺的形成試卷(附答案可下載)
- 產(chǎn)科圍手術(shù)期產(chǎn)后母乳喂養(yǎng)社會支持
- 2026年深圳中考化學(xué)實驗探究題專項試卷(附答案可下載)
- 環(huán)氧樹脂砂漿平涂地坪施工方案
- 蘇教版六年級數(shù)學(xué)上冊期末試卷帶答案【可打印】-
- 固定動火區(qū)申請表、告知書、管理規(guī)定
- 二片罐行業(yè)現(xiàn)狀與發(fā)展趨勢分析
- FZ/T 01137-2016紡織品熒光增白劑的測定
- 2020年南京市獨角獸、瞪羚企業(yè)發(fā)展白皮書附下載
- 大學(xué)生職業(yè)發(fā)展與就業(yè)指導(dǎo)課程實施方案
- 金手指外觀檢驗重點標(biāo)準
- 某鐵礦露天采礦工程初步設(shè)計
- WS 435-2013 醫(yī)院醫(yī)用氣體系統(tǒng)運行管理
- 實時控制培訓(xùn)(09-33)(09-36)(共6頁)
評論
0/150
提交評論