下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
4/4WEKA實(shí)驗(yàn)報(bào)告數(shù)據(jù)集實(shí)驗(yàn)采用Wisconsin醫(yī)學(xué)院的WilliamH.Wolberg博士提供的乳腺癌的數(shù)據(jù)樣本。所有數(shù)據(jù)來自真實(shí)臨床案例,每個(gè)案例有10個(gè)屬性。其中前九個(gè)屬性是檢測(cè)指標(biāo),每個(gè)屬性值用1到10的整數(shù)表示,1表示檢測(cè)指標(biāo)最正常,10表示最不正常。第十個(gè)屬性是分類屬性,指示該腫瘤是否為惡性。數(shù)據(jù)集中的腫瘤性質(zhì)是通過活檢得出的結(jié)果。腫塊厚度Clump_Thicknessinteger[1,10]細(xì)胞大小的均勻性Cell_Size_Uniformityinteger[1,10]細(xì)胞形狀的均勻性Cell_Shape_Uniformityinteger[1,10]邊緣粘性Marginal_Adhesioninteger[1,10]單上皮細(xì)胞的大小Single_Epi_Cell_Sizeinteger[1,10]裸核Bare_Nucleiinteger[1,10]乏味染色體Bland_Chromatininteger[1,10]正常核Normal_Nucleoliinteger[1,10]有絲分裂Mitosesinteger[1,10] 腫瘤性質(zhì)Class{benign,malignant}該數(shù)據(jù)集共有669個(gè)實(shí)例。本次實(shí)驗(yàn)對(duì)以上數(shù)據(jù)集進(jìn)行了分類、聚類、關(guān)聯(lián)規(guī)則三部分操作,以熟悉weka軟件的操作使用,并嘗試挖掘數(shù)據(jù)中的實(shí)際價(jià)值。分類中,嘗試用前九個(gè)屬性值來預(yù)測(cè)腫瘤的性質(zhì)(良性、惡性);聚類中,尋找各個(gè)簇病人(尤其是惡性腫瘤病人)的顯著特征,可用來輔助制定針對(duì)性治療計(jì)劃;關(guān)聯(lián)規(guī)則的探索,尋找不同屬性值之間的相關(guān)性。分類數(shù)據(jù)預(yù)處理將wisconsin-breast-cancer數(shù)據(jù)集分割為兩個(gè),分別作為trainset(469個(gè))和testset(200個(gè))。實(shí)驗(yàn)過程用j48分類樹對(duì)trainset進(jìn)行分類運(yùn)算,結(jié)果如下:結(jié)果表明,模型分類的準(zhǔn)確率達(dá)到了96%。ConfusionMatrix表明有13例良性腫瘤被錯(cuò)位的歸類為惡性(4.5%);有6例惡性腫瘤被錯(cuò)誤的歸類為良性(3.1%)。將以上模型應(yīng)用于testset以檢驗(yàn)預(yù)測(cè)準(zhǔn)確率,運(yùn)行結(jié)果如下:結(jié)果表明,預(yù)測(cè)準(zhǔn)確率達(dá)到了99%。ConfusionMatrix表示有2例良性腫瘤被錯(cuò)誤的歸類為惡性(1.3%);而惡性腫瘤均被正確分類。結(jié)果分析首先,通過檢驗(yàn),j48方法通過訓(xùn)練集生成的決策樹對(duì)腫瘤性質(zhì)的預(yù)測(cè)準(zhǔn)確率可以穩(wěn)定在較高水平,因此可以將此模型用于臨床診斷。這對(duì)于因醫(yī)療條件不佳而不能進(jìn)行活檢或病灶位置不易進(jìn)行活檢的病人來說具有較高的實(shí)用價(jià)值。其次,從分類樹可以看出,腫瘤性質(zhì)與“細(xì)胞大小均勻性”“裸核”屬性的關(guān)聯(lián)度較高;而“細(xì)胞形狀均勻性”“邊緣粘性”“單上皮細(xì)胞大小”“乏味染色體”“有絲分裂”對(duì)腫瘤良、惡性的診斷幾乎沒有參考意義。這表明在日常診斷中,若受醫(yī)療條件和治療時(shí)機(jī)的制約,可以適當(dāng)減少檢測(cè)指標(biāo),根據(jù)預(yù)測(cè)結(jié)果盡早采取治療措施。最后,通過對(duì)ConfusionMatrix的分析可知,該模型存在兩類錯(cuò)誤:將良性誤診為惡性、將惡性誤診為良性。這兩類錯(cuò)誤都是應(yīng)該極力避免的,第一類錯(cuò)誤可能導(dǎo)致病人情緒低落、不配合治療,最終導(dǎo)致病情惡化;第二類錯(cuò)誤可能導(dǎo)致治療方案的錯(cuò)誤,過于激進(jìn)的治療可能適得其反。很難評(píng)判這兩類錯(cuò)誤哪種更為嚴(yán)重,但模型的結(jié)果表明,犯第二類錯(cuò)誤的概率較低,特別在測(cè)試集中,準(zhǔn)確率達(dá)到了100%。聚類數(shù)據(jù)預(yù)處理由于聚類中對(duì)于離散屬性將顯示其眾數(shù),不利于了解數(shù)值結(jié)構(gòu),所以將Class屬性類型由Nominal轉(zhuǎn)換為Numeric。用0表示benign,即良性;1表示malignant,即惡性。這樣各個(gè)簇中的數(shù)值越接近1,表明該簇中惡性腫瘤比例越高。實(shí)驗(yàn)過程用SimplekMeans算法,設(shè)置參數(shù)numClusters=5,seed=50進(jìn)行聚類運(yùn)算,得到結(jié)果如下:結(jié)果分析上述聚類結(jié)果共有五個(gè)簇,而且恰巧Class屬性的均值均為整數(shù),這表明每一個(gè)簇中的各實(shí)例的腫瘤性質(zhì)相同。#0:這一簇中各屬性偏離正常值的成都相對(duì)較高,但腫瘤性質(zhì)為良性。這種情況僅有17個(gè)實(shí)例,表明該情況出現(xiàn)的概率很低。#1:除“腫塊厚度”這一屬性外,其他指標(biāo)都很正常,腫瘤性質(zhì)為良性。這種情況有253個(gè)實(shí)例,甚至超過了“典型良性”簇中的實(shí)例數(shù),這表明“腫塊厚度”這一屬性要較大程度偏離正常值才可能對(duì)應(yīng)惡性腫瘤。#2:我們可以稱這一簇為“典型良性”,其各屬性偏離正常程度都很低。#3:除“腫塊厚度”“裸核”外,其他屬性值都不是很高,但腫瘤性質(zhì)為惡性。這種情況占比約為所有惡性腫瘤患者一半。#4:這一簇可稱為“典型惡性”,幾乎每一個(gè)屬性都很不正常,然而只有約一半的惡性腫瘤患者屬于這種情況。根據(jù)聚類分析結(jié)果,可以幫助醫(yī)生針對(duì)可能的幾種發(fā)病情況,制定不同的治療計(jì)劃。另外,對(duì)各個(gè)簇所占比例的研究可以幫助醫(yī)藥工作者更好地了解乳腺癌癥狀的分布。關(guān)聯(lián)規(guī)則數(shù)據(jù)預(yù)處理為使用Apriori算法,將前九個(gè)屬性數(shù)據(jù)類型改為離散型。使用filter中的NumericToNominal方法將integer[1,10]離散化為{1,2,3,4,5,6,7,8,9,10}。實(shí)驗(yàn)過程首先選用置信度作為衡量參數(shù),設(shè)置接受的最小參數(shù)值為0.8,結(jié)果如下:再選用提升度作為衡量參數(shù),設(shè)置接受的最小參數(shù)值為1.5,結(jié)果如下:結(jié)果分析不難發(fā)現(xiàn),以上這些關(guān)聯(lián)規(guī)則有一些是沒有價(jià)值的,這說明在數(shù)據(jù)預(yù)處理階段以及關(guān)聯(lián)規(guī)則算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 44937.2-2025集成電路電磁發(fā)射測(cè)量第2部分:輻射發(fā)射測(cè)量TEM小室和寬帶TEM小室法
- 養(yǎng)老院入住老人心理健康監(jiān)測(cè)制度
- 企業(yè)設(shè)備維護(hù)與保養(yǎng)制度
- 會(huì)議報(bào)告與總結(jié)撰寫制度
- 2026年金融風(fēng)險(xiǎn)管理市場(chǎng)風(fēng)險(xiǎn)識(shí)別與控制策略實(shí)操題庫(kù)
- 2026年建筑工程結(jié)構(gòu)設(shè)計(jì)與施工工藝考試題集
- 2026年新版工業(yè)同位協(xié)議
- 2026年委托消毒合同
- 山東省泰安市2025-2026學(xué)年高三上學(xué)期2月一模考試語(yǔ)文試題及參考答案
- 單位總值班室應(yīng)急值守管理制度內(nèi)容
- 學(xué)堂在線 雨課堂 學(xué)堂云 積極心理學(xué)(下)自強(qiáng)不息篇 章節(jié)測(cè)試答案
- 車輛掛靠公司免責(zé)協(xié)議書
- 2025期貨從業(yè)人員資格考試題庫(kù)含答案
- TCCEAS001-2022建設(shè)項(xiàng)目工程總承包計(jì)價(jià)規(guī)范
- 2024-2025學(xué)年八年級(jí)數(shù)學(xué)開學(xué)摸底考試卷(北京專用)(解析版)
- 硅錳工藝培訓(xùn)
- 藥流護(hù)理常規(guī)
- HGT 4205-2024《工業(yè)氧化鈣》規(guī)范要求
- 原發(fā)性纖毛運(yùn)動(dòng)障礙綜合征教學(xué)演示課件
- 月臺(tái)施工方案
- 白血病醫(yī)學(xué)知識(shí)培訓(xùn)
評(píng)論
0/150
提交評(píng)論