生物醫(yī)學(xué)數(shù)據(jù)挖掘 第三章 4 分類分析_第1頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第三章 4 分類分析_第2頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第三章 4 分類分析_第3頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第三章 4 分類分析_第4頁
生物醫(yī)學(xué)數(shù)據(jù)挖掘 第三章 4 分類分析_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基因表達(dá)數(shù)據(jù)的獲得與分析基因芯片數(shù)據(jù)的基礎(chǔ)分析思路預(yù)處理差異表達(dá)基因篩選聚類與分類功能注釋和富集分析分類基因芯片最廣泛的應(yīng)用之一就是對疾病樣本的分類往往而言,一些類別已知的訓(xùn)練樣本,希望建立用基因表達(dá)數(shù)據(jù)來對疾病進(jìn)行分類的分類器有指導(dǎo)的學(xué)習(xí) VS. 無指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(用于分類)模型的學(xué)習(xí)在被告知每個訓(xùn)練樣本屬于哪個類的“指導(dǎo)”下進(jìn)行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類無指導(dǎo)的學(xué)習(xí)(用于聚類)每個訓(xùn)練樣本的類編號是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的通過一系列的度量、觀察來建立數(shù)據(jù)中的類編號或進(jìn)行聚類分類 VS. 預(yù)測分類:預(yù)測分類標(biāo)號(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性

2、,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值數(shù)據(jù)分類可以分為兩步進(jìn)行建立分類器模型通過分析由屬性描述的數(shù)據(jù)集合來建立反映數(shù)據(jù)集合特性的模型。這一步也稱作有監(jiān)督的學(xué)習(xí),導(dǎo)出模型是基于訓(xùn)練數(shù)據(jù)集的。訓(xùn)練數(shù)據(jù)集-為建立模型而被分析的數(shù)據(jù)集,是已知類標(biāo)記的數(shù)據(jù)對象。由多個訓(xùn)練樣本組成,每個訓(xùn)練樣本有一個類別標(biāo)記。一個具體樣本的形式可為( v1, v2, ., vn; c );其中vi表示屬性值,c表示類別。分類器的評價-使用模型對數(shù)據(jù)對象進(jìn)行分類首先應(yīng)該評估模型的分類準(zhǔn)確度,如果模型準(zhǔn)確度可以接受,就可以用它來對未知類標(biāo)記的對象進(jìn)行分類?;跍y試數(shù)據(jù)集測試數(shù)據(jù)集-

3、用于評估分類模型的準(zhǔn)確率第一步建立模型訓(xùn)練數(shù)據(jù)集分類算法IF rank = professorOR years 6THEN tenured = yes 分類規(guī)則第二步用模型進(jìn)行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff, Professor, 4)Tenured?k近鄰分類法 基本思想k近鄰法-KNN(K-NearestNeighbor)前提假設(shè):近鄰的對象具有類似的預(yù)測值。思想:在多維空間Rn 中找到與未知樣本最近鄰的k 個點,并根據(jù)這k個點的類別來判斷未知樣本的類這k個點就是未知樣本的k-最近鄰。k近鄰法-KNN數(shù)學(xué)模型:離散目標(biāo)分類函數(shù)為f:Rn-V設(shè)未知樣本的特征向量X為訓(xùn)練數(shù)據(jù)集D=(Xi

4、,Vi),1iN,其中Xi是第i個訓(xùn)練樣本的特征向量,Vi是類別V是有限集合v1,v2,vs ,即各不同分類集計算X和Xi之間的距離d(Xi,X)按距離排序,得到d(X,Xi1)d(X,Xi2)d(X,XiN)選擇前K個樣本:S=(Xi1,Yi1)(XiK,YiK);統(tǒng)計S中每個類別出現(xiàn)的次數(shù),確定X的類別YFisher線性判別首先根據(jù)基因樣本數(shù)據(jù)的先驗知識建立判別函數(shù),然后把未知類的樣本代入判別函數(shù),從而判斷新樣本(基因或個體)的類別歸屬最簡單的判別函數(shù):線性判別函數(shù)Fisher線性判別基本原理:找到一個最合適的投影軸w(線性變換,線性組合) ,確定決策面,使兩類樣本在該軸上投影之間的距離盡

5、可能遠(yuǎn),而每一類樣本的投影盡可能緊湊,從而使分類效果為最佳。Fisher線性判別分析,就是通過給定的訓(xùn)練數(shù)據(jù),確定線性判別函數(shù),然后根據(jù)這個線性判別函數(shù),對測試數(shù)據(jù)進(jìn)行測試,得到測試數(shù)據(jù)的類別。Fisher線性判別x1w1決策面w2x2W1,W2哪個向量好?類間離散度類內(nèi)離散度將高維問題降低到一維問題來解決最簡單的判別函數(shù):線性判別函數(shù)x是樣本向量,即樣本在d維特征空間中的描述, w是權(quán)向量。兩類問題的分類決策規(guī)則:如果| w |=1,則視作向量x在向量w上的投影y=g(x)=wTx線性判別函數(shù)的幾何意義決策面(decision boundary)H方程:g(x)=0向量w是決策面H的法向量g

6、(x)是點x到?jīng)Q策面H的距離的一種度量x1x2wxxprH: g=0Fisher準(zhǔn)則函數(shù)評價投影方向w的原則,投影后,各類樣本內(nèi)部盡可能密集,即總類內(nèi)離散度越小越好;,各類樣本盡可能離得遠(yuǎn),即樣本類間離散度越大越好。 Fisher準(zhǔn)則函數(shù)的定義:Fisher最佳投影方向的求解類間離散度類內(nèi)離散度總類內(nèi)離散度d維空間樣本分布的描述量各類樣本均值向量mi樣本類內(nèi)離散度矩陣Si與總類內(nèi)離散度矩陣Sw 樣本類間離散度矩陣Sb:離散矩陣在形式上與協(xié)方差矩陣很相似,但協(xié)方差矩陣是一種期望值,而離散矩陣只是表示有限個樣本在空間分布的離散程度Fisher最佳投影方向的求解采用拉格朗日乘子算法解決 m1-m2是

7、一向量,對與(m1-m2)平行的向量投影可使兩均值點的距離最遠(yuǎn)。但是如從使類間分得較開,同時又使類內(nèi)密集程度較高這樣一個綜合指標(biāo)來看,則需根據(jù)兩類樣本的分布離散程度對投影方向作相應(yīng)的調(diào)整,這就體現(xiàn)在對m1-m2 向量按Sw-1作一線性變換,從而使Fisher準(zhǔn)則函數(shù)達(dá)到極值點流程 W的確定各類樣本均值向量 mi W的確定總類內(nèi)離散度矩陣樣本類間離散度矩陣Sb:求出w 逆矩陣W的確定在投影后的一維空間中,各類樣本均值 閾值的確定,采取的方法: 測試樣本或未知分類分析Fisher線性判別的決策規(guī)則對于某一個未知類別的樣本向量 C,如果y = WTC y0, 則Cw1,否則Cw2?習(xí)題Fisher準(zhǔn)

8、則的基本原理為:找到一個最合適的投影軸,使_在該軸上投影之間的距離盡可能遠(yuǎn),而_的投影盡可能緊湊,從而使分類效果為最佳。Fisher準(zhǔn)則函數(shù)的定義為 =_。Fisher方法中,樣本類內(nèi)離散度矩陣Si與總類內(nèi)離散度矩陣Sw 分別為_和_。Fisher方法主要利用投影向量w,將所有d維樣本x投影的一維樣本y(即,y=wTx)來實現(xiàn)對樣本的有效分類。已知一維樣本類間離散度 ,d維樣本類間離散度矩陣為 ,證明它們之間的關(guān)系為利用Lagrange乘子法使Fisher線性判別的準(zhǔn)則函數(shù)極大化,最終可以得到的判別函數(shù)權(quán)向量 = _。 敘述Fisher算法的基本原理。 Fisher準(zhǔn)則函數(shù)的定義為 。試?yán)肔

9、agrange乘子法使Fisher線性判別的準(zhǔn)則函數(shù)極大化來得到的判別函數(shù)權(quán)向量。描述獲得這個權(quán)向量的推導(dǎo)過程。數(shù)據(jù)分類可以分為兩步進(jìn)行建立分類器模型通過分析由屬性描述的數(shù)據(jù)集合來建立反映數(shù)據(jù)集合特性的模型。這一步也稱作有監(jiān)督的學(xué)習(xí),導(dǎo)出模型是基于訓(xùn)練數(shù)據(jù)集的。分類器的評價-使用模型對數(shù)據(jù)對象進(jìn)行分類首先應(yīng)該評估模型的分類準(zhǔn)確度,如果模型準(zhǔn)確度可以接受,就可以用它來對未知類標(biāo)記的對象進(jìn)行分類。基于測試數(shù)據(jù)集測試數(shù)據(jù)集-用于評估分類模型的準(zhǔn)確率,是帶有類別標(biāo)號的樣本分類器錯誤率估計categoricalcategoricalcontinuousclassTestSetTraining SetMo

10、delLearn Classifierpredictreal分類器錯誤率估計第一種情況已設(shè)計好分類器時,錯誤率的估計即用錯分測試樣本數(shù)與總測試樣本數(shù)的比值來估計分類器的錯誤率。predictrealp=2/5錯誤率估計方案粗糙的錯誤率估計方案交叉證實方法的錯誤率估計方案粗糙的錯誤率估計方案粗糙的錯誤率估計方案:樣本重復(fù)使用:N樣本既用于設(shè)計分類器,又用于估計分類器錯誤率缺點:樣本相交度高。訓(xùn)練分類器的樣本用于檢驗會使分類效果偏好,導(dǎo)致錯誤率估計不準(zhǔn)確!N樣本分為不相交的兩個部分:一部分樣本用于設(shè)計分類器,另一部分用于估計分類器錯誤率缺點:樣本利用率低,較少的樣本參與分類器設(shè)計和檢驗,導(dǎo)致錯誤率

11、估計不準(zhǔn)確?。颖鹃g沒有很好的交集)錯誤率估計方案粗糙的錯誤率估計方案交叉證實方法的錯誤率估計方案留一法M重交叉驗證留一法N個樣本取N-1個樣本為訓(xùn)練集,設(shè)計分類器。剩下的一個樣本作為測試集,輸入到分類器中,檢驗是否錯分。然后放回樣本,重復(fù)上述的過程,直到N次,即每個樣本都做了一次測試。統(tǒng)計被錯分的樣本總數(shù)k, 作為錯誤率的估計率。TestSetTraining Set訓(xùn)練樣本ModelLearn Classifier10個樣本的留一法例子第1次第2次第10次。判斷結(jié)果:留一法性能留一法有效的利用了訓(xùn)練樣本,而且很大程度上降低了樣本相關(guān)性。對錯誤率的估計更準(zhǔn)確。但為了估計分類器錯誤率需訓(xùn)練N次

12、分類器,計算量大。 參與設(shè)計的樣本 參與錯誤率估計的樣本(N-1)(N)M-重交叉驗證N個樣本被劃分成m個不相交集合,每組有N/m個樣本在m個組中取m-1個組的樣本作為訓(xùn)練集,設(shè)計分類器。剩下的一組樣本作測試集,輸入到分類器中檢驗,統(tǒng)計錯分?jǐn)?shù)k。然后放回,重復(fù)上述的過程,直到m次。設(shè)ki(i=1,m)是第i次測試的錯分?jǐn)?shù),則TestSetTraining SetModelLearn Classifier10個樣本的m-重交叉驗證例子(m=5)第1次第2次第5次。判斷結(jié)果:分組決策樹多級分類器把一個復(fù)雜的多類別分類問題轉(zhuǎn)化為若干個簡單的分類問題決策規(guī)則決策樹的修剪消除決策樹的過擬合問題(over

13、fitting)消除訓(xùn)練集中的異常和噪聲所涉及的方法很多,如前剪枝算法(print)與后剪枝(sprint 算法)等方法性能留一法有效的利用了訓(xùn)練樣本,而且很大程度上降低了樣本相關(guān)性。對錯誤率的估計更準(zhǔn)確。但為了估計分類器錯誤率需訓(xùn)練N次分類器,計算量大。 參與設(shè)計的樣本 參與錯誤率估計的樣本m-重交叉驗證與留一法相比減少了大量的計算量。隨著m值減少,訓(xùn)練分類器時的樣本減少,導(dǎo)致設(shè)計的分類器模型質(zhì)量下降,將降低錯誤率的估計準(zhǔn)確率。總體上看,錯誤率的估計相對較好。 參與設(shè)計的樣本 參與錯誤率估計的樣本(N-1)(N)(N)(N-N/m)分類器的評價評價指標(biāo)錯誤率+準(zhǔn)確率=1靈敏度和特異度的關(guān)系不

14、同診斷界值時靈敏度與特異度間的平衡(trade off)0204060801005060708090100特異度靈敏度百分率()理想的診斷試驗實際的診斷試驗診斷分界點正常群體與患者群體分布曲線ROC曲線分析受試者工作特征曲線(receiver operating characteristic, ROC)它通過將連續(xù)變量設(shè)定出多個不同的臨界值,從而計算出一系列靈敏度和特異度,再以靈敏度為縱坐標(biāo)、(1-特異度)為橫坐標(biāo)繪制成曲線,圖中對角線下的面積為隨機(jī)診斷產(chǎn)生的曲線下面積。以真陽性率(靈敏度)為縱坐標(biāo),假陽性率(1-特異度)為橫坐標(biāo),是用構(gòu)圖法揭示二者的關(guān)系ROC曲線分析一般選擇曲線轉(zhuǎn)彎處,即靈

15、敏度和特異度均較高的點為診斷分界點(cut off point)。一般ROC曲線位于正方形的上三角。 理論上,完善的診斷有TPF=1,F(xiàn)PF=0,圖中表現(xiàn)為ROC曲線從原點垂直上升到圖的左上角,然后水平到達(dá)右上角;完全無價值的診斷有TPF=FPF,是一條從原點到右上角的對角線;Receiver Operating Characteristic curve Area Under Curve (AUC) - GraphedCurve 1 = .50 Pure chanceno better than random guessCurve 3 is better than Curve 2Curve 4

16、 = 1.0 Totally Sensitive completely accurate classification of effectively and less-effectively instructed studentsROC曲線越向左上偏,曲線下面積越大,診斷準(zhǔn)確性越高。ROC曲線越凸向左上角,表明其診斷價值越大,越準(zhǔn)確。完美與無用的ROC曲線真陽性率即靈敏度假陽性率 即 1特異度機(jī)率線(chance line)(diagonal reference line)診斷準(zhǔn)確度較低(0.9)0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRA0.938ROC曲線下面積(Area)與診斷準(zhǔn)確度高低高 0.90-1.00 =

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論