《數(shù)據(jù)挖掘原理與應用 第2版 》課件 3.5數(shù)據(jù)準備-維度歸約_第1頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 3.5數(shù)據(jù)準備-維度歸約_第2頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 3.5數(shù)據(jù)準備-維度歸約_第3頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 3.5數(shù)據(jù)準備-維度歸約_第4頁
《數(shù)據(jù)挖掘原理與應用 第2版 》課件 3.5數(shù)據(jù)準備-維度歸約_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第3章數(shù)據(jù)準備維度規(guī)約海量數(shù)據(jù)的較為復雜的分析和挖掘,需要滿足:數(shù)據(jù)挖掘算法能夠支持大量的、高維的數(shù)據(jù)的處理計算機硬件設備能夠滿足算法處理大量數(shù)據(jù)的要求計算時間不受到限制海量數(shù)據(jù)分析和挖掘數(shù)據(jù)集數(shù)據(jù)規(guī)約表示數(shù)據(jù)規(guī)約完整性有效性一致性2維規(guī)約大數(shù)據(jù)集也體現(xiàn)在它的屬性數(shù)量上,有的數(shù)據(jù)集包含數(shù)以百計的屬性,而其中有很大一部分與某項數(shù)據(jù)挖掘的任務并不相關,相對來說是冗余屬性。例如,在對零售企業(yè)獲取的顧客信息數(shù)據(jù)集進行分析時,他們的電話號碼與購買意向、接受營銷影響等方面的分析就不太相關??梢酝ㄟ^只選擇與數(shù)據(jù)挖掘目標相關的那些屬性的數(shù)據(jù),來完成數(shù)據(jù)挖掘工作。3維規(guī)約維規(guī)約:通過刪除不相關的屬性(或維)減少數(shù)據(jù)集的復雜度和數(shù)據(jù)量。實際上,高維度數(shù)據(jù)中的信息往往主要包含在一個或幾個低維度結(jié)構(gòu)中,因此維規(guī)約技術(shù)是處理高緯數(shù)據(jù)的一個重要手段。4維規(guī)約好處提升數(shù)據(jù)挖掘算法效果使模型更容易理解更易實現(xiàn)可視化解決了維災難問題維規(guī)約可刪除主題不相關的特征,并降低噪聲只涉及較少的變量或?qū)傩裕芨逦行У貙?shù)據(jù)模型做出易于理解的評估和解釋即使維規(guī)約沒能將數(shù)據(jù)維度降為二維或三維的可視維度,但這時可以通過觀察屬性對二或三元組屬性達到可視化,而這種組合的數(shù)目也大大減少了5維災難維災難:隨著數(shù)據(jù)維度增加,很多數(shù)據(jù)分析、數(shù)據(jù)挖掘的應用變得非常困難從數(shù)據(jù)挖掘?qū)嵺`中可以得出,高維度數(shù)據(jù)的挖掘分析,會導致準確率降低,質(zhì)量下降維度增加,則數(shù)據(jù)空間中,有效數(shù)據(jù)稀疏分類預測,無足夠數(shù)據(jù)對象來創(chuàng)建模型,使模型準確率降低聚類分析,數(shù)據(jù)密度定義和距離定義失去意義,使模型質(zhì)量下降其他數(shù)據(jù)分析算法也會遭遇不同的問題6維規(guī)約技術(shù)特征子集選擇特征創(chuàng)建數(shù)據(jù)變換(下一小節(jié))主成分分析因子分析線性判別分析7選擇特征子集降低維度的一個有效的方法就是從整個數(shù)據(jù)集中選取一個子集來進行處理,而該子集具有原始數(shù)據(jù)集的特征,稱為特征子集。8選擇特征子集方法消除冗余存在冗余數(shù)據(jù)時,不會丟失信息例如數(shù)據(jù)中的各科成績與總分商品銷售額與消費稅AgeMaritalstatusAddressIncomeIncomeCategoryCarpriceCarpricecategory5511272.00337.00356029153.00476.003281928.00213.901241426.00213.001251223.00111.301450976.00437.30344117144.00472.1034612075.00437.1034101026.00213.001290419.0019.601340089.00444.4035501772.00336.103280955.00328.202211220.0019.6015508283.00477.403350870.00335.403450448.00225.002210137.00218.402320028.00214.2019選擇特征子集方法消除冗余消除不相關數(shù)據(jù)例如

學號、電話號碼、郵政編碼

太平洋彼岸蝴蝶翅膀扇動次數(shù)10選擇特征子集方法消除冗余消除不相關數(shù)據(jù)系統(tǒng)方法經(jīng)驗方法(常識、行業(yè)領域知識)將所有可能的特征子集作為輸入,用事先選定的數(shù)據(jù)挖掘算法進行處理,對處理結(jié)果進行比較評估,選取結(jié)果最好的那個子集作為特征子集。但是對于有n個屬性的數(shù)據(jù)集,其子集的窮舉組合有多達2n個,n值較大的情況下這樣做已不現(xiàn)實。11選擇特征子集方法方差選擇法12方差選擇法是基于統(tǒng)計學中的方差概念,計算數(shù)據(jù)集中各個特征屬性的方差值,根據(jù)設定的閾值,選擇方差大于該閾值的特征。方差較大的特征更有可能包含對目標變量有重要影響的信息,因此應予以保留;反之,方差較小的特征可能包含冗余或無關信息,可以選擇舍棄,從而達到特征降維和提升模型性能的目的。例如,可刪除方差為零的特征(即所有數(shù)據(jù)樣本中具有相同值的特征),因為該特征無法解釋目標變量的任何變化。選擇特征子集方法方差選擇法單因素特征選擇13在統(tǒng)計測試方式中,主要方法有:1)卡方檢驗:計算特征與目標變量之間的卡方統(tǒng)計量,評估二者之間的獨立性??ǚ街翟酱?,表示特征與目標變量的關聯(lián)性越強。常用于分類問題;2)F檢驗:通過比較特征與目標變量的方差變化,評估特征的重要性。F值越大,表示特征對目標變量的影響越顯著。常用于捕捉線性關系;3)互信息:計算特征與目標變量之間的互信息量,評估二者之間的共享信息??捎糜跈z測非線性相關性。單因素特征選擇,評估每個特征與目標變量之間的關系,分析其對目標變量的預測能力或重要性,從而選擇出最具代表性的特征子集。該方法的核心在于對每個特征進行獨立評估,而不考慮特征之間的相互作用。單因素特征選擇通常通過統(tǒng)計測試或模型評估的方式,計算每個特征與目標變量之間的相關性或重要性得分,然后根據(jù)得分高低選擇特征。選擇特征子集方法方差選擇法單因素特征選擇14在統(tǒng)計測試方式中,主要方法有:1)卡方檢驗;2)F檢驗;3)互信息。Pima

Indians

DiabetesDataSet皮馬印第安人糖尿病數(shù)據(jù)集選擇特征子集方法方差選擇法單因素特征選擇15在統(tǒng)計測試方式中,主要方法有:1)卡方檢驗;2)F檢驗;3)互信息。Pima

Indians

DiabetesDataSet皮馬印第安人糖尿病數(shù)據(jù)集選擇特征子集方法方差選擇法單因素特征選擇16在統(tǒng)計測試方式中,主要方法有:1)卡方檢驗;2)F檢驗;3)互信息。Pima

Indians

DiabetesDataSet皮馬印第安人糖尿病數(shù)據(jù)集選擇特征子集方法方差選擇法單因素特征選擇17在模型評估方式中,主要方法有:1)基于單變量模型的評估:如使用單變量線性回歸或邏輯回歸模型,評估每個特征對目標變量的預測能力。通過模型的系數(shù)或重要性得分來選擇特征。2)基于特征重要性的評估:某些機器學習模型(如隨機森林、梯度提升樹等)在訓練過程中會計算每個特征的重要性,這些重要性得分可以直接用于特征選擇。單因素特征選擇忽略特征之間的相互作用,這可能導致重要信息丟失。對于非線性關系或復雜數(shù)據(jù)分布,該方法也可能無法準確評估特征的重要性。選擇特征子集方法方差選擇法單因素特征選擇遞歸特征消除18遞歸特征消除的主要思想是反復構(gòu)建模型,按照一定指標摘選出最好的(或者最差的)特征,再在剩余的特征上重復這個過程,直到遍歷了所有的特征。在這個過程中被摘選的次序就是特征的排序。[例]使用RFE方法,對手寫數(shù)字圖像(8×8像素)中的各像素點的重要性進行分析。選擇特征子集方法方差選擇法單因素特征選擇遞歸特征消除基于L1正則化的特征選擇(線性模型的特征選擇)19

選擇特征子集方法方差選擇法單因素特征選擇遞歸特征消除基于L1正則化的特征選擇(線性模型的特征選擇)20糖尿病數(shù)據(jù)集age0sex0bmi504.75bp189.78s10s20s3-112.57s40s5438.80s60局部特征分析可將數(shù)據(jù)的局部抽取出來,用來代表和表征原始數(shù)據(jù)的特征,而該局部數(shù)據(jù)具有顯著的特征性。21例如,在人臉識別處理時,就會采用局部特征分析的方法,選取具有代表性的眼睛、鼻子和嘴部的圖像進行識別或甄別。局部特征分析在局部特征分析和數(shù)據(jù)抽取時,關鍵點在于如何確定數(shù)據(jù)中的有代表性的特征數(shù)據(jù)或?qū)傩?,并且以最少的特征?shù)據(jù)或?qū)傩詠肀碚髟獢?shù)據(jù)的特征。22維規(guī)約處理時,可將數(shù)據(jù)中具有顯著的特征性的局部抽取、生成或產(chǎn)生出來,用來代表和表征原始數(shù)據(jù)的特征。特征創(chuàng)建有時,所創(chuàng)建的特征屬性能夠更好的代表原數(shù)據(jù)所蘊含的意義23方法特征提取模式識別特征創(chuàng)建24方法特征提取空間映射時域-頻域的映射多維空間映射特征創(chuàng)建傅里葉變換(Fouriertransform)小波變換(Wavelettransform)25方法特征提取空間映射特征構(gòu)建(FeatureConstruction/CombiningFeatures)原始數(shù)據(jù)集的特征具有必要的信息,但其形式不適合數(shù)據(jù)挖掘算法由原特征構(gòu)造的新特征可能比原特征更有用特征創(chuàng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論