版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第3章數(shù)據(jù)準(zhǔn)備維度規(guī)約海量數(shù)據(jù)的較為復(fù)雜的分析和挖掘,需要滿足:數(shù)據(jù)挖掘算法能夠支持大量的、高維的數(shù)據(jù)的處理計(jì)算機(jī)硬件設(shè)備能夠滿足算法處理大量數(shù)據(jù)的要求計(jì)算時(shí)間不受到限制海量數(shù)據(jù)分析和挖掘數(shù)據(jù)集數(shù)據(jù)規(guī)約表示數(shù)據(jù)規(guī)約完整性有效性一致性2維規(guī)約大數(shù)據(jù)集也體現(xiàn)在它的屬性數(shù)量上,有的數(shù)據(jù)集包含數(shù)以百計(jì)的屬性,而其中有很大一部分與某項(xiàng)數(shù)據(jù)挖掘的任務(wù)并不相關(guān),相對(duì)來(lái)說(shuō)是冗余屬性。例如,在對(duì)零售企業(yè)獲取的顧客信息數(shù)據(jù)集進(jìn)行分析時(shí),他們的電話號(hào)碼與購(gòu)買(mǎi)意向、接受營(yíng)銷影響等方面的分析就不太相關(guān)??梢酝ㄟ^(guò)只選擇與數(shù)據(jù)挖掘目標(biāo)相關(guān)的那些屬性的數(shù)據(jù),來(lái)完成數(shù)據(jù)挖掘工作。3維規(guī)約維規(guī)約:通過(guò)刪除不相關(guān)的屬性(或維)減少數(shù)據(jù)集的復(fù)雜度和數(shù)據(jù)量。實(shí)際上,高維度數(shù)據(jù)中的信息往往主要包含在一個(gè)或幾個(gè)低維度結(jié)構(gòu)中,因此維規(guī)約技術(shù)是處理高緯數(shù)據(jù)的一個(gè)重要手段。4維規(guī)約好處提升數(shù)據(jù)挖掘算法效果使模型更容易理解更易實(shí)現(xiàn)可視化解決了維災(zāi)難問(wèn)題維規(guī)約可刪除主題不相關(guān)的特征,并降低噪聲只涉及較少的變量或?qū)傩?,能更清晰有效地?duì)數(shù)據(jù)模型做出易于理解的評(píng)估和解釋即使維規(guī)約沒(méi)能將數(shù)據(jù)維度降為二維或三維的可視維度,但這時(shí)可以通過(guò)觀察屬性對(duì)二或三元組屬性達(dá)到可視化,而這種組合的數(shù)目也大大減少了5維災(zāi)難維災(zāi)難:隨著數(shù)據(jù)維度增加,很多數(shù)據(jù)分析、數(shù)據(jù)挖掘的應(yīng)用變得非常困難從數(shù)據(jù)挖掘?qū)嵺`中可以得出,高維度數(shù)據(jù)的挖掘分析,會(huì)導(dǎo)致準(zhǔn)確率降低,質(zhì)量下降維度增加,則數(shù)據(jù)空間中,有效數(shù)據(jù)稀疏分類預(yù)測(cè),無(wú)足夠數(shù)據(jù)對(duì)象來(lái)創(chuàng)建模型,使模型準(zhǔn)確率降低聚類分析,數(shù)據(jù)密度定義和距離定義失去意義,使模型質(zhì)量下降其他數(shù)據(jù)分析算法也會(huì)遭遇不同的問(wèn)題6維規(guī)約技術(shù)特征子集選擇特征創(chuàng)建數(shù)據(jù)變換(下一小節(jié))主成分分析因子分析線性判別分析7選擇特征子集降低維度的一個(gè)有效的方法就是從整個(gè)數(shù)據(jù)集中選取一個(gè)子集來(lái)進(jìn)行處理,而該子集具有原始數(shù)據(jù)集的特征,稱為特征子集。8選擇特征子集方法消除冗余存在冗余數(shù)據(jù)時(shí),不會(huì)丟失信息例如數(shù)據(jù)中的各科成績(jī)與總分商品銷售額與消費(fèi)稅AgeMaritalstatusAddressIncomeIncomeCategoryCarpriceCarpricecategory5511272.00337.00356029153.00476.003281928.00213.901241426.00213.001251223.00111.301450976.00437.30344117144.00472.1034612075.00437.1034101026.00213.001290419.0019.601340089.00444.4035501772.00336.103280955.00328.202211220.0019.6015508283.00477.403350870.00335.403450448.00225.002210137.00218.402320028.00214.2019選擇特征子集方法消除冗余消除不相關(guān)數(shù)據(jù)例如
學(xué)號(hào)、電話號(hào)碼、郵政編碼
太平洋彼岸蝴蝶翅膀扇動(dòng)次數(shù)10選擇特征子集方法消除冗余消除不相關(guān)數(shù)據(jù)系統(tǒng)方法經(jīng)驗(yàn)方法(常識(shí)、行業(yè)領(lǐng)域知識(shí))將所有可能的特征子集作為輸入,用事先選定的數(shù)據(jù)挖掘算法進(jìn)行處理,對(duì)處理結(jié)果進(jìn)行比較評(píng)估,選取結(jié)果最好的那個(gè)子集作為特征子集。但是對(duì)于有n個(gè)屬性的數(shù)據(jù)集,其子集的窮舉組合有多達(dá)2n個(gè),n值較大的情況下這樣做已不現(xiàn)實(shí)。11選擇特征子集方法方差選擇法12方差選擇法是基于統(tǒng)計(jì)學(xué)中的方差概念,計(jì)算數(shù)據(jù)集中各個(gè)特征屬性的方差值,根據(jù)設(shè)定的閾值,選擇方差大于該閾值的特征。方差較大的特征更有可能包含對(duì)目標(biāo)變量有重要影響的信息,因此應(yīng)予以保留;反之,方差較小的特征可能包含冗余或無(wú)關(guān)信息,可以選擇舍棄,從而達(dá)到特征降維和提升模型性能的目的。例如,可刪除方差為零的特征(即所有數(shù)據(jù)樣本中具有相同值的特征),因?yàn)樵撎卣鳠o(wú)法解釋目標(biāo)變量的任何變化。選擇特征子集方法方差選擇法單因素特征選擇13在統(tǒng)計(jì)測(cè)試方式中,主要方法有:1)卡方檢驗(yàn):計(jì)算特征與目標(biāo)變量之間的卡方統(tǒng)計(jì)量,評(píng)估二者之間的獨(dú)立性??ǚ街翟酱螅硎咎卣髋c目標(biāo)變量的關(guān)聯(lián)性越強(qiáng)。常用于分類問(wèn)題;2)F檢驗(yàn):通過(guò)比較特征與目標(biāo)變量的方差變化,評(píng)估特征的重要性。F值越大,表示特征對(duì)目標(biāo)變量的影響越顯著。常用于捕捉線性關(guān)系;3)互信息:計(jì)算特征與目標(biāo)變量之間的互信息量,評(píng)估二者之間的共享信息??捎糜跈z測(cè)非線性相關(guān)性。單因素特征選擇,評(píng)估每個(gè)特征與目標(biāo)變量之間的關(guān)系,分析其對(duì)目標(biāo)變量的預(yù)測(cè)能力或重要性,從而選擇出最具代表性的特征子集。該方法的核心在于對(duì)每個(gè)特征進(jìn)行獨(dú)立評(píng)估,而不考慮特征之間的相互作用。單因素特征選擇通常通過(guò)統(tǒng)計(jì)測(cè)試或模型評(píng)估的方式,計(jì)算每個(gè)特征與目標(biāo)變量之間的相關(guān)性或重要性得分,然后根據(jù)得分高低選擇特征。選擇特征子集方法方差選擇法單因素特征選擇14在統(tǒng)計(jì)測(cè)試方式中,主要方法有:1)卡方檢驗(yàn);2)F檢驗(yàn);3)互信息。Pima
Indians
DiabetesDataSet皮馬印第安人糖尿病數(shù)據(jù)集選擇特征子集方法方差選擇法單因素特征選擇15在統(tǒng)計(jì)測(cè)試方式中,主要方法有:1)卡方檢驗(yàn);2)F檢驗(yàn);3)互信息。Pima
Indians
DiabetesDataSet皮馬印第安人糖尿病數(shù)據(jù)集選擇特征子集方法方差選擇法單因素特征選擇16在統(tǒng)計(jì)測(cè)試方式中,主要方法有:1)卡方檢驗(yàn);2)F檢驗(yàn);3)互信息。Pima
Indians
DiabetesDataSet皮馬印第安人糖尿病數(shù)據(jù)集選擇特征子集方法方差選擇法單因素特征選擇17在模型評(píng)估方式中,主要方法有:1)基于單變量模型的評(píng)估:如使用單變量線性回歸或邏輯回歸模型,評(píng)估每個(gè)特征對(duì)目標(biāo)變量的預(yù)測(cè)能力。通過(guò)模型的系數(shù)或重要性得分來(lái)選擇特征。2)基于特征重要性的評(píng)估:某些機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、梯度提升樹(shù)等)在訓(xùn)練過(guò)程中會(huì)計(jì)算每個(gè)特征的重要性,這些重要性得分可以直接用于特征選擇。單因素特征選擇忽略特征之間的相互作用,這可能導(dǎo)致重要信息丟失。對(duì)于非線性關(guān)系或復(fù)雜數(shù)據(jù)分布,該方法也可能無(wú)法準(zhǔn)確評(píng)估特征的重要性。選擇特征子集方法方差選擇法單因素特征選擇遞歸特征消除18遞歸特征消除的主要思想是反復(fù)構(gòu)建模型,按照一定指標(biāo)摘選出最好的(或者最差的)特征,再在剩余的特征上重復(fù)這個(gè)過(guò)程,直到遍歷了所有的特征。在這個(gè)過(guò)程中被摘選的次序就是特征的排序。[例]使用RFE方法,對(duì)手寫(xiě)數(shù)字圖像(8×8像素)中的各像素點(diǎn)的重要性進(jìn)行分析。選擇特征子集方法方差選擇法單因素特征選擇遞歸特征消除基于L1正則化的特征選擇(線性模型的特征選擇)19
選擇特征子集方法方差選擇法單因素特征選擇遞歸特征消除基于L1正則化的特征選擇(線性模型的特征選擇)20糖尿病數(shù)據(jù)集age0sex0bmi504.75bp189.78s10s20s3-112.57s40s5438.80s60局部特征分析可將數(shù)據(jù)的局部抽取出來(lái),用來(lái)代表和表征原始數(shù)據(jù)的特征,而該局部數(shù)據(jù)具有顯著的特征性。21例如,在人臉識(shí)別處理時(shí),就會(huì)采用局部特征分析的方法,選取具有代表性的眼睛、鼻子和嘴部的圖像進(jìn)行識(shí)別或甄別。局部特征分析在局部特征分析和數(shù)據(jù)抽取時(shí),關(guān)鍵點(diǎn)在于如何確定數(shù)據(jù)中的有代表性的特征數(shù)據(jù)或?qū)傩?,并且以最少的特征?shù)據(jù)或?qū)傩詠?lái)表征元數(shù)據(jù)的特征。22維規(guī)約處理時(shí),可將數(shù)據(jù)中具有顯著的特征性的局部抽取、生成或產(chǎn)生出來(lái),用來(lái)代表和表征原始數(shù)據(jù)的特征。特征創(chuàng)建有時(shí),所創(chuàng)建的特征屬性能夠更好的代表原數(shù)據(jù)所蘊(yùn)含的意義23方法特征提取模式識(shí)別特征創(chuàng)建24方法特征提取空間映射時(shí)域-頻域的映射多維空間映射特征創(chuàng)建傅里葉變換(Fouriertransform)小波變換(Wavelettransform)25方法特征提取空間映射特征構(gòu)建(FeatureConstruction/CombiningFeatures)原始數(shù)據(jù)集的特征具有必要的信息,但其形式不適合數(shù)據(jù)挖掘算法由原特征構(gòu)造的新特征可能比原特征更有用特征創(chuàng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高級(jí)管理人才面試問(wèn)題集與答案解析
- 運(yùn)營(yíng)內(nèi)控專員筆試考試題庫(kù)含答案
- 一級(jí)2026年注冊(cè)建筑師之設(shè)計(jì)前期與場(chǎng)地設(shè)計(jì)考試題庫(kù)300道含答案(達(dá)標(biāo)題)
- 2026年計(jì)算機(jī)知識(shí)題庫(kù)500道含完整答案(名師系列)
- 2026年材料員考試備考題庫(kù)及參考答案(研優(yōu)卷)
- 2026年大學(xué)生計(jì)算機(jī)考試題庫(kù)200道及答案【奪冠】
- 2026年基金從業(yè)資格證考試題庫(kù)500道及答案(必刷)
- 初中歷史教學(xué)與校園周邊環(huán)境美化規(guī)劃研究教學(xué)研究課題報(bào)告
- 中醫(yī)科主任面試題及答案
- 山科院現(xiàn)代紡織工藝與設(shè)備教案:機(jī)織教案
- 健身房合伙協(xié)議書(shū)
- 美甲師聘用合同協(xié)議
- 《儲(chǔ)能電站技術(shù)監(jiān)督導(dǎo)則》2580
- 保安人員安全知識(shí)培訓(xùn)內(nèi)容
- 垃圾池維修合同范例
- DB31∕T 310001-2020 船舶水污染物內(nèi)河接收設(shè)施配置規(guī)范
- 北京市西城區(qū)2023-2024學(xué)年六年級(jí)上學(xué)期語(yǔ)文期末試卷(含答案)
- DB11T 850-2011 建筑墻體用膩?zhàn)討?yīng)用技術(shù)規(guī)程
- 2024年天津市南開(kāi)區(qū)翔宇學(xué)校四上數(shù)學(xué)期末檢測(cè)模擬試題含解析
- LNG加氣站管道工程施工方案
- 油漆作業(yè)風(fēng)險(xiǎn)和隱患辨識(shí)、評(píng)估分級(jí)與控制措施一覽表
評(píng)論
0/150
提交評(píng)論