《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.6數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)變換_第1頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.6數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)變換_第2頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.6數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)變換_第3頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.6數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)變換_第4頁
《數(shù)據(jù)挖掘原理與應(yīng)用 第2版 》課件 3.6數(shù)據(jù)準(zhǔn)備-數(shù)據(jù)變換_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章數(shù)據(jù)準(zhǔn)備數(shù)據(jù)變換數(shù)據(jù)變換數(shù)據(jù)變換是指將數(shù)據(jù)變換成適合于數(shù)據(jù)挖掘的形式數(shù)據(jù)變換的目的從另一個(gè)角度、另一個(gè)域發(fā)現(xiàn)數(shù)據(jù)的更為顯著的特征提升數(shù)據(jù)處理算法的效率、效果例如,將語音數(shù)據(jù)變換為頻率譜,則更便于分析語音的特征數(shù)據(jù)變換方法屬性變換(變量變換)離散化主成分分析(PCA)因子分析線性判別分析獨(dú)立成分分析屬性變換(變量變換)

目標(biāo):使整個(gè)值的集合具有特定的性質(zhì)數(shù)據(jù)集合中的最小值,映射變換為0,最大值為1,其他數(shù)據(jù)依序變換屬性變換(變量變換)歸一化將數(shù)據(jù)映射變換到[0,1]區(qū)間目的便于進(jìn)行比較便于進(jìn)行加權(quán)處理idCountryCarMPGWeightDrive_RatioHorsepowerDisplacementCylinders0U.S.AMCConcordD/L18.13.412.7312025861U.S.AMCSpirit27.42.673.088012142GermanyAudi500020.32.833.910313153GermanyBMW320i21.52.63.6411012144U.S.BuickCenturySpecial20.63.382.7310523165U.S.BuickEstateWagon16.94.362.7315535086U.S.BuickSkylark28.42.672.539015147U.S.Chevette302.1553.7689848U.S.ChevyCapriceClassic173.842.4113030589U.S.ChevyCitation28.82.5952.69115173610U.S.ChevyMalibuWagon19.23.6052.56125267811U.S.ChryslerLeBaronWagon18.53.942.45150360812JapanDatsun21031.82.023.76585413JapanDatsun51027.22.33.5497119414JapanDatsun810222.8153.797146615U.S.DodgeAspen18.63.622.71110225616JapanDodgeColt35.11.9152.978098417U.S.DodgeOmni30.92.233.3775105418U.S.DodgeStRegis18.23.832.45135318819ItalyFiatStrada37.32.133.16991420U.S.FordCountrySquireWagon15.54.0542.26142351821U.S.FordLTD17.63.7252.26129302822U.S.FordMustang426.52.5853.0888140423U.S.FordMustangGhia21.92.913.08109171624JapanHondaAccordLX29.52.1353.056898425JapanMazdaGLC34.11.9753.736586426U.S.MercuryGrandMarquis16.53.9552.26138351827U.S.MercuryZephyr20.83.073.0885200628U.S.OldsOmega26.82.72.84115173629FrancePeugeot694SL16.23.413.58133163630U.S.PlymouthHorizon34.22.23.3770105431U.S.PontiacPhoenix33.52.5562.6990151432SwedenSaab99GLE21.62.7953.77115121433JapanToyotaCorona27.52.563.0595134434SwedenVolvo240GL173.143.5125163635GermanyVWDasher30.52.193.77897436GermanyVWRabbit31.91.9253.787189437GermanyVWScirocco31.51.993.7871894屬性變換(變量變換)歸一化將數(shù)據(jù)映射變換到[0,1]區(qū)間目的便于進(jìn)行比較便于進(jìn)行加權(quán)處理算法需要屬性變換(變量變換)歸一化將數(shù)據(jù)映射變換到[0,1]區(qū)間目的最小-最大規(guī)范化將數(shù)據(jù)映射到[min,max]屬性變換(變量變換)

8可以用中位數(shù)取代均值可以用絕對(duì)標(biāo)準(zhǔn)差(absolutestandarddeviation)取代標(biāo)準(zhǔn)差屬性變換(AttributeTransformation)

離散化和概念分層10分箱基本思想對(duì)于連續(xù)變量,在取值區(qū)間中指定n

1個(gè)分割點(diǎn)(splitpoint)將其劃分為n個(gè)區(qū)間將一個(gè)區(qū)間中的所有值映射到同一個(gè)分類值離散化11離散化問題的關(guān)鍵選擇多少個(gè)分割點(diǎn)?分割點(diǎn)位置如何確定?分割點(diǎn)數(shù)目一般由用戶確定分割點(diǎn)位置可以用非監(jiān)督/監(jiān)督方法確定結(jié)果表示區(qū)間:{(x0,x1],(x1,x2],...,(xn-1,xn)},其中x0和xn可以分別為-

或+

不等式:x0<x≤x1,...,xn-1<x<xn離散化差別:是否使用類信息12為什么要離散化數(shù)據(jù)規(guī)約,維規(guī)約一些算法要求離散屬性數(shù)據(jù)產(chǎn)生概念分層結(jié)構(gòu),可在不同抽象層進(jìn)行挖掘離散化減少屬性值個(gè)數(shù),便于挖掘,結(jié)果知識(shí)表達(dá)更簡潔、更易于理解、更易使用13為什么要離散化數(shù)據(jù)規(guī)約,維規(guī)約一些算法要求離散屬性數(shù)據(jù)產(chǎn)生概念分層結(jié)構(gòu),可在不同抽象層進(jìn)行挖掘消除奇異值帶來的影響離散化高中低14【例】給定一組數(shù)據(jù),進(jìn)行離散化離散化DataEqualintervalwidthEqualfrequencyK-meansK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。采用:等間隔(等寬)等頻K-均值15離散化的特例二元化二元化方法確定一個(gè)分割點(diǎn),劃分為0/1二元分類值16什么是“二元化”?一些算法要求二元屬性數(shù)據(jù)【例】一組成績,進(jìn)行二元化處理。學(xué)號(hào)成績192286375468554645774873971106911681265離散化的特例二元化二元化方法17【例】5個(gè)值{awful,poor,OK,good,great}的分類變量二元化。需要三個(gè)二元變量x1、x2、x3

屬性值整數(shù)值x1x2x3awful0000poor1001OK2010good3011great4100屬性值整數(shù)值awful0poor1OK2good3great4屬性值awfulpoorOKgoodgreat離散化的特例二元化二元化方法18如果屬性具有m個(gè)值,則將每個(gè)原始值唯一地映射到區(qū)間[0,m

1]中的一個(gè)整數(shù)(保序)把m個(gè)整數(shù)都變換成一個(gè)二進(jìn)制數(shù)需要n=

log2m

個(gè)二進(jìn)位表示這些整數(shù)用n個(gè)二元屬性表示這些二進(jìn)制數(shù)缺點(diǎn):建立了屬性之間的聯(lián)系(如good值用x1=0,x2=1,x3=1表示)不適合非對(duì)稱屬性處理假定數(shù)據(jù)屬于不同類確定分割點(diǎn)的原則極大化區(qū)間純度度量純度的方法監(jiān)督離散化最純:區(qū)間中的數(shù)據(jù)都屬于一個(gè)類別最不純:區(qū)間中的數(shù)據(jù)以相同比例屬于各個(gè)類別熵是一種不純度度量分類錯(cuò)誤率……19主成分分析(PCA)是一種設(shè)法將原來變量重新組合成一組新的相互無關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計(jì)方法。20把多項(xiàng)指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo),以達(dá)到降維的目的主成分分析x2x1ee⊥21主成分分析主成分分析法在數(shù)學(xué)上是一種處理降維的方法,其基本原理是借助于一個(gè)正交變換,將一組分量相關(guān)的原隨機(jī)向量(p個(gè)),重新組合轉(zhuǎn)化成分量不相關(guān)的新隨機(jī)向量(m個(gè)元素)來綜合代表原分量。22主成分分析23處理過程:1.數(shù)據(jù)Z-score標(biāo)準(zhǔn)化;2.計(jì)算數(shù)據(jù)的協(xié)方差矩陣;3.協(xié)方差矩陣求特征值、特征向量;4.保留特征值顯著的成分(特征向量),構(gòu)建降維的表達(dá)式。主成分分析【例】24產(chǎn)生數(shù)據(jù)主成分分析【例】25標(biāo)準(zhǔn)化處理

xyzx1.000.80-0.44y0.801.000.07z-0.440.071.00協(xié)方差矩陣主成分分析【例】26提取特征值、特征向量

xyzx1.000.80-0.44y0.801.000.07z-0.440.071.001.88,占62.83%,累積62.83%1.06,占35.30%,累積98.13%0.06,占1.87%,累積100.00%特征值=0.0562,1.8848,1.059特征向量=

[-0.70

0.62, -0.37]

[0.72

0.62, -0.31]

[-0.04 0.48,

0.88]特征值選取

在線求特征值和特征向量/主成分分析【例】27新的隨機(jī)變量表示特征向量=

[-0.70

0.62, -0.37]

[0.72

0.62, -0.31]

[-0.04 0.48,

0.88]

主成分分析【例】28原始數(shù)據(jù)降維

主成分分析【例3-3】素材_地區(qū)經(jīng)濟(jì)發(fā)展競(jìng)爭力評(píng)價(jià).csv29主成分分析【例3-3】因子分析檢驗(yàn)30主成分分析(PCA)【例3-3】主成分分析31主成分分析(PCA)【例3-3】32省份z1z2z3……………………………………………………主成分分析(PCA)缺點(diǎn)變換后得到的主成分,其釋義會(huì)帶有一定的模糊性,難以給出符合實(shí)際背景和意義的解釋,不如原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。當(dāng)主成分的因子負(fù)荷的符號(hào)有正有負(fù)時(shí),綜合評(píng)價(jià)函數(shù)意義就更為不明確。33主成分分析(PCA)注意抽取的主成分變量個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p否則維數(shù)降低的利可能抵不過主成分因子喪失原始含義的弊34主成分分析(PCA)注意相矛盾:保證所抽取的主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平35需進(jìn)行仔細(xì)比較,綜合權(quán)衡即變量降維后的信息量須保持在一個(gè)較高水平上主成分分析(PCA)主成分分析法在數(shù)學(xué)上是一種處理降維的方法,其基本原理是借助于一個(gè)正交變換,將一組分量相關(guān)的原隨機(jī)向量(p個(gè)),重新組合轉(zhuǎn)化成分量不相關(guān)的新隨機(jī)向量(m個(gè)元素)來綜合代表原分量。3637因子分析因子分析(FactorAnalysis)通過研究數(shù)據(jù)變量的相關(guān)系數(shù)矩陣,將相關(guān)性較高的變量歸為同一個(gè)組,同時(shí)使不同組的變量間的相關(guān)性較低。每組變量代表一個(gè)基本結(jié)構(gòu),將其用一個(gè)不可觀測(cè)的綜合變量表示,就得到了公共因子。通過因子分析,可以把變量間錯(cuò)綜復(fù)雜的關(guān)系歸結(jié)成少數(shù)幾個(gè)綜合因子,其個(gè)數(shù)一定少于原始變量的個(gè)數(shù),但又包含原始變量的主要信息,所以因子分析也可以用于數(shù)據(jù)的維度規(guī)約。38因子分析

39因子分析

40因子分析

因子1因子2因子3-0.8850-0.38320.1211-0.60650.59840.2710-0.9118-0.16070.2121-0.46550.72260.3683-0.4860-0.7383-0.27500.5085-0.25180.79670.6194-0.59440.4378-0.8228-0.42650.211041因子分析【例3?5】對(duì)于各省市經(jīng)濟(jì)數(shù)據(jù),進(jìn)行因子分析。4)旋轉(zhuǎn)因子載荷矩陣。使用方差最大正交旋轉(zhuǎn)(varimax)法,旋轉(zhuǎn)后的因子載荷為:

因子1因子2因子3國內(nèi)生產(chǎn)-0.95490.1253-0.1316居民消費(fèi)水平-0.21660.8408-0.2135固定資產(chǎn)投資-0.87120.3522-0.1382職工平均工資-0.05070.9268-0.1139貨物周轉(zhuǎn)量-0.7521-0.5053-0.1894居民消費(fèi)價(jià)格指數(shù)0.1346-0.00860.9688商品零售價(jià)格指數(shù)0.1021-0.49400.8211工業(yè)總產(chǎn)值-0.94390.1110-0.0154因子1-〉“生產(chǎn)指標(biāo)”={國內(nèi)生產(chǎn),固定資產(chǎn)投資,

貨物周轉(zhuǎn)量,工業(yè)總產(chǎn)值}因子2-〉“消費(fèi)指標(biāo)”={居民消費(fèi)水平,

職工平均工資}因子3-〉“價(jià)格指標(biāo)”={居民消費(fèi)價(jià)格指數(shù),

商品零售價(jià)格指數(shù)}42因子分析【例3?5】對(duì)于各省市經(jīng)濟(jì)數(shù)據(jù),進(jìn)行因子分析。5)計(jì)算因子得分。處理得到的過變換,以因子表示的原始數(shù)據(jù)為:地區(qū)生產(chǎn)指標(biāo)消費(fèi)指標(biāo)價(jià)格指標(biāo)廣東2.4211-0.89020.0881江蘇1.87410.86490.3555上海1.6775-2.25032.6590…………青海-1.2323-0.73720.2426貴州-1.47120.40411.1262因子分析在市場(chǎng)調(diào)研、心理學(xué)、社會(huì)學(xué)等領(lǐng)域都有著廣泛的應(yīng)用。因子分析可以將復(fù)雜的觀測(cè)數(shù)據(jù)簡化為少數(shù)幾個(gè)公共因子,更容易理解和解釋數(shù)據(jù)結(jié)構(gòu)和模式,幫助識(shí)別觀測(cè)數(shù)據(jù)變量間的潛在關(guān)系,揭示的數(shù)據(jù)的結(jié)構(gòu)和模式,是數(shù)據(jù)降維、模式識(shí)別等處理的重要工具,也為進(jìn)一步的統(tǒng)計(jì)分析和數(shù)據(jù)挖掘提供了基礎(chǔ)。將高維的模式樣本投影到最佳鑒別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,即模式在該空間中有最佳的可分離性線性判別分析

線性判別分析-原理

應(yīng)用:類內(nèi)散度矩陣廣泛用于分類問題。例如,在人臉識(shí)別領(lǐng)域中,可以使用類內(nèi)散度矩陣來衡量不同人臉之間的相似性和差異性。不區(qū)分類別,整體(類內(nèi))散度矩陣類協(xié)方差矩陣線性判別分析-原理

線性判別分析-原理

則,經(jīng)過推導(dǎo):

線性判別分析-原理最佳鑒別映射?定義目標(biāo)函數(shù):

使映射后的兩個(gè)類別的樣本中心點(diǎn)盡量分離。線性判別分析-原理最佳鑒別映射?定義目標(biāo)函數(shù):

線性判別分析-原理最佳鑒別映

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論