數(shù)據(jù)挖掘2 第二章 數(shù)據(jù)探索和預(yù)處理_第1頁
數(shù)據(jù)挖掘2 第二章 數(shù)據(jù)探索和預(yù)處理_第2頁
數(shù)據(jù)挖掘2 第二章 數(shù)據(jù)探索和預(yù)處理_第3頁
數(shù)據(jù)挖掘2 第二章 數(shù)據(jù)探索和預(yù)處理_第4頁
數(shù)據(jù)挖掘2 第二章 數(shù)據(jù)探索和預(yù)處理_第5頁
已閱讀5頁,還剩176頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章

數(shù)據(jù)探索和預(yù)處理1西安郵電大學(xué)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)把完整的數(shù)據(jù)挖掘過程定義為六個(gè)標(biāo)準(zhǔn)階段,分別是業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、創(chuàng)建模型、模型評(píng)估和模型應(yīng)用。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘流程中的一個(gè)重要環(huán)節(jié),具體工作主要包括數(shù)據(jù)探索和數(shù)據(jù)預(yù)處理引言2西安郵電大學(xué)數(shù)據(jù)準(zhǔn)備

70%工作量輸入數(shù)據(jù)的質(zhì)量決定了數(shù)據(jù)挖掘模型輸出結(jié)果的質(zhì)量,即數(shù)據(jù)決定了模型的上限。沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果!引言3西安郵電大學(xué)西安郵電大學(xué)4數(shù)據(jù)挖掘過程中最費(fèi)時(shí)費(fèi)力的階段是()數(shù)據(jù)采集數(shù)據(jù)探索和預(yù)處理數(shù)據(jù)建模挖掘數(shù)據(jù)可視化展示ABCD提交單選題1分4.數(shù)據(jù)統(tǒng)計(jì)描述圖形數(shù)據(jù)探索5.數(shù)據(jù)相似性度量

3.數(shù)據(jù)統(tǒng)計(jì)描述2.數(shù)據(jù)屬性類型1.數(shù)據(jù)探索含義和目的西安郵電大學(xué)5西安郵電大學(xué)1.數(shù)據(jù)探索含義和目的

數(shù)據(jù)探索就是對(duì)調(diào)查、觀測(cè)所得到的一些初步的雜亂無章的數(shù)據(jù),在盡可能少的先驗(yàn)假設(shè)下進(jìn)行處理,通過檢驗(yàn)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、繪制圖表、計(jì)算某些特征量等手段,對(duì)樣本數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進(jìn)行分析的過程,以便更好地理解它的特殊性質(zhì)。數(shù)據(jù)探索是從數(shù)據(jù)質(zhì)量和數(shù)據(jù)特征等兩個(gè)角度進(jìn)行分析。*1977年美國(guó)統(tǒng)計(jì)學(xué)家JohnW.Tukey出版了《探索性數(shù)據(jù)分析》引起統(tǒng)計(jì)學(xué)界的關(guān)注,統(tǒng)計(jì)建模應(yīng)該結(jié)合實(shí)際數(shù)據(jù),而不是從理論假設(shè)出發(fā)構(gòu)建6西安郵電大學(xué)1.數(shù)據(jù)探索含義和目的數(shù)據(jù)探索的主要目的:有助于選擇合適的數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析技術(shù)可以通過對(duì)數(shù)據(jù)進(jìn)行直觀檢查來發(fā)現(xiàn)模式數(shù)據(jù)探索中使用的某些技術(shù)(如可視化)可以用于理解和解釋數(shù)據(jù)挖掘結(jié)果。7西安郵電大學(xué)4.數(shù)據(jù)統(tǒng)計(jì)描述圖形數(shù)據(jù)屬性類型

5.數(shù)據(jù)相似性度量

3.數(shù)據(jù)統(tǒng)計(jì)描述2.數(shù)據(jù)屬性類型1.數(shù)據(jù)探索含義和目的西安郵電大學(xué)8西安郵電大學(xué)數(shù)據(jù)屬性類型

數(shù)據(jù)集:數(shù)據(jù)集是數(shù)據(jù)挖掘的對(duì)象,由數(shù)據(jù)對(duì)象組成,又稱樣本、實(shí)例、數(shù)據(jù)點(diǎn)或元組。屬性(attribute):一個(gè)數(shù)據(jù)字段,表示數(shù)據(jù)對(duì)象的一個(gè)特征。屬性向量(或特征向量):用來描述一個(gè)給定對(duì)象的一組屬性。屬性有不同類型:標(biāo)稱屬性(nominalattribute)序數(shù)屬性(ordinalattribute)數(shù)值屬性(numericalattribute)離散屬性與連續(xù)屬性9西安郵電大學(xué)數(shù)據(jù)屬性類型(定性)

標(biāo)稱屬性(nominalattribute)標(biāo)稱屬性的值是一些符號(hào)或?qū)嵨锏拿Q,每個(gè)值代表某種類別、編碼或狀態(tài),是分類型的屬性。這些值不必具有有意義的序,并且不是定量的。一種比較常見的標(biāo)稱屬性是二元屬性,只有兩個(gè)類別或狀態(tài):0或1,其中0常表示不出現(xiàn),1表示出現(xiàn)。如果將0和1對(duì)應(yīng)于false和true,二元屬性則為布爾屬性。序數(shù)屬性(ordinalattribute)序數(shù)屬性取值之間具有有意義的序或秩評(píng)定,但相繼值之間的差是未知的。例如,學(xué)生的成績(jī)屬性可以分為優(yōu)、良、中、差四個(gè)等級(jí)。然而,具體“優(yōu)”比“良”好多少是未知的。

標(biāo)稱屬性和序數(shù)屬性都是定性的,只描述樣本的特征,而不給出實(shí)際大小或數(shù)量。定性屬性通常是代表類別!10西安郵電大學(xué)數(shù)據(jù)屬性類型(定量)

數(shù)值屬性(numericalattribute)數(shù)值屬性是可度量的量,用整數(shù)或?qū)崝?shù)值表示,有區(qū)間標(biāo)度和比率標(biāo)度兩種類型。a)區(qū)間標(biāo)度(interval-scaled)屬性,區(qū)間標(biāo)度屬性用相等的單位尺度度量。區(qū)間屬性的值有序,屬性允許比較和定量評(píng)估值之間的差。不一定存在真正的零點(diǎn)。對(duì)于沒有真正零點(diǎn)的攝氏溫度和華氏溫度,其零值不表示沒有溫度。例如,攝氏溫度的度量單位是水在標(biāo)準(zhǔn)大氣壓下沸點(diǎn)溫度與冰點(diǎn)溫度之差的1/100。盡管可以計(jì)算溫度之差,但因沒有真正的零值,因此不能說10℃比5℃溫暖2倍。b)比率標(biāo)度(ratio-scaled)屬性:比率標(biāo)度屬性的度量是比率的,可以用比率來描述兩個(gè)值,即一個(gè)值是另一個(gè)值的倍數(shù),也可以計(jì)算值之間的差。11西安郵電大學(xué)離散屬性與連續(xù)屬性

另外一個(gè)角度,機(jī)器學(xué)習(xí)領(lǐng)域的分類算法常把屬性分為離散的或連續(xù)的屬性。

離散屬性具有有限或無限可數(shù)個(gè)值。如學(xué)生成績(jī)屬性,優(yōu)、良、中、差;如果一個(gè)屬性不是離散的,則它是連續(xù)的,通常“數(shù)值屬性”和“連續(xù)屬性”可以互換使用

在數(shù)據(jù)挖掘算法中:不同類型有不同的處理方法數(shù)據(jù)屬性類型

12西安郵電大學(xué)4.數(shù)據(jù)統(tǒng)計(jì)描述圖形數(shù)據(jù)探索5.數(shù)據(jù)相似性度量

3.數(shù)據(jù)統(tǒng)計(jì)描述2.數(shù)據(jù)屬性類型1.數(shù)據(jù)探索含義和目的西安郵電大學(xué)13西安郵電大學(xué)數(shù)據(jù)中心趨勢(shì)度量

均值數(shù)據(jù)是的平均值

中位數(shù)是常用的數(shù)據(jù)中心度量,是有序數(shù)據(jù)值的中間值

眾數(shù)是集合中出現(xiàn)最頻繁的值

14西安郵電大學(xué)度量數(shù)據(jù)散布

1.極差、四分位數(shù)和四分位數(shù)極差極差是最大值與最小值之差

分位數(shù)是數(shù)據(jù)集上每隔一定間隔上的點(diǎn),把數(shù)據(jù)劃分成基本上大小相等的連貫集合。

四分位數(shù)給出分布的中心、散布和形狀的某種指示。第1個(gè)四分位數(shù)記作Q1,是第25個(gè)百分位數(shù),它砍掉數(shù)據(jù)的最低的1/4。第2個(gè)四分位數(shù)是第50個(gè)百分位數(shù),作為中位數(shù),它給出數(shù)據(jù)分布的中心。第3個(gè)四分位數(shù)記作Q3,是第75個(gè)百分位數(shù),它砍掉數(shù)據(jù)的最低的3/4(或最高的1/4)。四分位間距:第1個(gè)和第3個(gè)四分位數(shù)之間的距離是散布的一種簡(jiǎn)單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。15西安郵電大學(xué)

2.方差與標(biāo)準(zhǔn)差:代表數(shù)據(jù)分布的散布程度,是數(shù)據(jù)散布的度量。低標(biāo)準(zhǔn)差意味數(shù)據(jù)趨向于靠近均值;而高標(biāo)準(zhǔn)差表示數(shù)據(jù)散布在一個(gè)大的值域中。度量數(shù)據(jù)散布16西安郵電大學(xué)度量數(shù)據(jù)散布3.協(xié)方差和協(xié)方差矩陣協(xié)方差(Covariance)在概率論和統(tǒng)計(jì)學(xué)中用于衡量?jī)蓚€(gè)變量的總體誤差。n個(gè)樣本的樣本協(xié)方差計(jì)算公式:17西安郵電大學(xué)度量數(shù)據(jù)散布3.協(xié)方差和協(xié)方差矩陣協(xié)方差矩陣(Covariancematrix)由數(shù)據(jù)集中兩兩變量(屬性)的協(xié)方差組成。矩陣的第(i,j)個(gè)元素是數(shù)據(jù)集中第i和第j個(gè)元素的協(xié)方差。例如,三維數(shù)據(jù)的協(xié)方差矩陣如式所示:18西安郵電大學(xué)4.數(shù)據(jù)統(tǒng)計(jì)描述圖形數(shù)據(jù)探索5.數(shù)據(jù)相似性度量

3.數(shù)據(jù)統(tǒng)計(jì)描述2.數(shù)據(jù)屬性類型1.數(shù)據(jù)探索含義和目的西安郵電大學(xué)19西安郵電大學(xué)1.作圖軟件比較2.常規(guī)圖表

2.1直方圖2.4線圖(半對(duì)數(shù)線圖)2.2條形圖(含分列散點(diǎn)圖)2.5餅圖2.3箱式圖2.6小提琴圖

目錄20西安郵電大學(xué)Excel2010Graphpad6.02SigmaPlotV12.5OriginPro9.1所用軟件21西安郵電大學(xué)作圖軟件比較GraphpadSigmaplotOriginpro優(yōu)點(diǎn)1.多應(yīng)用于生物醫(yī)學(xué)領(lǐng)域2.作圖簡(jiǎn)單,輸完數(shù)據(jù)即刻生成圖表3.曲線擬合功能強(qiáng)大1.適合論文發(fā)表用圖2.運(yùn)行速度快,圖表種類多3.為作圖而設(shè)計(jì)1.統(tǒng)計(jì)與作圖功均強(qiáng)2.圖表種類多,適合做復(fù)雜圖表3.幫助文件可讀性強(qiáng)缺點(diǎn)1.圖片不夠美觀2.功能簡(jiǎn)單,適用于簡(jiǎn)單圖表3.統(tǒng)計(jì)功能不強(qiáng)1.統(tǒng)計(jì)功能不夠強(qiáng)2.部分電腦不兼容3.自學(xué)時(shí)的幫助文件可讀性差1.圖表美觀性差2.操作較為復(fù)雜22西安郵電大學(xué)

直方圖

直方圖的應(yīng)用范圍:

在科研領(lǐng)域其主要是用于查看數(shù)據(jù)是否符合正態(tài)分布,在其他領(lǐng)域不一定是看是否符合正態(tài)分布,而僅考察數(shù)據(jù)分布情況。直方圖(histogram)又稱頻率直方圖(frequencyhistogram),是一種顯示數(shù)據(jù)分布情況的柱形圖,即不同數(shù)據(jù)出現(xiàn)的頻率。通過這些高度不同的柱形,可以直觀、快速地觀察數(shù)據(jù)的分散程度和中心趨勢(shì)。23西安郵電大學(xué)

直方圖24西安郵電大學(xué)條形圖—堆積條圖25西安郵電大學(xué)條形圖—百分堆積條圖26西安郵電大學(xué)

散點(diǎn)圖散點(diǎn)圖又稱散點(diǎn)分布圖,是因變量隨自變量而變化的大致趨勢(shì)圖。數(shù)據(jù)點(diǎn)是在直角坐標(biāo)系平面上,以一個(gè)變量為橫坐標(biāo),另一變量為縱坐標(biāo),利用散點(diǎn)(坐標(biāo)點(diǎn))的分布形態(tài)反映變量統(tǒng)計(jì)關(guān)系的一種圖形。它的特點(diǎn)是能以圖形方式直觀表現(xiàn)出影響因素和預(yù)測(cè)對(duì)象之間的總體關(guān)系趨勢(shì)。學(xué)生身高(cm)體重(kg)A16755B15650C18570D17565E18070F15050G17060H1575527西安郵電大學(xué)箱形圖

箱形圖是在1977年由美國(guó)的統(tǒng)計(jì)學(xué)家約翰·圖基(JohnTukey)發(fā)明的。由五個(gè)數(shù)值點(diǎn)組成:

最小值(min),下四分位數(shù)(Q1),

中位數(shù)(median),上四分位數(shù)(Q3)

最大值(max)帶有隔間的盒子:下四分位數(shù)、中位數(shù)、上四分位數(shù)胡須(whisker):上四分位數(shù)到最大值之間建立一條延伸線。

28西安郵電大學(xué)“離群點(diǎn)”或“異常值”,為了不因這些少數(shù)的離群數(shù)據(jù)導(dǎo)致整體特征的偏移,將這些離群點(diǎn)單獨(dú)繪出,一般情況下,根據(jù)經(jīng)驗(yàn)異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值。通常情況下,最大(最小)觀測(cè)值設(shè)置為與四分位數(shù)值間距離為1.5個(gè)IQR(四分位數(shù)極差),箱形圖中的胡須的兩極修改成最小觀測(cè)值與最大觀測(cè)值。

最小觀測(cè)值為min=Q1-1.5*IQR,如果存在離群點(diǎn)小于最小觀測(cè)值,則胡須下限為最小觀測(cè)值,離群點(diǎn)單獨(dú)以點(diǎn)繪出。如果沒有比最小觀測(cè)值小的數(shù),則胡須下限為最小值。

最大觀測(cè)值為max=Q3+1.5*IQR,如果存在離群點(diǎn)大于最大觀測(cè)值,則胡須上限為最大觀測(cè)值,離群點(diǎn)單獨(dú)以點(diǎn)匯出。如果沒有比最大觀測(cè)值大的數(shù),則胡須上限為最大值。箱形圖29西安郵電大學(xué)箱形圖例子

西安市在崗工作人員年薪值(以千元為單位):{50,51,67,70,72,72,76,80,83,90,90,130};北京市在崗工作人員年薪值(以千元為單位):{46,71,90,97,98,99,99,100,109,115,120,130}30西安郵電大學(xué)用于顯示數(shù)據(jù)分布及其概率密度。結(jié)合了箱形圖和密度圖的特征,主要用來顯示數(shù)據(jù)的分布形狀。中間黑色粗條表示四分位數(shù)范圍,延伸幼細(xì)黑線代表95%置信區(qū)間,白點(diǎn)則為中位數(shù)。

小提琴圖(ViolinPlot)31西安郵電大學(xué)4.數(shù)據(jù)統(tǒng)計(jì)描述圖形數(shù)據(jù)探索5.數(shù)據(jù)相似性度量

3.數(shù)據(jù)統(tǒng)計(jì)描述2.數(shù)據(jù)屬性類型1.數(shù)據(jù)探索含義和目的西安郵電大學(xué)32西安郵電大學(xué)數(shù)據(jù)相似性度量在數(shù)據(jù)挖掘的大多應(yīng)用場(chǎng)景,往往需要度量數(shù)據(jù)之間的相似(相異)程度,相似性(或相異性)度量是很多數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),如聚類、最近鄰分類和離群點(diǎn)檢測(cè)等。兩個(gè)對(duì)象之間的相似度的非正式定義是這兩個(gè)對(duì)象相似程度的數(shù)值度量。因而,兩個(gè)對(duì)象越相似,它們的相似度就越高。對(duì)象越類似,它們的相異度就越低。通常,術(shù)語距離(distance)用作相異度的同義詞,距離常常用來表示特定類型的相異度。33西安郵電大學(xué)數(shù)據(jù)相似性度量距離越大,相似性越小。點(diǎn)間距離與類間距離類間距離基于點(diǎn)間距離計(jì)算距離函數(shù)應(yīng)同時(shí)滿足

1.d(i,j)≥02.d(i,i)=03.d(i,j)=d(j,i)4.d(i,j)≤d(i,k)+d(k,j)34西安郵電大學(xué)數(shù)據(jù)相似性度量1.明考夫斯基距離令dij

表示樣品Xi與Xj的距離35西安郵電大學(xué)數(shù)據(jù)相似性度量明考夫斯基距離的缺陷:容易受變量的量綱影響.

沒有考慮變量間的相關(guān)性

兩種改進(jìn)措施:“馬氏距離”法變量標(biāo)準(zhǔn)化處理法36西安郵電大學(xué)數(shù)據(jù)相似性度量 2.馬氏距離兩個(gè)樣品間的馬氏距離為:

馬氏距離又稱為廣義歐氏距離。優(yōu)點(diǎn):

(1)考慮了觀測(cè)變量之間的相關(guān)性。

如果各變量之間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣。(2)不再受各指標(biāo)量綱的影響。37西安郵電大學(xué)數(shù)據(jù)相似性度量距離選擇的原則(1)要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理,則通常就可c采用歐氏距離。(3)要考慮研究對(duì)象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)不同做出具體分折。實(shí)際中,聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定最合適的距離測(cè)度方法。38西安郵電大學(xué)數(shù)據(jù)矩陣與相異性矩陣

數(shù)據(jù)矩陣:又稱對(duì)象-屬性結(jié)構(gòu):這種數(shù)據(jù)結(jié)構(gòu)用關(guān)系表的形式或n×p(n個(gè)對(duì)象×p個(gè)屬性)矩陣存放n個(gè)數(shù)據(jù)對(duì)象

相異性矩陣:又稱對(duì)象-對(duì)象結(jié)構(gòu):存放n個(gè)對(duì)象兩兩之間的鄰近度(proximity),通常用一個(gè)n×n矩陣表示

39西安郵電大學(xué)標(biāo)稱屬性相異性度量標(biāo)稱屬性的值是一些符號(hào)或事物的名稱,可以取兩個(gè)或多個(gè)離散狀態(tài)。兩個(gè)對(duì)象i和j之間的相異性可以根據(jù)不匹配率來計(jì)算:其中,m是匹配的數(shù)目(即i和j取值相同狀態(tài)的屬性數(shù)),而p是刻畫對(duì)象的屬性總數(shù)。相似性可以用下式計(jì)算:40西安郵電大學(xué)西安郵電大學(xué)41對(duì)象i和對(duì)象j距離函數(shù)d(i,j)一般滿足性質(zhì)()

d(i,j)≥0

d(i,i)=0

d(i,j)≥0

d(i,j)≤d(i,k)+d(k,j)ABCD提交多選題1分4.數(shù)據(jù)變換數(shù)據(jù)預(yù)處理5.數(shù)據(jù)歸約

3.數(shù)據(jù)集成2.數(shù)據(jù)清理1.數(shù)據(jù)預(yù)處理含義西安郵電大學(xué)42西安郵電大學(xué)數(shù)據(jù)預(yù)處理

60%工作量輸入數(shù)據(jù)的質(zhì)量決定了數(shù)據(jù)挖掘模型輸出結(jié)果的質(zhì)量,即數(shù)據(jù)決定了模型的上限。沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果!數(shù)據(jù)預(yù)處理43西安郵電大學(xué)機(jī)器學(xué)習(xí)算法地圖44西安郵電大學(xué)45數(shù)據(jù)預(yù)處理準(zhǔn)確性完整性一致性時(shí)效性可信性可解釋性數(shù)據(jù)質(zhì)量的含義

西安郵電大學(xué)現(xiàn)實(shí)世界的數(shù)據(jù)不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集數(shù)據(jù)。含噪聲的包含錯(cuò)誤或存在偏離期望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導(dǎo)出46西安郵電大學(xué)47導(dǎo)致不正確數(shù)據(jù)的原因數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯(cuò)誤數(shù)據(jù)集成所表現(xiàn)出來的錯(cuò)誤數(shù)據(jù)傳輸過程所引入的錯(cuò)誤

西安郵電大學(xué)48數(shù)據(jù)預(yù)處理的形式數(shù)據(jù)清理補(bǔ)充缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn),解決不一致數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方或文件數(shù)據(jù)變換規(guī)范化、數(shù)據(jù)離散化、概念分層產(chǎn)生數(shù)據(jù)歸約簡(jiǎn)化數(shù)據(jù)、但產(chǎn)生同樣或相似的結(jié)果西安郵電大學(xué)49西安郵電大學(xué)數(shù)據(jù)預(yù)處理的形式50西安郵電大學(xué)數(shù)據(jù)預(yù)處理的緣由現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過程的重要步驟。檢測(cè)異常數(shù)據(jù)、盡早地調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),將在決策過程中得到高回報(bào)。51西安郵電大學(xué)西安郵電大學(xué)52數(shù)據(jù)預(yù)處理通常包括()datacleanningdataintegrationdatareductiondatatransformationABCD提交多選題1分4.數(shù)據(jù)變換數(shù)據(jù)預(yù)處理5.

數(shù)據(jù)歸約

3.數(shù)據(jù)集成2.數(shù)據(jù)清理1.數(shù)據(jù)預(yù)處理含義西安郵電大學(xué)53西安郵電大學(xué)數(shù)據(jù)清洗現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。而數(shù)據(jù)清洗試圖填充空缺的值、識(shí)別孤立點(diǎn)、消除噪聲,并糾正數(shù)據(jù)中的不一致性。因此,從如下幾個(gè)方面介紹:(1)空缺值;(2)噪聲數(shù)據(jù);(3)不一致數(shù)據(jù)。54西安郵電大學(xué)1.空缺值的處理?55西安郵電大學(xué)56空缺值數(shù)據(jù)并不總是完整的數(shù)據(jù)庫表中,很多條記錄的對(duì)應(yīng)字段可能沒有相應(yīng)值,比如銷售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)因?yàn)榈貌坏街匾暥鴽]有被輸入對(duì)數(shù)據(jù)的改變沒有進(jìn)行日志記載空缺值要經(jīng)過推斷而補(bǔ)上。西安郵電大學(xué)如何處理空缺值1)忽略該元組:2)人工填寫空缺值3)使用屬性的平均值填充空缺值4)使用一個(gè)全局變量填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值6)使用最可能的值填充空缺值(最常用)7)使用填充算法來處理缺失數(shù)據(jù)57西安郵電大學(xué)如何處理空缺值1)忽略該元組:若一條記錄中有屬性值被遺漏了,則將該記錄排除在數(shù)據(jù)挖掘之外;尤其當(dāng)類標(biāo)號(hào)缺少時(shí)通常這樣做(假定挖掘任務(wù)涉及分類或描述);但是,當(dāng)某類屬性的空缺值所占百分比很大時(shí),直接忽略元組會(huì)使挖掘性能變得非常差。58西安郵電大學(xué)如何處理空缺值2)人工填寫空缺值:工作量大,可行性低3)使用屬性的平均值填充空缺值:如所有顧客的平均收入為$1000,則使用該值替換income中的空缺值。59西安郵電大學(xué)如何處理空缺值4)使用一個(gè)全局變量填充空缺值:如:將空缺的屬性值用同一個(gè)常數(shù)(如“Unknown”)替換。如果空缺值都用“Unknown”替換,當(dāng)空缺值較多時(shí),挖掘程序可能誤以為它們形成了一個(gè)有趣的概念,因?yàn)樗鼈兌季哂邢嗤闹怠癠nknown”。因此,盡管該方法簡(jiǎn)單,但不可靠,不推薦!60西安郵電大學(xué)如何處理空缺值5)使用與給定元組屬同一類的所有樣本的平均值:適用于分類數(shù)據(jù)挖掘;如將顧客按信用度分類,則用具有相同信用度的顧客的平均收入替換income中的空缺值。6)使用最可能的值填充空缺值(最常用):可以利用回歸、貝葉斯計(jì)算公式或判定樹歸納確定,推斷出該條記錄特定屬性最大可能的取值;如,利用數(shù)據(jù)集中其他顧客的屬性,構(gòu)造一棵判定樹,預(yù)測(cè)income的空缺值。7)使用填充算法來處理缺失數(shù)據(jù)。例如可以采用基于k-NN近鄰算法來填充缺失數(shù)據(jù)

61西安郵電大學(xué)討論

根據(jù)個(gè)人知識(shí)經(jīng)歷,嘗試給出一個(gè)處理空缺值的方法()

可以發(fā)彈幕和其他同學(xué)一起分享!西安郵電大學(xué)62標(biāo)準(zhǔn)化后原始數(shù)據(jù)63西安郵電大學(xué)對(duì)含缺失值“-”的序號(hào)2數(shù)據(jù)點(diǎn)做K近鄰填充,取K值為5,計(jì)算序號(hào)2與其他不包含缺失值的數(shù)據(jù)點(diǎn)的距離矩陣,選出歐氏距離最近的5個(gè)數(shù)據(jù)點(diǎn):用這5個(gè)近鄰的數(shù)據(jù)點(diǎn)對(duì)應(yīng)的字段均值來填充序號(hào)2中的“-”值64西安郵電大學(xué)商業(yè)系統(tǒng)的典型用戶和用戶畫像用戶畫像:組成用戶畫像的標(biāo)簽要跟業(yè)務(wù)/產(chǎn)品結(jié)合,提升運(yùn)營(yíng)效果典型用戶:用戶特征抽象出來組合在一起,是虛構(gòu)的,不真實(shí)存在來源:2015年微信生活白皮書延伸知識(shí)65西安郵電大學(xué)例:運(yùn)營(yíng)社要賣課,那么建立用戶畫像最核心的訴求就是:提高課程購買數(shù)量如果能通過用戶畫像了解用戶購買課程的意愿,然后采取相應(yīng)的運(yùn)營(yíng)策略,效率便會(huì)大幅度提高。而這個(gè)購買課程意愿度,就是我們最需要放在用戶畫像里的標(biāo)簽。(1)攜程網(wǎng)大數(shù)據(jù)殺熟?。?)雙十一淘寶歧視“窮人”,背后是用戶畫像在搞鬼!/article-18396-1.html淘氣值66西安郵電大學(xué)數(shù)據(jù)清洗現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。而數(shù)據(jù)清洗試圖填充空缺的值、識(shí)別孤立點(diǎn)、消除噪聲,并糾正數(shù)據(jù)中的不一致性。因此,從如下幾個(gè)方面介紹:(1)空缺值;(2)噪聲數(shù)據(jù);(3)不一致數(shù)據(jù)。67西安郵電大學(xué)噪聲數(shù)據(jù)處理噪聲(noise):是一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差,包括錯(cuò)誤的值和偏離期望的孤立點(diǎn)值。引起噪聲數(shù)據(jù)的原因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤技術(shù)限制命名規(guī)則的不一致68西安郵電大學(xué)如何處理噪聲數(shù)據(jù)1)分箱(binning):分箱方法通過考察“鄰居”(即周圍的值)來平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被分布到一些“桶”或箱中。由于分箱方法參考相鄰的值,因此它進(jìn)行局部平滑。用“箱的深度”表示不同的箱里有相同個(gè)數(shù)的數(shù)據(jù),用“箱的寬度”來表示每個(gè)箱值的取值區(qū)間,寬度越大,光滑效果越明顯。分箱的主要目的是去噪,將連續(xù)數(shù)據(jù)離散化,增加粒度,也常作為一種離散化技術(shù)使用。按照取值的不同可劃分為按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。69西安郵電大學(xué)如何處理噪聲數(shù)據(jù)

分箱的步驟:首先排序數(shù)據(jù),并將它們分到等深(等寬)的箱中;然后可以按箱的平均值、按箱中值或者按箱的邊界等進(jìn)行平滑。按箱的平均值平滑:箱中每一個(gè)值被箱中的平均值替換按箱的中值平滑:箱中的每一個(gè)值被箱中的中值替換按箱的邊界平滑:箱中的最大和最小值被視為箱邊界,箱中的每一個(gè)值被最近的邊界值替換。70西安郵電大學(xué)如何處理噪聲數(shù)據(jù)①等深分箱(binning):按記錄數(shù)進(jìn)行分箱,每箱具有相同的記錄數(shù),每箱的記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。71西安郵電大學(xué)示例:已知一組價(jià)格數(shù)據(jù):15,21,24,21,25,4,8,34,28現(xiàn)用等深(深度為3)分箱方法對(duì)其進(jìn)行平滑,以對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理。思考:根據(jù)bin中值進(jìn)行平滑的結(jié)果?結(jié)果:Bin1:8、8、8;Bin2:21、21、21;Bin3:28、28、2872西安郵電大學(xué)

在該例中,price數(shù)據(jù)首先被劃分并存入等深的箱中(深度3)。對(duì)于按箱平均值平滑,箱中每一個(gè)值被箱中的平均值替換。例如,箱1中的值4,8和15的平均值是9;這樣,該箱中的每一個(gè)值被替換為9。對(duì)于按箱邊界平滑,箱中的最大和最小值被視為箱邊界。箱中的每一個(gè)值被最近的邊界值替換。類似地,可以使用按箱中值平滑。此時(shí),箱中的每一個(gè)值被箱中的中值替換。73西安郵電大學(xué)如何處理噪聲數(shù)據(jù)②等寬分箱(binning):

在整個(gè)屬性值的區(qū)間上平均分布,即每個(gè)箱的區(qū)間范圍設(shè)定為一個(gè)常量,稱為箱子的寬度。74西安郵電大學(xué)

示例:已知一組價(jià)格數(shù)據(jù):15,21,24,21,25,4,8,34,28現(xiàn)用等寬(寬度為10)分箱方法對(duì)其進(jìn)行平滑,以對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理。結(jié)果:先排序:4,8,15,21,21,24,25,28,341)劃分為等寬度箱子Bin1:4、8;Bin2:15、21、21、24、25;Bin3:28、342)根據(jù)均值進(jìn)行平滑Bin1:6、6;Bin2:21、21、21、21、21;Bin3:31、313)根據(jù)中值進(jìn)行平滑Bin1:6、6;Bin2:21、21、21、21、21;Bin3:31、314)根據(jù)邊界進(jìn)行平滑:Bin1:4、8;Bin2:15、25、25、25、25;Bin3:28、3475西安郵電大學(xué)練習(xí):已知客戶收入屬性income排序后的值(人民幣元):800,1000,1200,1500,1500,1800,2000,2300,2500,2800,3000,3500,4000,4500,4800,5000要求:分別用等深分箱方法(箱深為4)、等寬分箱方法(寬度為1000)對(duì)其進(jìn)行平滑,以對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理。76西安郵電大學(xué)(1)等深分箱結(jié)果:(1)首先,劃分為等深的箱:箱1(800,1000,1200,1500);箱2(1500,1800,2000,2300);箱3(2500,2800,3000,3500);箱4(4000,4500,4800,5000)(2)按箱的平均值平滑,結(jié)果為:箱1(1125,1125,1125,1125);箱2(1900,1900,1900,1900);箱3(2950,2950,2950,2950);箱4(4575,4575,4575,4575)77西安郵電大學(xué)(1)等深分箱結(jié)果:(2)按箱的中值平滑,結(jié)果為:箱1(1100,1100,1100,1100);箱2(1900,1900,1900,1900);箱3(2900,2900,2900,2900);箱4(4650,4650,4650,4650)(2)按箱的邊界值平滑,結(jié)果為:箱1(800,800,1500,1500);箱2(1500,1500,2300,2300);箱3(2500,2500,3500,3500);箱4(4000,4000,5000,5000)78西安郵電大學(xué)(2)等寬分箱結(jié)果:(1)首先,劃分為等寬的箱:箱1(800,1000,1200,1500,1500,1800);箱2(2000,2300,2500,2800,3000);箱3(3500,4000,4500);箱4(4800,5000)(2)按箱的平均值平滑,結(jié)果為:箱1(1300,1300,1300,1300,1300,1300);箱2(2520,2520,2520,2520,2520);箱3(4000,4000,4000);箱4(4900,4900)79西安郵電大學(xué)(2)等寬分箱結(jié)果:(1)按箱的中值平滑,結(jié)果為:箱1(1350,1350,1350,1350,1350,1350);箱2(2500,2500,2500,2500,2500);箱3(4000,4000,4000);箱4(4900,4900)(2)按箱的邊界值平滑,結(jié)果為:箱1(800,800,800,1800,1800,1800);箱2(2000,2000,3000,3000,3000);箱3(3500,3500,4000);箱4(4800,5000)80西安郵電大學(xué)如何處理噪聲數(shù)據(jù)2)聚類(Clustering):相似或相鄰近的數(shù)據(jù)聚合在一起形成各個(gè)聚類集合,而那些位于聚類集合之外的數(shù)據(jù)對(duì)象,被視為孤立點(diǎn)。特點(diǎn):直接形成簇并對(duì)簇進(jìn)行描述,不需要任何先驗(yàn)知識(shí)。通過聚類分析查找孤立點(diǎn),消除噪聲81西安郵電大學(xué)如何處理噪聲數(shù)據(jù)3)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷4)回歸發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式,利用回歸分析方法所獲得的擬合函數(shù),幫助平滑數(shù)據(jù)及除去噪聲。xyy=x+1X1Y1Y1’82西安郵電大學(xué)許多數(shù)據(jù)平滑的方法也是涉及離散化的數(shù)據(jù)歸約方法。另外,概念分層是一種數(shù)據(jù)離散化形式,也可以用于數(shù)據(jù)平滑。例如,price的概念分層可以把price的值映射到inexpensive,moderately_priced和expensive,從而減少了挖掘過程所處理的值的數(shù)量。注意:83西安郵電大學(xué)數(shù)據(jù)清洗現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。而數(shù)據(jù)清洗試圖填充空缺的值、識(shí)別孤立點(diǎn)、消除噪聲,并糾正數(shù)據(jù)中的不一致性。因此,從如下幾個(gè)方面介紹:(1)空缺值;(2)噪聲數(shù)據(jù);(3)不一致數(shù)據(jù)。84西安郵電大學(xué)3.不一致數(shù)據(jù)的處理?85西安郵電大學(xué)86不一致數(shù)據(jù)處理不一致數(shù)據(jù)的方式:人工更正利用知識(shí)工程工具:例如,如果知道屬性間的函數(shù)依賴關(guān)系,可以據(jù)此查找違反函數(shù)依賴的值。

數(shù)據(jù)字典:在將不同操作性數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行集成時(shí),也會(huì)帶來數(shù)據(jù)的不一致。如:一個(gè)給定的屬性在不同的數(shù)據(jù)庫中可能具有不同的名字,如姓名在一個(gè)數(shù)據(jù)庫中為Bill,在另一個(gè)數(shù)據(jù)庫中可能為B。對(duì)此,可根據(jù)數(shù)據(jù)字典中提供的信息,消除不一致。西安郵電大學(xué)典型案例:一種基于離群點(diǎn)檢測(cè)的自動(dòng)實(shí)體匹配方法《計(jì)算機(jī)學(xué)報(bào)》2017.1087西安郵電大學(xué)西安郵電大學(xué)88常見的數(shù)據(jù)清洗操作有()空缺值填充識(shí)別孤立點(diǎn),消除噪聲處理不一致數(shù)據(jù)ABC提交多選題1分4.數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理5.數(shù)據(jù)變換與數(shù)據(jù)離散化

3.數(shù)據(jù)集成和變換

2.數(shù)據(jù)清理1.數(shù)據(jù)預(yù)處理含義西安郵電大學(xué)89西安郵電大學(xué)

數(shù)據(jù)集成和變換數(shù)據(jù)挖掘所需要的海量數(shù)據(jù)集往往涉及多個(gè)數(shù)據(jù)源,因此,在信息處理之前需要合并這些數(shù)據(jù)源存儲(chǔ)的數(shù)據(jù)。如果原始數(shù)據(jù)的形式不適合信息處理算法的需要,就要進(jìn)行數(shù)據(jù)變換。1)數(shù)據(jù)集成:將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起:2)數(shù)據(jù)變換:對(duì)數(shù)據(jù)進(jìn)行規(guī)范化操作,將其轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的形式。90西安郵電大學(xué)1.數(shù)據(jù)集成?91西安郵電大學(xué)92數(shù)據(jù)集成數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中。這些源可以是關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件。它需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的:同名異義;異名同義;單位不統(tǒng)一;字長(zhǎng)不一致等。西安郵電大學(xué)93數(shù)據(jù)集成集成過程中需要注意的問題模式集成問題;冗余問題;數(shù)據(jù)值沖突檢測(cè)與消除。西安郵電大學(xué)94(1)模式集成問題模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù);進(jìn)行實(shí)體識(shí)別:匹配來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體如:如何確信一個(gè)數(shù)據(jù)庫中的customer_id和另一個(gè)數(shù)據(jù)庫中的cust_number是同一實(shí)體。通常,數(shù)據(jù)庫的數(shù)據(jù)字典和數(shù)據(jù)倉庫的元數(shù)據(jù),可幫助避免模式集成中的錯(cuò)誤。西安郵電大學(xué)95(2)數(shù)據(jù)冗余問題數(shù)據(jù)冗余問題:同一屬性值不同的數(shù)據(jù)庫中會(huì)有不同的字段名;一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如:一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性,可以根據(jù)月收入屬性計(jì)算出來。西安郵電大學(xué)96(2)數(shù)據(jù)冗余問題數(shù)據(jù)冗余問題:有些冗余可以被相關(guān)分析檢測(cè)到:如果變量A、B間具有較高的相關(guān)系數(shù),表明A或B可以作為冗余而去掉。除了檢查屬性是否冗余外,還要檢查記錄行的冗余。西安郵電大學(xué)97(3)數(shù)據(jù)值沖突問題數(shù)據(jù)值沖突對(duì)現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同。產(chǎn)生的原因:表示、比例或編碼不同。如:重量屬性在一個(gè)系統(tǒng)中可能以公制單位存放,而在另一系統(tǒng)中可能以英制單位存放;同一商品的價(jià)格屬性值不同地域采用不同價(jià)格單位;不同學(xué)校的成績(jī)單可能以百分制、五分制及其他等級(jí)制來存放等等。西安郵電大學(xué)2.數(shù)據(jù)變換?98西安郵電大學(xué)99數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(1)平滑:去掉數(shù)據(jù)中的噪聲,將連續(xù)的數(shù)據(jù)離散化:分箱聚類回歸。(2)聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集Avg(),count(),sum(),min(),max(),…如,每天銷售額(數(shù)據(jù))可以進(jìn)行聚集操作以獲得每月或每年的總額??捎脕順?gòu)造數(shù)據(jù)立方體。西安郵電大學(xué)100數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(3)數(shù)據(jù)概化:使用概念分層,用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象如,街道屬性,可以泛化到更高層次的概念,如城市、國(guó)家;同樣,對(duì)于數(shù)值型的屬性,如年齡屬性,可以映射到更高層次的概念,如年輕、中年和老年。西安郵電大學(xué)101數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(4)規(guī)范化:將數(shù)據(jù)按比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,以消除數(shù)值型屬性因大小不一而造成的挖掘結(jié)果的偏差。如將工資收入屬性值映射到[-1.0,1.0]的范圍內(nèi)。規(guī)格化的目的:

是將一個(gè)屬性取值范圍影射到一個(gè)特定范圍之內(nèi),以消除數(shù)值性屬性因大小不一而造成挖掘結(jié)果的偏差。常用的方法:最小-最大規(guī)范化;零-均值規(guī)范化(z-score規(guī)范化);小數(shù)定標(biāo)規(guī)范化。西安郵電大學(xué)在正式進(jìn)行數(shù)據(jù)挖掘之前,尤其是使用基于對(duì)象距離的挖掘算法時(shí),必須進(jìn)行數(shù)據(jù)的規(guī)格化。

如對(duì)于一個(gè)顧客信息數(shù)據(jù)庫中年齡屬性或工資屬性,由于工資屬性的取值比年齡屬性的取值要大得多,若不進(jìn)行規(guī)格化處理,基于工資屬性的距離計(jì)算值將遠(yuǎn)遠(yuǎn)超過基于年齡屬性的計(jì)算值,這就意味著工資屬性的作用在整個(gè)數(shù)據(jù)對(duì)象的距離計(jì)算中被錯(cuò)誤放大了。數(shù)據(jù)變換—規(guī)范化102西安郵電大學(xué)103數(shù)據(jù)變換—規(guī)范化數(shù)據(jù)規(guī)范化:將數(shù)據(jù)按比例縮放至一個(gè)小的特定區(qū)間:1)最小—最大規(guī)范化:假定minA和maxA分別為屬性A的最小和最大值,則通過下面公式將A的值映射到區(qū)間[new_min,new_max]中的v’:例:假定屬性income的最小與最大值分別為$12000和$98000,可根據(jù)最小—最大規(guī)范化方法將其范圍映射到[0,1]:如:屬性值$73600將變換為:[(73600-12000)/(98000-12000)]*(1-0)+0=0.716西安郵電大學(xué)104數(shù)據(jù)變換—規(guī)范化2)z-score規(guī)范化(零均值規(guī)范化):將屬性A的值根據(jù)其平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化;常用于屬性最大值與最小值未知,或使用最小最大規(guī)范化方法會(huì)出現(xiàn)異常數(shù)據(jù)的情況。其中,meanA、standard-devA分別為屬性A取值的均值和標(biāo)準(zhǔn)差。例:假定屬性income的平均值與標(biāo)準(zhǔn)差分別為$54000和$16000,使用z-score規(guī)范化,則屬性值$73600將變換為:(73600-54000)/16000=1.225西安郵電大學(xué)105數(shù)據(jù)變換—規(guī)范化3)小數(shù)定標(biāo)規(guī)范化:通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化,小數(shù)點(diǎn)的移動(dòng)依賴于A的最大絕對(duì)值:例:假定A的取值范圍[-986,917],則A的最大絕對(duì)值為986,為使用小數(shù)定標(biāo)規(guī)范化,用1000(即j=3)除每個(gè)值,這樣-986被規(guī)范化為-0.986。其中,j是使Max(|v’|)<1的最小整數(shù)西安郵電大學(xué)規(guī)范化將原來的數(shù)據(jù)改變很多,特別是上述的后兩種方法。有必要保留規(guī)范化參數(shù)(如平均值和標(biāo)準(zhǔn)差(z-score規(guī)范化)),以便將來的數(shù)據(jù)可以用一致的方式規(guī)范化。注意:106西安郵電大學(xué)107數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(5)屬性構(gòu)造:利用已有屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集中以幫助挖掘更深層次的模式知識(shí),提高挖掘結(jié)果的準(zhǔn)確性;如,根據(jù)寬、高屬性,可以構(gòu)造一個(gè)新屬性:面積。西安郵電大學(xué)4.數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理5.數(shù)據(jù)離散化

3.數(shù)據(jù)集成與變換2.數(shù)據(jù)清理1.數(shù)據(jù)預(yù)處理含義和目的西安郵電大學(xué)108西安郵電大學(xué)

數(shù)據(jù)歸約對(duì)大規(guī)模數(shù)據(jù)庫內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析常需要消耗大量的時(shí)間,使得對(duì)原始數(shù)據(jù)分析變得不現(xiàn)實(shí)和不可行;數(shù)據(jù)歸約(datareduction):數(shù)據(jù)消減或約簡(jiǎn),是在不影響最終挖掘結(jié)果的前提下,縮小所挖掘數(shù)據(jù)的規(guī)模。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性。對(duì)歸約后的數(shù)據(jù)集進(jìn)行挖掘可提高挖掘的效率,并產(chǎn)生相同(或幾乎相同)的結(jié)果。109西安郵電大學(xué)

數(shù)據(jù)歸約數(shù)據(jù)歸約的標(biāo)準(zhǔn):用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過或“抵消”在歸約后的數(shù)據(jù)集上挖掘節(jié)省的時(shí)間。歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果。110西安郵電大學(xué)

數(shù)據(jù)歸約數(shù)據(jù)歸約的策略如下:數(shù)據(jù)立方體聚集;維歸約(屬性歸約);數(shù)據(jù)壓縮;數(shù)值歸約;離散化和概念分層生成。111西安郵電大學(xué)1.數(shù)據(jù)立方體聚集?112西安郵電大學(xué)113數(shù)據(jù)立方體聚集對(duì)數(shù)據(jù)進(jìn)行了數(shù)據(jù)上卷,數(shù)據(jù)描述的粒度變粗,進(jìn)而減少了數(shù)據(jù)數(shù)量西安郵電大學(xué)數(shù)據(jù)倉庫通過提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預(yù)計(jì)算,數(shù)據(jù)倉庫非常適合聯(lián)機(jī)分析處理。聯(lián)機(jī)分析處理操作使用數(shù)據(jù)的領(lǐng)域背景知識(shí),允許在不同的抽象層提供數(shù)據(jù)。聯(lián)機(jī)分析處理操作的例子包括下鉆和上卷。他們?cè)试S用戶在不同的匯總級(jí)別觀察數(shù)據(jù)。在OLAP中下鉆和上卷這兩個(gè)術(shù)語用的真的是相當(dāng)?shù)馁N切。例如,可以按照季度匯總的銷售數(shù)據(jù)下鉆,觀察按月匯總的數(shù)據(jù)。也可以按城市匯總的銷售數(shù)據(jù)上卷,觀察按國(guó)家匯總的數(shù)據(jù)。這就是數(shù)據(jù)鉆取的兩個(gè)簡(jiǎn)單例子。數(shù)據(jù)的下鉆和上卷114西安郵電大學(xué)2.維歸約?115西安郵電大學(xué)116維歸約(屬性歸約)維歸約:主要用于檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性維用于數(shù)據(jù)分析的數(shù)據(jù)可能包含數(shù)以百計(jì)的屬性,其中大部分可能與挖掘任務(wù)不相關(guān),是冗余的。維歸約通過刪除不相關(guān)的屬性(或維),而有效減少數(shù)據(jù)庫的規(guī)模。最常用的方法:主成分分析、屬性子集選擇。西安郵電大學(xué)主成分分析假定待歸約的數(shù)據(jù)由n個(gè)屬性描述的數(shù)據(jù)組成。主成分分析(PCA)搜索k個(gè)最能代表數(shù)據(jù)的n維正交向量,其中。這樣,原數(shù)據(jù)投影到一個(gè)小得多的空間上,導(dǎo)致維規(guī)約。與屬性子集選擇通過保留原屬性集的一個(gè)子集來減少屬性集的大小不同,PCA通過創(chuàng)建一個(gè)替換的、較小的變量集“組合/融合”屬性的基本要素。PCA的基本原理PCA的計(jì)算步驟PCA應(yīng)用實(shí)例117西安郵電大學(xué)PCA的基本原理PCA可以把可能具有相關(guān)性的高維變量合成線性無關(guān)的低維變量,新的低維數(shù)據(jù)集會(huì)盡可能的保留原始數(shù)據(jù)的變量。PCA將數(shù)據(jù)投射到一個(gè)低維子空間實(shí)現(xiàn)降維,是數(shù)據(jù)規(guī)約的一種常用方法。在屬性歸約中,用較少的屬性去解釋原始數(shù)據(jù)中的大部分屬性,即將許多相關(guān)性很高的屬性轉(zhuǎn)化成彼此相互獨(dú)立或不相關(guān)的屬性。當(dāng)自變量之間不是相互獨(dú)立時(shí),PCA能夠?qū)⒆宰兞孔儞Q成獨(dú)立的成分;在自變量太多的情況下,PCA能夠降維。118西安郵電大學(xué)PCA的計(jì)算步驟

(1)原始數(shù)據(jù)標(biāo)準(zhǔn)化;(2)計(jì)算標(biāo)準(zhǔn)化變量間的相關(guān)系數(shù)矩陣;(3)計(jì)算相關(guān)系數(shù)矩陣的特征值和特征向量;(4)計(jì)算主成分變量值;(5)統(tǒng)計(jì)結(jié)果分析,提取所需的主成分;(6)將原始數(shù)據(jù)投影到新的基下。119西安郵電大學(xué)PCA應(yīng)用實(shí)例[例]使用一組簡(jiǎn)單數(shù)據(jù)對(duì)上述算法進(jìn)行說明,這組原始數(shù)據(jù)只有兩個(gè)特征x1和x2,利用PCA方法將二維數(shù)據(jù)降到一維。數(shù)據(jù)集如表所示:

特征x1特征x2數(shù)據(jù)1-1-2數(shù)據(jù)2-10數(shù)據(jù)300數(shù)據(jù)421數(shù)據(jù)501原始數(shù)據(jù)矩陣的兩列分別是特征x1和特征x2,也就是二維。

120西安郵電大學(xué)PCA應(yīng)用實(shí)例(1)讓x1和x2分別作為兩個(gè)特征變量,得到原始數(shù)據(jù)組成的矩陣,并對(duì)其標(biāo)準(zhǔn)化,如下式:其中每行都是一條數(shù)據(jù)記錄,共5個(gè)數(shù)據(jù),每列為一個(gè)特征。對(duì)矩陣X進(jìn)行標(biāo)準(zhǔn)化:根據(jù)均值(μ)的定義帶入數(shù)據(jù)可以求得下式:

121西安郵電大學(xué)PCA應(yīng)用實(shí)例

可以計(jì)算出每列的均值都是0,方差為x1_var和x2_var,如下式:(方差公式)由于兩個(gè)特征的均值都是0,方差都是1.5,為計(jì)算簡(jiǎn)便不除方差。122西安郵電大學(xué)PCA應(yīng)用實(shí)例

(2)求協(xié)方差矩陣,由于是二維可根據(jù)前面推導(dǎo)的公式所示:求得其協(xié)方差矩陣如下式:123西安郵電大學(xué)PCA應(yīng)用實(shí)例

(3)求協(xié)協(xié)方差矩陣的特征值和特征向量:矩陣R的特征值則為式:

對(duì)應(yīng)的特征向量即式:對(duì)其進(jìn)行單位化(歸一化)后的結(jié)果為式:實(shí)對(duì)稱矩陣一定可以相似對(duì)角化,且對(duì)角矩陣的對(duì)角線元素為其特征值,所以對(duì)角矩陣為式:124西安郵電大學(xué)PCA應(yīng)用實(shí)例

(4)將特征值從大到小排列:(5)計(jì)算出累計(jì)貢獻(xiàn)率,確定主成分個(gè)數(shù)。一維的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到83.33%,基本滿足需要,主成分個(gè)數(shù)為1就可以了,貢獻(xiàn)率計(jì)算如下式:125西安郵電大學(xué)PCA應(yīng)用實(shí)例

(6)將矩陣投影到新的基下,就是降維到k維的數(shù)據(jù),這里降到一維,,這里的例子是從二維降到一維,而x1和x2的特征值分別為2和,因此選取x1的特征向量作為新的基,乘以原始數(shù)據(jù)矩陣X,就可以得到降維后的表示,如式所示:通過這個(gè)簡(jiǎn)單的二維降維到一維的過程,可以得到高維(n維)在降維(k維)時(shí)只是在第五步時(shí),需要降到幾維就找?guī)讉€(gè)特征向量做新的基。126西安郵電大學(xué)主成分分析方法應(yīng)用實(shí)例表1某農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng)各區(qū)域單元的有關(guān)數(shù)據(jù)

127西安郵電大學(xué)128西安郵電大學(xué)步驟如下:(1)將表1中的數(shù)據(jù)作標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,然后將它們代入公式(4)計(jì)算相關(guān)系數(shù)矩陣(見表2)。表2相關(guān)系數(shù)矩陣129西安郵電大學(xué)

(2)由相關(guān)系數(shù)矩陣計(jì)算特征值,以及各個(gè)主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率(見表3)。由表3可知,第一,第二,第三主成分的累計(jì)貢獻(xiàn)率已高達(dá)86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。

130西安郵電大學(xué)表3特征值及主成分貢獻(xiàn)率

(3)對(duì)于特征值=4.6610,=2.0890,=1.0430分別求出其特征向量l1,l2,l3。131西安郵電大學(xué)

①第一主成分z1與x1,x5,x6,x7,x9呈顯出較強(qiáng)的正相關(guān),與x3呈顯出較強(qiáng)的負(fù)相關(guān),而這幾個(gè)變量則綜合反映了生態(tài)經(jīng)濟(jì)結(jié)構(gòu)狀況,因此可以認(rèn)為第一主成分z1是生態(tài)經(jīng)濟(jì)結(jié)構(gòu)的代表。

②第二主成分z2與x2,x4,x5呈顯出較強(qiáng)的正相關(guān),與x1呈顯出較強(qiáng)的負(fù)相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認(rèn)為第二主成分z2代表了人均資源量。

分析:132西安郵電大學(xué)顯然,用三個(gè)主成分z1、z2、z3代替原來9個(gè)變量(x1,x2,…,x9),描述農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng),可以使問題更進(jìn)一步簡(jiǎn)化、明了。③第三主成分z3,與x8呈顯出的正相關(guān)程度最高,其次是x6,而與x7呈負(fù)相關(guān),因此可以認(rèn)為第三主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟(jì)結(jié)構(gòu)。133西安郵電大學(xué)2.維歸約?第二種常用方法:屬性子集選擇134西安郵電大學(xué)135維歸約—屬性子集選擇目標(biāo):找出最小屬性集,確保新數(shù)據(jù)集的概率分布盡可能接近原數(shù)據(jù)集的概率分布。如何找出原屬性的一個(gè)‘好的’子集d個(gè)屬性有2d個(gè)可能的子集。窮舉搜索找出屬性的最佳子集可能是不現(xiàn)實(shí)的,特別是當(dāng)d的數(shù)目很大時(shí)。NP問題,組合爆炸!西安郵電大學(xué)136維歸約—屬性子集選擇啟發(fā)式算法:對(duì)于屬性子集選擇,通常使用壓縮搜索空間的啟發(fā)式算法。它們的策略是做局部最優(yōu)選擇,期望由此導(dǎo)致全局最優(yōu)解。西安郵電大學(xué)137維歸約—屬性子集選擇常用的啟發(fā)式方法:1)逐步向前選擇:

該過程由空屬性集開始,選擇原屬性集中最好的屬性,并將它添加到該集合中。在其后的每一次迭代,將原屬性集剩下的屬性中的最好的屬性添加到該集合中。

如:遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機(jī)搜索算法。西安郵電大學(xué)138維歸約—屬性子集選擇常用的啟發(fā)式方法:2)逐步向后刪除:由整個(gè)屬性集開始,每一步都刪除尚在屬性集中的最壞屬性。直到無法選擇出最壞屬性或滿足一定的閾值為止。如:粗糙集理論,

利用定義的數(shù)據(jù)集合U上的等價(jià)關(guān)系對(duì)U進(jìn)行劃分,對(duì)于數(shù)據(jù)表來說,這種等價(jià)關(guān)系可以是某個(gè)屬性,或者是幾個(gè)屬性的集合。因此,按照不同屬性的組合就把數(shù)據(jù)表劃分成不同的基本類,在這些基本類的基礎(chǔ)上進(jìn)一步求得最小約簡(jiǎn)集。西安郵電大學(xué)139維歸約—屬性子集選擇常用的啟發(fā)式方法:3)向前選擇和向后刪除的結(jié)合:將向前選擇和向后刪除方法結(jié)合在一起;每一步選擇一個(gè)最好的屬性,并在剩余屬性中刪除一個(gè)最壞的屬性。西安郵電大學(xué)140維歸約—屬性子集選擇常用的啟發(fā)式方法:4)判定樹歸納:在判定樹的每個(gè)節(jié)點(diǎn),算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。當(dāng)判定樹歸納用于屬性子集選擇時(shí),不出現(xiàn)在樹中的所有屬性假定是不重要、不相關(guān)的;出現(xiàn)在判定樹中的屬性形成歸約后的屬性子集。西安郵電大學(xué)141西安郵電大學(xué)3.數(shù)據(jù)壓縮?142西安郵電大學(xué)143數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來的數(shù)據(jù)集合壓縮為一個(gè)較小規(guī)模的數(shù)據(jù)集合。壓縮算法分為兩類:無損壓縮(loseless):可以不丟失任何信息地還原壓縮數(shù)據(jù);如:字符串壓縮有損壓縮(lossy):只能重新構(gòu)造原數(shù)據(jù)的近似表示;如:音頻/視頻壓縮。西安郵電大學(xué)144數(shù)據(jù)壓縮兩類:1)無損壓縮:指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)(或者叫做還原,解壓縮),重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)完全相同。即:數(shù)據(jù)經(jīng)過壓縮后,信息不受損失,還能完全恢復(fù)到壓縮前的原樣。壓縮軟件:Zip或RAR,哈夫曼編碼等西安郵電大學(xué)145數(shù)據(jù)壓縮兩類:2)有損壓縮:又稱破壞型壓縮,即將次要的信息數(shù)據(jù)壓縮掉,犧牲一些質(zhì)量來減少數(shù)據(jù)量,使壓縮比提高。常用于壓縮聲音、圖像以及視頻。音頻能夠在沒有察覺的質(zhì)量下降情況下實(shí)現(xiàn)10:1的壓縮比,視頻能夠在稍微觀察質(zhì)量下降的情況下實(shí)現(xiàn)如300:1這樣非常大的壓縮比。常見算法:JPEG、MPEG、MP3等。

算法機(jī)理:小波變換或主成份分析西安郵電大學(xué)小波變換與數(shù)據(jù)壓縮典型案例:一種基于數(shù)據(jù)流分析的冗余變異體識(shí)別方法持續(xù)集成測(cè)試用例集優(yōu)化綜述研究146西安郵電大學(xué)147數(shù)值歸約數(shù)值歸約:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。(1)有參方法:通常使用一個(gè)參數(shù)模型來評(píng)估數(shù)據(jù),該方法只需要存儲(chǔ)參數(shù),而不是實(shí)際數(shù)據(jù),能大大減少數(shù)據(jù)量,但只對(duì)數(shù)值型數(shù)據(jù)有效。如:線性回歸方法(最小二乘法):Y=α+βX西安郵電大學(xué)148數(shù)值歸約數(shù)值歸約:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。(2)無參方法:常見的有:直方圖;聚類;取樣。西安郵電大學(xué)1491)直方圖直方圖:根據(jù)屬性的數(shù)據(jù)分布將其分成若干不相交的區(qū)間,每個(gè)區(qū)間的高度與其出現(xiàn)的頻率成正比。例:下面的數(shù)據(jù)是AllElectronics通常銷售的商品的單價(jià)表(已排序):1,1,5,5,5,5,5,8,8,10,10,10,10,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,28,28,30,30,30。試用直方圖表示,以壓縮數(shù)據(jù)。西安郵電大學(xué)1501)直方圖頻率-值對(duì)應(yīng)關(guān)系圖西安郵電大學(xué)1512)聚類聚類:將原數(shù)據(jù)集劃分成多個(gè)群或聚類。原則:同類中的數(shù)據(jù)彼此相似;不同類中的數(shù)據(jù)彼此不相似。相似:通常用空間距離度量

聚類的有效性依賴于實(shí)際數(shù)據(jù)的內(nèi)在規(guī)律。基于聚類算法的測(cè)試用例排序西安郵電大學(xué)1523)取樣取樣(抽樣):允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集。取樣方法:

不放回簡(jiǎn)單隨機(jī)取樣(SimpleRandomSamplingWithoutReplacement,SRSWOR)放回簡(jiǎn)單隨機(jī)取樣(SimpleRandomSamplingWithReplacement,SRSWR)

聚類取樣:先聚類,后取樣

分層取樣:先分層,后取樣。西安郵電大學(xué)取樣——SRSSRSWOR(簡(jiǎn)單隨機(jī)選樣,不回放)SRSWR(簡(jiǎn)單隨機(jī)選樣,回放)原始數(shù)據(jù)153西安郵電大學(xué)154取樣

聚類采樣:

首先將大數(shù)據(jù)集D劃分為M個(gè)互不相交的聚類,然后再從M個(gè)類中的數(shù)據(jù)對(duì)象分別進(jìn)行隨機(jī)抽取,可最終獲得聚類采樣的數(shù)據(jù)子集。聚類采樣方法示意圖西安郵電大學(xué)155聚類取樣西安郵電大學(xué)156取樣分層取樣:

首先將大數(shù)據(jù)集D劃分為互不相交的層,然后對(duì)每一層簡(jiǎn)單隨機(jī)選樣得到D的分層選樣。

如,根據(jù)顧客的年齡組進(jìn)行分層,然后再在每個(gè)年齡組中進(jìn)行隨機(jī)選樣,從而確保了最終獲得分層采樣數(shù)據(jù)子集中的年齡分布具有代表性。西安郵電大學(xué)157分層取樣分層采樣方法示意圖西安郵電大學(xué)4.數(shù)據(jù)歸約數(shù)據(jù)預(yù)處理5.數(shù)據(jù)離散化和概念分層

3.數(shù)據(jù)集成與變換

2.數(shù)據(jù)清理1.數(shù)據(jù)預(yù)處理含義西安郵電大學(xué)158西安郵電大學(xué)

數(shù)據(jù)離散化和概念分層*三種類型的屬性值:標(biāo)稱型(名稱型、名義型):數(shù)值來自于無序集合,如性別、地名、人名等。序數(shù)型:數(shù)值來自于有序集合,如獎(jiǎng)學(xué)金的等級(jí);職稱分布等。連續(xù)型:實(shí)數(shù)值,如溫度、體重等。離散化技術(shù):通過將屬性(連續(xù)取值)閾值范圍分為若干區(qū)間,來幫助消減一個(gè)連續(xù)(取值)屬性的取值個(gè)數(shù)。

例如,將氣溫劃分為:冷、正常、熱。159西安郵電大學(xué)

數(shù)據(jù)離散化和概念分層*概念分層:概念分層定義了一組由低層概念到高層概念集的映射。允許在各種抽象級(jí)別上處理數(shù)據(jù),從而在多個(gè)抽象層上發(fā)現(xiàn)知識(shí)。用較高層概念替換低層次(如年齡的數(shù)值)的概念,以此來減少取值個(gè)數(shù)。

雖然一些細(xì)節(jié)數(shù)據(jù)在泛化過程中消失了,但這樣所獲得的泛化數(shù)據(jù)或許更易于理解、更有意義。另外,在消減后的數(shù)據(jù)集上進(jìn)行信息處理顯然效率更高。

概念分層結(jié)構(gòu)可以用樹來表示,樹的每個(gè)節(jié)點(diǎn)代表一個(gè)概念。160西安郵電大學(xué)離散化方法1)通過直方圖分析離散化:使用分箱來近似數(shù)據(jù)分布。屬性A的直方圖(histogram)將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個(gè)桶只代表單個(gè)屬性值/頻率對(duì),則該桶稱為單值桶。通常,桶表示給定屬性的一個(gè)連續(xù)區(qū)間。桶和屬性值劃分規(guī)則:等寬直方圖中,將數(shù)據(jù)劃分成相等的部分或區(qū)間,如(0,100$)、(100$,200$]、(200$,300$]….等頻(或等深)直方圖:使每個(gè)桶的頻率粗略地為常數(shù),即每個(gè)桶大致包含相同個(gè)數(shù)的鄰近數(shù)據(jù)樣本。161西安郵電大學(xué)離散化方法2)通過聚類分析離散化:聚類算法可以將數(shù)據(jù)集劃分為若干類或組。每個(gè)類構(gòu)成了概念分層樹的一個(gè)節(jié)點(diǎn);每個(gè)類還可以進(jìn)一步分解為若干子類,從而構(gòu)造更低水平的層次。當(dāng)然類也可以合并起來構(gòu)成更高層次的概念水平。3)基于熵的離散化:熵是一種信息度量的方法4)通過直觀劃分離散化162西安郵電大學(xué)基于熵的離散化思想:

基于熵的離散化是一種監(jiān)督的、自頂向下的分裂技術(shù)。它在計(jì)算和確定分裂點(diǎn)(即劃分屬性區(qū)間的數(shù)據(jù)值)時(shí)利用類分布信息。選擇A的具有最小熵的值作為分裂點(diǎn),計(jì)算分裂前后信息增益變化的閾值(即分裂前后的信息熵),如果左右兩區(qū)間差值超過閾值就繼續(xù)分裂,每次差值最大的點(diǎn)作為分類點(diǎn),直到收斂,并遞歸地劃分結(jié)果區(qū)間,得到分層離散化。這種離散化形成A的概念分層。163西安郵電大學(xué)基于熵的離散化思想:考慮類別信息,遞歸計(jì)算信息熵,產(chǎn)生分層的離散化。給定一個(gè)數(shù)據(jù)元組的集合S,基于熵對(duì)S離散化的方法如下:1)屬性A中的每個(gè)取值可被認(rèn)為是一個(gè)潛在的區(qū)間邊界或閾值T。例如,A的取值v可以將樣本S劃分為分別滿足A<v和A≥v兩個(gè)子集,這樣就創(chuàng)建了一個(gè)二元離散化。2)對(duì)于數(shù)據(jù)集S,根據(jù)所劃分子集而獲得的最大熵增益來選擇閾值,劃分后數(shù)據(jù)集S提供的信息如下:E(A)=學(xué)習(xí)屬性A之后的不確定性:164西安郵電大學(xué)基于熵的離散化

其中S1和S2分別對(duì)應(yīng)于S中滿足條件:A<T與A≥T,的樣本。對(duì)給定的集合,熵函數(shù)Ent根據(jù)集合中樣本的類分布來計(jì)算。例如,給定m個(gè)不同類別,S1的熵就是:

其中pi為類i在S1中出現(xiàn)的概率,等于S1中類i的樣本除以S1中樣本的總行數(shù)。同理,計(jì)算Ent(S2)。3)確定閾值的過程遞歸的用于所得到的每個(gè)劃分,直到滿足某個(gè)終止條件,如:Ent(S)-I(S,T)≤δ信息增益不能低于δ:165西安郵電大學(xué)基于熵的離散化總結(jié):基于熵的離散化可以減少數(shù)據(jù)量。與迄今為止提到的其他方法不同,基于熵的離散化使用了類別信息。這使得它更有可能將區(qū)間邊界定義在準(zhǔn)確位置,有助于提高分類的準(zhǔn)確性。此處用到的信息增益和信息熵也用于決策樹歸納。166西安郵電大學(xué)通過直觀劃分離散化思想:將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。聚類分析產(chǎn)生的概念分層可能會(huì)將一個(gè)工資區(qū)間劃分為:[51263.98,60872.34]而通常數(shù)據(jù)分析人員希望看到劃分的形式為[50000,60000]直觀劃分的3-4-5規(guī)則??梢詫?shù)值數(shù)據(jù)劃分為相對(duì)一致和“自然”的區(qū)間。一般的,根據(jù)最重要的數(shù)字上的值區(qū)域,遞歸的和逐層的將給定的數(shù)據(jù)區(qū)域劃分為3、4或5個(gè)等寬區(qū)間。167西安郵電大學(xué)自然劃分的3-4-5規(guī)則規(guī)則的劃分步驟:如果一個(gè)區(qū)間最高有效位上跨越3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;(72,3,2)如果一個(gè)區(qū)間最高有效位上跨越2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間;如果一個(gè)區(qū)間最高有效位上跨越1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間;將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間,產(chǎn)生給定數(shù)值屬性的概念分層;168西安郵電大學(xué)自然劃分的3-4-5規(guī)則規(guī)則的劃分步驟:對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g.5%-95%例如,在資產(chǎn)數(shù)據(jù)集中,少數(shù)人的資產(chǎn)可能比其他人高幾個(gè)數(shù)量級(jí)。如果按照最高資產(chǎn)值進(jìn)行分段,可能導(dǎo)致高度傾斜的分層。此時(shí),可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g.5%-95%。越出頂層分段的特別高和特別低的部分采用類似的規(guī)則劃分方法形成單獨(dú)的區(qū)間。169西安郵電大學(xué)示例:3-4-5規(guī)則假定AllElectronics所有分部1999年的利潤(rùn)覆蓋了一個(gè)很寬的區(qū)間,從-351.00$到4700$。要求利用3-4-5規(guī)則自動(dòng)構(gòu)造利潤(rùn)屬性的一個(gè)概念層次樹。170西安郵電大學(xué)示例:3-4-5規(guī)則思路:

設(shè)在上述范圍取值為5%至95%的區(qū)間為:-159$至1838$。應(yīng)用3-4-5規(guī)則的具體步驟如下:1)根據(jù)以上信息,在利潤(rùn)數(shù)據(jù)集中最小和最大值分別為:MIN=-351$,MAX=4700$。而根據(jù)以上分析,對(duì)于分段的頂層或第一層,要考慮的最低(5%)和最高(95%)的值是:LOW=-159$,HIGH=1838$。2)依據(jù)LOW和HIGH及其取值范圍,確定最高有效位為1000$,LOW按1000$美元向下取整,得到LOW’=-1000$;HIGH按1000$向上取整,得到:HIGH’=2000$。171西安郵電大學(xué)示例:3-4-5規(guī)則3)由于該區(qū)間在最高有效位上跨越了3個(gè)值,即(2000-(-1000))/1000=3,根據(jù)3-4-5規(guī)則,該區(qū)間被劃分成3個(gè)等寬區(qū)間:(-1000$,0],(0,1000$],(1000$,2000$]。這代表分層結(jié)構(gòu)的最頂層。172西安郵電大學(xué)示例:3-4-5規(guī)則4)現(xiàn)在,考察原數(shù)據(jù)集中MIN和MAX值與最高層區(qū)間的聯(lián)系。由于MIN值落在區(qū)間(-1000$,0],因此調(diào)整左邊界,對(duì)MI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論