大數(shù)據(jù)探索性分析版課件第3章_第1頁(yè)
大數(shù)據(jù)探索性分析版課件第3章_第2頁(yè)
大數(shù)據(jù)探索性分析版課件第3章_第3頁(yè)
大數(shù)據(jù)探索性分析版課件第3章_第4頁(yè)
大數(shù)據(jù)探索性分析版課件第3章_第5頁(yè)
已閱讀5頁(yè),還剩70頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 大數(shù)據(jù)的數(shù)據(jù)預(yù)處理第三章 大數(shù)據(jù)的數(shù)據(jù)預(yù)處理本章的主要內(nèi)容第1節(jié) 整齊數(shù)據(jù)第2節(jié) 數(shù)據(jù)的管理與清洗第3節(jié) 數(shù)據(jù)的變換第4節(jié) 缺失值的處理第5節(jié) 異常點(diǎn)的檢測(cè)第6節(jié) 變量選擇第7節(jié) 數(shù)據(jù)預(yù)處理的綜合應(yīng)用本章的主要內(nèi)容第1節(jié) 整齊數(shù)據(jù)第1節(jié) 整齊數(shù)據(jù)第1節(jié) 整齊數(shù)據(jù)整齊數(shù)據(jù)整齊數(shù)據(jù)Tidy data(Wickham,2014)是一類(lèi)很容易整理、建模和可視化的數(shù)據(jù)類(lèi)型。有其特定規(guī)范的數(shù)據(jù)結(jié)構(gòu):每個(gè)變量是一列,每個(gè)觀測(cè)是一行,每個(gè)類(lèi)型的觀測(cè)單元構(gòu)成一個(gè)表。表3-1的列名其實(shí)是income這個(gè)變量的取值,而不應(yīng)該是變量。某些情況下這種格式非常有用,比如列聯(lián)表分析,但是對(duì)于一些做圖和分析算法來(lái)說(shuō)并

2、不理想。整齊數(shù)據(jù)整齊數(shù)據(jù)Tidy data(Wickham,2014整齊數(shù)據(jù)這個(gè)數(shù)據(jù)實(shí)際上有三個(gè)變量:religion,income和frequency。為了得到tidy數(shù)據(jù),我們需要將列變成行,使每一行觀測(cè)都對(duì)應(yīng)三個(gè)變量。整齊數(shù)據(jù)這個(gè)數(shù)據(jù)實(shí)際上有三個(gè)變量:religion,inco示例函數(shù):reshape2 包 melt 函數(shù)melt(data, id.vars, measure.vars, = variable, ., na.rm = FALSE, = value, factorsAsStrings = TRUE)tb - read.csv

3、(file = tb.csv,header = TRUE, stringsAsFactors = FALSE)tail(tb) #查看數(shù)據(jù)的最后幾列iso2yearm04m514f3544f5564f65fuZW20076132021390NAZW2008NANA28901741050問(wèn)題:1.列名m04,m514并不是真正的變量,而是病人性別與年齡的取值。2.并且兩個(gè)變量性別(gender)和年齡(age)是混在一起的。這不是一個(gè)tidy data!示例函數(shù):reshape2 包 melt 函數(shù)tb - r示例解決方案:第一步:library(reshape2)tb_tidy 500&Sta

4、te=MA)#選出risk_score大于500分以及地區(qū)在“MA”的觀測(cè)arrange(Reject.s,State,Risk_Score,dti,Amount.Requested)#排序優(yōu)先級(jí)從高之低依次為State,Risk_Score,dti,Amount.Requested,按照降序排列。 #排序依據(jù)是字符,按字母表的順序;數(shù)字,默認(rèn)按照從小到大順序排列。數(shù)據(jù)的基本操作根據(jù)變量排序選擇滿足條件的觀測(cè)行MA_Reje數(shù)據(jù)的基本操作數(shù)據(jù)的分組匯總匯總的優(yōu)點(diǎn):當(dāng)數(shù)據(jù)量特別大而原始數(shù)據(jù)的價(jià)值極低時(shí),匯總便于找尋數(shù)據(jù)內(nèi)含的規(guī)律性,這減少了數(shù)據(jù)集占用內(nèi)存以及后續(xù)數(shù)據(jù)分析處理時(shí)間?;诜诸?lèi)變量分組

5、匯總得到的統(tǒng)計(jì)量具有更小的變異性,如均值,總數(shù)等。匯總的缺點(diǎn):丟失有趣的細(xì)節(jié)。數(shù)據(jù)的基本操作數(shù)據(jù)的分組匯總數(shù)據(jù)的基本操作工具:group_by()函數(shù)、summarise()函數(shù)。示例:Loan數(shù)據(jù)集 summarise(group_by(Loan,grade), #使用分類(lèi)變量grade分組 ave.amnt=mean(funded_amnt,na.rm=TRUE), #計(jì)算刪失數(shù)據(jù)均值 sd=sd(funded_amnt,na.rm=TRUE), #計(jì)算刪失標(biāo)準(zhǔn)差 n=sum(!is.na(funded_amnt), #計(jì)算各組去除缺失值的樣本容量 se=sd/sqrt(n), #計(jì)算均值

6、標(biāo)準(zhǔn)誤 conf.upper=ave.amnt+qt(0.975,n-1)*se, #計(jì)算置信區(qū)間上下限 conf.lower=ave.amnt-qt(0.975,n-1)*se) 數(shù)據(jù)的基本操作工具:group_by()函數(shù)、summari數(shù)據(jù)的基本操作工具:group_by()函數(shù)、summarise()函數(shù)。輸出結(jié)果:根據(jù)grade變量,將觀測(cè)劃分為七類(lèi),并統(tǒng)計(jì)了樣本量,均值,標(biāo)準(zhǔn)差以及均值的置信區(qū)間。數(shù)據(jù)的基本操作工具:group_by()函數(shù)、summari第3節(jié) 數(shù)據(jù)的變換第3節(jié) 數(shù)據(jù)的變換數(shù)據(jù)變換數(shù)據(jù)清洗后,下一步便是統(tǒng)計(jì)建模。然而不同的模型對(duì)于原始數(shù)據(jù)格式有特殊要求。K近鄰算法

7、要求使用輸入變量必須是經(jīng)過(guò)標(biāo)準(zhǔn)化后的。方差分析要求變量誤差服從獨(dú)立同分布的正態(tài)分布。數(shù)據(jù)變換可以改變樣本分布,數(shù)據(jù)的尺度。數(shù)據(jù)變換對(duì)于數(shù)值型變量的變換最小值-最大值規(guī)范化(Min- Max Normalization)標(biāo)準(zhǔn)化(Standardization)十進(jìn)制正規(guī)化(Decimal Scaling Normalization)Box-Cox變換對(duì)于數(shù)值型變量的變換最小值-最大值規(guī)范化(Min-對(duì)于數(shù)值型變量的變換最小值-最大值規(guī)范化(Min-Max Normalization)適用場(chǎng)景:很多基于距離的數(shù)據(jù)挖掘算法,諸如:k-means聚類(lèi)通常,將數(shù)據(jù)變換到-1,1 或0,1。是一種線性變換

8、,并不改變做變換變量與其余變量的相關(guān)性。對(duì)于數(shù)值型變量的變換最小值-最大值規(guī)范化(Min-Max N對(duì)于數(shù)值型變量的變換標(biāo)準(zhǔn)化(Standardization)有時(shí)也用平均絕對(duì)離差。目的:為了使變量間具有可比性變換后的變量,均值為0,方差為1。對(duì)于數(shù)值型變量的變換標(biāo)準(zhǔn)化(Standardization)對(duì)于數(shù)值型變量的變換十進(jìn)制正規(guī)化(Decimal Scaling Normalization)j的取值是使得 最小整數(shù)。這樣保證了變化后變量的最大值的絕對(duì)值總小于1。對(duì)于數(shù)值型變量的變換十進(jìn)制正規(guī)化(Decimal Scali對(duì)于數(shù)值型變量的變換Box-Cox變換 開(kāi)方根變換,對(duì)類(lèi)似于泊松分布的

9、數(shù)據(jù)很有用; 對(duì)應(yīng)平方變換; 是倒數(shù)變換。應(yīng)用場(chǎng)景:線性回歸分析中當(dāng)誤差項(xiàng)不滿足正態(tài)性或等方差假定對(duì)于數(shù)值型變量的變換Box-Cox變換代碼實(shí)例函數(shù)工具:caret包preProcess函數(shù)以Loan數(shù)據(jù)集為例library(caret)#最大值最小值變換trans=preProcess(select(Loan,loan_amnt),method=c(range)#trans Created from 550564 samples and 1 variables Pre-processing: - ignored (0) - re-scaling to 0, 1 (1)transformed=

10、predict(trans,select(Loan,loan_amnt) #執(zhí)行變換head(transformed,1) #顯示變換后數(shù)據(jù)的前6個(gè)數(shù) 1 0.13043478 0.05797101 0.05507246 0.27536232 0.07246377 0.13043478代碼實(shí)例函數(shù)工具:caret包preProcess函數(shù)代碼實(shí)例#標(biāo)準(zhǔn)化變換trans=preProcess(select(Loan,loan_amnt),method=c(center, scale) transformed=predict(trans,select(Loan,loan_amnt)head(tra

11、nsformed,1) 1 -1.1378351 -1.4382517 -1.4502684 -0.5370019 -1.3781684 -1.1378351#Box-Cox變換library(e1071) skewness(Loan$annual_inc,na.rm=TRUE) #刪除缺失值 1 32.01814Loan.num=select(Loan,loan_amnt,funded_amnt,funded_amnt_inv, installment,annual_inc,dti,total_pymnt)#為了直方圖顯示效果,去除掉年收入超過(guò)40萬(wàn)美元的客戶Loan.anin=Loan$a

12、nnual_inc-which(Loan$annual_inc400000) library(caret)BoxCoxTrans(Loan$annual_inc,na.rm=TRUE) 代碼實(shí)例#標(biāo)準(zhǔn)化變換代碼實(shí)例par(mfrow=c(1,2)hist(Loan.anin,xlab=natural units of annual_inc, main=Histogram: Original Data)hist(log(Loan$annual_inc),xlab=log units of annul_inv, main=Histogram: after log transformation)可以

13、觀察得到,原來(lái)呈現(xiàn)出明顯右偏分布的數(shù)據(jù),在取對(duì)數(shù)變換后,比原來(lái)更加對(duì)稱(chēng)。代碼實(shí)例par(mfrow=c(1,2)可以觀察得到,原來(lái)數(shù)值型數(shù)據(jù)的離散化 數(shù)值型變量 名義類(lèi)變量目的:符合模型算法對(duì)數(shù)據(jù)的格式要求。如決策樹(shù)算法一般要求數(shù)據(jù)是分類(lèi)屬性。缺點(diǎn):1.損失信息量,進(jìn)而損失預(yù)測(cè)性能。2.研究(Austin and Bruner,2004)表明分類(lèi)型變量中的 冗余變量容易被認(rèn)定為有用變量。方法:1.組距分組 : 等距分組,不等距分組2.分位數(shù)分組3.秩分組4.均值-標(biāo)準(zhǔn)差分組數(shù)值型數(shù)據(jù)的離散化 數(shù)值型變量 名義類(lèi)變第4節(jié) 缺失值的處理第4節(jié) 缺失值的處理數(shù)據(jù)缺失的原因和分類(lèi)數(shù)據(jù)缺失的原因:數(shù)據(jù)缺

14、失有多種原因。調(diào)查者忘記回答某個(gè)問(wèn)題,或拒絕回答敏感問(wèn)題,或者感覺(jué)疲勞乏味而沒(méi)有完成一份很長(zhǎng)的問(wèn)卷,也可能是調(diào)查者錯(cuò)過(guò)了約定或過(guò)早從研究中退出,都會(huì)產(chǎn)生數(shù)據(jù)缺失。缺失數(shù)據(jù)的分類(lèi)完全隨機(jī)缺失:當(dāng)某變量缺失值的發(fā)生與其他任何觀測(cè)變量及該變量的任何觀測(cè)值均無(wú)關(guān)。這種模式的缺失值產(chǎn)生是一個(gè)隨機(jī)事件,可以將已觀測(cè)數(shù)據(jù)的觀測(cè)看作是總體的一個(gè)簡(jiǎn)單隨機(jī)抽樣。隨機(jī)缺失:若某變量出現(xiàn)缺失的概率與其他觀測(cè)變量相關(guān),但與它自己的未觀測(cè)值不相關(guān)。例如,在一次測(cè)試中,如果IQ達(dá)不到最低要求的100分,那么將不能參加隨后的人格測(cè)驗(yàn)。非隨機(jī)缺失:某變量出現(xiàn)缺失的概率與該變量的觀測(cè)值有關(guān)。例如,公司新錄用了一批員工,由于6名員

15、工表現(xiàn)較差在試用期內(nèi)被辭退,試用期結(jié)束后的表現(xiàn)評(píng)定中,辭退的6名員工的表現(xiàn)分即為非隨機(jī)缺失。數(shù)據(jù)缺失的原因和分類(lèi)數(shù)據(jù)缺失的原因:缺失數(shù)據(jù)完整的缺失數(shù)據(jù)處理方法包括如下:識(shí)別缺失數(shù)據(jù);分析導(dǎo)致數(shù)據(jù)缺失的原因;探索缺失值模式;刪除包含缺失值的觀測(cè)或用合理的數(shù)值代替缺失值。下面將用代碼來(lái)說(shuō)明R中如何實(shí)現(xiàn)識(shí)別缺失數(shù)據(jù)以及如何刪除缺失觀測(cè)或做插補(bǔ)。缺失數(shù)據(jù)完整的缺失數(shù)據(jù)處理方法包括如下:下面將用代碼來(lái)說(shuō)明RR中如何處理缺失值缺失值識(shí)別依然以Loan數(shù)據(jù)集為例head(is.na(Loan$annual_inc),10) #顯示變量列annual_inc前10個(gè)數(shù)據(jù)的是否缺失 1 FALSE FALSE

16、FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSEsum(is.na(Loan$annual_inc) #計(jì)算變量列annual_inc的缺失值個(gè)數(shù) 1 23sum(!is.na(Loan$annual_inc) #計(jì)算變量列annual_inc的非缺失值個(gè)數(shù) 1 550560mean(!complete.cases(Loan) #計(jì)算Loan數(shù)據(jù)中完整行的百分比 1 0.9609686naexist_Loan = Loancomplete.cases(Loan), #取出完整觀測(cè)nanot_Loan = Loan!complete.cases(Lo

17、an), #提取出非完整觀測(cè)R中如何處理缺失值缺失值識(shí)別head(is.na(Loan$R中如何處理缺失值探索缺失值模式列表顯示缺失值工具:mice包md.pattern()函數(shù)library(mice)md.pattern(Loan.num)R中如何處理缺失值探索缺失值模式library(mice)R中如何處理缺失值探索缺失值模式圖形探索缺失值VIM包aggr()函數(shù)從左圖上看,變量annual_inc有最大的缺失值個(gè)數(shù)(23個(gè))。從右圖可以看到有19個(gè)客戶同時(shí)缺失全部(7個(gè))變量,而有4個(gè)客戶僅在變量dti和total_pymnt上存在缺失。 library(VIM)aggr(Loan.n

18、um, prop=FALSE, numbers=TRUE)R中如何處理缺失值探索缺失值模式從左圖上看,變量annual缺失數(shù)據(jù)的處理處理手段1:刪除缺失值個(gè)案刪除(行刪除法):當(dāng)缺失數(shù)據(jù)的記錄所占的比例在數(shù)據(jù)集中非常少(少于10%)時(shí),可以將缺失值直接刪除,這樣包含一個(gè)或多個(gè)缺失值的任何一行都會(huì)被刪除。成對(duì)刪除法(pairwise deletion):使用所有的可觀測(cè)數(shù)據(jù)計(jì)算均值和協(xié)方差矩陣。如:X的均值估計(jì)基于X的所有可觀測(cè)值。X與Y的協(xié)方差和相關(guān)系數(shù)矩陣的計(jì)算則使用X和Y變量均不存在缺失的觀測(cè)。缺失數(shù)據(jù)的處理處理手段1:刪除缺失值缺失數(shù)據(jù)的處理處理手段2:填補(bǔ)缺失值填補(bǔ)缺失值具體就是用待研

19、究變量自身已知信息或者與其他變量的關(guān)聯(lián),基于某種算法規(guī)則來(lái)補(bǔ)充替代缺失值??煞譃椋河米罡哳l率值來(lái)填補(bǔ)缺失值回歸插補(bǔ)(regression imputation)隨機(jī)回歸插補(bǔ)(stochastic regression imputation)多重插補(bǔ)K-近鄰法缺失數(shù)據(jù)的處理處理手段2:填補(bǔ)缺失值缺失數(shù)據(jù)的處理用最高頻率值來(lái)填補(bǔ)缺失值思想是用一些代表變量分布特征的中間趨勢(shì)的值。近似分布或者其他對(duì)稱(chēng)分布可選用均值,偏態(tài)分布可以用中位數(shù)。案例:R軟件自帶airquality數(shù)據(jù)集data(airquality)mean6=apply(airquality,2,mean,na.rm=TRUE)mean6

20、 Ozone Solar.R Wind Temp Month Day 42.129310 185.931507 9.957516 77.882353 6.993464 15.803922缺失數(shù)據(jù)的處理用最高頻率值來(lái)填補(bǔ)缺失值data(airqua缺失數(shù)據(jù)的處理airquality$col=c(Mean_imputation,notNA)complete.cases(airquality,1:2)+1 #觀測(cè)是否插補(bǔ)標(biāo)識(shí)airqualityis.na(airquality$Ozone),Ozone=mean6Ozoneairqualityis.na(airquality$Solar.R),Sol

21、ar.R=mean6Solar.R#繪制插補(bǔ)后Ozone的直方圖與散點(diǎn)圖library(ggplot2)ggplot(airquality, aes(Ozone, fill = col)+geom_histogram(alpha = 0.5, position = identity)ggplot(airquality,aes(x=Solar.R,y=Ozone,colour=col)+geom_point(size=4)可以看到數(shù)據(jù)的分布形態(tài)有明顯的改變。缺失數(shù)據(jù)的處理airquality$col=c(Mean_缺失數(shù)據(jù)的處理 sd(airquality$Ozone) #插補(bǔ)后的標(biāo)準(zhǔn)誤1 28

22、.69337cor(airquality$Ozone,airquality$Solar.R) #插補(bǔ)后變量Ozone和Solar.R的相關(guān)系數(shù)1 0.3029695data(airquality) #重新加載數(shù)據(jù)airqualitysd(airquality$Ozone,na.rm=TRUE) #插補(bǔ)后的標(biāo)準(zhǔn)誤1 32.98788cor(airquality$Ozone,airquality$Solar.R,use=complete.obs) #插補(bǔ)前變量Ozone和Solar.R的相關(guān)系數(shù)1 0.3483417均值插補(bǔ)法扭曲了數(shù)據(jù)的分布,均值插補(bǔ)前后的標(biāo)準(zhǔn)誤分別是33和28.7,插補(bǔ)后的標(biāo)準(zhǔn)

23、誤明顯減少。經(jīng)過(guò)插補(bǔ)后Ozone和Solar.R的相關(guān)系數(shù)從0.35降到0.3。缺失數(shù)據(jù)的處理 sd(airquality$Ozone) 缺失數(shù)據(jù)的處理回歸插補(bǔ)(regression imputation)回歸插補(bǔ)通過(guò)合并其他變量的信息來(lái)產(chǎn)生缺失變量的插補(bǔ)值,建立缺失變量和已觀測(cè)變量建立回歸方程,用缺失變量的預(yù)測(cè)值進(jìn)行缺失值的插補(bǔ)。當(dāng)目標(biāo)變量是定性數(shù)據(jù)時(shí),考慮通過(guò)Logit變換,做Logistic線性回歸來(lái)建立回歸模型。data(airquality)mean6=apply(airquality,2,mean,na.rm=TRUE)mean6 Ozone Solar.R Wind Temp M

24、onth Day 42.129310 185.931507 9.957516 77.882353 6.993464 15.803922缺失數(shù)據(jù)的處理回歸插補(bǔ)(regression imputat缺失數(shù)據(jù)的處理library(mice)data(airquality)airquality$col=c(regression_imputation,notNA)as.vector(!is.na(airqualityOzone)+1fit = lm(Ozone Solar.R, data = airquality)a=which(!complete.cases(airquality)airquality

25、$Ozonea=as.vector(predict(fit,newdata=airquality!complete.cases(airquality),)ggplot(airquality, aes(Ozone, fill = col) + geom_histogram(alpha = 0.5, position = identity)ggplot(airquality,aes(x=Solar.R,y=Ozone,colour=col)+ geom_point(size=4)缺失數(shù)據(jù)的處理library(mice)缺失數(shù)據(jù)的處理隨機(jī)回歸插補(bǔ)(stochastic regression impu

26、tation)隨機(jī)回歸插補(bǔ)是對(duì)回歸插補(bǔ)的改進(jìn),在回歸預(yù)測(cè)值上增加了一些隨機(jī)因素,這樣減弱了回歸插補(bǔ)對(duì)原相關(guān)性的影響。該方法的實(shí)現(xiàn)步驟是首先估計(jì)出回歸模型的回歸系數(shù)和誤差項(xiàng)方差,然后根據(jù)估計(jì)結(jié)果生成隨機(jī)插補(bǔ)值。缺失數(shù)據(jù)的處理隨機(jī)回歸插補(bǔ)(stochastic regre缺失數(shù)據(jù)的處理library(mice)imp=mice(airquality,1:2,method=norm.nob,m=1,maxit=1,seed=1) iter imp variable 1 1 Ozone Solar.Rair=complete(imp)air$col=c(imputation,notNA)complet

27、e.cases(airquality,1:2)+1ggplot(air, aes(Ozone, fill = col) + geom_histogram(alpha = 0.5, position = identity)ggplot(air,aes(x=Solar.R,y=Ozone,colour=col) + geom_point(size=4)缺失數(shù)據(jù)的處理library(mice)缺失數(shù)據(jù)的處理多重插補(bǔ)多重插補(bǔ)是一種基于重復(fù)模擬處理缺失值的方法,它使用包含缺失值的原數(shù)據(jù)集,用蒙特卡羅方法重復(fù)多次生成若干組完整數(shù)據(jù)集,在每一組模擬出來(lái)的完整數(shù)據(jù)集上分別應(yīng)用標(biāo)準(zhǔn)的統(tǒng)計(jì)方法,再通過(guò)組合輸出結(jié)果

28、給出估計(jì)的效果,以及引入缺失值后的置信區(qū)間。缺失數(shù)據(jù)的處理多重插補(bǔ)缺失數(shù)據(jù)的處理library(mice)imp=mice(airquality,seed=1,print=FALSE)fit=with(imp,lm(OzoneWind+Temp+Solar.R)pooled=pool(fit)round(summary(pooled),3),c(1:3,5) est se t Pr(|t|) (Intercept) -64.331 21.535 -2.987 0.004 Wind -3.053 0.658 -4.641 0.000 Temp 1.612 0.231 6.967 0.000 So

29、lar.R 0.061 0.022 2.731 0.008fit.r=lm(Ozone Wind+Temp+Solar.R, data = airquality)round(coef(summary(fit.r),3) Estimate Std. Error t value Pr(|t|) (Intercept) -64.342 23.055 -2.791 0.006 Wind -3.334 0.654 -5.094 0.000 Temp 1.652 0.254 6.516 0.000 Solar.R 0.060 0.023 2.580 0.011缺失數(shù)據(jù)的處理library(mice)缺失數(shù)

30、據(jù)的處理air=complete(imp) #complete()函數(shù)可以觀察m個(gè)插補(bǔ)數(shù)據(jù)集中任何一個(gè)air$col=c(imputation,notNA)complete.cases(airquality,1:2)+1ggplot(air, aes(Ozone, fill = col) + geom_histogram(alpha = 0.5, position = identity)ggplot(air,aes(x=Solar.R,y=Ozone,colour=col) + geom_point(size=4)缺失數(shù)據(jù)的處理air=complete(imp) #com缺失數(shù)據(jù)的處理K-近鄰

31、法K近鄰法利用樣本觀測(cè)之間的相關(guān)性來(lái)填補(bǔ)缺失值。假設(shè)兩個(gè)觀測(cè)是相似的,其中一個(gè)觀測(cè)在某些變量上有缺失值,那么該缺失值很可能與另外一個(gè)觀測(cè)的值是相似的。缺失數(shù)據(jù)的處理K-近鄰法缺失數(shù)據(jù)的處理library(DMwR)data(airquality)air=knnImputation(airquality,k=10)air$col=c(imputation,notNA)complete.cases(airquality,1:2)+1ggplot(air, aes(Ozone, fill = col) + geom_histogram(alpha = 0.5, position = identity

32、)ggplot(air,aes(x=Solar.R,y=Ozone,colour=col)+ geom_point(size=4)缺失數(shù)據(jù)的處理library(DMwR)第5節(jié) 異常點(diǎn)的檢測(cè)第5節(jié) 異常點(diǎn)的檢測(cè)變量選擇異常點(diǎn)(又稱(chēng)離群點(diǎn),outlier)是指既定模型中偏離很大的數(shù)據(jù)點(diǎn),或者與絕大多數(shù)數(shù)據(jù)點(diǎn)明顯不協(xié)調(diào)的數(shù)據(jù)點(diǎn)在探索性數(shù)據(jù)分析的階段我們不假定任何模型,所以我們這里討論的異常點(diǎn)檢測(cè)指后者,相對(duì)絕大多數(shù)點(diǎn)明顯不協(xié)調(diào)的數(shù)據(jù)點(diǎn)。結(jié)構(gòu):?jiǎn)巫兞亢投嘧兞康碾x群點(diǎn)檢測(cè)局部離群點(diǎn)因子檢測(cè)聚類(lèi)方法進(jìn)行離群點(diǎn)檢測(cè)變量選擇異常點(diǎn)(又稱(chēng)離群點(diǎn),outlier)是指既定模型中偏變量選擇單變量和多變量的離群點(diǎn)檢

33、測(cè)箱線圖是一種有效快捷檢測(cè)離群點(diǎn)的方法。set.seed(3147) x=rnorm(100) #生成100個(gè)標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)boxplot.stats(x)$out #檢測(cè)出來(lái)的異常點(diǎn)1 -3.315391 2.685922 -3.055717 2.571203boxplot(x) #繪制箱線圖變量選擇單變量和多變量的離群點(diǎn)檢測(cè)set.seed(3147變量選擇局部離群點(diǎn)因子檢測(cè)局部離群因子(LOF)是一種基于密度識(shí)別局部離群點(diǎn)的算法(Breuning et al,2000)。使用局部離群因子,這一定義基于局部密度的概念,后者用k個(gè)近鄰的距離來(lái)估計(jì)的。將一個(gè)點(diǎn)的局部密度與它的k個(gè)鄰居的比

34、較,如果遠(yuǎn)小于它的鄰居的局部密度,那么LOF值大于1,這一點(diǎn)就是離群點(diǎn)。如圖1-*中A點(diǎn)的局部密度要遠(yuǎn)小于其他點(diǎn),相對(duì)于其鄰居,A點(diǎn)位于一個(gè)密度更稀疏的區(qū)域所以A的LOF值大于1。變量選擇局部離群點(diǎn)因子檢測(cè)變量選擇局部離群點(diǎn)因子檢測(cè)的代碼示例library(DMwR)iris2 - iris,1:4 #刪除掉列表量Species,它是一個(gè)分類(lèi)型變量outlier.scores - lofactor(iris2, k=5) #選擇k=5作為近鄰標(biāo)準(zhǔn),用于計(jì)算LOFoutliers - order(outlier.scores, decreasing=T)1:5 #按LOF因子降序排列print(

35、outliers) #顯示異常點(diǎn)的編號(hào)1 42 107 23 110 63par(mfrow=c(1,2)plot(density(outlier.scores) #繪制異常點(diǎn)的LOF因子密度函數(shù)圖labels - 1: nrow(iris2) labels-outliers - .biplot(prcomp(iris2), cex=.8, xlabs=labels)變量選擇局部離群點(diǎn)因子檢測(cè)的代碼示例library(DMwR空間數(shù)據(jù)的展示聚類(lèi)方法做離群點(diǎn)檢測(cè)將數(shù)據(jù)進(jìn)行劃分,那些沒(méi)有被劃分到任何簇的數(shù)據(jù)點(diǎn)即為離群點(diǎn)。比如在基于密度的聚類(lèi)中,如DBSCAN,密度可達(dá)的兩個(gè)對(duì)象將被劃分到同一組。因

36、此,那些沒(méi)有被劃分到任何一組的對(duì)象與其他對(duì)象是孤立的,這些孤立的對(duì)象被認(rèn)為是離群點(diǎn)??臻g數(shù)據(jù)的展示聚類(lèi)方法做離群點(diǎn)檢測(cè)第6節(jié) 變量選擇第6節(jié) 變量選擇變量選擇數(shù)據(jù)分析過(guò)程中,高維數(shù)據(jù)是非常棘手的研究對(duì)象,特別是在文本挖掘、圖像處理和基因數(shù)據(jù)分析中。過(guò)高的維度使得很多方法無(wú)法工作或效率降低,這是之所以做變量選擇的原因。除此之外,降維能夠提高預(yù)測(cè)精度、減少噪聲、方便可視化數(shù)據(jù)。變量選擇的類(lèi)別:新變量是原變量的組合:主成分分析、因子分析特征選擇:選取原始變量集的子集變量選擇數(shù)據(jù)分析過(guò)程中,高維數(shù)據(jù)是非常棘手的研究對(duì)象,特別是特征選擇的常用方法嵌入(Embed):學(xué)習(xí)算法中本來(lái)就包含特征選擇的過(guò)程,例

37、如決策樹(shù)一類(lèi)的分類(lèi)器,它們?cè)跊Q定分枝點(diǎn)時(shí)就會(huì)選擇最有效的特征來(lái)對(duì)數(shù)據(jù)進(jìn)行劃分。封裝(Wrapper): 特征選擇過(guò)程與訓(xùn)練過(guò)程整合在一起,以模型的預(yù)測(cè)能力作為衡量特征子集的選擇標(biāo)準(zhǔn),例如分類(lèi)精度,有時(shí)也可加入復(fù)雜度懲罰因子。多元線性回歸中的前向搜索、后向搜索和逐步回歸法可以說(shuō)是封裝方法的一種簡(jiǎn)單實(shí)現(xiàn)。封裝法可以選擇出高質(zhì)量的子集,但速度會(huì)比較慢。過(guò)濾(Filter): 特征選擇過(guò)程獨(dú)立于訓(xùn)練過(guò)程,以分析特征子集內(nèi)部特點(diǎn)來(lái)預(yù)先篩選,與學(xué)習(xí)器的選擇無(wú)關(guān)。過(guò)濾器的評(píng)價(jià)函數(shù)通常包括了相關(guān)性、距離、信息增益等。在數(shù)據(jù)預(yù)處理過(guò)程中刪除那些取值為常數(shù)的特征就是過(guò)濾方法的一種。過(guò)濾法速度快但有可能刪除有用的特

38、征。特征選擇的常用方法嵌入(Embed):學(xué)習(xí)算法中本來(lái)就包含特特征選擇過(guò)濾法刪除方差幾乎為零的變量方差為零的變量,可被看作不含有任何有價(jià)值的信息,甚至?xí)_亂模型構(gòu)建引起計(jì)算上的錯(cuò)誤。在文本挖掘的問(wèn)題中,預(yù)測(cè)變量(x)表示關(guān)鍵詞在文本中的出現(xiàn)次數(shù),某個(gè)關(guān)鍵詞在531篇文檔中,其中523篇文檔沒(méi)有出現(xiàn)這個(gè)關(guān)鍵詞(x=0),6篇文檔中都出現(xiàn)了2次(x=2),一篇文檔出現(xiàn)了3次(x=3),一篇文檔中出現(xiàn)了1次(x=1)。偵測(cè)方法:第一,不同的變量取值(unique values)個(gè)數(shù)與樣本量之比低于10%。上述的例子中樣本量是531,變量取值是4,這個(gè)比值是0.75%。第二,頻率最高的兩個(gè)變量值的頻

39、數(shù)比超過(guò)20。在文檔的例子中,頻率最高的取值是x=0,頻數(shù)是523,次之是x=2,頻數(shù)是6,這兩個(gè)變量值的頻數(shù)比是523/6=88。可基本認(rèn)為x是一個(gè)零方差變量。特征選擇過(guò)濾法刪除方差幾乎為零的變量在文本挖掘的問(wèn)題中,特征選擇過(guò)濾法實(shí)例:AppliedPredictiveModeling包中的segmentationOriginal細(xì)胞分割數(shù)據(jù)集(Hill e al,2007)。本例中,細(xì)胞分割數(shù)據(jù)的所有數(shù)值變量,不存在有任何方差為0的變量,結(jié)果較好。library(AppliedPredictiveModeling)data(segmentationOriginal) #加載原始的細(xì)胞分隔數(shù)據(jù)segData - subset(segmentationOriginal, Case = Train) #提取其中標(biāo)識(shí)為“Train”的訓(xùn)練樣本dim(segData) #訓(xùn)練樣本有1009個(gè)觀測(cè),119個(gè)特征1 1009 119segData - segData, -(1:3) st

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論