版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材R 語言張 燕總主編程顯毅主編朱倩副主編 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材6 .1 缺失值分析6 .2 異常值分析6 . 3不一致數(shù)據(jù)分析6 . 4統(tǒng)計分析習題第六章 數(shù)據(jù)探索6.1缺失值分析第六章 數(shù)據(jù)探索在建模之前,可以通過數(shù)據(jù)探索來獲得關(guān)于數(shù)據(jù)的基本認識。數(shù)據(jù)探索可以幫助我們了解數(shù)據(jù)的形狀,數(shù)據(jù)的邊界(最值),數(shù)值特性和散布程度,發(fā)現(xiàn)有問題的數(shù)據(jù),缺失的數(shù)據(jù),噪聲,有偏的分布。數(shù)據(jù)探索是數(shù)據(jù)分析項目的基本步驟之一,通過探索得到的數(shù)據(jù)變量概括和可視化的圖形結(jié)果,讓我們對數(shù)據(jù)集有一個基本的理解,并選定合適的變換工具做進一步的分析。6.1 缺失值分析 與缺失值相關(guān)的幾個概
2、念第六章 數(shù)據(jù)探索(1)FLASE(假)FALSE表示邏輯假,是存在的真實值。計算時FALSE被當做0。(2)NA(缺失值)NA表示數(shù)據(jù)集中的該數(shù)據(jù)遺失、不存在。在針對具有NA的數(shù)據(jù)集進行函數(shù)操作的時候,該NA參與運算,如。 x-c(1,2,3,NA,4);mean(x)1 NA如果想去除NA的影響,需要顯式告知mean方法,如mean(x,na.rm=T)。(3)NULLNULL表示未知的狀態(tài),它不會在計算之中。例如, x irissample(1:nrow(iris), 6),1 dim(iris) 1 150 5sum(complete.cases(sleep)library(VIM)#
3、查看它的樣本數(shù)和變量數(shù)#查看完整樣本個數(shù)xcolnames(x)aggr(x)#缺失值可視化6.1 缺失值分析 缺失值檢測第六章 數(shù)據(jù)探索 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材6 . 16 . 26 . 3缺失值分析異常值分析不一致數(shù)據(jù)分析6 . 4統(tǒng)計分析習題第六章 數(shù)據(jù)探索6.2異常值分析第六章 數(shù)據(jù)探索異常值(離群點)是指測量數(shù)據(jù)中的隨機錯誤或偏差,包括錯誤值或偏離均值的孤立點值。在數(shù)據(jù)處理中,異常值會極大的影響回歸或分類的效果。為了避免異常值造成的損失,需要在數(shù)據(jù)預(yù)處理階段進行異常值檢測。另外,某些情況下,異常值檢測也可能是研究的目的,如數(shù)據(jù)的發(fā)現(xiàn)、電腦入侵檢測等。6.2 異常值分析 箱線圖檢測
4、離群點在一條數(shù)軸上,以數(shù)據(jù)的上下四分位數(shù)(Q1-Q3)為界畫一個 矩形盒子(中間50%的數(shù)據(jù)落在盒內(nèi));在數(shù)據(jù)的中位數(shù)位置畫一條線段為中位線;默認延長線不超過盒長的1.5倍,延長線之外的點認為是異常值(用標記)。第六章 數(shù)據(jù)探索6.2 異常值分析 箱線圖檢測離群點檢測數(shù)據(jù)的異常值使用函數(shù)是boxplot.stats()函數(shù)實現(xiàn),數(shù)據(jù) 仍采用6.2.2節(jié)數(shù)據(jù),執(zhí)行如下代碼得到下圖。yboxplot(x,2)#繪制箱線圖想查看具體的異常值,執(zhí)行如下代碼: y$out1 4.4 4.1 4.2 2.0想查看置信區(qū)間,執(zhí)行如下代碼:y$conf1 2.9 3.16.2 異常值分析 散點圖檢測離群點第六
5、章 數(shù)據(jù)探索#尋找a常值的坐標位置aa1 16 33 34 61#尋找b常值的坐標位置bb1 132dfplot(df) #繪制x, y的散點圖p2points(dfp2,col=red,pch=x,cex=2) #標記異常值6.2 異常值分析 散點圖檢測離群點第六章 數(shù)據(jù)探索6.2 異常值分析 LOF方法檢測異常值第六章 數(shù)據(jù)探索局部異常因子OF法),是一種基于概率密度函數(shù)識別異常值的算OF算法只對數(shù)值型數(shù)據(jù)有效。算法原理:將一個點的局部密度與其周圍的點的密度相比較,若前者明顯比后者?。↙OF值大于1),則該點相對于周圍的點來說就處于一個相對比較稀疏的區(qū)域,這就表明該點是一個異常值。R語言實
6、現(xiàn):使用DMwR包中的函數(shù)lofactor(),基本格式為: lofactor(data, k)其中,data為數(shù)值型數(shù)據(jù)集;k為用于計算局部異常因子的鄰居數(shù)量。6.2 異常值分析 LOF方法檢測異常值 library(DMwR) out.scores plot(density(out.scores) 6.5)#繪制LOF值的概率密度圖(如圖#LOF值排前6的數(shù)據(jù)作常值,提取其樣本號 order(out.scores,decreasing=TRUE)1:61 339 11 45 20 346.2 異常值分析 LOF方法檢測異常值第六章 數(shù)據(jù)探索6.2 異常值分析 聚類方法檢測異常值通過聚成類,
7、將那些不屬于任何一類的數(shù)據(jù)作行如下代碼,得到如圖6.6。第六章 數(shù)據(jù)探索常值。執(zhí)kk$cluster #輸出聚類結(jié)果#centers返回每個樣本對應(yīng)的聚類中心樣本centers #計算每個樣本到其聚類中心的距離distances#找到距離最大的6個樣本,認為是異常值outout #異常值的樣本號1 118 119 12399 13294 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材6 . 1缺失值分析6 . 26 . 36 . 4異常值分析不一致數(shù)據(jù)分析統(tǒng)計分析習題第六章 數(shù)據(jù)探索6.3不一致數(shù)據(jù)分析第六章 數(shù)據(jù)探索作為一位數(shù)據(jù)分析人員,應(yīng)當警惕編碼使用的不一致問題 和 數(shù) 據(jù) 表 示 的 不 一 致 問 題
8、, 如 格 式 不 一 致 ( 日 期“2018/05/25”和“25/05/2018”)、類型不一致、命名不一致等。編碼不一致和數(shù)據(jù)表示不一致的問題通常需要人工檢測, 當發(fā)現(xiàn)一定規(guī)律時可以通過編程進行替換和修改。若存在不一 致的數(shù)據(jù)是無意義數(shù)據(jù),可以使用缺失值處理方法進行相應(yīng)處理。數(shù)據(jù)矛盾(不一致)還可能是由于被挖掘的數(shù)據(jù)來自不同 的數(shù)據(jù)源,對于重復(fù)存放的數(shù)據(jù)未能進行一致性更新造成的, 類似于數(shù)據(jù)庫參照完整性。例如,兩張表中都存放了用戶電話號碼,但在用戶的電話號碼發(fā)生給變時,只更新了一張表中的數(shù)據(jù),那么這兩張表就有了不一致的數(shù)據(jù)。這要借助數(shù)據(jù)庫的 完整性理論。 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材6
9、. 1缺失值分析6 . 26 . 3異常值分析不一致數(shù)據(jù)分析6 . 4習題統(tǒng)計分析第六章 數(shù)據(jù)探索6.4 統(tǒng)計分析 分布分析(1) 定量數(shù)據(jù)的分布分析方法1:直方圖將數(shù)據(jù)取值的范圍分成若干等距區(qū)間,考察數(shù)據(jù)落入每一區(qū)間的頻數(shù)與頻率,在每個區(qū)間上畫一個矩形,它的寬度是組距, 它的高度可以是頻數(shù),這種直方圖可以估計總體的概率密度。在R語言中,使用hist()函數(shù)畫出樣本的直方圖。方法2:核密度圖與直方圖相配套的是核密度圖,其目的是用已知樣本,估計其密度,執(zhí)行下面代碼得到圖6.6。set.seed(1234)xhist(x,breaks = 10,freq=FALSE,col = gray)line
10、s(density(x),col=red,lwd=2)第六章 數(shù)據(jù)探索6.4 統(tǒng)計分析 分布分析第六章 數(shù)據(jù)探索6.4 統(tǒng)計分析 分布分析第六章 數(shù)據(jù)探索方法3:莖葉圖與直方圖比較,莖葉圖更能細致地看出數(shù)據(jù)分布結(jié)構(gòu)。R語言中使用stem()函數(shù)繪制莖葉圖,如: stem(islands)The decimal point is 3 digit(s) to the right of the |0 | 000000000000000000000000000001111112223382 | 074 | 56 | 88 | 410 | 512 |14 |16 | 0在莖葉圖中,縱軸為測定數(shù)據(jù),橫軸為
11、數(shù)據(jù)頻數(shù),數(shù)據(jù)的十分位表示“莖”,作為縱軸的刻度;個位數(shù)作為“葉”,顯示頻數(shù)的個數(shù),作用與直方圖類似。6.4 統(tǒng)計分析 分布分析第六章 數(shù)據(jù)探索(2)定性數(shù)據(jù)的分布分析對于定性變量,常常根據(jù)分類變量來分組,可以采用餅圖來描述定性變量的分布。餅圖的每一個扇形部分代表每一類型的百分比或頻數(shù),根據(jù)定性變量的類型數(shù)目將餅形圖分成幾個部分,每一部分的大小與每一類型的頻數(shù)成正比。6.4 統(tǒng)計分析 對比分析第六章 數(shù)據(jù)探索(1)對比分析原理數(shù)據(jù)的趨勢變化獨立的看,其實很多情況下并不能說明問題,比如如果一個企業(yè)盈利增長10%,我們并無法判斷這個企業(yè)的好壞,如果這個企業(yè)所處行業(yè)的其他企業(yè)普遍為負增長, 則5%很
12、多,如果行業(yè)其他企業(yè)增長平均為50%,則這是一個很差的數(shù)據(jù)。對比分析,就是給孤立的數(shù)據(jù)一個合理的參考系,否則孤立的數(shù)據(jù)毫無意義。6.4 統(tǒng)計分析 對比分析第六章 數(shù)據(jù)探索(2)常用對比分析方法同比。同比(year-on-year)就是今年第n月與去年第n 月比,即同期相比。同比發(fā)展速度主要是為了消除季節(jié)變動的影響,用以說明本期發(fā)展水平與去年同期發(fā)展水平對比而達到的相對發(fā)展速度。如,本期2月比去年2月,本期6月比去年6月等。其計算公式為:(本期數(shù)-同期數(shù))/|同期數(shù)|100%。環(huán)比。年報的同比分析就是用報告期數(shù)據(jù)與上期或以往幾個年報數(shù)據(jù)進行對比。它可以告訴投資者在過去一年或幾年中,上市公司的業(yè)績
13、是增長還是滑坡。但是,年報的同比分析不能揭示公司最近6個月的業(yè)績增長變動情況,而這一點對投 資決策更富有指導(dǎo)意義。6.4 統(tǒng)計分析 對比分析第六章 數(shù)據(jù)探索定基比。定基比的算法是環(huán)比指數(shù)的乘積,比如你要求2012年8月的定基比,那么,你就要知道2012年1-8月份的環(huán)比指數(shù),然后得出的乘積就是定基比,別忘了%。三者之間關(guān)系。統(tǒng)計指標按其具體內(nèi)容、實際作用和表現(xiàn)形式可以分為總量指標(同比)、相對指標(環(huán)比)和平均指標(定基比)。同比和環(huán)比,這兩者所反映的雖然都是變化速度,但由于采用基期的不同,其反映的內(nèi)涵是完全不同的; 一般來說,環(huán)比可以與環(huán)比相比較,而不能拿同比與環(huán)比相比較;而對于同一個地方,
14、考慮時間縱向上發(fā)展趨勢的反映,則往往要把同比與環(huán)比放在一起進行對照。6.4 統(tǒng)計分析 對比分析第六章 數(shù)據(jù)探索(4)對比的參照物不同,得到的判斷結(jié)論也就不同孩子考試考了95分,家長很高興,因為知道滿分是100分, 有參照物。最近一次考試考了80分,家長會發(fā)火,因為過去的95分成了新參照物。后來一問,發(fā)現(xiàn)這次卷子出難了,孩子已 經(jīng)是班級第一了,就又轉(zhuǎn)怒為喜,這里其他孩子就成了參照物。6.4 統(tǒng)計分析 統(tǒng)計量分析第六章 數(shù)據(jù)探索(1) 集中趨勢度量均值中位數(shù)眾數(shù)(2) 離中趨勢度量極差標準差變異系數(shù)四分位數(shù)間距6.4 統(tǒng)計分析 周期性分析第六章 數(shù)據(jù)探索周期性分析是探索某個變量是否隨著時間變化而呈
15、現(xiàn)出某種周期變化趨勢。時間尺度相對較長的周期性趨勢有年度周期性趨勢、季節(jié)周期性趨勢,相對較短的有月度周期性趨勢、周 度周期性趨勢,甚至更短的天、小時周期性趨勢。例如,要對某單位用電量進行預(yù)測,可以先分析該用電單位日用電量的時序圖,以此來直觀地估計其用電量變化趨勢。6.4 統(tǒng)計分析 相關(guān)分析(1)相關(guān)系數(shù)第六章 數(shù)據(jù)探索6.4 統(tǒng)計分析 相關(guān)分析(2)相關(guān)分類第六章 數(shù)據(jù)探索 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材6 . 1缺失值分析6 . 26 . 3異常值分析不一致數(shù)據(jù)分析6 . 4習題統(tǒng)計分析第六章 數(shù)據(jù)探索 習題: 1. 判斷是否有缺失值的函數(shù)是 。2. 對于缺失數(shù)據(jù)通常有三種應(yīng)付手段: 、 和 。3. 檢測數(shù)據(jù)的異常值是使用函數(shù) ;如何判定離群?4. 在R語言中,通常使用 來畫直方圖。5. 當對數(shù)據(jù)進行批量操作時,可以通過對函數(shù)返回值進行約束,根據(jù)是否提示錯誤判斷、是否存在數(shù)據(jù)不一致問題,可以通過 函數(shù)。AIRack人工智能實驗平臺一站式的人工智能實驗平臺DeepRack深度學(xué)習一體機開箱即用的AI科研平臺BDRack大數(shù)據(jù)實驗平臺一站式的大數(shù)據(jù)實訓(xùn)平臺云創(chuàng)公眾號推薦看未來深度學(xué)習世界云計算頭條中國
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026河南駐馬店市強力建材有限公司招聘8人考試備考題庫及答案解析
- 2026重慶醫(yī)科大學(xué)附屬康復(fù)醫(yī)院大渡口中醫(yī)科中醫(yī)康復(fù)科護理招聘1人考試備考題庫及答案解析
- 2026年馬鞍山安徽和州城市建設(shè)集團有限公司公開招聘工作人員1名考試備考試題及答案解析
- 2026浙江金華永康市金匯醫(yī)藥有限公司招聘工作人員3人考試參考試題及答案解析
- 2026內(nèi)蒙古赤峰市就業(yè)見習計劃招募考試參考題庫及答案解析
- 2026湖北宜昌市長陽土家族自治縣事業(yè)單位急需緊缺人才引進招聘42人(華中科技大學(xué)站)考試備考題庫及答案解析
- 2026年蕪湖市紫云英職業(yè)培訓(xùn)學(xué)校有限公司招聘工作人員4名考試備考試題及答案解析
- 2026年南寧市明秀東路小學(xué)教育集團春季學(xué)期編外教師招聘若干人筆試備考試題及答案解析
- 2026年合肥市行知實驗中學(xué)教師招聘考試備考試題及答案解析
- 2026廣東云浮市人民醫(yī)院招聘63人考試備考試題及答案解析
- 護士(精神科)崗位面試問題及答案
- 車隊運輸港口管理辦法
- 2025屆高考語文復(fù)習:統(tǒng)編版高中語文教材單元主題作文梳理
- DL∕T5142-2024火力發(fā)電廠除灰設(shè)計技術(shù)規(guī)程
- 施工材料供應(yīng)供應(yīng)鏈協(xié)同措施
- 企業(yè)素質(zhì)提升管理制度
- 2025至2030中國凝乳酶市場需求量預(yù)測及發(fā)展戰(zhàn)略規(guī)劃報告
- GB/T 12789.1-2025核反應(yīng)堆儀表準則第1部分:一般原則
- (完整版)物業(yè)管理服務(wù)方案
- 全國中醫(yī)護理骨干人才培訓(xùn)匯報
- 胸腔鏡手術(shù)配合及護理
評論
0/150
提交評論