下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
腳本——缺失數(shù)據(jù)的填補(bǔ)方法(ppt1,ppt2)同學(xué),你好。今天我們來講解缺失與異常數(shù)據(jù)的處理。(ppt3)先來了解一下缺失與異常值產(chǎn)生的原因及影響。(ppt4)(動畫1)為什么會產(chǎn)生缺失值和異常值呢?(動畫2)主要有三點(diǎn)原因,第一點(diǎn),有些信息暫時(shí)無法獲取,或者獲取信息的代價(jià)太大。第二點(diǎn),有些信息是被遺漏的第三點(diǎn)是屬性值不存在,如一個未婚者的配偶姓名、一個兒童的固定收入。(動畫3)異常值產(chǎn)生既有客觀原因,如儀器故障。又有主觀原因,如操作粗心大意。(動畫4)那是不是所有的缺失值都是有用的呢?(動畫5)答案是否定的。比如說病人在康復(fù)以后的病例數(shù)據(jù)不再更新;去世人員相關(guān)數(shù)據(jù)的記錄。這種情況我們應(yīng)該結(jié)合實(shí)際的數(shù)據(jù)分析案例進(jìn)一步作出判定。(ppt5)缺失值和異常值會產(chǎn)生哪些影響呢?(動畫1)有利影響是有的時(shí)候我們可以通過用戶用電數(shù)據(jù)的異常來識別用戶竊電。(動畫2)不利影響是例如在高鐵的運(yùn)行過程中,如果數(shù)據(jù)出現(xiàn)了異常,沒有及時(shí)處理,就可能會導(dǎo)致重大事故。(ppt6)接下來我們來講解缺失值與異常值的處理方法。(ppt7)(動畫1,2)一般來說,異常數(shù)據(jù)可以當(dāng)做缺失值來處理。當(dāng)數(shù)據(jù)集面臨數(shù)據(jù)缺失的情況,常用的缺失值處理方法有以下四類:1.刪除帶有缺失值的樣本或特征;2.采用某種方法對缺失值進(jìn)行填補(bǔ),如均值填補(bǔ)、隨機(jī)填補(bǔ)和基于模型的填補(bǔ);3.插值法;4.或者我們也可以選擇不處理缺失值。(動畫3)那么這些方法我們?nèi)绾蝸聿僮髂兀?ppt8)(動畫1)先來看刪除法。(動畫2)刪除法通過刪除包含缺失值的數(shù)據(jù)來得到一個完整的數(shù)據(jù)子集。數(shù)據(jù)的刪除既可以從樣本的角度進(jìn)行,也可以從特征的角度進(jìn)行。(動畫3)刪除樣本:樣本有多個特征存在缺失值,且存在缺失值的樣本占整個數(shù)據(jù)集樣本數(shù)量的比例不高的情形。(動畫4)刪除特征:某個特征缺失值較多且該特征對數(shù)據(jù)分析的目標(biāo)影響不大。(動畫5)刪除法簡單且易于操作但也具有很大的局限性。它以減少數(shù)據(jù)來換取信息的完整,丟失了大量隱藏在這此被刪除數(shù)據(jù)中的信息。(動畫6)在python中我們常用data.dropna()進(jìn)行刪除操作。(ppt9)(動畫1)來看第二種方法:填補(bǔ)法。(動畫2)缺失值的填補(bǔ)法因?yàn)樘钛a(bǔ)的方法機(jī)制不同,可以分為以下三種方法:1.按值填補(bǔ)(均值,眾數(shù)等)。2.隨機(jī)填補(bǔ)(貝葉斯填補(bǔ),近似貝葉斯填補(bǔ))3.模型填補(bǔ)。(動畫3)pandas庫中提供了缺失值填補(bǔ)的方法名pandas.DataFrame.fillna()(ppt10)(動畫1)下面我們來講解填補(bǔ)法中的第一種,均值填補(bǔ)。對于存在缺失值的某一個特征,均值填補(bǔ)法首先計(jì)算該特征中非缺失值的平均數(shù)或眾數(shù),然后使用平均數(shù)或眾數(shù)來代替缺失值。(動畫2)對于連續(xù)型特征,通常使用平均值進(jìn)行填補(bǔ);對離散型特征,則使用眾數(shù)進(jìn)行填補(bǔ)。(動畫3)均值填補(bǔ)的優(yōu)點(diǎn)是操作簡單
方便操作
效率高。(動畫4)缺點(diǎn)是均值填補(bǔ)法會使得數(shù)據(jù)過分集中在平均值或眾數(shù)上,導(dǎo)致特征的方差被低估;由于完全忽略特征之間的相關(guān)性,均值填補(bǔ)法會大大弱化特征之間的相關(guān)性。(ppt11)(動畫1)對于不同的分布類型,我們所選擇的填充值不同,具體見下表。一般情況下,近正態(tài)分布的數(shù)據(jù),所有的觀測值都較好地聚集在平均值的周圍,我們選擇平均值來填充。對于偏態(tài)分布,我們選擇中位數(shù)來進(jìn)行填充,是因?yàn)榇蟛糠值闹刀季奂谧兞糠植嫉囊粋?cè),中位數(shù)是更好的代表數(shù)據(jù)中心趨勢的指標(biāo)。對于有離群點(diǎn)的分布,我們也選擇中位數(shù)進(jìn)行填充。對于名義變量來說,例如性別,因?yàn)樗麩o大小、順序之分,不能加減乘除,所以我們選擇眾數(shù)來填充。(ppt12)(動畫1)第二種填補(bǔ)方法是隨即填補(bǔ),隨機(jī)填補(bǔ)是在均值填補(bǔ)的基礎(chǔ)上加上隨機(jī)項(xiàng),對一般缺失數(shù)據(jù)可以較好地進(jìn)行填補(bǔ)。(動畫2)他的優(yōu)點(diǎn)是通過增加缺失值的隨機(jī)性來改善缺失值分布集中的缺陷。缺點(diǎn)是數(shù)據(jù)容易過于集中,忽略方差,增強(qiáng)相關(guān)性。(動畫3)隨機(jī)填補(bǔ)方法包括貝葉斯Bootstrap法和近似貝葉斯Bootstrap法。(ppt13)(動畫1)第三種填補(bǔ)方法是模型填補(bǔ)。基于模型的方法將缺失特征作為預(yù)測目標(biāo)。將數(shù)據(jù)集中其他特征或其子集具有較好地指示作用,通過特征的非缺失值構(gòu)造訓(xùn)練集,然后使用構(gòu)建的模型來預(yù)測特征的缺失值。(動畫2)優(yōu)點(diǎn)是模型填補(bǔ)利用特征之間相關(guān)性進(jìn)行預(yù)測,更加符合貼切實(shí)際。缺點(diǎn)是需要采用模型評估方法對模型的預(yù)測性能進(jìn)行評估,如果構(gòu)建的模型預(yù)測性能太差則不適合使用該方法。(ppt14)(動畫1)接下來我們來講解對缺失值進(jìn)行處理的第三種方法,插值法。插值法又稱“內(nèi)插法”,是利用函數(shù)f(x)在某區(qū)間中已知的若干點(diǎn)的函數(shù)值,作出適當(dāng)?shù)奶囟ê瘮?shù),在區(qū)間的其他點(diǎn)上用這特定函數(shù)的值作為函數(shù)f(x)的近似值,這種方法稱為插值法。這里插值法主要介紹拉格朗日插值法。(ppt15)(動畫1)先來學(xué)習(xí)拉格朗日插值多項(xiàng)式:拉格朗日插值多項(xiàng)式:設(shè)??_1,??_2,…,??_n為不同的插值節(jié)點(diǎn),若???1次多項(xiàng)式??_??(??)(k=1,2,…,??)滿足條件:??_??(??_??)=1,當(dāng)i=k時(shí);:??_??(??_??)=0,當(dāng)i≠k時(shí)。則由此可得,??_??(??_??)等于(x_k-x_i)分之(x-x_i)的連乘,i從1到n,并且i不等于k。稱這個式子為Lagrange插值基函數(shù)。(動畫2)對已知的函數(shù)值??_??=??(??_??),i=1,2,…,??,滿足插值條件??_??(??_??)=??_??的插值多項(xiàng)式??_??(??)為??_??(??)=sigemak從1到n,y_k*??_??(??),我們就稱其為Lagrange插值多項(xiàng)式。(ppt16)(動畫1)我們來看一個例子。假設(shè)有某個二次多項(xiàng)式函數(shù)f,已知它在三個點(diǎn)上的取值為:??(4)=10,??(5)=5.25,??(6)=1,求??(9/2)的值。(動畫2)第一步,寫出每一個基函數(shù)。根據(jù)基函數(shù)的公式我們可以得到??_1(??),??_2(??),??_3(??)。(動畫3)第二步,求得拉格朗日多項(xiàng)式,??(??)=??(4)*??_1(??)+??(5)*??_2(??)+??(6)*??_3(??)。(動畫4)代入數(shù)值得,??(9/2)≈??(9/2)=7.5625。(ppt17)(動畫1)我們還有許多其他的處理缺失值的方法,例如啞變量方法和EM算法等。我們來簡單介紹一下。(動畫2)啞變量算法:對于離散型特征,如果存在缺失值,可以將缺失值作為一個單獨(dú)的變量取值進(jìn)行處理,這種方法即成為啞變量算法。(動畫3)EM算法:是一種可以利用不完整的信息實(shí)現(xiàn)概率模型的參數(shù)化估計(jì)的算法。EM算法可以用來進(jìn)行缺失值的填補(bǔ),此時(shí)缺失特征被當(dāng)做隱含變量。(ppt18)最后我們來看一個缺失值處理的實(shí)際應(yīng)用。(ppt19)(動畫1)餐飲系統(tǒng)中的銷量數(shù)據(jù)可能會出現(xiàn)缺失值,下表為某餐廳一段時(shí)間內(nèi)的銷量數(shù)據(jù)。其中2015年2月14日的數(shù)據(jù)缺失,用拉格朗日插值法對缺失值進(jìn)行插補(bǔ)(使用缺失值前后各5個未缺失的數(shù)據(jù)參與建模)。(ppt20)(動畫1)對剔除異常值和空值用Python插值:lagrange(y.index,list(y))(n),再求它們的值。(動畫2)在進(jìn)行插值之前會對數(shù)據(jù)進(jìn)行異常值檢測,發(fā)現(xiàn)2015/2/21日的數(shù)據(jù)是異常的(數(shù)據(jù)大于5000),故也把此日期數(shù)據(jù)定義為空缺值,進(jìn)行補(bǔ)數(shù)。如表2,我們求得,2015年2月21日的插值結(jié)果為4275.255,2015年2月14日的插值結(jié)果為4156.86。(動畫3)下面我們對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年會計(jì)從業(yè)資格考試復(fù)習(xí)題及答案速查
- 2026年大學(xué)數(shù)據(jù)庫考試試題及答案
- 2026年高級工程師考試試題及答案
- 2026年物流設(shè)備L2級運(yùn)維考試寶典及解析
- 2026年高級英語水平考試試題及答案解讀
- 電梯維保駐點(diǎn)崗位制度
- 生產(chǎn)績效獎金制度
- 環(huán)保臨時(shí)披露制度
- 物業(yè)公司報(bào)表記錄制度
- (2025年)南平市延平區(qū)社區(qū)網(wǎng)格員招錄考試真題庫(含答案)
- SJG 46-2023 建設(shè)工程安全文明施工標(biāo)準(zhǔn)
- 部編版小學(xué)語文四年級上冊習(xí)作《我的心兒怦怦跳》精美課件
- DLT 593-2016 高壓開關(guān)設(shè)備和控制設(shè)備
- DB11∕T 190-2016 公共廁所建設(shè)標(biāo)準(zhǔn)
- 個人廉潔承諾內(nèi)容簡短
- 房屋過戶提公積金合同
- D-二聚體和FDP聯(lián)合檢測在臨床中的應(yīng)用現(xiàn)狀
- 婚禮中心工作總結(jié)
- 公路水運(yùn)工程生產(chǎn)安全事故應(yīng)急預(yù)案
- 長方體、正方體的展開圖及練習(xí)
- nyt5932023年食用稻品種品質(zhì)
評論
0/150
提交評論