財(cái)務(wù)大數(shù)據(jù)分析 課件 數(shù)據(jù)清洗_第1頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 數(shù)據(jù)清洗_第2頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 數(shù)據(jù)清洗_第3頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 數(shù)據(jù)清洗_第4頁
財(cái)務(wù)大數(shù)據(jù)分析 課件 數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)清洗Contents目錄01數(shù)據(jù)清洗的常見問題與處理順序02數(shù)據(jù)清洗設(shè)計(jì)——IPO模型03數(shù)據(jù)清洗設(shè)計(jì)——何時(shí)何處做清洗04數(shù)據(jù)清洗設(shè)計(jì):如何做清洗05Wyn平臺數(shù)據(jù)清洗數(shù)據(jù)清洗的常見問題與處理順序PART01數(shù)據(jù)接入觀測。主要包括數(shù)據(jù)接入,數(shù)據(jù)源關(guān)聯(lián),元數(shù)據(jù)整理,數(shù)據(jù)抽樣觀測,歸納數(shù)據(jù)問題。缺失值填補(bǔ)。主要包括確定缺失值范圍,缺失值填補(bǔ),重新取數(shù)。格式內(nèi)容處理。主要包括日期、數(shù)值等格式不一致,不該存在的字符,該字段應(yīng)有內(nèi)容不符。邏輯錯(cuò)誤處理。主要包括去重,去除不合理值,修正矛盾內(nèi)容。剔除無用數(shù)據(jù)。主要包括備份數(shù)據(jù),刪除無用字段。關(guān)聯(lián)性驗(yàn)證。主要包括表聯(lián)接,查驗(yàn)數(shù)據(jù)一致性。數(shù)據(jù)清洗的常見問題與處理順序數(shù)據(jù)清洗設(shè)計(jì)——IPO模型PART02數(shù)據(jù)清洗設(shè)計(jì)——IPO模型

數(shù)據(jù)清洗不是一次性工作,需要多次、多環(huán)節(jié)進(jìn)行。因此,要做好數(shù)據(jù)清洗、保證數(shù)據(jù)質(zhì)量,那么首先需要對整個(gè)數(shù)據(jù)處理的流程進(jìn)行設(shè)計(jì)或了解,在了解了數(shù)據(jù)流程后再在相應(yīng)的環(huán)節(jié)設(shè)計(jì)數(shù)據(jù)清洗的流程。數(shù)據(jù)清洗設(shè)計(jì)——何時(shí)何處做清洗PART03數(shù)據(jù)清洗設(shè)計(jì)——何時(shí)何處做清洗

數(shù)據(jù)清洗可以遵守的法則:

①少量數(shù)據(jù),先合并、聯(lián)接再清洗。②大數(shù)據(jù)源接入,先按照統(tǒng)一標(biāo)準(zhǔn)清洗,再接入;

③每個(gè)數(shù)據(jù)計(jì)算層,先清洗再計(jì)算;④分析結(jié)果發(fā)現(xiàn)數(shù)據(jù)問題,向前溯源,新增、修訂清洗規(guī)則。數(shù)據(jù)清洗設(shè)計(jì)——何時(shí)何處做清洗何時(shí)何處清洗數(shù)據(jù)清洗設(shè)計(jì):如何做清洗PART04

數(shù)據(jù)清洗一般遵循如下原則:一個(gè)清洗步驟就用一條清洗規(guī)則;多拆分清洗步驟,每個(gè)步驟備份數(shù)據(jù),方便出問題時(shí)回退;一般先做全局清洗(即對全部數(shù)據(jù)),再做個(gè)別字段的清洗;清洗的輸出結(jié)果不要直接放在正式數(shù)據(jù)流\正式文件中,先用測試環(huán)境/臨時(shí)文件充分驗(yàn)證后上正式環(huán)境。數(shù)據(jù)清洗設(shè)計(jì):如何做清洗

為了提升清洗效率,在不影響正常要分析的數(shù)據(jù)前提下,將多個(gè)字段都存在的問題一次性清洗掉,可以使用全局規(guī)則。全局清洗一般放在其他清洗規(guī)則前優(yōu)先執(zhí)行,例如,數(shù)據(jù)中含有空格、非法字符?*/|等,這些針對所有字段的清洗就屬于全局清洗。數(shù)據(jù)清洗設(shè)計(jì):如何做清洗Wyn平臺數(shù)據(jù)清洗PART05

數(shù)據(jù)清洗最常見的是缺失數(shù)據(jù)清洗和錯(cuò)誤數(shù)據(jù)清洗,錯(cuò)誤數(shù)據(jù)又包括格式錯(cuò)誤數(shù)據(jù)和內(nèi)容錯(cuò)誤數(shù)據(jù)。對于格式錯(cuò)誤數(shù)據(jù),可以通過格式轉(zhuǎn)化規(guī)則自動(dòng)進(jìn)行處理;對于內(nèi)容錯(cuò)誤數(shù)據(jù)可以通過頁面規(guī)則設(shè)定方式進(jìn)行限制,減少內(nèi)容錯(cuò)誤;對于邏輯錯(cuò)誤數(shù)據(jù),則需要編寫與業(yè)務(wù)相關(guān)的判讀規(guī)則來實(shí)現(xiàn)數(shù)據(jù)的確認(rèn)或剔除。在Wyn和Tableau等大數(shù)據(jù)平臺中,對于缺失的空白數(shù)據(jù)和格式錯(cuò)誤數(shù)據(jù)處理方法不同,有的平臺只要某行出現(xiàn)空白數(shù)據(jù)或格式錯(cuò)誤,該條數(shù)據(jù)整個(gè)不參加字段計(jì)算,有的平臺則會(huì)自動(dòng)當(dāng)作0來處理。為了避免數(shù)據(jù)處理的誤差,我們往往需要特別對空白數(shù)據(jù)和格式錯(cuò)誤數(shù)據(jù)進(jìn)行檢查和處理。Wyn平臺數(shù)據(jù)清洗Wyn平臺數(shù)據(jù)清洗步驟:1.創(chuàng)建數(shù)據(jù)源。連接“利潤表2020QX.xlsx”數(shù)據(jù)源,點(diǎn)下一步,直到數(shù)據(jù)源創(chuàng)建成功;Wyn平臺數(shù)據(jù)清洗2.創(chuàng)建數(shù)據(jù)集。選擇“創(chuàng)建文檔—儀表板—準(zhǔn)備數(shù)據(jù)”,選擇“數(shù)據(jù)集”,添加“利潤表2020清洗”數(shù)據(jù)源后確定,將工作表中“利潤表2020”拖拽至關(guān)聯(lián)關(guān)系設(shè)置面板中。Wyn平臺數(shù)據(jù)清洗3.空白字符替換。點(diǎn)擊“字段列表”,在數(shù)據(jù)集中添加計(jì)算字段“利息收入”,選擇更多圖標(biāo)中的“添加計(jì)算字段”。Wyn平臺數(shù)據(jù)清洗

接下來可以設(shè)置iif(IsDBNull([財(cái)務(wù)費(fèi)用:利息收入])orlen([財(cái)務(wù)費(fèi)用:利息收入])=0,0,[財(cái)務(wù)費(fèi)用:利息收入])。也可以在報(bào)表上綁定數(shù)據(jù)時(shí),使用表達(dá)式iif(len(字段名)=0,0,字段名)實(shí)現(xiàn)空白數(shù)據(jù)替換為0。Wyn平臺數(shù)據(jù)清洗4.字段類型轉(zhuǎn)換??梢栽跀?shù)據(jù)集中點(diǎn)擊該字段“目標(biāo)類型”,可以選擇更改為“數(shù)字、字符串、日期時(shí)間、日期、布爾”等類型。字段類型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論