數(shù)據(jù)治理-數(shù)據(jù)清洗_第1頁
數(shù)據(jù)治理-數(shù)據(jù)清洗_第2頁
數(shù)據(jù)治理-數(shù)據(jù)清洗_第3頁
數(shù)據(jù)治理-數(shù)據(jù)清洗_第4頁
數(shù)據(jù)治理-數(shù)據(jù)清洗_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)清洗基于建立的數(shù)據(jù)標(biāo)準(zhǔn)實現(xiàn)數(shù)據(jù)的物理或邏輯入湖,涉及的數(shù)據(jù)包括在各類生產(chǎn)作業(yè)過程中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),實時數(shù)據(jù)與離線數(shù)據(jù)。專業(yè)類數(shù)據(jù)包括但不限于鉆完井?dāng)?shù)據(jù)、實驗分析數(shù)據(jù)、檔案數(shù)據(jù)、增產(chǎn)增注數(shù)據(jù)、化學(xué)驅(qū)數(shù)據(jù)、設(shè)備定位數(shù)據(jù)、人工舉升數(shù)據(jù)、油田化工生產(chǎn)動態(tài)、井控數(shù)據(jù)、生產(chǎn)經(jīng)營數(shù)據(jù)以及正在同步建設(shè)的相關(guān)專業(yè)數(shù)字項目庫,共同形成“一湖數(shù)據(jù)”。數(shù)據(jù)子湖建設(shè)是對內(nèi)外部的結(jié)構(gòu)化、非結(jié)構(gòu)化的原始數(shù)據(jù)的邏輯匯聚。數(shù)據(jù)入湖要遵從6項入湖標(biāo)準(zhǔn),基于6項標(biāo)準(zhǔn)保證入湖的質(zhì)量,同時面向不同的消費場景提供兩種入湖方式(推拉方式),滿足數(shù)據(jù)消費的要求。數(shù)據(jù)湖總體視圖數(shù)據(jù)清洗實施數(shù)據(jù)清洗是數(shù)據(jù)入湖的前提,主要對各業(yè)務(wù)系統(tǒng)中準(zhǔn)備進(jìn)入湖的數(shù)據(jù)進(jìn)行數(shù)據(jù)一致性、有效性、完整性的手段糾偏。主要工作為進(jìn)行數(shù)據(jù)補(bǔ)全、數(shù)據(jù)去重、數(shù)據(jù)業(yè)務(wù)有效性檢查等。結(jié)構(gòu)化數(shù)據(jù)清洗數(shù)據(jù)分析、定義錯誤類型:數(shù)據(jù)分析是數(shù)據(jù)清洗的前提與基礎(chǔ),通過詳盡的數(shù)據(jù)分析來檢測數(shù)據(jù)中的錯誤或不一致情況,除了手動檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外,還可以使用分析程序來獲得關(guān)于數(shù)據(jù)屬性的元數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)集中存在的質(zhì)量問題定義清洗轉(zhuǎn)換規(guī)則:數(shù)據(jù)分析得到的結(jié)果來定義清洗轉(zhuǎn)換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的個數(shù),數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟。數(shù)據(jù)清洗針對的對象主要有四個——缺失值、異常值、重復(fù)值和無用值,針對不同對象的不同形式,采取相應(yīng)的方法進(jìn)行處理,從而得到期望的數(shù)據(jù)非空校核:要求字段為非空的情況下,對該字段數(shù)據(jù)進(jìn)行校核。如果數(shù)據(jù)為空,需要進(jìn)行相應(yīng)處理重復(fù)校核:多個業(yè)務(wù)系統(tǒng)中同類數(shù)據(jù)經(jīng)過清洗后,在統(tǒng)一保存時,為保證主鍵唯一性,需進(jìn)行校核工作異常值校核:包括取值錯誤、格式錯誤、邏輯錯誤、數(shù)據(jù)不一致等,需根據(jù)具體情況進(jìn)行校核及修正無用值校核:目前業(yè)務(wù)中不需要使用到的、無價值的數(shù)據(jù)字段,需要進(jìn)行校核及去除具體規(guī)則如下:缺失值清洗確定缺失值范圍,按照缺失比例和字段重要性,分別制定策略:重要性高,缺失率低:通過計算進(jìn)行填充;通過經(jīng)驗或業(yè)務(wù)知識估計重要性高,缺失率高:嘗試從其他渠道取數(shù)補(bǔ)全;使用其他字段通過計算獲取重要性低,缺失率低:不做處理或簡單填充重要性低,缺失率高:去掉該字段填充缺失內(nèi)容,某些缺失值可以進(jìn)行填充,方法有以下四種:以業(yè)務(wù)知識或經(jīng)驗推測填充缺失值從其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)中取數(shù)補(bǔ)全以同一指標(biāo)的計算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充缺失值以不同指標(biāo)的計算結(jié)果填充缺失值重復(fù)值清洗

重復(fù)數(shù)據(jù)可以進(jìn)行去重或者進(jìn)行標(biāo)記。異常值清洗取值錯誤清洗范圍錯誤:通過添加約束的方式過濾指定字段數(shù)值超出范圍的數(shù)據(jù)。位數(shù)錯誤:通過其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行更改。格式錯誤清洗時間、日期、數(shù)值、全半角等顯示格式不一致:在整合多來源數(shù)據(jù)時可能遇到,將其處理成一致的某種格式即可。內(nèi)容中有不該存在的字符:某些內(nèi)容可能只包括一部分字符,比如身份證號是數(shù)字+字母,中國人姓名是漢字。最典型的就是頭、尾、中間的空格,也可能出現(xiàn)姓名中存在數(shù)字符號、身份證號中出現(xiàn)漢字等問題。這種情況下,需要以半自動校驗半人工方式來找出可能存在的問題,并去除不需要的字符。內(nèi)容與該字段應(yīng)有內(nèi)容不符:某些字段內(nèi)容應(yīng)該是數(shù)值,而實際數(shù)據(jù)中字段的內(nèi)容卻是字符串。這種情況可以采用類型轉(zhuǎn)換來處理。邏輯錯誤清洗去除/替換不合理值,修正矛盾內(nèi)容。無用數(shù)據(jù)清洗無用數(shù)據(jù)字段可以直接進(jìn)行刪除。但在進(jìn)行該過程的時候,要注意備份原始數(shù)據(jù)。搜索、識別錯誤記錄:自動檢測屬性錯誤檢測數(shù)據(jù)集中的屬性錯誤,需要利用高的方法自動檢測數(shù)據(jù)集中的屬性錯誤,方法主要有:基于統(tǒng)計的方法,聚類方法,關(guān)聯(lián)規(guī)則的方法。檢測重復(fù)記錄的算法消除重復(fù)記錄可以針對兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集,首先需要檢測出標(biāo)識同一個現(xiàn)實實體的重復(fù)記錄,即匹配過程。檢測重復(fù)記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法,Smith—Waterman算法,Cosine相似度函數(shù)。修正錯誤在數(shù)據(jù)源上執(zhí)行預(yù)先定義好的并且已經(jīng)得到驗證的清洗轉(zhuǎn)換規(guī)則和工作流。當(dāng)直接在源數(shù)據(jù)上進(jìn)行清洗時,需要備份源數(shù)據(jù),以防需要撤銷上一次或幾次的清洗操作。在各數(shù)據(jù)源上應(yīng)分別進(jìn)行幾種類型的轉(zhuǎn)換,主要包括:屬性分離從自由格式的屬性字段中抽取值,自由格式的屬性一般包含著很多的信息,這些信息需要細(xì)化成多個屬性,從而進(jìn)一步支持后面重復(fù)記錄的清洗。確認(rèn)和改正這一步驟處理輸入和拼寫錯誤,并盡可能地使其自動化。標(biāo)準(zhǔn)化為了使記錄實例匹配和合并變得更方便,應(yīng)該把屬性值轉(zhuǎn)換成一個一致和統(tǒng)一的格式。非結(jié)構(gòu)化數(shù)據(jù)清洗非結(jié)構(gòu)化數(shù)據(jù)清洗分為以下過程:定期在數(shù)據(jù)池中運行數(shù)據(jù)清理操作刪除可能來自文本的數(shù)據(jù)之間的任何空格,做數(shù)據(jù)“Trip”函數(shù),Trip掉多余的和不必要的空間,以便將數(shù)據(jù)提取為最緊湊的形式。檢查重復(fù)的圖像文件照片、報告等圖像存儲在文件中,而不是數(shù)據(jù)庫中。通過將每個文件圖像轉(zhuǎn)換為數(shù)字格式,然后在圖像之間進(jìn)行交叉檢查,可以對這些文件進(jìn)行交叉比較。如果兩個圖像文件各自內(nèi)容的數(shù)值完全匹配,則存在可以刪除重復(fù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論