《數(shù)據(jù)清洗基礎與實踐》課件第六章數(shù)據(jù)轉換和加載_第1頁
《數(shù)據(jù)清洗基礎與實踐》課件第六章數(shù)據(jù)轉換和加載_第2頁
《數(shù)據(jù)清洗基礎與實踐》課件第六章數(shù)據(jù)轉換和加載_第3頁
《數(shù)據(jù)清洗基礎與實踐》課件第六章數(shù)據(jù)轉換和加載_第4頁
《數(shù)據(jù)清洗基礎與實踐》課件第六章數(shù)據(jù)轉換和加載_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)轉換和加載主講:XXX目錄Content數(shù)據(jù)清洗轉換1數(shù)據(jù)質量評估2數(shù)據(jù)加載3數(shù)據(jù)清洗1、缺失值清洗順序

1)確定范圍,計算源端數(shù)據(jù)中字段缺失值比例,之后根據(jù)缺失率和重要性分別制定策略。2)去除重要性低的字段,通常重要性低的字段,且缺失嚴重,可以采取將數(shù)據(jù)抽取的結果放入一中間臨時庫中,在數(shù)據(jù)清洗之前,先備份臨時庫數(shù)據(jù),然后直接刪除不需要的字段。3)填充缺失內容,通常會在某些缺失值的補齊中,采取一定的值去填充缺失項,從而使數(shù)據(jù)完備化。通常基于統(tǒng)計學原理,根據(jù)決策表中其余對象取值的分布情況來對一個空值進行填充,例如用其屬性的平均值來進行補充等。

2、格式內容清洗

1)進行時間日期格式清洗:當采取多個源端整合數(shù)據(jù)時,因源端系統(tǒng)的不夠嚴謹,采取了字符串類型作為數(shù)據(jù)的存儲類型,可能在不同的源中存儲日期、時間的格式不一,導致數(shù)據(jù)多源抽取到臨時表后存在不同的日期格式,從而導致目標系統(tǒng)無法應用。

2)進行全角半角清洗:全角指一個字符占用兩個標準字符位置,半角指一字符占用一個標準的字符位置。在數(shù)據(jù)采集時,時常因輸入法設置問題,將字母或者數(shù)字輸入存儲為全角格式。故在對數(shù)據(jù)進行ETL操作時,需要進行全角和半角轉換。

3)清洗不應有的字符:在源端系統(tǒng)中,數(shù)據(jù)采集時因人為原因可能存在一些數(shù)據(jù)不應有的字符。

4)進行重新取數(shù):某些指標非常重要又缺失率高,且存在其他數(shù)據(jù)源可以獲取,可采取重新抽取不同數(shù)據(jù)源的數(shù)據(jù)進行關聯(lián)對比清洗。

數(shù)據(jù)清洗3、邏輯錯誤清洗

1)進行排重清洗:數(shù)據(jù)排重是指在數(shù)據(jù)中查找和刪除重復內容,而不會影響其保真度或完整性。數(shù)據(jù)排重需要技巧,首先一定要有信息去識別一條數(shù)據(jù)的唯一性,也就是類似數(shù)據(jù)庫中的主鍵,如果唯一性都無法識別,排重也就無所依據(jù)。2)去除不合理值:不合理數(shù)據(jù)指在業(yè)務系統(tǒng)中收錄的部分數(shù)據(jù)存在不合理性。3)修正矛盾內容:源端系統(tǒng)在提供數(shù)據(jù)時,存在部分信息可以相互驗證的校驗。數(shù)據(jù)校驗數(shù)據(jù)檢驗是在數(shù)據(jù)清洗轉換過程中,通過對轉換的數(shù)據(jù)項增加驗證約束,實現(xiàn)對數(shù)據(jù)轉換過程的有效性驗證。可能存在的數(shù)據(jù)驗證方法有數(shù)據(jù)項規(guī)則設置、數(shù)據(jù)類型檢驗、正則表達式約束檢驗、查詢表檢驗等。對數(shù)據(jù)執(zhí)行檢驗后,ETL工具提供驗證結果的輸出。在Kettle中,可以在數(shù)據(jù)轉換過程中增加“數(shù)據(jù)檢驗”(DataValidator)步驟來完成數(shù)據(jù)的有效性校驗在Kettle中,可以在數(shù)據(jù)轉換過程中增加“數(shù)據(jù)檢驗”(DataValidator)步驟來完成數(shù)據(jù)的有效性校驗,通常包含:(1)設置校驗規(guī)則。(2)NULL驗證。(3)日期類型驗證。(4)正則表達式驗證。數(shù)據(jù)校驗錯誤處理:數(shù)據(jù)錯誤是指數(shù)據(jù)在轉換過程中出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)失效和數(shù)據(jù)的完整性被破壞等問題。錯誤處理方式包括:1)轉換過程錯誤:在設計ETL過程中,存在一些設計未對轉換過程進行錯誤處理,進而造成ETL執(zhí)行完成后,目標端的數(shù)據(jù)未能按照約定數(shù)據(jù)標準進行組織存儲,從而導致“臟”數(shù)據(jù)進入目標端。轉換過程錯誤是在執(zhí)行ETL過程中發(fā)生的轉換錯誤,該錯誤一旦發(fā)生,應該進入錯誤處理環(huán)節(jié),終止ETL轉換,保證進入目標系統(tǒng)的數(shù)據(jù)干凈可靠。數(shù)據(jù)校驗轉換數(shù)據(jù)錯誤:所謂數(shù)據(jù)轉換,從計算機審計的需求來講,主要包括兩個方面的內容:一是將被審計單位的數(shù)據(jù)有效地裝載到審計軟件所操縱的數(shù)據(jù)庫中;二是明確地標識出每張表、每個字段的具體含義及其相互之間的關系。具體包括:(1)對于命名錯誤,可以先檢查數(shù)據(jù)源中的保留字,建立保留字集合,對于保留字中的命名沖突,根據(jù)需要重新命名。(2)對于格式錯誤,可以從數(shù)據(jù)源的驅動程序中取出相對應的數(shù)據(jù)源的數(shù)據(jù)類型后,對一些特定的類型進行特殊的處理。(3)對于結構錯誤,建立不同的模型的的轉換關系實體,通過屬性之間的映射關系防止實體信息的丟失。(4)對于不同數(shù)據(jù)庫的同一數(shù)據(jù)類型的精度沖突,類型轉換中將類型和精度結合起來決定源端數(shù)據(jù)類型和目標數(shù)據(jù)類型的映射關系。找出目的數(shù)據(jù)源中與源端數(shù)據(jù)類型的精度最匹配的數(shù)據(jù)類型作為默認的映射關系。數(shù)據(jù)校驗數(shù)據(jù)錯誤是數(shù)據(jù)工作者需要注意的指標之一,因為數(shù)據(jù)錯誤能導致完全錯誤的分析結果。具體包括:(1)數(shù)據(jù)輸入錯誤:人工在數(shù)據(jù)收集、記錄、輸入造成的錯誤,可能會成為數(shù)據(jù)中的異常值。(2)測量誤差:當使用錯誤的測量儀器測量時,通常會出現(xiàn)異常值。(3)數(shù)據(jù)處理錯誤:當進行數(shù)據(jù)分析時,錯誤的數(shù)據(jù)處理操作可能會造成異常值。數(shù)據(jù)校驗針對數(shù)據(jù)錯誤的處理方法是在轉換環(huán)節(jié)增加數(shù)據(jù)檢驗,在執(zhí)行數(shù)據(jù)檢驗過程中,當檢驗錯誤發(fā)生時,可以采取如下方法進行錯誤處理:(1)刪除錯誤數(shù)據(jù):如果數(shù)據(jù)錯誤是由于數(shù)據(jù)輸入錯誤、數(shù)據(jù)處理錯誤或數(shù)據(jù)錯誤數(shù)目很少造成的,可以采取直接刪除錯誤數(shù)據(jù)的方式處理。(2)錯誤數(shù)據(jù)替換:類似于替換缺失值,我們也可以替換錯誤數(shù)據(jù)??梢允褂镁怠⒅形粩?shù)、眾數(shù)替換方法。(3)分離對待:如果數(shù)據(jù)錯誤的數(shù)目比較多,在統(tǒng)計模型中我們應該對它們分別處理。一個處理方法是異常值一組,正常值一組,然后分別建立模型,最后對結果進行合并。數(shù)據(jù)質量評估

1、數(shù)據(jù)質量評估:數(shù)據(jù)質量是保證數(shù)據(jù)應用的基礎,我們提出了一些數(shù)據(jù)質量的評估指標。在進行數(shù)據(jù)質量評估時,要根據(jù)具體的數(shù)據(jù)質量評估需求對評估指標進行相應的取舍。(1)完整性:完整性主要是指信息是否存在缺失的情況,數(shù)據(jù)缺失的情況可能是整個記錄的缺失,也可能是某個字段信息的記錄缺失。具體包括:

域完整性

實體完整性

參照完整性(2)一致性:類似于替換缺失值,我們也可以替換錯誤數(shù)據(jù)??梢允褂镁怠⒅形粩?shù)、眾數(shù)替換方法。(3)準確性:數(shù)據(jù)的準確性在數(shù)據(jù)清洗中多指記錄的信息是否出現(xiàn)異?;蛘咤e誤。(4)及時性:數(shù)據(jù)的及時性多指數(shù)據(jù)從產(chǎn)生到可以查看的時間間隔,也可以稱為延時時長。數(shù)據(jù)質量評估

2、審計數(shù)據(jù):數(shù)據(jù)質量是保證數(shù)據(jù)應用的基礎,我們提出了一些數(shù)據(jù)質量的評估指標。在進行數(shù)據(jù)質量評估時,要根據(jù)具體的數(shù)據(jù)質量評估需求對評估指標進行相應的取舍。

1)數(shù)據(jù)查詢數(shù)據(jù)查詢是審計人員根據(jù)自己的經(jīng)驗,按照一定的審計分析模型,在軟件中采用查詢命令來分析采集來的電子數(shù)據(jù),或者采用一些審計軟件,通過運行各種各樣的查詢命令以某種預定義的格式來檢測被審計單位的數(shù)據(jù),是目前最常用的方法。2)審計抽樣審計抽樣是審計人員在實施審計程序時,從審計對象總體中選取一定數(shù)量的樣本進行測試,并根據(jù)測試結果推斷總體特征的一種方法。3)統(tǒng)計分析在面向數(shù)據(jù)的計算機審計中,統(tǒng)計分析的目的是探索被審計數(shù)據(jù)內在的數(shù)量規(guī)律性,以發(fā)現(xiàn)異常數(shù)據(jù),快速尋找審計的突破口。通常的統(tǒng)計分析方法一般包含一般統(tǒng)計、分層分析和分類分析。統(tǒng)計分析一般和其它審計數(shù)據(jù)處理方法配合使用。4)數(shù)值分析數(shù)值分析是根據(jù)字段具體的數(shù)據(jù)值的分布情況,出現(xiàn)頻率等對字段進行分析,從而發(fā)現(xiàn)審計線索的一種數(shù)據(jù)處理方法。這種方法先不考慮具體的業(yè)務,對分析出現(xiàn)的可以數(shù)據(jù)結合具體的業(yè)務進行審計,易于發(fā)現(xiàn)被審計數(shù)據(jù)中的隱藏信息。數(shù)據(jù)加載數(shù)據(jù)加載是繼數(shù)據(jù)抽取和轉換清洗后的一個階段,它負責將從數(shù)據(jù)源中抽取加工所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗和轉換后,最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論