《數(shù)據(jù)清洗基礎(chǔ)與實踐》課件第一章數(shù)據(jù)清洗概述_第1頁
《數(shù)據(jù)清洗基礎(chǔ)與實踐》課件第一章數(shù)據(jù)清洗概述_第2頁
《數(shù)據(jù)清洗基礎(chǔ)與實踐》課件第一章數(shù)據(jù)清洗概述_第3頁
《數(shù)據(jù)清洗基礎(chǔ)與實踐》課件第一章數(shù)據(jù)清洗概述_第4頁
《數(shù)據(jù)清洗基礎(chǔ)與實踐》課件第一章數(shù)據(jù)清洗概述_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)清洗概述主講:XXX目錄Content數(shù)據(jù)清洗簡介1數(shù)據(jù)標(biāo)準(zhǔn)化2數(shù)據(jù)倉庫3數(shù)據(jù)清洗的概念數(shù)據(jù)清洗就是對原始數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并使得數(shù)據(jù)保持精確性、完整性、一致性、有效性及唯一性,還可能涉及數(shù)據(jù)的分解和重組,最終將原始數(shù)據(jù)轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù)。數(shù)據(jù)清洗對保持?jǐn)?shù)據(jù)的一致和更新起著重要的作用,因此被用于如銀行、保險、零售、電信和交通的多個行業(yè)。數(shù)據(jù)清洗主要有三個應(yīng)用領(lǐng)域:數(shù)據(jù)倉庫(DataWarehouse,DW)、數(shù)據(jù)庫中知識的發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)和數(shù)據(jù)質(zhì)量管理(DataQualityManagement,DQM)。數(shù)據(jù)清洗流程包含以下基本步驟:(1)分析數(shù)據(jù)并定義清洗規(guī)則。(2)搜尋并標(biāo)識錯誤實例。(3)糾正發(fā)現(xiàn)的錯誤。(4)干凈數(shù)據(jù)回流。(5)數(shù)據(jù)清洗的評判。數(shù)據(jù)清洗所需資源(1)數(shù)據(jù)清洗環(huán)境,其為進行數(shù)據(jù)清洗所提供的基本硬件設(shè)備和軟件系統(tǒng),特別是已得到廣泛應(yīng)用的開源軟件和工具。(2)終端窗口和命令行界面,比如MacOSX上的Terminal程序或Linux上的bash程序。(3)適合程序員使用的編輯器,如Mac上的TextWrangler,Linux上的vi或emacs,或是Windows上的Notepad++、Sublime編輯器等。(4)Python客戶端程序,如EnthoughtCanopy。另外,還需要足夠的權(quán)限來安裝一些程序包文件。(5)電子表格程序,如MicrosoftExcel和GoogleSpreadsheets。其可用于數(shù)據(jù)呈現(xiàn)和可視化,并且以恰當(dāng)?shù)姆绞秸故緮?shù)據(jù)分析和挖掘的結(jié)果。(6)數(shù)據(jù)庫軟件,如MySQL數(shù)據(jù)庫和MicrosoftAccess等。數(shù)據(jù)標(biāo)準(zhǔn)化的定義數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范化(DataStandardization/Normalization)是機構(gòu)或組織對數(shù)據(jù)的定義、組織、分類、記錄、編碼、監(jiān)督和保護進行標(biāo)準(zhǔn)化的過程,有利于數(shù)據(jù)的共享和管理,可以節(jié)省費用,提高數(shù)據(jù)使用效率和可用性。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,必須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對測評方案的作用力同趨化,然后再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要用于消除變量間的量綱關(guān)系,解決數(shù)據(jù)評價分析中數(shù)據(jù)的可比性。例如,多指標(biāo)綜合評價方法需要把描述評價對象不同方面的多個信息綜合起來得到一個綜合指標(biāo),由此對評價對象做整體評判,并進行橫向或縱向比較。數(shù)據(jù)標(biāo)準(zhǔn)化的方法

(1)max-min標(biāo)準(zhǔn)化對原始數(shù)據(jù)進行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過max-min標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:x'=(x-minA)/(maxA-minA)。(2)z-score標(biāo)準(zhǔn)化基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standarddeviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化,將A的原始值x標(biāo)準(zhǔn)化到x',其公式為:x'=(x-mean)/standarddeviation。(3)Decimalscaling標(biāo)準(zhǔn)化通過移動數(shù)據(jù)的小數(shù)點位置來進行標(biāo)準(zhǔn)化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x到x'的計算方法公式為:x'=x/(10^j)。其中,j是滿足條件的最小整數(shù)。(4)其他標(biāo)準(zhǔn)化方法還有一些標(biāo)準(zhǔn)化方法的做法是將原始數(shù)據(jù)除以某一值,如將原始數(shù)據(jù)除以行或列的和,稱總和標(biāo)準(zhǔn)化。如果原始數(shù)據(jù)除以每行或每列中的最大值,叫做最大值標(biāo)準(zhǔn)化。如果原始數(shù)據(jù)除以行或列的和的平方根,則稱為模標(biāo)準(zhǔn)化(normalstandardization)。數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫(DataWarehouse,DW)是基于信息系統(tǒng)業(yè)務(wù)發(fā)展需要,基于傳統(tǒng)數(shù)據(jù)庫系統(tǒng)技術(shù)發(fā)展形成能夠并逐步獨立出來的一系列新的應(yīng)用技術(shù),目標(biāo)是通過提供全面、大量的數(shù)據(jù)存儲來有效支持高層決策分析。典型數(shù)據(jù)倉庫的基本組成要素包括:(1)源數(shù)據(jù)單元(2)數(shù)據(jù)準(zhǔn)備單元(3)數(shù)據(jù)存儲單元(4)信息傳遞單元(5)元數(shù)據(jù)單元(6)管理控制單元數(shù)據(jù)倉庫的分類(1)傳統(tǒng)數(shù)據(jù)倉庫企業(yè)把數(shù)據(jù)分成內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)包括OLTP(聯(lián)機事務(wù)處理系統(tǒng))和OLAP(聯(lián)機事務(wù)分析系統(tǒng))的數(shù)據(jù)。企業(yè)首先需要將這些數(shù)據(jù)集中起來,經(jīng)過轉(zhuǎn)換放到這類數(shù)據(jù)庫中,然后在數(shù)據(jù)庫上對數(shù)據(jù)進行加工,建立各種主題模型,再提供報表分析業(yè)務(wù)。(2)數(shù)據(jù)集市數(shù)據(jù)集市一般是用于某一類功能需求的數(shù)據(jù)倉庫的簡單模式,往往是由一些業(yè)務(wù)部門構(gòu)建,也可以構(gòu)建在企業(yè)數(shù)據(jù)倉庫上。一般來說數(shù)據(jù)集市的數(shù)據(jù)源較少,但往往對數(shù)據(jù)分析的延時有很高的要求,并需要和各種報表工具有很好的對接。(3)關(guān)聯(lián)發(fā)現(xiàn)數(shù)據(jù)倉庫在一些場景下,企業(yè)可能不知道數(shù)據(jù)的內(nèi)聯(lián)規(guī)則,而是需要通過數(shù)據(jù)挖掘的方式找出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,隱藏的聯(lián)系和模式等,從而挖掘出數(shù)據(jù)的價值。很多行業(yè)的新業(yè)務(wù)都有這方面的需求,如金融行業(yè)的風(fēng)險控制,反欺詐等業(yè)務(wù)。上下文無關(guān)聯(lián)的數(shù)據(jù)倉庫一般需要在架構(gòu)設(shè)計上支持?jǐn)?shù)據(jù)挖掘能力,并提供通用的算法接口來操作數(shù)據(jù)。(4)實時處理數(shù)據(jù)倉庫隨著業(yè)務(wù)的發(fā)展,企業(yè)客戶需要對實時的數(shù)據(jù)做一些商業(yè)分析,譬如零售行業(yè)需要根據(jù)實時的銷售數(shù)據(jù)來調(diào)整庫存和生產(chǎn)計劃。這類行業(yè)用戶對數(shù)據(jù)的實時性要求很高,傳統(tǒng)的離線批處理的方式不能滿足需求,因此需要構(gòu)建實時處理的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的所需的技術(shù)

(1)數(shù)據(jù)清洗數(shù)據(jù)倉庫需要從種類各異的多個數(shù)據(jù)源中導(dǎo)入大量數(shù)據(jù),數(shù)據(jù)倉庫的一個重要任務(wù)就通過數(shù)據(jù)清洗保證數(shù)據(jù)的一致性與正確性。

(2)數(shù)據(jù)粒度數(shù)據(jù)倉庫中存儲的數(shù)據(jù)粒度將直接影響到數(shù)據(jù)倉庫中數(shù)據(jù)的存儲量及查詢質(zhì)量,并進一步影響數(shù)據(jù)倉庫能否滿足最終用戶的分析需求。設(shè)計數(shù)據(jù)倉庫時要合理確定數(shù)據(jù)粒度。

(3)索引優(yōu)化不論是數(shù)據(jù)庫還是數(shù)據(jù)倉庫,索引查找是優(yōu)化查詢響應(yīng)時間的重要方法,索引建立的好壞直接影響數(shù)據(jù)訪問效率。

(4)物化視圖選擇和維護數(shù)據(jù)倉庫中以物化視圖(MaterializedView)的形式存儲大量來自多個異質(zhì)數(shù)據(jù)源中的數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論