《大數(shù)據(jù)處理與智能決策》課件-2數(shù)據(jù)預(yù)處理_第1頁
《大數(shù)據(jù)處理與智能決策》課件-2數(shù)據(jù)預(yù)處理_第2頁
《大數(shù)據(jù)處理與智能決策》課件-2數(shù)據(jù)預(yù)處理_第3頁
《大數(shù)據(jù)處理與智能決策》課件-2數(shù)據(jù)預(yù)處理_第4頁
《大數(shù)據(jù)處理與智能決策》課件-2數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1為什么要數(shù)據(jù)預(yù)處理現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯(cuò)誤或者“孤立點(diǎn)”不一致的:數(shù)據(jù)源不同,其在編碼或命名上有差異沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清理填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約通過一些技術(shù)(概念分層上卷等)得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化數(shù)據(jù)歸約的一部分,通過概念分層和數(shù)據(jù)的離散化來規(guī)約數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要數(shù)據(jù)清理(數(shù)據(jù)清洗)為什么要清理數(shù)據(jù)?現(xiàn)實(shí)數(shù)據(jù)的“臟”體現(xiàn)在什么地方?清理數(shù)據(jù)的方法有什么?3為什么要清理數(shù)據(jù)4數(shù)據(jù)名稱特征1特征2特征3特征4特征5特征6特征7特征8……data1324151454434data23-245147data33-9925-151-45????????34415-143現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯(cuò)誤或者“孤立點(diǎn)”不一致的:數(shù)據(jù)源不同,其在編碼或命名上有差異異常值、空值、錯(cuò)誤數(shù)據(jù)、命名不統(tǒng)一現(xiàn)實(shí)數(shù)據(jù)中的“臟”臟數(shù)據(jù)定義:臟數(shù)據(jù)(DirtyRead)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。5臟數(shù)據(jù)的概念:在數(shù)據(jù)庫技術(shù)中,臟數(shù)據(jù)在臨時(shí)更新(臟讀)中產(chǎn)生。事務(wù)A更新了某個(gè)數(shù)據(jù)項(xiàng)X,但是由于某種原因,事務(wù)A出現(xiàn)了問題,于是要把A回滾。但是在回滾之前,另一個(gè)事務(wù)B讀取了數(shù)據(jù)項(xiàng)X的值(A更新后),A回滾了事務(wù),數(shù)據(jù)項(xiàng)恢復(fù)了原值。事務(wù)B讀取的就是數(shù)據(jù)項(xiàng)X的就是一個(gè)“臨時(shí)”的值,就是臟數(shù)據(jù)。6現(xiàn)實(shí)數(shù)據(jù)中的“臟”7清理數(shù)據(jù)的方法清理數(shù)據(jù)的方法繁多,以下兩種是常見處理方法:1、空缺值填充2、噪聲去除(數(shù)據(jù)平滑)數(shù)據(jù)名稱特征1特征2特征3特征4特征5特征6特征7特征8……data1324151454434data23-245147data332-151-45????????3-9925415-143數(shù)據(jù)噪聲數(shù)據(jù)空缺值空缺值8數(shù)據(jù)并不總是完整的例如:數(shù)據(jù)庫表中,很多條記錄的對(duì)應(yīng)字段沒有相應(yīng)值,比如銷售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)因?yàn)榈貌坏街匾暥鴽]有被輸入對(duì)數(shù)據(jù)的改變沒有進(jìn)行日志記載(事務(wù)操作都會(huì)被日志文件記載,每次修改操作需要查找日志)空缺值要經(jīng)過推斷而補(bǔ)上,否則算法中斷報(bào)錯(cuò)如何處理空缺值?9直接忽略掉空缺值的整個(gè)屬性或元組:當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)設(shè)計(jì)分類或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),其效果非常差。人工填寫空缺值:工作量大,可行性低使用一個(gè)全局變量填充空缺值:比如使用unknown或-∞使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值(基于數(shù)學(xué)算法):使用像Bayesian公式或判定樹這樣的基于模型推斷的方法噪聲數(shù)據(jù)噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起不正確屬性值的原因數(shù)據(jù)收集工具不夠精確引起的問題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤(通信協(xié)議問題)技術(shù)限制命名規(guī)則的不一致其它需要數(shù)據(jù)清理的數(shù)據(jù)問題重復(fù)記錄(引起冗余)不完整的數(shù)據(jù)不一致的數(shù)據(jù)11如何處理噪聲數(shù)據(jù)分箱(binning):首先排序數(shù)據(jù),并將其分到等深箱中(容放相等個(gè)數(shù)數(shù)據(jù))然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等,從而達(dá)到平滑噪聲的目的聚類:監(jiān)測(cè)并且去除孤立點(diǎn)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)其進(jìn)行人工判斷(工作量大)回歸通過讓數(shù)據(jù)適應(yīng)回歸函數(shù)來平滑數(shù)據(jù)數(shù)據(jù)平滑的分箱方法首先對(duì)數(shù)據(jù)進(jìn)行排序:price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑(以左邊界為例):箱1:4,4,15箱2:21,21,24箱3:25,25,34聚類通過聚類分析檢測(cè)離群點(diǎn),消除噪聲聚類將類似的值聚成簇。直觀的,落在簇集合之外的值被視為離群點(diǎn),往往就是噪聲點(diǎn)回歸xyy=x+1X1Y1Y1’回歸去噪一般是將Y1調(diào)整到Y(jié)1’,不是刪除數(shù)據(jù)集成和數(shù)據(jù)變換數(shù)據(jù)集成(三個(gè)方面)數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù)(描述數(shù)據(jù)的數(shù)據(jù))實(shí)體識(shí)別問題:匹配整合來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界中相同的實(shí)體,比如:A.cust-id=B.customer_no檢測(cè)并解決數(shù)據(jù)值的沖突對(duì)現(xiàn)實(shí)世界中的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能是不同的可能的原因:不同的數(shù)據(jù)表示,不同的度量等等數(shù)據(jù)集成例子17數(shù)據(jù)名稱特征1特征2特征3特征4特征5特征6特征7特征8……data132415136……data23-2455147……data3322-151-45…………………………………………………………數(shù)據(jù)名稱特征1特征2特征3特征4特征5特征6特征7data15543314data21-225524data3233-5423data4……………………………………數(shù)據(jù)集1數(shù)據(jù)集2數(shù)據(jù)集成例子由于兩個(gè)數(shù)據(jù)集的特征數(shù)不一致,故數(shù)據(jù)集成需要將兩個(gè)數(shù)據(jù)集的特征數(shù)整合為一致的數(shù)據(jù)集1有超過8個(gè)特征,數(shù)據(jù)集2只有7個(gè)特征18數(shù)據(jù)集成后的特點(diǎn)19數(shù)據(jù)名稱特征1特征2特征3特征4特征5特征6特征7特征8……Data1-132415136……Data1-23-2455147……Data1-3322-151-45…………………………………………………………Data2-155433140UnknownData2-21-2255240UnknownData2-3233-54230unknownData2-4………………………………………………使用0或者unknown填充不足特征數(shù)據(jù)集成例子主成分分析變換(PCA)優(yōu)點(diǎn):可以盡可能最大保留原有數(shù)據(jù)集特征缺點(diǎn):會(huì)丟失部分細(xì)節(jié)特征20數(shù)據(jù)集1數(shù)據(jù)集2PCAPCA新數(shù)據(jù)集1新數(shù)據(jù)集2集成后的數(shù)據(jù)處理數(shù)據(jù)集成中的冗余數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫時(shí),經(jīng)常會(huì)出現(xiàn)冗余數(shù)據(jù)同一屬性在不同的數(shù)據(jù)庫中會(huì)有不同的字段名一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如“年薪”有些冗余可以被“相關(guān)性分析”檢測(cè)到仔細(xì)將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)集成起來,能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。數(shù)據(jù)變換 平滑:去除數(shù)據(jù)中的噪聲聚集:匯總,數(shù)據(jù)立方體的構(gòu)建(方體的計(jì)算就是一種聚集。數(shù)據(jù)立方體最底層叫基本方體,一般是已知的基本數(shù)據(jù),根據(jù)現(xiàn)有數(shù)據(jù)按照不同維度匯總,得到不同層次的方體,所有方體聯(lián)合起來稱為方體的格,這個(gè)方體的格也叫數(shù)據(jù)立方體)數(shù)據(jù)概化:沿概念分層向上匯總進(jìn)一步縮小數(shù)據(jù)量,概化規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間最?。畲笠?guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化屬性構(gòu)造通過現(xiàn)有屬性構(gòu)造新的屬性,并添加到屬性集中。數(shù)據(jù)變換——規(guī)范化最?。畲笠?guī)范化(簡(jiǎn)單的線性變換)z-score規(guī)范化(分母代表屬性A的標(biāo)準(zhǔn)差,相除投影)小數(shù)定標(biāo)規(guī)范化(移動(dòng)小數(shù)點(diǎn),使其落在(0,1))其中,j是使Max(||)<1的最小整數(shù)數(shù)據(jù)規(guī)約

(縮小數(shù)據(jù)的范圍)數(shù)據(jù)歸約策略數(shù)據(jù)倉庫中往往存有海量數(shù)據(jù),在其上進(jìn)行復(fù)雜的數(shù)據(jù)分析與挖掘需要很長的時(shí)間數(shù)據(jù)歸約數(shù)據(jù)歸約可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但可以產(chǎn)生相同的(或幾乎相同的)分析結(jié)果數(shù)據(jù)歸約策略數(shù)據(jù)立方體聚集(根據(jù)不同維度對(duì)數(shù)據(jù)進(jìn)行往上匯總)維歸約(檢測(cè)刪除基本不相關(guān)的冗余的屬性、維)數(shù)據(jù)壓縮(使用編碼機(jī)制壓縮數(shù)據(jù)集,應(yīng)用于多媒體技術(shù))數(shù)值歸約(用替代的較小數(shù)據(jù)替換或估計(jì)數(shù)據(jù)集,如參數(shù)模型,用參數(shù)加數(shù)學(xué)公式來表示原始數(shù)據(jù)集)離散化和概念分層產(chǎn)生用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間。數(shù)據(jù)立方體聚集最底層的方體對(duì)應(yīng)于基本方體基本方體對(duì)應(yīng)于感興趣的實(shí)體(一般是原始數(shù)據(jù)集)在數(shù)據(jù)立方體中存在著不同級(jí)別的匯總數(shù)據(jù)立方體可以看成方體的格每個(gè)較高層次的抽象將進(jìn)一步減少結(jié)果數(shù)據(jù)的數(shù)目數(shù)據(jù)立方體提供了對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)的快速訪問使用與給定任務(wù)相關(guān)的最小方體(根據(jù)給出的數(shù)據(jù)立方體的已知最底維度而定)在可能的情況下,對(duì)于匯總數(shù)據(jù)的查詢應(yīng)當(dāng)使用數(shù)據(jù)立方體維歸約通過刪除不相干的屬性或維來減少數(shù)據(jù)量屬性子集選擇找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能的接近使用所有屬性的原分布減少出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解維規(guī)約方法:?jiǎn)l(fā)式的(探索性的)方法逐步向前選擇(由空屬性集開始逐步添加相近屬性集)逐步向后刪除(由全屬性集開始逐步刪除不相關(guān)屬性集)向前選擇和向后刪除相結(jié)合判定歸納樹探索性選擇方法具體的步驟:d個(gè)屬性有2d個(gè)可能的子集,遍歷計(jì)算他們非常繁雜。逐步向前選擇由空屬性集開始,選擇原屬性集中最好的屬性,并將其添加入該集合,重復(fù)該步驟。逐步向后刪除由整個(gè)屬性集開始,每一步都刪除掉尚在屬性集中的最壞屬性向前選擇和向后刪除相結(jié)合每一步選擇一個(gè)最好屬性,并刪除一個(gè)最壞屬性可以使用一個(gè)臨界值(例如選擇屬性個(gè)數(shù)等)來判定上述三種方法的結(jié)束條件判定歸納樹模型:每個(gè)非葉子結(jié)點(diǎn)表示對(duì)某個(gè)屬性的判定條件,每個(gè)葉子結(jié)點(diǎn)是判定的類別,根據(jù)這個(gè)模型,那么判定樹上出現(xiàn)的屬性就是當(dāng)前跟我們分析目標(biāo)相關(guān)的屬性數(shù)據(jù)壓縮有損壓縮VS.無損壓縮字符串壓縮(或文本壓縮)有廣泛的理論基礎(chǔ)和精妙的算法通常是無損壓縮在解壓縮前對(duì)字符串的操作很有限(如查找字符串出現(xiàn)次數(shù))音頻/視頻壓縮通常是有損壓縮,壓縮精度可以遞進(jìn)選擇有時(shí)可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個(gè)片斷兩種有損數(shù)據(jù)壓縮的方法:小波變換和主要成分分析數(shù)值歸約通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量有參方法:使用一個(gè)參數(shù)模型估計(jì)數(shù)據(jù),最后只要存儲(chǔ)參數(shù)即可。線性回歸方法:Y=α+βX多元回歸:線性回歸的擴(kuò)充對(duì)數(shù)線性模型:近似離散的多維數(shù)據(jù)概率分布無參方法:直方圖聚類選樣離散化與概念分層生成

(數(shù)據(jù)規(guī)約中重要的方法之一)數(shù)據(jù)離散化三種類型的屬性值可以離散化:名稱型——e.g.無序集合中的值序數(shù)——e.g.有序集合中的值連續(xù)值——e.g.實(shí)數(shù)離散化(使數(shù)據(jù)有限或者數(shù)目減少)將連續(xù)屬性的范圍劃分為區(qū)間從而減少所必須處理的數(shù)據(jù)量應(yīng)用舉例:有效的規(guī)約數(shù)據(jù)基于判定樹的分類挖掘(離散化的有效應(yīng)用)離散化的數(shù)值用于進(jìn)一步分析離散化和概念分層離散化通過將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個(gè)數(shù)。區(qū)間的標(biāo)號(hào)可以代替實(shí)際的數(shù)據(jù)值。概念分層通過使用高層的概念(比如:青年、中年、老年)來替代底層的屬性值(比如:實(shí)際的年齡數(shù)據(jù)值)來規(guī)約數(shù)據(jù)注意:離散化后數(shù)據(jù)細(xì)節(jié)會(huì)丟失,然而越概化越高層的數(shù)據(jù)越有助于數(shù)據(jù)挖掘,對(duì)人的理解越有意義。數(shù)據(jù)數(shù)值的離散化和概念分層生成分箱(binning)分箱技術(shù)遞歸的用于結(jié)果劃分,可以產(chǎn)生概念分層。直方圖分析(histogram)直方圖分析方法遞歸的應(yīng)用于每一部分,可以自動(dòng)產(chǎn)生多級(jí)概念分層。聚類分析將數(shù)據(jù)劃分成簇,每個(gè)簇形成同一個(gè)概念層上的一個(gè)節(jié)點(diǎn),每個(gè)簇可再分成多個(gè)子簇,形成子節(jié)點(diǎn)?;陟氐碾x散化(統(tǒng)計(jì)學(xué)角度)通過自然劃分分段通過自然劃分分段將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。自然劃分的3-4-5規(guī)則:如果一個(gè)區(qū)間最高有效位上包含3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間(將7劃分為?);如果一個(gè)區(qū)間最高有效位上包含2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間(將2劃分為?);如果一個(gè)區(qū)間最高有效位上包含1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間(將1劃分為?);將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間,僅在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論