數(shù)據(jù)挖掘PPT2.ppt_第1頁
數(shù)據(jù)挖掘PPT2.ppt_第2頁
數(shù)據(jù)挖掘PPT2.ppt_第3頁
數(shù)據(jù)挖掘PPT2.ppt_第4頁
數(shù)據(jù)挖掘PPT2.ppt_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1,數(shù)據(jù)預(yù)處理,2,為什么要預(yù)處理數(shù)據(jù)?,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘(知識發(fā)現(xiàn))過程中的一個重要步驟,尤其是在對包含有噪聲、不完整,甚至是不一致數(shù)據(jù)進行數(shù)據(jù)挖掘時,更需要進行數(shù)據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量,并最終達到提高數(shù)據(jù)挖掘所獲模式知識質(zhì)量的目的。,3,為什么要預(yù)處理數(shù)據(jù)?,現(xiàn)實世界的數(shù)據(jù)是“骯臟的” 不完整的:有些感興趣的屬性缺少屬性值 含噪聲的:包含錯誤或者異常(偏離期望值)的數(shù)據(jù) 不一致的:在編碼或者命名上存在差異 沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果 高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù) 數(shù)據(jù)倉庫需要對高質(zhì)量的數(shù)據(jù)進行一致地集成 使挖掘過程更有效、更容易,4,多方面考查數(shù)據(jù)的質(zhì)量

2、,精確(Accuracy) 完整(Completeness) 一致(Consistency) 及時(Timeliness) 可信(Believability) 可添加(Value added) 可解釋(Interpretability),5,數(shù)據(jù)預(yù)處理的主要方法,數(shù)據(jù)清理 填寫空缺的值,平滑噪聲數(shù)據(jù),識別、刪除孤立點,解決不一致性 數(shù)據(jù)集成 集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文件 數(shù)據(jù)變換 規(guī)范化和聚集 數(shù)據(jù)歸約(削減) 得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果,6,Forms of Data Preprocessing,7,數(shù)據(jù)清理空缺值,數(shù)據(jù)并不總是完整的 例如:數(shù)據(jù)庫表中,很

3、多條記錄的對應(yīng)字段沒有相應(yīng)值,比如銷售表中的顧客收入 引起空缺值的原因 設(shè)備異常 與其他已有數(shù)據(jù)不一致而被刪除 因為誤解而沒有被輸入的數(shù)據(jù) 在輸入時,有些數(shù)據(jù)應(yīng)為得不到重視而沒有被輸入 空缺值要經(jīng)過推斷而補上,8,如何處理空缺值,忽略該條記錄:若一條記錄中有屬性值被遺漏了,則將此條記錄排除在數(shù)據(jù)挖掘過程之外,尤其當類別屬性(class label)的值沒有而又要進行分類數(shù)據(jù)挖掘時。當每個屬性缺少值的百分比變化很大時,它的效果非常差。,9,如何處理空缺值,人工填寫空缺值:工作量大,可行性低 使用一個全局變量填充空缺值:對一個屬性的所有遺漏的值均利用一個事先確定好的值來填補。 比如使用unknow

4、n或-或OK 使用屬性的平均值填充空缺值,10,如何處理空缺值,利用同類別均值填補遺漏值 這種方法尤其在進行分類挖掘時使用。如:若要對商場顧客按信用風(fēng)險(credit_risk)進行分類挖掘時,就可以用在同一信用風(fēng)險類別下(如良好)的 屬性的平均值,來填補所有在同一信用風(fēng)險類別下屬性的遺漏值。,11,數(shù)據(jù)清理噪聲數(shù)據(jù),噪聲:一個測量變量中的隨機錯誤或變化 引起噪聲數(shù)據(jù)的原因 數(shù)據(jù)收集工具的問題 數(shù)據(jù)輸入錯誤 數(shù)據(jù)傳輸錯誤 技術(shù)限制 命名規(guī)則的不一致,12,如何處理噪聲數(shù)據(jù),分箱(binning): 首先排序數(shù)據(jù),并將他們分到等深的箱中 然后可以按箱的平均值平滑、按箱的邊界平滑等等,13,數(shù)據(jù)平

5、滑的分箱方法,給定一個數(shù)值型屬性price: price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34 劃分為(等深的)箱: 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 用箱平均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 用箱邊界平滑: 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34,14,如何處理噪聲數(shù)據(jù),聚類方法: 通過聚類分析可幫助發(fā)現(xiàn)異常數(shù)據(jù),相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個聚類集合,而那些位于這些聚類集合之外的數(shù)據(jù)對象,自然而然就被認為是異常數(shù)據(jù)。,15,聚類,通過聚類分析

6、查找孤立點,消除噪聲,16,如何處理噪聲數(shù)據(jù),回歸 通過讓數(shù)據(jù)適應(yīng)回歸函數(shù)來平滑數(shù)據(jù),17,數(shù)據(jù)集成,數(shù)據(jù)集成: 數(shù)據(jù)挖掘任務(wù)常常涉及數(shù)據(jù)集成操作,即將來自多個數(shù)據(jù)源的數(shù)據(jù),如:數(shù)據(jù)庫、普通文件等,結(jié)合在一起并形成一個統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。,18,在數(shù)據(jù)集成過程中,需要考慮解決以下幾個問題:,模式集成: 整合不同數(shù)據(jù)源中的元數(shù)據(jù) 實體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實世界的實體,比如:A.cust-id=B.customer_no 檢測并解決數(shù)據(jù)值的沖突 對現(xiàn)實世界中的同一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的 可能的原因:不同的數(shù)據(jù)表示,不同的度量等

7、等,19,處理數(shù)據(jù)集成中的冗余數(shù)據(jù),集成多個數(shù)據(jù)庫時,經(jīng)常會出現(xiàn)冗余數(shù)據(jù) 同一屬性在不同的數(shù)據(jù)庫中會有不同的字段名 一個屬性可以由另外一個表導(dǎo)出,如“年薪” 有些冗余可以被相關(guān)分析檢測到 仔細將多個數(shù)據(jù)源中的數(shù)據(jù)集成起來,能夠減少或避免結(jié)果數(shù)據(jù)中的冗余與不一致性,從而可以提高挖掘的速度和質(zhì)量。,20,數(shù)據(jù)轉(zhuǎn)換,所謂數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換或歸并成一個適合數(shù)據(jù)挖掘的描述形式。 數(shù)據(jù)轉(zhuǎn)換包含以下處理內(nèi)容:,21,數(shù)據(jù)變換,平滑:去除數(shù)據(jù)中的噪聲 (分箱、聚類、回歸) 聚集(合計處理):對數(shù)據(jù)進行總結(jié)或合計操作。例如:每天銷售額(數(shù)據(jù))可以進行合計操作以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方

8、或?qū)?shù)據(jù)進行多細度的分析。,22,數(shù)據(jù)概化:所謂泛化處理就是用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。例如:街道屬性,就可以泛化到更高層次的概念,諸如:城市、國家。同樣對于數(shù)值型的屬性,如年齡屬性,就可以映射到更高層次概念,如:年輕、中年和老年。,23,規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如-1.0到1.0或0.0到1.0 最小-最大規(guī)范化:對原始數(shù)據(jù)進行線形變換。假定屬性A的最小和最大值分別為minA和maxA,計算,24,將A的值映射到區(qū)間new_minA,new_maxA中的v z-score規(guī)范化:屬性A的值基于A的平均值和標準差規(guī)范化,計算,小數(shù)定

9、標規(guī)范化:通過移動屬性A的小數(shù)點位置進行規(guī)范化,計算,25,數(shù)據(jù)削減,數(shù)據(jù)消減技術(shù)是用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。,26,數(shù)據(jù)削減策略,數(shù)據(jù)削減策略 數(shù)據(jù)立方體聚集 維歸約 數(shù)據(jù)壓縮 數(shù)值歸約 離散化和概念分層產(chǎn)生 用于數(shù)據(jù)削減的時間不應(yīng)當超過或“抵消”在削減后的數(shù)據(jù)上挖掘節(jié)省的時間。,27,數(shù)據(jù)立方體聚集,數(shù)據(jù)立方體存儲多維數(shù)據(jù),創(chuàng)建在最低層數(shù)據(jù)立方體的稱為基本立方體,最高層抽象的數(shù)據(jù)立方體稱為頂點立方體,較高層的數(shù)據(jù)立方體將減少結(jié)果數(shù)據(jù)。 數(shù)據(jù)立方體聚集即將感興趣的實體提高其抽象層次,以減少結(jié)果數(shù)據(jù),便于分析使用。,28,維歸約,維歸約:通過刪除不相關(guān)的屬性(或)維減少數(shù)據(jù)量。通常使用屬性子集選擇方法。 屬性子集選擇方法: 目標:找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。 優(yōu)點:減少了出現(xiàn)在發(fā)現(xiàn)模式上的屬性的數(shù)目,使得模式更易于理解。,29,數(shù)據(jù)預(yù)處理,屬性子集選擇方法包括以下技術(shù): 逐步向前選擇:由空屬性集開始,每次都選擇原屬性集中最好的屬性,將其添加到集合中。 逐步向后刪除:由整個屬性集開始,在每一步,刪除掉尚在屬性集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論