第三章 數(shù)據(jù)預(yù)處理_第1頁(yè)
第三章 數(shù)據(jù)預(yù)處理_第2頁(yè)
第三章 數(shù)據(jù)預(yù)處理_第3頁(yè)
第三章 數(shù)據(jù)預(yù)處理_第4頁(yè)
第三章 數(shù)據(jù)預(yù)處理_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1第三章 數(shù)據(jù)預(yù)處理n現(xiàn)實(shí)世界中的數(shù)據(jù)庫(kù)很容易受噪聲數(shù)據(jù),空缺數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_;n數(shù)據(jù)挖掘系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行挖掘時(shí),必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去掉含噪聲,空缺的,和不一致的數(shù)據(jù);n含噪聲的數(shù)據(jù)指,包含錯(cuò)誤或存在偏離期望的值。空缺的數(shù)據(jù),也就是不完整的數(shù)據(jù),指某些感興趣的屬性缺少屬性值;n不一致數(shù)據(jù)指同一屬性由于采用的編碼或表示不同而存在差異。23.1 數(shù)據(jù)預(yù)處理的形式33.2 數(shù)據(jù)清理n數(shù)據(jù)清理,就是用其例程通過(guò)填寫(xiě)空缺的值,平滑噪聲數(shù)據(jù),識(shí)別,刪除孤立點(diǎn),并解決不一致來(lái)清理數(shù)據(jù)。4其基本方法為:n(1)空缺值 1)忽略元組 ;2)人工填寫(xiě)空缺值; 3)使用一個(gè)全局常量填充空缺值,比如用一個(gè)常數(shù)

2、(Unknown)來(lái)替換所有空缺的值;4)使用屬性的平均值填充空缺值;5)使用與給定元組屬同類(lèi)的所有樣本的平均值;6)使用最可能的值填充空缺值,可以使用回歸,或判定樹(shù)確定推理獲得。5噪聲數(shù)據(jù) 一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差??梢杂靡韵路椒ǎ簄分箱 包括按箱平均值平滑,即就是將屬性值根據(jù)等深,例如每箱3個(gè)進(jìn)行分箱,然后用這三個(gè)值的平均值代替箱中的值。類(lèi)似有按箱中值平滑,按箱邊界平滑;n聚類(lèi) 聚類(lèi)將相似的值組織成群或類(lèi),落在群或類(lèi)外的值就是孤立點(diǎn),也就是噪聲數(shù)據(jù);n計(jì)算機(jī)和人工檢查結(jié)合,比如,在一種應(yīng)用中,使用信息理論度量,幫助識(shí)別手寫(xiě)體字符數(shù)據(jù)庫(kù)中的孤立點(diǎn);n回歸,讓數(shù)據(jù)適合一個(gè)函數(shù)(如回歸函數(shù)

3、)來(lái)平滑數(shù)據(jù)。6不一致數(shù)據(jù) 許多情況下,所記錄的數(shù)據(jù)可能不一致,這是多方面的因素,比如,由于編碼或表示不同,在數(shù)據(jù)集成的時(shí)候,就有可能造成不一致。73.3數(shù)據(jù)集成和變換n數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中。源數(shù)據(jù)可能包括多個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)立方體或一般文件。8三個(gè)重要的問(wèn)題要考慮n模式集成 主要是實(shí)體識(shí)別問(wèn)題: 利用元數(shù)據(jù)數(shù)據(jù)的數(shù)據(jù),這可以避免模式集成中的錯(cuò)誤n冗余 ,一個(gè)屬性是冗余的,如果它能由另一個(gè)表“導(dǎo)出”,如年薪,可以用相關(guān)分析檢測(cè)到n數(shù)據(jù)值沖突的檢測(cè)與處理 : 比如,重量屬性可能在一個(gè)系統(tǒng)中以公制單位存放,而在另一個(gè)系統(tǒng)中用英制存放9數(shù)據(jù)變換n

4、數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,涉及如下內(nèi)容: 1)平滑:去掉數(shù)據(jù)中的噪聲, 2) 聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集 3)數(shù)據(jù)概化:使用概念分層,用高層次概念替換低層次“原始” 數(shù)據(jù) 4)規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定 區(qū)間,如 0到1之間。 5)屬性構(gòu)造:可以構(gòu)造新的屬性并添加到屬性集中,以幫助 數(shù)據(jù)挖掘。10規(guī)范化的方法 1)最小最大規(guī)范化 :對(duì)原始數(shù)據(jù)進(jìn)行變換。假定A的屬性最大值和最小值分別是MAX,MIX ,設(shè)A 中的任一值是V,則V的值經(jīng)過(guò)規(guī)范化后則為:V=(V-MIN)/(MAX-MIX)*(NEW_max-NEW_min)+NEW_min 其中規(guī)范化后的區(qū)間

5、是NEW_min, NEW_max 例如:income的最大,最小值分別為9000,2000,則將它的值映射到0,1時(shí),若income的值6800規(guī)范后為: (6800-2000)/(9000-2000)*(1-0)+0=0.68611 2)z-score規(guī)范化(或零均值規(guī)范化):就是屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范。假設(shè)A的值V規(guī)范后為V,則公式為: V=(V-AVG(A)/A的標(biāo)準(zhǔn)差 假設(shè)屬性income的平均值和方差分別為:5400,1600,則值7360的規(guī)范后的值為: (7360-5400)/1600=1.225 12 3)小數(shù)定標(biāo)化:就是科學(xué)表示法的形式,將屬性的值映射到0,1

6、之間。將小數(shù)點(diǎn)的位置規(guī)范化,小數(shù)點(diǎn)的移動(dòng)根據(jù)屬性的最大絕對(duì)值。如將A屬性的值35規(guī)范后為:35/100=0.35 13 屬性構(gòu)造屬性構(gòu)造:是由給定的屬性構(gòu)造和添加新的屬性,以有利于挖掘。比如,我們根據(jù)屬性heigh 和 width可以構(gòu)造 area屬性。通過(guò)這種組合屬性,屬性構(gòu)造可以發(fā)現(xiàn)關(guān)于數(shù)據(jù)屬性間聯(lián)系的丟失信息,這對(duì)知識(shí)發(fā)現(xiàn)有用的。143.4 數(shù)據(jù)歸約n數(shù)據(jù)歸約的策略為:n數(shù)據(jù)立方體聚集,也就是聚集操作于數(shù)據(jù)立方體n維歸約:可以檢測(cè)并刪除不相關(guān),弱相關(guān)或冗余的屬性或維n數(shù)據(jù)壓縮:使用編碼機(jī)制壓縮數(shù)據(jù)集。n數(shù)值壓縮:用替代,較小的數(shù)據(jù)表示替換或估計(jì)數(shù)據(jù),如聚集,選樣和使用直方圖。n離散化和概

7、念分層產(chǎn)生:屬性的原始值用區(qū)間值或較高層的概念替換 15維歸約n維歸約就是刪除不相關(guān)的屬性減少數(shù)據(jù)量,通過(guò)找出最小屬性集,使得數(shù)據(jù)類(lèi)的概率盡可能接近全部的屬性集。包括以下技術(shù): 1)逐步向前選擇: 2)逐步向后刪除: 3)逐步向前選擇和逐步向后刪除的結(jié)合 4)判定樹(shù)歸納:16三種技術(shù)例子n向前選擇 向后刪除 向前選擇與向后刪除的結(jié)合初始屬性集 初始屬性集 初始 屬性集(A1,A2,A3,A4,A5,A6) (A1,A2,A3,A4,A5,A6) (A1,A2,A3,A4,A5,A6)初始化規(guī)約集: -A1,A3,A4,A5,A6 -A1 -A1,A4,A5,A6 -A1,A3,A4,A5,A6

8、 -A1 -規(guī)約后的屬性集: -A1,A4-A1,A4 A1,A4,A6 -A1,A4,A5,A6-規(guī)約后的屬性集: -A1,A4,A6 A1,A4,A6 -A1,A4,A6 規(guī)約后的屬性集:A1,A4,A617數(shù)值歸約n數(shù)值歸約:通過(guò)用替代的,較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量。直方圖:使用分箱技術(shù)近似數(shù)據(jù)分布,屬性A的直方圖將A的數(shù)據(jù)劃分為不相交的子集,或桶。n對(duì)于確定桶和屬性值的劃分,有如下劃分規(guī)則: 1)等寬: 就是將桶的寬度區(qū)間設(shè)為一個(gè)常數(shù),也就是橫坐標(biāo) 2)等深: 就是將桶的頻率設(shè)為一個(gè)常數(shù),也就是縱坐標(biāo) 3)V-最優(yōu):給定桶個(gè)數(shù),如果我們考慮所有可能的直方圖,V-最優(yōu)直方圖是具有最小

9、方差的直方圖。 4)MaxDiff:考慮每對(duì)相鄰值之間的差。18選樣n用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集。n假定大的數(shù)據(jù)集D包含N個(gè)元組。對(duì)D的可能選樣為: 1)簡(jiǎn)單選擇n個(gè)樣本,不回放(SRSWOR): 2)簡(jiǎn)單選擇n給樣本,回放(SRSWR): 3)聚類(lèi)選樣: 4)分層選樣:193.5 離散化和概念分層n對(duì)于數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化。通過(guò)收集并用較高層的概念替換較低層的概念,概念分層可以用來(lái)歸約數(shù)據(jù)。n數(shù)值概念分層生成方法: 1)分箱, 2)直方圖, 3)聚類(lèi)分析, 4)基于熵的離散化, 5)通過(guò)自然劃分的數(shù)據(jù)分段。20n分類(lèi)數(shù)據(jù)的概念分層 分類(lèi)數(shù)據(jù)是離散數(shù)據(jù),可

10、以用以下方法生成其概念分層: 1)由用戶(hù)或?qū)<以谀J郊?jí)顯示地說(shuō)明屬性的部分序: 2)通過(guò)顯式數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分 3)說(shuō)明屬性集,但不說(shuō)明它們的偏序 4)只說(shuō)明部分屬性集21廣州城市規(guī)劃空間數(shù)據(jù)的清理 n空間數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)了大量與空間有關(guān)的數(shù)據(jù),例如地圖,預(yù)處理后的遙感或醫(yī)學(xué)圖象數(shù)據(jù),以及VLSL芯片設(shè)計(jì)數(shù)據(jù)等??臻g數(shù)據(jù)倉(cāng)庫(kù)包含了拓?fù)浜?或距離信息,通常按復(fù)雜的、多維的空間索引結(jié)構(gòu)組織數(shù)據(jù)。 22 地理信息系統(tǒng)數(shù)據(jù)表現(xiàn)形式地理信息系統(tǒng)數(shù)據(jù)表現(xiàn)形式23廣州市城市規(guī)劃數(shù)據(jù)交換體系 數(shù)據(jù)格式轉(zhuǎn)換接口程序監(jiān)理程序數(shù)據(jù)生產(chǎn)流水線數(shù)據(jù)庫(kù)管理系統(tǒng)辦公自動(dòng)化系統(tǒng)規(guī)劃專(zhuān)業(yè)子系統(tǒng)電子報(bào)批子系統(tǒng)外部數(shù)據(jù)出圖子

11、系統(tǒng)24城市規(guī)劃的各種數(shù)據(jù)n辦案過(guò)程中產(chǎn)生的數(shù)據(jù)n各種規(guī)劃圖形數(shù)據(jù)n基礎(chǔ)地形圖數(shù)據(jù)及各種規(guī)劃勘測(cè)數(shù)據(jù)n規(guī)劃成果數(shù)據(jù)n交通規(guī)劃研究數(shù)據(jù)分局規(guī)劃管理數(shù)據(jù)n檔案數(shù)據(jù) 25應(yīng)用實(shí)例應(yīng)用實(shí)例 Mapinfo存儲(chǔ)的空間數(shù)據(jù)信息既包含有空間信息,也包含有非空間信息,兩者是統(tǒng)一的整體,為了便于分析問(wèn)題,將其數(shù)據(jù)分為兩部分,即非空間的與空間的,分別對(duì)其進(jìn)行數(shù)據(jù)清理、整理。26一幅由多個(gè)圖層組成的地圖 27對(duì)帶有非空間信息的數(shù)據(jù)進(jìn)行清理 n對(duì)時(shí)間字段進(jìn)行類(lèi)型轉(zhuǎn)換對(duì)時(shí)間字段進(jìn)行類(lèi)型轉(zhuǎn)換 由于導(dǎo)出的數(shù)據(jù)為字符類(lèi)型(Chr),這種類(lèi)型不利于數(shù)據(jù)倉(cāng)庫(kù)的建立,和聯(lián)機(jī)分析處理,將其轉(zhuǎn)換成時(shí)間類(lèi)型。n 對(duì)地址字段進(jìn)行分層次對(duì)地

12、址字段進(jìn)行分層次 為了更好地進(jìn)行地址識(shí)別和地址分類(lèi),將地址字段根據(jù)市、區(qū)、路、街、門(mén)牌進(jìn)行分層次,將其分別存入數(shù)據(jù)庫(kù)。 28n對(duì)單位名稱(chēng)字段進(jìn)行一致性的處理對(duì)單位名稱(chēng)字段進(jìn)行一致性的處理 為了避免在同一數(shù)據(jù)庫(kù)中,用兩種形式、說(shuō)法來(lái)代表同一事物,制定單位名稱(chēng)表,使單位代碼與名稱(chēng)一一對(duì)應(yīng),同時(shí)也減少了數(shù)據(jù)庫(kù)中多余的字段。n填充空缺值填充空缺值 檢查數(shù)據(jù)記錄中空缺值的情況,按照以上所述方法處理,這里不贅述。 29對(duì)帶有空間信息的數(shù)據(jù)進(jìn)行清理 n下圖是市規(guī)劃局周邊的規(guī)劃紅線圖,乍一看,看不出其中出現(xiàn)錯(cuò)誤的地方,但是根據(jù)其空間信息的數(shù)據(jù),可以發(fā)現(xiàn)這一個(gè)地方有重復(fù)申報(bào)的錯(cuò)誤。 30 市規(guī)劃局周邊的規(guī)劃紅線圖(91-96年) 31數(shù)據(jù)進(jìn)行清理步驟n步驟步驟1 1:利用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論