版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、11 八月 2022Data Mining: Concepts and Techniques1Lecture 2: 數(shù)據(jù)預(yù)處理為什么要進(jìn)行預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡(jiǎn)離散化總結(jié)11 八月 2022Data Mining: Concepts and Techniques2為何要進(jìn)行預(yù)處理?現(xiàn)實(shí)世界的數(shù)據(jù)很“臟”不完整的: 缺少屬性值, 感興趣的屬性缺少屬性值, 或僅包含聚集數(shù)據(jù)如, occupation=“ ”含噪聲的: 包含錯(cuò)誤或存在孤立點(diǎn)如, Salary=“-10”不一致的: 在名稱或代碼之間存在著差異如, Age=“42” Birthday=“03/07/1997”如, 原來排
2、序 “1,2,3”, 現(xiàn)在排序 “A, B, C”11 八月 2022Data Mining: Concepts and Techniques3數(shù)據(jù)為何會(huì)變臟?不完整性來源于收集數(shù)據(jù)時(shí),在不同的階段具有不同的考慮人/硬件/軟件的問題等噪聲數(shù)據(jù)來源于收集階段數(shù)據(jù)傳輸階段等不一致性來源于不同的數(shù)據(jù)源功能依賴沖突(Functional dependency violation)11 八月 2022Data Mining: Concepts and Techniques4數(shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清洗(Data cleaning)填充遺失的數(shù)據(jù), 平滑噪聲數(shù)據(jù), 辨識(shí)或刪除孤立點(diǎn), 解決不一致性問題數(shù)據(jù)
3、集成(Data integration)對(duì)多個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)立方或文件進(jìn)行集成數(shù)據(jù)變換(Data transformation)規(guī)范化與聚集(Normalization and aggregation)數(shù)據(jù)約簡(jiǎn)(Data reduction)得到數(shù)據(jù)集的壓縮表示,它小的多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結(jié)果數(shù)據(jù)離散化(Data discretization)特別對(duì)數(shù)字值而言非常重要11 八月 2022Data Mining: Concepts and Techniques5第二章: 數(shù)據(jù)預(yù)處理為什么要進(jìn)行預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡(jiǎn)離散化總結(jié)11 八月 2022Data Mini
4、ng: Concepts and Techniques6數(shù)據(jù)清洗重要性“數(shù)據(jù)清洗是數(shù)據(jù)倉(cāng)庫(kù)的三個(gè)主要問題之一”Ralph Kimball“數(shù)據(jù)清洗是數(shù)據(jù)倉(cāng)庫(kù)的首要問題”DCI survey數(shù)據(jù)清洗的任務(wù)填充遺失數(shù)據(jù)辨識(shí)孤立點(diǎn)、平滑噪聲數(shù)據(jù)修正不一致性數(shù)據(jù)解決數(shù)據(jù)集成時(shí)帶來的數(shù)據(jù)冗余問題11 八月 2022Data Mining: Concepts and Techniques7怎樣處理遺失的數(shù)據(jù)?忽略元組: 除非元組有多個(gè)屬性缺少值,否則該方法不是很有效人工填充: 費(fèi)時(shí)費(fèi)力自動(dòng)填充使用一個(gè)全局常量填充: 如, “unknown”, 會(huì)誤認(rèn)為是一個(gè)新的、有意義的類?! 該屬性的平均值使用與給定元
5、組屬同一類的所有樣本的該屬性的平均值使用最可能的值: 使用基于推導(dǎo)的方法,如Bayesian公式或決策樹11 八月 2022Data Mining: Concepts and Techniques8怎樣處理噪聲數(shù)據(jù)?噪聲: 是一個(gè)策略變量中的隨即錯(cuò)誤或偏差分箱方法:先對(duì)數(shù)據(jù)進(jìn)行排序,然后把它們劃分到箱然后通過箱平均值,箱中值等進(jìn)行平滑.聚類探測(cè)并去除孤立點(diǎn)計(jì)算機(jī)和人工檢查相結(jié)合回歸分析(Regression)讓數(shù)據(jù)適合一個(gè)函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù)11 八月 2022Data Mining: Concepts and Techniques9簡(jiǎn)單的平滑方法: 分箱等寬 (距離)劃分:根據(jù)屬性值
6、的范圍劃分成N等寬的區(qū)間如果A和B 屬性值的最大與最小值,則區(qū)間寬度為: W = (B A)/N.很直接,但孤立點(diǎn)將會(huì)對(duì)此方法有很大的影響等深 (頻率) 劃分:劃分成N個(gè)區(qū)間,每個(gè)區(qū)間含有大約相等地樣本數(shù)具有較好的數(shù)據(jù)擴(kuò)展性11 八月 2022Data Mining: Concepts and Techniques10分箱方法示例* 價(jià)格排序: 4, 8, 9, 11, 15, 21, 21, 22, 24, 25, 26, 28, 29, 30, 40* 劃分成箱 (等深) : - Bin 1: 4, 8, 9, 11, 15 - Bin 2: 21, 21, 22, 24, 25 - Bi
7、n 3: 26, 28, 29, 30, 40* 用箱平均值平滑數(shù)據(jù): - Bin 1: 9.4, 9.4, 9.4, 9.4, 9.4 - Bin 2: 22.6, 22.6, 22.6, 22.6, 22.6 - Bin 3: 30.6, 30.6, 30.6, 30.6, 30.6* 用箱中值平滑數(shù)據(jù): - Bin 1: 9, 9, 9, 9, 9 - Bin 2: 22, 22, 22, 22, 22 - Bin 3: 29, 29, 29, 29, 2911 八月 2022Data Mining: Concepts and Techniques11聚類分析示例圖11 八月 2022D
8、ata Mining: Concepts and Techniques12回歸示例圖xyy = x + 1X1Y1Y111 八月 2022Data Mining: Concepts and Techniques13第二章: 數(shù)據(jù)預(yù)處理為什么要進(jìn)行預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡(jiǎn)離散化總結(jié)11 八月 2022Data Mining: Concepts and Techniques14數(shù)據(jù)集成數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中(如數(shù)據(jù)倉(cāng)庫(kù))。實(shí)體識(shí)別問題 (EI): 從不同的數(shù)據(jù)源辨識(shí)實(shí)體,如, A.cust-id B.cust-#。檢測(cè)與解決值沖突問題對(duì)客觀世
9、界的同一實(shí)體, 不同數(shù)據(jù)源可能具有不同的值可能原因: 不同的表示方式, 不同的刻度,如公制與英制(metric vs. British units)等數(shù)據(jù)冗余問題冗余屬性可以通過相關(guān)分析檢測(cè)出來11 八月 2022Data Mining: Concepts and Techniques15數(shù)據(jù)變換平滑(Smoothing): 去除噪聲數(shù)據(jù)聚集(Aggregation): 匯總,數(shù)據(jù)立方構(gòu)造概化(Generalization): 沿概念層次上升規(guī)范化(Normalization): 刻度變換最小最大規(guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化11 八月 2022Data Mining: Concep
10、ts and Techniques16數(shù)據(jù)變換: 規(guī)范化最小最大規(guī)范化z-score規(guī)范化小數(shù)定標(biāo)規(guī)范化其中j是使得Max(| |)規(guī)約后的屬性集: A1, A4, A611 八月 2022Data Mining: Concepts and Techniques21降維啟發(fā)式特征選擇方法對(duì)于d個(gè)特征,共有 2d 個(gè)可能的子特征集合幾個(gè)啟發(fā)式特征選擇方法:在特征獨(dú)立的假設(shè)下,選擇最佳的單個(gè)特征: 根據(jù)重要性的測(cè)試進(jìn)行選擇.最佳單步特征選擇: 最佳的單個(gè)特征首先被選擇然后選擇第二個(gè)最好的特征, .單步特征排除:重復(fù)排除最壞的特征最佳單步特征選擇與排除的綜合11 八月 2022Data Mining
11、: Concepts and Techniques22數(shù)據(jù)壓縮原始數(shù)據(jù)壓縮后數(shù)據(jù)無損近似原始數(shù)據(jù) 有損11 八月 2022Data Mining: Concepts and Techniques23數(shù)值規(guī)約參數(shù)化方法(Parametric methods)假設(shè)數(shù)據(jù)適合某個(gè)模型,然后估計(jì)模型參數(shù),僅僅存儲(chǔ)這些模型參數(shù),而不再存儲(chǔ)原有數(shù)據(jù)(除了可能的孤立點(diǎn))對(duì)數(shù)線性模型(Log-linear models)近似離散的多維概率分布?;谳^小方體形成數(shù)據(jù)立方體的格,該方法可以用于估計(jì)具有離散屬性集的基本方體中每個(gè)單元的概率,這允許由較低階的數(shù)據(jù)立方體構(gòu)造較高階的數(shù)據(jù)立方體非參數(shù)化方法不假設(shè)模型有: 直
12、方圖(histograms)、聚類, 采樣(sampling)等11 八月 2022Data Mining: Concepts and Techniques24回歸與對(duì)數(shù)線性模型線性回歸: 把數(shù)據(jù)擬合成一條直線分布常常用最小平方法擬合直線,Y = + X多元線性回歸: 把響應(yīng)變量Y建模為幾個(gè)特征向量的線性函數(shù),Y = b0 + b1 X1 + b2 X2對(duì)數(shù)線性模型11 八月 2022Data Mining: Concepts and Techniques25直方圖(Histograms)常用的規(guī)約技術(shù)。把數(shù)據(jù)劃分成若干個(gè)桶(buckets)并存儲(chǔ)每個(gè)桶的平均值或和。常用于定量問題。11 八月
13、 2022Data Mining: Concepts and Techniques26聚類把數(shù)據(jù)集合劃分成類(clusters), 然后僅僅存儲(chǔ)這些類的表示有多種聚類的定義以及聚類算法,將在后續(xù)介紹11 八月 2022Data Mining: Concepts and Techniques27采樣(Sampling)允許挖掘算法以線性時(shí)間的復(fù)雜性甚至O(1)時(shí)間運(yùn)行選擇原有數(shù)據(jù)集的具有代表性的一個(gè)子集自適應(yīng)采樣方法分層采樣(Stratified sampling)11 八月 2022Data Mining: Concepts and Techniques28采樣示例SRSWOR(簡(jiǎn)單隨機(jī)采樣,
14、不回放)SRSWRRaw Data11 八月 2022Data Mining: Concepts and Techniques29采樣原始數(shù)據(jù) 聚類/分層采樣11 八月 2022Data Mining: Concepts and Techniques30第二章: 數(shù)據(jù)預(yù)處理為什么要進(jìn)行預(yù)處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡(jiǎn)離散化總結(jié)11 八月 2022Data Mining: Concepts and Techniques31離散化(Discretization)屬性的三種類型:標(biāo)稱性的 取自于無序集合(unordered set)的值有序的(Ordinal) 取自于有序集合(ordered
15、set)的值連續(xù)的 實(shí)數(shù)離散化: 把連續(xù)型屬性的取值范圍劃分成區(qū)間通過離散化減少數(shù)據(jù)集大小為進(jìn)一步分析做好準(zhǔn)備11 八月 2022Data Mining: Concepts and Techniques32數(shù)值數(shù)據(jù)的離散化分箱 直方圖分析 聚類分析 基于熵的離散化11 八月 2022Data Mining: Concepts and Techniques33基于熵的離散化給定一個(gè)樣本集合 S, 如果用邊界值T把 S劃分成2個(gè)區(qū)間 S1與S2,則劃分后的熵為:選擇某一邊界T的準(zhǔn)則是:它使其后劃分得到的信息增益(Information Gain,見上式)最大.上述過程遞歸地用于所得到的劃分,直到滿足某個(gè)終止條件。實(shí)驗(yàn)表明這種劃分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 9364.5-2025小型熔斷器第5部分:小型熔斷體質(zhì)量評(píng)定導(dǎo)則
- 化工催化技術(shù)課件
- 化工仿真培訓(xùn)實(shí)操課件
- 飛秒技術(shù)科普
- 2026年人力資源管理師績(jī)效考核體系設(shè)計(jì)知識(shí)練習(xí)(含答案解析)
- 2026云南保山市騰沖市邊防辦招聘邊境專職聯(lián)防員備考考試題庫(kù)及答案解析
- 2026年青島市即墨區(qū)部分事業(yè)單位公開招聘工作人員(53人)筆試備考試題及答案解析
- 2026云南嘉華食品有限公司招聘?jìng)淇伎荚囶}庫(kù)及答案解析
- 別墅搭架施工方案(3篇)
- 標(biāo)識(shí)制作施工方案(3篇)
- 柴油維修技術(shù)培訓(xùn)課件
- 安全附件管理制度規(guī)范
- 2026院感知識(shí)考試題及答案
- 《紅樓夢(mèng)》導(dǎo)讀 (教學(xué)課件) -高中語(yǔ)文人教統(tǒng)編版必修下冊(cè)
- 室外供熱管道安裝監(jiān)理實(shí)施細(xì)則
- 腰背部推拿課件
- 通信管道施工質(zhì)量管理流程解析
- 商場(chǎng)經(jīng)理2025年終工作總結(jié)(二篇)
- 2023年P(guān)CB工程師年度總結(jié)及來年計(jì)劃
- 績(jī)效考核和薪酬方案通用模板
- YY/T 0590.1-2018醫(yī)用電氣設(shè)備數(shù)字X射線成像裝置特性第1-1部分:量子探測(cè)效率的測(cè)定普通攝影用探測(cè)器
評(píng)論
0/150
提交評(píng)論