數(shù)據(jù)探查與預(yù)處理_第1頁
數(shù)據(jù)探查與預(yù)處理_第2頁
數(shù)據(jù)探查與預(yù)處理_第3頁
數(shù)據(jù)探查與預(yù)處理_第4頁
數(shù)據(jù)探查與預(yù)處理_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、SWUFE1數(shù)據(jù)探查張英2022年3月24日星期四SWUFE2數(shù)據(jù)質(zhì)量數(shù)據(jù)集特征 數(shù)據(jù)對應(yīng)用的適合性數(shù)據(jù)對應(yīng)用的適合性相關(guān)性、完備性、時效性相關(guān)性、完備性、時效性 數(shù)據(jù)的代表性數(shù)據(jù)的代表性(抽樣偏倚抽樣偏倚) 數(shù)據(jù)的可用性數(shù)據(jù)的可用性 屬性含義、類型、取值單位、范圍及約束說明 數(shù)據(jù)的收集問題數(shù)據(jù)的收集問題 數(shù)據(jù)的重復(fù)、缺失、不一致問題;是否存在孤立點(diǎn)2022年3月24日星期四SWUFE3數(shù)據(jù)質(zhì)量數(shù)據(jù)集 數(shù)據(jù)的集成程度數(shù)據(jù)的集成程度 數(shù)據(jù)的規(guī)模和稀疏性數(shù)據(jù)的規(guī)模和稀疏性2022年3月24日星期四數(shù)據(jù)對象(實(shí)例、記錄、觀測)數(shù)據(jù)對象(實(shí)例、記錄、觀測)屬性(變量、維、特征)屬性(變量、維、特征)S

2、WUFE4屬性特征屬性特征 屬性數(shù)據(jù)的測量問題屬性數(shù)據(jù)的測量問題測量誤差:系統(tǒng)性誤差(測量誤差:系統(tǒng)性誤差(bias)和隨機(jī)誤差(噪聲)和隨機(jī)誤差(噪聲)測量精度:用標(biāo)準(zhǔn)差衡量測量精度:用標(biāo)準(zhǔn)差衡量測量精確度:取值單位(粒度)、有效數(shù)字測量精確度:取值單位(粒度)、有效數(shù)字 缺失值與數(shù)據(jù)的稀疏性缺失值與數(shù)據(jù)的稀疏性 屬性類型與測量水平屬性類型與測量水平 字符型(定性)與數(shù)值型(定量)字符型(定性)與數(shù)值型(定量) 離散的與連續(xù)的離散的與連續(xù)的2022年3月24日星期四SWUFE5屬性類型2022年3月24日星期四注意:每種類型擁有其上方類型的性質(zhì)和操作注意:每種類型擁有其上方類型的性質(zhì)和操作S

3、WUFE6字符型屬性的測量水平 二元(BINARY)屬性 對稱二元屬性 例如:性別 不對稱二元屬性 例如:是否欺詐,只關(guān)注非零值 標(biāo)稱(NOMINAL)屬性(類別屬性)取值無序 例如:職業(yè)、專業(yè)、婚姻狀況 序數(shù)(ORDINAL)屬性(定序變量)取值有序 例如:職稱、滿意度2022年3月24日星期四SWUFE7數(shù)值型屬性的測量水平 區(qū)間(INTERVAL)屬性 (定距變量) 例如:溫度 比率(RATIO)屬性 (定比變量) 例如:成績、收入、利潤、人數(shù) 可以取字符型屬性的測量水平2022年3月24日星期四SWUFE8缺失值和數(shù)據(jù)的稀疏性-排序的影響2022年3月24日星期四SWUFE9屬性(變量

4、)的基本統(tǒng)計描述 屬性取值的一般水平 屬性取值的離散程度 分布的對稱性與中心集中度 屬性間取值的相關(guān)性2022年3月24日星期四SWUFE10數(shù)據(jù)的中心趨勢 數(shù)值屬性 均值 中位數(shù) 截尾均值 三均值 字符屬性 眾數(shù)2022年3月24日星期四niixnx11x8.08.08.08.08.08.08.019.08.08.08.0SWUFE11數(shù)據(jù)的離散程度 數(shù)值屬性 極差、方差、標(biāo)準(zhǔn)差、平均絕對偏差 四分位數(shù)與四分位極差QR=Q3-Q1 變異系數(shù) 字符屬性取值個數(shù)2022年3月24日星期四 下截斷點(diǎn):Q1 -1.5*QR 上截斷點(diǎn):Q3+1.5*QR孤立點(diǎn)上截斷點(diǎn) CV=(%)100 xSWUFE

5、12數(shù)據(jù)分布的對稱性2022年3月24日星期四偏度SWUFE13數(shù)據(jù)分布的中心集中度2022年3月24日星期四峰度為負(fù)正態(tài)分布,峰度為0峰度為正SWUFE14屬性間的相關(guān)性相關(guān)系數(shù)相關(guān)系數(shù)夾角余弦夾角余弦2022年3月24日星期四A、B屬性為標(biāo)稱屬性或二元屬性,其取值個數(shù)分別為c,rOij:實(shí)際頻數(shù)eij:期望頻數(shù)自由度:(r-1)*(c-1)原假設(shè):A和B獨(dú)立12211(6 .1 0 )niiinniiiixxcxx SWUFE15 性別與閱讀興趣相關(guān)?結(jié)論:性別與閱讀興趣相關(guān)2022年3月24日星期四SWUFE16安斯庫姆四重奏安斯庫姆四重奏一二三四xyxyxyxy10.08.0410.0

6、9.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.7

7、45.05.738.06.892022年3月24日星期四統(tǒng)計量數(shù)值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x與y之間的相關(guān)系數(shù)0.816SWUFE17數(shù)據(jù)的圖形表示 分位數(shù)圖 直方圖或柱形圖 盒形圖 莖葉圖 餅圖 散點(diǎn)圖、折線圖2022年3月24日星期四等高線圖等高線圖平行坐標(biāo)系平行坐標(biāo)系圖形矩陣圖形矩陣星型坐標(biāo)圖星型坐標(biāo)圖Chernoff臉圖臉圖SWUFE18分位數(shù)圖2022年3月24日星期四MQ1Q3MQ1Q3SWUFE19直方圖(柱形圖)2022年3月24日星期四SWUFE20盒形圖2022年3月24日星期四中位數(shù)中位數(shù)平均數(shù)平均數(shù)Q1Q3上截斷點(diǎn)上截斷點(diǎn)或最

8、大值或最大值下截斷點(diǎn)下截斷點(diǎn)或最小值或最小值孤立點(diǎn)孤立點(diǎn)SWUFE21散點(diǎn)圖2022年3月24日星期四SWUFE22多維圖2022年3月24日星期四平行坐標(biāo)系平行坐標(biāo)系Chernoff臉圖臉圖星型坐標(biāo)圖星型坐標(biāo)圖SWUFE23客戶信息數(shù)據(jù)問題舉例 部分屬性值為空部分屬性值為空 少數(shù)客戶的信息重復(fù)少數(shù)客戶的信息重復(fù) 部分客戶的收入值為部分客戶的收入值為0 出生日期填寫為出生日期填寫為1900.1.1 不同地區(qū)的客戶分散在不同的數(shù)據(jù)集中不同地區(qū)的客戶分散在不同的數(shù)據(jù)集中 不同的屬性分散在不同的數(shù)據(jù)集中不同的屬性分散在不同的數(shù)據(jù)集中 客戶數(shù)量太大、屬性個數(shù)太多客戶數(shù)量太大、屬性個數(shù)太多 缺乏年齡屬性

9、缺乏年齡屬性 收入分布偏斜收入分布偏斜 地址對分析目標(biāo)而言太詳細(xì)地址對分析目標(biāo)而言太詳細(xì) 2022年3月24日星期四SWUFE24 數(shù)據(jù)清洗 數(shù)據(jù)集成 數(shù)據(jù)消減 數(shù)據(jù)轉(zhuǎn)換 復(fù)雜數(shù)據(jù)類型的預(yù)處理:特征提取2022年3月24日星期四SWUFE25數(shù)據(jù)清洗 處理錯誤或不一致的數(shù)據(jù) 處理缺失值 識別處理孤立點(diǎn) 平滑噪聲數(shù)據(jù)2022年3月24日星期四SWUFE262022年3月24日星期四缺失值的處理缺失值的處理 不做處理,忽略缺失屬性值(與具體算法有關(guān)) 刪除該條記錄 填補(bǔ) 人工確定值或固定值 均值(中位數(shù))或眾數(shù) 同類別的均值(中位數(shù))或眾數(shù) 預(yù)測值:利用分類預(yù)測技術(shù)推斷出最大可能取值 增加標(biāo)識變量

10、SWUFE27識別并處理孤立點(diǎn) 識別 常識 統(tǒng)計規(guī)則 聚類,分類 處理 去除 視為噪聲,進(jìn)行平滑 保留2022年3月24日星期四SWUFE28噪聲平滑 分箱分箱 聚類聚類 回歸回歸2022年3月24日星期四SWUFE292022年3月24日星期四分箱(Bin) 等高分箱:每箱數(shù)據(jù)個數(shù)相同 等寬分箱:每箱的箱距相同排序確定箱數(shù)確定每箱數(shù)據(jù)個數(shù)確定箱距分配替換SWUFE302022年3月24日星期四等高分箱方法舉例4,15,25,34,8,21,26,9,24,28,29,21(1)排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34(2)將數(shù)據(jù)分割為等高

11、的3箱,每箱4個數(shù)據(jù)項(xiàng) :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34(3)根據(jù)箱中的平均值進(jìn)行平滑:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29SWUFE312022年3月24日星期四聚類與回歸平滑方法SWUFE32數(shù)據(jù)集成 合并多個數(shù)據(jù)源中的數(shù)據(jù),將之存放在一個一致的數(shù)據(jù)存儲中。 模式集成問題 :同名不同義,同義不同名。 數(shù)據(jù)值沖突的檢測與處理例如:不同的計量單位、取值層次 數(shù)據(jù)冗余問題 縱向集成和橫向集成2022年3

12、月24日星期四數(shù)據(jù)集數(shù)據(jù)集1中:中: Customerid(客戶編號)(客戶編號) Cid(客戶身份證號)(客戶身份證號) (一)季度存款額:單位:元(一)季度存款額:單位:元 開戶行:分行開戶行:分行數(shù)據(jù)集數(shù)據(jù)集2中:中: Cid(客戶編號)(客戶編號) (二)季度存款額:單位:千元(二)季度存款額:單位:千元 開戶行:支行開戶行:支行 SWUFE33 維歸約 數(shù)據(jù)壓縮(PCA、小波變換等) 屬性構(gòu)造 屬性子集選擇 行規(guī)約2022年3月24日星期四SWUFE342022年3月24日星期四數(shù)據(jù)壓縮數(shù)據(jù)壓縮 數(shù)據(jù)壓縮是使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的“壓縮”表示。如果根據(jù)壓縮的數(shù)據(jù)集可以恢復(fù)

13、原來的數(shù)據(jù)集,則數(shù)據(jù)壓縮是無損的,否則,數(shù)據(jù)壓縮是有損的。例如: 主成分分析 小波變換 奇異值分解SWUFE352022年3月24日星期四屬性子集選擇 手工消除無用或無關(guān)屬性 特征子集選取 特征子集選取就是選取最小的特征屬性集合,得到的數(shù)據(jù)挖掘結(jié)果與所有特征參加的數(shù)據(jù)挖掘結(jié)果相近或完全一致。 和建模過程集成 (嵌入方法) .多元回歸分析、決策樹方法 進(jìn)行獨(dú)立的選取工作(過濾方法和包裝方法) 例如:用關(guān)聯(lián)分析選取重要變量 用決策樹方法選取重要變量 具有唯一值或近似唯一值的變量具有唯一值或近似唯一值的變量具有單一值或近似單一值的變量具有單一值或近似單一值的變量可以相互轉(zhuǎn)換或同意義的變量可以相互轉(zhuǎn)換

14、或同意義的變量SWUFE362022年3月24日星期四特征子集選擇過程(過濾方法和包裝方法)SWUFE372022年3月24日星期四行規(guī)約 聚集 抽樣 聚類SWUFE38匯總屬性的粒度 電話流失客戶分月通話分鐘數(shù)2022年3月24日星期四 電話流失客戶分天通話分鐘數(shù)SWUFE39抽樣 簡單隨機(jī)抽樣(有放回和無放回) 分層抽樣 簇抽樣 自適應(yīng)或漸進(jìn)抽樣2022年3月24日星期四SWUFE40數(shù)據(jù)轉(zhuǎn)換 函數(shù)變換 數(shù)據(jù)規(guī)范化處理 數(shù)據(jù)泛化 2022年3月24日星期四SWUFE412022年3月24日星期四數(shù)據(jù)規(guī)范化處理數(shù)據(jù)規(guī)范化處理 最小-最大規(guī)范化 z-score規(guī)范化(標(biāo)準(zhǔn)化) 十進(jìn)制縮放規(guī)范化。身高(m)體重(kg)X 張三 1.760Y 李四 1.880身高(cm)體重(kg)X 張三 17060Y 李四 18080SWUFE422022年3月24日星期四最小-最大規(guī)范化 A屬性的原取值區(qū)間minA,maxA 目標(biāo)新區(qū)間new_minA, new_maxA例如:百分制的85分轉(zhuǎn)化為5分制:SWUFE432022年3月24日星期四零均值(z-score)規(guī)范化將屬性A的值v轉(zhuǎn)換為標(biāo)準(zhǔn)化值v。v=(v-)/ 例:成績屬性score的均值和標(biāo)準(zhǔn)差分別為79和9。score為85,標(biāo)準(zhǔn)化化后轉(zhuǎn)換為:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論