數(shù)據挖掘5概念描述特征化與比較課件_第1頁
數(shù)據挖掘5概念描述特征化與比較課件_第2頁
數(shù)據挖掘5概念描述特征化與比較課件_第3頁
數(shù)據挖掘5概念描述特征化與比較課件_第4頁
數(shù)據挖掘5概念描述特征化與比較課件_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

概念描述2022/12/231概念描述2022/12/171特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化解析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/232特征化和比較什么是概念描述?2022/12/172什么是概念描述?描述性vs.預測性數(shù)據挖掘描述性數(shù)據挖掘:預測性數(shù)據挖掘:概念描述:特征化:對所選擇的數(shù)據集給出一個簡單明了的描述,匯總比較:提供對于兩個或多個數(shù)據集進行比較的描述2022/12/233什么是概念描述?描述性vs.預測性數(shù)據挖掘2022/1概念描述和OLAP區(qū)別概念描述:

能夠處理復雜的數(shù)據類型和各種匯總方法

更加自動化OLAP:只能限制于少量的維度和數(shù)據類型用戶控制的流程2022/12/234概念描述和OLAP區(qū)別概念描述:2022/12/174特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/235特征化和比較什么是概念描述?2022/12/175數(shù)據概化和基于匯總的特征化數(shù)據概化將大量的相關數(shù)據從一個較低的概念層次抽象、轉化到一個比較高的層次方法:OLAP方法:面向屬性的歸納2022/12/236數(shù)據概化和基于匯總的特征化數(shù)據概化2022/12/176OLAP方法在數(shù)據立方體上進行計算和存儲結果優(yōu)點效率高能夠計算多種匯總如:count,average,sum,min,max還可以使用roll-down和roll-up操作限制只能處理非數(shù)值化數(shù)據和數(shù)值數(shù)據的簡單匯總。只能分析,不能自動的選擇哪些字段和相應的概念層次2022/12/237OLAP方法在數(shù)據立方體上進行計算和存儲結果2022/12/面向屬性的歸納KDDWorkshop(89)中提出不限制于種類字段和特定的匯總方法方法介紹:使用SQL等收集相關數(shù)據通過數(shù)據屬性值刪除和屬性值概化來實現(xiàn)概化聚集通過合并相等的廣義元組,并累計他們對應的計數(shù)值進行和使用者之間交互式的呈現(xiàn)方式.2022/12/238面向屬性的歸納KDDWorkshop(89)中提出2022基本方法數(shù)據聚焦:選擇和當前分析相關的數(shù)據,包括維。屬性刪除:如果某個屬性包含大量不同值,但是1)在該屬性上沒有概化操作,或者2)它的較高層概念用其它屬性表示。屬性概化:如果某個屬性包含大量不同值,同時在該屬性上有概化操作符,則運用該操作符進行概化。屬性閾值控制:

typical2-8,specified/default.概化關系閾值控制:控制最終關系的大小2022/12/239基本方法數(shù)據聚焦:選擇和當前分析相關的數(shù)據,包括維。2022基本算法InitialRel:

得到相關數(shù)據,形成初始關系表PreGen:

通過統(tǒng)計不同屬性的含有的不同值的個數(shù)決定是丟棄該屬性還是對其進行匯總。PrimeGen:根據上一步的計算結果,對屬性概化到相應的層次,計算匯總值,得到主概化關系。結果的表示:概化關系、交叉表、3D立方體2022/12/2310基本算法InitialRel:得到相關數(shù)據,形成初始關系表示例DMQL:

use

Big_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafrom

studentwherestatusin“graduate”相應的SQL:Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwhere

statusin{“Msc”,“MBA”,“PhD”}2022/12/2311示例DMQL: 2022/12/1711類特征化:示例PrimeGeneralizedRelationInitialRelation2022/12/2312類特征化:示例PrimeGeneralizedRelat概化結果的表示概化關系:一個表格,其中有屬性字段,后附匯總方法。交叉表:二維交叉表可視化方法:Piecharts,barcharts,curves,cubes,andothervisualforms.量化特征規(guī)則:(上表與136頁例4.26)2022/12/2313概化結果的表示概化關系:2022/12/1713表達方式-概化關系(133頁例4.22)2022/12/2314表達方式-概化關系(133頁例4.22)2022/12/17表達方式—交叉表(133頁例4.23)2022/12/2315表達方式—交叉表(133頁例4.23)2022/12/171使用Cube技術進行實現(xiàn)對給定的數(shù)據動態(tài)創(chuàng)建數(shù)據立方體:便于有效的下鉆操作可能增加響應時間解決方法:實現(xiàn)存儲一些較高層次的統(tǒng)計信息。使用預定義的數(shù)據立方體:預先構建數(shù)據立方體Cube計算的花費和額外的存儲空間2022/12/2316使用Cube技術進行實現(xiàn)對給定的數(shù)據動態(tài)創(chuàng)建數(shù)據立方體:20特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2317特征化和比較什么是概念描述?2022/12/1717屬性相關性分析why?哪些維需要包括?需要概化到什么層次?減少屬性;從而容易理解模型結果What?使用統(tǒng)計的方法進行數(shù)據預處理過濾掉一些不相關或者相關性比較弱的字段保留并對相關屬性進行排序相關性和維度、層次有關分析特征化,分析比較2022/12/2318屬性相關性分析why?2022/12/1718屬性相關性分析步驟:數(shù)據收集使用保守的AOI進行預相關分析相關性分析,刪除不相關和弱相關屬性使用AOI產生概念描述2022/12/2319屬性相關性分析步驟:2022/12/1719相關性度量標準相關性度量標準決定了如何對屬性進行判斷的標準方法信息增益informationgain(ID3)增益比gainratio(C4.5)Gini索引giniindex不確定性相關系數(shù)2022/12/2320相關性度量標準相關性度量標準決定了如何對屬性進行判斷的標準2Entropy和InformationGain集合S中類別Ci的記錄個數(shù)是si

個i={1,…,m}期望信息屬性A的熵是信息增益2022/12/2321Entropy和InformationGain集合S中一個例子(131頁例5.9)任務使用分析特征化來了解研究生的一般特征屬性名稱

gender,major,birth_place,birth_date,phone#,andgpaGen(ai)=concepthierarchiesonaiUi=attributeanalyticalthresholdsforaiTi=attributegeneralizationthresholdsforaiR=attributerelevancethreshold2022/12/2322一個例子(131頁例5.9)任務2022/12/1722例子:分析特征化(續(xù))1.數(shù)據收集targetclass:graduatestudentcontrastingclass:undergraduatestudent2.使用Ui分析概化屬性刪除removenameandphone#屬性概化generalizemajor,birth_place,birth_dateandgpaaccumulatecounts候選關系:gender,major,birth_country,age_rangeandgpa2022/12/2323例子:分析特征化(續(xù))1.數(shù)據收集2022/12/1723例子:分析特征化(2)CandidaterelationforTargetclass:Graduatestudents(=120)CandidaterelationforContrastingclass:Undergraduatestudents(=130)2022/12/2324例子:分析特征化(2)Candidaterelation例子:分析特征化(3)3.相關性分析計算期望信息計算每個屬性的熵Numberofgradstudentsin“Science”Numberofundergradstudentsin“Science”2022/12/2325例子:分析特征化(3)3.相關性分析Numberof例子:分析特征化(4)得出每個屬性的熵計算每個屬性的InformationGainInformationgainforallattributes2022/12/2326例子:分析特征化(4)得出每個屬性的熵2022/12/17例子:分析特征化(5)4.Initialworkingrelation(W0)derivationR=0.1刪除不相關或者弱相關的屬性=>dropgender,birth_country刪除比較類的關系5.在W0進行AOI分析InitialtargetclassworkingrelationW0:Graduatestudents2022/12/2327例子:分析特征化(5)4.Initialworking特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2328特征化和比較什么是概念描述?2022/12/1728挖掘類比較比較:比較兩個或者更多類.方法:

將相關的數(shù)據分成目標類和比較類。將兩個類別的數(shù)據概化到相同的層次。用相同層次的描述對元組進行比較。對于每個元組展現(xiàn)其描述和兩個衡量標準:support-distributionwithinsingleclasscomparison-distributionbetweenclasses將差異很大的元組特別顯示出來相關性分析:發(fā)現(xiàn)最能體現(xiàn)類別之間差異的屬性.2022/12/2329挖掘類比較比較:比較兩個或者更多類.2022/12/1729例子:分析性比較(133頁例5.10)Task使用區(qū)別規(guī)則來分析本科生和研究生DMQLqueryuseBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevanceto

name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“graduate”versus“undergraduate_students”wherestatusin“undergraduate”analyzecount%fromstudent2022/12/2330例子:分析性比較(133頁例5.10)TaskuseBig例子:分析性比較(2)條件:attributesname,gender,major,birth_place,birth_date,residence,phone#andgpaGen(ai)=concepthierarchiesonattributesaiUi=attributeanalyticalthresholdsforattributesaiTi=attributegeneralizationthresholdsforattributesaiR=attributerelevancethreshold2022/12/2331例子:分析性比較(2)條件:2022/12/1731例子:分析性比較(3)1.數(shù)據收集目標類和比較類2.屬性相關性分析removeattributesname,gender,major,phone#3.同步概化controlledbyuser-specifieddimensionthresholdsprimetargetandcontrastingclass(es)relations/cuboids2022/12/2332例子:分析性比較(3)1.數(shù)據收集2022/12/1732例子:分析性比較(4)Primegeneralizedrelationforthetargetclass:GraduatestudentsPrimegeneralizedrelationforthecontrastingclass:Undergraduatestudents2022/12/2333例子:分析性比較(4)Primegeneralized例子:分析性比較(5)4.在目標和比較類別上,Drilldown,rollupandotherOLAPoperations,確定概化層次.5.展現(xiàn)方式generalizedrelations,crosstabs,barcharts,piecharts,orrules比較性的度量,以體現(xiàn)目標類和比較類之間的差別e.g.count%2022/12/2334例子:分析性比較(5)4.在目標和比較類別上,Dril量化區(qū)分規(guī)則Cj=目標類qa=概化元組也覆蓋比較類別的元組d-weight范圍:[0,1]量化區(qū)別規(guī)則2022/12/2335量化區(qū)分規(guī)則Cj=目標類2022/12/1735例子:量化區(qū)別規(guī)則量化區(qū)別規(guī)則(135頁例5.11)where90/(90+120)=30%Countdistributionbetweengraduateandundergraduatestudentsforageneralizedtuple2022/12/2336例子:量化區(qū)別規(guī)則量化區(qū)別規(guī)則(135頁例5.11)Cou類別描述量化特征規(guī)則必要量化區(qū)別規(guī)則充分量化描述規(guī)則必要和充分2022/12/2337類別描述量化特征規(guī)則2022/12/1737例子:量化描述規(guī)則(136頁例5.13)對于目標類Europe的量化描述規(guī)則(137頁例5.14)Crosstabshowingassociatedt-weight,d-weightvaluesandtotalnumber(inthousands)ofTVsandcomputerssoldatAllElectronicsin19982022/12/2338例子:量化描述規(guī)則(136頁例5.13)Crosstab特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2339特征化和比較什么是概念描述?2022/12/1739挖掘數(shù)據散布特征動機更好的了解數(shù)據:集中趨勢,差別和分布數(shù)據散布特征

median,max,min,quantiles,outliers,variance,等.2022/12/2340挖掘數(shù)據散布特征動機2022/12/1740衡量中心趨勢平均值帶權平均中位數(shù):一個整體度量如果是奇數(shù),則為中間數(shù),偶數(shù)則為中間兩數(shù)的平均用插值的方法進行估計模出現(xiàn)次數(shù)最多的值Unimodal,bimodal,trimodalEmpiricalformula:2022/12/2341衡量中心趨勢平均值2022/12/1741衡量離散趨勢四分位數(shù),異常和盒圖四分位數(shù):

Q1(25thpercentile),Q3(75thpercentile)中間四分位區(qū)間:

IQR=Q3–

Q1五數(shù)概括:

min,Q1,M,

Q3,max盒圖:

endsoftheboxarethequartiles,medianismarked,whiskers,andplotoutlierindividually異常:

usually,avaluehigher/lowerthan1.5xIQR方差和標準差Variance

s2:(algebraic,scalablecomputation)Standarddeviationsisthesquarerootofvariances22022/12/2342衡量離散趨勢四分位數(shù),異常和盒圖2022/12/174

盒圖分析五數(shù)概括:Minimum,Q1,M,Q3,Maximum盒圖數(shù)據用盒子的形式表現(xiàn)盒子的兩端分別是兩個分位數(shù),i.e.,theheightoftheboxisIRQ中位數(shù)用一條線來表示。延長線:從盒子延長到最大和最小值2022/12/2343盒圖分析五數(shù)概括:2022/12/1743ABoxplotAboxplot2022/12/2344ABoxplotAboxplot2022/12/1744數(shù)據分布的可視化:盒圖分析2022/12/2345數(shù)據分布的可視化:盒圖分析2022/12/1745在大型數(shù)據庫中挖掘統(tǒng)計信息方差標準差:方差的平方根衡量分散程度當且僅當所有值一樣的時候為0。方差和標準差都是代數(shù)的2022/12/2346在大型數(shù)據庫中挖掘統(tǒng)計信息方差2022/12/1746直方圖(頻率直方圖)圖形化表示類描述的基本統(tǒng)計信息頻率直方圖2022/12/2347直方圖(頻率直方圖)圖形化表示類描述的基本統(tǒng)計信息2022/分位數(shù)圖2022/12/2348分位數(shù)圖2022/12/1748分位數(shù)-分位數(shù)(Q-Q)圖2022/12/2349分位數(shù)-分位數(shù)(Q-Q)圖2022/12/1749散布圖2022/12/2350散布圖2022/12/1750Loess曲線2022/12/2351Loess曲線2022/12/1751圖形化的表示基本統(tǒng)計描述直方圖:盒圖:分位數(shù)圖:

eachvaluexi

ispairedwithfiindicatingthatapproximately100fi%ofdataare

xi

分位數(shù)-分位數(shù)圖(q-q):graphsthequantilesofoneunivariantdistributionagainstthecorrespondingquantilesofanother散布圖:

eachpairofvaluesisapairofcoordinatesandplottedaspointsintheplaneLoess(localregression)曲線:

addasmoothcurvetoascatterplottoprovidebetterperceptionofthepatternofdependence2022/12/2352圖形化的表示基本統(tǒng)計描述直方圖:2022/12/1752特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2353特征化和比較什么是概念描述?2022/12/1753面向屬性的歸納vs.示例學習方法原理和基本假設的不同機器學習:正負樣本。概念描述:只有正樣本。訓練樣本集的大小機器學習:訓練樣本集小概念描述:訓練樣本集大。概化方法的不同機器學習:按照元組概化概念描述:按照屬性概化2022/12/2354面向屬性的歸納vs.示例學習方法原理和基本假設的不同20特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2355特征化和比較什么是概念描述?2022/12/1755概念描述2022/12/2356概念描述2022/12/171特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化解析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2357特征化和比較什么是概念描述?2022/12/172什么是概念描述?描述性vs.預測性數(shù)據挖掘描述性數(shù)據挖掘:預測性數(shù)據挖掘:概念描述:特征化:對所選擇的數(shù)據集給出一個簡單明了的描述,匯總比較:提供對于兩個或多個數(shù)據集進行比較的描述2022/12/2358什么是概念描述?描述性vs.預測性數(shù)據挖掘2022/1概念描述和OLAP區(qū)別概念描述:

能夠處理復雜的數(shù)據類型和各種匯總方法

更加自動化OLAP:只能限制于少量的維度和數(shù)據類型用戶控制的流程2022/12/2359概念描述和OLAP區(qū)別概念描述:2022/12/174特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2360特征化和比較什么是概念描述?2022/12/175數(shù)據概化和基于匯總的特征化數(shù)據概化將大量的相關數(shù)據從一個較低的概念層次抽象、轉化到一個比較高的層次方法:OLAP方法:面向屬性的歸納2022/12/2361數(shù)據概化和基于匯總的特征化數(shù)據概化2022/12/176OLAP方法在數(shù)據立方體上進行計算和存儲結果優(yōu)點效率高能夠計算多種匯總如:count,average,sum,min,max還可以使用roll-down和roll-up操作限制只能處理非數(shù)值化數(shù)據和數(shù)值數(shù)據的簡單匯總。只能分析,不能自動的選擇哪些字段和相應的概念層次2022/12/2362OLAP方法在數(shù)據立方體上進行計算和存儲結果2022/12/面向屬性的歸納KDDWorkshop(89)中提出不限制于種類字段和特定的匯總方法方法介紹:使用SQL等收集相關數(shù)據通過數(shù)據屬性值刪除和屬性值概化來實現(xiàn)概化聚集通過合并相等的廣義元組,并累計他們對應的計數(shù)值進行和使用者之間交互式的呈現(xiàn)方式.2022/12/2363面向屬性的歸納KDDWorkshop(89)中提出2022基本方法數(shù)據聚焦:選擇和當前分析相關的數(shù)據,包括維。屬性刪除:如果某個屬性包含大量不同值,但是1)在該屬性上沒有概化操作,或者2)它的較高層概念用其它屬性表示。屬性概化:如果某個屬性包含大量不同值,同時在該屬性上有概化操作符,則運用該操作符進行概化。屬性閾值控制:

typical2-8,specified/default.概化關系閾值控制:控制最終關系的大小2022/12/2364基本方法數(shù)據聚焦:選擇和當前分析相關的數(shù)據,包括維。2022基本算法InitialRel:

得到相關數(shù)據,形成初始關系表PreGen:

通過統(tǒng)計不同屬性的含有的不同值的個數(shù)決定是丟棄該屬性還是對其進行匯總。PrimeGen:根據上一步的計算結果,對屬性概化到相應的層次,計算匯總值,得到主概化關系。結果的表示:概化關系、交叉表、3D立方體2022/12/2365基本算法InitialRel:得到相關數(shù)據,形成初始關系表示例DMQL:

use

Big_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafrom

studentwherestatusin“graduate”相應的SQL:Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwhere

statusin{“Msc”,“MBA”,“PhD”}2022/12/2366示例DMQL: 2022/12/1711類特征化:示例PrimeGeneralizedRelationInitialRelation2022/12/2367類特征化:示例PrimeGeneralizedRelat概化結果的表示概化關系:一個表格,其中有屬性字段,后附匯總方法。交叉表:二維交叉表可視化方法:Piecharts,barcharts,curves,cubes,andothervisualforms.量化特征規(guī)則:(上表與136頁例4.26)2022/12/2368概化結果的表示概化關系:2022/12/1713表達方式-概化關系(133頁例4.22)2022/12/2369表達方式-概化關系(133頁例4.22)2022/12/17表達方式—交叉表(133頁例4.23)2022/12/2370表達方式—交叉表(133頁例4.23)2022/12/171使用Cube技術進行實現(xiàn)對給定的數(shù)據動態(tài)創(chuàng)建數(shù)據立方體:便于有效的下鉆操作可能增加響應時間解決方法:實現(xiàn)存儲一些較高層次的統(tǒng)計信息。使用預定義的數(shù)據立方體:預先構建數(shù)據立方體Cube計算的花費和額外的存儲空間2022/12/2371使用Cube技術進行實現(xiàn)對給定的數(shù)據動態(tài)創(chuàng)建數(shù)據立方體:20特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2372特征化和比較什么是概念描述?2022/12/1717屬性相關性分析why?哪些維需要包括?需要概化到什么層次?減少屬性;從而容易理解模型結果What?使用統(tǒng)計的方法進行數(shù)據預處理過濾掉一些不相關或者相關性比較弱的字段保留并對相關屬性進行排序相關性和維度、層次有關分析特征化,分析比較2022/12/2373屬性相關性分析why?2022/12/1718屬性相關性分析步驟:數(shù)據收集使用保守的AOI進行預相關分析相關性分析,刪除不相關和弱相關屬性使用AOI產生概念描述2022/12/2374屬性相關性分析步驟:2022/12/1719相關性度量標準相關性度量標準決定了如何對屬性進行判斷的標準方法信息增益informationgain(ID3)增益比gainratio(C4.5)Gini索引giniindex不確定性相關系數(shù)2022/12/2375相關性度量標準相關性度量標準決定了如何對屬性進行判斷的標準2Entropy和InformationGain集合S中類別Ci的記錄個數(shù)是si

個i={1,…,m}期望信息屬性A的熵是信息增益2022/12/2376Entropy和InformationGain集合S中一個例子(131頁例5.9)任務使用分析特征化來了解研究生的一般特征屬性名稱

gender,major,birth_place,birth_date,phone#,andgpaGen(ai)=concepthierarchiesonaiUi=attributeanalyticalthresholdsforaiTi=attributegeneralizationthresholdsforaiR=attributerelevancethreshold2022/12/2377一個例子(131頁例5.9)任務2022/12/1722例子:分析特征化(續(xù))1.數(shù)據收集targetclass:graduatestudentcontrastingclass:undergraduatestudent2.使用Ui分析概化屬性刪除removenameandphone#屬性概化generalizemajor,birth_place,birth_dateandgpaaccumulatecounts候選關系:gender,major,birth_country,age_rangeandgpa2022/12/2378例子:分析特征化(續(xù))1.數(shù)據收集2022/12/1723例子:分析特征化(2)CandidaterelationforTargetclass:Graduatestudents(=120)CandidaterelationforContrastingclass:Undergraduatestudents(=130)2022/12/2379例子:分析特征化(2)Candidaterelation例子:分析特征化(3)3.相關性分析計算期望信息計算每個屬性的熵Numberofgradstudentsin“Science”Numberofundergradstudentsin“Science”2022/12/2380例子:分析特征化(3)3.相關性分析Numberof例子:分析特征化(4)得出每個屬性的熵計算每個屬性的InformationGainInformationgainforallattributes2022/12/2381例子:分析特征化(4)得出每個屬性的熵2022/12/17例子:分析特征化(5)4.Initialworkingrelation(W0)derivationR=0.1刪除不相關或者弱相關的屬性=>dropgender,birth_country刪除比較類的關系5.在W0進行AOI分析InitialtargetclassworkingrelationW0:Graduatestudents2022/12/2382例子:分析特征化(5)4.Initialworking特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2383特征化和比較什么是概念描述?2022/12/1728挖掘類比較比較:比較兩個或者更多類.方法:

將相關的數(shù)據分成目標類和比較類。將兩個類別的數(shù)據概化到相同的層次。用相同層次的描述對元組進行比較。對于每個元組展現(xiàn)其描述和兩個衡量標準:support-distributionwithinsingleclasscomparison-distributionbetweenclasses將差異很大的元組特別顯示出來相關性分析:發(fā)現(xiàn)最能體現(xiàn)類別之間差異的屬性.2022/12/2384挖掘類比較比較:比較兩個或者更多類.2022/12/1729例子:分析性比較(133頁例5.10)Task使用區(qū)別規(guī)則來分析本科生和研究生DMQLqueryuseBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevanceto

name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“graduate”versus“undergraduate_students”wherestatusin“undergraduate”analyzecount%fromstudent2022/12/2385例子:分析性比較(133頁例5.10)TaskuseBig例子:分析性比較(2)條件:attributesname,gender,major,birth_place,birth_date,residence,phone#andgpaGen(ai)=concepthierarchiesonattributesaiUi=attributeanalyticalthresholdsforattributesaiTi=attributegeneralizationthresholdsforattributesaiR=attributerelevancethreshold2022/12/2386例子:分析性比較(2)條件:2022/12/1731例子:分析性比較(3)1.數(shù)據收集目標類和比較類2.屬性相關性分析removeattributesname,gender,major,phone#3.同步概化controlledbyuser-specifieddimensionthresholdsprimetargetandcontrastingclass(es)relations/cuboids2022/12/2387例子:分析性比較(3)1.數(shù)據收集2022/12/1732例子:分析性比較(4)Primegeneralizedrelationforthetargetclass:GraduatestudentsPrimegeneralizedrelationforthecontrastingclass:Undergraduatestudents2022/12/2388例子:分析性比較(4)Primegeneralized例子:分析性比較(5)4.在目標和比較類別上,Drilldown,rollupandotherOLAPoperations,確定概化層次.5.展現(xiàn)方式generalizedrelations,crosstabs,barcharts,piecharts,orrules比較性的度量,以體現(xiàn)目標類和比較類之間的差別e.g.count%2022/12/2389例子:分析性比較(5)4.在目標和比較類別上,Dril量化區(qū)分規(guī)則Cj=目標類qa=概化元組也覆蓋比較類別的元組d-weight范圍:[0,1]量化區(qū)別規(guī)則2022/12/2390量化區(qū)分規(guī)則Cj=目標類2022/12/1735例子:量化區(qū)別規(guī)則量化區(qū)別規(guī)則(135頁例5.11)where90/(90+120)=30%Countdistributionbetweengraduateandundergraduatestudentsforageneralizedtuple2022/12/2391例子:量化區(qū)別規(guī)則量化區(qū)別規(guī)則(135頁例5.11)Cou類別描述量化特征規(guī)則必要量化區(qū)別規(guī)則充分量化描述規(guī)則必要和充分2022/12/2392類別描述量化特征規(guī)則2022/12/1737例子:量化描述規(guī)則(136頁例5.13)對于目標類Europe的量化描述規(guī)則(137頁例5.14)Crosstabshowingassociatedt-weight,d-weightvaluesandtotalnumber(inthousands)ofTVsandcomputerssoldatAllElectronicsin19982022/12/2393例子:量化描述規(guī)則(136頁例5.13)Crosstab特征化和比較什么是概念描述?數(shù)據概化和基于匯總的特征化分析特征化:分析屬性之間的關聯(lián)性挖掘類比較:獲取不同類之間的不同處在大型數(shù)據庫中挖掘描述統(tǒng)計度量討論總結2022/12/2394特征化和比較什么是概念描述?2022/12/1739挖掘數(shù)據散布特征動機更好的了解數(shù)據:集中趨勢,差別和分布數(shù)據散布特征

median,max,min,quantiles,outliers,variance,等.2022/12/2395挖掘數(shù)據散布特征動機2022/12/1740衡量中心趨勢平均值帶權平均中位數(shù):一個整體度量如果是奇數(shù),則為中間數(shù),偶數(shù)則為中間兩數(shù)的平均用插值的方法進行估計模出現(xiàn)次數(shù)最多的值Unimodal,bimodal,trimodalEmpiricalformula:2022/12/2396衡量中心趨勢平均值2022/12/1741衡量離散趨勢四分位數(shù),異常和盒圖四分位數(shù):

Q1(25thpercentile),Q3(75thpercentile)中間四分位區(qū)間:

IQR=Q3–

Q1五數(shù)概括:

min,Q1,M,

Q3,max盒圖:

endsofthe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論