版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
關(guān)于概念描述特征化與比較第1頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五兩種不同類(lèi)別的數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度看,數(shù)據(jù)挖掘可以分為描述性挖掘和預(yù)測(cè)性挖掘描述性挖掘:以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。預(yù)測(cè)性數(shù)據(jù)挖掘:通過(guò)分析數(shù)據(jù)建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。第2頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五什么是概念描述?概念描述是一種最簡(jiǎn)單的描述性挖掘當(dāng)所描述的概念所指的是一類(lèi)對(duì)象時(shí),也稱(chēng)為類(lèi)描述概念指的是一類(lèi)數(shù)據(jù)的集合e.g.研究生,大客戶概念描述是指為數(shù)據(jù)的特征化和比較產(chǎn)生描述特征化:提供給定數(shù)據(jù)集的簡(jiǎn)潔匯總。區(qū)分:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。第3頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五概念描述VS.OLAP概念描述和數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理(OLAP)都跟數(shù)據(jù)概化密切相關(guān),即以簡(jiǎn)潔的形式在更一般的抽象層描述數(shù)據(jù),允許數(shù)據(jù)在抽象層概化,便于考察數(shù)據(jù)的一般行為。兩者的主要區(qū)別:概念描述可以處理復(fù)雜數(shù)據(jù)類(lèi)型的屬性及其聚集一個(gè)更加自動(dòng)化的過(guò)程O(píng)LAP實(shí)際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類(lèi)型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡(jiǎn)單的數(shù)據(jù)分析模型一個(gè)由用戶控制的過(guò)程第4頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五數(shù)據(jù)概化數(shù)據(jù)概化數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象通常包含原始概念層的細(xì)節(jié)信息,數(shù)據(jù)概化就是將數(shù)據(jù)庫(kù)中的跟任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過(guò)程。主要方法:數(shù)據(jù)立方體(OLAP使用的方法)面向?qū)傩缘臍w納方法12345概念層第5頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五數(shù)據(jù)概化:數(shù)據(jù)立方體方法執(zhí)行計(jì)算并將結(jié)果存儲(chǔ)在數(shù)據(jù)立方體中優(yōu)點(diǎn):數(shù)據(jù)概化的一種有效實(shí)現(xiàn)可以計(jì)算各種不同的度量值比如:count(),sum(),average(),max()概化和特征分析通過(guò)一系列的數(shù)據(jù)立方體操作完成,比如上卷、下鉆等缺點(diǎn)只能處理非數(shù)值類(lèi)型的維和簡(jiǎn)單聚集數(shù)值類(lèi)型的度量值(大部分現(xiàn)有商業(yè)系統(tǒng)中,只能為非數(shù)值類(lèi)型的維產(chǎn)生概念分層)缺乏智能分析,不能自動(dòng)確定分析中該使用哪些維,應(yīng)該概化到哪個(gè)層次第6頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五面向?qū)傩缘臍w納一種面向關(guān)系數(shù)據(jù)查詢(xún)的、基于匯總的在線數(shù)據(jù)分析技術(shù)。受數(shù)據(jù)類(lèi)型和度量類(lèi)型的約束比較少面向?qū)傩詺w納的基本思想:使用關(guān)系數(shù)據(jù)庫(kù)查詢(xún)收集任務(wù)相關(guān)的數(shù)據(jù)通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行概化,方法是屬性刪除或者是屬性概化通過(guò)合并相等的,概化的廣義元組,并累計(jì)他們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作通過(guò)與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶第7頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五面向?qū)傩缘臍w納的基本步驟數(shù)據(jù)聚焦,獲得初始工作關(guān)系進(jìn)行面向?qū)傩缘臍w納基本操作是數(shù)據(jù)概化,對(duì)有大量不同值的屬性,進(jìn)行進(jìn)一步概化屬性刪除屬性概化屬性概化控制:控制概化過(guò)程,確定有多少不同的值才算是有大量不同值的屬性屬性概化臨界值控制概化關(guān)系臨界值控制第8頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五數(shù)據(jù)聚焦(1)目的是獲得跟任務(wù)相關(guān)的數(shù)據(jù)集,包括屬性或維,在DMQL中他們由inrelevanceto子句表示。示例:DMQL:描述Big-University數(shù)據(jù)庫(kù)中研究生的一般特征 useBig_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”第9頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五數(shù)據(jù)聚焦(2)將數(shù)據(jù)挖掘查詢(xún)轉(zhuǎn)換為關(guān)系查詢(xún)Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin{“Msc”,“MBA”,“PhD”}數(shù)據(jù)聚焦時(shí)的困難用戶在指定相關(guān)的數(shù)據(jù)集方面存在困難,遺漏在描述中可能起作用的屬性用戶可能引進(jìn)太多的屬性第10頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五數(shù)據(jù)概化數(shù)據(jù)概化的兩種常用方法:屬性刪除和屬性概化屬性刪除的適用規(guī)則:對(duì)初始工作關(guān)系中具有大量不同值的屬性,符合以下情況,應(yīng)使用屬性刪除:在此屬性上沒(méi)有概化操作符(比如該屬性沒(méi)有定義相關(guān)的概念分層)該屬性的較高層概念用其他屬性表示屬性概化的使用規(guī)則:如果初始工作關(guān)系中的某個(gè)屬性具有大量不同值,且該屬性上存在概化操作符,則使用該概化操作符對(duì)該屬性進(jìn)行數(shù)據(jù)概化操作第11頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五11-12王燦數(shù)據(jù)挖掘sjwj@0703004第12頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五屬性概化控制確定什么是“具有大量的不同值”,控制將屬性概化到多高的抽象層。屬性概化控制的兩種常用方法:屬性概化臨界值控制對(duì)所有屬性設(shè)置一個(gè)概化臨界值或者是對(duì)每個(gè)屬性都設(shè)置一個(gè)臨界值(一般為2到8)概化關(guān)系臨界值控制為概化關(guān)系設(shè)置一個(gè)臨界值,確定概化關(guān)系中,不同元組的個(gè)數(shù)的最大值。(通常為10到30,應(yīng)該允許在實(shí)際應(yīng)用中進(jìn)行調(diào)整)兩種技術(shù)的順序使用:使用屬性概化臨界值控制來(lái)概化每個(gè)屬性,然后使用關(guān)系臨界值控制進(jìn)一步壓縮概化的關(guān)系。相等元組的合并、累計(jì)計(jì)數(shù)和其他聚集值第13頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五面向?qū)傩缘臍w納——示例挖掘Big-University數(shù)據(jù)庫(kù)中研究生的一般特征name:刪除屬性gender:保留該屬性,不概化major:根據(jù)概念分層向上攀升{文,理,工…}birth_place:根據(jù)概念分層location向上攀升birth_date:概化為age,再概化為age_rangeresidence:根據(jù)概念分層location向上攀升phone#:刪除屬性gpa:根據(jù)GPA的分級(jí)作為概念分層第14頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五面向?qū)傩缘臍w納——示例主概化關(guān)系初始工作關(guān)系第15頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五面向?qū)傩缘臍w納算法輸入1.DB;2.數(shù)據(jù)挖掘查詢(xún)DMQuery;3.屬性列表;4.屬性的概念分層;屬性的概化臨界值;輸出主概化關(guān)系P算法描述:Wget_task_relevant_data(DMQuery,DB)prepare_for_generalization(W)掃描W,收集每個(gè)屬性a的不同值對(duì)每個(gè)屬性a,根據(jù)臨界值確定是否刪除,如果不刪除,則計(jì)算其最小期望層次L,并確定映射對(duì)(v,v`)Pgeneralization(W)通過(guò)使用v`代替W中每個(gè)v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出P每個(gè)概化元組的插入或累積計(jì)數(shù)用數(shù)組表示P第16頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五導(dǎo)出概化的表示(1)概化關(guān)系一部分或者所有屬性得到概化的關(guān)系,包含計(jì)數(shù)或其他度量值的聚集交叉表二維交叉表使用每行顯示一個(gè)屬性,使用每列顯示另外一個(gè)屬性將結(jié)果集映射到表中可視化技巧:條形圖、餅圖、曲線和數(shù)據(jù)立方體瀏覽工具(用單元的大小代表計(jì)數(shù),用單元亮度代表另外的度量)第17頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五導(dǎo)出概化的表示(2)量化規(guī)則使用t_weight表示主概化關(guān)系中每個(gè)元組的典型性量化特征規(guī)則將概化的結(jié)果映射到相應(yīng)的量化特征規(guī)則中,比如:量化特征規(guī)則中每個(gè)條件的析取成為目標(biāo)類(lèi)的一個(gè)必要條件;亦即,如果X在目標(biāo)類(lèi)中,則X滿足conditioni的概率是wi第18頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五特征化過(guò)程中的困難特征化過(guò)程中的兩大困難復(fù)雜數(shù)據(jù)類(lèi)型的處理缺乏一種自動(dòng)概化的過(guò)程,用戶必須告訴系統(tǒng)哪些屬性或維應(yīng)該包括在類(lèi)特征化中每個(gè)維應(yīng)該概化到多高的程度第19頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五為什么進(jìn)行屬性相關(guān)分析?數(shù)據(jù)倉(cāng)庫(kù)和OLAP系統(tǒng)中的多維數(shù)據(jù)分析缺乏一個(gè)自動(dòng)概化過(guò)程,這使得這個(gè)過(guò)程中需要有很多用戶干預(yù)用戶必須告訴系統(tǒng)哪些維或?qū)傩詰?yīng)當(dāng)包含在類(lèi)分析中(難)屬性太少,則造成挖掘的描述結(jié)果不正確屬性太多,浪費(fèi)計(jì)算、淹沒(méi)知識(shí)告訴系統(tǒng)每個(gè)維應(yīng)當(dāng)概化到多高的層次(易)直接通過(guò)概化的臨界值,說(shuō)明給定維應(yīng)當(dāng)達(dá)到的概化程度對(duì)概化層次不滿意,則可以指定需要上卷或下鉆的維第20頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五解析特征化:屬性相關(guān)分析屬性相關(guān)分析通過(guò)識(shí)別不相關(guān)或者是弱相關(guān)的屬性,將它們排除在概念描述過(guò)程之外,從而確定哪些屬性應(yīng)當(dāng)包含在類(lèi)特征化和類(lèi)比較中。解析特征化包含屬性相關(guān)分析的類(lèi)特征化解析比較包含屬性相關(guān)分析的類(lèi)比較第21頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五屬性相關(guān)分析(1)通過(guò)屬性相關(guān)性分析,濾掉統(tǒng)計(jì)上不相關(guān)或弱相關(guān)的屬性,保留對(duì)手頭數(shù)據(jù)挖掘任務(wù)最相關(guān)的屬性。對(duì)于給定的屬性,一個(gè)屬性或維被認(rèn)為是高度相關(guān)的,如果該屬性或維的值可能用于區(qū)分該類(lèi)和其他類(lèi)。比如:區(qū)分昂貴汽車(chē)和便宜汽車(chē)(可選擇的屬性:顏色,型號(hào),品牌...)第22頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五屬性相關(guān)分析(2)在同一個(gè)維內(nèi),對(duì)于區(qū)分一個(gè)類(lèi)與其他類(lèi)不同層的概念可能有很不同的能力比如:birth_date維,day,month與salary無(wú)關(guān),而year(或?qū)⑵溥M(jìn)一步概化為birth_decade)則與salary有關(guān)類(lèi)特征化中的比較類(lèi)除特征化的數(shù)據(jù)集外,數(shù)據(jù)庫(kù)中可比較的數(shù)據(jù)集都作為對(duì)比類(lèi)比如:研究生特征化的例子,對(duì)比類(lèi)為不是研究生的學(xué)生的集合(e.g.本科生)(可選擇的屬性:性別、籍貫、專(zhuān)業(yè)、平均成績(jī)、年齡段)第23頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五屬性相關(guān)分析的方法屬性相關(guān)分析的基本思想是計(jì)算某種度量,用于量化屬性與給定類(lèi)或概念的相關(guān)性??刹捎玫亩攘堪ǎ盒畔⒃鲆?、Gini索引、不確定性和相關(guān)系數(shù)。(涉及機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、模糊和粗糙集理論等方面的相關(guān)知識(shí))比如:信息增益通過(guò)計(jì)算一個(gè)樣本分類(lèi)的期望信息和屬性的熵來(lái)獲得一個(gè)屬性的信息增益,判定該屬性與當(dāng)前的特征化任務(wù)的相關(guān)性。第24頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五信息增益(1)S是一個(gè)訓(xùn)練樣本的集合,該樣本中每個(gè)集合的類(lèi)編號(hào)已知。每個(gè)樣本為一個(gè)元組。有個(gè)屬性用來(lái)判定某個(gè)訓(xùn)練樣本的類(lèi)編號(hào)(類(lèi)似于學(xué)生記錄中的status屬性)假設(shè)S中有m個(gè)類(lèi),總共s個(gè)訓(xùn)練樣本,每個(gè)類(lèi)ci有Si個(gè)樣本(i=1,2,3...m),那么任意一個(gè)樣本屬于類(lèi)Ci的概率是si/s,那么用來(lái)分類(lèi)一個(gè)給定樣本的期望信息是:第25頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五信息增益(2)一個(gè)有v個(gè)值的屬性A{a1,a2,...,av}可以將S分成v個(gè)子集{S1,S2,...,Sv},其中Sj包含S中屬性A上的值為aj的樣本。假設(shè)Sj包含類(lèi)Ci的sij個(gè)樣本。根據(jù)A的這種劃分的期望信息稱(chēng)為A的熵A上該劃分的獲得的信息增益定義為:具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過(guò)計(jì)算S中樣本的每個(gè)屬性的信息增益,來(lái)得到一個(gè)屬性的相關(guān)性的排序。第26頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五概念描述的屬性相關(guān)分析步驟(1)數(shù)據(jù)收集通過(guò)查詢(xún)處理,收集目標(biāo)類(lèi)和對(duì)比類(lèi)數(shù)據(jù)使用保守的AOI進(jìn)行預(yù)相關(guān)分析識(shí)別屬性和維的集合,它們是所選擇的相關(guān)性分析度量的應(yīng)用對(duì)象因?yàn)椴煌母拍顚訉?duì)某個(gè)類(lèi)描述的相關(guān)性可能很不同,因此在這個(gè)過(guò)程中同時(shí)要包含概念分層對(duì)有大量不同值的屬性進(jìn)行刪除或概化在這一級(jí)進(jìn)行概化時(shí),臨界值要相應(yīng)比較高,以便在后續(xù)步驟的分析中包含更多屬性(保守的)產(chǎn)生候選關(guān)系第27頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五概念描述的屬性相關(guān)分析步驟(2)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)的屬性使用選定的相關(guān)分析度量(e.g.信息增益),評(píng)估候選關(guān)系中的每個(gè)屬性根據(jù)所計(jì)算的相關(guān)性對(duì)屬性進(jìn)行排序低于臨界值的不相關(guān)和弱相關(guān)的屬性被刪除產(chǎn)生初始目標(biāo)類(lèi)工作關(guān)系(或初始對(duì)比類(lèi)工作關(guān)系)使用AOI產(chǎn)生概念描述使用一組不太保守的屬性概化臨界值進(jìn)行AOI第28頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五解析特征化——示例(1)任務(wù):使用解析特征化挖掘Big-University的研究生的一般特征描述給定屬性name,gender,major,birth_place,birth_date,phone#和gpaUi=屬性分析閥值Ti=屬性概化閥值R=屬性相關(guān)閥值第29頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五解析特征化——示例(2)1.數(shù)據(jù)收集目標(biāo)類(lèi):研究生對(duì)比類(lèi):本科生2.使用保守的閥值Ui和Ti進(jìn)行AOI屬性刪除name和phone#屬性概化概化major,birth_place,birth_date和
gpa進(jìn)行累積計(jì)數(shù)候選關(guān)系:gender,major,birth_country,age_range
和gpa第30頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五目標(biāo)類(lèi)候選關(guān)系:研究生(=120)對(duì)比類(lèi)候選關(guān)系:本科生(=130)(可以在類(lèi)比較時(shí)使用)解析特征化——示例(3)第31頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五3.相關(guān)性分析計(jì)算給定的樣本分類(lèi)所需要的期望信息計(jì)算每個(gè)屬性的熵:e.g.majorNumberofgradstudentsin“Science”Numberofundergradstudentsin“Science”解析特征化——示例(4)第32頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五如果樣本根據(jù)major劃分,則計(jì)算給定的樣本進(jìn)行分類(lèi)所需的期望信息:計(jì)算該屬性的信息增益:所有屬性的信息增益解析特征化——示例(5)第33頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五4.導(dǎo)出初始工作關(guān)系R=0.1(臨界值)從候選關(guān)系中去處不相關(guān)/弱相關(guān)的屬性=>去處gender,birth_country因?yàn)轭?lèi)描述任務(wù)是類(lèi)特征化,所以這里去處候選對(duì)比類(lèi)關(guān)系5.在W0
上用進(jìn)行不保守的AOI初始目標(biāo)類(lèi)工作關(guān)系W0:研究生解析特征化——示例(6)第34頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五挖掘類(lèi)比較:區(qū)分不同的類(lèi)類(lèi)比較挖掘的目標(biāo)是得到將目標(biāo)類(lèi)與對(duì)比類(lèi)相區(qū)分的描述。目標(biāo)類(lèi)和對(duì)比類(lèi)間必須具有可比性,即兩者間要有相似的屬性或維。本科生VS.研究生;studentVS.address很多應(yīng)用于概念描述的技巧可以應(yīng)用于類(lèi)比較,比如屬性概化。屬性概化必須在所有比較類(lèi)上同步進(jìn)行,將屬性概化到同一抽象層后進(jìn)行比較。CityVScountry第35頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較的過(guò)程數(shù)據(jù)收集通過(guò)查詢(xún)處理收集數(shù)據(jù)庫(kù)中相關(guān)的數(shù)據(jù),并將其劃分為一個(gè)目標(biāo)類(lèi)和一個(gè)或多個(gè)對(duì)比類(lèi)維相關(guān)分析使用屬性相關(guān)分析方法,使我們的任務(wù)中僅包含強(qiáng)相關(guān)的維同步概化同步的在目標(biāo)類(lèi)和對(duì)比類(lèi)上進(jìn)行概化,得到主目標(biāo)類(lèi)關(guān)系/方體和主對(duì)比類(lèi)關(guān)系/方體導(dǎo)出比較的表示用可視化技術(shù)表達(dá)類(lèi)比較描述,通常會(huì)包含“對(duì)比”度量,反映目標(biāo)類(lèi)與對(duì)比類(lèi)間的比較(e.gcount%)第36頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較的有效實(shí)施目標(biāo)類(lèi)和對(duì)比類(lèi)的同步概化,以在相同抽象級(jí)別上進(jìn)行類(lèi)比較使用數(shù)據(jù)立方體技術(shù)有效的實(shí)施類(lèi)比較引入一個(gè)標(biāo)志位(數(shù)據(jù)立方體的一個(gè)新維)來(lái)表示目標(biāo)類(lèi)或?qū)Ρ阮?lèi)目標(biāo)類(lèi)和對(duì)比類(lèi)除了這個(gè)新維外,其他部分在數(shù)據(jù)立方體中的表示是相同的通過(guò)上卷和下鉆來(lái)同步概化或具體化第37頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較挖掘——示例(1)任務(wù)比較Big-University本科生和研究生的一般特征任務(wù)的DMQL描述useBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevanceto
name,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“graduate”versus“undergraduate_students”wherestatusin“undergraduate”analyzecount%fromstudent第38頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較挖掘——示例(2)進(jìn)行類(lèi)比較挖掘的輸入:給定的屬性:name,gender,major,birth_place,birth_date,residence,phone#andgpa在屬性ai上定義的概念分層Gen(ai)在屬性ai上定義的屬性分析臨界值Ui在屬性ai上定義的屬性概化臨界值Ti屬性相關(guān)性臨界值R第39頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較挖掘——示例(3)任務(wù)的處理過(guò)程數(shù)據(jù)收集DMQL查詢(xún)轉(zhuǎn)化為關(guān)系查詢(xún),得到初始目標(biāo)類(lèi)工作關(guān)系和初始對(duì)比類(lèi)工作關(guān)系
可以看成使構(gòu)造數(shù)據(jù)立方體的過(guò)程引入一個(gè)新維status來(lái)標(biāo)志目標(biāo)類(lèi)和對(duì)比類(lèi)(graduate,undergraduate)其他屬性形成剩余的維在兩個(gè)數(shù)據(jù)類(lèi)上進(jìn)行維相關(guān)分析根據(jù)Ui與R,刪除不相關(guān)或者使弱相關(guān)的維:name,gender,major,phone#第40頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較挖掘——示例(4)同步概化在目標(biāo)類(lèi)和對(duì)比類(lèi)上同步的進(jìn)行概化,將相關(guān)的維概化到由屬性概化臨界值Ti決定的同樣的層次,形成主目標(biāo)類(lèi)關(guān)系/方體和主對(duì)比類(lèi)關(guān)系/方體導(dǎo)出比較的表示用表、圖或規(guī)則等形式表達(dá)類(lèi)比較描述的挖掘結(jié)果用戶應(yīng)該能夠在主目標(biāo)類(lèi)關(guān)系/方體和主對(duì)比類(lèi)關(guān)系/方體進(jìn)行進(jìn)一步的OLAP操作第41頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較挖掘——示例(5)目標(biāo)類(lèi)的主概化關(guān)系:研究生對(duì)比類(lèi)的主概化關(guān)系:本科生第42頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較描述的表示用可視化的方式將類(lèi)比較描述呈現(xiàn)給用戶,有助于用戶對(duì)挖掘結(jié)果的理解。概化關(guān)系交叉圖柱狀圖餅圖曲線量化規(guī)則第43頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較描述的量化區(qū)分規(guī)則表示(1)類(lèi)比較描述中的目標(biāo)類(lèi)和對(duì)比類(lèi)的區(qū)分特性也可以用量化規(guī)則來(lái)表示,即量化區(qū)分規(guī)則量化區(qū)分規(guī)則使用d-weight作為興趣度度量(特征化使用什么作為興趣度度量?)qa-概化元組Cj-目標(biāo)類(lèi)qa的d-weight是初始目標(biāo)類(lèi)工作關(guān)系中被qa覆蓋的元組數(shù)與初始目標(biāo)類(lèi)和對(duì)比類(lèi)工作關(guān)系中被qa覆蓋的總元組數(shù)的比第44頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較描述的量化區(qū)分規(guī)則表示(2)目標(biāo)類(lèi)中較高的d-weight表明概化元組所代表的概念主要來(lái)自于目標(biāo)類(lèi)較低的d-weight值則表明該概念主要來(lái)自于對(duì)比類(lèi)對(duì)給定的status=“Graduate”,Birth_coutry=“Canada”,Age_range=“25-30”,Gpa=“Good”
概化元組,其d-weight=90/(90+210)=30%(什么意思?)第45頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)比較描述的量化區(qū)分規(guī)則表示(3)使用類(lèi)比較描述的量化區(qū)分規(guī)則表示可以更好的描述上述的情況,其形式為:比如,剛才的挖掘結(jié)果可以使用量化區(qū)分規(guī)則表達(dá)如下:請(qǐng)注意該區(qū)分規(guī)則表達(dá)的是充分條件,即X滿足條件,則X為研究生的概率為30%(特征化量化規(guī)則表達(dá)的是什么條件?)第46頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五類(lèi)描述:特征化和比較的表示類(lèi)特征化和類(lèi)比較是形成類(lèi)描述的兩個(gè)方面,我們可以通過(guò)綜合類(lèi)特征化規(guī)則和類(lèi)區(qū)分規(guī)則來(lái)形成類(lèi)描述規(guī)則。量化特征化規(guī)則必要條件量化區(qū)分規(guī)則充分條件量化描述規(guī)則充要條件第47頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五量化描述規(guī)則——示例(1)一個(gè)給定類(lèi)的概化元組的t-weight表明給定類(lèi)中該元組的典型性(e.g.歐洲的銷(xiāo)售(類(lèi))中,電視機(jī)(元組)占多少百分比?)一個(gè)元組的d-weight表明,給定類(lèi)的元組和對(duì)比類(lèi)的元組相比,有多大區(qū)別(e.g.歐洲(類(lèi))的電視機(jī)(元組)銷(xiāo)售和北美的電視機(jī)銷(xiāo)售比如何?)第48頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五量化描述規(guī)則——示例(2)對(duì)于上述交叉表,可以直接用量化描述規(guī)則來(lái)表示表明對(duì)99年AllElectronics公司的TV和計(jì)算機(jī)銷(xiāo)售,如果一商品在歐洲售出,則其為T(mén)V的概率為25%…該公司40%的TV在歐洲售出…第49頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五在大型數(shù)據(jù)庫(kù)中挖掘描述統(tǒng)計(jì)度量對(duì)于數(shù)據(jù)挖掘任務(wù),用戶經(jīng)常關(guān)心的數(shù)據(jù)特征包括數(shù)據(jù)的中心趨勢(shì)和離散特征,這些度量幫我們更好的理解數(shù)據(jù)的分布中心趨勢(shì)的度量包括:mean,median,mode
和midrange數(shù)據(jù)離散度量包括:quartiles,outliers,variance
和其他度量從數(shù)據(jù)挖掘的角度看,我們關(guān)心的是在大數(shù)據(jù)量的情況下,如何有效的計(jì)算上述度量關(guān)系數(shù)據(jù)庫(kù)中,系統(tǒng)提供了以下聚集函數(shù):count(),sum(),avg(),max(),min()在大型數(shù)據(jù)庫(kù)中挖掘用戶感興趣的描述統(tǒng)計(jì)計(jì)量涉及到如何利用關(guān)系數(shù)據(jù)庫(kù)現(xiàn)有的函數(shù)來(lái)計(jì)算上述兩類(lèi)用戶感興趣的度量值第50頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五度量中心趨勢(shì)算術(shù)平均值加權(quán)算術(shù)平均中位值:使用一個(gè)近似的計(jì)算來(lái)度量如果值的個(gè)數(shù)n是奇數(shù),則中位數(shù)(median)是有序集合的中間值,否則它是中間兩個(gè)數(shù)的平均值用插值法(interpolation)來(lái)近似計(jì)算模(mode)表示數(shù)據(jù)集中出現(xiàn)頻率最高的值單模態(tài)、雙模態(tài)、三模態(tài)、多模態(tài)和沒(méi)有模的情況單模態(tài)近似值計(jì)算的經(jīng)驗(yàn)公式:中列數(shù):最大值和最小值的平均第51頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五度量數(shù)據(jù)的離散度(1)最常用度量:五數(shù)概括(基于四分位數(shù))、中間四分位數(shù)區(qū)間和標(biāo)準(zhǔn)差四分位數(shù)、孤立點(diǎn)和盒圖百分位數(shù)(percentile):第k個(gè)百分位數(shù)是具有如下性質(zhì)的值x:數(shù)據(jù)項(xiàng)的k%在x上或低于x四分位數(shù):Q1(25thpercentile),Q3(75thpercentile)中間四分位數(shù)區(qū)間(IQR):IQR=Q3–
Q1
對(duì)傾斜分布的描述,除了IQR還常需兩個(gè)四分位數(shù)Q1和Q3,以及中位數(shù)M,一個(gè)識(shí)別孤立點(diǎn)的常用規(guī)則是:挑出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位數(shù)1.5×IQR處的值第52頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五度量數(shù)據(jù)的離散度(2)五數(shù)概括:min,Q1,M,
Q3,max盒圖:數(shù)據(jù)分布的一種直觀表示方差和標(biāo)準(zhǔn)差方差s2:n個(gè)觀測(cè)之x1,x2...xn的方差是標(biāo)準(zhǔn)差s是方差s2的平方根s是關(guān)于平均值的離散的度量,因此僅當(dāng)選平均值做中心度量時(shí)使用所有觀測(cè)值相同則s=0,否則s>0方差和標(biāo)準(zhǔn)差都是代數(shù)度量第53頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五盒圖——示例盒圖:數(shù)據(jù)分布的一種直觀表示,在盒圖中:端點(diǎn)在四分位數(shù)上,使得盒圖的長(zhǎng)度是IQR中位數(shù)M用盒內(nèi)的線標(biāo)記胡須延伸到最大最小觀測(cè)值該盒圖為在給定時(shí)間段在AllElectronics的4個(gè)分店銷(xiāo)售的商品單價(jià)的盒圖分店1中位數(shù)$80Q1:$60Q3:$100第54頁(yè),共63頁(yè),2022年,5月20日,3點(diǎn)57分,星期五基本統(tǒng)計(jì)類(lèi)描述的圖形顯示——直方圖常用的顯示數(shù)據(jù)匯總和分布的方法:直方圖、分位數(shù)圖、q-
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 加油站安全管理三級(jí)教育考試試題含答案
- 球罐檢罐施工方案
- 2025年特殊作業(yè)試題卷及答案
- (2025年)醫(yī)療器械監(jiān)督管理?xiàng)l例培訓(xùn)試題及答案
- 2025年消防情景模擬題目及答案
- 施工總體交通導(dǎo)行方案
- 2026年組織部個(gè)人年度工作總結(jié)
- 患者誤吸時(shí)的應(yīng)急預(yù)案課件
- 2025年電工技師配電箱線路絕緣電阻檢測(cè)方法實(shí)戰(zhàn)訓(xùn)練試卷及答案
- 建設(shè)工程施工合同糾紛要素式起訴狀模板格式有效規(guī)范
- 蘇州高新區(qū)(虎丘區(qū))市場(chǎng)監(jiān)督管理局公益性崗位招聘1人考試參考題庫(kù)及答案解析
- 北京通州產(chǎn)業(yè)服務(wù)有限公司招聘參考題庫(kù)完美版
- 企業(yè)安全隱患排查課件
- 2025版《煤礦安全規(guī)程》宣貫解讀課件(電氣、監(jiān)控與通信)
- 2025年國(guó)家開(kāi)放大學(xué)《管理學(xué)基礎(chǔ)》期末機(jī)考題庫(kù)附答案
- 2025年人民網(wǎng)河南頻道招聘?jìng)淇碱}庫(kù)參考答案詳解
- ESHRE子宮內(nèi)膜異位癥的診斷與治療指南(2025年)
- 急驚風(fēng)中醫(yī)護(hù)理查房
- 基于視頻圖像的大型戶外場(chǎng)景三維重建算法:挑戰(zhàn)、創(chuàng)新與實(shí)踐
- 物流管理畢業(yè)論文范文-物流管理畢業(yè)論文【可編輯全文】
- 2025年四川省高職單招模擬試題語(yǔ)數(shù)外全科及答案
評(píng)論
0/150
提交評(píng)論