版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《數(shù)據(jù)挖掘》主講:王名揚信息與計算機工程學(xué)院2引言—要挖掘知識的類型概念描述:特征化和比較;關(guān)聯(lián)規(guī)則;分類/預(yù)測;聚類分析;其他的數(shù)據(jù)挖掘任務(wù)。3引言從數(shù)據(jù)分析角度,DM可分為兩類:描述式數(shù)據(jù)挖掘:以簡潔、概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì);預(yù)測式數(shù)據(jù)挖掘:分析數(shù)據(jù),建立一個或一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為。4引言概念描述:描述性數(shù)據(jù)挖掘的最簡單類型;概念:指一類數(shù)據(jù)的集合,如研究生、大客戶等。概念描述用以產(chǎn)生數(shù)據(jù)的特征化和比較描述:特征化:提供給定數(shù)據(jù)集的簡潔匯總;比較(區(qū)分):提供兩個或多個數(shù)據(jù)集的比較描述。
第5章5.1什么是概念描述?5.2數(shù)據(jù)概化與基于匯總的特征化5.3屬性相關(guān)分析5.4挖掘類比較:區(qū)分不同的類5.5常見的統(tǒng)計度量指標6學(xué)習目的掌握屬性歸納的一般方法。
掌握屬性相關(guān)分析的一般方法;
掌握大型數(shù)據(jù)庫中統(tǒng)計度量的常見指標。5.1什么是概念描述概念描述(Conceptdescription):描述性數(shù)據(jù)挖掘的最簡單類型;對于大量的細節(jié)數(shù)據(jù),希望以簡潔的描述形式(不同的粒度、不同的角度等)觀察匯總的數(shù)據(jù)集。需要對該數(shù)據(jù)進行描述以概括出固有的特性,這種描述性數(shù)據(jù)挖掘稱為概念描述。特征化(characterization):提供給定數(shù)據(jù)匯集的簡潔匯總。比較(comparision):也稱區(qū)分(discrimination),提供兩個或多個數(shù)據(jù)匯集(或不同類別數(shù)據(jù))的對比概念描述。數(shù)據(jù)概化數(shù)據(jù)概化:概念描述與數(shù)據(jù)概化(datageneralization)密切相關(guān)。給定存放在數(shù)據(jù)庫中的大量數(shù)據(jù),如果能以簡潔的形式在更一般的(而不是較低的)抽象層描述數(shù)據(jù),這非常有利于用戶考察數(shù)據(jù)的一般行為。如,一個商場數(shù)據(jù)庫中,銷售主管不用對每個顧客的購買記錄進行檢查,而只需要對更高抽象層次的數(shù)據(jù)進行研究即可。例如:對按地理位置進行劃分的顧客購買總額、每組顧客的購買頻率以及顧客收入情況進行更高層次的研究分析。5.2數(shù)據(jù)概化與基于匯總的特征化為什么進行數(shù)據(jù)概化:數(shù)據(jù)庫中數(shù)據(jù)及對象在基本概念層次包含了許多細節(jié)性的數(shù)據(jù)信息,如:在商場銷售數(shù)據(jù)庫的商品信息數(shù)據(jù)中,就包含著諸如:item_ID,name,brand,supplier等低層次信息,對這類大量的數(shù)據(jù)進行更高層次抽象以提供一個概要性描述是十分重要的。數(shù)據(jù)概化可以將大量的相關(guān)數(shù)據(jù)從一個較低的概念層次轉(zhuǎn)化到一個比較高的層次。如從南京轉(zhuǎn)換到江蘇,江蘇轉(zhuǎn)換到華東地區(qū)等。10數(shù)據(jù)概化和基于匯總的特征化方法一數(shù)據(jù)立方體(或OLAP)方法在數(shù)據(jù)立方體上進行計算和存儲結(jié)果優(yōu)點:數(shù)據(jù)概化的一種有效實現(xiàn);效率高,能夠計算多種不同的度量值,如:count,average,sum,min,max;概化和特征分析通過一系列的數(shù)據(jù)立方體操作完成,如roll-down和roll-up操作。12等價于第三章的數(shù)據(jù)立方體聚集13數(shù)據(jù)立方體聚集方法一數(shù)據(jù)立方體(或OLAP)方法限制維和度量的數(shù)據(jù)類型有限,數(shù)據(jù)立方體和OLAP只能處理非數(shù)值類型(離散類型)的維和簡單聚集數(shù)值類型的度量值;大部分現(xiàn)有商業(yè)系統(tǒng)中,只能為非數(shù)值類型的維產(chǎn)生概念分層;缺乏智能分析,不能自動確定分析中該使用哪些維,應(yīng)該概化到哪個層次。15面向?qū)傩詺w納(Attribute-OrientedInduction,AOI):基本思想:(1)首先使用關(guān)系數(shù)據(jù)庫查詢收集任務(wù)相關(guān)的數(shù)據(jù);(2)然后,通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù),進行概化(屬性刪除;屬性概化);(3)通過合并相等的、概化的廣義元組,并累計它們對應(yīng)的計數(shù)值進行聚集操作。(4)通過與用戶交互,將廣義關(guān)系以圖表或規(guī)則等形式,提交給用戶。方法二面向?qū)傩缘臍w納16屬性刪除屬性刪除基本原則:
若一個屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且:a)該屬性上沒有定義概化操作符(如:沒有定義相應(yīng)的概念層次);b)它的較高層概念可用其他屬性表示;
則,該屬性從數(shù)據(jù)集中刪除。
17屬性刪除解釋:
a)沒有定義概化操作符:一個屬性擁有許多不同的數(shù)值但卻沒有定義對它的泛化操作,該屬性應(yīng)被刪除;因為如果保留,則會產(chǎn)生過多的規(guī)則;b)較高層概念可用其他屬性表示:如街道屬性street,它的更高層次概念是利用(city,province,country)三個屬性表示的,此時刪除street相當于應(yīng)用于了概化操作。18屬性概化屬性概化基本原則:
若一個屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且:在該屬性上存在概化操作符,則應(yīng)當選擇該概化操作符。解釋:
在一個數(shù)據(jù)集中對一個屬性進行概化操作,將會使得所產(chǎn)生的規(guī)則覆蓋更多的數(shù)據(jù)行,實現(xiàn)了對其所表示的概念的概化。
19特征化:面向?qū)傩詺w納
屬性刪除和屬性概化都表明:如果某屬性有大量的不同值,應(yīng)進一步進行概化。問題是:多大才算“屬性具有大量不同值?”兩種方法:1)屬性概化閾值控制;2)概化關(guān)系閾值控制。20特征化:面向?qū)傩詺w納基本原理:如果屬性的不同值的個數(shù)大于屬性概化閾值,則應(yīng)當進一步進行屬性刪除或概化。如果用戶感到一個屬性概化達到的層次太高,可以加大閾值(屬性下鉆);反之,可減小閾值(屬性上卷)。21特征化:面向?qū)傩詺w納基本原理:為概化關(guān)系設(shè)置一個閾值,如果概化關(guān)系中不同元組的個數(shù)超過該閾值,則應(yīng)進一步概化;否則,不再概化。閾值可在數(shù)據(jù)挖掘系統(tǒng)中預(yù)先設(shè)定(通常為10~30),或由用戶或?qū)<以O(shè)置、調(diào)整。如果用戶感到概化的關(guān)系太少,可以加大閾值(屬性下鉆);反之,可減小閾值(屬性上卷)。22示例:面向?qū)傩詺w納示例1:
從一個大學(xué)數(shù)據(jù)庫的學(xué)生數(shù)據(jù)中挖掘出研究生的概念描述,所涉及的屬性包括:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和gpa。
AOI方法的第一步是:首先利用數(shù)據(jù)庫查詢語言從大學(xué)數(shù)據(jù)庫中將與本挖掘任務(wù)相關(guān)的學(xué)生數(shù)據(jù)抽取出來;然后指定一組與挖掘任務(wù)相關(guān)的屬性集。
最終得到如下關(guān)系表。23示例:面向?qū)傩詺w納表1與任務(wù)相關(guān)的初始數(shù)據(jù)集合要求對以上數(shù)據(jù)集進行面向?qū)傩詺w納的操作。24示例:面向?qū)傩詺w納1)name:由于name屬性擁有許多不同的取值,且對它沒定義合適的概化操作符,因此該屬性被刪除;2)gender:由于gender屬性僅包括兩個不同取值,該屬性被保留且無需進行概化;3)major:假設(shè)對major屬性已定義一個概念層次{science,management,engineering,},從而可對major進行概化。又假設(shè)屬性概化閾值設(shè)定為5,大于major較高層概化的屬性值個數(shù),則major可以沿概念分層向上攀升并被概化。25示例:面向?qū)傩詺w納4)birth_place:該屬性擁有大量不同取值,需進行概化。假設(shè)其上存在一個概念層次:city<province<country。如果初始數(shù)據(jù)集中country的不同值個數(shù)大于屬性概化閾值,則birth_place應(yīng)當被刪除,因為即使存在概化操作符,概化閾值也不會滿足;如果country的不同值個數(shù)小于屬性概化閾值,則該屬性應(yīng)被概化到country。5)birth_data:假定存在概念分層,可將birth_data概化到age,而age可進一步概化到age_range;如果age_range的不同值個數(shù)小于對應(yīng)的屬性概化閾值,將birth_data概化到age_range。26示例:面向?qū)傩詺w納6)residence:假設(shè)residence被屬性number,street,residence_city,residence_province和residence_country屬性定義。Number和street的不同值多半很多,刪除;將residence概化到residence_city,假定僅包含4個不同取值。7)phone#:與屬性name類似,也包含過多不同取值,刪除。8)gpa:假定存在概念分層,將平均成績劃分為若干間隔,如:{excellent,verygood,…}等,對其進行概化。27示例:面向?qū)傩詺w納
概化過程會產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,如表1所示的頭兩行數(shù)據(jù)記錄就被上述的概化操作轉(zhuǎn)變成具有相同內(nèi)容的數(shù)據(jù)行。這里,繼續(xù)對具有相同內(nèi)容的數(shù)據(jù)行進行合并,同時累計其個數(shù)(count),最終獲得的結(jié)果如表2所示。表2表1示例2在下面的初始工作表上做屬性歸納姓名性別專業(yè)籍貫出身日期信用情況電話學(xué)歷張明男計算機南京79。01良4316111本李枚女生物蘇州76。02優(yōu)4315111研李山男高分子化學(xué)鹽城80。02中4315808本.................…...王民男通信工程鎮(zhèn)江80。04一般4315807本對于每個屬性,概化討論如下:1)姓名、電話:該屬性的值有許多,并且無概化操作符,屬性刪除2)性別:屬性可取的值2個,屬性保留不概化3)專業(yè):假定我們事先已定義了一個概念分層,可以將專業(yè)概化到{藝術(shù)、化學(xué)、機械、通信、信息、…..},所以可被概化4)籍貫:此表以城市為單位,已無法概化,值不算太多,保留5)出生日期:假定存在概念分層,首先概化到年齡,再到年齡段6)信用:假定有{優(yōu)、良、中、一般、差}的分層,可以概化7)學(xué)歷:可以按{博士生、碩士生、本科生}概化概化過程將產(chǎn)生相等的元組,相等的元組歸為一類并給出計數(shù)性別專業(yè)籍貫?zāi)挲g段信用情況計數(shù)男信息南京19-22良10女信息南京19-22優(yōu)9男化學(xué)鹽城19-22中4................男通信鎮(zhèn)江22-25一般1學(xué)歷本研本..本2.面向?qū)傩詺w納結(jié)果的表示?31面向?qū)傩詺w納結(jié)果的表示方法
AOI方法的挖掘結(jié)果可以通過多種形式來輸出表示:表格;組合表;圖表等。32示例—表格表示假設(shè)面向?qū)傩缘臍w納操作是在一個商場數(shù)據(jù)庫(2000年的銷售額)中進行的,最終獲得如表3所示的概化結(jié)果。表3AOI挖掘結(jié)果表格表示示意圖33示例—組合表表示
AOI的結(jié)果也可用組合表(交叉表)表示。其中每一行代表屬性的一個值;每一列代表其他屬性的一個值。在一個n維組合表中,列可能代表多個屬性的值并分欄顯示各屬性的累計值。表4對應(yīng)表3的組合表表示示意圖34示例—圖表表示
AOI的結(jié)果也可用圖表的形式表示。如:棒圖、餅圖、曲線,以實現(xiàn)結(jié)果的可視化。圖1對應(yīng)表3的棒圖示意圖圖2對應(yīng)表3(部分數(shù)據(jù))的餅圖示意圖35定量描述規(guī)則
概化關(guān)系用邏輯規(guī)則的形式表示。通常,每個概化后的數(shù)據(jù)行代表規(guī)則中的一個合取項。由于一個大型數(shù)據(jù)庫中的數(shù)據(jù)通常具有多種不同的分布,因此一個概化后的數(shù)據(jù)行不可能覆蓋或表達所有(100%)的初始數(shù)據(jù)集中的數(shù)據(jù)行。36定量描述規(guī)則
因此需要為每條規(guī)則帶上量化的信息。如,滿足規(guī)則條件前件和后件的數(shù)據(jù)行數(shù)目與初始數(shù)據(jù)集中總行數(shù)之比,作為度量規(guī)則客觀價值的參量。
將這種帶參量的規(guī)則稱為:定量描述規(guī)則。37定量描述規(guī)則t-weight(t-權(quán)):規(guī)則興趣度度量指標表示規(guī)則中一個析取項具有的代表性。
將需要進行歸納描述的對象集合稱為目標集合,設(shè)qa是描述目標集合的一個概化數(shù)據(jù)行,則qa的t-weight是該數(shù)據(jù)行所涵蓋的數(shù)據(jù)行數(shù)與初始數(shù)據(jù)集中數(shù)據(jù)行數(shù)之比,定義如下:其中,N是概化后目標集合中的數(shù)據(jù)行個數(shù);q1,q2,…,qN是概化后目標集合中的數(shù)據(jù)行。顯然,qa是其中的一行,且t_weight的值在[0,1]區(qū)間中。38定量描述規(guī)則定量描述規(guī)則:一個定量描述規(guī)則可表示為:其中,wi是conditioni的t_weight。給出了目標集合X中,各個條件出現(xiàn)的興趣度。
如設(shè)定目標集合為{電腦},查看電腦在各個地域的銷售情況。39示例1將表3所示的概化結(jié)果,轉(zhuǎn)換為定量規(guī)則的形式。表340示例1設(shè)目標集合為一組電腦產(chǎn)品,相應(yīng)的定量規(guī)則為:其中,第一個t-weight值0.25,是通過將(computer,Asia)的count累計值1000除以(computer,all_region)的count累計值4000(代表總體電腦銷售額)而得到的;其余的權(quán)值通過類似方法獲得。例:有部分學(xué)生在圖書館借閱了《大趨勢》這本書,想通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這部分學(xué)生具有什么樣的特征。其基本關(guān)系表是:學(xué)號姓名系別書名借閱日期9932007顏立經(jīng)濟大趨勢2000.3.169833090王家衛(wèi)金融大趨勢2000.3.169813105王向東醫(yī)學(xué)院大趨勢2000.5.89822041劉偉歷史大趨勢2000.6.309928073朱小明企管大趨勢2000.5.209932056陳立業(yè)經(jīng)濟大趨勢2000.9.199923143劉英新聞大趨勢2000.12.3示例2學(xué)號姓名系別書名借閱日期9932007顏立經(jīng)濟大趨勢2000.3.169833090王家衛(wèi)金融大趨勢2000.3.169813105王向東醫(yī)學(xué)院大趨勢2000.5.89822041劉偉歷史大趨勢2000.6.309928073朱小明企管大趨勢2000.5.209932056陳立業(yè)經(jīng)濟大趨勢2000.9.199923143劉英新聞大趨勢2000.12.3概化層次:系別文科–
商學(xué)院--經(jīng)濟,金融,企管,會計,國貿(mào)文科–
文學(xué)院--中文,新聞,信管,歷史,哲學(xué)理科–
醫(yī)學(xué)院理科–
理學(xué)院--數(shù)學(xué),天文,物理(文,商學(xué)院)(文,商學(xué)院)(理,醫(yī)學(xué)院)(文,商學(xué)院)(文,文學(xué)院)(文,商學(xué)院)(文,文學(xué)院)概化關(guān)系表二(按學(xué)科)系別書名借閱次數(shù)商學(xué)院大趨勢4文學(xué)院大趨勢2醫(yī)學(xué)院大趨勢1系別書名借閱次數(shù)文科大趨勢6理科大趨勢1概化關(guān)系表一(按學(xué)院)學(xué)號姓名系別書名借閱日期9932007顏立經(jīng)濟大趨勢2000.3.169833090王家衛(wèi)金融大趨勢2000.3.169813105王向東醫(yī)學(xué)院大趨勢2000.5.89822041劉偉歷史大趨勢2000.6.309928073朱小明企管大趨勢2000.5.209932056陳立業(yè)經(jīng)濟大趨勢2000.9.199923143劉英新聞大趨勢2000.12.3如果定義噪聲數(shù)據(jù)的閾值是1(記錄數(shù)為1),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘經(jīng)濟系’的學(xué)生如果定義噪聲數(shù)據(jù)的閾值是1(記錄數(shù)為1),則:根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘商學(xué)院’的學(xué)生借閱《大趨勢》一書的是‘文學(xué)院’的學(xué)生系別書名借閱次數(shù)商學(xué)院大趨勢4文學(xué)院大趨勢2醫(yī)學(xué)院大趨勢1如果定義噪聲數(shù)據(jù)的閾值是1(記錄數(shù)為1),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘經(jīng)濟系’的學(xué)生根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘商學(xué)院’的學(xué)生借閱《大趨勢》一書的是‘文學(xué)院’的學(xué)生根據(jù)‘概括關(guān)系表二’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘文科’的學(xué)生系別書名借閱次數(shù)文科大趨勢6理科大趨勢1學(xué)號姓名系別書名借閱日期9932007顏立經(jīng)濟大趨勢2000.3.169833090王家衛(wèi)金融大趨勢2000.3.169813105王向東醫(yī)學(xué)院大趨勢2000.5.89822041劉偉歷史大趨勢2000.6.309928073朱小明企管大趨勢2000.5.209932056陳立業(yè)經(jīng)濟大趨勢2000.9.199923143劉英新聞大趨勢2000.12.3如果定義噪聲數(shù)據(jù)的閾值是2(記錄數(shù)為2),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則如果定義噪聲數(shù)據(jù)的閥值是2(記錄數(shù)為2),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘商學(xué)院’的學(xué)生系別書名借閱次數(shù)商學(xué)院大趨勢4文學(xué)院大趨勢2醫(yī)學(xué)院大趨勢1如果定義噪聲數(shù)據(jù)的閾值是2(記錄數(shù)為2),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘商學(xué)院’的學(xué)生根據(jù)‘概括關(guān)系表二’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘文科’的學(xué)生系別書名借閱次數(shù)文科大趨勢6理科大趨勢1學(xué)號姓名系別書名借閱日期9932007顏立經(jīng)濟大趨勢2000.3.169833090王家衛(wèi)金融大趨勢2000.3.169813105王向東醫(yī)學(xué)院大趨勢2000.5.89822041劉偉歷史大趨勢2000.6.309928073朱小明企管大趨勢2000.5.209932056陳立業(yè)經(jīng)濟大趨勢2000.9.199923143劉英新聞大趨勢2000.12.3如果定義噪聲數(shù)據(jù)的閾值是5(記錄數(shù)為5),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則如果定義噪聲數(shù)據(jù)的閾值是5(記錄數(shù)為5),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則系別書名借閱次數(shù)商學(xué)院大趨勢4文學(xué)院大趨勢2醫(yī)學(xué)院大趨勢1如果定義噪聲數(shù)據(jù)的閾值是5(記錄數(shù)為5),則:根據(jù)‘基本關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表一’發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則根據(jù)‘概括關(guān)系表二’發(fā)現(xiàn)的特征規(guī)則是:借閱《大趨勢》一書的是‘文科’的學(xué)生系別書名借閱次數(shù)文科大趨勢6理科大趨勢1應(yīng)該說,此時的規(guī)則是有意義的,該書基本上是文科學(xué)生借閱,t_權(quán)=6/75.3屬性相關(guān)分析
在進行數(shù)據(jù)挖掘時,原始數(shù)據(jù)集中可能包含50-100個,甚至更多的屬性;在這些屬性中,很有可能存在著與挖掘任務(wù)不相關(guān)或弱相關(guān)的屬性。
如將所有屬性考慮在內(nèi),將大大增加數(shù)據(jù)挖掘的復(fù)雜度,同時降低數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。5.3屬性相關(guān)分析尤其對于分類數(shù)據(jù)挖掘,對給定的類,如果某屬性或維的值可用于區(qū)分該類與其他類,則該屬性被認為是任務(wù)高度相關(guān)的。如,汽車的顏色多半不能區(qū)分汽車價格的高低,但型號、制造商、款式和汽缸數(shù)可能是更相關(guān)的屬性。此外,在同一維內(nèi),不同層的概念也可能具有不相同的分類能力。如,在birth_data維,birth_day和birth_month看上去與雇員的salary不相關(guān),然而,birth_decade(即年齡區(qū)間)則可能與雇員的salary是高度相關(guān)的。屬性相關(guān)分析因此,必須引入一些方法進行屬性或維上的相關(guān)性分析,以過濾掉統(tǒng)計上不相關(guān)或弱相關(guān)的屬性,而僅保留對手頭挖掘任務(wù)最相關(guān)的屬性:
屬性相關(guān)分析的方法;屬性相關(guān)分析的步驟。
1.屬性相關(guān)分析的方法?屬性相關(guān)分析方法在機器學(xué)習、統(tǒng)計學(xué)、模糊邏輯和粗糙集領(lǐng)域都提出了許多屬性相關(guān)分析的方法。
基本思想:對給定的數(shù)據(jù)集,計算某種度量,用于量化屬性與給定的類或概念間的相關(guān)性。
常用的度量包括信息增益、GINI索引、不確定性和相關(guān)系數(shù)等?;谛畔⒃鲆娴膶傩赃x擇過程信息增益法:
決策樹歸納學(xué)習算法(如ID3,C4.5)中普遍采用的一種方法,該方法可以刪除信息量較少的屬性,而保留信息含量較大的屬性,以幫助進行概念描述分析。以ID3算法為例介紹基于信息熵進行屬性相關(guān)分析的基本內(nèi)容。ID3算法ID3算法是一個眾所周之的決策樹算法,該算法是澳大利亞悉尼大學(xué)的RossQuinlan于1986年提出,也是國際上最早、最有影響力的決策樹算法,其他的許多算法如C4.5、CART算法等都是在ID3算法基礎(chǔ)上的改進。ID3算法在ID3算法中,決策節(jié)點屬性的選擇運用了信息論中的熵概念作為啟發(fā)式函數(shù)。在這種屬性選擇方法中,選擇具有最大信息增益(informationgain)的屬性作為當前劃分節(jié)點。通過這種方式選擇的節(jié)點屬性可以保證決策樹具有最小的分枝數(shù)量,使得到的決策樹冗余最小。ID3算法的基本原理ID3算法根據(jù)一組類別已知的訓(xùn)練數(shù)據(jù)集來構(gòu)造一棵決策樹;然后利用構(gòu)造的決策樹對類別未知的數(shù)據(jù)對象進行分類。在歸納學(xué)習過程中,利用一個稱為信息增益的參量對屬性的重要性進行評估。認為:具有最大信息增益的屬性為當前數(shù)據(jù)集中具有最大分辨能力的屬性。利用該屬性構(gòu)造決策樹的一個節(jié)點,并根據(jù)該屬性取值的個數(shù)確定該節(jié)點的各個分支,這些分支將原有數(shù)據(jù)集分為若干子數(shù)據(jù)集。若一個節(jié)點所包含的數(shù)據(jù)行均為同一類別,則將該節(jié)點標記為決策樹的葉節(jié)點,并標記為所有數(shù)據(jù)行對應(yīng)的類別。不斷重復(fù)這一過程,直至所有節(jié)點都無需繼續(xù)分支為止。示例
假如你是一個網(wǎng)球愛好者,天氣狀況(天氣、溫度、濕度、風力)是你決定是否去打球的重要因素,利用ID3算法構(gòu)筑決策樹。條件屬性:天氣、溫度、濕度、風力決策(結(jié)果)屬性:yes(打球);no(不打球)訓(xùn)練集天
氣濕度風晴雨多云高正常有風無風YNNYYID3算法致力于建立這樣形式的決策樹決策樹是類似流程圖的倒立的樹型結(jié)構(gòu)。最頂層節(jié)點為根節(jié)點,是整個決策樹的開始;樹的每個內(nèi)部節(jié)點表示在一個屬性上的測試,其每個分支代表一個測試輸出;樹的每個葉節(jié)點代表一個類別。天
氣濕度風晴雨多云高正常有風無風YNNYY利用決策樹(判定樹)進行屬性選擇在決策樹的每個節(jié)點,算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。當決策樹歸納用于屬性子集選擇時,不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的;出現(xiàn)在決策樹中的屬性形成相關(guān)的屬性子集。Problem:如何構(gòu)造決策樹?基于信息增益的屬性選擇過程對本例,結(jié)果屬性打球有兩個取值(即{Yes,No}),因此有兩個不同的類,即m=2,設(shè)C1類對應(yīng)“Yes”,C2類對應(yīng)”No”。C1有9個元組,C2有5個元組。我們根據(jù)上式可以計算S中元組分類所需要的期望信息:I(S)=初始不確定性:基于信息增益的屬性選擇過程如果根據(jù)天氣屬性劃分,有三個取值“晴朗”、“多云”、“雨天”S晴=[2+,3-]//天氣屬性取值”晴朗”的樣例共5個,2正,3反S多云=[4+,0-]//天氣屬性取值“多云”的樣例共4個,4正,0反S雨=[3+,2-]//天氣屬性取值“雨天”的樣例共5個,3正,2反故:E(天氣)=I(S晴)知道天氣之后的不確定性:基于信息增益的屬性選擇過程則,根據(jù)天氣進行劃分的信息增益為:Gain(天氣)=I(S)-E(天氣)=0.940-0.694=0.246位根據(jù)相似的思路,可以繼續(xù)計算用其他屬性進行劃分的信息增益。顯然,根據(jù)屬性“天氣”進行劃分帶來的信息增益最大,所以選擇天氣作為決策樹的根節(jié)點?;谛畔⒃鲆娴膶傩赃x擇過程70天
氣濕度風晴雨多云高正常有風無風YNNYY最終生成的決策樹根據(jù)生成的決策樹,出現(xiàn)在樹中的屬性形成歸約的屬性子集{天氣、濕度、風力}。2.屬性相關(guān)分析的步驟?屬性相關(guān)分析步驟(1)數(shù)據(jù)收集:通過查詢處理,建立目標數(shù)據(jù)集,以及對比數(shù)據(jù)集(如需要進行比較概念描述的話),對比數(shù)據(jù)集與目標數(shù)據(jù)集互不相交。(2)利用保守的AOI方法進行屬性相關(guān)分析:利用AOI方法進行初步的屬性相關(guān)分析工作,刪除數(shù)據(jù)集中取不同值個數(shù)過多的屬性或?qū)筛呕瘮?shù)據(jù)進行概化。保險起見,這里屬性概化控制閾值都設(shè)置的較大,以便留下較多屬性供稍后屬性相關(guān)分析用。
利用AOI方法所獲得的數(shù)據(jù)集被稱為數(shù)據(jù)挖掘任務(wù)的候選數(shù)據(jù)集。概念描述的屬性相關(guān)分析步驟(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)的屬性:使用選定的相關(guān)分析度量(如上面介紹的信息增益度量),評估候選關(guān)系中的每個屬性。可以設(shè)置一個閾值來定義“弱相關(guān)”。(4)使用AOI產(chǎn)生概念描述:利用更嚴格的屬性概化控制閾值來進行基于屬性的歸納操作。若描述性挖掘任務(wù)是概念描述,僅涉及初始目標數(shù)據(jù)集;若描述挖掘任務(wù)是比較概念描述,則需包括初始目標數(shù)據(jù)集,及相應(yīng)的對比數(shù)據(jù)集。示例背景:假定我們想得到Big-university的研究生的一般特征描述。給定的屬性是name,gender,birth_place,birth_date,phone#和gpa。示例具體步驟:(1)收集目標數(shù)據(jù),建立研究生目標數(shù)據(jù)集合和本科生對比數(shù)據(jù)集。(2)利用保守的屬性概化閾值進行面向?qū)傩缘臍w納,通過屬性刪除和屬性概化進行預(yù)相關(guān)分析。與前面的例子類似,屬性name和phone#因含有過多取值而被刪除;使用概念分層將birth_place概化到birth_country屬性,將birth_date屬性概化到age_range。同樣將屬性major和gpa概化到更高的概念分層,從而獲得如下表所示的候選數(shù)據(jù)集。示例表5目標候選數(shù)據(jù)集(研究生)示例表6對比數(shù)據(jù)集(本科生)示例(3)用屬性相關(guān)分析方法,如:利用信息增益法從候選數(shù)據(jù)集中選擇有關(guān)的屬性。假設(shè)C1對應(yīng)研究生數(shù)據(jù)集(其中包含120個數(shù)據(jù)行),C2對應(yīng)本科生數(shù)據(jù)集(其中包含130個數(shù)據(jù)行)。為計算每個屬性的信息增益,需要首先利用信息量的計算公式來計算該屬性對當前數(shù)據(jù)進行分類所需要的信息熵:示例示例(4)假設(shè)屬性閾值設(shè)為0.1,以此來幫助判斷弱相關(guān)屬性,因此由于屬性gender(0.0003)和birth_country(0.0407)都小于這一閾值,因此被認為是弱相關(guān)的,而同時從目標數(shù)據(jù)集和對比數(shù)據(jù)集中刪除,并獲得初始工作數(shù)據(jù)集。表7初始工作數(shù)據(jù)集(研究生)表8初始工作數(shù)據(jù)集(本科生)示例(5)利用面向?qū)傩缘臍w納算法,最終獲得研究生目標數(shù)據(jù)集的概念描述。(定量描述規(guī)則)81回顧:定量描述規(guī)則:一個定量描述規(guī)則可表示為:其中,wi是conditioni的t_weight。給出了目標集合X中,各個條件出現(xiàn)的興趣度。示例82表7初始工作數(shù)據(jù)集(研究生)表8初始工作數(shù)據(jù)集(本科生)5.4挖掘類比較:區(qū)分不同的類在許多實際應(yīng)用中,用戶可能需要對多個不同的數(shù)據(jù)集進行對比歸納,以獲得比較概念描述。即,基于對比數(shù)據(jù)集挖掘出目標數(shù)據(jù)集的概念描述。注意:
目標數(shù)據(jù)集與對比數(shù)據(jù)集應(yīng)包含相同的屬性(維),以確保它們是可比的。如:雇員、地址和商品這三個數(shù)據(jù)集就是不可比的,而過去3年的銷售額數(shù)據(jù)是可以比較的。不同系別的學(xué)生數(shù)據(jù)也是可比的。5.4挖掘類比較:區(qū)分不同的類在比較概念描述中,屬性概化仍是一個重要的處理操作。注意:
屬性概化在所有比較類上同步進行,以確保數(shù)據(jù)集中屬性均被概化到同一抽象層次。如:要對一個商場1999年和2000年的數(shù)據(jù)集進行比較歸納,這兩年的銷售數(shù)據(jù)中l(wèi)ocation屬性均需要同時進行city屬性、province屬性和country屬性抽象層次的概化,并要概化到同一層次。即,同時概化到city層次、province層次和country層次。5.4挖掘類比較:區(qū)分不同的類比較概念描述的步驟;比較概念描述結(jié)果的表示。1.比較概念描述的步驟?87比較方法的實現(xiàn)步驟(1)數(shù)據(jù)收集:通過查詢處理收集數(shù)據(jù)庫中與挖掘任務(wù)相關(guān)的數(shù)據(jù)集,并將它們分為目標數(shù)據(jù)集和對比數(shù)據(jù)集。(2)屬性相關(guān)分析:如果數(shù)據(jù)集中包含的屬性個數(shù)過多,需要進行屬性相關(guān)分析,以保留強相關(guān)的屬性,供稍后分析;(3)同步概化:依據(jù)用戶或?qū)<宜O(shè)置的閾值,同步概化目標數(shù)據(jù)集和對比數(shù)據(jù)集,得到主目標數(shù)據(jù)集以及主對比數(shù)據(jù)集。88比較方法的實現(xiàn)步驟(4)挖掘結(jié)果表示:根據(jù)用戶的要求,對主目標數(shù)據(jù)集以及主對比數(shù)據(jù)集進行某個或某些屬性(維)上的比較,將結(jié)果用表格、圖形、或規(guī)則等的形式表示。如需要,用戶還可以在目標數(shù)據(jù)集和對比數(shù)據(jù)集上進行上鉆、下鉆或其他的OLAP操作。示例背景:假定我們想對Big-university的研究生和本科生的一般特征進行對比。給定的屬性是姓名,性別,專業(yè),籍貫,出生日期,居住地,電話號和信用情況。示例具體步驟:(1)收集數(shù)據(jù),建立研究生目標數(shù)據(jù)集和本科生對比數(shù)據(jù)集(2)對兩個數(shù)據(jù)集進行屬性相關(guān)分析,刪除無關(guān)或弱相關(guān)的屬性,如:name、gender、birth_place和phone#,只留下與挖掘任務(wù)密切相關(guān)的屬性。(3)進行同步概化:根據(jù)用戶指定或預(yù)先設(shè)置的控制閾值,對目標數(shù)據(jù)集和對比數(shù)據(jù)集中的屬性進行同步概化,得到如表5和6所示的主目標數(shù)據(jù)集和主對比數(shù)據(jù)集。示例表5目標候選數(shù)據(jù)集(研究生)表6對比數(shù)據(jù)集(本科生)示例具體步驟:(4)對挖掘結(jié)果進行可視化:需注意的是,在顯示挖掘結(jié)果時,還包括一個對比度量(如表中的count)以對目標數(shù)據(jù)集和對比數(shù)據(jù)集進行比較。
例如:得到如下的結(jié)論:研究生一般年齡更大一些,且gpa更高一些;僅有2.32%的年齡在25-30之間且gpa為良的研究生來自科學(xué)專業(yè);而相比之下,滿足同樣條件的本科生的比例占到5.02%。2.比較概念描述結(jié)果的表示?94比較結(jié)果的表示
與特征化概念描述類似,比較概念描述也可采用多種形式,如:關(guān)系表、組合表、棒圖、曲線和規(guī)則的形式加以表示。
在上述表示方式中,除規(guī)則表示外,其他表示方法與特征化中的表示方法相同。因此,這里著重介紹基于規(guī)則的表示方法。95基于規(guī)則的表示方法設(shè)qa是一個概化后的數(shù)據(jù)行,Cj為目標數(shù)據(jù)集,qa可能包含Cj中的一部分數(shù)據(jù)行,當然也可能包含對比數(shù)據(jù)集中的數(shù)據(jù)行。則,qa的d_weight值定義為:qa所包含的Cj中數(shù)據(jù)行數(shù)與qa所涵蓋的所有數(shù)據(jù)行數(shù)(包括目標數(shù)據(jù)集及所有對比數(shù)據(jù)集)之比:96基于規(guī)則的表示方法目標數(shù)據(jù)集中一個較大的d_weight值意味著相應(yīng)的概念(概化后某一數(shù)據(jù)行)涵蓋較多的目標數(shù)據(jù)集中的初始數(shù)據(jù)行;反之,則意味著該概念涵蓋較多的非目標(對比)數(shù)據(jù)集中的初始數(shù)據(jù)行。示例背景:設(shè)在前面所進行的比較概念描述中,所獲得的一個概化后的數(shù)據(jù)行為“major=“科學(xué)”andage_range=“25-30”andgpa=“良””的有關(guān)內(nèi)容如表9所示。表9研究生與本科生的其中一個比較結(jié)果示例從表9得到:major=“科學(xué)”andage_range=“25-30”andgpa=“良”該數(shù)據(jù)行相對目標數(shù)據(jù)集的d_weight為:90/(210+90)=30%而相對對比數(shù)據(jù)集的d_weight為:210/(210+90)=70%即:若一個學(xué)生專業(yè)為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年既有建筑節(jié)能改造診斷合同
- 2025年產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型咨詢服務(wù)項目可行性研究報告
- 2025年新興市場投資策略可行性研究報告
- 2025年二手車在線交易平臺可行性研究報告
- 2025年創(chuàng)業(yè)孵化器發(fā)展項目可行性研究報告
- 2025年民宿經(jīng)濟發(fā)展與規(guī)范化可行性研究報告
- 產(chǎn)假期間協(xié)議書
- 生鐵購銷合同范本
- 中德合作協(xié)議書
- 2025年居家養(yǎng)老服務(wù)體系建設(shè)項目可行性研究報告
- 【超星爾雅學(xué)習通】日本近現(xiàn)代文學(xué)選讀網(wǎng)課章節(jié)答案
- 電子技術(shù)課程設(shè)計(數(shù)字電子秤)
- 正確認識乙酰膽堿
- GB/T 40047-2021個體防護裝備運動眼面部防護滑雪鏡
- 2023年電大國際法答案
- 前列腺癌根治術(shù)護理查房
- 數(shù)理統(tǒng)計(第三版)課后習題答案
- 2-管道儀表流程圖PID
- 思想道德與法治課件:第五章 第二節(jié) 吸收借鑒優(yōu)秀道德成果
- 新鄉(xiāng)瑞豐 潤滑油添加劑系列產(chǎn)品技術(shù)改造項目 環(huán)評報告書
- 高速服務(wù)區(qū)給排水工程施工組織方案
評論
0/150
提交評論