商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(下)_第1頁(yè)
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(下)_第2頁(yè)
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(下)_第3頁(yè)
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(下)_第4頁(yè)
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(下)_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主講教師:戴小廷Ting_fz@163.com商業(yè)智能數(shù)據(jù)與商業(yè)決策支持

—步入數(shù)據(jù)的紛繁世界商業(yè)智能概述

—初步了解商業(yè)智能商業(yè)智能原理

—洞察商業(yè)智能核心技術(shù)商業(yè)智能的敏捷實(shí)現(xiàn)

—了解商業(yè)智能實(shí)現(xiàn)工具理論篇應(yīng)用篇案例篇(課內(nèi)實(shí)驗(yàn))—掌握商業(yè)智能實(shí)現(xiàn)工具(專(zhuān)周實(shí)訓(xùn))—商業(yè)智能行業(yè)典型應(yīng)用第3章商業(yè)智能原理一、數(shù)據(jù)倉(cāng)庫(kù)的基本原理二、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)三、數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)與應(yīng)用四、聯(lián)機(jī)分析處理五、數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘的決策支持及應(yīng)用4第五節(jié)數(shù)據(jù)挖掘5一知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘的社會(huì)需求國(guó)民經(jīng)濟(jì)和社會(huì)的信息化社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn)社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)越來(lái)越大有價(jià)值的知識(shí)可怕的數(shù)據(jù)苦惱:淹沒(méi)在數(shù)據(jù)中;不能制定合適的決策!數(shù)據(jù)爆炸,知識(shí)貧乏數(shù)據(jù)知識(shí)決策模式趨勢(shì)事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場(chǎng)資金分配貿(mào)易選擇在哪兒做廣告銷(xiāo)售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計(jì)生命周期數(shù)據(jù)蘊(yùn)含商機(jī),挖掘決勝千里數(shù)據(jù)挖掘的發(fā)展1989IJCAI會(huì)議:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專(zhuān)題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專(zhuān)題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國(guó)際會(huì)議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會(huì)議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.9基本概念知識(shí)發(fā)現(xiàn)是指從大量的、不完整的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)集中,提取隱含在其中的、人們事先不知道的,但又是可信的、潛在的和有價(jià)值的信息和知識(shí)的過(guò)程,是從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟(jì)、工業(yè)、農(nóng)業(yè)、軍事、社會(huì)數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號(hào)、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識(shí)可以表示成各種形式:規(guī)則、科學(xué)規(guī)律、方程或概念網(wǎng)。10

數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)

目前,關(guān)系型數(shù)據(jù)庫(kù)技術(shù)成熟、應(yīng)用廣泛。因此,數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)的研究非?;钴S。

該術(shù)語(yǔ)于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程”

11

不同的術(shù)語(yǔ)名稱(chēng)

知識(shí)發(fā)現(xiàn)是一門(mén)來(lái)自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語(yǔ)名稱(chēng)。

知識(shí)發(fā)現(xiàn):人工智能和機(jī)器學(xué)習(xí)界。數(shù)據(jù)挖掘(datamining):

統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)和管理信息系統(tǒng)界知識(shí)抽取(informationextraction)、信息發(fā)現(xiàn)(informationdiscovery)、智能數(shù)據(jù)分析(intelligentdataanalysis)、探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(informationharvesting)數(shù)據(jù)考古(dataarcheology)12KDD過(guò)程圖13KDD的步驟數(shù)據(jù)準(zhǔn)備數(shù)據(jù)選擇數(shù)據(jù)預(yù)處理(?課堂討論)數(shù)據(jù)變換數(shù)據(jù)挖掘確定挖掘的任務(wù)和目的,選擇合適的挖掘算法結(jié)果的解釋和評(píng)估評(píng)估結(jié)果,遞歸上述過(guò)程利用可視化工具,將結(jié)果展現(xiàn)給分析員14Mining——挖掘,采掘,采礦......數(shù)據(jù)挖掘是在數(shù)據(jù)庫(kù)中,對(duì)數(shù)據(jù)進(jìn)行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含的、事先未知的、但又是潛在有用的信息和知識(shí)的過(guò)程。其處理對(duì)象是大量的日常業(yè)務(wù)數(shù)據(jù),目的是為了從這些數(shù)據(jù)中抽取一些有價(jià)值的知識(shí)或信息,提高信息利用率,原始數(shù)據(jù)是形成知識(shí)的源泉。

15

數(shù)據(jù)挖掘(DM:DataMining.)是KDD過(guò)程中的一個(gè)特定步驟,是知識(shí)發(fā)現(xiàn)中的核心工作,主要研究發(fā)現(xiàn)知識(shí)的各種方法和技術(shù)。探測(cè)型的數(shù)據(jù)分析發(fā)現(xiàn)信息、發(fā)現(xiàn)知識(shí)基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)需要算法的支持和機(jī)器的環(huán)境幾個(gè)基本概念模型(Model)vs模式(Pattern)數(shù)據(jù)挖掘的根本目的就是把樣本數(shù)據(jù)中隱含的結(jié)構(gòu)泛化(Generalize)到總體(Population)上去模型:對(duì)數(shù)據(jù)集的一種全局性的整體特征的描述或概括,適用于數(shù)據(jù)空間中的所有點(diǎn),例如聚類(lèi)分析模式:對(duì)數(shù)據(jù)集的一種局部性的有限特征的描述或概括,適用于數(shù)據(jù)空間的一個(gè)子集,例如關(guān)聯(lián)分析算法(Algorithm):一個(gè)定義完備(well-defined)的過(guò)程,它以數(shù)據(jù)作為輸入并產(chǎn)生模型或模式形式的輸出描述型挖掘(Descriptive)vs預(yù)測(cè)型挖掘(Predictive)描述型挖掘:對(duì)數(shù)據(jù)進(jìn)行概括,以方便的形式呈現(xiàn)數(shù)據(jù)的重要特征預(yù)測(cè)型挖掘:根據(jù)觀察到的對(duì)象特征值來(lái)預(yù)測(cè)它的其他特征值描述型挖掘可以是目的,也可以是手段17二數(shù)據(jù)挖掘方法和技術(shù)歸納學(xué)習(xí)方法

信息論方法(決策樹(shù)方法):ID3、ID4、ID5、C4.5、IBLE方法

決策樹(shù)(DecisionTree)是一種非常成熟的、普遍采用的數(shù)據(jù)挖掘技術(shù)。之所以稱(chēng)為樹(shù),是因?yàn)槠浣_^(guò)程類(lèi)似一棵樹(shù)的成長(zhǎng)過(guò)程,即從根部開(kāi)始,到樹(shù)干,到分枝,再到細(xì)枝末節(jié)的分叉,最終生長(zhǎng)出一片片的樹(shù)葉。在決策樹(shù)里,所分析的數(shù)據(jù)樣本先集成為一個(gè)樹(shù)根,然后經(jīng)過(guò)層層分枝,最終形成若干個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)代表一個(gè)結(jié)論。在知識(shí)工程領(lǐng)域,決策樹(shù)是一種簡(jiǎn)單的知識(shí)表示方法,它將事例逐步分類(lèi)成不同的類(lèi)別。利用信息論中的互信息,尋找數(shù)據(jù)庫(kù)中具有最大信息量的屬性字段,建立決策樹(shù)的節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹(shù)的分支的過(guò)程歸納學(xué)習(xí)方法是在大量的經(jīng)驗(yàn)數(shù)據(jù)中歸納抽取出一般的判定規(guī)則和模式,是從特殊情況推導(dǎo)出一般規(guī)則的學(xué)習(xí)方法。決策樹(shù)的一個(gè)例子第一步,構(gòu)造決策樹(shù)在決策樹(shù)中,每個(gè)葉結(jié)點(diǎn)都賦予一個(gè)類(lèi)稱(chēng)號(hào)。根節(jié)點(diǎn)和內(nèi)部結(jié)點(diǎn)包含屬性測(cè)試條件,用以分開(kāi)具有不同特性的記錄。為某汽車(chē)銷(xiāo)售公司的客戶是否購(gòu)買(mǎi)過(guò)“高檔車(chē)”進(jìn)行分類(lèi),購(gòu)買(mǎi)過(guò)類(lèi)標(biāo)號(hào)為“是”,沒(méi)有購(gòu)買(mǎi)過(guò)類(lèi)標(biāo)號(hào)為“否”。≤20萬(wàn)元男25-50歲年齡年收入性別否否是否是<25歲25》>50歲>20萬(wàn)元萬(wàn)元女葉節(jié)點(diǎn)根節(jié)點(diǎn)內(nèi)部結(jié)點(diǎn)決策樹(shù)的一個(gè)例子(續(xù))第二步,應(yīng)用決策樹(shù)進(jìn)行分類(lèi)從樹(shù)的根節(jié)點(diǎn)開(kāi)始,將測(cè)試條件用于檢驗(yàn)記錄,根據(jù)測(cè)試結(jié)果選擇適當(dāng)?shù)姆种?。?dāng)沿著該分支到達(dá)另一個(gè)內(nèi)部結(jié)點(diǎn)時(shí),使用新的測(cè)試條件;當(dāng)沿著該分支到達(dá)一個(gè)葉結(jié)點(diǎn)時(shí),葉結(jié)點(diǎn)的類(lèi)稱(chēng)號(hào)被賦值給該檢驗(yàn)記錄。例如,為年齡30歲且年收入25萬(wàn)的客戶賦予類(lèi)標(biāo)號(hào)的路徑,最終類(lèi)標(biāo)號(hào)為“是”結(jié)點(diǎn)。女>50歲<25歲≤20萬(wàn)元男25-50歲年齡年收入性別否否是否是>20萬(wàn)元萬(wàn)元20歸納學(xué)習(xí)方法集合論方法:粗糙集方法、關(guān)聯(lián)規(guī)則挖掘、覆蓋正例排斥反例方法、概念樹(shù)方法在發(fā)現(xiàn)知識(shí)的過(guò)程中使用集合理論中的一些概念和原理,并涉及大量集合運(yùn)算。21神經(jīng)網(wǎng)絡(luò)方法是模擬生物神經(jīng)元的基本結(jié)構(gòu)和作用機(jī)理提出的一種計(jì)算模型。神經(jīng)網(wǎng)絡(luò)能夠解決線型與非線性分類(lèi)問(wèn)題,常用于分類(lèi)和聚類(lèi)問(wèn)題的重要技術(shù)支持,在醫(yī)學(xué)診斷、信用卡欺詐識(shí)別、手寫(xiě)體數(shù)字識(shí)別等諸多領(lǐng)域具有廣泛的應(yīng)用前景。仿生物技術(shù)22神經(jīng)網(wǎng)絡(luò)模型

23激活函數(shù)

24神經(jīng)網(wǎng)絡(luò)模型引入激活函數(shù)可以使神經(jīng)網(wǎng)絡(luò)接近任何函數(shù),進(jìn)而在模型中引入非線性。如果沒(méi)有激活函數(shù),那么無(wú)論神經(jīng)網(wǎng)絡(luò)有多少層,最終都是一個(gè)線性映射,單純的線性映射無(wú)法解決線性不可分問(wèn)題,而引入非線性可以讓模型解決線性不可分問(wèn)題,即可以解決非線性分類(lèi)問(wèn)題。神經(jīng)網(wǎng)絡(luò)的主要缺點(diǎn)就是其知識(shí)和結(jié)果的不可解釋性,沒(méi)有人知道隱蔽層里的非線性函數(shù)到底是如何處理自變量的,神經(jīng)網(wǎng)絡(luò)應(yīng)用中的產(chǎn)出物在很多時(shí)候讓人們看不清其中的邏輯關(guān)系。但是,它的這個(gè)缺點(diǎn)并沒(méi)有影響該技術(shù)在數(shù)據(jù)化運(yùn)營(yíng)中的廣泛應(yīng)用,甚至可以這樣認(rèn)為,正是因?yàn)槠浣Y(jié)果具有不可解釋性,反而更有可能促使我們發(fā)現(xiàn)新的沒(méi)有認(rèn)識(shí)到的規(guī)律和關(guān)系。25遺傳算法遺傳算法從可能潛在的解集的一個(gè)種群開(kāi)始,種群則由經(jīng)過(guò)二進(jìn)制基因編碼的一定數(shù)目的個(gè)體組成,基因作為遺傳算法操作最基本的單位。初代種群產(chǎn)生之后,按照適者生存和優(yōu)勝劣汰的原理,通過(guò)對(duì)個(gè)體基因復(fù)制、交叉、突變等操作產(chǎn)生下一代的解。在每一代,根據(jù)問(wèn)題域中個(gè)體的適應(yīng)度大小選擇個(gè)體,這個(gè)過(guò)程將導(dǎo)致種群像自然進(jìn)化一樣的后生代種群比前代更加適應(yīng)于環(huán)境,末代種群中的最優(yōu)個(gè)體經(jīng)過(guò)解碼,可以作為問(wèn)題近似最優(yōu)解。借鑒生物進(jìn)化論,遺傳算法將要解決的問(wèn)題模擬成一個(gè)生物進(jìn)化的過(guò)程。仿生物技術(shù)具體過(guò)程:首先,編碼。需要對(duì)初始種群中的個(gè)體基因編碼表示成二進(jìn)制字符串。其次,選擇。從當(dāng)前群體中選擇出優(yōu)良的個(gè)體來(lái)產(chǎn)生下一代,比例選擇實(shí)現(xiàn)算法就是所謂的“輪盤(pán)賭算法”。第三步,交叉。通過(guò)兩個(gè)個(gè)體交換部分基因來(lái)構(gòu)造下一代兩條新的染色體。交叉概率通常取0.65~0.9之間。交叉概率通常取0.65~0.9之間。舉個(gè)交叉前和交叉后的例子:第四步:變異。在繁殖過(guò)程,新產(chǎn)生的染色體中的基因會(huì)以一定的概率出錯(cuò),稱(chēng)為變異,變異概率較小,一般在0.001~0.01之間。舉個(gè)變異前和變異后的例子:遺傳算法的優(yōu)越性能:它的覆蓋面大,利于全局擇優(yōu),避免誤入局部最優(yōu)解。遺傳算法同時(shí)處理群體中的多個(gè)個(gè)體易于實(shí)現(xiàn)并行化。遺傳算法不依賴于問(wèn)題的具體領(lǐng)域,對(duì)問(wèn)題的種類(lèi)有很強(qiáng)的魯棒性。遺傳算法不是采用確定性規(guī)則,而是采用概率的變遷規(guī)則來(lái)指導(dǎo)它的搜索方向。具有自組織、自適應(yīng)和自學(xué)習(xí)性。遺傳算法廣泛應(yīng)用于各種領(lǐng)域,包括:函數(shù)優(yōu)化、組合優(yōu)化生產(chǎn)調(diào)度問(wèn)題、自動(dòng)控制、機(jī)器人學(xué)、圖像處理(圖像恢復(fù)、圖像邊緣特征提取等)、人工生遺傳編程、機(jī)器學(xué)習(xí)等。29二數(shù)據(jù)挖掘方法和技術(shù)公式發(fā)現(xiàn)統(tǒng)計(jì)分析方法:常用統(tǒng)計(jì)方法、相關(guān)分析、回歸分析、假設(shè)檢驗(yàn)、聚類(lèi)分析、判別分析模糊數(shù)學(xué)方法:模糊模式識(shí)別、模糊聚類(lèi)、模糊分類(lèi)、模糊關(guān)聯(lián)規(guī)則等可視化技術(shù):提取幾何圖元、繪制、演示和演放在工程和科學(xué)數(shù)據(jù)庫(kù)中對(duì)若干數(shù)據(jù)項(xiàng)(變量)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。通過(guò)對(duì)總體樣本的樣本數(shù)據(jù)進(jìn)行分析得出描述和推斷該總體信息和知識(shí)的方法。系統(tǒng)的復(fù)雜性越高,精確化能力就低,模糊性就越強(qiáng)。利用模糊集合理論進(jìn)行數(shù)據(jù)挖掘的一類(lèi)方法。一種圖形顯示技術(shù),用來(lái)提高數(shù)據(jù)挖掘的效果。30第六節(jié)數(shù)據(jù)挖掘的決策支持及應(yīng)用31數(shù)據(jù)挖掘的決策支持分類(lèi)有六種:關(guān)聯(lián)分析分析對(duì)象之間的關(guān)聯(lián)性、相關(guān)性,從而挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系時(shí)序模式分析類(lèi)似于關(guān)聯(lián)分析著重于分析數(shù)據(jù)的前因后果分類(lèi)分析對(duì)于不同分類(lèi)的數(shù)據(jù)進(jìn)行分析,找出他們的規(guī)律、特征,是數(shù)據(jù)挖掘中應(yīng)用最多的決策支持技術(shù)。常用的貝葉斯分類(lèi)器、決策樹(shù)、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)都屬于分類(lèi)算法。聚類(lèi)分析是分類(lèi)的逆過(guò)程根據(jù)數(shù)據(jù)特征,進(jìn)行分類(lèi)偏差檢測(cè)預(yù)測(cè)一數(shù)據(jù)挖掘的決策支持分類(lèi)發(fā)現(xiàn)商品間的關(guān)聯(lián)規(guī)則buy(x,”diapers”)

buy(x,”beers”)二關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘關(guān)聯(lián)(association)規(guī)則是當(dāng)前數(shù)據(jù)挖掘研究的主要方法之一,它反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。關(guān)聯(lián)規(guī)則挖掘的基本概念關(guān)聯(lián)(association)規(guī)則是指若兩個(gè)或多個(gè)變量的取值間存在某種規(guī)律性,即一種事物發(fā)生時(shí)其它事物也會(huì)發(fā)生的聯(lián)系。關(guān)聯(lián)規(guī)則反映了一組數(shù)據(jù)項(xiàng)之間的密切程度或關(guān)系。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘是尋找隱藏在數(shù)據(jù)間相關(guān)性的過(guò)程,即對(duì)于給定的一組項(xiàng)目和一個(gè)記錄集,通過(guò)對(duì)記錄集的分析,得出項(xiàng)目集中的項(xiàng)目之間的相關(guān)性。關(guān)聯(lián)規(guī)則的幾個(gè)基本定義項(xiàng)目和項(xiàng)集(Item、Itemset)事務(wù)支持度:Support(A=>B)=#AB/#N,表示A和B同時(shí)出現(xiàn)的概率期望可信度:Support(A)=#A/#N,表示A出現(xiàn)的概率置信度:Confidence(A=>B)=Support(A=>B)/Support(A)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名稱(chēng)描述公式支持度A、B同時(shí)出現(xiàn)的頻率P(A∩B)期望可信度B出現(xiàn)的頻率P(B)置信度A出現(xiàn)的前提下,B出現(xiàn)的頻率P(B|A)改善度置信度對(duì)期望可信度的比值P(B|A)/P(B)購(gòu)物籃分析-引發(fā)關(guān)聯(lián)規(guī)則挖掘的例子問(wèn)題:“什么商品組或集合顧客多半會(huì)在一次購(gòu)物中同時(shí)購(gòu)買(mǎi)?”購(gòu)物籃分析:設(shè)全域?yàn)樯痰瓿鍪鄣纳唐返募希错?xiàng)目全集),一次購(gòu)物購(gòu)買(mǎi)(即事務(wù))的商品為項(xiàng)目全集的子集,若每種商品用一個(gè)布爾變量表示該商品的有無(wú),則每個(gè)購(gòu)物籃可用一個(gè)布爾向量表示。通過(guò)對(duì)布爾向量的分析,得到反映商品頻繁關(guān)聯(lián)或同時(shí)購(gòu)買(mǎi)的購(gòu)買(mǎi)模式。這些模式可用關(guān)聯(lián)規(guī)則描述。〖例〗購(gòu)買(mǎi)計(jì)算機(jī)與購(gòu)買(mǎi)財(cái)務(wù)管理軟件的關(guān)聯(lián)規(guī)則可表示為:computerfinancial_management_softwar [support=2%,confidence=60%]support為支持度,confidence為置信度。該規(guī)則表示:在所分析的全部事務(wù)中,有2%的事務(wù)同時(shí)購(gòu)買(mǎi)計(jì)算機(jī)和財(cái)務(wù)管理軟件;在購(gòu)買(mǎi)計(jì)算機(jī)的顧客中60%也購(gòu)買(mǎi)財(cái)務(wù)管理軟件。發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^YZ支持度(support),s,事務(wù)中包含{X&Y&Z}的概率置信度(confidence),c,

事務(wù)中包含{X&Y}的條件下,包含Z的條件概率令最小支持度為50%,最小置信度為50%,則有AC(50%,66.6%)CA(50%,100%)顧客購(gòu)買(mǎi)尿布顧客購(gòu)買(mǎi)兩者顧客購(gòu)買(mǎi)啤酒關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)挖掘主要就是對(duì)強(qiáng)規(guī)則的挖掘。通過(guò)設(shè)置最小支持度和最小置信度可以了解某些數(shù)據(jù)之間的關(guān)聯(lián)程度。關(guān)聯(lián)規(guī)則挖掘:給定一組Item和記錄集合,挖掘出Item間的相關(guān)性,使其置信度和支持度分別大于用戶給定的最小置信度和最小支持度。關(guān)聯(lián)規(guī)則挖掘的過(guò)程在關(guān)聯(lián)規(guī)則挖掘算法中,把項(xiàng)目的集合稱(chēng)為項(xiàng)集(itemset),包含有k個(gè)項(xiàng)目的項(xiàng)集稱(chēng)為k-項(xiàng)集。包含項(xiàng)集的事務(wù)數(shù)稱(chēng)為項(xiàng)集的出現(xiàn)頻率,簡(jiǎn)稱(chēng)為項(xiàng)集的頻率或支持度計(jì)數(shù)。如果項(xiàng)集的出現(xiàn)頻率大于或等于最小支持度s與D中事務(wù)總數(shù)的乘積,則稱(chēng)該項(xiàng)集滿足最小支持度s。如果項(xiàng)集滿足最小支持度,則稱(chēng)該項(xiàng)集為頻繁項(xiàng)集(frequentitemset)。關(guān)聯(lián)規(guī)則的挖掘主要被分解為下面兩步:第1步:找出所有的頻繁項(xiàng)集,即找出支持度大于或等于給定的最小支持度閾值的所有項(xiàng)集。可以從1到k遞歸查找k-頻繁項(xiàng)集。第2步:由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,即找出滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。對(duì)給定的L,如果其非空子集A

L,sup(L)為L(zhǎng)的支持度,sup(A)為A的支持度,則產(chǎn)生形式為A

L-A的規(guī)則。

案例:某商場(chǎng)記錄顧客購(gòu)買(mǎi)商品的數(shù)據(jù)共有9條購(gòu)買(mǎi)記錄,所有商品的集合I={耳機(jī),羽毛球拍,旅游鞋,浴巾,跑步機(jī)}。

購(gòu)買(mǎi)記錄(TID)購(gòu)買(mǎi)商品(Itemset)T100{旅游鞋,浴巾,耳機(jī)}T200{浴巾,跑步機(jī)}T300{浴巾,羽毛球拍}T400{旅游鞋,浴巾,跑步機(jī)}T500{旅游鞋,羽毛球拍}T600{浴巾,羽毛球拍}T700{旅游鞋,羽毛球拍}T800{旅游鞋,浴巾,羽毛球拍,耳機(jī)}T900{旅游鞋,浴巾,羽毛球拍}(1)假定給定最小支持度為20%,請(qǐng)計(jì)算項(xiàng)集{羽毛球拍}、{耳機(jī)}、{旅游鞋,跑步機(jī)}、{浴巾,羽毛球拍}是否為頻繁項(xiàng)集?(2)假定給定最小支持度為20%,最小置信度為60%,則羽毛球拍→浴巾是否是合格的關(guān)聯(lián)規(guī)則?

案例的計(jì)算support({羽毛球拍})=6/9support({耳機(jī)})=2/9support({旅游鞋,跑步機(jī)})=1/9support({浴巾,羽毛球拍})=4/9假定給定最小支持度為20%,上述項(xiàng)集哪些是頻繁項(xiàng)集?{羽毛球拍}、{耳機(jī)}、{浴巾,羽毛球拍}的支持度均大于20%,因此,{羽毛球拍}、{耳機(jī)}、{浴巾,羽毛球拍}為頻繁項(xiàng)集。假定給定最小支持度為20%,最小置信度為60%,則羽毛球拍→浴巾是否是合格的關(guān)聯(lián)規(guī)則?Confidence(羽毛球拍→浴巾)=support({羽毛球拍∪浴巾})/support({羽毛球拍})=(4/9)/(6/9)=66.7%>60%,因此羽毛球拍→浴巾是合格的關(guān)聯(lián)規(guī)則。使用關(guān)聯(lián)規(guī)則逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集典型的關(guān)聯(lián)規(guī)則挖掘算法有逐層發(fā)現(xiàn)算法Apriori、無(wú)候選項(xiàng)集發(fā)現(xiàn)算法FP-Growth和基于集合交集的深度優(yōu)先搜索Eclat算法。逐層發(fā)現(xiàn)算法Apriori發(fā)現(xiàn)頻繁項(xiàng)集的過(guò)程是按照項(xiàng)集的長(zhǎng)度由小到大逐級(jí)進(jìn)行的,即首先發(fā)現(xiàn)頻繁1項(xiàng)集,然后是頻繁2項(xiàng)集,……,最后是頻繁N項(xiàng)集。購(gòu)物籃數(shù)據(jù)中所有項(xiàng)的集合為{A,B,C,D,E},所有購(gòu)買(mǎi)事務(wù)數(shù)據(jù)庫(kù)N為下表所示,設(shè)項(xiàng)集的最小支持度計(jì)數(shù)為2,試確定N中的所有頻繁項(xiàng)集。購(gòu)買(mǎi)記錄(TID)項(xiàng)集(Items)10A,C,D20B,C,E30A,B,C,E40B,E(1)格結(jié)構(gòu)確定候選項(xiàng)集ABDEACADAEBCBDBECDCENULLABCDEABCABDABEACDACEADEBCDBCEABDECDEABCDABCEABDEACDE

BCDEABCDE(2)基于支持度的剪枝技術(shù)發(fā)現(xiàn)N中的頻繁項(xiàng)集非頻繁項(xiàng)集ABDEACADAEBCBDBECDCENULLABCDEABCABDABEACDACEADEBCDBCEBDECDEABCDABCEABDEACDE

BCDEABCDE頻繁項(xiàng)集DatabaseTDB1stscanC1L1L2C2C22ndscanC3L33rdscanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsup{A}2{B}3{C}3{D}1{E}3Itemsetsup{A}2{B}3{C}3{E}3Itemset{A,B}{A,C}{A,E}{B,C}{B,E}{C

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論