數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析.ppt_第1頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析.ppt_第2頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析.ppt_第3頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析.ppt_第4頁(yè)
數(shù)據(jù)挖掘の基本關(guān)聯(lián)分析.ppt_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集產(chǎn)生 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估 目的:介紹關(guān)聯(lián)分析的基本概念、關(guān)聯(lián)規(guī)則挖掘的基本方法,以及關(guān)聯(lián)模式評(píng)估的度量 要求:掌握關(guān)聯(lián)規(guī)則挖掘的Apriori算法,了解關(guān)聯(lián)規(guī)則挖掘的其他方法,熟悉關(guān)聯(lián)模式評(píng)估的典型度量 重點(diǎn):用于頻繁項(xiàng)集產(chǎn)生和規(guī)則產(chǎn)生的Apriori算法 難點(diǎn):使用散列樹(Hash Tree)的支持度計(jì)算方法,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,關(guān)聯(lián)分析,給定一組事務(wù),尋找預(yù)測(cè)

2、 “某些項(xiàng)將會(huì)隨其他項(xiàng)的出現(xiàn)而出現(xiàn)” 的規(guī)則 挖掘關(guān)聯(lián)規(guī)則,購(gòu)物籃事務(wù)數(shù)據(jù)庫(kù),關(guān)聯(lián)規(guī)則的例子,Diaper Beer,Milk, Bread Eggs,Coke,Beer, Bread Milk,蘊(yùn)含符號(hào)“”表示共現(xiàn)關(guān)系,而不是因果關(guān)系,定義: 頻繁項(xiàng)集,項(xiàng)集 一個(gè)或多個(gè)項(xiàng)的集合 例子: Milk, Bread, Diaper k-項(xiàng)集 包含k個(gè)項(xiàng)的項(xiàng)集 支持度計(jì)數(shù) (support count) 給定項(xiàng)集的出現(xiàn)次數(shù) 比如 (Milk, Bread,Diaper) = 2 支持度 (support) 覆蓋給定項(xiàng)集的事務(wù)數(shù)占所有事務(wù)數(shù)的比例 比如 s(Milk, Bread, Diaper) =

3、 2/5 = 40% 頻繁項(xiàng)集 支持度大于等于給定閾值 minsup 的項(xiàng)集,定義: 關(guān)聯(lián)規(guī)則,例子:,關(guān)聯(lián)規(guī)則 形式為 X Y 的蘊(yùn)含表達(dá)式,其中X 和Y是項(xiàng)集 例子: Milk, Diaper Beer 規(guī)則評(píng)估度量 支持度 (s) s(XY) = (XY) / |T| 包含X和Y的事務(wù)個(gè)數(shù)占所有事務(wù)個(gè)數(shù)的比例 置信度 (c) c(XY) = (XY) / (X) 在包含X的事務(wù)集合中,包含Y的事務(wù)個(gè)數(shù)占事務(wù)總數(shù)的比例,關(guān)聯(lián)規(guī)則挖掘任務(wù),給定一個(gè)事務(wù)集合T,關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是尋找所有滿足下面條件的規(guī)則 支持度 minsup 置信度 minconf Brute-force(蠻力)方法: 列

4、出所有可能的關(guān)聯(lián)規(guī)則 計(jì)算每條規(guī)則的支持度和置信度 刪除支持度不足minsup或置信度不足minconf的規(guī)則 代價(jià)極高! 因?yàn)閺陌琩個(gè)項(xiàng)的數(shù)據(jù)集提取的可能規(guī)則的總數(shù)是R=3d-2d+1+1,比如d=6則R=602,挖掘關(guān)聯(lián)規(guī)則,規(guī)則的例子: Milk,Diaper Beer (s=0.4, c=0.67)Milk,Beer Diaper (s=0.4, c=1.0) Diaper,Beer Milk (s=0.4, c=0.67) Beer Milk,Diaper (s=0.4, c=0.67) Diaper Milk,Beer (s=0.4, c=0.5) Milk Diaper,Bee

5、r (s=0.4, c=0.5),觀察結(jié)果: 上面所有的規(guī)則都是同一個(gè)項(xiàng)集的二分: Milk, Diaper, Beer 由同一個(gè)項(xiàng)集得到的規(guī)則具有相同的支持度和不同的置信度 因此,我們可以將支持度和置信度分開處理,挖掘關(guān)聯(lián)規(guī)則,兩步方法: 頻繁項(xiàng)集的產(chǎn)生 產(chǎn)生 支持度minsup 的所有項(xiàng)集 規(guī)則的產(chǎn)生 由每個(gè)頻繁項(xiàng)集產(chǎn)生 置信度minconf 的規(guī)則,其中每個(gè)規(guī)則都是該頻繁項(xiàng)集的二分,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,頻繁項(xiàng)集的產(chǎn)生,給定d

6、個(gè)項(xiàng),一共有2d 個(gè)項(xiàng)集,頻繁項(xiàng)集的產(chǎn)生,Brute-force(蠻力)方法: 在項(xiàng)集格中的每個(gè)項(xiàng)集都是一個(gè)候選頻繁項(xiàng)集 掃描事務(wù)數(shù)據(jù)庫(kù)計(jì)算每個(gè)候選頻繁項(xiàng)集的支持度 將每個(gè)事務(wù)與每個(gè)候選頻繁項(xiàng)集匹配 比較次數(shù) O(NMw) = 代價(jià)極高,因?yàn)镸 = 2d !,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略,減少候選頻繁項(xiàng)集的個(gè)數(shù) (M) 完全搜索: M=2d 使用剪枝計(jì)數(shù)減少M(fèi) 減少事務(wù)的個(gè)數(shù) (N) 當(dāng)項(xiàng)集的大小增加時(shí),減少N 在基

7、于垂直數(shù)據(jù)分布的挖掘算法中使用 減少比較的次數(shù) (NM) 使用高效的數(shù)據(jù)結(jié)構(gòu)保存候選頻繁項(xiàng)集或事務(wù) 不需要匹配每個(gè)候選和每個(gè)事務(wù),垂直數(shù)據(jù)分布,優(yōu)化策略1: 減少候選頻繁項(xiàng)集的個(gè)數(shù),先驗(yàn)原理(Apriori principle): 如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集都是頻繁的 先驗(yàn)原理成立的原因: 一個(gè)項(xiàng)集的支持度不會(huì)超過(guò)其任何子集的支持度 該性質(zhì)稱作支持度的反單調(diào)性質(zhì),先驗(yàn)原理的圖示,被剪枝的超集,先驗(yàn)原理的圖示,1-項(xiàng)集,2-項(xiàng)集 (不需要生成涉及Coke或 Eggs的候選頻繁項(xiàng)集),3-項(xiàng)集,最小支持度計(jì)數(shù) = 3,如果考慮所有項(xiàng)集, 6C1 + 6C2 + 6C3 = 41 使用基

8、于支持度的剪枝, 6 + 6 + 1 = 13,Apriori算法,算法流程: 設(shè)定k=1 掃描事務(wù)數(shù)據(jù)庫(kù)一次,生成頻繁的1-項(xiàng)集 如果存在兩個(gè)或以上頻繁k-項(xiàng)集,重復(fù)下面過(guò)程: 候選產(chǎn)生 由長(zhǎng)度為k的頻繁項(xiàng)集生成長(zhǎng)度為k+1的候選項(xiàng)集 候選前剪枝 對(duì)每個(gè)候選項(xiàng)集,若其具有非頻繁的長(zhǎng)度為k的子集,則刪除該候選項(xiàng)集 支持度計(jì)算 掃描事務(wù)數(shù)據(jù)庫(kù)一次,統(tǒng)計(jì)每個(gè)余下的候選項(xiàng)集的支持度 候選后剪枝 刪除非頻繁的候選項(xiàng)集,僅保留頻繁的(k+1)-項(xiàng)集 設(shè)定k = k+1,Apriori算法的核心步驟,候選產(chǎn)生 設(shè)A=a1,a2,ak和B=b1,b2,bk是一對(duì)頻繁k-項(xiàng)集,當(dāng)且僅當(dāng)ai=bi (i=1,2

9、,k-1)并且akbk時(shí),合并A和B,得到a1,a2,ak,bk 比如合并Bread,Milk和Bread,Diaper得到Bread,Milk,Diaper,但Milk,Bread和Bread,Diaper不能合并 候選前剪枝 設(shè)A=a1,a2,ak,ak+1是一個(gè)候選(k+1)-項(xiàng)集,檢查每個(gè)A是否在第k層頻繁項(xiàng)集中出現(xiàn),其中A由A去掉ai (i=1,k-1) 得到 若某個(gè)A沒(méi)有出現(xiàn),則A是非頻繁的,Apriori算法的例子,考慮下面的事務(wù)數(shù)據(jù)庫(kù) 最小支持度計(jì)數(shù)閾值=2,Apriori算法的例子,(生成頻繁1-項(xiàng)集),(候選產(chǎn)生),(候選后剪枝),(支持度 計(jì)算),(候選產(chǎn)生和 候選前剪枝

10、),(支持度 計(jì)算),(候選后剪枝),優(yōu)化策略2: 減少比較次數(shù),候選項(xiàng)集的支持度計(jì)算: 掃描事務(wù)數(shù)據(jù)庫(kù),決定每個(gè)候選項(xiàng)集的支持度 為了減少比較次數(shù),將候選項(xiàng)集保存在散列(hash)結(jié)構(gòu)中 將每個(gè)事務(wù)與保存在散列結(jié)構(gòu)的候選項(xiàng)集作匹配,生成候選的散列樹,1,4,7,2,5,8,3,6,9,散列函數(shù),假設(shè)有15個(gè)長(zhǎng)度為3的候選項(xiàng)集: 1 4 5, 1 2 4, 4 5 7, 1 2 5, 4 5 8, 1 5 9, 1 3 6, 2 3 4, 5 6 7, 3 4 5, 3 5 6, 3 5 7, 6 8 9, 3 6 7, 3 6 8 散列樹(hash tree)參數(shù): 散列函數(shù) (hash f

11、unction) 葉子大小限制: 保存在一個(gè)葉子結(jié)點(diǎn)的項(xiàng)集個(gè)數(shù)的上限 (如果候選項(xiàng)集的個(gè)數(shù)超過(guò)該限制,則分裂葉子結(jié)點(diǎn)),葉子大小限制:3,生成候選的散列樹,1,4,7,2,5,8,3,6,9,散列函數(shù),散列樹,生成候選的散列樹,1,4,7,2,5,8,3,6,9,散列函數(shù),散列樹,生成候選的散列樹,1,4,7,2,5,8,3,6,9,散列函數(shù),散列樹,子集操作,給定一個(gè)事務(wù)t,t包含哪些長(zhǎng)度為3的可能子集?,使用散列樹的子集操作,事務(wù),給定一個(gè)事務(wù)t,t包含散列樹中哪些子集?,使用散列樹的子集操作,1 5 9,1 3 6,3 4 5,事務(wù),給定一個(gè)事務(wù)t,t包含散列樹中哪些子集?,使用散列樹的

12、子集操作,1 5 9,1 3 6,3 4 5,事務(wù),給定一個(gè)事務(wù)t,t包含散列樹中哪些子集?,9個(gè)候選3-項(xiàng)集與事務(wù)的當(dāng)前子集比較,1 2 3,1 2 5,1 2 6,1 5 6,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,計(jì)算復(fù)雜度的影響因素,最小支持度閾值的選擇 低支持度閾值導(dǎo)致更多頻繁項(xiàng)集 將會(huì)增加候選項(xiàng)集的個(gè)數(shù)和頻繁項(xiàng)集的最大長(zhǎng)度 數(shù)據(jù)庫(kù)的維度,即項(xiàng)的個(gè)數(shù) 需要更多空間保存每個(gè)項(xiàng)的支持度計(jì)數(shù) 如果頻繁項(xiàng)集的個(gè)數(shù)增加,則計(jì)算量和 I/O開銷也增加

13、數(shù)據(jù)庫(kù)的大小 由于Apriori多次訪問(wèn)數(shù)據(jù)庫(kù),算法的運(yùn)行時(shí)間將隨事務(wù)個(gè)數(shù)的增加而增加 平均事務(wù)長(zhǎng)度 事務(wù)長(zhǎng)度隨數(shù)據(jù)庫(kù)密度的增加而增加 可能會(huì)增加頻繁項(xiàng)集的最大長(zhǎng)度和散列樹的遍歷時(shí)間(因?yàn)槭聞?wù)的子集個(gè)數(shù)隨著其長(zhǎng)度的增加而增加),作業(yè),將Apriori算法應(yīng)用于下面的事務(wù)數(shù)據(jù)庫(kù),最小支持度為30%,畫出Apriori算法的運(yùn)行過(guò)程。 P253: 10,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,頻繁項(xiàng)集的緊湊表示,某些項(xiàng)集是冗余的,因?yàn)樗鼈兙哂信c它們超集相

14、同的支持度 頻繁項(xiàng)集的個(gè)數(shù) 需要緊湊的表示,最大頻繁項(xiàng)集,邊界,非頻繁項(xiàng)集,最大頻繁項(xiàng)集,如果一個(gè)頻繁項(xiàng)集沒(méi)有任何頻繁的直接超集,則該項(xiàng)集稱作最大頻繁項(xiàng)集,頻繁閉項(xiàng)集,如果一個(gè)項(xiàng)集的任何直接超集都不具有和它相同的支持度計(jì)數(shù),則該項(xiàng)集稱為閉項(xiàng)集 如果一個(gè)閉項(xiàng)集是頻繁的,則它稱為頻繁閉項(xiàng)集,最大頻繁項(xiàng)集 vs 頻繁閉項(xiàng)集,事務(wù)ID,不被任何事務(wù)支持,最大頻繁項(xiàng)集 vs 頻繁閉項(xiàng)集,最小支持度計(jì)數(shù) = 2,# 頻繁閉項(xiàng)集 = 9 # 最大頻繁項(xiàng)集 = 4,頻繁閉項(xiàng)集,而且是最大的,頻繁閉項(xiàng)集,但不是最大的,最大頻繁項(xiàng)集、頻繁閉項(xiàng)集和頻繁項(xiàng)集,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁

15、項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,產(chǎn)生頻繁項(xiàng)集的其他方法,項(xiàng)集格的遍歷 一般到特殊 vs 特殊到一般,產(chǎn)生頻繁項(xiàng)集的其他方法,項(xiàng)集格的遍歷 等價(jià)類,產(chǎn)生頻繁項(xiàng)集的其他方法,項(xiàng)集格的遍歷 寬度優(yōu)先 vs 深度優(yōu)先,產(chǎn)生頻繁項(xiàng)集的其他方法,事務(wù)數(shù)據(jù)庫(kù)的表示 水平數(shù)據(jù)布局 vs 垂直數(shù)據(jù)布局,FP增長(zhǎng)算法,使用事務(wù)數(shù)據(jù)庫(kù)的緊湊數(shù)據(jù)結(jié)構(gòu) FP樹 一旦FP樹構(gòu)建完成,該算法使用一個(gè)遞歸的分而治之的方法挖掘頻繁項(xiàng)集,FP樹的構(gòu)建,null,A:1,B:1,null,A:1,B:1,B:1,C:1,D:1,讀入 T

16、ID=1 后:,讀入 TID=2 后:,事務(wù)數(shù)據(jù)庫(kù)中已經(jīng)去掉非頻 繁的項(xiàng),并且事務(wù)中余下的 項(xiàng)已按照支持度遞減排序,FP樹的構(gòu)建,null,A:7,B:5,B:3,C:3,D:1,C:1,D:1,C:3,D:1,D:1,E:1,E:1,指針用于輔助頻繁項(xiàng)集生成,D:1,E:1,事務(wù)數(shù)據(jù)庫(kù),頭指針表,FP增長(zhǎng)過(guò)程,null,A:7,B:5,B:1,C:1,D:1,C:1,D:1,C:3,D:1,D:1,從D開始開始直到A逐個(gè)處理?xiàng)l件模式庫(kù) 關(guān)于D的條件模式庫(kù)是D的所有前綴路徑的集合: P = (A:1,B:1,C:1),(A:1,B:1), (A:1,C:1), (A:1), (B:1,C:1)

17、 對(duì)P遞歸應(yīng)用FP增長(zhǎng)過(guò)程 發(fā)現(xiàn)頻繁項(xiàng)集 (sup 1):AD, BD, CD, ACD, BCD,D:1,ECLAT算法,使用垂直數(shù)據(jù)布局:對(duì)于每個(gè)項(xiàng),保存事務(wù)ID列表 (TID列表),TID列表,ECLAT算法,通過(guò)計(jì)算兩個(gè)k-1子集的TID列表的交集,決定k-項(xiàng)集的TID列表 三種遍歷方法: 自頂向下、自底向上和混合方法 優(yōu)點(diǎn): 計(jì)算支持度很快 缺點(diǎn): 計(jì)算過(guò)程產(chǎn)生的TID列表可能占用很大內(nèi)存,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,規(guī)則產(chǎn)生,

18、給定一個(gè)頻繁項(xiàng)集L,尋找L的所有非空真子集 f 使 f Lf 的置信度大于等于給定的置信度閾值 如果A,B,C,D是頻繁項(xiàng)集,則候選的規(guī)則包括: ABC D, ABD C, ACD B, BCD A, A BCD,B ACD,C ABD, D ABCAB CD,AC BD, AD BC, BC AD, BD AC, CD AB, 如果|L| = k,則有2k 2個(gè)候選的關(guān)聯(lián)規(guī)則 (忽略 L 和 L),規(guī)則產(chǎn)生,如何從頻繁項(xiàng)集高效生成規(guī)則? 一般地說(shuō),置信度沒(méi)有反單調(diào)性質(zhì) 比如,c(ABC D) 可以大于或小于 c(AB D) 但從同一個(gè)項(xiàng)集生成的規(guī)則的置信度具有反單調(diào)性質(zhì) 比如,L = A,B

19、,C,D: c(ABC D) c(AB CD) c(A BCD) 針對(duì)規(guī)則后件的項(xiàng)集,置信度是反單調(diào)的: 如果規(guī)則 X YX 不滿足置信度閾值, 則形如XYX的規(guī)則也不滿足置信度閾值, 其中X是X的子集,規(guī)則產(chǎn)生的Apriori算法,規(guī)則格,低置信度規(guī)則,規(guī)則產(chǎn)生的Apriori算法,候選產(chǎn)生 候選規(guī)則通過(guò)合并兩個(gè)具有相同規(guī)則后件前綴的規(guī)則產(chǎn)生, 比如合并(CD=AB,BD=AC)得到候選規(guī)則D = ABC 候選前剪枝 如果規(guī)則 D=ABC的子集AD=BC 不滿足置信度閾值,則 刪除該規(guī)則 置信度計(jì)算 候選后剪枝,第6章:關(guān)聯(lián)分析 基本概念和算法,關(guān)聯(lián)分析的預(yù)備知識(shí) 頻繁項(xiàng)集的產(chǎn)生 頻繁項(xiàng)集產(chǎn)

20、生的優(yōu)化策略 計(jì)算復(fù)雜度的影響因素 頻繁項(xiàng)集的緊湊表示 產(chǎn)生頻繁項(xiàng)集的其他方法 規(guī)則產(chǎn)生 關(guān)聯(lián)模式的評(píng)估,關(guān)聯(lián)模式評(píng)估,關(guān)聯(lián)規(guī)則算法傾向于產(chǎn)生大量的規(guī)則 很多產(chǎn)生的規(guī)則是不感興趣的或冗余的 如果 A,B,C D 和 A,B D 具有相同的支持度和置信度,則A,B,C D 是冗余的 興趣度可以用于對(duì)產(chǎn)生的規(guī)則進(jìn)行過(guò)濾或排序 在原來(lái)的關(guān)聯(lián)規(guī)則定義中,支持度和置信度是唯一使用的度量,興趣度度量,客觀度量: 基于從數(shù)據(jù)推導(dǎo)出的統(tǒng)計(jì)量來(lái)確定模式是否有趣 比如21個(gè)關(guān)聯(lián)度量 (支持度、置信度、拉普拉斯、Gini指標(biāo)、互信息、Jaccard,等等) 主觀度量: 根據(jù)用戶的解釋來(lái)確定模式是否有趣 如果一個(gè)模式

21、揭示料想不到的信息,那么它是主觀有趣的 (Silberschatz & Tuzhilin) 如果一個(gè)模式是可操作的 (actionable),即提供導(dǎo)致有益行動(dòng)的有用信息,那么它是主觀有趣的 (Silberschatz & Tuzhilin),興趣度的應(yīng)用,計(jì)算客觀興趣度,給定規(guī)則 X Y,計(jì)算規(guī)則興趣度的信息可以從以下相依表(contingence table)中獲取,規(guī)則X Y的相依表,用于定義不同的度量 支持度、置信度、提升度、Gini、J度量,等等,f11: X和Y共現(xiàn)的支持度計(jì)數(shù)f10: X和Y共現(xiàn)的支持度計(jì)數(shù)f01: X和Y共現(xiàn)的支持度計(jì)數(shù)f00: X和Y共現(xiàn)的支持度計(jì)數(shù),支持度置信度的局限性,支持度的缺點(diǎn) 若支持度閾值過(guò)高,則許多潛在的有意義的模式被刪調(diào) 若支持度閾值過(guò)低,則計(jì)算代價(jià)很高而且產(chǎn)生大量的關(guān)聯(lián)模式 置信度的缺點(diǎn) 關(guān)聯(lián)規(guī)則: Tea Coffee 置信度 = P(Coffee|Tea) = 0.75 但 P(Coffee) = 0.9 雖然置信度很高,但規(guī)則是誤導(dǎo)的 置信度忽略了規(guī)則前件和后件的統(tǒng)計(jì)獨(dú)立性,統(tǒng)計(jì)獨(dú)立性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論