版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Python數(shù)據(jù)挖掘?qū)崙?zhàn)關(guān)聯(lián)規(guī)則第五章分析前言
正如一位冒險(xiǎn)家需要一把可靠的指南針一樣,我們?cè)跀?shù)據(jù)的海洋中也需要一種強(qiáng)大的工具來(lái)幫助我們發(fā)現(xiàn)項(xiàng)集之間的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)規(guī)則分析,作為數(shù)據(jù)挖掘的重要技術(shù)之一,正是為此而生。
關(guān)聯(lián)規(guī)則分析是一項(xiàng)非常重要的數(shù)據(jù)挖掘技術(shù),它能夠幫助我們揭示數(shù)據(jù)中的關(guān)聯(lián)關(guān)系和隱含規(guī)律。通過(guò)分析數(shù)據(jù)集中的項(xiàng)之間的相關(guān)性,我們可以獲得有價(jià)值的信息,為決策和預(yù)測(cè)提供支持。目錄概述Apriori算法FP-growth算法01概述"啤酒+尿布"——經(jīng)典關(guān)聯(lián)規(guī)則分析與應(yīng)用案例
20世紀(jì)80年代,美國(guó)一家大型零售商在對(duì)顧客購(gòu)買(mǎi)行為數(shù)據(jù)進(jìn)行分析時(shí)發(fā)現(xiàn),很多顧客在購(gòu)買(mǎi)尿布時(shí)會(huì)同時(shí)購(gòu)買(mǎi)啤酒。
經(jīng)研究發(fā)現(xiàn),這種購(gòu)買(mǎi)行為主要發(fā)生在年輕的父親身上;這些年輕父親通常在下班后會(huì)順便去超市購(gòu)買(mǎi)尿布,但他們又不愿意只購(gòu)買(mǎi)尿布就回家,因此他們會(huì)順便購(gòu)買(mǎi)一些啤酒作為獎(jiǎng)勵(lì)或放松。
基于以上研究,零售商將尿布和啤酒放在了相鄰位置,還提供了針對(duì)購(gòu)買(mǎi)尿布顧客的啤酒優(yōu)惠券或推廣活動(dòng),以進(jìn)一步提高銷(xiāo)售額。
關(guān)聯(lián)規(guī)則分析又稱(chēng)關(guān)聯(lián)挖掘,即在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu),從而捕捉那些看起來(lái)不相關(guān)事物之間的關(guān)聯(lián),以便更深刻地認(rèn)識(shí)事物之間的關(guān)聯(lián)。
5.1.1.概念1993年Apriori算法2000年FP-growth算法事務(wù)與事務(wù)集5.1.1.概念事務(wù):在數(shù)據(jù)集中的一個(gè)事件或記錄事務(wù)集:數(shù)據(jù)集中的所有事務(wù)的集合項(xiàng)與項(xiàng)集項(xiàng):事務(wù)中的一個(gè)元素或特征項(xiàng)集:在一個(gè)事務(wù)中同時(shí)出現(xiàn)的項(xiàng)的集合頻繁項(xiàng)集頻繁:某一項(xiàng)集在事務(wù)數(shù)據(jù)集中出現(xiàn)的次數(shù)達(dá)到了一個(gè)預(yù)先設(shè)定的最小閾值頻繁項(xiàng)集:出現(xiàn)頻率較高的項(xiàng)的集合關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是一種“如果...那么...”形式的規(guī)則,描述了數(shù)據(jù)集中的項(xiàng)之間的關(guān)系基本概念例5-1假設(shè)有一個(gè)小型咖啡館的5條購(gòu)買(mǎi)記錄,記錄了每位顧客的購(gòu)買(mǎi)情況5.1.1.概念1.事務(wù)與事務(wù)集訂單中,每一行數(shù)據(jù)代表一個(gè)顧客的購(gòu)物籃,比如顧客1的訂單包含了咖啡和橙汁,這就是一個(gè)事務(wù)。所有這些訂單的集合就構(gòu)成了事務(wù)集。2.項(xiàng)與項(xiàng)集在每個(gè)訂單中,商品就是項(xiàng)。比如,顧客1的訂單中的項(xiàng)是咖啡和橙汁。而項(xiàng)集則是在同一個(gè)訂單中同時(shí)出現(xiàn)的項(xiàng)的集合。比如,顧客3的訂單中同時(shí)出現(xiàn)了咖啡、橙汁和面包,這就是一個(gè)三項(xiàng)集。3.頻繁項(xiàng)集如果我們?cè)O(shè)定一個(gè)最小閾值,比如出現(xiàn)次數(shù)超過(guò)2次,那么{咖啡}、{橙汁}、{面包}都可以被稱(chēng)為頻繁項(xiàng)集,因?yàn)樗鼈冊(cè)谟唵沃械某霈F(xiàn)次數(shù)都超過(guò)了2次。4.關(guān)聯(lián)規(guī)則基于頻繁項(xiàng)集可以找到關(guān)聯(lián)規(guī)則,比如{咖啡,橙汁}=>{面包}規(guī)則,這意味著如果顧客購(gòu)買(mǎi)了咖啡和橙汁,那么他們也有可能購(gòu)買(mǎi)面包。支持度(support)5.1.1.概念支持度指一個(gè)事務(wù)數(shù)據(jù)集中包含某個(gè)項(xiàng)集的事務(wù)數(shù)與總事務(wù)數(shù)之間的比例。支持度越高,說(shuō)明該項(xiàng)集出現(xiàn)的頻率越高置信度(confidence)置信度指在一個(gè)項(xiàng)集出現(xiàn)的事務(wù)中,另一個(gè)項(xiàng)集也出現(xiàn)的概率。置信度越高,說(shuō)明兩個(gè)項(xiàng)集之間的關(guān)聯(lián)性越強(qiáng)衡量指標(biāo)提升度(lift)提升度用于衡量?jī)蓚€(gè)項(xiàng)集之間的關(guān)聯(lián)程度。提升度的值越大,表示兩個(gè)項(xiàng)集之間的關(guān)聯(lián)性越強(qiáng)關(guān)聯(lián)規(guī)則分析的核心是尋找數(shù)據(jù)集中項(xiàng)之間存在的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.1.2.原理步驟包含n項(xiàng)的總項(xiàng)集
如何判斷挖掘到的子項(xiàng)集或者規(guī)則是否意義5.1.2.原理步驟1.從數(shù)據(jù)集中尋找頻繁項(xiàng)集1)遍歷對(duì)象之間所有可能的組合,每種組合構(gòu)成一個(gè)候選項(xiàng)集2)對(duì)于每一個(gè)項(xiàng)集A,計(jì)算A的支持度3)返回所有支持度大于指定閾值的項(xiàng)集,作為頻繁項(xiàng)集,其余項(xiàng)集刪除剪枝4)通過(guò)迭代的方式生成更大的候選項(xiàng)集和頻繁項(xiàng)集,直到?jīng)]有更大的候選項(xiàng)集可以生成為止2.從頻繁項(xiàng)集中生成關(guān)聯(lián)規(guī)則1)對(duì)于每個(gè)頻繁項(xiàng)集,根據(jù)其包含的項(xiàng)數(shù),生成關(guān)聯(lián)規(guī)則2)對(duì)于每個(gè)頻繁項(xiàng)集的子集,計(jì)算置信度并與最小置信度閾值進(jìn)行比較3)返回置信度大于等于最小置信度閾值的強(qiáng)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則分析的應(yīng)用領(lǐng)域非常廣泛,涵蓋了市場(chǎng)營(yíng)銷(xiāo)、推薦系統(tǒng)、醫(yī)療、交通、社交網(wǎng)絡(luò)等多個(gè)領(lǐng)域。5.1.3.應(yīng)用領(lǐng)域02Apriori算法為了解決挖掘大規(guī)模頻繁項(xiàng)集時(shí)項(xiàng)集組合爆炸這一問(wèn)題,Apriori算法提出了兩個(gè)基本原理:5.2.1.基本原理1.先驗(yàn)原理:如果某個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的2.支持度反單調(diào)性:如果某個(gè)項(xiàng)集不是頻繁項(xiàng)集,那么它的超集(即包含它的所有項(xiàng)集)也一定不是頻繁項(xiàng)集Apriori算法流程包括頻繁項(xiàng)集的生成和剪枝,以及關(guān)聯(lián)規(guī)則的生成和過(guò)濾。5.2.2.算法流程頻繁項(xiàng)集的生成和剪枝:1)掃描數(shù)據(jù)集,從數(shù)據(jù)集中生成候選k項(xiàng)集;2)計(jì)算每個(gè)項(xiàng)集的支持度,刪除低于閾值的項(xiàng)集(剪枝),構(gòu)成頻繁項(xiàng)集;3)將頻繁項(xiàng)集中的元素進(jìn)行組合,生成候選k+1項(xiàng)集;4)重復(fù)步驟2)、3),直到滿(mǎn)足以下兩個(gè)條件之一時(shí),算法結(jié)束。(1)頻繁項(xiàng)集無(wú)法組合生成候選k+1項(xiàng)集;(2)所有候選k項(xiàng)集支持度都低于指定的最小支持度,無(wú)法生成頻繁k項(xiàng)集。Apriori算法流程包括頻繁項(xiàng)集的生成和剪枝,以及關(guān)聯(lián)規(guī)則的生成和過(guò)濾。5.2.2.算法流程關(guān)聯(lián)規(guī)則的生成和過(guò)濾:當(dāng)產(chǎn)生頻繁項(xiàng)集后,將每個(gè)頻繁項(xiàng)集拆分成兩個(gè)非空子集,使用這兩個(gè)子集來(lái)構(gòu)成關(guān)聯(lián)規(guī)則。
針對(duì)每一個(gè)關(guān)聯(lián)規(guī)則,分別計(jì)算其置信度,僅保留大于等于最小置信度的關(guān)聯(lián)規(guī)則,得到強(qiáng)關(guān)聯(lián)規(guī)則。
5.2.2.算法流程
例5-3有5條購(gòu)物商品訂單記錄,每條記錄表示一個(gè)顧客的購(gòu)物籃內(nèi)容。假設(shè)最小支持度為0.5,最小置信度為0.7,通過(guò)5條記錄,生成頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.2.2.算法流程1.準(zhǔn)備工作例5-3有5條購(gòu)物商品訂單記錄,每條記錄表示一個(gè)顧客的購(gòu)物籃內(nèi)容。假設(shè)最小支持度為0.5,最小置信度為0.7,通過(guò)5條記錄,生成頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.2.2.算法流程2.頻繁項(xiàng)集的生成和剪枝例5-3有5條購(gòu)物商品訂單記錄,每條記錄表示一個(gè)顧客的購(gòu)物籃內(nèi)容。假設(shè)最小支持度為0.5,最小置信度為0.7,通過(guò)5條記錄,生成頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.2.2.算法流程2.頻繁項(xiàng)集的生成和剪枝例5-3有5條購(gòu)物商品訂單記錄,每條記錄表示一個(gè)顧客的購(gòu)物籃內(nèi)容。假設(shè)最小支持度為0.5,最小置信度為0.7,通過(guò)5條記錄,生成頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.2.2.算法流程2.頻繁項(xiàng)集的生成和剪枝例5-3有5條購(gòu)物商品訂單記錄,每條記錄表示一個(gè)顧客的購(gòu)物籃內(nèi)容。假設(shè)最小支持度為0.5,最小置信度為0.7,通過(guò)5條記錄,生成頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.2.2.算法流程3.關(guān)聯(lián)規(guī)則的生成和過(guò)濾例5-3有5條購(gòu)物商品訂單記錄,每條記錄表示一個(gè)顧客的購(gòu)物籃內(nèi)容。假設(shè)最小支持度為0.5,最小置信度為0.7,通過(guò)5條記錄,生成頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。5.2.2.算法流程3.關(guān)聯(lián)規(guī)則的生成和過(guò)濾5.2.3.實(shí)戰(zhàn)準(zhǔn)備三個(gè)實(shí)用的工具包:efficient_apriori、mlxtend、apyori使用“pipinstall工具包名”命令下載安裝5.2.3.實(shí)戰(zhàn)準(zhǔn)備算法優(yōu)點(diǎn)缺點(diǎn)efficient_apriori算法效率高,適用于大規(guī)模數(shù)據(jù)集的頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則挖掘;提供了較為簡(jiǎn)潔的API,易于使用和理解;支持自定義的數(shù)據(jù)格式,靈活性較高。功能相對(duì)比較簡(jiǎn)單,僅支持關(guān)聯(lián)規(guī)則挖掘。mlxtend功能豐富,除了Apriori算法,還提供了其他常用的數(shù)據(jù)挖掘算法和工具;集成了pandas數(shù)據(jù)結(jié)構(gòu),方便數(shù)據(jù)預(yù)處理和結(jié)果分析;提供了可視化工具,便于結(jié)果展示和解釋。算法效率較低,處理大規(guī)模數(shù)據(jù)集時(shí)速度較慢;對(duì)于一些數(shù)據(jù)類(lèi)型(如文本數(shù)據(jù))的處理能力相對(duì)較弱。apyori簡(jiǎn)潔輕量,代碼量少,易于理解和修改;不依賴(lài)于其他第三方庫(kù),安裝和使用簡(jiǎn)單。功能相對(duì)較少,僅支持Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。5.2.3.實(shí)戰(zhàn)準(zhǔn)備1.efficient_apriori主要函數(shù):apriori常用參數(shù):transactions:數(shù)據(jù)集,必須是一個(gè)列表,其中每個(gè)元素是一個(gè)集合(表示一條交易記錄)min_support:最小支持度閾值,用于篩選頻繁項(xiàng)集,默認(rèn)為0.5min_confidence:最小置信度閾值,用于篩選關(guān)聯(lián)規(guī)則,默認(rèn)為0.5max_length:頻繁項(xiàng)集的最大長(zhǎng)度,默認(rèn)為None,表示不限制最大長(zhǎng)度verbosity:輸出信息的詳細(xì)程度,默認(rèn)為1,可選值為0(不輸出)和1(輸出)target:關(guān)聯(lián)規(guī)則的目標(biāo)類(lèi)型,默認(rèn)為"rules",可以選擇"associations"或"items"fromefficient_aprioriimportaprioriitemsets,rules=apriori(transactions,min_support=0.5,min_confidence=0.2)5.2.3.實(shí)戰(zhàn)準(zhǔn)備2.MLxtend主要函數(shù):1)apriori函數(shù)常用參數(shù):df:需要進(jìn)行關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集,這是必須提供的參數(shù),沒(méi)有默認(rèn)值。min_support(默認(rèn)為0.5):最小支持度,用于篩選頻繁項(xiàng)集。use_colnames(默認(rèn)為False):是否將列名用作項(xiàng)名。若為T(mén)rue,則項(xiàng)名將是列名的字符串,否則將是列名的整數(shù)索引。max_len(默認(rèn)為None):頻繁項(xiàng)集的最大長(zhǎng)度。如果為None,則不限制長(zhǎng)度。verbose(默認(rèn)為0):用于控制輸出的詳細(xì)程度。0表示不輸出任何信息,大于0的數(shù)表示輸出頻繁項(xiàng)集的數(shù)量。frommlxtend.frequent_patternsimportapriorifrequent_itemsets=apriori(df,min_support=0.5,use_colnames=True)5.2.3.實(shí)戰(zhàn)準(zhǔn)備2.MLxtend主要函數(shù):2)association_rules函數(shù)常用參數(shù):df:需要生成關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集,這是必須提供的參數(shù),沒(méi)有默認(rèn)值。metric(默認(rèn)為"confidence"):用于評(píng)估關(guān)聯(lián)規(guī)則的度量。可以選擇"support"、"confidence"、"lift"、"leverage"和"conviction"。min_threshold(默認(rèn)為0.8):度量的最小閾值,用于篩選關(guān)聯(lián)規(guī)則。frommlxtend.frequent_patternsimportassociation_rulesrules=association_rules(frequent_itemsets,metric="confidence",min_threshold=0.8)5.2.3.實(shí)戰(zhàn)準(zhǔn)備3.apyori主要函數(shù):apriori函數(shù)常用參數(shù):transactions:一個(gè)包含交易數(shù)據(jù)的可迭代對(duì)象,如列表或集合。這是唯一一個(gè)必須提供的參數(shù)min_support(默認(rèn)為0.1):最小支持度,用于篩選頻繁項(xiàng)集。支持度是項(xiàng)集在所有交易中出現(xiàn)的頻率min_confidence(默認(rèn)為0.0):最小置信度,用于篩選關(guān)聯(lián)規(guī)則。置信度是一條規(guī)則的前項(xiàng)和后項(xiàng)同時(shí)出現(xiàn)的概率min_lift(默認(rèn)為0.0):最小提升度,用于篩選關(guān)聯(lián)規(guī)則。提升度是一條規(guī)則的置信度除以其后項(xiàng)的支持度max_length(默認(rèn)為None):頻繁項(xiàng)集的最大長(zhǎng)度。如果為None,則不限制長(zhǎng)度。fromapyoriimportapriorirules=apriori(transactions,min_support=0.5,min_confidence=0.2,min_lift=1.0,max_length=2)03FP-growth算法FP:頻繁模式(FrequentPattern)growth:通過(guò)樹(shù)的生長(zhǎng)來(lái)實(shí)現(xiàn)頻繁模式的挖掘條件模式基:條件模式基是指從某個(gè)項(xiàng)的節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑上的所有事務(wù)集合。5.3.1.基本原理FP-growth算法基本原理:通過(guò)構(gòu)建FP樹(shù)來(lái)壓縮事務(wù)數(shù)據(jù)集遞歸處理FP樹(shù)的每個(gè)節(jié)點(diǎn),通過(guò)連接該節(jié)點(diǎn)的條件模式基,構(gòu)建新的FP樹(shù),然后繼續(xù)挖掘頻繁模式構(gòu)建FP樹(shù)方法:把事務(wù)數(shù)據(jù)表中的各個(gè)事務(wù)數(shù)據(jù)項(xiàng)按照支持度排序把每個(gè)事務(wù)中的數(shù)據(jù)項(xiàng)按降序依次插入到一棵以NULL為根結(jié)點(diǎn)的樹(shù)中在每個(gè)結(jié)點(diǎn)處記錄該結(jié)點(diǎn)出現(xiàn)的支持度5.3.1.基本原理FP-growth算法引入了一些數(shù)據(jù)結(jié)構(gòu)來(lái)臨時(shí)存儲(chǔ)數(shù)據(jù),該數(shù)據(jù)結(jié)構(gòu)包括三部分:項(xiàng)頭表、FP樹(shù)、節(jié)點(diǎn)鏈5.3.1.基本原理5.3.2.算法流程1.項(xiàng)頭表的建立建立項(xiàng)頭表需要經(jīng)歷兩次掃描數(shù)據(jù)集。1)第一次掃描數(shù)據(jù),得到所有頻繁一項(xiàng)集的的計(jì)數(shù)2)刪除支持度低于閾值的項(xiàng),將1項(xiàng)頻繁集放入項(xiàng)頭表,并按照支持度降序排列3)第二次掃描數(shù)據(jù)時(shí),對(duì)于每條數(shù)據(jù)剔除非頻繁1項(xiàng)集,并按照支持度降序排列2.FPTree的建立1)遍歷讀取排序后的數(shù)據(jù)集,插入FP樹(shù),插入時(shí)按照排序后的順序2)如果有共用的祖先,則對(duì)應(yīng)的公用祖先節(jié)點(diǎn)計(jì)數(shù)加13)如果有新節(jié)點(diǎn)出現(xiàn),則項(xiàng)頭表對(duì)應(yīng)的節(jié)點(diǎn)會(huì)通過(guò)節(jié)點(diǎn)鏈表鏈接上新節(jié)點(diǎn)4)直到所有的數(shù)據(jù)都插入到FP樹(shù)后,F(xiàn)P樹(shù)的建立完成5.3.2.算法流程1.項(xiàng)頭表的建立第一次掃描數(shù)據(jù),對(duì)1項(xiàng)集計(jì)數(shù),其中可以發(fā)現(xiàn)A、B、C、D、E、F分別出現(xiàn)4、3、3、2、2、1次,根據(jù)設(shè)定的支持度閾值30%,過(guò)濾掉F,那么剩下的A、C、E、B、D按照支持度的大小降序排列,組成項(xiàng)頭表。通過(guò)兩次掃描,項(xiàng)頭表建立完畢,并得到排序后的數(shù)據(jù)集。例5-6假設(shè)有一數(shù)據(jù)集包含5條數(shù)據(jù),如圖所示,假設(shè)最小支持度為30%,對(duì)其進(jìn)行FPTree的建立。5.3.2.算法流程例5-6假設(shè)有一數(shù)據(jù)集包含5條數(shù)據(jù),如圖所示,假設(shè)最小支持度為30%,對(duì)其進(jìn)行FPTree的建立2.FPTree的建立插入第1條數(shù)據(jù)ACEBF,此時(shí)FP樹(shù)沒(méi)有節(jié)點(diǎn),因此ACEBD是一個(gè)獨(dú)立的路徑,所有節(jié)點(diǎn)計(jì)數(shù)為1,項(xiàng)頭表通過(guò)節(jié)點(diǎn)鏈表鏈接上對(duì)應(yīng)的新增節(jié)點(diǎn)插入第2條數(shù)據(jù)ACE,由于A(yíng)CE和現(xiàn)有的FP樹(shù)可以有共有的祖先節(jié)點(diǎn)序列ACE,因此A、C、E的計(jì)數(shù)加1成為2。5.3.2.算法流程例5-6假設(shè)有一數(shù)據(jù)集包含5條數(shù)據(jù),如圖所示,假設(shè)最小支持度為30%,對(duì)其進(jìn)行FPTree的建立2.FPTree的建立參考以上步驟更新后面3條數(shù)據(jù),得到最終的FP-Tree5.3.2.算法流程3.頻繁項(xiàng)集的挖掘基于FP樹(shù)、項(xiàng)頭表以及節(jié)點(diǎn)鏈表來(lái)挖掘頻繁項(xiàng)集,首先要從項(xiàng)頭表的底部項(xiàng)依次向上挖掘。項(xiàng)頭表對(duì)應(yīng)于FP樹(shù)的每一項(xiàng),要找到它的條件模式基,即要挖掘葉子節(jié)點(diǎn)所對(duì)應(yīng)的FP子樹(shù),將子樹(shù)中每個(gè)節(jié)點(diǎn)的的計(jì)數(shù)設(shè)置為葉子節(jié)點(diǎn)的計(jì)數(shù),并刪除計(jì)數(shù)低于支持度的節(jié)點(diǎn)?;谠摋l件模式基,可以遞歸挖掘得到頻繁項(xiàng)集。找到一個(gè)項(xiàng)對(duì)應(yīng)的所有條件模式基之后,可以利用條件模式基的集合創(chuàng)建條件FP-Tree迭代收集頻繁項(xiàng)集。5.3.2.算法流程例5-7以例5-6數(shù)據(jù)集的5條數(shù)據(jù)為例,假設(shè)最小支持度為30%,對(duì)其進(jìn)行條件模式基和頻繁項(xiàng)集的挖掘。D的頻繁2項(xiàng)集為{A:2,D:1},{C:1,D:1},{E:1,D:1},{B:1,D:1}。頻繁3項(xiàng)集為{A:2,C:1,D:1},{A:2,E:1,D:1},……最大的頻繁項(xiàng)集為頻繁5項(xiàng)集,為{A:2,C:1,E:1,B:1,D:1}。5.3.2.算法流程例5-7以例5-6數(shù)據(jù)集的5條數(shù)據(jù)為例,假設(shè)最小支持度為30%,對(duì)其進(jìn)行條件模式基和頻繁項(xiàng)集的挖掘。B的頻繁2項(xiàng)集為{A:2,B:2},{C:2,B:2}。B對(duì)應(yīng)的最大的頻繁項(xiàng)集為頻繁3項(xiàng)集,頻繁3項(xiàng)集為{A:2,C:2,B:2}。5.3.2.算法流程例5-7以例5-6數(shù)據(jù)集的5條數(shù)據(jù)為例,假設(shè)最小支持度為30%,對(duì)其進(jìn)行條件模式基和頻繁項(xiàng)集的挖掘。5.3.3.實(shí)戰(zhàn)準(zhǔn)備1.Mlxtend主要函數(shù):mlxtend.frequent_patterns.fpgrowth常用參數(shù):df:一個(gè)pandasDataFrame,其中每一列代表一個(gè)項(xiàng),每一行代表一個(gè)交易。項(xiàng)的值應(yīng)為布爾值或二進(jìn)制值min_support(默認(rèn)為0.5):最小支持度,用于篩選頻繁項(xiàng)集use_colnames(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國(guó)中醫(yī)科學(xué)院廣安門(mén)醫(yī)院公開(kāi)招聘合同制工作人員5人備考題庫(kù)及一套參考答案詳解
- 2025年合肥工業(yè)大學(xué)MBAMPA管理中心人員招聘?jìng)淇碱}庫(kù)有答案詳解
- 2026年桂林山水職業(yè)學(xué)院?jiǎn)握校ㄓ?jì)算機(jī))測(cè)試備考題庫(kù)及答案1套
- 2026年上海中醫(yī)藥大學(xué)單招(計(jì)算機(jī))測(cè)試備考題庫(kù)及答案1套
- 倒虹吸管道施工方案
- 2025年云南經(jīng)貿(mào)外事職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)附答案
- 2026年天津城市建設(shè)管理職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試模擬測(cè)試卷附答案
- 2025至2030自行車(chē)和滑板車(chē)租賃行業(yè)調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 汽車(chē)代理合同范本
- 汽車(chē)委托協(xié)議合同
- 咖啡店5s管理制度
- 供電營(yíng)業(yè)規(guī)則(2024版)
- T/SSBME 1-2024醫(yī)療器械上市后研究和風(fēng)險(xiǎn)管控計(jì)劃編寫(xiě)指南
- 鋼筋棚拆除合同范本
- 斷絕親子協(xié)議書(shū)
- 【MOOC答案】《光纖光學(xué)》(華中科技大學(xué))章節(jié)作業(yè)期末慕課答案
- 小學(xué)生班級(jí)管理交流課件
- DB21T 3722.7-2025高標(biāo)準(zhǔn)農(nóng)田建設(shè)指南 第7部分:高標(biāo)準(zhǔn)農(nóng)田工程施工質(zhì)量評(píng)定規(guī)范
- 近八年寧夏中考數(shù)學(xué)試卷真題及答案2024
- 超星爾雅學(xué)習(xí)通《帶您走進(jìn)西藏(西藏民族大學(xué))》2025章節(jié)測(cè)試附答案
- 超星爾雅學(xué)習(xí)通《科學(xué)計(jì)算與MATLAB語(yǔ)言(中南大學(xué))》2025章節(jié)測(cè)試附答案
評(píng)論
0/150
提交評(píng)論