人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第七章 關(guān)聯(lián)規(guī)則分析_第1頁(yè)
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第七章 關(guān)聯(lián)規(guī)則分析_第2頁(yè)
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第七章 關(guān)聯(lián)規(guī)則分析_第3頁(yè)
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第七章 關(guān)聯(lián)規(guī)則分析_第4頁(yè)
人工智能與商業(yè)數(shù)據(jù)挖掘-思維、方法與案例 課件 第七章 關(guān)聯(lián)規(guī)則分析_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章關(guān)聯(lián)規(guī)則分析CATALOGUE目錄02關(guān)聯(lián)規(guī)則分析的商業(yè)應(yīng)用場(chǎng)景01課前導(dǎo)讀03常見(jiàn)的關(guān)聯(lián)規(guī)則分析算法04關(guān)聯(lián)規(guī)則分析的Python實(shí)現(xiàn)方式01PART課前導(dǎo)讀20世紀(jì)90年代,美國(guó)沃爾瑪超市通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn),啤酒與尿布經(jīng)常一起售出。年輕父親周五采購(gòu)尿布時(shí),順便買啤酒在家看球賽。沃爾瑪據(jù)此調(diào)整貨架,將兩者關(guān)聯(lián)陳列,提高銷售。但現(xiàn)實(shí)中啤酒因管制單獨(dú)放置,故事真實(shí)性備受爭(zhēng)議。課前導(dǎo)讀:啤酒與尿布的故事啤酒與尿布:風(fēng)馬牛不相及的組合?這個(gè)“經(jīng)典”案例是真實(shí)發(fā)現(xiàn)還是坊間傳說(shuō)?為什么啤酒和尿布會(huì)相關(guān)?請(qǐng)同學(xué)們思考:數(shù)據(jù)挖掘如何揭示隱藏模式?這對(duì)零售決策有何啟發(fā)?年輕夫婦周末在家照顧孩子,父親買尿布時(shí)順帶啤酒,享受沙發(fā)看球時(shí)光。課前導(dǎo)讀:啤酒與尿布的故事啤酒與尿布的合理解釋這一模式源于客戶生活習(xí)慣,沃爾瑪調(diào)整貨架后銷售提升,標(biāo)志關(guān)聯(lián)規(guī)則分析在零售落地。但故事細(xì)節(jié)如貨架調(diào)整可能為傳說(shuō),強(qiáng)調(diào)數(shù)據(jù)揭示意外驚喜的價(jià)值。故事多次“據(jù)說(shuō)”,現(xiàn)實(shí)中啤酒單獨(dú)放置,無(wú)法驗(yàn)證,成為坊間傳說(shuō)。但思想超越案例:數(shù)據(jù)驅(qū)動(dòng)決策、關(guān)注客戶需求、創(chuàng)新?tīng)I(yíng)銷。課前導(dǎo)讀:啤酒與尿布的故事臭名昭著的傳說(shuō):真實(shí)性爭(zhēng)議盡管爭(zhēng)議,案例傳遞數(shù)據(jù)分析優(yōu)化業(yè)務(wù)、客戶視角思考、打破傳統(tǒng)營(yíng)銷。Forbes1998年報(bào)道確認(rèn)類似相關(guān)性發(fā)現(xiàn),但細(xì)節(jié)模糊。傳說(shuō)中的貨架現(xiàn)實(shí)中的貨架啟發(fā)企業(yè)重視數(shù)據(jù)收集、客戶習(xí)慣分析、創(chuàng)新策略;關(guān)鍵技術(shù)是關(guān)聯(lián)規(guī)則分析。課前導(dǎo)讀:啤酒與尿布的故事從啤酒尿布到關(guān)聯(lián)規(guī)則超越故事,強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng)落地。本章學(xué)習(xí)關(guān)聯(lián)規(guī)則,支持零售等場(chǎng)景挖掘隱藏關(guān)系,提升業(yè)績(jī)。關(guān)聯(lián)規(guī)則流程圖(數(shù)據(jù)輸入

模式發(fā)現(xiàn)

決策輸出)主要內(nèi)容關(guān)聯(lián)規(guī)則分析定義、原理、類型、應(yīng)用及算法(Apriori、FP-Growth),幫助讀者熟悉商業(yè)場(chǎng)景,掌握需求驅(qū)動(dòng)的關(guān)聯(lián)規(guī)則分析。本章重點(diǎn)關(guān)聯(lián)規(guī)則分析適用的商業(yè)應(yīng)用場(chǎng)景;關(guān)聯(lián)規(guī)則分析算法的原理;常見(jiàn)的關(guān)聯(lián)規(guī)則算法;關(guān)聯(lián)規(guī)則性能的評(píng)估方法。本章難點(diǎn)關(guān)聯(lián)規(guī)則分析適用的商業(yè)應(yīng)用場(chǎng)景;關(guān)聯(lián)規(guī)則分析算法的原理;關(guān)聯(lián)規(guī)則分析性能評(píng)估的方法。學(xué)習(xí)目標(biāo)理解關(guān)聯(lián)規(guī)則定義、原理、評(píng)價(jià)及過(guò)程;熟悉商業(yè)場(chǎng)景;掌握Apriori、FP-Growth算法;實(shí)現(xiàn)Python關(guān)聯(lián)規(guī)則分析;撰寫分類分析報(bào)告。本章要點(diǎn)02PART關(guān)聯(lián)規(guī)則分析的商業(yè)應(yīng)用場(chǎng)景關(guān)聯(lián)規(guī)則分析的基礎(chǔ)知識(shí)基本概念關(guān)聯(lián)規(guī)則分析(AssociationAnalysis或AssociationRuleMining)指的是從大量事務(wù)數(shù)據(jù)中發(fā)現(xiàn)有趣的、潛在的、有用的模式。這些模式通常以關(guān)聯(lián)規(guī)則的形式表示,揭示了不同項(xiàng)之間的關(guān)聯(lián)關(guān)系。常見(jiàn)的關(guān)聯(lián)規(guī)則分析算法包含Apriori算法、FP-Growth算法等。學(xué)習(xí)關(guān)聯(lián)規(guī)則分析之前,需要明確幾個(gè)基本概念:項(xiàng)、項(xiàng)集和事務(wù)。項(xiàng)(Item)是數(shù)據(jù)集中最小的不可分割的單位;項(xiàng)集(Itemset)是由一個(gè)或多個(gè)項(xiàng)組成的集合事務(wù)(Transaction)是一個(gè)項(xiàng)集的實(shí)例,表示一次完整的購(gòu)物行為或事件01關(guān)聯(lián)規(guī)則分析的基礎(chǔ)知識(shí)度量指標(biāo)關(guān)聯(lián)規(guī)則指的是一種形如“如果A,則B”關(guān)聯(lián)形式,A和B都是項(xiàng)集,表示當(dāng)事務(wù)中包含A時(shí),同時(shí)也包含B的可能性。評(píng)估關(guān)聯(lián)規(guī)則有效性經(jīng)常使用支持度(Support)、置信度(Confidence)、提升度(Lift)等三個(gè)度量指標(biāo)。(1)支持度表示同時(shí)包含A和B的事務(wù)占總事務(wù)數(shù)的比例,反映了A和B同時(shí)出現(xiàn)的頻率。一般來(lái)說(shuō),支持度高的規(guī)則通常更具有代表性,更值得關(guān)注。對(duì)于項(xiàng)集X,它的支持度Support(X)計(jì)算方式如下:假設(shè)D是一個(gè)事務(wù)的集合,I是所有項(xiàng)的集合,X是一個(gè)項(xiàng)集、即I的一個(gè)子集,那么支持度的計(jì)算公式為:其中,count(X)表示包含項(xiàng)集X的事務(wù)數(shù)量,|D|表示事務(wù)的總數(shù)。02關(guān)聯(lián)規(guī)則分析的基礎(chǔ)知識(shí)度量指標(biāo)(2)置信度表示在包含A(即前件,Antecedent)的事務(wù)中也包含B(后件,Consequent)的比例,反映了A對(duì)B的預(yù)測(cè)準(zhǔn)確性。也就是說(shuō),置信度越高,規(guī)則越可靠,即前件對(duì)后件的預(yù)測(cè)能力越強(qiáng)。因此,置信度可以用來(lái)評(píng)估規(guī)則的預(yù)測(cè)能力。規(guī)則A→B的置信度Confidence(A→B)的計(jì)算方式為:其中,Support(A∪B)表示同時(shí)包含A和B的事務(wù)數(shù)量占總事務(wù)數(shù)量的比例,Support(A)表示包含A的事務(wù)數(shù)量占總事務(wù)數(shù)量的比例。(3)提升度用于衡量?jī)蓚€(gè)項(xiàng)集之間關(guān)聯(lián)的強(qiáng)度,可以更準(zhǔn)確地反映出兩個(gè)項(xiàng)集之間的相關(guān)性。相較于置信度,提升度能更好地排除偶然性的影響。對(duì)于項(xiàng)集A和B,它們的提升度計(jì)算公式為:其中,Confidence(A→B)表示在包含A的事務(wù)中,同時(shí)包含B的事務(wù)所占的比例,Support(B)表示包含B的所有事務(wù)占總事務(wù)數(shù)的比例。02關(guān)聯(lián)規(guī)則分析的基礎(chǔ)知識(shí)關(guān)聯(lián)規(guī)則的類型在關(guān)聯(lián)規(guī)則分析中,根據(jù)規(guī)則的形式和適用場(chǎng)景,可將關(guān)聯(lián)規(guī)則分為以下幾種主要類型:正向關(guān)聯(lián)規(guī)則(ForwardAssociationRule):正向關(guān)聯(lián)規(guī)則是最常見(jiàn)的關(guān)聯(lián)規(guī)則形式,形如“如果A,則B”。它表示當(dāng)事務(wù)中包含A時(shí),也包含B的可能性較高。正向關(guān)聯(lián)規(guī)則在市場(chǎng)營(yíng)銷、商品推薦等領(lǐng)域有著廣泛的應(yīng)用。反向關(guān)聯(lián)規(guī)則(BackwardAssociationRule):反向關(guān)聯(lián)規(guī)則是相對(duì)于正向關(guān)聯(lián)規(guī)則而言的,形如“如果B,則A”。它表示當(dāng)事務(wù)中包含B時(shí),也包含A的可能性較高。雖然反向關(guān)聯(lián)規(guī)則在實(shí)際應(yīng)用中相對(duì)較少,但在某些特定場(chǎng)景下,如逆向物流、故障預(yù)測(cè)等領(lǐng)域,可能具有潛在的應(yīng)用價(jià)值。值得注意的是,關(guān)聯(lián)規(guī)則的挖掘并不局限于這兩種類型。根據(jù)具體的應(yīng)用場(chǎng)景和數(shù)據(jù)特點(diǎn),還可以挖掘出其他類型的關(guān)聯(lián)規(guī)則,如,項(xiàng)集間的關(guān)聯(lián)規(guī)則、序列關(guān)聯(lián)規(guī)則等。這些不同類型的關(guān)聯(lián)規(guī)則,為數(shù)據(jù)挖掘提供了更加豐富的視角和工具。03關(guān)聯(lián)規(guī)則分析在商業(yè)領(lǐng)域的應(yīng)用個(gè)性化推薦關(guān)聯(lián)規(guī)則分析挖掘用戶在不同內(nèi)容之間的偏好和關(guān)聯(lián)性,生成個(gè)性化的內(nèi)容推薦列表,提高用戶的粘性和活躍度。優(yōu)化營(yíng)銷策略超市通過(guò)關(guān)聯(lián)規(guī)則分析找出頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則,篩選出符合自己需求的關(guān)聯(lián)規(guī)則,并采取合適的促銷策略,如“面包+牛奶”優(yōu)惠組合。關(guān)聯(lián)規(guī)則分析在商業(yè)領(lǐng)域的應(yīng)用案例:亞馬遜產(chǎn)品推薦系統(tǒng)在電子商務(wù)領(lǐng)域,亞馬遜利用關(guān)聯(lián)規(guī)則分析優(yōu)化個(gè)性化推薦。通過(guò)收集用戶購(gòu)買歷史、瀏覽行為和購(gòu)物籃數(shù)據(jù),采用Apriori算法挖掘頻繁項(xiàng)集和規(guī)則,例如發(fā)現(xiàn)“購(gòu)買筆記本電腦的用戶有70%概率也購(gòu)買無(wú)線鼠標(biāo)”(支持度0.4、置信度0.7、提升度>1)。平臺(tái)據(jù)此調(diào)整推薦策略,在用戶查看筆記本時(shí)推送鼠標(biāo)等配件,提升交叉銷售。該應(yīng)用顯著提高了轉(zhuǎn)化率和平均訂單價(jià)值,據(jù)亞馬遜報(bào)告,年銷售額增長(zhǎng)15%以上,同時(shí)增強(qiáng)用戶體驗(yàn),減少庫(kù)存積壓。通過(guò)支持度、置信度和提升度篩選規(guī)則,確保推薦精準(zhǔn),避免無(wú)關(guān)干擾。03PART常見(jiàn)的關(guān)聯(lián)規(guī)則分析算法Apriori算法概述Apriori算法采用自底向上的策略,通過(guò)多次掃描事務(wù)數(shù)據(jù)庫(kù)來(lái)逐步構(gòu)建頻繁項(xiàng)集。它的核心思想是利用“頻繁項(xiàng)集的子集也必定是頻繁項(xiàng)集”的性質(zhì),通過(guò)逐步增加項(xiàng)集的大小來(lái)尋找所有頻繁項(xiàng)集。Apriori算法Apriori算法Apriori算法的局限性生成候選項(xiàng)集算法首先生成所有1項(xiàng)集并篩選頻繁項(xiàng)集,隨后利用頻繁K-1項(xiàng)集生成K項(xiàng)集候選集,并計(jì)算支持度,同時(shí)采用剪枝操作排除不可能頻繁的項(xiàng)集。Apriori算法雖然廣泛應(yīng)用于關(guān)聯(lián)規(guī)則挖掘,但當(dāng)數(shù)據(jù)集較大時(shí),其多次掃描事務(wù)數(shù)據(jù)庫(kù)導(dǎo)致計(jì)算效率低,且生成候選項(xiàng)集增加了計(jì)算復(fù)雜度。篩選頻繁項(xiàng)集在每次生成候選項(xiàng)集后,算法都會(huì)根據(jù)支持度閾值篩選出頻繁項(xiàng)集;如果某個(gè)候選項(xiàng)集的支持度低于閾值,則將其從候選集中刪除。生成關(guān)聯(lián)規(guī)則在找到所有頻繁項(xiàng)集后,算法會(huì)根據(jù)這些頻繁項(xiàng)集生成相應(yīng)的關(guān)聯(lián)規(guī)則,并計(jì)算每條規(guī)則的置信度,然后篩選出滿足置信度閾值的關(guān)聯(lián)規(guī)則。重復(fù)生成候選項(xiàng)集算法會(huì)重復(fù)生成候選項(xiàng)集并篩選頻繁項(xiàng)集的過(guò)程,直至無(wú)法再生成新的頻繁項(xiàng)集為止,從而確保找到所有頻繁項(xiàng)集。Apriori算法的執(zhí)行流程如下:FP-Growth算法FP-Growth算法概述FP-Growth是一種基于頻繁模式樹(shù)(FrequentPatternTree,簡(jiǎn)稱FP-Tree)的關(guān)聯(lián)規(guī)則挖掘算法。它采用了一種被稱為“頻繁模式增長(zhǎng)”的方法,即通過(guò)構(gòu)建FP-Tree來(lái)存儲(chǔ)事務(wù)數(shù)據(jù)中的頻繁項(xiàng)集信息。在構(gòu)建FP-Tree的過(guò)程中,算法會(huì)按照項(xiàng)的支持度對(duì)項(xiàng)進(jìn)行排序,并將排序后的項(xiàng)依次插入FP-Tree。FP-Tree中的每個(gè)節(jié)點(diǎn)都代表了一個(gè)頻繁項(xiàng)集,而每個(gè)路徑則代表了一個(gè)事務(wù)。與Apriori算法相比,F(xiàn)P-Growth算法在處理大型數(shù)據(jù)集時(shí)具有更高的效率。01FP-Growth算法010203挖掘頻繁項(xiàng)集構(gòu)建FP-Tree后,算法遞歸挖掘頻繁項(xiàng)集,從根節(jié)點(diǎn)開(kāi)始,利用條件模式基構(gòu)建條件FP-Tree并提取頻繁項(xiàng)集,過(guò)程遞歸進(jìn)行,每次挖掘出新頻繁項(xiàng)集。生成關(guān)聯(lián)規(guī)則根據(jù)挖掘出的頻繁項(xiàng)集,算法生成關(guān)聯(lián)規(guī)則并計(jì)算置信度,隨后根據(jù)置信度閾值篩選出滿足要求的關(guān)聯(lián)規(guī)則,為決策提供數(shù)據(jù)支持。構(gòu)建FP-Tree算法掃描事務(wù)數(shù)據(jù)庫(kù),統(tǒng)計(jì)項(xiàng)支持度并篩選頻繁項(xiàng),按支持度降序排列后構(gòu)建FP-Tree,該結(jié)構(gòu)將頻繁項(xiàng)集的事務(wù)壓縮成樹(shù)形,支持高效挖掘。FP-Growth效率優(yōu)勢(shì):FP-Growth在處理大型數(shù)據(jù)集時(shí)比Apriori更高效,因其掃描事務(wù)數(shù)據(jù)庫(kù)次數(shù)少(僅兩次),且構(gòu)建FP-Tree后無(wú)需生成大量候選項(xiàng)集,降低了計(jì)算復(fù)雜度。其執(zhí)行流程如下:FP-Growth算法案例:面包籃子面包店銷售分析在零售烘焙行業(yè),“TheBreadBasket”面包店利用Apriori和FP-Growth算法進(jìn)行市場(chǎng)籃子分析。通過(guò)分析20,507筆銷售交易數(shù)據(jù),算法挖掘頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則,例如“咖啡”與“面包”組合的支持度達(dá)0.15、置信度0.85、提升度>1。Apriori逐步生成候選項(xiàng)集篩選規(guī)則,而FP-Growth構(gòu)建FP-Tree高效處理大數(shù)據(jù),避免多次掃描?;谶@些發(fā)現(xiàn),面包店調(diào)整貨架布局、推出捆綁促銷,提升交叉銷售和庫(kù)存效率。根據(jù)ResearchGate研究,此應(yīng)用顯著提高了銷售額10%以上,優(yōu)化營(yíng)銷策略,同時(shí)減少計(jì)算開(kāi)銷,幫助小企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策。。04PART關(guān)聯(lián)規(guī)則分析的Python實(shí)現(xiàn)方式關(guān)聯(lián)規(guī)則分析的Python實(shí)現(xiàn)方式0102Apriori算法FP-Growth算法在mlxtend中,使用`mlxtend.frequent_patterns.apriori`函數(shù)來(lái)實(shí)現(xiàn)Apriori算法。示例代碼:importpandasaspdfrommlxtend.frequent_patternsimportapriorifrommlxtend.frequent_patternsimportassociation_rules#生成示例交易數(shù)據(jù)data={'Transaction':[1,2,3,4],'Items':[['A','B'],['B','C'],['A','C'],['A','B','C']]}df=pd.DataFrame(data)#對(duì)數(shù)據(jù)進(jìn)行獨(dú)熱編碼one_hot_encoded=df['Items'].apply(lambdax:pd.Series([1ifiteminxelse0foriteminset(df['Items'].sum())]))one_hot_encoded.columns=sorted(set(df['Items'].sum()))#使用Apriori算法挖掘頻繁項(xiàng)集frequent_itemsets=apriori(one_hot_encoded,min_support=0.5,use_colnames=True)#根據(jù)頻繁項(xiàng)集計(jì)算關(guān)聯(lián)規(guī)則rules=association_rules(frequent_itemsets,metric="confidence",min_threshold=0.7)在mlxtend中,使用mlxtend.frequent_patterns.fpgrowth函數(shù)來(lái)實(shí)現(xiàn)FP-Growth算法。示例代碼:frommlxtend.frequent_patternsimportfpgrowthfrommlxtend.frequent_patternsimportassociation_rules#生成示例交易數(shù)據(jù)data={'Transaction':[1,2,3,4],'Items':[['A','B'],['B','C'],['A','C'],['A','B','C']]}df=pd.DataFrame(data)#對(duì)數(shù)據(jù)進(jìn)行獨(dú)熱編碼one_hot_encoded=df['Items'

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論