商務(wù)智能理論與應(yīng)用7關(guān)聯(lián)規(guī)則_第1頁
商務(wù)智能理論與應(yīng)用7關(guān)聯(lián)規(guī)則_第2頁
商務(wù)智能理論與應(yīng)用7關(guān)聯(lián)規(guī)則_第3頁
商務(wù)智能理論與應(yīng)用7關(guān)聯(lián)規(guī)則_第4頁
商務(wù)智能理論與應(yīng)用7關(guān)聯(lián)規(guī)則_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1關(guān)聯(lián)規(guī)那么2024/1/17一、關(guān)聯(lián)規(guī)那么的定義2關(guān)聯(lián)規(guī)那么普通用以發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品〔項〕之間的聯(lián)絡(luò),用這些規(guī)那么找出顧客的購買行為方式。這種規(guī)那么可以運用于超市商品貨架設(shè)計、貨物擺放以及根據(jù)購買方式對用戶進展分類。2024/1/173二、關(guān)聯(lián)規(guī)那么:根本概念〔一〕支持度與置信度AA∩BB買尿布的客戶二者都買的客戶買啤酒的客戶2024/1/17置信度confidence(.):是指購物籃分析中有了左邊商品,同時又有右邊商品的買賣次數(shù)百分比,也就是說在一切的購買了左邊商品的買賣中,同時又購買了右邊商品的買賣概率。

41、置信度2024/1/172、支持度支持度sup(.):表示在購物籃分析中同時包含關(guān)聯(lián)規(guī)那么左右兩邊物品的買賣次數(shù)百分比,即支持這個規(guī)那么的買賣的次數(shù)百分比。52024/1/17例:6對于規(guī)那么ACsupport=support({A,C})=50%confidence=support({A,C})/support({A})=66.6%2024/1/17交易項目成交次數(shù)夾克,球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計10007表1運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X2220020060460單獨購買5040合計65034010008表2規(guī)那么“夾克→球鞋〞的計算92024/1/17運動鞋Y1單獨購買合計球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X211001滑雪衫X2218980899單獨購買090090合計298810100010表3存在的問題:111.高置信度,低支持度:夾克球鞋〞的置信度高達100%,但由于只需一人買了球鞋,這條關(guān)聯(lián)規(guī)那么支持度只需千分之一。2.支持度、置信度都比較高,但幾乎是沒有作用的規(guī)那么。“買方便面那么買牛奶〞,“買牙刷那么買牛奶〞,“喜歡野外休閑那么會買牛奶〞。2024/1/17121、關(guān)聯(lián)規(guī)那么的分類二、關(guān)聯(lián)規(guī)那么的分類與作用2024/1/17布爾型關(guān)聯(lián)規(guī)那么與數(shù)值型關(guān)聯(lián)規(guī)那么布爾型關(guān)聯(lián)規(guī)那么處置的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;數(shù)值型關(guān)聯(lián)規(guī)那么可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)那么結(jié)合起來,對數(shù)值型字段進展處置,將其進展動態(tài)的分割,或者直接對原始的數(shù)據(jù)進展處置,當然數(shù)值型關(guān)聯(lián)規(guī)那么中也可以包含種類變量。2024/1/1713假設(shè)關(guān)聯(lián)規(guī)那么中的項或?qū)傩悦總€只涉及一個維,那么它是單維關(guān)聯(lián)規(guī)那么;反之,為多維關(guān)聯(lián)規(guī)那么。如,計算機→財務(wù)軟件;年齡30~39歲、月收入4000元以上→高清電視假設(shè)在給定的規(guī)那么集中,規(guī)那么不涉及不同籠統(tǒng)層的項或?qū)傩?,就稱單層關(guān)聯(lián)規(guī)那么;反之,稱多層。142024/1/172、關(guān)聯(lián)規(guī)那么的作用15購物籃分析:關(guān)聯(lián)規(guī)那么就是要找出哪些產(chǎn)品總是會同時出如今客戶的購物籃中。商品擺放,基于商店不同的運營理念,假設(shè)將會經(jīng)常一同購買的東西較近擺放,客戶會比較方便購買,假設(shè)有意放在購物通道的兩端,顧客尋覓的過程中可以添加其他物品銷售的能夠性。關(guān)聯(lián)規(guī)那么可以處置所謂的匿名消費?!惨粡埌l(fā)票就是一個購物籃——與決策樹和類神經(jīng)網(wǎng)絡(luò)不同?!酬P(guān)聯(lián)規(guī)那么與時序規(guī)那么相結(jié)合〔不能匿名,適宜會員制〕。先找出來哪些事務(wù)總是同時發(fā)生的關(guān)聯(lián)規(guī)那么,再參與時間的要素,找出哪些事務(wù)總是會先后發(fā)生的潛在規(guī)律。2024/1/17另外,只需同一個購物籃的商品信息可以分析的工程也很有限,因此,可以將氣候資訊〔溫度、濕度、降雨〕等轉(zhuǎn)換為虛擬的商品工程,并入到購物籃中進展關(guān)聯(lián)規(guī)那么的分析。如,日本7-11相當著名的“七五三〞規(guī)那么。即是說假設(shè)一天當中溫度相差7度、今天和昨天的溫度差到5度、濕度差大于30%的話,代表感冒的人會添加,藥店就要思索把感冒藥、溫度計和口罩之類的用品上架。162024/1/17三、關(guān)聯(lián)規(guī)那么的發(fā)掘172024/1/17〔一〕關(guān)聯(lián)規(guī)那么發(fā)掘的步驟第一步:找出一切頻繁項集:根據(jù)定義,這些項集出現(xiàn)的頻繁性〔支持度〕至少和預(yù)定義的最小支持度一樣。第二步:由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)那么:根據(jù)定義,這些規(guī)那么必需滿足最小支持度和最小置信度。182024/1/1719對于一個給定的候選數(shù)據(jù)集,項集的數(shù)目呈指數(shù)增長。2024/1/17〔二〕Apriori演算法關(guān)聯(lián)規(guī)那么計算雖然容易但由于規(guī)那么太多容易構(gòu)成“組合爆炸〞,因此,需求對這些規(guī)那么進展挑選,挑選需求的統(tǒng)計量如下:最小支持度:規(guī)那么必需符合的最小支持度閥值。最小置信度:計算規(guī)那么所必需符合的最低置信度閥值。假設(shè)關(guān)聯(lián)規(guī)那么滿足最小支持度和最小置信度,可以說該規(guī)那么是有趣的。202024/1/171、算法所需求的前置統(tǒng)計量:2、頻繁項集項的集合稱為項集〔itemset〕包含k個項的項集稱為k-項集。集合{計算機,金融管理軟件}就是一個2-項集。項集出現(xiàn)頻數(shù)是包含項集的事務(wù)數(shù),簡稱為項集的頻數(shù)、支持計數(shù)或計數(shù)。212024/1/17假設(shè)項集滿足最小支持度或滿足min_sup與數(shù)據(jù)庫中事務(wù)總數(shù)的乘積〔即最小支持計數(shù)〕,那么稱它為頻繁項集(frequentitemset)。頻繁k-項集的集合通常記作Lk。2024/1/172223對于AC:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%最小支持度50%最小可信度50%例:2024/1/174、Apriori算法:運用候選項集找頻繁項集Apriori算法是一種最有影響的發(fā)掘布爾關(guān)聯(lián)規(guī)那么頻繁項集的算法。算法的名字基于這樣的現(xiàn)實:算法運用頻繁項集性質(zhì)的先驗知識。它運用一種稱作逐層搜索的迭代方法,k-項集用于探求(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需求一次數(shù)據(jù)庫掃描。242024/1/17例125數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描D2024/1/17為什么只需一項?26例:L3={abc,abd,acd,ace,bcd}銜接:L3*L3abcdfromabcandabdacdefromacdandace修剪:acdeisremovedbecauseadeisnotinL3C4={abcd}2024/1/17Apriori——剪枝頻繁項集的任何子集也一定是頻繁的。例3:273、Apriori算法的實現(xiàn)過程282024/1/174、由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)那么一旦找出頻繁項集,再經(jīng)過最小置信度產(chǎn)生關(guān)聯(lián)規(guī)那么。關(guān)聯(lián)規(guī)那么的產(chǎn)生步驟如下:對于每個頻繁項集l,產(chǎn)生l的一切非空子集。對于l的每個非空子集s,假設(shè)那么輸出規(guī)那么“s→(l-s)〞。292024/1/17以例3為例,看其中一個頻繁項集l={I1,I2,I5},可以由l產(chǎn)生哪些關(guān)聯(lián)規(guī)那么?l的非空子集有{I1,I2}{I1,I5}{I2,I5}{I1}{I2}{I5}。結(jié)果關(guān)聯(lián)規(guī)那么如下,每個都列出了置信度。假設(shè)最小置信度閥值為70%,那么只需第2、3和最后一個規(guī)那么可以輸出。302024/1/17真正可取的規(guī)那么具備的條件31并非一切的規(guī)那么在符合閥值限制后都是有意義的,這樣的規(guī)那么還分為:有用的規(guī)那么:包含高質(zhì)量的有效情報常識無法解釋的結(jié)果關(guān)聯(lián)規(guī)那么真正可取的是具備以下兩個條件的規(guī)那么:人們常識之外、預(yù)料之外的關(guān)聯(lián)該規(guī)那么必需具有潛在的作用2024/1/175、案例2024/1/17322024/1/173334Apriori算法的中心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和方式匹配計算候選集的支持度Apriori的瓶頸:候選集生成宏大的候選集:104個頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論