Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 6-6.關(guān)聯(lián)規(guī)則_第1頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 6-6.關(guān)聯(lián)規(guī)則_第2頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 6-6.關(guān)聯(lián)規(guī)則_第3頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 6-6.關(guān)聯(lián)規(guī)則_第4頁(yè)
Python大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)課件 6-6.關(guān)聯(lián)規(guī)則_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)關(guān)聯(lián)規(guī)則概念布爾關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則概念第6章

假設(shè)有以下數(shù)據(jù),每行代表一個(gè)顧客在超市的購(gòu)買(mǎi)記錄。I1:西紅柿、排骨、雞蛋。I2:西紅柿、茄子。I3:雞蛋、襪子。I4:西紅柿、排骨、茄子。I5:西紅柿、排骨、襪子、酸奶。I6:雞蛋、茄子、酸奶。I7:排骨、雞蛋、茄子。I8:土豆、雞蛋、襪子。I9:西紅柿、排骨、鞋子、土豆。假如考慮關(guān)聯(lián)規(guī)則:西紅柿—排骨同時(shí)購(gòu)買(mǎi)西紅柿和排骨的4個(gè)顧客占總顧客數(shù)的4/9,定義為支持度(Support),反映了規(guī)則的覆蓋范圍。購(gòu)買(mǎi)西紅柿的5個(gè)顧客中4人購(gòu)買(mǎi)了排骨,即P(排骨/西紅柿)=

4/5,定義為置信度(Confidence),置信度反映了規(guī)則的可信程度。通過(guò)設(shè)定最小支持度和置信度閾值來(lái)判斷該關(guān)聯(lián)規(guī)則是否值得關(guān)注或者有意義。關(guān)聯(lián)規(guī)則概念第6章

一對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B滿足A、B是T的真子集,并且A和B的交集為空集。其中A稱(chēng)為前件,B稱(chēng)為后件。關(guān)聯(lián)規(guī)則有時(shí)也表示形如“如果……那么……”,前者是規(guī)則成立的條件,后者是條件下發(fā)生的結(jié)果。支持度和置信度有以下計(jì)算公式:支持度表示為項(xiàng)集A、B同時(shí)發(fā)生的概率,而置信度則表示為項(xiàng)集A發(fā)生的條件下項(xiàng)集B發(fā)生的概率。關(guān)聯(lián)規(guī)則概念第6章

多對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B、…、K滿足A、B、…、K是T的真子集,并且A、B、…、K的交集為空集。其中A,B,…稱(chēng)為前件,K稱(chēng)為后件,多對(duì)一關(guān)聯(lián)規(guī)則的支持度和置信度計(jì)算公式如下:支持度表示項(xiàng)集A、B、…、K同時(shí)發(fā)生的概率,而置信度則表示項(xiàng)集A、B、…發(fā)生的條件下項(xiàng)集K發(fā)生的概率。布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章

布爾關(guān)聯(lián)規(guī)則挖掘是指將事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾值(0或1)數(shù)據(jù)集,并在布爾數(shù)據(jù)集基礎(chǔ)上挖掘關(guān)聯(lián)規(guī)則的一種方法。1.事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾(0或1)值數(shù)據(jù)表算法如下:首先,定義一個(gè)空的字典D和包含所有商品的列表item=['西紅柿','排骨','雞蛋','茄子','襪子','酸奶','土豆','鞋子'],其次,定義一個(gè)長(zhǎng)度與數(shù)據(jù)集長(zhǎng)度(事務(wù)個(gè)數(shù))相同的一維全零數(shù)組z。循環(huán)操作商品列表item,對(duì)每一個(gè)商品,搜索其所在事務(wù)序號(hào)(行號(hào)),并將事務(wù)序號(hào)對(duì)應(yīng)的z位置修改為1,同時(shí)以商品作為鍵,z作為值,添加到字典D中。最后,將D轉(zhuǎn)化為數(shù)據(jù)框。布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章

代碼示例如下:I1:西紅柿、排骨、雞蛋I2:西紅柿、茄子I3:雞蛋、襪子……

item=['西紅柿','排骨','雞蛋','茄子','襪子','酸奶','土豆','鞋子']importpandasaspdimportnumpyasnpdata=pd.read_excel('tr.xlsx',header=None)data=data.iloc[:,1:]D=dict()fortinrange(len(item)):z=np.zeros((len(data)))li=list()forkinrange(len(data.iloc[0,:])):s=data.iloc[:,k]==tiem[t]li.extend(list(s[s.values==True].index))z[li]=1D.setdefault(item[t],z)Data=pd.DataFrame(D)#布爾值數(shù)據(jù)表布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章

2.挖掘兩項(xiàng)之間的關(guān)聯(lián)規(guī)則(一對(duì)一),并將結(jié)果導(dǎo)出到Excel文件中#獲取字段名稱(chēng),并轉(zhuǎn)化為列表c=list(Data.columns)c0=0.5#最小置信度s0=0.2#最小支持度list1=[]#預(yù)定義列表list1,用于存放規(guī)則list2=[]#預(yù)定義列表list2,用于存放規(guī)則的支持度list3=[]#預(yù)定義列表list3,用于存放規(guī)則的置信度f(wàn)orkinrange(len(c)):forqinrange(len(c)):

#對(duì)第c[k]個(gè)項(xiàng)與第c[q]個(gè)項(xiàng)挖掘關(guān)聯(lián)規(guī)則

#規(guī)則的前件為c[k]

#規(guī)則的后件為c[q]

#要求前件和后件不相等ifc[k]!=c[q]:c1=Data[c[k]]c2=Data[c[q]]I1=c1.values==1I2=c2.values==1

t12=np.zeros((len(c1)))t1=np.zeros((len(c1)))t12[I1&I2]=1t1[I1]=1sp=sum(t12)/len(c1)#支持度co=sum(t12)/sum(t1)#置信度

#取置信度大于等于c0的關(guān)聯(lián)規(guī)則ifco>=c0andsp>=s0:list1.append(c[k]+'--'+c[q])list2.append(sp)list3.append(co)#定義字典,用于存放關(guān)聯(lián)規(guī)則及其置信度、支持度R={'rule':list1,'support':list2,'confidence':list3}#將字典轉(zhuǎn)化為數(shù)據(jù)框R=pd.DataFrame(R)#將結(jié)果導(dǎo)出到ExcelR.to_excel('rule1.xlsx')布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章

滿足閾值條件的關(guān)聯(lián)規(guī)則,執(zhí)行結(jié)果為:IDrulesupportconfidence0排骨—西紅柿0.4444444440.81

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論