版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第6章機(jī)器學(xué)習(xí)與實(shí)現(xiàn)關(guān)聯(lián)規(guī)則概念布爾關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則概念第6章
假設(shè)有以下數(shù)據(jù),每行代表一個(gè)顧客在超市的購(gòu)買(mǎi)記錄。I1:西紅柿、排骨、雞蛋。I2:西紅柿、茄子。I3:雞蛋、襪子。I4:西紅柿、排骨、茄子。I5:西紅柿、排骨、襪子、酸奶。I6:雞蛋、茄子、酸奶。I7:排骨、雞蛋、茄子。I8:土豆、雞蛋、襪子。I9:西紅柿、排骨、鞋子、土豆。假如考慮關(guān)聯(lián)規(guī)則:西紅柿—排骨同時(shí)購(gòu)買(mǎi)西紅柿和排骨的4個(gè)顧客占總顧客數(shù)的4/9,定義為支持度(Support),反映了規(guī)則的覆蓋范圍。購(gòu)買(mǎi)西紅柿的5個(gè)顧客中4人購(gòu)買(mǎi)了排骨,即P(排骨/西紅柿)=
4/5,定義為置信度(Confidence),置信度反映了規(guī)則的可信程度。通過(guò)設(shè)定最小支持度和置信度閾值來(lái)判斷該關(guān)聯(lián)規(guī)則是否值得關(guān)注或者有意義。關(guān)聯(lián)規(guī)則概念第6章
一對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B滿足A、B是T的真子集,并且A和B的交集為空集。其中A稱(chēng)為前件,B稱(chēng)為后件。關(guān)聯(lián)規(guī)則有時(shí)也表示形如“如果……那么……”,前者是規(guī)則成立的條件,后者是條件下發(fā)生的結(jié)果。支持度和置信度有以下計(jì)算公式:支持度表示為項(xiàng)集A、B同時(shí)發(fā)生的概率,而置信度則表示為項(xiàng)集A發(fā)生的條件下項(xiàng)集B發(fā)生的概率。關(guān)聯(lián)規(guī)則概念第6章
多對(duì)一關(guān)聯(lián)規(guī)則的形式如下:,A、B、…、K滿足A、B、…、K是T的真子集,并且A、B、…、K的交集為空集。其中A,B,…稱(chēng)為前件,K稱(chēng)為后件,多對(duì)一關(guān)聯(lián)規(guī)則的支持度和置信度計(jì)算公式如下:支持度表示項(xiàng)集A、B、…、K同時(shí)發(fā)生的概率,而置信度則表示項(xiàng)集A、B、…發(fā)生的條件下項(xiàng)集K發(fā)生的概率。布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章
布爾關(guān)聯(lián)規(guī)則挖掘是指將事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾值(0或1)數(shù)據(jù)集,并在布爾數(shù)據(jù)集基礎(chǔ)上挖掘關(guān)聯(lián)規(guī)則的一種方法。1.事務(wù)數(shù)據(jù)集轉(zhuǎn)化為布爾(0或1)值數(shù)據(jù)表算法如下:首先,定義一個(gè)空的字典D和包含所有商品的列表item=['西紅柿','排骨','雞蛋','茄子','襪子','酸奶','土豆','鞋子'],其次,定義一個(gè)長(zhǎng)度與數(shù)據(jù)集長(zhǎng)度(事務(wù)個(gè)數(shù))相同的一維全零數(shù)組z。循環(huán)操作商品列表item,對(duì)每一個(gè)商品,搜索其所在事務(wù)序號(hào)(行號(hào)),并將事務(wù)序號(hào)對(duì)應(yīng)的z位置修改為1,同時(shí)以商品作為鍵,z作為值,添加到字典D中。最后,將D轉(zhuǎn)化為數(shù)據(jù)框。布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章
代碼示例如下:I1:西紅柿、排骨、雞蛋I2:西紅柿、茄子I3:雞蛋、襪子……
item=['西紅柿','排骨','雞蛋','茄子','襪子','酸奶','土豆','鞋子']importpandasaspdimportnumpyasnpdata=pd.read_excel('tr.xlsx',header=None)data=data.iloc[:,1:]D=dict()fortinrange(len(item)):z=np.zeros((len(data)))li=list()forkinrange(len(data.iloc[0,:])):s=data.iloc[:,k]==tiem[t]li.extend(list(s[s.values==True].index))z[li]=1D.setdefault(item[t],z)Data=pd.DataFrame(D)#布爾值數(shù)據(jù)表布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章
2.挖掘兩項(xiàng)之間的關(guān)聯(lián)規(guī)則(一對(duì)一),并將結(jié)果導(dǎo)出到Excel文件中#獲取字段名稱(chēng),并轉(zhuǎn)化為列表c=list(Data.columns)c0=0.5#最小置信度s0=0.2#最小支持度list1=[]#預(yù)定義列表list1,用于存放規(guī)則list2=[]#預(yù)定義列表list2,用于存放規(guī)則的支持度list3=[]#預(yù)定義列表list3,用于存放規(guī)則的置信度f(wàn)orkinrange(len(c)):forqinrange(len(c)):
#對(duì)第c[k]個(gè)項(xiàng)與第c[q]個(gè)項(xiàng)挖掘關(guān)聯(lián)規(guī)則
#規(guī)則的前件為c[k]
#規(guī)則的后件為c[q]
#要求前件和后件不相等ifc[k]!=c[q]:c1=Data[c[k]]c2=Data[c[q]]I1=c1.values==1I2=c2.values==1
t12=np.zeros((len(c1)))t1=np.zeros((len(c1)))t12[I1&I2]=1t1[I1]=1sp=sum(t12)/len(c1)#支持度co=sum(t12)/sum(t1)#置信度
#取置信度大于等于c0的關(guān)聯(lián)規(guī)則ifco>=c0andsp>=s0:list1.append(c[k]+'--'+c[q])list2.append(sp)list3.append(co)#定義字典,用于存放關(guān)聯(lián)規(guī)則及其置信度、支持度R={'rule':list1,'support':list2,'confidence':list3}#將字典轉(zhuǎn)化為數(shù)據(jù)框R=pd.DataFrame(R)#將結(jié)果導(dǎo)出到ExcelR.to_excel('rule1.xlsx')布爾關(guān)聯(lián)規(guī)則挖掘(一對(duì)一)第6章
滿足閾值條件的關(guān)聯(lián)規(guī)則,執(zhí)行結(jié)果為:IDrulesupportconfidence0排骨—西紅柿0.4444444440.81
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年志愿者團(tuán)隊(duì)管理實(shí)務(wù)培訓(xùn)
- 2026銀川市第七幼兒園編外聘用教師招聘6人備考題庫(kù)及答案詳解(新)
- 2026年農(nóng)業(yè)品牌故事講述方法課程
- 機(jī)器人小批量試產(chǎn)工藝手冊(cè)
- 2026甘肅定西臨洮縣文廟巷社區(qū)衛(wèi)生服務(wù)中心招聘衛(wèi)生專(zhuān)業(yè)技術(shù)人員5人備考題庫(kù)及答案詳解一套
- 2026年碳排放核算核查實(shí)務(wù)指南
- 隨班教師培訓(xùn)課件
- 職業(yè)共病管理的未來(lái)發(fā)展趨勢(shì)
- 職業(yè)共病管理中的急癥處理流程
- 黃岡2025年湖北黃岡市黃州區(qū)事業(yè)單位招聘三支一扶服務(wù)期滿人員12人筆試歷年參考題庫(kù)附帶答案詳解
- 物業(yè)項(xiàng)目綜合服務(wù)方案
- 2025-2026學(xué)年北京市西城區(qū)初二(上期)期末考試物理試卷(含答案)
- 公路工程施工安全技術(shù)與管理課件 第09講 起重吊裝
- 企業(yè)管理 華為會(huì)議接待全流程手冊(cè)SOP
- 供水企業(yè)制度流程規(guī)范
- 2026年城投公司筆試題目及答案
- 北京市東城區(qū)2025-2026學(xué)年高三上學(xué)期期末考試英語(yǔ) 有答案
- 框架柱混凝土澆筑施工方案(完整版)
- 電廠危化品安全培訓(xùn)課件
- 河南省2025年普通高等學(xué)校對(duì)口招收中等職業(yè)學(xué)校畢業(yè)生考試語(yǔ)文試題 答案
- GB/T 3500-1998粉末冶金術(shù)語(yǔ)
評(píng)論
0/150
提交評(píng)論