中設置了幾個類似置信度confidence的度量課件_第1頁
中設置了幾個類似置信度confidence的度量課件_第2頁
中設置了幾個類似置信度confidence的度量課件_第3頁
中設置了幾個類似置信度confidence的度量課件_第4頁
中設置了幾個類似置信度confidence的度量課件_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

什么是關(guān)聯(lián)規(guī)則?WEKA中探索者界面的關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的熱點之一。關(guān)聯(lián)規(guī)則反映一個對象與其他對象之間的相互依賴性,如果多個對象之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個對象就能夠通過其他對象進行預測。典型問題:a.分析超市中的購物籃數(shù)據(jù);

b.從海量商業(yè)交易記錄中發(fā)現(xiàn)感興趣的數(shù)據(jù)

關(guān)聯(lián),以幫助商家決策。

例如:商品分類設計、降價經(jīng)銷分析、貨架擺放策略......支持度、置信度、項集、項關(guān)聯(lián)規(guī)則可以采用與分類規(guī)則相同的方式產(chǎn)生。由于得到的關(guān)聯(lián)規(guī)則數(shù)量龐大,通常需要根據(jù)覆蓋率(coverage)和準確率(accuracy)進行修剪。覆蓋率:又稱為支持度(support),支持度是支持度計數(shù)與實例總數(shù)的比值,支持度計數(shù)是應用規(guī)則后預測正確的實例數(shù)量;準確率:又稱為置信度(confidence),表示為支持度計數(shù)與應用規(guī)則的實例數(shù)量的比值。由于僅對高覆蓋量的關(guān)聯(lián)規(guī)則感興趣,因此關(guān)聯(lián)只尋找能夠達到預定的最小覆蓋量的屬性值對組合,這些組合稱為項集(itemset),其中的任一個屬性值對稱為一個項(item)。例如:套用購物籃分析案例,項就是購物籃中的商品,需要尋找的是購物籃中商品之間的關(guān)聯(lián)。

關(guān)聯(lián)分析

定義:主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有意義的聯(lián)系,這些聯(lián)系可以采用關(guān)聯(lián)規(guī)則或頻繁項集的形式表示。關(guān)聯(lián)分析可用于購物籃數(shù)據(jù)分析,還可用于醫(yī)療診斷、網(wǎng)頁挖掘和科學數(shù)據(jù)分析等領(lǐng)域。Weka數(shù)據(jù)挖掘平臺上的Associate標簽頁就是用來處理關(guān)聯(lián)問題:Weka提供了Apriori、PredictiveApriori、Tertius等關(guān)聯(lián)規(guī)則發(fā)掘算法;在Associate標簽頁中選定一個算法,進行一些必要的設置,包括支持度上界、下界,每次運算的支持度遞減值,等等;其中,Apriori算法是第一個關(guān)聯(lián)規(guī)則挖掘算法,而且這幾個算法均不支持數(shù)值型數(shù)據(jù),所以如果是數(shù)值型數(shù)據(jù),則需要先對其進行離散化處理。了解Apriori算法中各個參數(shù)的解釋案例1.weather.nominal.arff數(shù)據(jù)集AprioriFilteredAssociatorFPGrowth對于設置表中各個參數(shù)的含義:1.car:如果設為true,則會挖掘類關(guān)聯(lián)規(guī)則而不是全局關(guān)聯(lián)規(guī)則。2.classindex:類屬性索引。若設為-1,最后的屬性被當做類屬性。3.delta:以此數(shù)值為迭代遞減單位。不斷減小支持度直至達到最小支持度或產(chǎn)生了滿足數(shù)量要求的規(guī)則。4.lowerBoundMinSupport:最小支持度下界。6.minMtric度量的最小值。7.numRules要發(fā)現(xiàn)的規(guī)則數(shù)。8.outputItemSets如果設置為真,會在結(jié)果中輸出項集。9.removeAllMissingCols移除全部為缺省值的列。10.significanceLevel重要程度。重要性測試(僅用于置信度)。11.upperBoundMinSupport最小支持度上界。從這個值開始迭代減小最小支持度。

5.metricType:度量類型。設置對規(guī)則進行排序的度量依據(jù)??梢允牵褐眯哦龋愱P(guān)聯(lián)規(guī)則只能用置信度挖掘),提升度(lift),杠桿率(leverage),確信度(conviction)。在Weka中設置了幾個類似置信度(confidence)的度量來衡量規(guī)則的關(guān)聯(lián)程度,它們分別是:a)Lift(提升度):P(A,B)/(P(A)P(B))Lift=1時表示A和B獨立。這個數(shù)越大(>1),越表明A和B存在于一個購物籃中不是偶然現(xiàn)象,有較強的關(guān)聯(lián)度.b)Leverage

(杠桿率):P(A,B)-P(A)P(B)Leverage=0時A和B獨立,Leverage越大A和B的關(guān)系越密切c)Conviction(確信度):P(A)P(!B)/P(A,!B)(!B表示B沒有發(fā)生)Conviction也是用來衡量A和B的獨立性。從它和lift的關(guān)系(對B取反,代入Lift公式后求倒數(shù))可以看出,這個值越大,A、B越關(guān)聯(lián)。完整的實驗結(jié)果輸出及具體分析:===Runinformation===

//實驗運行信息Scheme:weka.associations.Apriori-N10-T0-C0.9-D0.05-U1.0-M0.1-S-1.0-c-1Relation:weather.symbolic//數(shù)據(jù)的名稱Instances:14

//數(shù)據(jù)的記錄數(shù)Attributes:5

//屬性數(shù)目及其名稱outlooktemperaturehumiditywindyplay===Associatormodel(fulltrainingset)===Apriori//Apriori算法的運行結(jié)果=======Minimumsupport:0.15(2instances)

//最小的支持度(最少需要兩個實例)Minimummetric<confidence>:0.9//最小度量(置信度)Numberofcyclesperformed:17

//進行了17輪搜索Generatedsetsoflargeitemsets:

//生成的頻繁項集SizeofsetoflargeitemsetsL(1):12//頻繁1項集:12個SizeofsetoflargeitemsetsL(2):47//頻繁2項集:47個SizeofsetoflargeitemsetsL(3):39SizeofsetoflargeitemsetsL(4):6Bestrulesfound:前件num.1==>結(jié)論num.2

表示有多少個

表示有多少個

實例滿足前件

實例滿足整個規(guī)則1.outlook=overcast4==>play=yes4<conf:(1)>lift:(1.56)lev:(0.1)[1]conv:(1.43)2.temperature=cool4==>humidity=normal4<conf:(1)>lift:(2)lev:(0.14)[2]conv:(2)3.humidity=normalwindy=FALSE4==>play=yes4<conf:(1)>lift:(1.56)lev:(0.1)[1]conv:(1.43)4.outlook=sunnyplay=no3==>humidity=high3<conf:(1)>lift:(2)lev:(0.11)[1]conv:(1.5)5.outlook=sunnyhumidity=high3==>play=no3<conf:(1)>lift:(2.8)lev:(0.14)[1]conv:(1.93)6.outlook=rainyplay=yes3==>windy=FALSE3<conf:(1)>lift:(1.75)lev:(0.09)[1]conv:(1.29)7.outlook=rainywindy=FALSE3==>play=yes3<conf:(1)>lift:(1.56)lev:(0.08)[1]conv:(1.07)8.temperature=coolplay=yes3==>humidity=normal3<conf:(1)>lift:(2)lev:(0.11)[1]conv:(1.5)9.outlook=sunnytemperature=hot2==>humidity=high2<conf:(1)>lift:(2)lev:(0.07)[1]conv:(1)10.temperature=hotplay=no2==>outlook=sunny2<conf:(1)>lift:(2.8)lev:(0.09)[1]conv:(1.29)2.vote.arff數(shù)據(jù)集(任務是基于投票模式預測所屬黨派)Bestrulesfound:(二元標稱型)1.adoption-of-the-budget-resolution=yphysician-fee-freeze=n219==>Class=democrat219<conf:(1)>lift:(1.63)lev:(0.19)[84]conv:(84.58)第一條規(guī)則表明,支持“采納預算決議”,并反對“凍結(jié)醫(yī)療費”的是“民主黨”。2.adoption-of-the-budget-resolution=yphysician-fee-freeze=naid-to-nicaraguan-contras=y198==>Class=democrat198<conf:(1)>lift:(1.63)lev:(0.18)[76]conv:(76.47)第二條規(guī)則表明,支持“采納預算決議”,反對“凍結(jié)醫(yī)療費”,并支持“援助尼加拉瓜反政府”的是“民主黨”。

3.physician-fee-freeze=naid-to-nicaraguan-contras=y211==>Class=democrat210<conf:(1)>lift:(1.62)lev:(0.19)[80]conv:(40.74)第三條規(guī)則表明,反對“凍結(jié)醫(yī)療費”,并支持“援助尼加拉瓜反政府”的是“民主黨”。

4.physician-fee-freeze=neducation-spending=n202==>Class=democrat201<conf:(1)>lift:(1.62)lev:(0.18)[77]conv:(39.01)第四條規(guī)則表明,反對“凍結(jié)醫(yī)療費”,并反對“教育支出”的是“民主黨”。5.physician-fee-freeze=n247==>Class=democrat245<conf:(0.99)>lift:(1.62)lev:(0.21)[93]conv:(31.8)

第五條規(guī)則表明,反對“教育支出”的是“民主黨”。6.

el-salvador-aid=nClass=democrat200==>aid-to-nicaraguan-contras=y197<conf:(0.99)>lift:(1.77)lev:(0.2)[85]conv:(22.18)第六條規(guī)則表明,反對“EL-薩爾瓦多援助”,并且類別為“民主黨”的,會支持“援助尼加拉瓜反政府”。7.el-salvador-aid=n208==>aid-to-nicaraguan-contras=y204<conf:(0.98)>lift:(1.76)lev:(0.2)[88]conv:(18.46)第七條規(guī)則表明,反對“EL-薩爾瓦多援助”的,會支持“援助尼加拉瓜反政府”。8.adoption-of-the-budget-resolution=yaid-to-nicaraguan-contras=yClass=democrat203==>physician-fee-freeze=n198<conf:(0.98)>lift:(1.72)lev:(0.19)[82]conv:(14.62)第八條規(guī)則表明,支持“采納預算決議”,支持“援助尼加拉瓜反政府”,并且類別為“民主黨”的,會反對“凍結(jié)醫(yī)療費”。9.el-salvador-aid=naid-to-nicaraguan-contras=y204==>Class=democrat197<conf:(0.97)>lift:(1.57)lev:(0.17)[71]conv:(9.85)第九條規(guī)則表明,反對“EL-薩爾瓦多援助”,并支持“援助尼加拉瓜反政府”的是“民主黨”。10.aid-to-nicaraguan-contras=yClass=democrat218==>physician-fee-freeze=n210<conf:(0.96)>lift:(1.7)lev:(0.2)[86]conv:(10.47)第十條規(guī)則表明,支持“援助尼加拉瓜反政府”,并且類別為“民主黨”的,會反對“凍結(jié)醫(yī)療費”。推斷出:“民主黨”會支持“采納預算決議”和“援助尼加拉瓜反政府”,反對“凍結(jié)醫(yī)療費”“教育支出”和“EL-薩爾瓦多援助”。圖中的藍色(深色)代表民主黨,紅色(淺色)代表共和黨。在前四行的16項屬性中,有多項屬性藍色占據(jù)絕對的統(tǒng)治地位,基本上全是藍色柱;而紅色占據(jù)統(tǒng)治地位的只有很少幾個屬性,又因為覆蓋率低而不具備競爭優(yōu)勢,故未能入選。在人數(shù)上民主黨占優(yōu)(267∶168),加上有明確的政治觀點,因此前十條關(guān)聯(lián)規(guī)則都打上了民主黨的烙印。3.市場購物籃分析購物籃分析將關(guān)聯(lián)技術(shù)用于交易過程,特別是分析超市收銀數(shù)據(jù),找出那些以成組的形式同時出現(xiàn)的商品。對于大多數(shù)零售商來說,這是主要的用于數(shù)據(jù)挖掘的銷售信息來源。例如,自動分析收銀數(shù)據(jù)后發(fā)現(xiàn):買啤酒的客戶同時也買薯片,對超市管理人員來說,這個發(fā)現(xiàn)也許非常有意義。另一個沃爾瑪?shù)睦邮?,一些顧客通常星期四在買尿片的同時還買啤酒。這似乎令人驚訝,但如果仔細一想,年輕父母為了在家度周末而采購,這又非常容易理解。上述信息可以用于多種目的,如規(guī)劃貨架擺放位置、僅對會同時購買的商品中的一種進行打折銷售、提供與單獨銷售的產(chǎn)品相匹配產(chǎn)品的贈券,等等。了解顧客的個人購買歷史記錄能夠創(chuàng)造出巨大的附加價值。商家可以從顧客的購買行為中鑒別特殊客戶,不但可以分析其歷史購買模式,而且還能精確地針對潛在用戶提供特殊的極有可能感興趣的購買信息。supermarket.arff數(shù)據(jù)集Bestrulesfound:1.biscuits=tfrozenfoods=tfruit=ttotal=high788==>breadandcake=t723<conf:(0.92)>lift:(1.27)lev:(0.03)[155]conv:(3.35)餅干+冷凍食品+水果+高總額==>面包和蛋糕。2.bakingneeds=tbiscuits=tfruit=ttotal=high760==>breadandcake=t696<conf:(0.92)>lift:(1.27)lev:(0.03)[149]conv:(3.28)烘烤所需+餅干+水果+高總額==>面包和蛋糕。3.bakingneeds=tfrozenfoods=tfruit=ttotal=high770==>breadandcake=t705<conf:(0.92)>lift:(1.27)lev:(0.03)[150]conv:(3.27)烘烤所需+冷凍食品+水果+高總額==>面包和蛋糕。4.biscuits=tfruit=tvegetables=ttotal=high815==>breadandcake=t746<conf:(0.92)>lift:(1.27)lev:(0.03)[159]conv:(3.26)餅干+水果+蔬菜+高總額==>面包和蛋糕。5.partysnackfoods=tfruit=ttotal=high854==>breadandcake=t779<conf:(0.91)>lift:(1.27)lev:(0.04)[164]conv:(3.15)聚會零食+水果+高總額==>面包和蛋糕。

6.biscuits=tfrozenfoods=tvegetables=ttotal=high797==>breadandcake=t725<conf:(0.91)>lift:(1.26)lev:(0.03)[151]conv:(3.06)餅干+冷凍食品+蔬菜+高總額==>面包和蛋糕。7.bakingneeds=tbiscuits=tvegetables=ttotal=high772==>breadandcake=t701<conf:(0.91)>lift:(1.26)lev:(0.03)[145]conv:(3.0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論