版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1.第五章在大型數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則;2.當(dāng)自然界發(fā)生一些事情時(shí),其他的事情也會(huì)發(fā)生,這叫做聯(lián)想。反映事件之間依賴或關(guān)聯(lián)的知識(shí)稱為關(guān)聯(lián)知識(shí)(也稱為依賴)。關(guān)聯(lián)分析的目的是發(fā)現(xiàn)給定數(shù)據(jù)記錄集中數(shù)據(jù)項(xiàng)之間的隱藏關(guān)聯(lián),并描述數(shù)據(jù)之間的緊密程度。關(guān)聯(lián)分析有兩種結(jié)果:關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)同一事件中出現(xiàn)的不同項(xiàng)目的相關(guān)性;序列模式是相似的,但它尋求事件之間的時(shí)間相關(guān)性。4。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)數(shù)據(jù)庫。交易通常包括交易處理時(shí)間、客戶購買的一組物品,有時(shí)還包括客戶識(shí)別號(hào)(如信用卡號(hào))。關(guān)聯(lián)規(guī)則:是一個(gè)知識(shí)模型,它描述了事務(wù)中項(xiàng)目之間同時(shí)出現(xiàn)的規(guī)則。更準(zhǔn)確地說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字來描
2、述項(xiàng)目X的出現(xiàn)對項(xiàng)目Y的出現(xiàn)有多大的影響。關(guān)聯(lián)規(guī)則,5,以零售業(yè)為例,體育用品商店通常會(huì)發(fā)現(xiàn)這些數(shù)據(jù)往往隱含著以下規(guī)則:“70%購買籃球運(yùn)動(dòng)服裝的顧客同時(shí)購買籃球運(yùn)動(dòng)服裝,40%的交易同時(shí)購買籃球和籃球運(yùn)動(dòng)服裝”等等。這些規(guī)則是關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則,6,關(guān)聯(lián)規(guī)則度量-置信度,定義:交易數(shù)據(jù)集D中規(guī)則XY的置信度是關(guān)聯(lián)規(guī)則準(zhǔn)確性的度量。衡量關(guān)聯(lián)規(guī)則的強(qiáng)度。也就是說,y出現(xiàn)在x出現(xiàn)的所有活動(dòng)中的頻率,也就是說,xy規(guī)則是多么不可避免。注:置信度(xy)計(jì)算方法:包括x和y的交易數(shù)與包括x的交易數(shù)之比:置信度(xy)=p (y x),7。關(guān)聯(lián)規(guī)則度量-支持度,定義:事務(wù)數(shù)據(jù)集d中規(guī)則xy的支持度是關(guān)聯(lián)
3、規(guī)則重要性的度量,反映了關(guān)聯(lián)是否是一個(gè)通用規(guī)則,表明該規(guī)則存在于所有事務(wù)中。也就是說,在所有交易中同時(shí)出現(xiàn)x和y的頻率被記錄為:support(XY).計(jì)算方法:同時(shí)包含X和Y的事務(wù)數(shù)與事務(wù)數(shù)據(jù)集中所有事務(wù)的比率:支持(xy)=p (x y),8。最小置信度閾值和最小支持度閾值同時(shí)滿足最小置信度閾值和最小支持度閾值的關(guān)聯(lián)規(guī)則是一種強(qiáng)關(guān)聯(lián)規(guī)則,具有一定的意義和價(jià)值。關(guān)聯(lián)規(guī)則度量,9,定義:由關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)集被記錄為d(一般事務(wù)數(shù)據(jù)庫),d=t1,T2,Tk,TN,tk (k=1,2,n)被稱為事務(wù),每個(gè)事務(wù)都有唯一的標(biāo)識(shí)符,并被記錄為TID。元素im (m=1,2,p)稱為項(xiàng)目。讓I=i
4、1,i2,im是由d和TkI.中的所有項(xiàng)組成的集合。項(xiàng)的集合稱為項(xiàng)集。假設(shè)x是I中的一組項(xiàng)目,如果是XTk,那么事務(wù)Tk包含項(xiàng)目集x。包含k個(gè)項(xiàng)目的項(xiàng)目集稱為k-項(xiàng)目集。項(xiàng)目集出現(xiàn)的頻率是包含項(xiàng)目集的事務(wù)的數(shù)量。如果項(xiàng)目集滿足最小支持度,它們被稱為頻繁項(xiàng)目集。關(guān)聯(lián)規(guī)則的形式定義,10,關(guān)聯(lián)規(guī)則的形式定義,挖掘關(guān)聯(lián)規(guī)則是一個(gè)兩步過程:找出所有頻繁項(xiàng)集并從頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)則,11,挖掘關(guān)聯(lián)規(guī)則:一個(gè)路線圖,布爾與定量關(guān)聯(lián)(基于已處理數(shù)據(jù)的類型)購買(x,“SQL Server”)購買(x,“DMBook”)購買(x,“DBMiner”)0.2%,60%年齡(x,“30.39”)收入(x),42
5、.48K”)購買(x,“電腦”)1%,75%一維與多維關(guān)聯(lián)(基于規(guī)則中涉及的數(shù)據(jù)維度)單層與多層分析(基于規(guī)則集中涉及的抽象層)各種擴(kuò)展,12,關(guān)聯(lián)規(guī)則挖掘-例如,對于A C:支持=支持(a,C)=50%置信度=支持(A,C )/支持(a)=66.6%,Apriori的基本思想是3366的任何子集13.Apriori算法中,連接:使用Lk-1自連接來獲得Ck修剪:的k-項(xiàng)集。如果他的一個(gè)k-1項(xiàng)目集(他的子集)不頻繁,它不可能頻繁。偽代碼:ck:候選項(xiàng)集k lk :頻繁項(xiàng)集k L1=頻繁項(xiàng);對于(k=1;路克。=;k)開始Ck 1=從Lk生成的候選項(xiàng);對于數(shù)據(jù)庫中的每個(gè)事務(wù)t,增加Ck 1中所
6、有候選項(xiàng)的計(jì)數(shù),這些候選項(xiàng)包含在t lk1=CK 1中的候選項(xiàng)中,具有min_support end返回k lk;14,Apriori算法-例如,數(shù)據(jù)庫D,掃描D,C1,L1,L2,C2,C2,掃描D,C3,L3,掃描D,15,如何生成候選集,假設(shè)lk-1中的項(xiàng)目按順序排列,第一步是3360自連接Lk-1插入到CK選擇p. P.item2,p.itemk-1,q.itemk-1從lk-1 p,lk-1 q,其中p.item1=q.item1,p.itemk-1在層之間使用統(tǒng)一支持度的優(yōu)點(diǎn)是最小支持閾值。如果一個(gè)項(xiàng)目集的父項(xiàng)目集沒有最小支持度,那么它本身就不可能滿足最小支持度。缺點(diǎn):基礎(chǔ)項(xiàng)目不會(huì)
7、成為頻繁集合。如果支持度太高,底層關(guān)聯(lián)規(guī)則將會(huì)丟失,并且會(huì)生成太多高級關(guān)聯(lián)規(guī)則。隨著級別的降低,支持度將會(huì)降低。有四種搜索策略:逐層獨(dú)立層交叉單過濾層交叉K項(xiàng)集過濾控制層交叉單過濾,32,支持不變,支持不變多層挖掘,計(jì)算機(jī)支持=10%,筆記本電腦支持=6%,臺(tái)式計(jì)算機(jī)支持=4%,第1層min_sup=5%,第2層min_sup=5%,33,支持減少:逐層獨(dú)立,支持減少,多層挖掘:沒有背景知識(shí)的頻繁項(xiàng)集進(jìn)行修剪,筆記本電腦臺(tái)式計(jì)算機(jī)支持=4%,第1層min_sup=5%,第2層min _ sup=3%,計(jì)算機(jī)支持=10%,34層,支持遞減,層交叉單過濾,支持遞減,多層挖掘:如果一個(gè)節(jié)點(diǎn)是頻繁的,
8、否則,它的后代將被搜索剪除。膝上型計(jì)算機(jī)(未調(diào)查)、臺(tái)式計(jì)算機(jī)(未調(diào)查)、第1層min_sup=12%、第2層min _ sup=3%、計(jì)算機(jī)支持=10%、35、33、360層(支持減少)、交叉k-項(xiàng)目集過濾和多層挖掘(支持減少):第1層的k-項(xiàng)目集、膝上型計(jì)算機(jī)和黑白打印機(jī)支持=1%、臺(tái)式計(jì)算機(jī)和黑白打印機(jī)支持=1%、第1層min_sup=5%、第2層min_sup=2%、計(jì)算機(jī)和筆記本電腦和彩色打印機(jī)支持=2%、臺(tái)式電腦和彩色打印機(jī)支持=3%、36、拒絕支持:受控層交叉單項(xiàng)過濾、拒絕支持多層挖掘:如果滿足層轉(zhuǎn)移閾值,則允許檢查不滿足最小支持閾值的兒童。筆記本電腦支持=6%,臺(tái)式電腦支持=4
9、%,第1層1分鐘_秒=12%級別_通道_秒=8%,第2層2分鐘_秒=3%,計(jì)算機(jī)支持=10%,37,多層關(guān)聯(lián):冗余過濾,由于”。示例臺(tái)式計(jì)算機(jī)黑白打印機(jī)支持=8%,置信度=70% IBM臺(tái)式計(jì)算機(jī)黑白打印機(jī)支持=2%,置信度=72%我們說第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先,如果它的支持類似于我們的“預(yù)期”支持,我們會(huì)說這個(gè)規(guī)則是多余的。,38,多維關(guān)聯(lián)規(guī)則:概念,單維規(guī)則:購買(x,“牛奶”)購買(x,“面包”)多維規(guī)則:兩個(gè)以上維度/謂詞之間的關(guān)聯(lián)規(guī)則(維度詞不重復(fù))年齡(x,“19-25”)職業(yè)(x,“學(xué)生”)“可樂”)混合維度關(guān)聯(lián)規(guī)則(重復(fù)維度詞)年齡(x,“19-25”)購買(x,“罌粟”)
10、購買(x,“可樂”)具有有限數(shù)量的分類屬性(也稱為名義屬性),并且這些值之間沒有順序關(guān)系。量化屬性值意味著值之間的順序關(guān)系,39這種結(jié)構(gòu)有時(shí)會(huì)產(chǎn)生一些錯(cuò)誤的結(jié)果。例如:假設(shè)一家體育用品零售商調(diào)查了10000名顧客購買的商品,結(jié)果是6000名顧客購買籃球,7500名顧客購買足球,4000名顧客購買籃球和足球。假設(shè)最小支持度為30%,最小置信度為60%,可以得到以下關(guān)聯(lián)規(guī)則:籃球足球(支持度=40%,置信度為66%)實(shí)際上是錯(cuò)誤的,因?yàn)橘徺I足球的比例為75%,甚至超過66%。事實(shí)上,購買籃球和足球之間存在負(fù)相關(guān)。規(guī)則A=B的可信度在某種程度上具有欺騙性。它只是給定的條件概率的一個(gè)估計(jì)值,并不度量A
11、和B之間隱含的實(shí)際強(qiáng)度,40,從相關(guān)性分析到相關(guān)性分析,根據(jù)相關(guān)性分析,挖掘數(shù)據(jù)項(xiàng)之間有趣的聯(lián)系。Corr a,b=p (ab)/p (a) p (b)=1:項(xiàng)集a和b是獨(dú)立的。項(xiàng)目集A和B是正相關(guān)的??死?,b=p (ab)/p (a) p (b) burgers”,給定最小支持閾值25%和最小置信閾值50%,這個(gè)關(guān)聯(lián)規(guī)則強(qiáng)嗎?根據(jù)給定的數(shù)據(jù),買熱狗是否獨(dú)立于買漢堡包?如果沒有,它們之間的相關(guān)性是什么?42,基于約束的挖掘,使用約束的必要性在數(shù)據(jù)挖掘中經(jīng)常使用幾個(gè)約束:知識(shí)類型約束:指定要挖掘的知識(shí)類型,例如關(guān)聯(lián)規(guī)則數(shù)據(jù)約束:指定與任務(wù)相關(guān)的數(shù)據(jù)集查找1998年12月在溫哥華一起銷售的產(chǎn)品對。
12、維度/級別約束:指定與地區(qū)、價(jià)格、品牌、客戶類別相關(guān)的級別。規(guī)則約束:指定要挖掘的規(guī)則表單(如規(guī)則模板)的單價(jià)(價(jià)格$200)。興趣約束:指定規(guī)則興趣閾值或統(tǒng)計(jì)度量,如(最小支持3%,最小置信度60%)。43歲。元規(guī)則指導(dǎo)關(guān)聯(lián)規(guī)則的挖掘。元規(guī)則使用戶能夠解釋他們感興趣的規(guī)則的語法形式。元規(guī)則可以根據(jù)分析師對數(shù)據(jù)的經(jīng)驗(yàn)、期望或直覺,或者根據(jù)數(shù)據(jù)庫模式自動(dòng)生成。例如,p1 (x,y) p2 (x,w)購買(x,“軟件”),44,具有附加規(guī)則的約束導(dǎo)向挖掘,假設(shè)等位電子產(chǎn)品的銷售多維數(shù)據(jù)庫具有以下關(guān)系:銷售(客戶名稱,項(xiàng)目名稱,交易id)生活(客戶名稱,地區(qū),城市)項(xiàng)目(項(xiàng)目名稱,類別,價(jià)格)交易(交易id,日期,月,年),45,具有附加規(guī)則的約束導(dǎo)向挖掘,“找出哪種廉價(jià)商品可以在1999年為溫哥華的客戶促進(jìn)這種銷售?!?1)將關(guān)聯(lián)挖掘?yàn)?2)lives(c,_,vancouver)sales(c,i,s)=銷售(c,J,T) (3)來自銷售(4),其中s . year=1999t . year=1999 I . category=j . category(5)按c分組,I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院入住老人心理關(guān)懷制度
- 企業(yè)內(nèi)部會(huì)議紀(jì)要及跟進(jìn)制度
- 養(yǎng)雞飼料基礎(chǔ)知識(shí)培訓(xùn)課件
- 2026浙江臺(tái)州市溫嶺市司法局招錄1人參考題庫附答案
- 會(huì)議組織與管理工作制度
- 2026福建南平市醫(yī)療類儲(chǔ)備人才引進(jìn)10人備考題庫附答案
- 會(huì)議報(bào)告與總結(jié)撰寫制度
- 公共交通信息化建設(shè)管理制度
- 養(yǎng)雞技術(shù)培訓(xùn)課件資料
- 2026重慶渝北龍興幼兒園招聘參考題庫附答案
- 2025至2030銻酸鈉行業(yè)市場占有率及投資前景評估規(guī)劃報(bào)告
- 核電行業(yè)防造假管理制度
- GJB2489A2023航空機(jī)載設(shè)備履歷本及產(chǎn)品合格證編制要求
- 要素式強(qiáng)制執(zhí)行申請書(申請執(zhí)行用)
- 小馬宋廣告戰(zhàn)略營銷公司簡介
- 2025年4月自考00609高級日語(一)試題
- 公司一事一議管理制度
- 新疆阿合奇托什干河國家濕地公園建設(shè)項(xiàng)目環(huán)境影響報(bào)告書
- 同等學(xué)力碩士學(xué)位協(xié)議書
- 維修工作計(jì)劃模板范文
- DB13(J)-T 8401-2021 鋼絲網(wǎng)片復(fù)合保溫板應(yīng)用技術(shù)標(biāo)準(zhǔn)
評論
0/150
提交評論