序列模式挖掘_第1頁
序列模式挖掘_第2頁
序列模式挖掘_第3頁
序列模式挖掘_第4頁
序列模式挖掘_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、知識背景:序列模式是神馬嗎? 1 .顧客購買產(chǎn)品x,在有會兒之間購買產(chǎn)品y的可能性高(時間序列模型)2.在某一點發(fā)現(xiàn)現(xiàn)象x,在下一點發(fā)現(xiàn)現(xiàn)象y的可能性高(空間序列模型),知識背景:序列模型vs關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則,序列模型,序列模型=。 知識背景:序列模型vs時間序列模型、時間序列模型、序列模型、序列模型:一系列研究對象時間序列模型:具有股票分析等時間自相關(guān)性性的特定對象(變量)在一定期間內(nèi)的變化趨勢、知識信息幀工作:1.1概念、 定性:序列模式挖掘是挖掘頻繁出現(xiàn)的有序上通告或子序列的定量:給出表示最小支持度閾值的正整數(shù)min_sup。 如果序列數(shù)據(jù)庫s中存在support(s)()min_su

2、p,則序列是頻繁的序列,也稱為序列模式。1.2 :定義、序列:將對象a的所有事務(wù)按時間斯坦共和國順序排序,得到對象a的序列s的事務(wù):序列是事務(wù)的有序列表,s=; 項:事務(wù)e是一個項集,可以標(biāo)記為e=(x1,x2,x3,xn ),只有一個項時可以原樣標(biāo)記為x1。 序列數(shù)據(jù)庫:包含一個或多個序列數(shù)據(jù)的數(shù)據(jù)定徑套子序列:序列=,序列=,ai和bi為元素,其中該序列中包含的項的數(shù)量以該序列的長度、長度l的序列為l序列。 在存在整數(shù)1=j1 j2 jn=m的情況下,a1 bj1,a2 bj2,an bjn也被稱為系列的子系列,并且也被稱為系列包含系列。 的雙曲馀弦值。 假設(shè)s1=s2=s3=(s4=),

3、其中s1是三個事務(wù)、八個項目、長度是八個,即八個序列。 s2和s3都是s1子序列。 s4是s1的子序列,2.1 gsp算法和spade算法,算法介紹:屬于apriori類算法,根據(jù)原理化學(xué)基“序列模式的每個非空子定徑套序列模式”,根據(jù)“候選生成-測試”模式進(jìn)行挖掘。 主要步驟: 1,通過連接操作和剪出操作,從2 .長度為i的種子定徑套li產(chǎn)生長度為i 1的候選序列模式ci 1,其中序列數(shù)據(jù)庫被掃描,并且長度為1的序列模式l1作為初始種子定徑套。 然后,掃描序列數(shù)據(jù)庫,補(bǔ)正各候補(bǔ)序列模式的支持度,生成長度為i 1的序列模式li 1,將li 1作為新的種子定徑套。 3 .重復(fù)第二步驟,直到不能生成

4、新的序列模式或新的候選序列模式,如果刪除了l1c2l2c3l3c4l4、2.1gsp算法和spade算法、連接操作:序列模式s1的第一個和序列模式s2的最后一個的序列相同,就把s1連接到s2 在此,(1)如果s2中的最后兩個項目本來屬于相同事務(wù),則在合并之后與s1序列中的最后兩個項目合并為相同事務(wù)(2),否則s2中的最后兩個項目獨立地為一個事務(wù)。 切割階段:如果候選系列模式的子系列不是系列模式,則該候選系列模式將從候選系列模式中刪除,而不是從系列模式中刪除。頻繁出現(xiàn)3系列:候選生成:候選剪枝:2.1 gsp算法和spade算法、gspvsspade,由于數(shù)據(jù)庫中存儲的數(shù)據(jù)的結(jié)構(gòu)不同,所以掃描數(shù)

5、據(jù)庫的效率不同。 2.1 gsp算法和spade算法在序列數(shù)據(jù)庫的規(guī)模比較大時,有可能發(fā)生需要對序列數(shù)據(jù)庫進(jìn)行循環(huán)掃描的序列模式的長度比較長的情況,由于與其對應(yīng)的短的序列模式的規(guī)模過大,本算法難以處理, 介紹類apriori算法有問題的算法:基于fp增長算法采用分散的思想不斷生成序列數(shù)據(jù)庫的多個更小的心理投射數(shù)據(jù)庫,然后在各個心理投射數(shù)據(jù)庫中挖掘序列模式,假定前綴和后綴:序列s=,序列,等等關(guān)于s的后綴是關(guān)于s的后綴是關(guān)于2.2 prefixspan算法,心理投射數(shù)據(jù)庫:系列數(shù)據(jù)庫s中的一個系列模式,則的心理投射數(shù)據(jù)庫是s中前綴的系列相對的后綴,記為s|例:系列模式2.2 prefixspan

6、算法,其為主要步驟: (2)劃分搜索空間;(3)找到序列模式的子定徑套;(a )找到與序列數(shù)據(jù)庫d相關(guān)的心理投射數(shù)據(jù)庫s1,sm,s11,s1n,sm1,smp,2.2前綴區(qū)域算法, (1)1序列模型是:4 (2)搜索空間的分割: (1)基于結(jié)果來分割前綴子定徑套的前綴為的子定徑套前綴為的子定徑套,等等2.2 prefixspan算法;(3)找到序列模型的子定徑套: (a )創(chuàng)建的心理投射數(shù)據(jù)庫(b ) 2.2 prefixspan算法,prefixspan算法分析,它掃描上述心理投射數(shù)據(jù)庫,在局部發(fā)現(xiàn)頻繁項,分別查找以:(c )遞歸、為前綴的系列模型(4)以上挖掘的序列模型的子定徑套; prefixspan算法不需要生成候選序列模式,因此相對于檢索空間大幅縮小的原始序列數(shù)據(jù)庫,正在縮小心理投射數(shù)據(jù)庫規(guī)模的prefixspan算法的主要開銷是:心理投射數(shù)據(jù)庫的結(jié)構(gòu)、3.1多維、 多階段系列的“購買電子數(shù)碼的退休人員在一個月內(nèi)很可能購買彩色打印機(jī)”“購買筆記本的后生子在兩周內(nèi)很可能購買打印機(jī)”等系列模式挖掘是多維多階段的。 多維度在“后生子”和“老人”中體現(xiàn)的多階段是“彩色打印機(jī)”和“打印機(jī)”,3.2基于制約的系列模式挖掘,1 .系列的長度示例:顧客在一周內(nèi)購買的商品系列2 .序列間事務(wù)的最大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論