序列模式挖掘

上傳人：灰*** IP屬地：寧夏上傳時間：2020-07-14 格式：PPT 頁數(shù)：21 大?。?27.50KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、知識背景：序列模式是神馬嗎？ 1 .顧客購買產(chǎn)品x，在有會兒之間購買產(chǎn)品y的可能性高(時間序列模型)2.在某一點發(fā)現(xiàn)現(xiàn)象x，在下一點發(fā)現(xiàn)現(xiàn)象y的可能性高(空間序列模型)，知識背景：序列模型vs關(guān)聯(lián)規(guī)則，關(guān)聯(lián)規(guī)則，序列模型，序列模型=。知識背景：序列模型vs時間序列模型、時間序列模型、序列模型、序列模型：一系列研究對象時間序列模型：具有股票分析等時間自相關(guān)性性的特定對象(變量)在一定期間內(nèi)的變化趨勢、知識信息幀工作：1.1概念、定性：序列模式挖掘是挖掘頻繁出現(xiàn)的有序上通告或子序列的定量：給出表示最小支持度閾值的正整數(shù)min_sup。如果序列數(shù)據(jù)庫s中存在support(s)()min_su

2、p，則序列是頻繁的序列，也稱為序列模式。1.2 :定義、序列：將對象a的所有事務(wù)按時間斯坦共和國順序排序，得到對象a的序列s的事務(wù)：序列是事務(wù)的有序列表，s=；項：事務(wù)e是一個項集，可以標(biāo)記為e=(x1，x2，x3，xn )，只有一個項時可以原樣標(biāo)記為x1。序列數(shù)據(jù)庫：包含一個或多個序列數(shù)據(jù)的數(shù)據(jù)定徑套子序列：序列=，序列=，ai和bi為元素，其中該序列中包含的項的數(shù)量以該序列的長度、長度l的序列為l序列。在存在整數(shù)1=j1 j2 jn=m的情況下，a1 bj1，a2 bj2，an bjn也被稱為系列的子系列，并且也被稱為系列包含系列。的雙曲馀弦值。假設(shè)s1=s2=s3=(s4=)，

3、其中s1是三個事務(wù)、八個項目、長度是八個，即八個序列。 s2和s3都是s1子序列。 s4是s1的子序列，2.1 gsp算法和spade算法，算法介紹：屬于apriori類算法，根據(jù)原理化學(xué)基“序列模式的每個非空子定徑套序列模式”，根據(jù)“候選生成-測試”模式進(jìn)行挖掘。主要步驟： 1，通過連接操作和剪出操作，從2 .長度為i的種子定徑套li產(chǎn)生長度為i 1的候選序列模式ci 1，其中序列數(shù)據(jù)庫被掃描，并且長度為1的序列模式l1作為初始種子定徑套。然后，掃描序列數(shù)據(jù)庫，補(bǔ)正各候補(bǔ)序列模式的支持度，生成長度為i 1的序列模式li 1，將li 1作為新的種子定徑套。 3 .重復(fù)第二步驟，直到不能生成

4、新的序列模式或新的候選序列模式，如果刪除了l1c2l2c3l3c4l4、2.1gsp算法和spade算法、連接操作：序列模式s1的第一個和序列模式s2的最后一個的序列相同，就把s1連接到s2 在此，(1)如果s2中的最后兩個項目本來屬于相同事務(wù)，則在合并之后與s1序列中的最后兩個項目合并為相同事務(wù)(2)，否則s2中的最后兩個項目獨立地為一個事務(wù)。切割階段：如果候選系列模式的子系列不是系列模式，則該候選系列模式將從候選系列模式中刪除，而不是從系列模式中刪除。頻繁出現(xiàn)3系列：候選生成：候選剪枝：2.1 gsp算法和spade算法、gspvsspade，由于數(shù)據(jù)庫中存儲的數(shù)據(jù)的結(jié)構(gòu)不同，所以掃描數(shù)

5、據(jù)庫的效率不同。 2.1 gsp算法和spade算法在序列數(shù)據(jù)庫的規(guī)模比較大時，有可能發(fā)生需要對序列數(shù)據(jù)庫進(jìn)行循環(huán)掃描的序列模式的長度比較長的情況，由于與其對應(yīng)的短的序列模式的規(guī)模過大，本算法難以處理，介紹類apriori算法有問題的算法：基于fp增長算法采用分散的思想不斷生成序列數(shù)據(jù)庫的多個更小的心理投射數(shù)據(jù)庫，然后在各個心理投射數(shù)據(jù)庫中挖掘序列模式，假定前綴和后綴：序列s=，序列，等等關(guān)于s的后綴是關(guān)于s的后綴是關(guān)于2.2 prefixspan算法，心理投射數(shù)據(jù)庫：系列數(shù)據(jù)庫s中的一個系列模式，則的心理投射數(shù)據(jù)庫是s中前綴的系列相對的后綴，記為s|例：系列模式2.2 prefixspan

6、算法，其為主要步驟： (2)劃分搜索空間；(3)找到序列模式的子定徑套；(a )找到與序列數(shù)據(jù)庫d相關(guān)的心理投射數(shù)據(jù)庫s1，sm，s11，s1n，sm1，smp，2.2前綴區(qū)域算法， (1)1序列模型是：4 (2)搜索空間的分割： (1)基于結(jié)果來分割前綴子定徑套的前綴為的子定徑套前綴為的子定徑套，等等2.2 prefixspan算法；(3)找到序列模型的子定徑套： (a )創(chuàng)建的心理投射數(shù)據(jù)庫(b ) 2.2 prefixspan算法，prefixspan算法分析，它掃描上述心理投射數(shù)據(jù)庫，在局部發(fā)現(xiàn)頻繁項，分別查找以：(c )遞歸、為前綴的系列模型(4)以上挖掘的序列模型的子定徑套； prefixspan算法不需要生成候選序列模式，因此相對于檢索空間大幅縮小的原始序列數(shù)據(jù)庫，正在縮小心理投射數(shù)據(jù)庫規(guī)模的prefixspan算法的主要開銷是：心理投射數(shù)據(jù)庫的結(jié)構(gòu)、3.1多維、多階段系列的“購買電子數(shù)碼的退休人員在一個月內(nèi)很可能購買彩色打印機(jī)”“購買筆記本的后生子在兩周內(nèi)很可能購買打印機(jī)”等系列模式挖掘是多維多階段的。多維度在“后生子”和“老人”中體現(xiàn)的多階段是“彩色打印機(jī)”和“打印機(jī)”，3.2基于制約的系列模式挖掘，1 .系列的長度示例：顧客在一周內(nèi)購買的商品系列2 .序列間事務(wù)的最大

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

序列模式挖掘

文檔簡介

溫馨提示

最新文檔

評論

序列模式挖掘

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔