版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、知識背景:序列模式是神馬嗎? 1 .顧客購買產(chǎn)品x,在有會兒之間購買產(chǎn)品y的可能性高(時間序列模型)2.在某一點發(fā)現(xiàn)現(xiàn)象x,在下一點發(fā)現(xiàn)現(xiàn)象y的可能性高(空間序列模型),知識背景:序列模型vs關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則,序列模型,序列模型=。 知識背景:序列模型vs時間序列模型、時間序列模型、序列模型、序列模型:一系列研究對象時間序列模型:具有股票分析等時間自相關(guān)性性的特定對象(變量)在一定期間內(nèi)的變化趨勢、知識信息幀工作:1.1概念、 定性:序列模式挖掘是挖掘頻繁出現(xiàn)的有序上通告或子序列的定量:給出表示最小支持度閾值的正整數(shù)min_sup。 如果序列數(shù)據(jù)庫s中存在support(s)()min_su
2、p,則序列是頻繁的序列,也稱為序列模式。1.2 :定義、序列:將對象a的所有事務(wù)按時間斯坦共和國順序排序,得到對象a的序列s的事務(wù):序列是事務(wù)的有序列表,s=; 項:事務(wù)e是一個項集,可以標(biāo)記為e=(x1,x2,x3,xn ),只有一個項時可以原樣標(biāo)記為x1。 序列數(shù)據(jù)庫:包含一個或多個序列數(shù)據(jù)的數(shù)據(jù)定徑套子序列:序列=,序列=,ai和bi為元素,其中該序列中包含的項的數(shù)量以該序列的長度、長度l的序列為l序列。 在存在整數(shù)1=j1 j2 jn=m的情況下,a1 bj1,a2 bj2,an bjn也被稱為系列的子系列,并且也被稱為系列包含系列。 的雙曲馀弦值。 假設(shè)s1=s2=s3=(s4=),
3、其中s1是三個事務(wù)、八個項目、長度是八個,即八個序列。 s2和s3都是s1子序列。 s4是s1的子序列,2.1 gsp算法和spade算法,算法介紹:屬于apriori類算法,根據(jù)原理化學(xué)基“序列模式的每個非空子定徑套序列模式”,根據(jù)“候選生成-測試”模式進(jìn)行挖掘。 主要步驟: 1,通過連接操作和剪出操作,從2 .長度為i的種子定徑套li產(chǎn)生長度為i 1的候選序列模式ci 1,其中序列數(shù)據(jù)庫被掃描,并且長度為1的序列模式l1作為初始種子定徑套。 然后,掃描序列數(shù)據(jù)庫,補(bǔ)正各候補(bǔ)序列模式的支持度,生成長度為i 1的序列模式li 1,將li 1作為新的種子定徑套。 3 .重復(fù)第二步驟,直到不能生成
4、新的序列模式或新的候選序列模式,如果刪除了l1c2l2c3l3c4l4、2.1gsp算法和spade算法、連接操作:序列模式s1的第一個和序列模式s2的最后一個的序列相同,就把s1連接到s2 在此,(1)如果s2中的最后兩個項目本來屬于相同事務(wù),則在合并之后與s1序列中的最后兩個項目合并為相同事務(wù)(2),否則s2中的最后兩個項目獨立地為一個事務(wù)。 切割階段:如果候選系列模式的子系列不是系列模式,則該候選系列模式將從候選系列模式中刪除,而不是從系列模式中刪除。頻繁出現(xiàn)3系列:候選生成:候選剪枝:2.1 gsp算法和spade算法、gspvsspade,由于數(shù)據(jù)庫中存儲的數(shù)據(jù)的結(jié)構(gòu)不同,所以掃描數(shù)
5、據(jù)庫的效率不同。 2.1 gsp算法和spade算法在序列數(shù)據(jù)庫的規(guī)模比較大時,有可能發(fā)生需要對序列數(shù)據(jù)庫進(jìn)行循環(huán)掃描的序列模式的長度比較長的情況,由于與其對應(yīng)的短的序列模式的規(guī)模過大,本算法難以處理, 介紹類apriori算法有問題的算法:基于fp增長算法采用分散的思想不斷生成序列數(shù)據(jù)庫的多個更小的心理投射數(shù)據(jù)庫,然后在各個心理投射數(shù)據(jù)庫中挖掘序列模式,假定前綴和后綴:序列s=,序列,等等關(guān)于s的后綴是關(guān)于s的后綴是關(guān)于2.2 prefixspan算法,心理投射數(shù)據(jù)庫:系列數(shù)據(jù)庫s中的一個系列模式,則的心理投射數(shù)據(jù)庫是s中前綴的系列相對的后綴,記為s|例:系列模式2.2 prefixspan
6、算法,其為主要步驟: (2)劃分搜索空間;(3)找到序列模式的子定徑套;(a )找到與序列數(shù)據(jù)庫d相關(guān)的心理投射數(shù)據(jù)庫s1,sm,s11,s1n,sm1,smp,2.2前綴區(qū)域算法, (1)1序列模型是:4 (2)搜索空間的分割: (1)基于結(jié)果來分割前綴子定徑套的前綴為的子定徑套前綴為的子定徑套,等等2.2 prefixspan算法;(3)找到序列模型的子定徑套: (a )創(chuàng)建的心理投射數(shù)據(jù)庫(b ) 2.2 prefixspan算法,prefixspan算法分析,它掃描上述心理投射數(shù)據(jù)庫,在局部發(fā)現(xiàn)頻繁項,分別查找以:(c )遞歸、為前綴的系列模型(4)以上挖掘的序列模型的子定徑套; prefixspan算法不需要生成候選序列模式,因此相對于檢索空間大幅縮小的原始序列數(shù)據(jù)庫,正在縮小心理投射數(shù)據(jù)庫規(guī)模的prefixspan算法的主要開銷是:心理投射數(shù)據(jù)庫的結(jié)構(gòu)、3.1多維、 多階段系列的“購買電子數(shù)碼的退休人員在一個月內(nèi)很可能購買彩色打印機(jī)”“購買筆記本的后生子在兩周內(nèi)很可能購買打印機(jī)”等系列模式挖掘是多維多階段的。 多維度在“后生子”和“老人”中體現(xiàn)的多階段是“彩色打印機(jī)”和“打印機(jī)”,3.2基于制約的系列模式挖掘,1 .系列的長度示例:顧客在一周內(nèi)購買的商品系列2 .序列間事務(wù)的最大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030智能貨柜運營效率關(guān)鍵指標(biāo)與優(yōu)化方案研究報告
- 2025-2030物聯(lián)網(wǎng)行業(yè)市場競爭態(tài)勢市場發(fā)展?jié)摿σ?guī)劃研究報告
- 2025-2030物聯(lián)網(wǎng)智能家居設(shè)備市場供需安全可信程度模范校驗及風(fēng)險方式投資布局體系促進(jìn)綱要
- 2025-2030物聯(lián)網(wǎng)應(yīng)用場景行業(yè)細(xì)分領(lǐng)域政策激勵市場需求未來趨勢投資布局行業(yè)前景規(guī)劃分析報告
- 班級團(tuán)隊活動策劃方案大全
- 技術(shù)開發(fā)項目進(jìn)度控制方法匯編
- 國企員工責(zé)任擔(dān)當(dāng)主題演講稿樣本
- 小學(xué)四年級語文閱讀訓(xùn)練狀元筆記
- 廢舊易拉罐回收機(jī)設(shè)計方案與仿真
- 事業(yè)單位薪資調(diào)整方案解析
- 2026年陜西省森林資源管理局局屬企業(yè)公開招聘工作人員備考題庫及參考答案詳解1套
- 承包團(tuán)建燒烤合同范本
- 電力線通信技術(shù)
- 人工流產(chǎn)手術(shù)知情同意書
- 2025秋人教版七年級全一冊信息科技期末測試卷(三套)
- 教師三筆字培訓(xùn)課件
- 鋼鐵燒結(jié)機(jī)脫硫脫硝施工方案
- 中國醫(yī)藥行業(yè)中間體出口全景分析:破解政策難題深挖全球紅利
- 搶工補(bǔ)償協(xié)議書
- 山東省青島市城陽區(qū)2024-2025學(xué)年九年級上學(xué)期語文期末試卷(含答案)
- 孕婦尿液捐獻(xiàn)協(xié)議書
評論
0/150
提交評論