版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 全國(guó)高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)BIG DATA主編張燕張重生張志立副主編教授,清華大學(xué)博士?,F(xiàn)任南京大數(shù)據(jù)研究院院長(zhǎng)、中國(guó)信息協(xié)會(huì)大數(shù)據(jù)分會(huì)副會(huì)長(zhǎng)、中國(guó)大數(shù)據(jù)技術(shù)與應(yīng)用聯(lián)盟副理事長(zhǎng)。主持完成科研項(xiàng)目25項(xiàng),發(fā)表論文80余篇,出版專(zhuān)業(yè)書(shū)籍15本。獲部級(jí)科技進(jìn)步二等獎(jiǎng)4項(xiàng)、三等獎(jiǎng)4項(xiàng)。主編的云計(jì)算被全國(guó)高校普遍采用,被引用量排名中國(guó)計(jì)算機(jī)圖書(shū)第一名。創(chuàng)辦了知名的中國(guó)云計(jì)算()和中國(guó)大數(shù)據(jù)()網(wǎng)站。曾率隊(duì)奪得2002 PennySort國(guó)際計(jì)算機(jī)排序比賽冠軍,兩次奪得全國(guó)高校科技比賽最高獎(jiǎng),并三次奪得清華大學(xué)科技
2、比賽最高獎(jiǎng)。榮獲“全軍十大學(xué)習(xí)成才標(biāo)兵”(排名第一)、南京“十大杰出青年”、江蘇省中青年科學(xué)技術(shù)帶頭人、清華大學(xué)“學(xué)術(shù)新秀”等稱(chēng)號(hào)。 全國(guó)高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用3 . 13 . 23 . 33 . 143 . 53.6 習(xí)題數(shù)據(jù)挖掘概述分類(lèi)聚類(lèi)數(shù)關(guān)據(jù)聯(lián)挖規(guī)掘則概述預(yù)測(cè)規(guī)模數(shù)據(jù)挖掘算法綜合應(yīng)用of365第三章數(shù)據(jù)挖掘算法3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最活躍的研究方法之一,是指搜索業(yè)務(wù)系統(tǒng)中的所有細(xì)節(jié)或事務(wù),找出所有能把一組或數(shù)據(jù)項(xiàng)與另一組或數(shù)據(jù)項(xiàng)聯(lián)系起來(lái)的規(guī)則,以獲得存在于數(shù)據(jù)庫(kù)中的不為人知的或不能確定的信息,它側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間
3、的聯(lián)系,也是在無(wú)指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式 的最普通形式。of465More應(yīng)用市場(chǎng):市場(chǎng)貨籃分析、交叉銷(xiāo)售(Crossing Sale)、部分分 類(lèi) (Partial Classification) 、 金 融 服 務(wù) (Financial Service),以及通信、互聯(lián)網(wǎng)、電子商務(wù) 3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.1 關(guān)聯(lián)規(guī)則的概念一般來(lái)說(shuō),關(guān)聯(lián)規(guī)則挖掘是指從一個(gè)大型的數(shù)據(jù)集(Dataset)發(fā)現(xiàn)有趣的關(guān)聯(lián)(Association)或相關(guān)關(guān)系(Correlation),即從數(shù)據(jù)集中識(shí)別出頻繁出現(xiàn)的屬性值集(Sets of Attribute Values),也稱(chēng)為頻繁項(xiàng)集(Fr
4、equent Itemsets,頻繁集), 然后利用這些頻繁項(xiàng)集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則的過(guò)程。關(guān)聯(lián)規(guī)則挖掘問(wèn)題:如何迅速高效地發(fā)現(xiàn)所有頻繁項(xiàng)集,是關(guān)聯(lián)規(guī)則挖掘的核心問(wèn)題,也是衡量關(guān)聯(lián)規(guī)則挖掘算法效率的重要標(biāo)準(zhǔn)。of565生成關(guān)聯(lián)規(guī)則通過(guò)用戶(hù)給定的最小可信度,在每個(gè)最大頻繁項(xiàng)集中,尋找可信度不小于Minconfidence的關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)頻繁項(xiàng)集發(fā)現(xiàn)所有的頻繁項(xiàng)集是形成關(guān)聯(lián)規(guī)則的基礎(chǔ)。通過(guò)用戶(hù)給定的最小支持度,尋找所有支持度大于或等于Minsupport的頻繁項(xiàng)集。3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法格結(jié)構(gòu)(Lattice Structure)常常被用來(lái)枚舉所
5、有可能的項(xiàng)集。圖3-10 項(xiàng)集的格of6653.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法格結(jié)構(gòu)(Lattice Structure)常常被用來(lái)枚舉所有可能的項(xiàng)集。按照挖掘的策略不同 基于最大頻繁項(xiàng)集的查找策略 基于廣度優(yōu)先搜索策略的關(guān)聯(lián)規(guī)則算法 Apriori算法、DHP算法FP-Growth算法、ECLAT算法COFI算法 A-close算法 基于精簡(jiǎn)集的方法MAFIA算法、GenMax算法DepthProject算法 基于最大頻繁項(xiàng)目集的方法of765與經(jīng)典查找不同方法基于深度優(yōu)先搜索策略的算法經(jīng)典的挖掘完全頻繁項(xiàng)集方法查找頻繁項(xiàng)目集經(jīng)典的查找策略基于精簡(jiǎn)集的查
6、找策略3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法1. Apriori算法Apriori算法基于頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),使用由下至上逐層搜索的迭代方法,即從頻繁1項(xiàng)集開(kāi)始,采用頻繁k項(xiàng)集搜索頻繁k+1項(xiàng)集,直到不能找到包含更多項(xiàng)的頻繁項(xiàng)集為止。Apriori算法由以下步驟組成,其中的核心步驟是連接步和剪枝步:性能瓶頸 連接步 剪枝步of865重復(fù)步驟(2)(4),直到不能產(chǎn)生新的頻繁項(xiàng)集的集合為止,算法中止。生成頻繁k項(xiàng)集Lk可能產(chǎn)生龐大的候選項(xiàng)集Apriori算法是一個(gè)多趟搜索算法生成頻繁1項(xiàng)集L13.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)
7、典算法2FP-Growth算法頻繁模式樹(shù)增長(zhǎng)算法(Frequent Pattern Tree Growth)采用分而治之的基本思想,將數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集壓縮到一棵頻繁模式樹(shù)中,同時(shí)保持項(xiàng)集之間的關(guān)聯(lián)關(guān)系。然后將這棵壓縮后的頻繁模式 樹(shù)分成一些條件子樹(shù),每個(gè)條件子樹(shù)對(duì)應(yīng)一個(gè)頻繁項(xiàng),從而獲得頻繁項(xiàng)集,最后進(jìn)行關(guān)聯(lián)規(guī)則挖掘。FP-Growth算法由以下步驟組成: 1 3 構(gòu)造FP樹(shù) 4 圖3-11 FP樹(shù)的構(gòu)造of965通過(guò)后綴模式與條件FP樹(shù)產(chǎn)生的頻繁模式連接實(shí)現(xiàn)模式增長(zhǎng)將頻繁1項(xiàng)集L1按照支持度遞減順序排序,得到排序后的項(xiàng)集L12掃描事務(wù)數(shù)據(jù)庫(kù)D,生成頻繁1項(xiàng)集L13.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘
8、算法3.4.2 頻繁項(xiàng)集的產(chǎn)生及其經(jīng)典算法3辛普森悖論雖然關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)項(xiàng)目之間的有趣關(guān)系,在某些情況下,隱藏的變量可能會(huì)導(dǎo)致觀察到的一對(duì)變量之間的聯(lián)系消失或逆轉(zhuǎn)方向,這種現(xiàn)象就是所謂的辛普森悖論(Simpsons Paradox)。為了避免辛普森悖論的出現(xiàn),就需要斟酌各個(gè)分組的權(quán)重,并以一定的系數(shù)去消除以分組數(shù)據(jù)基數(shù)差異所造成的影響。同時(shí)必須了解清楚情況,是否存在潛在因素,綜合考慮。of10653.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類(lèi)技術(shù)分類(lèi)技術(shù)或分類(lèi)法(Classification)是一種根據(jù)輸入樣本集建立類(lèi)別模型,并按照類(lèi)別模型對(duì)未知樣本類(lèi)標(biāo)號(hào)進(jìn)行標(biāo)記的方法。1決策樹(shù)決策
9、樹(shù)就是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的過(guò)程。決策樹(shù)分類(lèi)算法通常分為兩個(gè)步驟:構(gòu)造決策樹(shù)和修剪決策樹(shù)。of1165基于實(shí)例的數(shù)據(jù)分類(lèi)基于案例推理的數(shù)據(jù)分類(lèi)根據(jù)所采用的分類(lèi)模型不同基于統(tǒng)計(jì)模型的數(shù)據(jù)分類(lèi)基于神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)分類(lèi)基于決策樹(shù)模型的數(shù)據(jù)分類(lèi)3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類(lèi)技術(shù)構(gòu)造決策樹(shù)修剪決策樹(shù)對(duì)決策樹(shù)進(jìn)行修剪,除去不必要的分枝,同時(shí)也能使決策樹(shù)得到簡(jiǎn)化。常用的決策樹(shù)修剪策略基于代價(jià)復(fù)雜度的修剪悲觀修剪最小描述長(zhǎng)度修剪按照修剪的先后順序先剪枝(Pre-pruning) 后剪枝(Post-pruning) 根據(jù)符合條件不同生成葉子節(jié)點(diǎn)of1265針對(duì)上一步中得到的每一個(gè)子
10、集,重復(fù)進(jìn)行以上兩個(gè)步驟,直到最后的子集符合約束的3個(gè)條件之一 子集中的所有元組都屬于同一類(lèi)。 該子集是已遍歷了所有決策屬性后得到的。 子集中的所有剩余決策屬性取值完全相同,已不能根據(jù)這些決策屬性進(jìn)一步劃分子集。根據(jù)當(dāng)前決策節(jié)點(diǎn)屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集在決策屬性集中選擇最有分類(lèi)標(biāo)識(shí)能力的屬性作為決策樹(shù)的當(dāng)前決策節(jié)點(diǎn)根據(jù)實(shí)際需求及所處理數(shù)據(jù)的特性,選擇類(lèi)別標(biāo)識(shí)屬性和決策樹(shù)的決策屬性集3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.3 分類(lèi)技術(shù)2k-最近鄰最臨近分類(lèi)基于類(lèi)比學(xué)習(xí),是一種基于實(shí)例的學(xué)習(xí),它使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè), 而不必維護(hù)源自數(shù)據(jù)的抽象(或模型)。它采用n 維數(shù)
11、值屬性描述訓(xùn)練樣本,每個(gè)樣本代表n 維空間的一個(gè)點(diǎn),即所有的訓(xùn)練樣本都存放在n 維空間中。若給定一個(gè)未知樣本, k-最近鄰分類(lèi)法搜索模式空間,計(jì)算該測(cè)試樣本與訓(xùn)練集中其他樣本的鄰近度,找出最接近未知樣本的k 個(gè)訓(xùn)練樣本,這k 個(gè)訓(xùn)練樣本就是未知樣本的k 個(gè)“近鄰”。其中的“鄰近度”一般采用歐幾里得距離定義:兩個(gè)點(diǎn)和的X = (x1, x2 , xn )Y = ( y1, y2 , yn )Euclid距離是。d(X ,Y ) =n(x - y )2i=1ii最近鄰分類(lèi)是基于要求的或懶散的學(xué)習(xí)法,即它存放所有的訓(xùn)練樣本,并且直到新的(未標(biāo)記的)樣本需要分類(lèi)時(shí)才建立分類(lèi)。其優(yōu)點(diǎn)是可以生成任意形狀的
12、決策邊界,能提供更加靈活的模型表示。of13653.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.4 案例:保險(xiǎn)客戶(hù)風(fēng)險(xiǎn)分析1. 挖掘目標(biāo)由過(guò)去大量的經(jīng)驗(yàn)數(shù)據(jù)發(fā)現(xiàn)機(jī)動(dòng)車(chē)輛事故率與駕駛者及所駕駛的車(chē)輛有著密切的關(guān)系,影響駕駛?cè)藛T安全駕駛的主要因素有年齡、性別、駕齡、職業(yè)、婚姻狀況、車(chē)輛車(chē)型、車(chē)輛用途、車(chē)齡等。因 此,客戶(hù)風(fēng)險(xiǎn)分析的挖掘目標(biāo)就是上述各主要因素與客戶(hù)風(fēng)險(xiǎn)之間的關(guān)系,等等。2數(shù)據(jù)預(yù)處理數(shù)據(jù)準(zhǔn)備與預(yù)處理是數(shù)據(jù)挖掘中的首要步驟,高質(zhì)量的數(shù)據(jù)是獲得高質(zhì)量決策的先決條件。在實(shí)施 數(shù)據(jù)挖掘之前,及時(shí)有效的數(shù)據(jù)預(yù)處理可以解決噪聲問(wèn)題和處理缺失的信息,將有助于提高數(shù)據(jù)挖 掘的精度和性能。of1465數(shù)據(jù)轉(zhuǎn)化
13、數(shù)據(jù)清洗在處理完噪聲數(shù)據(jù)后,就可以對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,主要的方法有: 聚集忽略無(wú)關(guān)屬性連續(xù)型屬性離散化等。去除數(shù)據(jù)集之中的噪聲數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗“臟”數(shù)據(jù)等。數(shù)據(jù)清洗處理通常包括處理噪聲數(shù)據(jù)、填補(bǔ)遺漏數(shù)據(jù)值/除去異常值、糾正數(shù)據(jù)不一致的問(wèn)題,等等。影響駕駛?cè)藛T安全駕駛的主要因素根據(jù)前述關(guān)聯(lián)規(guī)則的生出來(lái)的客戶(hù)風(fēng)險(xiǎn)關(guān)聯(lián)規(guī)成方法,得則到挖掘年齡性別駕齡職業(yè)婚姻狀況車(chē)輛車(chē)型車(chē)輛用途車(chē)齡其他年賠付次數(shù)(X,A)5駕齡(X,B)被保車(chē)輛的價(jià)值(X,C)年賠付金額(X,C)0.18090.30036駕齡(X,C)車(chē)輛用途(X,B)年賠付次數(shù)(X,A)0.19940.58647駕齡(X,C)被保車(chē)
14、輛的價(jià)值(X,C)車(chē)輛用途(X,C)年賠付次數(shù)(X,A)0.10310.6639駕齡(X,A)被保車(chē)輛的價(jià)值(X,A)車(chē)輛用途(X,B)3.4關(guān)聯(lián)規(guī)則第三章 數(shù)據(jù)挖掘算法3.4.4 案例:保險(xiǎn)客戶(hù)風(fēng)險(xiǎn)分析3關(guān)聯(lián)規(guī)則挖掘詳細(xì)分析所得數(shù)據(jù),可以為公司業(yè)務(wù)提供數(shù)據(jù)支撐,針對(duì)不同客戶(hù)提供偏好服務(wù),既能確保公司收益,又能給予用戶(hù)更多的實(shí)惠。表3-7 客戶(hù)風(fēng)險(xiǎn)關(guān)聯(lián)規(guī)則of15658年賠付金額(X,B)0.10250.36549投保人年齡(X,B)駕齡(X,A)被保車(chē)輛的價(jià)值(X,D) 年賠付金額(X,D)0.09340.454610駕齡(X,B)被保車(chē)輛的價(jià)值(X,A)車(chē)輛用途(X,A) 年賠付金額(X,
15、B)0.09680.448711投保人年齡(X,C)被保車(chē)輛的價(jià)值(X,C)車(chē)輛用途(X,C) 年賠付金額(X,B)0.09090.353112投保人年齡(X,C)駕齡(X,B)被保車(chē)輛的價(jià)值(X,C) 年賠付次數(shù)(X,A)0.08270.6094聯(lián)規(guī)則支持度置信度序號(hào)關(guān)1駕齡(X,A)被保車(chē)輛的價(jià)值(X,A)年賠付金額(X,B)0.18250.29652投保人年齡(X,A)駕齡(X,A) 年賠付次數(shù)(X,B)0.16790.25713駕齡(X,B)車(chē)輛用途(X,A) 年賠付金額(X,B)0.16630.33374駕齡(X,B)車(chē)輛用途(X,B)0.17890.4851 全國(guó)高校標(biāo)準(zhǔn)教材云計(jì)算
16、姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用3 . 13 . 23 . 33 . 43 . 453.6 習(xí)題數(shù)據(jù)挖掘概述分類(lèi)聚類(lèi)關(guān)聯(lián)規(guī)則關(guān)預(yù)聯(lián)測(cè)規(guī)模數(shù)據(jù)挖掘算法綜合應(yīng)用of1665第三章數(shù)據(jù)挖掘算法3.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.1 預(yù)測(cè)與預(yù)測(cè)模型預(yù)測(cè)分析是一種統(tǒng)計(jì)或數(shù)據(jù)挖掘解決方案,包含可在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來(lái)結(jié)果 的算法和技術(shù),可為預(yù)測(cè)、優(yōu)化、預(yù)報(bào)和模擬等許多其他相關(guān)用途而使用。時(shí)間序列預(yù)測(cè)是一種歷史資料延伸預(yù)測(cè),以時(shí)間序列所能反映的社會(huì)經(jīng)濟(jì)現(xiàn)象的發(fā)展過(guò)程和規(guī)律性, 進(jìn)行引申外推預(yù)測(cè)發(fā)展趨勢(shì)的方法。時(shí)間序列預(yù)測(cè)及數(shù)據(jù)挖掘分類(lèi)of1765數(shù)值序列的數(shù)據(jù)挖掘事務(wù)序列的數(shù)據(jù)挖掘
17、相似性問(wèn)題挖掘序列的數(shù)據(jù)挖掘依據(jù)研究的對(duì)象分類(lèi)時(shí)態(tài)模式挖掘依據(jù)研究的內(nèi)容分類(lèi)從時(shí)間序列數(shù)據(jù)中提取并組建特征,仍用原有的數(shù)據(jù)挖掘框架與算法進(jìn)行數(shù)據(jù)挖掘?qū)r(shí)間序列數(shù)據(jù)作為一種特殊的挖掘?qū)ο?,找尋?duì)應(yīng)的數(shù)據(jù)挖掘算法進(jìn)行專(zhuān)門(mén)研究依據(jù)研究的方式分類(lèi)3.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.1 預(yù)測(cè)與預(yù)測(cè)模型預(yù)測(cè)方案分類(lèi) 定性預(yù)測(cè)方法 時(shí)間序列預(yù)測(cè) 因果關(guān)系預(yù)測(cè)+ 1)均值函數(shù)-m = E X xf (x)dxtttg= Cov(x , x )E(x- Ex )(x - Ex ) 2)自協(xié)方差函數(shù)t ,ststtssg t ,s rt ,s ggt ,ts,sof18653)自相關(guān)函數(shù)時(shí)間序列的統(tǒng)計(jì)特征依
18、據(jù)預(yù)測(cè)方法的性質(zhì)3.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.1 預(yù)測(cè)與預(yù)測(cè)模型預(yù)測(cè)方案分類(lèi)+ ei= 1 xt -1 + 2 xt -2+ p xt - pxt 1)自回歸模型= et+ q1et -1 + q2et -2+ qqet -q+xt 2)移動(dòng)平均模型+ ei+ q1et -1 + q2et -2+ qqet -q 3)自回歸移動(dòng)平均模型= 1 xt -1 + 2 xt -2+ p xt - p+xtof1965時(shí)間序列模型3.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.2 時(shí)間序列預(yù)測(cè)時(shí)間序列:對(duì)按時(shí)間順序排列而成的觀測(cè)值集合,進(jìn)行數(shù)據(jù)的預(yù)測(cè)或預(yù)估。典型的算法:序貫?zāi)J酵诰騍PMGC算法
19、序 貫 模 式 挖 掘 算 法 SPMGC(Sequential Pattern Mining Based on General Constrains) SPMGC算法可以有效地發(fā)現(xiàn)有價(jià)值的數(shù)據(jù)序列模式,提供給大數(shù)據(jù)專(zhuān)家們進(jìn)行各類(lèi)時(shí)間序列的相 似性與預(yù)測(cè)研究。時(shí)間序列領(lǐng)域約束規(guī)則項(xiàng)集間的時(shí)間限制Cgap序列持續(xù)時(shí)間限制Cduration數(shù)據(jù)約束Cdata項(xiàng)的約束Citem序列長(zhǎng)度的約束CLength其他約束of20653.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.2 時(shí)間序列預(yù)測(cè)SPMGC算法的基本處理流程SPBGC算法首先對(duì)約束條件按照優(yōu)先級(jí)進(jìn)行排序,然后依據(jù)約束條件產(chǎn)生候選序列。SPBGC算法
20、 說(shuō)明了怎樣使用約束條件來(lái)挖掘序貫?zāi)J?,然而,由于?yīng)用領(lǐng)域的不同,具體的約束條件也不盡相同,同時(shí)產(chǎn)生頻繁序列的過(guò)程也可采用其他序貫?zāi)J剿惴?。of2165在此重復(fù)上一步,直至沒(méi)有新的候選序列模式或新的序列模式產(chǎn)生根據(jù)長(zhǎng)度為i-1的種子集Li-1,通過(guò)連接與剪切運(yùn)算生成長(zhǎng)度為i 并且滿(mǎn)足約束條件的候選序列模式Ci,基于此掃描序列數(shù)據(jù)庫(kù),并計(jì)算每個(gè)候選序列模式Ci 的支持?jǐn)?shù),從而產(chǎn)生長(zhǎng)度為I 的序列模式Li,將Li作為新種子集掃描時(shí)間序列數(shù)據(jù)庫(kù),獲取滿(mǎn)足約束條件且長(zhǎng)度為1的序列模式L1,以序列模式L1作為初始種子集3.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.3 案例:地震預(yù)警1. 地震波形數(shù)據(jù)存儲(chǔ)和計(jì)
21、算平臺(tái)南京云創(chuàng)大數(shù)據(jù)有限公司為山東省地震局研發(fā)了一套可以處理海量數(shù)據(jù)的高性能地震波形數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái),將從現(xiàn)有的光盤(pán)中導(dǎo)入地震波形數(shù)據(jù)并加以管理,以提供集中式的地震波形數(shù)據(jù)分析與功能,為開(kāi)展各種地震波形數(shù)據(jù)應(yīng)用提供海量數(shù)據(jù)存儲(chǔ)管理和計(jì)算服務(wù)能力。圖3-12山東省地震波測(cè)數(shù)據(jù)云平臺(tái)的顯示界面of22653.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.3 案例:地震預(yù)警2地震波形數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)的主要性能指標(biāo)of2365采用HDFS格式進(jìn)行數(shù)據(jù)讀取,讀取性能為4080MB/s節(jié)點(diǎn),數(shù)據(jù)規(guī)模10PB,數(shù)據(jù)負(fù)載均衡時(shí)間可依據(jù)流量配置而確定,集群重新啟動(dòng)時(shí)間按10PB規(guī)模計(jì)算達(dá)到分鐘級(jí)別地震波形數(shù)據(jù)存儲(chǔ)性
22、能指標(biāo)千兆網(wǎng)絡(luò)環(huán)境下,局域網(wǎng)客戶(hù)端從分布式文件存儲(chǔ)系統(tǒng)中讀取4096B存 儲(chǔ)內(nèi)容的響應(yīng)時(shí)間不高于50毫秒系統(tǒng)響應(yīng)時(shí)間指標(biāo)每年的原始地震波形數(shù)據(jù)及相關(guān)輔助信息約為15TB,為保證數(shù)據(jù)存儲(chǔ)的可靠性,要求采用3倍副本方式保存數(shù)據(jù),云平臺(tái)每年需要提供約45TB 的總存儲(chǔ)量,同時(shí)系統(tǒng)必須能實(shí)時(shí)接收和處理高達(dá)10MB/s的入庫(kù)數(shù)據(jù)數(shù)據(jù)存儲(chǔ)和處理指標(biāo)3.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.3 案例:地震預(yù)警3地震波形數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)的功能設(shè)計(jì)12數(shù)據(jù)解析數(shù)據(jù)入庫(kù)功能設(shè)計(jì)34云計(jì)算平臺(tái)的數(shù)據(jù)應(yīng)用接口數(shù)據(jù)存儲(chǔ)管理5數(shù)據(jù)異地修復(fù)of24653.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.3 案例:地震預(yù)警4平臺(tái)的組
23、成、總體構(gòu)架與功能模塊圖3-13 地震波形數(shù)據(jù)云平臺(tái)總體構(gòu)架與功能模塊of25653.5預(yù)測(cè)模型第三章 數(shù)據(jù)挖掘算法3.5.3 案例:地震預(yù)警5地震中的時(shí)間序列預(yù)測(cè)的主要手段也就是對(duì)地震序列進(jìn)行特征研究。通過(guò)對(duì)地震序列的特征研究,可以幫助判斷 某大地震發(fā)生后地質(zhì)活動(dòng)的規(guī)律,掌握一定區(qū)域內(nèi)地震前后震級(jí)次序間的某種內(nèi)在關(guān)聯(lián)性,有利于 判斷次地震發(fā)生后,震區(qū)地質(zhì)活動(dòng)的客觀趨勢(shì)1)地震數(shù)據(jù)收集和預(yù)處理采用SPBGC算法,預(yù)處理的流程步驟具體如下:of2665大地震文件處理完畢后,該階段地震數(shù)據(jù)收集和預(yù)處理階段結(jié)束掃描地震目錄數(shù)據(jù),對(duì)每一地震記錄E,均判斷當(dāng)前地震位置與震中G的距離是否滿(mǎn)足設(shè)定的空 間跨
24、度。如果滿(mǎn)足空間跨度,則將該記錄標(biāo)注為與震中等同的序列號(hào),同時(shí)將震中為圓心的區(qū)域范圍內(nèi)地震的次數(shù)加l;否則繼續(xù)處理下一條地震記錄獲取大地震文件中的每一條記錄E,并取得震級(jí)M與震中所在位置G依據(jù)地震目錄數(shù)據(jù)庫(kù),將震級(jí)大于或等于震級(jí)標(biāo)準(zhǔn)M的地震信息存入大地震文件設(shè)定地震序列的空間跨度,并劃分震級(jí)標(biāo)準(zhǔn)M 全國(guó)高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用3 . 13 . 23 . 33 . 43 . 533 . 46習(xí)題數(shù)據(jù)挖掘概述分類(lèi)聚類(lèi)關(guān)聯(lián)規(guī)則預(yù)測(cè)規(guī)模關(guān)數(shù)聯(lián)據(jù)規(guī)挖則掘算法綜合應(yīng)用of2765第三章數(shù)據(jù)挖掘算法3.6 數(shù)據(jù)挖掘算法綜合應(yīng)用第三章 數(shù)據(jù)挖掘算法3.6.1 案例分析:精確營(yíng)銷(xiāo)中
25、的關(guān)聯(lián)規(guī)則應(yīng)用數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具備分析價(jià)值與需求的數(shù)據(jù)倉(cāng)儲(chǔ)或數(shù)據(jù)庫(kù),都可 以利用挖掘工具進(jìn)行有目的的挖掘分析。一般較常見(jiàn)的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù)金融 保險(xiǎn)、通信業(yè)及醫(yī)療服務(wù)等。?通過(guò)關(guān)聯(lián)規(guī)則挖掘來(lái)發(fā)現(xiàn)和捕捉數(shù)據(jù)間隱藏的重要關(guān)聯(lián),從而為產(chǎn)品營(yíng)銷(xiāo)提供技術(shù)支撐。of2865如何找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)?如何在銷(xiāo)售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并由交易記錄找出顧客偏好的產(chǎn)品組合?如何通過(guò)交叉銷(xiāo)售,得到更大的收入?3.6 數(shù)據(jù)挖掘算法綜合應(yīng)用第三章 數(shù)據(jù)挖掘算法3.6.2 挖掘目標(biāo)的提出電子商務(wù)網(wǎng)站中的商品推薦為例 客戶(hù)忠誠(chéng)度 客戶(hù)自身原因 企業(yè)原因
26、 其他因素:如社會(huì)文化、國(guó)家政策等數(shù)據(jù)挖掘技術(shù)可以建立客戶(hù)忠誠(chéng)度分析模型,了解哪些因素對(duì)客戶(hù)的忠誠(chéng)度有較大的影響,從而采取相應(yīng)措施。因此,基于數(shù)據(jù)挖掘技術(shù)的客戶(hù)忠誠(chéng)度分析具有重要的應(yīng)用價(jià)值。of2965影響因素3.6 數(shù)據(jù)挖掘算法綜合應(yīng)用第三章 數(shù)據(jù)挖掘算法3.6.3 分析方法與過(guò)程圖3-14 電子商務(wù)網(wǎng)站操作流程of30653.6 數(shù)據(jù)挖掘算法綜合應(yīng)用第三章 數(shù)據(jù)挖掘算法3.6.3 分析方法與過(guò)程在電子商務(wù)系統(tǒng)中,忠誠(chéng)度分析所需要的客戶(hù)信息和交易信息分別存放在網(wǎng)站數(shù)據(jù)庫(kù)的客戶(hù)表、訂 單表及訂單明細(xì)表中。將客戶(hù)的忠誠(chéng)度分為4個(gè)等級(jí):0忠誠(chéng);1由忠誠(chéng)變?yōu)椴恢艺\(chéng);2由不忠誠(chéng)變?yōu)橹艺\(chéng);3不忠誠(chéng)。表3
27、-9 經(jīng)抽取而成的客戶(hù)信息表所得到的用戶(hù)數(shù)據(jù)很難做到完整全面,用戶(hù)在注冊(cè)時(shí)可能選擇不填注冊(cè)信息的幾項(xiàng),造成數(shù)據(jù)項(xiàng)空 缺。對(duì)于空缺的數(shù)據(jù)項(xiàng),要視情況排除或填入默認(rèn)值。按照一般的統(tǒng)計(jì)劃分經(jīng)驗(yàn)來(lái)對(duì)屬性值進(jìn)行分段,實(shí)現(xiàn)離散化。of3165客戶(hù)編號(hào)性別年齡(歲)教育程度距最近一次購(gòu)買(mǎi)時(shí)間(天)月均購(gòu)買(mǎi)頻率已消費(fèi)金額忠誠(chéng)度級(jí)別20120001男40大專(zhuān)53.4801.6020120002女28本科111.9246.313.6 數(shù)據(jù)挖掘算法綜合應(yīng)用第三章 數(shù)據(jù)挖掘算法3.6.3 分析方法與過(guò)程表3-10 經(jīng)離散變換后的客戶(hù)信息表本案例采用基于信息論的ID3決策樹(shù)分類(lèi)算法進(jìn)行客戶(hù)忠誠(chéng)度分析??蛻?hù)群細(xì)分使得公司可以更好地識(shí)別不同的客戶(hù)群體,區(qū)別對(duì)待不同客戶(hù),采取不同的客戶(hù)策略, 達(dá)到最優(yōu)化配置客戶(hù)資源的目的。使用聚類(lèi)算法進(jìn)行客戶(hù)群,數(shù)據(jù)項(xiàng)處理過(guò)程主要將這些表內(nèi)反映客戶(hù)身份背景、購(gòu)買(mǎi)興趣度等相關(guān) 信息提取出來(lái),并加以清理,除去噪聲數(shù)據(jù),對(duì)信息不完全的數(shù)據(jù)填入默認(rèn)值或舍去,進(jìn)行必要的 離散
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年蒙電資本控股有限責(zé)任公司市場(chǎng)化選聘業(yè)務(wù)總監(jiān)備考題庫(kù)及答案詳解1套
- 術(shù)后慢性疼痛的預(yù)防與治療策略
- 蔚來(lái)公司招聘試題及答案
- 生化酸堿平衡題目及答案
- 術(shù)后并發(fā)癥溝通的透明度原則
- 術(shù)后切口愈合的個(gè)性化治療策略
- 山東大型廣告字施工方案
- 永春縣貨車(chē)道路施工方案
- 甲減患者的心理行為護(hù)理
- 天潔集團(tuán)招聘面試題目及答案
- 鎮(zhèn)政府行政執(zhí)法培訓(xùn)課件
- 腦機(jī)接口技術(shù)應(yīng)用的神經(jīng)權(quán)利邊界與法律規(guī)制研究
- 2025中國(guó)商業(yè)航天行業(yè)發(fā)展研究報(bào)告
- 2025年證券公司員工績(jī)效考核與激勵(lì)方案合同
- DBJ15-51-2020 廣東省公共建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)
- WST524-2025《醫(yī)院感染暴發(fā)控制標(biāo)準(zhǔn)》解讀
- 人血白蛋白臨床應(yīng)用共識(shí)
- 康復(fù)治療技術(shù)職業(yè)生涯規(guī)劃
- 2025年保密知識(shí)考試試題庫(kù)教育考試試題庫(kù)與答案
- 2024沈陽(yáng)職業(yè)技術(shù)學(xué)院?jiǎn)握小墩Z(yǔ)文》題庫(kù)檢測(cè)試題打印含完整答案詳解【名校卷】
- 2025分級(jí)護(hù)理制度考試試題(及答案)
評(píng)論
0/150
提交評(píng)論