版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘算法綜述摘要:數(shù)據(jù)挖掘技術(shù)在當(dāng)前研究領(lǐng)域中算是比較熱門(mén)的一項(xiàng)技術(shù),從國(guó)外發(fā)展到中國(guó),具有廣闊的商業(yè)應(yīng)用前景。本文主要概述了當(dāng)前數(shù)據(jù)挖掘的七大方法(分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘)和十大經(jīng)典算法(C4.5,K-Means,SVM,Apriori,EM,
PageRank,
AdaBoost,
kNN,
NaiveBayes,CART),以及數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。關(guān)鍵詞:數(shù)據(jù)挖掘,常用方法,經(jīng)典算法1引言在當(dāng)今信息爆炸的時(shí)代,伴隨著社會(huì)事件和自然活動(dòng)的大量產(chǎn)生(數(shù)據(jù)的海量增長(zhǎng)),人類正面臨著“被信息所淹沒(méi),但卻饑渴于知識(shí)”的困境。隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展、企業(yè)信息化水平的不斷提高和數(shù)據(jù)庫(kù)技術(shù)的日臻完善,人類積累的數(shù)據(jù)量正以指數(shù)方式增長(zhǎng)。面對(duì)海量的、雜亂無(wú)序的數(shù)據(jù),人們迫切需要一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理海量數(shù)據(jù)的復(fù)雜算法有機(jī)結(jié)合的技術(shù)。數(shù)據(jù)挖掘技術(shù)就是在這樣的背景下產(chǎn)生的。它可以從大量的數(shù)據(jù)中去偽存真,提取有用的信息,并將其轉(zhuǎn)換成知識(shí)。數(shù)據(jù)挖掘是一個(gè)多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、模糊數(shù)學(xué)和數(shù)理統(tǒng)計(jì)等最新技術(shù)的研究成果,可以用來(lái)支持商業(yè)智能應(yīng)用和決策分析。例如顧客細(xì)分、交叉銷售、欺詐檢測(cè)、顧客流失分析、商品銷量預(yù)測(cè)等等,目前廣泛應(yīng)用于銀行、金融、醫(yī)療、工業(yè)、零售和電信等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于各行各業(yè)來(lái)說(shuō),都具有重要的現(xiàn)實(shí)意義。2數(shù)據(jù)挖掘的概念2.1什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining),也叫數(shù)據(jù)開(kāi)采,數(shù)據(jù)采掘等,是按照既定的業(yè)務(wù)目標(biāo)從海量數(shù)據(jù)中提取出潛在、有效并能被人理解的模式的高級(jí)處理過(guò)程.在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢、檢索及報(bào)表功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行聯(lián)機(jī)分析處理(O乙心),從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù).在深層次上,則從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)前所未有的、隱含的知識(shí).OLAF'的出現(xiàn)早于數(shù)據(jù)挖掘,它們都是從數(shù)據(jù)庫(kù)中抽取有用信息的方法,就決策支持的需要而言兩者是相輔相成的。OLAP可以看作一種廣義的數(shù)據(jù)挖掘方法,它旨在簡(jiǎn)化和支持聯(lián)機(jī)分析,而數(shù)據(jù)挖掘的目的是便這一過(guò)程盡可能自動(dòng)化。數(shù)據(jù)挖掘基于的數(shù)據(jù)庫(kù)類型主要有:關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)、演繹數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、主動(dòng)數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、遺留數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本型、Internet信息庫(kù)以及新興的數(shù)據(jù)倉(cāng)庫(kù)。而挖掘后獲得的知識(shí)包括關(guān)聯(lián)規(guī)則、特征規(guī)則、區(qū)分規(guī)則、分類規(guī)則、總結(jié)規(guī)則、偏差規(guī)則、聚類規(guī)則、模式分析及趨勢(shì)分析等。2.2數(shù)據(jù)挖掘的特點(diǎn)數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):1.處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級(jí),甚至更大。2.查詢一般是決策制定者(用戶)提出的即時(shí)隨機(jī)查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的東西。3.在一些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。4.數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律.因此,所發(fā)現(xiàn)的規(guī)則不必適用于所有數(shù)據(jù),而是當(dāng)達(dá)到某一臨界值時(shí),即認(rèn)為有效.因此,利用數(shù)據(jù)挖掘技術(shù)可能會(huì)發(fā)現(xiàn)大量的規(guī)則。5.數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫(kù)具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫(kù)中加入新數(shù)據(jù),需要隨時(shí)對(duì)其進(jìn)行更新。2.3數(shù)據(jù)挖掘的應(yīng)用基礎(chǔ)數(shù)據(jù)挖掘是一種獲得知識(shí)的技術(shù)。它的基礎(chǔ)是數(shù)據(jù),手段是各種算法,目的是獲得數(shù)據(jù)中蘊(yùn)含的知識(shí)。發(fā)現(xiàn)知識(shí)并非易事,人們總是受到各種各樣的局限,目前數(shù)據(jù)缺乏仍然是發(fā)現(xiàn)知識(shí)的瓶頸。隨著數(shù)據(jù)采集和存儲(chǔ)技術(shù)的發(fā)展,對(duì)大量數(shù)據(jù)的分析和使用成為一個(gè)新的難題。對(duì)數(shù)據(jù)挖掘應(yīng)用而言,知識(shí)的發(fā)現(xiàn)存在兩個(gè)極限,一個(gè)是數(shù)據(jù)極限,即數(shù)據(jù)要么非常龐大,要么數(shù)據(jù)量足夠小,或者數(shù)據(jù)量小但維度非常大;另一個(gè)是算法極限,即針對(duì)很多數(shù)據(jù)(不同的性質(zhì),不同的形式)和很多需求,目前所有的算法尚不能很好地解決某些問(wèn)題。因此,數(shù)據(jù)挖掘應(yīng)用具有三個(gè)要素:數(shù)據(jù),算法,知識(shí)。數(shù)據(jù)挖掘應(yīng)用是一個(gè)多層次、流程化的工程任務(wù),開(kāi)展數(shù)據(jù)挖掘應(yīng)用也需要從每個(gè)層面加以處理,才能保證整個(gè)數(shù)據(jù)挖掘的成功運(yùn)行。數(shù)據(jù)挖掘應(yīng)用從上到下可分為三個(gè)大層面,具體結(jié)構(gòu)如下圖1所示:圖1
數(shù)據(jù)挖掘應(yīng)用的三大層面應(yīng)用層:把數(shù)據(jù)挖掘結(jié)果應(yīng)用于實(shí)踐。算法層:提供算法、引擎和界面。數(shù)據(jù)層:提供數(shù)據(jù)源、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備。3數(shù)據(jù)挖掘的常用方法數(shù)據(jù)挖掘從一個(gè)新的視角將數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域有機(jī)結(jié)合起來(lái),它能組合各個(gè)領(lǐng)域的優(yōu)點(diǎn),從而能從數(shù)據(jù)中挖掘到其他傳統(tǒng)方法不能發(fā)現(xiàn)的有用知識(shí)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁(yè)挖掘等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。1.分類分類就是應(yīng)用已知的一些屬性數(shù)據(jù)去推測(cè)一個(gè)未知的離散型屬性數(shù)據(jù),而這個(gè)被推測(cè)的屬性數(shù)據(jù)的可取值是預(yù)先定義的。要很好地實(shí)現(xiàn)這種推測(cè),就需要事先在已知的一些屬性和未知的離散型屬性之間建立一個(gè)有效的模型,即分類模型。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營(yíng)銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)?;貧w分析回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場(chǎng)營(yíng)銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。聚類聚類是將數(shù)據(jù)劃分為簇的過(guò)程,根據(jù)數(shù)據(jù)本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親屬關(guān)系),按一定的準(zhǔn)則將最相似的數(shù)據(jù)聚集成簇。使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。特征分析特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營(yíng)銷人員通過(guò)對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。變化和偏差分析偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。Web頁(yè)挖掘隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無(wú)比豐富,通過(guò)對(duì)Web的挖掘,可以利用Web的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它通過(guò)高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。這對(duì)于一個(gè)企業(yè)的發(fā)展十分重要。4數(shù)據(jù)挖掘的算法C4.5算法C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類決策樹(shù)算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;
3)能夠完成對(duì)連續(xù)屬性的離散化處理;
4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。
K-Means算法k-means算法是一個(gè)聚類算法。給定一個(gè)含有N個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,以及要生成的簇的數(shù)目K。每一個(gè)分組就代表一個(gè)聚類,K<N。而N得數(shù)量不能過(guò)少,否則聚類的效果就會(huì)大打折扣,一般實(shí)踐中N最好大于K×10.K個(gè)分組滿足每一個(gè)分組至少包含一條數(shù)據(jù)記錄,每一個(gè)數(shù)據(jù)記錄屬于且僅屬于一個(gè)分組。對(duì)于給定的K,算法首先得任務(wù)就是將數(shù)據(jù)構(gòu)建成K個(gè)劃分,以后通過(guò)反復(fù)迭代以改變分組的重定位技術(shù),使得每一次改進(jìn)之后的分組方案都較前一次的好。一個(gè)好的劃分準(zhǔn)則是同一簇中數(shù)據(jù)點(diǎn)盡可能“相似”,不同數(shù)據(jù)點(diǎn)中的數(shù)據(jù)盡可能“相異”。支持向量機(jī)支持向量機(jī)簡(jiǎn)稱SVM,它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開(kāi)數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化。平行超平面間的距離或差距越大,分類器的總誤差越小。支持向量機(jī)可以很好地解決小樣本、非線性及高維數(shù)據(jù)識(shí)別分類問(wèn)題,在實(shí)踐應(yīng)用中與其他算法比較時(shí),總能表現(xiàn)出表現(xiàn)出更好的性能和效果。4.Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法基于先驗(yàn)原理,它反映了子集與超集之間的關(guān)系:即頻繁項(xiàng)集的所有非空子集都必須是頻繁的,非頻繁項(xiàng)集的所有超集都必須是非頻繁的。如果項(xiàng)集I不滿最小支持度閾值s,則I不是頻繁的,即P(I)<s。如果A添加到I,則結(jié)果項(xiàng)集()不可能比I更頻繁出現(xiàn)。因此,(I,A)也不是頻繁的,即P()<s。因此,Apriori算法的性質(zhì)主要是用于搜索頻繁項(xiàng)集的時(shí)候?qū)蜻x式的篩選過(guò)程。利用Apriori性質(zhì),能夠比較好的避免盲目的搜索,提高頻繁項(xiàng)集的查找效率。
最大期望(EM)算法在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴于無(wú)法觀測(cè)的隱藏變量。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),利用對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值;第二步是最大化(M),最大化在E步上求得的最大似然值來(lái)計(jì)算參數(shù)的值。M步上找到的參數(shù)估計(jì)值被用于下一個(gè)E步計(jì)算中,這個(gè)過(guò)程不斷交替進(jìn)行。
最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的數(shù)據(jù)集聚領(lǐng)域。
6.
PageRank算法如果網(wǎng)頁(yè)T存在一個(gè)指向網(wǎng)頁(yè)A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/C(T)
。其中PR(T)為T(mén)的
PageRank值,C(T)為T(mén)的出鏈數(shù),則A的
PageRank值為一系列類似于T的頁(yè)面重要性得分值的累加。
算法的優(yōu)點(diǎn)是該算法是一個(gè)與查詢無(wú)關(guān)的靜態(tài)算法,所有網(wǎng)頁(yè)的
PageRank值通過(guò)離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。算法的缺點(diǎn)是人們的查詢具有主題特征
PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,
PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁(yè)的歧視。7.
AdaBoost算法AdaBoostt是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來(lái),作為最后的決策分類器。8.
KNN算法K最近鄰(KNN)分類算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。9.
樸素貝葉斯分類算法
樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時(shí),其模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,該模型與其他分類方法相比具有最小的誤差率,但是實(shí)際上并非總是如此。這是因?yàn)樵撃P图僭O(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給模型的正確分類帶來(lái)了一定影響。樸素貝葉斯分類算法思想是,對(duì)于給定的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出想的概率,哪個(gè)概率最大就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。10.
CART算法分類與回歸樹(shù)(CART)也屬于一種決策樹(shù)。在分類樹(shù)下面有兩個(gè)關(guān)鍵的思想,第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法;第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。分類回歸樹(shù)是一棵二叉樹(shù),且每個(gè)非葉子節(jié)點(diǎn)都有兩個(gè)孩子,所以對(duì)于第一棵子樹(shù)其葉子節(jié)點(diǎn)數(shù)比非葉子節(jié)點(diǎn)數(shù)多1。CART中用于選擇變量的不純性度量是Gini指數(shù);如果目標(biāo)變量是標(biāo)稱的,并且是具有兩個(gè)以上的類別,則CART可能考慮將目標(biāo)類別合并成兩個(gè)超類別(雙化);如果目標(biāo)變量是連續(xù)的,則CART算法找出一組基于樹(shù)的回歸方程來(lái)預(yù)測(cè)目標(biāo)變量。5數(shù)據(jù)挖掘發(fā)展趨勢(shì)現(xiàn)今,數(shù)據(jù)挖掘的發(fā)展趨勢(shì)主要在以下幾個(gè)方面:數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化:語(yǔ)言的標(biāo)準(zhǔn)化對(duì)于數(shù)據(jù)挖掘系統(tǒng)的開(kāi)發(fā)和數(shù)據(jù)挖掘技術(shù)的普遍使用是至關(guān)重要的。其可改進(jìn)多個(gè)數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進(jìn)其在企業(yè)和社會(huì)中的使用。數(shù)據(jù)挖掘的可視化:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中必不可少的技術(shù)。可以在發(fā)現(xiàn)知識(shí)的過(guò)程中進(jìn)行很好的人機(jī)交互。數(shù)據(jù)的可視化起到了推動(dòng)人們主動(dòng)進(jìn)行知識(shí)發(fā)現(xiàn)的作用。分布式數(shù)據(jù)挖掘:分布式技術(shù)的到來(lái)為日益增長(zhǎng)的數(shù)據(jù)提供了有力支持,而分布式數(shù)據(jù)挖掘中將分布式技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合,也使對(duì)分離數(shù)據(jù)庫(kù)的可協(xié)作數(shù)據(jù)挖掘工作開(kāi)發(fā)了一個(gè)重要領(lǐng)域。數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)系統(tǒng)的集成:數(shù)據(jù)庫(kù)系統(tǒng)和Web數(shù)據(jù)庫(kù)已經(jīng)成為信息處理系統(tǒng)的主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的緊耦合。挖掘復(fù)雜數(shù)據(jù)類型的新方法:挖掘復(fù)雜數(shù)據(jù)類型是數(shù)據(jù)挖掘的重要前沿研究課題,也有人稱復(fù)雜類型的數(shù)據(jù)挖掘是“下一代數(shù)據(jù)挖掘”。伴隨著數(shù)據(jù)的增多,需要處理的數(shù)據(jù)類型也變得越來(lái)越復(fù)雜,例如數(shù)據(jù)流、時(shí)間序列、時(shí)間空間、多媒體和文本數(shù)據(jù),雖然現(xiàn)在在很多復(fù)雜數(shù)據(jù)類型的挖掘方面取得了一些進(jìn)展,但是在應(yīng)用需求和可用技術(shù)之間仍然存在較大的距離。數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全:隨著信息技術(shù)的發(fā)展,越來(lái)越多的數(shù)據(jù)涌入了網(wǎng)絡(luò),其中包括大量電子形式的個(gè)人信息,而挖掘技術(shù)的發(fā)展和科技的更新,在相反的一面上也使大量的個(gè)人信息受到了威脅,因此保護(hù)隱私的數(shù)據(jù)挖掘方法愈顯重要。參考文獻(xiàn)[1]張銀奎,廖麗,宋俊等譯.數(shù)據(jù)挖掘原理.機(jī)械工業(yè)出版社,2003[2]楊杰,姚莉秀.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.上海交通大學(xué)出版社,2011[3]閃四清,陳茵,程雁等譯.數(shù)據(jù)挖掘—概念、模型、方法和算法.清華大學(xué)出版社.2003[4]洪松林,莊映輝,李堃.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐.機(jī)械工業(yè)出版社.2014[5]呂紀(jì)榮,王士虎.數(shù)據(jù)中聚類算法研究綜述.理論廣角.2014.1(下)[6]胡慶林,葉念渝,朱明富.數(shù)據(jù)挖掘中聚類算法的綜述.計(jì)算機(jī)與數(shù)字工程.2007第2期[7]應(yīng)劭霖.數(shù)據(jù)挖掘中的聚類算綜述.201
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年外貿(mào)業(yè)務(wù)員考試國(guó)際貿(mào)易實(shí)務(wù)與單證操作模擬試題及答案
- 2026年旅游規(guī)劃師專業(yè)試題集目的地管理與旅游產(chǎn)品開(kāi)發(fā)
- 2026年醫(yī)療行業(yè)面試常見(jiàn)問(wèn)題及答案參考
- 2026年職場(chǎng)禮儀商務(wù)場(chǎng)合交際題庫(kù)
- 2026年建筑企業(yè)項(xiàng)目進(jìn)階項(xiàng)目部經(jīng)理專業(yè)知識(shí)考試題集
- 2026年計(jì)算機(jī)視覺(jué)技術(shù)測(cè)試題與答案
- 2026年建筑工程結(jié)構(gòu)高級(jí)工程師職稱考試題庫(kù)及答案
- 2026年廊坊燕京職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考試題含詳細(xì)答案解析
- 2026年河南護(hù)理職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考題庫(kù)含詳細(xì)答案解析
- 2026年安徽中醫(yī)藥高等??茖W(xué)校單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026山西離柳焦煤集團(tuán)有限公司專業(yè)技術(shù)人員招聘柳林縣凌志售電有限公司專業(yè)技術(shù)人員4人備考考試題庫(kù)及答案解析
- 2025年護(hù)理“三基”理論考試題附答案
- 建筑物消防設(shè)施遠(yuǎn)程監(jiān)控合同
- 2025年考愛(ài)情的測(cè)試題及答案
- 范可尼綜合征診療指南(2025年版)
- 2026年中國(guó)化工經(jīng)濟(jì)技術(shù)發(fā)展中心招聘?jìng)淇碱}庫(kù)及一套參考答案詳解
- 機(jī)房網(wǎng)絡(luò)改造施工方案
- HAD101-04-2025 核動(dòng)力廠廠址評(píng)價(jià)中的外部人為事件
- 2025年日語(yǔ)n4試題及答案
- HACCP計(jì)劃年度評(píng)審報(bào)告
- 項(xiàng)目1 變壓器的運(yùn)行與應(yīng)用《電機(jī)與電氣控制技術(shù)》教學(xué)課件
評(píng)論
0/150
提交評(píng)論