數(shù)據(jù)挖掘常用技術(shù)_第1頁
數(shù)據(jù)挖掘常用技術(shù)_第2頁
數(shù)據(jù)挖掘常用技術(shù)_第3頁
數(shù)據(jù)挖掘常用技術(shù)_第4頁
數(shù)據(jù)挖掘常用技術(shù)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

其次章數(shù)據(jù)挖掘常用技術(shù)

7

數(shù)據(jù)挖掘是涉及了機器學(xué)習(xí),統(tǒng)計學(xué),人工智能,數(shù)據(jù)倉庫等多門學(xué)科學(xué)問的

新興交叉學(xué)科。也正是由于這樣使得數(shù)據(jù)挖掘的討論滲透在多個學(xué)科,從而使得

數(shù)據(jù)挖掘的方法在不同的理論背景下消失了多種形式,多種討論途徑。數(shù)據(jù)挖掘

技術(shù)的進展是數(shù)據(jù)驅(qū)動的,針對不同的數(shù)據(jù)產(chǎn)生了很多數(shù)據(jù)挖掘的方法,同時也

要知道大多數(shù)的算法都不是特地為解決某個特定問題而設(shè)計的,不同算法彼此之

間也不相互排斥,在進行實際應(yīng)當(dāng)?shù)倪^程中應(yīng)依據(jù)數(shù)據(jù)自身的特點與業(yè)務(wù)的詳細

問題選擇合適的數(shù)據(jù)挖掘算法,進而得到較好的挖掘效果,在不能確定挖掘算法

之前也可以實行抽樣數(shù)據(jù)然后用各種算法嘗試的方法來選擇相對?較好的算法,算

法的好壞不是以其使用范圍和效果而言,而是針對不同的問題有不同的評判標準。

下面對常見的并且應(yīng)用性很好的數(shù)據(jù)挖掘技術(shù)進行簡要介紹。

(1)決策樹

決策樹是一種方法簡潔而又應(yīng)用廣泛的分類技術(shù)。它是一種分類函數(shù)靠近手段,

是從機器學(xué)習(xí)的方面改進而來的。決策樹算法的好處在于算法易于理解,但是其

缺點在于每個分支的判定條件過于嚴格毫不模糊,這樣在實際應(yīng)用中可能會帶來

肯定的麻煩。近年來隨著討論的深化決策算法有了很多進步產(chǎn)生很高效的算法。

(2)神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)來源于神經(jīng)生物學(xué)和生理學(xué)中有關(guān)神經(jīng)細胞計算本質(zhì)的討論工作。有

很多種不同的神經(jīng)網(wǎng)絡(luò),可以給不同的學(xué)習(xí)目的供應(yīng)應(yīng)用。前饋神經(jīng)網(wǎng)絡(luò)是一種

常見的用于分類的算法。

神經(jīng)網(wǎng)絡(luò)有很好的抗噪音的力量,并且針對未知數(shù)據(jù)也一樣有很好的猜測分類

力量,有很高的分類精準度。不過,訓(xùn)練過程一般比較長是神經(jīng)網(wǎng)絡(luò)的一大缺點。

此外,神經(jīng)網(wǎng)絡(luò)算法所得到的結(jié)果可解釋性很差,差不多相當(dāng)于黑盒。

(3)統(tǒng)計分析方法

經(jīng)典統(tǒng)計學(xué)中的重點內(nèi)容包括回歸分析,假設(shè)檢驗,方差分析等。而相關(guān)的統(tǒng)

計學(xué)的中的很多學(xué)問也都會在數(shù)據(jù)挖掘中被用到。在使用數(shù)據(jù)挖掘技術(shù)來解決相

關(guān)問題之前有時也會用統(tǒng)計方法嘗試著解決問題,甚至在數(shù)據(jù)預(yù)處理過程中也會

用到統(tǒng)計方法。

(4)遺傳算法

遺傳算法(geneticalgorithm,又稱GA),該算法試圖通過計算機仿照自然選擇

的過程,并將他們運用到解決商業(yè)和討論問題。遺傳算法是在遺傳和生物進化的

思想之下而開展的,所以他有很多傳統(tǒng)算法所以不具備的優(yōu)點。

(5)關(guān)聯(lián)挖掘電子科技高校碩士學(xué)位論文

6

概括起來數(shù)據(jù)挖掘的一般步驟可以用如下圖示來表達

圖2-1數(shù)據(jù)挖掘基本步驟圖

從數(shù)據(jù)挖掘所使用的技術(shù)的方面來理解的話,數(shù)據(jù)挖掘的過程可以有如下幾步:

初始數(shù)據(jù)的獲得及分析,數(shù)據(jù)抽樣和數(shù)據(jù)清理,數(shù)據(jù)挖掘技術(shù),樣本集,數(shù)據(jù)的

轉(zhuǎn)換,數(shù)據(jù)倉庫技術(shù),學(xué)問。本步驟的要點是對數(shù)據(jù)的預(yù)處理的優(yōu)化,省掉了實

際商業(yè)應(yīng)用時所需要的很多步驟。圖2-2展現(xiàn)了如何從初始數(shù)據(jù)動身,從中得到有

用的模式,進而得到有用的學(xué)問。用于數(shù)據(jù)挖掘的工具越優(yōu)秀,從一個步驟轉(zhuǎn)到

另一個步驟就越簡潔、越自動化。

圖2-2數(shù)據(jù)挖掘的技術(shù)過程圖

在詳細應(yīng)用的過程之中,需要常常反復(fù)執(zhí)行某一些數(shù)據(jù)挖掘的步驟。并且,以

上四步的分界線常常區(qū)分不明顯,例如,數(shù)據(jù)轉(zhuǎn)換及預(yù)處理同時又可以當(dāng)作一種

線索關(guān)系的提取。因而指明數(shù)據(jù)挖掘常做的工作就是如此的劃分目的

[2]

O

2.1.3數(shù)據(jù)挖掘常用方法

原始數(shù)據(jù)

樣本集

數(shù)據(jù)倉庫

學(xué)問

抽樣、清理

轉(zhuǎn)換

挖掘

原始數(shù)據(jù)

業(yè)務(wù)理解

數(shù)據(jù)理解數(shù)據(jù)預(yù)處理

建模

評估

部署其次章數(shù)據(jù)挖掘常用技術(shù)

5

紹一下各個步驟

[4]

O

(1)業(yè)務(wù)理解

在進行數(shù)據(jù)挖掘之前要了解所挖掘的行業(yè)背景,了解行業(yè)學(xué)問,進而知道數(shù)據(jù)

挖掘的目標以及衡量挖掘勝利的標準,同時也要了解數(shù)據(jù)挖掘在相關(guān)行業(yè)下的資

源以及風(fēng)險。在了解了上述相關(guān)行業(yè)學(xué)問之后,把挖掘的任務(wù)轉(zhuǎn)換成數(shù)據(jù)挖掘的

問題,同時定下挖掘目標和挖掘勝利的標準。最終得到初期的項目方案。

(2)數(shù)據(jù)理解

在完成了業(yè)務(wù)目標以后,接著的任務(wù)就應(yīng)當(dāng)是收集數(shù)據(jù)。收集數(shù)據(jù)之后要對數(shù)

據(jù)開展討論分析,以了解數(shù)據(jù)的結(jié)構(gòu)以及數(shù)據(jù)的質(zhì)量。若是此步驟數(shù)據(jù)的獲得有

困難或者得不到滿足的數(shù)據(jù),就應(yīng)當(dāng)重新回到業(yè)務(wù)理解步驟,分析是否業(yè)務(wù)理解

出了問題。

(3)數(shù)據(jù)預(yù)處理

此步驟的目的是得到最終使用的數(shù)據(jù)集。數(shù)據(jù)預(yù)處理的過程一般開銷比較大,

無論從工作量還是時間方面來講。這一過程主要包括噪聲數(shù)據(jù)的清洗,數(shù)據(jù)的相

關(guān)選擇,以及數(shù)據(jù)屬性的合成和數(shù)據(jù)集的合并,還有數(shù)據(jù)的法律規(guī)范化等等。在實際

應(yīng)當(dāng)過程之中還包括很多數(shù)據(jù)預(yù)處理有關(guān)處理方法及過程。

(4)建模

在經(jīng)過數(shù)據(jù)預(yù)處理得到使用數(shù)據(jù)之后,就要依據(jù)數(shù)據(jù)的特點及應(yīng)用的性質(zhì)建立

合適的模型算法以及給相關(guān)算法設(shè)置參數(shù)值。在實際的應(yīng)用中,同一個數(shù)據(jù)挖掘

業(yè)務(wù)可能候選的挖掘算法不止一種,但是每一種算法都會所要進行挖掘的數(shù)據(jù)有

肯定特殊的要求,因此進行建模的時候要考慮上一步驟所得到的數(shù)據(jù)的特點來選

用適當(dāng)?shù)木垲惙治鏊惴āS袝r候也會回溯到上一步驟重新進行數(shù)據(jù)的預(yù)處理,進

而得到適合目標算法的數(shù)據(jù)。

(5)評估

在完成了建模之后就要對所得的模型結(jié)果進行評估。由于應(yīng)用類型的不一樣使

得評估的詳細方法也有差別,通??梢葬槍π⌒褪袌鲞M行調(diào)研,進而驗證明際數(shù)

據(jù)。假如此步驟的評價結(jié)果不符合要求,就要回到建模步驟,甚至重新開頭以上

的全部步驟。假如結(jié)果抱負就可以連續(xù)下一步了。

(6)部署

一般狀況下完成了模型的挖掘并不代表挖掘任務(wù)的完成,而是會進一步把結(jié)果

應(yīng)用到實際的業(yè)務(wù)之中,然后依據(jù)實際反饋回來的應(yīng)用結(jié)果,來驗證模型的質(zhì)量

以及綻開進一步改進的工作。4

其次章?lián)诰虺S眉夹g(shù)

2.1數(shù)據(jù)挖掘基礎(chǔ)學(xué)問

通過數(shù)據(jù)挖掘可得到多種學(xué)問,而這些學(xué)問最終可以應(yīng)用到多個方面,包括給

相關(guān)組織和個人供應(yīng)決策支持。在一般狀況下用戶并不了解大量的數(shù)據(jù)中隱藏了

哪些有意義有價值的信息,所以,對數(shù)據(jù)挖掘系統(tǒng)來說,應(yīng)當(dāng)同時能夠搜尋發(fā)覺

多種形式的信息學(xué)問,進而滿足用戶的實際要求和期望。

數(shù)據(jù)挖掘(DataMining,或稱DM)是將隱蔽在海量數(shù)據(jù)中的有意義有價值的

規(guī)律的發(fā)掘出來的過程。又稱為數(shù)據(jù)庫中的學(xué)問發(fā)覺(KnowledgeDiscoveryfrom

Database,簡稱KDD)

[2]

?其主要有三個特點.(1)海量數(shù)據(jù)。(2)未知的有價值

的規(guī)律。數(shù)據(jù)挖掘所發(fā)覺的規(guī)律,應(yīng)當(dāng)是有用的并且不應(yīng)當(dāng)是顯而易見的,應(yīng)當(dāng)

是對不同的任務(wù)來說有意義的、隱蔽的規(guī)律。(3)數(shù)據(jù)挖掘是一個過程。他需要

數(shù)據(jù)理解、業(yè)務(wù)理解、數(shù)據(jù)預(yù)備、評估、建模、部署等一系列步驟,數(shù)據(jù)挖掘人

員的業(yè)務(wù)力量和分析力量對勝利有重要的影響

[1]

2.1.1數(shù)據(jù)挖掘主要任務(wù)

數(shù)據(jù)挖掘的主要有任務(wù)有兩點:描述型和分類猜測型的任務(wù)

[3]

O

描述型的任務(wù)是指通過數(shù)據(jù)庫數(shù)據(jù)的自身內(nèi)部聯(lián)系,從而得到數(shù)據(jù)庫中數(shù)據(jù)關(guān)

系或者數(shù)據(jù)庫的概要描述。

分類猜測型的任務(wù)是指通過現(xiàn)有的已經(jīng)知道的分類的數(shù)據(jù)學(xué)習(xí)模型以及類的

標簽的區(qū)分,稱作為猜測型和分類型。

2.1.2數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘不是一個公式也不是一個機器只需把數(shù)據(jù)輸入就會得到預(yù)期的結(jié)果。

數(shù)據(jù)挖掘是包含了很多步驟的一個簡單過程,其各個步驟之間需要不斷的重復(fù)已

達到精確的結(jié)果。通常來講,數(shù)據(jù)挖掘的主要過程分為業(yè)務(wù)理解,數(shù)據(jù)理解,數(shù)

據(jù)預(yù)處理,建立模型,結(jié)果評估,部署等多個步驟。這些步驟彼此之間先后關(guān)系

也沒有嚴格的定義,實際應(yīng)當(dāng)過程中很多步驟之間常常會不斷重復(fù)。下面詳細介電子科技高

校碩士學(xué)位論文

8

關(guān)聯(lián)挖掘就是在海量的數(shù)據(jù)中快速找出各個數(shù)據(jù)對象之間潛在的有價值有意

義聯(lián)系,也就是在大型的數(shù)據(jù)庫中,快速找到各種事物之前潛在的有價值有意義

的聯(lián)系,并且用肯定的規(guī)章表現(xiàn)出來,通過推理、積累形成學(xué)問之后,得出特別

重要的相關(guān)聯(lián)的結(jié)論,進而給當(dāng)前的市場管理者供應(yīng)決策依據(jù)。例如:沃爾瑪進

行的有關(guān)“牛奶與尿不濕”的關(guān)聯(lián)結(jié)果。由于在實際生活應(yīng)用中有很多關(guān)聯(lián)挖掘

勝利的范例,以及關(guān)聯(lián)挖掘特別好的有用性,使得目前有關(guān)關(guān)聯(lián)挖掘的應(yīng)用和研

究成為一個討論特別深化和特別活躍的討論領(lǐng)域,目前,已經(jīng)討論出了很多關(guān)聯(lián)

挖掘的算法并且新的算法也在不斷的消失,并且實際應(yīng)用的領(lǐng)域也在不斷擴大。

(6)聚類分析

聚類分析(clusteringanalysis)是一種將數(shù)據(jù)集依據(jù)某種指導(dǎo)思想劃分為相應(yīng)

很多群組(class)或者簇(cluster)的過程。而這種劃分的思想原則就是要使得聚

類的結(jié)果滿足,相同簇內(nèi)的數(shù)據(jù)對象差距盡量的小,不同簇中的處理對象差距盡

量的大。而這種數(shù)據(jù)對象之間的差距,是由數(shù)據(jù)自身的屬性所打算的。一般就是

采用(各對象之間)某種距離來進行定義的。聚類分析的目的在于依據(jù)數(shù)據(jù)的幾

種屬性把數(shù)據(jù)劃分成相像對象的幾個集合。在包括數(shù)據(jù)預(yù)處理等數(shù)據(jù)挖掘之中的

很多方法技術(shù)中都會用到聚類分析技術(shù),針對不同數(shù)據(jù)的特點,對那些數(shù)據(jù)結(jié)構(gòu)

簡潔或者與運量分析只有單一屬性或者較少屬性關(guān)聯(lián)的數(shù)據(jù)可以在數(shù)據(jù)清理等預(yù)

處理之后直接整合進入數(shù)據(jù)倉庫,而對于一些簡單結(jié)構(gòu)的多維數(shù)據(jù)則可采用聚類

分析之方法將其數(shù)據(jù)聚集后構(gòu)造出規(guī)律庫,把簡單結(jié)構(gòu)的數(shù)據(jù)標準化,為一些數(shù)

據(jù)挖掘方法(例如關(guān)聯(lián)挖掘,粗糙集方法,分類等)供應(yīng)預(yù)處理。目前在包括統(tǒng)

計學(xué),數(shù)據(jù)挖掘,模糊數(shù)學(xué)以及計算機領(lǐng)域的很多方向等都有不少關(guān)于聚類分析

算法的討論和應(yīng)用。

2.2聚類分析方法概述

最近幾年由于計算機相關(guān)技術(shù)的快速進展,使得數(shù)據(jù)挖掘以及相關(guān)的聚類分析

技術(shù)迅猛進展,并成為目前活躍的討論方向,吸引了越來越多的專家學(xué)者投入到

這一領(lǐng)域的討論行列之中。目前已經(jīng)討論開發(fā)出來很多高效的聚類分析算法,并

且新的算法也在不斷消失。

聚類分析是一種討論怎么將討論的數(shù)據(jù)對象(指標或者樣品)依據(jù)多種特征采

取綜合分類的多元統(tǒng)計方法。聚類之后所得到的數(shù)據(jù)對象的分組就叫做簇。正如

人們常說的“物以類聚”的道理一樣,聚類就是一個盡可能將相像數(shù)據(jù)分到一組其次章數(shù)

據(jù)挖掘常用技術(shù)

9

的數(shù)據(jù)處理方法,并且通常不知道能分出幾類。

聚類是在沒有訓(xùn)練集條件下把目標對象劃分為若干簇,采用預(yù)先設(shè)定的數(shù)據(jù)屬

性將數(shù)據(jù)按相像程度聚集起來。聚類的最終結(jié)果包括聚類簇的數(shù)目(不包括特殊

算法)事先是不知的。一般通過數(shù)據(jù)對象自身的屬性值來衡量數(shù)據(jù)對象之間的差

異性的,通常是依據(jù)數(shù)據(jù)對像之間的某種距離,而距離的計算方式依據(jù)數(shù)據(jù)變量

(即屬性)類型的不同所不同,通常的變量類型有離散的變量、連續(xù)的變量,或

者有這些類型屬性的共同組成的混合屬性。

在數(shù)據(jù)挖掘很多過程中都會用到聚類分析算法,由于該技術(shù)既可以作為相關(guān)挖

掘方法的預(yù)處理,同時聚類技術(shù)自身也是一種數(shù)據(jù)挖掘方法。例如在數(shù)據(jù)預(yù)處理

過程中,對那些數(shù)據(jù)結(jié)構(gòu)簡單的多維數(shù)據(jù)可以采用聚類分析技術(shù)將數(shù)據(jù)聚集分簇

后構(gòu)造出規(guī)律庫,使得簡單的數(shù)據(jù)標準化,同時可以采用聚類分析技術(shù)處理數(shù)據(jù)

中的噪音,為其他一些數(shù)據(jù)挖掘方法(如粗糙集方法、關(guān)聯(lián)挖掘)供應(yīng)預(yù)處理。

有時為了滿足一些數(shù)據(jù)挖掘算法的需求,需要離散化一些連續(xù)的數(shù)據(jù),使得決策

屬性值和條件屬性值法律規(guī)范化、簡約化,此時也需要對數(shù)據(jù)進行聚類處理。

2.2.1聚類分析對算法性能的要求

聚類分析算法的討論很具有挑戰(zhàn)性,但又以其自身廣泛的應(yīng)用性得到很多人認

可,使得聚類分析技術(shù)的應(yīng)用領(lǐng)域不斷向前拓寬以及討論不斷向前深化,隨著聚

類算法的討論和應(yīng)用的深化,也總結(jié)出了聚類算法的很多一般要求,以下簡要敘

述一些典型的要求

[5]

O

(1)可伸縮性。很多聚類分析算法在小規(guī)模數(shù)據(jù)處理方面會得到很好的效果,

但是實際應(yīng)當(dāng)過程中所產(chǎn)生的數(shù)據(jù)庫中的數(shù)據(jù)對象往往是巨大的,這就要求聚類

分析算法擁有良好的伸縮性,進而可以應(yīng)對大型的數(shù)據(jù)。需要指出的是當(dāng)算法的

伸縮性不強或者僅適合小規(guī)模的數(shù)據(jù)處理時,采納抽樣方法來對大型數(shù)據(jù)進行處

理有時并不能得到較好的處理結(jié)果,由于通常會得到歪曲的結(jié)果。

(2)可以處理不同字段。算法要能夠處理多種字段,包括數(shù)值型,離散型,

二值型,挨次型以及符號性和多種類型數(shù)據(jù)的混合型。

(3)能夠處理任意外形的數(shù)據(jù)集合。很多算法的相像性都是用某種距離來定

義的。這一類算法的不足點在于針對那些大小相像并且密度接近球型或者圓形的

簇比較高效,而其他類型的數(shù)據(jù)時聚類效果就沒有達到令人滿足的地步。但是在

實際應(yīng)用的數(shù)據(jù)庫之中,其數(shù)據(jù)類型是很簡單的,并且分布也可以是任意外形的。電子科技

高校碩士學(xué)位論文

12

在確定了數(shù)據(jù)集中聚類簇的預(yù)期數(shù)目k之后,該數(shù)字用來指定數(shù)據(jù)集中的k個

種子點。并將各個種子點用作聚類的質(zhì)心。數(shù)目k的確定既可以是主觀的選擇也

可以是采用其它聚類技術(shù)得到的一個數(shù)。選好初始種子點之后,每個簇中沒有其

它的數(shù)據(jù)對象。下一步就是通過循環(huán)將剩余的點放到離種子點最近的簇之中去。

有很多衡量聚類的方法,在此歐氏距離是一種比較常見的衡量數(shù)據(jù)點之間的距離

的方法。然后就是簇心點重新計算,進而再一次對全部點進行所屬簇的計算與劃

分。由于簇的中心點的移動(每次重新計算簇的中心點都有可能會轉(zhuǎn)變中心點的

位置直至中心點不變或者目標函數(shù)達到收斂為止)使得一些原本不在該簇的數(shù)據(jù)

被劃分到簇中,那么此次聚類過程就可以視為上一次聚類結(jié)果的校正使得更接近

新的質(zhì)心的點重新得以劃分到更合理的簇中。通過一些數(shù)據(jù)點的重新劃分使得質(zhì)

心也可以進行更新升級。上述質(zhì)心更新的過程始終迭代,直至質(zhì)心沒有明顯變化

結(jié)束。下圖是k-means算法基本過程示意圖。在這一討論當(dāng)中,分散的思想給了

我們一個推斷聚類數(shù)目的方法。除了使用分散的方法來確定適當(dāng)聚類數(shù)目之外也

用統(tǒng)計調(diào)查的方法來衡量確定是否選擇了合適的聚類數(shù)目。

圖2-4k-means算法思想描述

初始聚類1初始聚類2

初始種子

1

初始種子

2

重新計算質(zhì)心之后,確定新在質(zhì)心點(紅色

標記)

最終聚類結(jié)

最終聚類1最終聚類2其次章數(shù)據(jù)挖掘常用技術(shù)

II

圖2-3clusteranalysis算法分類

(1)基于劃分的算法

劃分算法的思想是,將給定待挖掘數(shù)據(jù)集中的數(shù)據(jù)對象劃分成K組(kWN,N

代表數(shù)據(jù)集中對象數(shù)目),每一組表示一個聚類的簇。并且要滿足任何一個數(shù)據(jù)對

象僅可以屬于一個聚類,每個聚類中至少具有一個數(shù)據(jù)對象。此算法通常要求算

法開頭之前,給定參數(shù)K以打算聚類后的聚類的個數(shù)。算法依據(jù)參數(shù)k建立一個

初始的分組,以后算法反復(fù)運用迭代重定位技術(shù)將數(shù)據(jù)對象在各個簇中重新安排,

進而得到最終的相對滿足的聚類結(jié)果。簇內(nèi)部數(shù)據(jù)對象之間差距盡量小,簇之間

數(shù)據(jù)對象差距盡量大才稱得上是一個好的聚類分析算法。K-medoids和K-means算

法是劃分算法中兩個比較經(jīng)典的算法。其他很多劃分算法都是從這兩個算法演化

改進而來的。

K-means(K均值)算法接受一個參數(shù)K用以打算結(jié)果中簇的數(shù)目。算法開頭

時,要在數(shù)據(jù)集中隨機選擇K個數(shù)據(jù)對象用來當(dāng)做k個簇的初始中心,而將剩下

的各個數(shù)據(jù)對象就依據(jù)他們和每個聚類簇心的距離選擇簇心最近的簇安排到其中。

然后重新計算各個聚類簇中的全部數(shù)據(jù)對象的平均值,并將得到的結(jié)果作為新的

簇心;逐步重復(fù)上述的過程直至目標函數(shù)收斂為止。通常都是使用均方差函數(shù)作

為目標函數(shù),公式如下:

J=££|D-m

10

因此要求聚類算法也具備能夠發(fā)覺任意外形的簇的力量。

(4)盡量降低用戶輸入的參數(shù)的數(shù)目。有一些聚類分析算法,在實際應(yīng)用過

程中需要使用者給出一些參數(shù),例如,密度閥值等。由于這些參數(shù)直接打算了聚

類分析的結(jié)果,使得聚類分析與輸入的參數(shù)親密相關(guān),而參數(shù)的確定又是一件非

常不簡潔的事情。特殊是涉及到一些高維數(shù)據(jù)時參數(shù)更加難以確定,這樣不僅對

用戶造成了肯定的負擔(dān)而且也使得結(jié)果難以預(yù)定。因此,一個好的聚類算法應(yīng)當(dāng)

盡量的削減由使用者打算的參數(shù)。

(5)抗噪聲的力量?,F(xiàn)實數(shù)據(jù)庫中的數(shù)據(jù)幾乎都或多或少的含有肯定的量的

噪聲。一些算法對噪聲特別敏感,這就可能導(dǎo)致得不到預(yù)期的效果,甚至消失錯

誤的聚類結(jié)果。所以,要求聚類分析算法要具備反抗肯定的噪聲的力量。

(6)聚類的最終結(jié)果要對數(shù)據(jù)對象輸入的先后挨次不敏感。有些聚類算法對

數(shù)據(jù)紀錄的輸入挨次特別敏感,即對同一組紀錄采納不同的挨次輸入交給同一個

聚類算法進行處理,得出的結(jié)果可能相差特別大。因而,要求聚類分析算法要對

數(shù)據(jù)輸入的先后挨次不敏感。

(7)能處理高維數(shù)據(jù)的。目前,絕大部分的聚類算法在應(yīng)對低維數(shù)據(jù)時會有

特別好的效果。但是現(xiàn)實中的數(shù)據(jù)庫由于數(shù)據(jù)對象具有很多屬性即數(shù)據(jù)對像多數(shù)

都是高維的,并且在數(shù)據(jù)處理階段也可能會合成一些高維數(shù)據(jù),而高維數(shù)據(jù)的處

理與低維數(shù)據(jù)處理方法是有很的大不同,這就使得很多聚類算法難以得到滿足的

聚類結(jié)果。目前,在高維數(shù)據(jù)進行聚類的討論并沒有向低維空間討論的那么深化,

高維空間聚類其難度特別巨大的,要考慮多種因素。

(8)能滿足肯定的約束限制。實際應(yīng)用中常常會對聚類的數(shù)據(jù)添

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論