版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。網(wǎng)的搜索引擎查找特定的Web 頁(yè)面,則是信息檢索(information retrieval)重要的,可能涉與使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來(lái)創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來(lái)增強(qiáng)信息檢索系統(tǒng)的能力。數(shù)據(jù)挖掘的起源工智能、模式識(shí)別和
2、機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來(lái)自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化和信息檢索。(并行并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。數(shù)據(jù)挖掘能做什么1)數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):(Classification)估值(Estimation)預(yù)言(Prediction)相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)聚集(Clustering)描述和可視化(DescriptionandVisualization)復(fù)雜數(shù)據(jù)類(lèi)型挖掘(Text,Web圖形圖像,視頻,音頻等2)數(shù)
3、據(jù)挖掘分類(lèi)以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類(lèi):直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘(中表的屬性,即列)進(jìn)行描述。間接數(shù)據(jù)挖掘目標(biāo)中沒(méi)有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系 。分類(lèi)、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘3)各種分析方法的簡(jiǎn)介(Classification)沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。例子:信用卡申請(qǐng)者,分類(lèi)為低、中、高風(fēng)險(xiǎn)分配客戶到預(yù)先定義的客戶分片注意: 類(lèi)的個(gè)數(shù)是確定的,預(yù)先定義好的估值(Estimation)估值與分類(lèi)類(lèi)似,不同之處在于,分類(lèi)描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類(lèi)的類(lèi)別是確定數(shù)目的,估值的量是不
4、確定的。例子:根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的收入real estate 的價(jià)值然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類(lèi)。例如:銀行對(duì)家庭貸款業(yè)務(wù),運(yùn)用估值,給各個(gè)客戶記分Score 01)。然后,根據(jù)閾值,將貸款級(jí)別分類(lèi)。預(yù)言(Prediction)通常,預(yù)言是通過(guò)分類(lèi)或估值起作用的,也就是說(shuō),通過(guò)分類(lèi)或估值得出模型,該模型用于對(duì)未知變量的預(yù)言。從這種意義上說(shuō),預(yù)言其實(shí)沒(méi)有必要分為一個(gè)單獨(dú)的類(lèi)。預(yù)言其目的是對(duì)未來(lái)未知變量的預(yù)測(cè), 這種預(yù)測(cè)是需要時(shí)間來(lái)驗(yàn)證的,即必須經(jīng)過(guò)一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or
5、association rules)決定哪些事情將一起發(fā)生。例子:A 的同時(shí),經(jīng)常會(huì)購(gòu)買(mǎi)BA = B()A 后,隔一段時(shí)間,會(huì)購(gòu)買(mǎi)B (序列分析)聚集(Clustering)聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類(lèi)的區(qū)別是聚集不依賴于預(yù)先定義好的類(lèi), 不需要訓(xùn)練集。例子:一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病VCD類(lèi)型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群聚集通常作為數(shù)據(jù)挖掘的第一步。例如,哪一種類(lèi)的促銷(xiāo)對(duì)客戶響應(yīng)最好?,對(duì)于這一 類(lèi)問(wèn)題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問(wèn)題,可能效果更好。描述和可視化(Des cripti
6、on and Visualization) 是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。數(shù)據(jù)挖掘的一般流程定義問(wèn)題:清晰地定義出業(yè)務(wù)問(wèn)題,確定數(shù)據(jù)挖掘的目的。數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備包括:選擇數(shù)據(jù)-在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;數(shù)據(jù)預(yù)處理-進(jìn)行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性與數(shù)據(jù)的一致性、去噪聲,填補(bǔ)丟失的域,刪除無(wú)效數(shù)據(jù)等。數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)功能的類(lèi)型和和數(shù)據(jù)的特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。結(jié)果分析:對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評(píng)價(jià),轉(zhuǎn)換成為能夠最終被用戶理解的知識(shí)。知識(shí)的運(yùn)用:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。數(shù)據(jù)挖掘的商業(yè)背景數(shù)據(jù)挖掘首先是
7、需要商業(yè)環(huán)境中收集了大量的數(shù)據(jù),然后要求挖掘的知識(shí)是有價(jià)值的。有 價(jià)值對(duì)商業(yè)而言,不外乎三種情況:降低開(kāi)銷(xiāo);提高收入;增加股票價(jià)格。數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)在技術(shù)上可以根據(jù)它的工作過(guò)程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù)上主要涉與互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。在數(shù)據(jù)抽取方面,未來(lái)的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。數(shù)據(jù)的存
8、儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉(cāng)庫(kù)管理所涉與的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫(kù)廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫(kù)的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。數(shù)據(jù)的展現(xiàn)在數(shù)據(jù)展現(xiàn)方面主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP 查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP 表格、報(bào)告以與各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)
9、狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫(huà)技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)與其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識(shí)。數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作,一方面,可以迎合和簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來(lái)源的廣泛性和完整性。另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中極為重要和相對(duì)獨(dú)立的方面和工具。數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的,其學(xué)術(shù)研究?jī)r(jià)值和應(yīng)用研究前景將是令人振奮的。它是數(shù)“奴隸”到數(shù)據(jù)庫(kù)“主人轉(zhuǎn)變的企業(yè)最終用戶的通途。數(shù)據(jù)挖掘(D
10、ata Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。數(shù)據(jù)挖掘能做什么?1數(shù)據(jù)挖掘能做以下六種不同事情(分析方法:(Classification)估值(Estimation)預(yù)言(Prediction)相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association 聚集(Clustering)描述和可視化 cription and (Text, Web ,數(shù)據(jù)挖掘分類(lèi)以上
11、六種數(shù)據(jù)挖掘的分析方法可以分為兩類(lèi):直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘直接數(shù)據(jù)挖掘(以理解成數(shù)據(jù)庫(kù)中表的屬性,即列)進(jìn)行描述。間接數(shù)據(jù)挖掘系 。分類(lèi)、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘3)各種分析方法的簡(jiǎn)介(Classification)分類(lèi)模型,對(duì)于沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)。例子:信用卡申請(qǐng)者,分類(lèi)為低、中、高風(fēng)險(xiǎn)分配客戶到預(yù)先定義的客戶分片注意: 類(lèi)的個(gè)數(shù)是確定的,預(yù)先定義好的估值(Estimation)的輸出;分類(lèi)的類(lèi)別是確定數(shù)目的,估值的量是不確定的。例子:根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的孩子個(gè)數(shù)根據(jù)購(gòu)買(mǎi)模式,估計(jì)一個(gè)家庭的收入估計(jì)real estate的價(jià)值用估值,給各個(gè)客戶記分S
12、core 0。然后,根據(jù)閾值,將貸款級(jí)別分類(lèi)。預(yù)言(Prediction)相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association 決定哪些事情將一起發(fā)生。例子:超市中客戶在購(gòu)買(mǎi)A 的同時(shí),經(jīng)常會(huì)購(gòu)買(mǎi)B,即A = )客戶在購(gòu)買(mǎi)A 后,隔一段時(shí)間,會(huì)購(gòu)買(mǎi)B (序列分析)聚集(Clustering)先定義好的類(lèi),不需要訓(xùn)練集。例子:一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病租VCD 類(lèi)型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群回答問(wèn)題,可能效果更好。描述和可視化 cription and 是對(duì)數(shù)據(jù)挖掘結(jié)果的表示方式。數(shù)據(jù)挖掘的商業(yè)背景3. 數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)關(guān)鍵
13、技術(shù)。數(shù)據(jù)的抽取數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性的功能,將普通關(guān)系數(shù)據(jù)庫(kù)改造成適合擔(dān)當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器。數(shù)據(jù)的展現(xiàn)在數(shù)據(jù)展現(xiàn)方面主要的方式有:OLAP 查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)OLAP 數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)融合發(fā)展數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)的協(xié)同工作數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)是融合與互動(dòng)發(fā)展的“”“”轉(zhuǎn)變的企業(yè)最終用戶的通途。的一些著名應(yīng)用開(kāi)始。銷(xiāo)售點(diǎn))能卡技術(shù),零售商可以在其商店的收銀臺(tái)收集顧客購(gòu)物的最新數(shù)據(jù)。零售商可(見(jiàn)第 6、7 章)。醫(yī)學(xué)科學(xué)與工程醫(yī)學(xué)科學(xué)與工程技術(shù)界的研究者正在快速積累大量數(shù)據(jù)這些數(shù)據(jù)對(duì)獲得有價(jià)值的新發(fā)現(xiàn)至關(guān)重要例如為了更深入地理解地
14、球的氣候系統(tǒng),NASA已經(jīng)部署了一系列的地球軌道衛(wèi)星,不停地收集地表、海洋和大氣的全球觀測(cè)數(shù)據(jù)然而由于這些數(shù)據(jù)的規(guī)模和時(shí)空特性傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集數(shù)據(jù)挖掘開(kāi)發(fā)的技術(shù)可以幫助地球科學(xué)家回答如下問(wèn)題“干旱和颶風(fēng)等生態(tài)系統(tǒng)擾動(dòng)的頻度和強(qiáng)度與全球變暖之間有何聯(lián)系海洋表面開(kāi)始和結(jié)束?”如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、多序列校準(zhǔn)、生物化學(xué)路徑建模和種系發(fā)生學(xué)。什么是數(shù)據(jù)挖掘100Web(inf ormation 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(knowledge discovery in database, KDD)不可缺少的一部分,而KDD 是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過(guò)程,如圖
15、1-1 所示。該過(guò)程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。圖 1-1 數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)過(guò)程輸入數(shù)據(jù)可以以各種形式存儲(chǔ)(平展文件、電子數(shù)據(jù)表或關(guān)系表數(shù)據(jù)存儲(chǔ)庫(kù)中,或分布在多個(gè)站點(diǎn)上。數(shù)據(jù)預(yù)處理的目的是將未加工的輸 步驟。(closing the 通常指將數(shù)據(jù)挖掘結(jié)果集成到?jīng)Q策支持系統(tǒng)見(jiàn)第3),引發(fā)數(shù)據(jù)挖掘的挑戰(zhàn)遇到實(shí)際困難。下面是一些特定的挑戰(zhàn),它們引發(fā)了對(duì)數(shù)據(jù)挖掘的研究??缮炜s由于數(shù)據(jù)產(chǎn)生和收集技術(shù)的進(jìn)步,數(shù)吉字節(jié)、數(shù)太字節(jié)甚至數(shù)拍字節(jié)的數(shù)據(jù)集越來(lái)越普遍如果數(shù)據(jù)挖掘算法要處理這些海量數(shù)據(jù)集則算法必須是可伸縮許多數(shù)據(jù)挖掘算法使用特殊的搜索策略處理指數(shù)性搜索問(wèn)題可伸縮
16、可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu)以有效的方式訪問(wèn)個(gè)別記錄例如當(dāng)要處理的數(shù)據(jù)不能放進(jìn)內(nèi)存時(shí)可能需要非內(nèi)存算法使用抽樣技術(shù)或開(kāi)發(fā)并行和分布算法也可以提高可伸縮程度。高維性現(xiàn)在,常常遇到具有數(shù)以百計(jì)或數(shù)以千計(jì)屬性的數(shù)據(jù)集,而不是數(shù)十年前常見(jiàn)的只具有少量屬性的數(shù)據(jù)集在生物信息學(xué)領(lǐng)域微陣列技術(shù)的進(jìn)步已經(jīng)產(chǎn)生了涉與數(shù)千特征的基因表達(dá)數(shù)據(jù)具有時(shí)間或空間分量的數(shù)據(jù)集也趨向于具有很高的維度例如考慮包含不同地區(qū)的溫度測(cè)量的數(shù)據(jù)集如果溫度在一個(gè)相當(dāng)長(zhǎng)的時(shí)間周期內(nèi)重復(fù)地測(cè)量則維(特征數(shù)的增長(zhǎng)正比于測(cè)量的次數(shù)為低維數(shù)據(jù)開(kāi)發(fā)的傳統(tǒng)的數(shù)據(jù)分析技術(shù)通常不能很好地處理這樣的高維數(shù)據(jù)此外對(duì)于某些數(shù)據(jù)分析算法隨著維(特征數(shù)的增加計(jì)算復(fù)雜
17、性迅速增加異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)通常,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類(lèi)型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類(lèi)的。隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和WebDNAXML數(shù)據(jù)的所有權(quán)與分布有時(shí),需要分析的數(shù)據(jù)并非存放在一個(gè)站點(diǎn),或歸屬一個(gè)單位而是地理上分布在屬于多個(gè)機(jī)構(gòu)的資源中這就需要開(kāi)發(fā)分布式數(shù)據(jù)掘技術(shù)分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括 如何降低執(zhí)行分布式算所需的通信量?(2) 如何有效地統(tǒng)一從多個(gè)資源得到的數(shù)據(jù)挖掘結(jié)果?(3) 如何處理數(shù)據(jù)安全性問(wèn)題?非傳統(tǒng)的分析傳統(tǒng)的統(tǒng)計(jì)方法基于一種假設(shè)檢驗(yàn)?zāi)J?。換句話說(shuō),提出一種假設(shè),設(shè)計(jì)實(shí)驗(yàn)來(lái)收集數(shù)據(jù),然后針對(duì)假設(shè)分析數(shù)據(jù)。但是,這一過(guò)程勞力神當(dāng)前的數(shù)據(jù)分
18、析任務(wù)常常需要產(chǎn)生和評(píng)估數(shù)以千計(jì)的假設(shè)因此希望自動(dòng)地產(chǎn)生和評(píng)估假設(shè)導(dǎo)致了一些數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)此外數(shù)據(jù)挖掘所分析的數(shù)據(jù)集通常不是精心設(shè)計(jì)的實(shí)驗(yàn)的結(jié)果,并且它們通常代表數(shù)據(jù)的時(shí)機(jī)性樣本(opp ortunistic sample),而不是隨機(jī)樣本 sample)。而且,這些數(shù)據(jù)集常常涉與非傳統(tǒng)的數(shù)據(jù)類(lèi)型和數(shù)據(jù)分布。數(shù)據(jù)挖掘的起源 人工處理、可視化和信息檢索。(并行)技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。圖 1-2 展示數(shù)據(jù)挖掘與其他領(lǐng)域之間的聯(lián)系。數(shù)據(jù)挖掘任務(wù)通常,數(shù)據(jù)挖掘任務(wù)分為下面兩大類(lèi):l 稱目標(biāo)變量 variable)或因變量 variable),而用來(lái)做
19、預(yù)測(cè)的屬性稱說(shuō)明變量(explanatory variable)或自變量(independent variable)。l 描述任務(wù)。這里,目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(常)結(jié)果。圖 1-3 展示本書(shū)其余部分講述的四種主要數(shù)據(jù)挖掘任務(wù)。圖 1-3 四種主要數(shù)據(jù)挖掘任務(wù)(predictive modeling)量;回歸用于預(yù)測(cè)連續(xù)的目標(biāo)變量。例如,預(yù)測(cè)一個(gè)Web例1.1預(yù)測(cè)花的類(lèi)型考慮如下任務(wù):根據(jù)花的特征預(yù)測(cè)花的種類(lèi)。特殊地, 考慮根據(jù)是否屬于Setosa、Versicolour、Virginica這三類(lèi)之一對(duì)鳶尾花(Ir is)進(jìn)行分類(lèi)。為進(jìn)行這一任務(wù),我們需要一個(gè)數(shù)據(jù)集,包含這三類(lèi)花的
20、特性一個(gè)具有這類(lèi)信息的數(shù)據(jù)集是著名的鳶尾花數(shù)據(jù)集可從加州大學(xué)歐文分校的機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中得到( /mlearn)。除花的種類(lèi)之外,該數(shù)據(jù)(鳶尾花數(shù)3.11-4150high三類(lèi),分別對(duì)應(yīng)于區(qū)間0, 0.750.75, 1.75)、1.75, )?;ò觊L(zhǎng)度也分成、high三類(lèi),分別對(duì)應(yīng)于區(qū)間0, 2.5)、2.5, 5)、5,)。根據(jù)花瓣寬度和長(zhǎng)度的這些類(lèi)別,可以推出如下規(guī)則:圖1-4150種鳶尾花的寬度與長(zhǎng)度對(duì)比lowSetosa。mediumVersicolourhighVirginica。類(lèi)(盡管不完善)。注意:根據(jù)花瓣寬度和花瓣長(zhǎng)度,SetosaVersicolour
21、Virginica些重疊。關(guān)聯(lián)分析(association analysis) 用來(lái)發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。Web素之間的聯(lián)系等。1.21-1則尿布牛奶。該規(guī)則暗示購(gòu)買(mǎi)尿布的顧客多半會(huì)購(gòu)買(mǎi)牛奶。這種類(lèi)型的規(guī)則可以用來(lái)發(fā)現(xiàn)相關(guān)商品中可能的交叉銷(xiāo)售的機(jī)會(huì)。表 1-1 購(gòu)物籃數(shù)據(jù)12商品面包, 黃油, , 牛奶咖啡, 糖, , 鮭魚(yú)3345678910面包, 黃油, 咖啡, 尿布, 牛奶, 雞蛋面包, 黃油, 鮭魚(yú), 雞雞蛋, 面包, 黃油鮭魚(yú), 尿布, 牛奶面包, 茶, , 雞蛋咖啡, 糖, , 雞蛋面包, 尿布, 牛奶, 鹽茶, 雞蛋, 小甜餅, 尿布, 牛奶聚類(lèi)分析(cluster a
22、nalysis) 旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,使得與屬于聚類(lèi)分析(cluster analysis) 旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,使得與屬于相關(guān)的顧客分組、找出顯著影響地球氣候的海洋區(qū)域以與壓縮數(shù)據(jù)等。相關(guān)的顧客分組、找出顯著影響地球氣候的海洋區(qū)域以與壓縮數(shù)據(jù)等。1.3文檔聚類(lèi)1-2篇文章表示為詞頻率對(duì)(w, wc是該詞在文章中出現(xiàn)表1-2新聞文章集合文 章12345678詞dollar: 1, industry: 4, country: 2, loan: 3, deal: 2, government: 2machinery: 2, labor: 3, market: 4, industry: 2, work: 3, country: 1job: 5, ination: 3, rise: 2, jobless: 2, market: 3, country: 2, index:3domestic: 3, forecast: 2, gain: 1, market: 2, sale: 3, price: 2patient: 4, symptom: 2, drug: 3, health: 2, clinic: 2, doctor: 2pharmaceutical: 2, company: 3, drug: 2, v
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年遼寧石化職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性考試題庫(kù)及參考答案詳解一套
- 2026年延安職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)參考答案詳解
- 2026年四川商務(wù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)及參考答案詳解1套
- 2026年新疆農(nóng)業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及參考答案詳解1套
- 2026年大慶醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)傾向性測(cè)試題庫(kù)及參考答案詳解一套
- 南昌社工面試題目及答案
- 公務(wù)員晉職面試題及答案
- 廉江事業(yè)編面試題及答案
- 2025~2026學(xué)年濟(jì)南天橋區(qū)濼口實(shí)驗(yàn)學(xué)校九年級(jí)上學(xué)期12月份英語(yǔ)考試試卷以及答案
- 2025年陸軍軍醫(yī)大學(xué)西南醫(yī)院護(hù)士長(zhǎng)招聘?jìng)淇碱}庫(kù)及參考答案詳解1套
- GB/T 46725-2025協(xié)同降碳績(jī)效評(píng)價(jià)城鎮(zhèn)污水處理
- 2025家用美容儀行業(yè)簡(jiǎn)析報(bào)告
- 2025年中小學(xué)教育政策與法規(guī)考試試卷及答案
- 2025上海市崇明區(qū)疾病預(yù)防控制中心(區(qū)衛(wèi)生健康監(jiān)督所)后勤保障崗位招聘3人筆試考試參考題庫(kù)及答案解析
- 婦產(chǎn)科學(xué)產(chǎn)褥期并發(fā)癥教案
- 機(jī)動(dòng)車(chē)駕駛員考試《科目四》試卷及答案(2025年)
- 醫(yī)療器械經(jīng)營(yíng)
- 貴州省貴陽(yáng)市2026屆高三上學(xué)期11月質(zhì)量監(jiān)測(cè)(期中)物理試卷(含解析)
- 2025年中國(guó)農(nóng)業(yè)無(wú)人機(jī)行業(yè)發(fā)展研究報(bào)告
- 雨課堂學(xué)堂在線學(xué)堂云《成語(yǔ)與中國(guó)文化(復(fù)旦大學(xué) )》單元測(cè)試考核答案
- 河北大教育技術(shù)學(xué)課件05教學(xué)理論
評(píng)論
0/150
提交評(píng)論