第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化_第1頁
第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化_第2頁
第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化_第3頁
第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化_第4頁
第九章-數(shù)據(jù)挖掘和數(shù)據(jù)可視化_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第九章決

化本章學(xué)習(xí)目的與要求●

理解數(shù)據(jù)挖掘的基本概念;●掌握數(shù)據(jù)挖掘常用的算法;●

理解數(shù)據(jù)可視化的基本概念;內(nèi)容提示第一節(jié)數(shù)據(jù)挖掘第二節(jié)數(shù)據(jù)可視化第一節(jié)數(shù)據(jù)挖掘第一節(jié)數(shù)據(jù)挖掘數(shù)據(jù)挖掘的概念;數(shù)據(jù)挖掘的任務(wù)。(一)數(shù)據(jù)挖掘概念---前言信息產(chǎn)業(yè)的發(fā)展引發(fā)了數(shù)據(jù)的大量聚集,如一個(gè)中等規(guī)模企業(yè)每天要產(chǎn)生100MB

以上來自各生產(chǎn)經(jīng)營等多方面的商業(yè)數(shù)據(jù);在科研方面,以

美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)3~4TB之多。◆據(jù)估計(jì),1993年全球數(shù)據(jù)存貯容量約為二千TB,到2000年增加到三百萬TB,

面對(duì)這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”、“混沌信息空間”和“數(shù)據(jù)過?!钡木薮髩毫?。前言◆

人類的各項(xiàng)活動(dòng)都是基于人類的智慧和知識(shí),

即對(duì)外部世界的觀察和了解,做出正確的判斷和決

策以及采取正確的行動(dòng);

而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部

世界所得到的原始材料,它本身沒有任何意義?!魪臄?shù)據(jù)到知識(shí)到智慧,需要經(jīng)過分析加工處理

精煉的過程。前言收集

數(shù)據(jù)

分析

信息

深入分析決策與行動(dòng)數(shù)據(jù)與知識(shí)間的關(guān)系客觀世界知識(shí)數(shù)據(jù)到知識(shí)的轉(zhuǎn)變◆

數(shù)據(jù)倉庫的出現(xiàn),為更深入對(duì)數(shù)據(jù)進(jìn)行分析提供

了條件,它不同于管理日常工作數(shù)據(jù)的數(shù)據(jù)庫,它更

便于分析針對(duì)特定主題的集成化的、時(shí)變的的數(shù)據(jù),

且這些數(shù)據(jù)一旦存入就不再發(fā)生變化;◆OLAP

是數(shù)據(jù)分析手段的一大進(jìn)步,以往的分析

工具所得到的報(bào)告結(jié)果只能回答“什么”(WHAT),

而OLAP

的分析結(jié)果能回答“為什么”(WHY)。數(shù)據(jù)到知識(shí)的轉(zhuǎn)變◆

但OLAP

是建立在用戶對(duì)深藏在數(shù)據(jù)中的某種知識(shí)有預(yù)感和假設(shè)的前提

下,由用戶指導(dǎo)的信息分析與知識(shí)發(fā)現(xiàn)過程;◆

由于數(shù)據(jù)倉庫中的數(shù)據(jù)來源于多個(gè)數(shù)據(jù)源,因此其中埋藏著豐富的不

為用戶所知的有用信息和知識(shí),而要使企業(yè)能及時(shí)準(zhǔn)確地做出科學(xué)的經(jīng)營

決策,就需要有基于計(jì)算機(jī)與信息技術(shù)的智能化自動(dòng)工具,來幫助挖掘隱藏在數(shù)據(jù)中的各類知識(shí)。數(shù)據(jù)挖掘的產(chǎn)生九十年代中期以來,許多軟件開發(fā)商,基于數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、進(jìn)化計(jì)算和

模式識(shí)別等多種技術(shù)和市場(chǎng)需求,開發(fā)了許多數(shù)據(jù)挖

掘與知識(shí)發(fā)現(xiàn)軟件工具,從而形成了近年來軟件開發(fā)

市場(chǎng)的熱點(diǎn)。

目前數(shù)據(jù)挖掘工具已開始向智能化整體數(shù)據(jù)分析解決方案發(fā)展,這是從數(shù)據(jù)到知識(shí)演化過程中的一個(gè)

重要里程碑。數(shù)據(jù)挖掘的產(chǎn)生數(shù)據(jù)到知識(shí)的演化過程示意圖數(shù)據(jù)智能分析解決方案數(shù)據(jù)倉庫OLAP數(shù)據(jù)庫管理數(shù)據(jù)數(shù)據(jù)挖掘(一)數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘

(Data

Mining,DM):又名數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)

(Knowledge

discovery

fromdatabase,

簡稱KDD),它是一個(gè)從大量數(shù)據(jù)中抽

取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)

雜過程。

簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。評(píng)估與表示數(shù)據(jù)挖掘

知識(shí)模式特定數(shù)據(jù)集數(shù)據(jù)庫數(shù)據(jù)挖掘過程示意圖數(shù)據(jù)挖掘的步驟選擇與轉(zhuǎn)換數(shù)據(jù)倉庫清洗與集成數(shù)據(jù)挖掘的過程整個(gè)知識(shí)挖掘過程是由若干挖掘步驟組成,而數(shù)據(jù)挖掘僅是其中的一個(gè)主要步驟。整個(gè)知識(shí)挖掘的主要步驟有:>(1)

數(shù)據(jù)清洗:清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù);>

(2)

數(shù)據(jù)集成:將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起;>(3)

數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式。數(shù)據(jù)挖掘的過程>(4)

數(shù)據(jù)挖掘:利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識(shí);>(5)

模式評(píng)估:根據(jù)一定評(píng)估標(biāo)準(zhǔn)從挖掘結(jié)果篩選出有意義的模式知識(shí);>

(

6)知識(shí)表示:利用可視化和知識(shí)表達(dá)技術(shù),向用戶展示所挖掘出的相關(guān)知識(shí)。(二)數(shù)據(jù)挖掘的任務(wù)利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策所需的多種知識(shí)。在許多情況下,用戶并不知道數(shù)據(jù)存在哪些

有價(jià)值的信息知識(shí),因此對(duì)于一個(gè)數(shù)據(jù)挖掘系統(tǒng)而

言,它應(yīng)該能夠同時(shí)搜索發(fā)現(xiàn)多種模式的知識(shí),以

滿足用戶的期望和實(shí)際需要。數(shù)據(jù)挖掘功能以及所能夠挖掘的知識(shí)類型說明描述如下:>

(1)關(guān)聯(lián)分析;>

(2)分類與預(yù)測(cè);(3)聚類分析;>(4)異類分析;>

(5)演化分析。(二)數(shù)據(jù)挖掘的任務(wù)(1)關(guān)聯(lián)分析關(guān)聯(lián)分析

(associationanalysis)

就是從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)(又稱為關(guān)聯(lián)規(guī)則,associationrules)。關(guān)聯(lián)分析廣泛用于市場(chǎng)營銷、事務(wù)分析等應(yīng)用領(lǐng)

域。>

通常關(guān)聯(lián)規(guī)則具有:X→Y形式,表示“數(shù)據(jù)庫中的滿足X中條件的記錄也一定滿足Y中的條件”。關(guān)聯(lián)分析示例一個(gè)數(shù)據(jù)挖掘系統(tǒng)可以從一個(gè)商場(chǎng)的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:Age(X,"20-29")

income(X,"20K-30K”)→buys(X,"MP3")[support=2%,confidence=60%]上述關(guān)聯(lián)規(guī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論