第四章 數(shù)據(jù)管理技術(shù)(新).ppt_第1頁(yè)
第四章 數(shù)據(jù)管理技術(shù)(新).ppt_第2頁(yè)
第四章 數(shù)據(jù)管理技術(shù)(新).ppt_第3頁(yè)
第四章 數(shù)據(jù)管理技術(shù)(新).ppt_第4頁(yè)
第四章 數(shù)據(jù)管理技術(shù)(新).ppt_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、4-1,第四章數(shù)據(jù)管理技術(shù),4.1概述 一、數(shù)據(jù)的本質(zhì)和來(lái)源,1.數(shù)據(jù)、信息、知識(shí) 數(shù)據(jù):客觀事物的屬性、數(shù)量、位置及其相互關(guān)系的抽象表示。 信息:數(shù)據(jù)所表示的含義(或語(yǔ)義),可以說(shuō)信息是對(duì)數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體。 知識(shí):是以各種不同方式把多個(gè)信息關(guān)聯(lián)在一起的信息結(jié)構(gòu),或者說(shuō)知識(shí)是多個(gè)信息之間的關(guān)聯(lián)。,4-2,4-3,2.數(shù)據(jù)的來(lái)源,內(nèi)部數(shù)據(jù):來(lái)自TPS 外部數(shù)據(jù):來(lái)源廣泛 個(gè)人數(shù)據(jù):來(lái)自DSS用戶 二、數(shù)據(jù)收集和數(shù)據(jù)問(wèn)題 1.數(shù)據(jù)收集 利用Excel建立數(shù)據(jù)庫(kù)。 2.數(shù)據(jù)問(wèn)題(P72):保證數(shù)據(jù)的質(zhì)量和完整性,防止“垃圾進(jìn),垃圾出(GIGO)”,4-4,三、數(shù)據(jù)庫(kù)組織和結(jié)構(gòu),表示存儲(chǔ)在

2、數(shù)據(jù)庫(kù)中許多記錄的關(guān)系的邏輯結(jié)構(gòu),目前流行的有三種:(P75) 關(guān)系數(shù)據(jù)庫(kù)、層次數(shù)據(jù)庫(kù)、網(wǎng)狀數(shù)據(jù)庫(kù),層次結(jié)構(gòu),網(wǎng)狀結(jié)構(gòu),4-5,4.2數(shù)據(jù)倉(cāng)庫(kù)(P77),當(dāng)前的數(shù)據(jù)處理可以大致分為兩大類型:操作型處理和分析型處理。 操作型處理也叫事務(wù)處理,是指對(duì)數(shù)據(jù)庫(kù)聯(lián)機(jī)的日常操作,通常是對(duì)一個(gè)或一組記錄的查詢和修改,主要是為企業(yè)的特定應(yīng)用服務(wù)的,人們關(guān)心的是響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性。 分析型處理則用于管理人員的決策分析。,4-6,一、傳統(tǒng)事務(wù)處理環(huán)境不適宜DSS用戶應(yīng)用的原因 1.事務(wù)處理和分析處理的性能特點(diǎn)不同 在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)存取操作頻率高,而每次操作處理的時(shí)間短,因此,系統(tǒng)

3、可以允許多個(gè)用戶按分時(shí)方式使用系統(tǒng)資源,同時(shí)保持較短的響應(yīng)時(shí)間,OLTP是這種環(huán)境下的典型應(yīng)用。 在分析處理環(huán)境中,用戶的行為模式就完全不同。某個(gè)DSS應(yīng)用程序可能需要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量系統(tǒng)資源。 將具有如此不同處理性能兩種應(yīng)用放在同一環(huán)境中運(yùn)行,顯然是不適當(dāng)?shù)摹?4-7,2 .數(shù)據(jù)集成問(wèn)題 DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集越完整,得到的結(jié)果就越可靠。因此,DSS不僅需要整個(gè)企業(yè)內(nèi)部各部門數(shù)據(jù),還需要企業(yè)外部、競(jìng)爭(zhēng)對(duì)手等處的相關(guān)數(shù)據(jù)。 事務(wù)處理的目的在于使業(yè)務(wù)處理自動(dòng)化,一般只需要與本部門有關(guān)的當(dāng)前數(shù)據(jù)。而對(duì)整個(gè)企業(yè)范圍內(nèi)的集成應(yīng)用考

4、慮很少。當(dāng)前,絕大部分企業(yè)的數(shù)據(jù)的真正狀況是分散的而非集成。 決策分析時(shí)還需要數(shù)據(jù)動(dòng)態(tài)集成!,4-8,3 .歷史數(shù)據(jù)問(wèn)題 事務(wù)處理一般只需要當(dāng)前數(shù)據(jù)。在數(shù)據(jù)庫(kù)中一般也只存儲(chǔ)短期數(shù)據(jù),有些歷史數(shù)據(jù)保存下來(lái)了,但被束之高閣,未得到充分利用。 但對(duì)于決策分析來(lái)說(shuō),歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須有大量歷史數(shù)據(jù)。沒(méi)有對(duì)歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。,4-9,4.數(shù)據(jù)的綜合問(wèn)題 在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。這主要有兩個(gè)原因: 一是細(xì)節(jié)數(shù)據(jù)數(shù)量太大了,會(huì)嚴(yán)重影響分析的效率; 二是太多的細(xì)節(jié)數(shù)據(jù)不利于分析人員將注意力集中在有用的信

5、息上。 因此,在分析前,往往需要對(duì)數(shù)據(jù)進(jìn)行不同程度的綜合。,4-10,以上這些問(wèn)題表明,在事務(wù)型環(huán)境中直接構(gòu)建分析型應(yīng)用是一種失敗的嘗試。數(shù)據(jù)倉(cāng)庫(kù)本質(zhì)上是對(duì)這些存在問(wèn)題的回答。但是數(shù)據(jù)倉(cāng)庫(kù)的主要驅(qū)動(dòng)力并不是過(guò)去的缺點(diǎn),而是市場(chǎng)商業(yè)經(jīng)營(yíng)行為的改變,市場(chǎng)競(jìng)爭(zhēng)要求捕獲和分析事務(wù)級(jí)的業(yè)務(wù)數(shù)據(jù)。建立在事務(wù)處理環(huán)境上的分析系統(tǒng)無(wú)法達(dá)到要求。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要進(jìn)行重新組織。,4-11,二、數(shù)據(jù)倉(cāng)庫(kù)概念(P77),1.數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)始人W.H.Inmon在其1992年出版的建立數(shù)據(jù)倉(cāng)庫(kù)一書(shū)

6、中,對(duì)數(shù)據(jù)倉(cāng)庫(kù)(Data WarehouseDW)的定義為: 數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中的決策制定過(guò)程。,4-12,2.Tim.Shelter(informix公司負(fù)責(zé)研究與開(kāi)發(fā)副總裁)的觀點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)是把分布在企業(yè)網(wǎng)絡(luò)中不同信息島的商業(yè)數(shù)據(jù)集成到一起,存儲(chǔ)在一個(gè)單一的集成關(guān)系型數(shù)據(jù)庫(kù)中。利用這種集成信息,可方便用戶對(duì)信息的訪問(wèn),更可使決策人員對(duì)一段時(shí)間內(nèi)的歷史數(shù)據(jù)進(jìn)行分析,研究事物發(fā)展趨勢(shì)。 3.SAS軟件研究所的觀點(diǎn): 數(shù)據(jù)倉(cāng)庫(kù)是一種管理技術(shù),旨在通過(guò)通暢、合理、全面的信息管理,達(dá)到有效的決策支持。,4-13,三、數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),1.面向主

7、題的:數(shù)據(jù)以用戶需要的方式進(jìn)行組織,面向應(yīng)用與面向主題的比較,4-14,2.數(shù)據(jù)集成(整合):所有的名稱和單位都進(jìn)行了統(tǒng)一,Inmon提到數(shù)據(jù)倉(cāng)庫(kù)最重要的特性是:其中所存儲(chǔ)的數(shù)據(jù)都是集成的的。這種集成是通過(guò)慣例命名、度量屬性、精確度和一般集合體的一致性表現(xiàn)出來(lái)的。 例如,在傳統(tǒng)操作型應(yīng)用程序中男女性別可編碼為M與F,或1和0;溫度有三種單位:華氏、攝氏和開(kāi)氏等。而在數(shù)據(jù)倉(cāng)庫(kù)中是一致的。,4-15,3.數(shù)據(jù)是穩(wěn)定的:數(shù)據(jù)以只讀方式存儲(chǔ),不隨時(shí)間變化,為了保證數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不可改變和更新,在應(yīng)用系統(tǒng)中的插入、刪除和更新操作在數(shù)據(jù)倉(cāng)庫(kù)中是完全不存在的。在數(shù)據(jù)倉(cāng)庫(kù)中,只有兩種操作方法:數(shù)據(jù)裝載(da

8、ta loading)和數(shù)據(jù)訪問(wèn)(data access)。,4-16,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不可更新是針對(duì)應(yīng)用來(lái)說(shuō)的,也就是說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的用戶進(jìn)行分析處理時(shí)是不進(jìn)行數(shù)據(jù)更新操作。但不是說(shuō),在從數(shù)據(jù)集成輸入數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始到最終被刪除的整個(gè)數(shù)據(jù)生存周期中,所有的數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)都是永遠(yuǎn)不變的。,4-17,4.數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是與時(shí)間相關(guān)的,數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)不是當(dāng)前的數(shù)據(jù),而是時(shí)間序列數(shù)據(jù)。時(shí)間跨度比較長(zhǎng)5年到10年。目的是分析,從中尋找關(guān)系和預(yù)測(cè)。 數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)顯示時(shí)間變量的地方就是記錄的主鍵。每個(gè)主鍵必須或顯式或隱式地包含時(shí)間變量(天、周、月、年等)。在顯式表示中,時(shí)間標(biāo)記必須附在主鍵上(例如CUSTO

9、RDER0997,主鍵的后半部分表示月和年)。在另一些情況下,時(shí)間標(biāo)記以隱式方式顯示,例如一個(gè)總在月底或季度末裝載的數(shù)據(jù),其名稱以那個(gè)時(shí)間段命名。 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)可以看作是一系列連續(xù)的相片?;蚪y(tǒng)計(jì)年鑒。,4-18,5.數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是海量的:TB級(jí)(1000G),BKMGT 四、聯(lián)機(jī)分析處理(OLAP) 傳統(tǒng)的計(jì)算機(jī)信息系統(tǒng)是聯(lián)機(jī)事務(wù)處理(on-line transaction processing ,OLTP ),它是事件驅(qū)動(dòng)、面向應(yīng)用的。例如,銀行的儲(chǔ)蓄系統(tǒng)。 OLTP的基本特點(diǎn)是:對(duì)響應(yīng)時(shí)間要求非常高;用戶數(shù)量非常龐大,主要是操作人員;數(shù)據(jù)庫(kù)的各種操作基于索引進(jìn)行。 聯(lián)機(jī)分析處理(o

10、n-line analytical processing)是基于數(shù)據(jù)倉(cāng)庫(kù)的信息分析過(guò)程,是數(shù)據(jù)倉(cāng)庫(kù)的用戶接口。,4-19,1.OLAP的特點(diǎn),OLAP是跨部門、面向主題的,其基本特點(diǎn)是: (1)基礎(chǔ)數(shù)據(jù)來(lái)源于生產(chǎn)系統(tǒng)中的操作數(shù)據(jù); (2)響應(yīng)時(shí)間合理; (3)用戶數(shù)量相對(duì)較少,其用戶主要是業(yè)務(wù)決策人與管理人員; (4)數(shù)據(jù)庫(kù)的各種操作不能完全基于索引進(jìn)行。,4-20,2.OLAP的規(guī)則,1993年公認(rèn)的關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了OLAP概念。他提出了OLAP的12條規(guī)則:,4-21,3.OLAP的數(shù)據(jù)組織,(1)基于多維數(shù)據(jù)庫(kù)的OLAP(MOLAP) 維是同類數(shù)據(jù)的集合。各個(gè)商店的集

11、合是一維,時(shí)間的集合是一維,商品的集合是一維。每個(gè)銷售事實(shí)是由一個(gè)特定的商店、一個(gè)特定的時(shí)間、一種特定商品組成。維有自己的固有屬性,如層次結(jié)構(gòu),對(duì)數(shù)據(jù)進(jìn)行聚合分析時(shí)要用到層次結(jié)構(gòu)。 為了幫助理解企業(yè)(公司)中發(fā)生的變化,數(shù)據(jù)分析所涉及的不僅是歷史數(shù)據(jù)的簡(jiǎn)單比較,而是多變的主題及多維數(shù)據(jù)的訪問(wèn),數(shù)據(jù)維內(nèi)及維間存在著大量復(fù)雜的綜合路徑及關(guān)聯(lián)。通過(guò)創(chuàng)建大量的維(綜合路徑)及指定維間的計(jì)算條件和表達(dá)式來(lái)處理大量數(shù)據(jù)。,4-22,例如,以“產(chǎn)品、城市、時(shí)間”構(gòu)成的三維數(shù)據(jù)結(jié)構(gòu),如下圖,對(duì)三維數(shù)據(jù),通過(guò)“切片”和“旋轉(zhuǎn)”(選擇特定切割方向),分別從城市到產(chǎn)品等不同的角度觀察各年銷售情況。,三維數(shù)據(jù)結(jié)構(gòu),4

12、-23,多維數(shù)據(jù)分析,多維數(shù)據(jù)存儲(chǔ)方式稱為“超立方體”結(jié)構(gòu),它將數(shù)據(jù)沿“坐標(biāo)軸(維)”進(jìn)行存儲(chǔ),使得用戶可以沿著商業(yè)軸線方便地分析數(shù)據(jù)。多維空間中的不同截面形成了多維視圖。 針對(duì)多維數(shù)據(jù)庫(kù)產(chǎn)生的OLAP分析方法,一般有以下幾種:,4-24,針對(duì)多維數(shù)據(jù)庫(kù)產(chǎn)生的OLAP分析方法,一般有以下幾種:,(1)旋轉(zhuǎn)(Pivoting):將表格的橫、縱坐標(biāo)交換(x,y)(y,x)。 (2)上鉆和下鉆(Roll up or Drill down):根據(jù)維的層次提升所關(guān)心的數(shù)據(jù)或降低觀察層次。 (3)切片和切塊(Slice and Dice):主要根據(jù)維的限定做投影、選擇等數(shù)據(jù)庫(kù)操作,從而獲取數(shù)據(jù)。,4-25

13、,(2)基于關(guān)系數(shù)據(jù)庫(kù)的OLAP(ROLAP),在ROLAP中,多維數(shù)據(jù)庫(kù)服務(wù)器被大型的關(guān)系數(shù)據(jù)庫(kù)服務(wù)器代替。這種超級(jí)關(guān)系數(shù)據(jù)庫(kù)包括詳細(xì)的(detail data)和總結(jié)的(summary data)數(shù)據(jù),允許對(duì)數(shù)據(jù)集做“下鉆( drill down,細(xì)化)”操作。 使用ROLAP要在伸縮性和性能之間權(quán)衡。一方面,ROLAP有強(qiáng)大的管理工具,開(kāi)設(shè)了SQL接口,可以開(kāi)發(fā)出方便的、有一定伸縮性的工具。另一方面,ROLAP需要大量的關(guān)系表來(lái)存儲(chǔ)大量規(guī)模的數(shù)據(jù)和維度關(guān)系。 在進(jìn)行表連接和索引處理時(shí)需要強(qiáng)大的處理能力,這方面MOLAP的性能就不盡如人意。,4-26,關(guān)系數(shù)據(jù)數(shù)據(jù)庫(kù)將多維數(shù)據(jù)庫(kù)中的多維結(jié)構(gòu)

14、劃分為兩類表:一類是事實(shí)表(fact table),用來(lái)存儲(chǔ)事實(shí)的值及各個(gè)維的碼值。另一類是維表(dimension table),即維的描述信息。事實(shí)表是通過(guò)每一個(gè)維的碼值同維表聯(lián)系在一起,形成一種星型模式。參見(jiàn)下面例子:,4-27,下面數(shù)據(jù)倉(cāng)庫(kù)中經(jīng)常采用的星型模型的例子:,事實(shí)表,4-28,網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)是什么?讓我們來(lái)看一些身邊俯拾即是的現(xiàn)象:紐約時(shí)報(bào)由60年代的1020版擴(kuò)張至現(xiàn)在的100200版,最高曾達(dá)1572版;北京青年報(bào)也已是1640版;市場(chǎng)營(yíng)銷報(bào)已達(dá)100版。然而在現(xiàn)實(shí)社會(huì)中,人均日閱讀時(shí)間通常為3045分鐘,只能瀏覽一份24版的報(bào)紙。,4.3 數(shù)據(jù)挖掘(Data

15、mining),4-29,隨著網(wǎng)絡(luò)化時(shí)代的到來(lái),迅速增長(zhǎng)的大量信息在給人們帶來(lái)方便的同時(shí),也產(chǎn)生了許多問(wèn)題:第一是信息過(guò)量,難以消化;第二是信息真假難辨;第三是信息可靠性難以保證;第四是信息形式不一致,難以統(tǒng)一處理。人們開(kāi)始提出一個(gè)新的口號(hào):“要學(xué)會(huì)拋棄信息”。人們開(kāi)始考慮:“如何才能不被信息淹沒(méi),而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí)、提高信息利用率?”,4-30,隨著科學(xué)技術(shù)的發(fā)展,利用數(shù)據(jù)庫(kù)技術(shù)來(lái)存儲(chǔ)管理數(shù)據(jù),利用機(jī)器學(xué)習(xí)的方法來(lái)分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識(shí),這種思想的結(jié)合形成了現(xiàn)在深受人們關(guān)注的非常熱門的研究領(lǐng)域: 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery

16、 from Databases)其中,數(shù)據(jù)挖掘技術(shù)便是KDD中的一個(gè)最為關(guān)鍵的環(huán)節(jié)。,4-31,一、數(shù)據(jù)挖掘的定義,(一)技術(shù)上的定義及含義 所謂的數(shù)據(jù)挖掘是指從大量的、不完全、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中,提取隱含在數(shù)據(jù)中的人們事先不知道但又是潛在有用的信息和知識(shí)的技術(shù)和過(guò)程。 與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。,4-32,-何為知識(shí)? 從廣義上理解,數(shù)據(jù)、信息也是知識(shí)的表現(xiàn)形式,但是人們

17、更把概念、規(guī)則、模式、規(guī)律和約束等看作知識(shí)。 人們把數(shù)據(jù)看作是形成知識(shí)的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識(shí)可以被用于信息管理,查詢優(yōu)化,決策支持和過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。,4-33,因此,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。在這種需求牽引下,匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視

18、化技術(shù)、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)熱點(diǎn)。,4-34,這里所說(shuō)的知識(shí)發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。 實(shí)際上,所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶理解。最好能用自然語(yǔ)言表達(dá)所發(fā)現(xiàn)的結(jié)果。,4-35,(二)商業(yè)角度的定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。 簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方

19、法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,只不過(guò)在過(guò)去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外,由于當(dāng)時(shí)計(jì)算能力的限制,對(duì)大數(shù)據(jù)量進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制。,4-36,現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動(dòng)化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集的,而是由于純機(jī)會(huì)的(Opportunistic)商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價(jià)值的信息,進(jìn)而獲得利潤(rùn)。,4-37,但所有企業(yè)面臨的一個(gè)共同問(wèn)題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少,因此從大量的數(shù)據(jù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,就像

20、從礦石中淘金一樣,數(shù)據(jù)挖掘也因此而得名。 因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。,4-38,確認(rèn)(verification)與發(fā)現(xiàn)(discovery) 早期決策支持活動(dòng)主要基于“確認(rèn)”:要求決策者事先具備相關(guān)領(lǐng)域豐富的知識(shí),發(fā)現(xiàn)了一個(gè)值得思考的關(guān)系后通過(guò)查詢進(jìn)行確認(rèn)。隨著計(jì)算機(jī)技術(shù)發(fā)展,利用DM來(lái)發(fā)現(xiàn)未知的知識(shí)(規(guī)則)。,4-39,二、數(shù)據(jù)挖掘的功能,(一)概念描述(Concept Description) 概念描述的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的總體的綜合描述。通過(guò)對(duì)數(shù)據(jù)的總結(jié)

21、,實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的總體把握。最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法是利用統(tǒng)計(jì)學(xué)中的傳統(tǒng)方法,計(jì)算出數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)項(xiàng)的總和、平均、方差等。利用OLAP(On line Analysis Processing)技術(shù)(即聯(lián)機(jī)分析處理技術(shù)),實(shí)現(xiàn)數(shù)據(jù)的多維查詢。,4-40,(二)關(guān)聯(lián)分析(Mining Association rules),數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說(shuō)兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性。,4-41,1.數(shù)據(jù)中關(guān)聯(lián)的類型,(1)簡(jiǎn)單關(guān)聯(lián):如買面包的顧客中有70%的人買牛奶。 采用關(guān)聯(lián)模型的一個(gè)比較典型的案例是“尿布與啤酒”的故事。在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿

22、布,超市也因此發(fā)現(xiàn)了一個(gè)規(guī)律,在購(gòu)買嬰兒尿布的年輕父親們中,有30%40%的人同時(shí)要買一些啤酒。超市隨后調(diào)整了貨架的擺放,把尿布與啤酒放在一起,結(jié)果明顯增加了銷售額。,4-42,(2)時(shí)序關(guān)聯(lián):例如,糧食漲價(jià)了,不久副食品也漲價(jià)。,(3)因果關(guān)聯(lián) 這是條件與結(jié)論的依賴關(guān)系。如吸煙有害于健康。,4-43,2.關(guān)聯(lián)分析一般采用的技術(shù) (1)統(tǒng)計(jì)技術(shù) 這是關(guān)聯(lián)分析的一類重要方法,對(duì)于簡(jiǎn)單關(guān)聯(lián)都是通過(guò)統(tǒng)計(jì)技術(shù)獲得的。 (2)分析字段項(xiàng)間的共變性,4-44,3.關(guān)聯(lián)分析應(yīng)注意的問(wèn)題 (1)規(guī)則帶有某種“強(qiáng)度” 這可解釋為該規(guī)則的概率或規(guī)則的強(qiáng)度。 (2)規(guī)則的評(píng)價(jià) 規(guī)則有時(shí)并不代表有用的發(fā)現(xiàn),它可能只反

23、映了背景領(lǐng)域的固有結(jié)構(gòu),這就要求對(duì)候選規(guī)則進(jìn)行評(píng)價(jià)。,4-45,4.常用的算法,常用的關(guān)聯(lián)規(guī)則挖掘算法有Apriori算法、頻繁模式增長(zhǎng)(FP增長(zhǎng))、多層次關(guān)聯(lián)規(guī)則挖掘、多維關(guān)聯(lián)規(guī)則挖掘、基于約束的關(guān)聯(lián)規(guī)則挖掘等。,4-46,(三)分類和預(yù)測(cè)(Classification and Prediction),分類的主要功能是使用一個(gè)分類函數(shù)或分類模型,該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。這樣我們就可以利用該模型來(lái)分析已有的數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一組。 例如,我們可以將銀行網(wǎng)點(diǎn)分為好、一般、較差三種類型,并依據(jù)此種分類分析三種銀行網(wǎng)點(diǎn)的各種屬性,如位置、盈利情況等,并決定它們分類的關(guān)

24、鍵性及相互關(guān)系。 又如,利用當(dāng)前的病例數(shù)據(jù)可以建立各種疾病的分類規(guī)則,對(duì)于新的病人,利用這些規(guī)則就可以區(qū)分出這種疾病。 常用的分類方法有判定樹(shù)歸納分類、貝葉斯分類、基于案例的推理、遺傳算法、粗糙集等;常用的預(yù)測(cè)算法有線性回歸與多元回歸、非線性回歸、廣義線性模型等。,4-47,(四)聚類分析(Cluster Analysis),當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或者是無(wú)法組織成任何分類模式時(shí),可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。 統(tǒng)計(jì)方法中的聚類分析是實(shí)現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。 主要的聚類方

25、法有:劃分方法;基于密度的方法;基于網(wǎng)格的方法;基于模型的方法,如統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法等;孤立點(diǎn)分析,如基于距離的孤立點(diǎn)檢測(cè)、基于偏離的孤立點(diǎn)檢測(cè)等。,4-48,三、 數(shù)據(jù)挖掘的主要應(yīng)用,1.市場(chǎng)營(yíng)銷 數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明”。,4-49,市場(chǎng)營(yíng)銷應(yīng)用是利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位和消費(fèi)者分析,輔助制定市場(chǎng)策略。DM在營(yíng)銷中應(yīng)用分為兩類:數(shù)據(jù)庫(kù)營(yíng)銷(database marketing)和貨籃分析(basket analysis)。 由于管理信息系統(tǒng)(POS系統(tǒng))在商業(yè)

26、的廣泛普及,特別是條形碼技術(shù)的使用,人們很容易得到顧客購(gòu)買情況的數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù),通過(guò)對(duì)顧客歷史數(shù)據(jù)的分析,可以得到關(guān)于顧客購(gòu)買趨向和興趣的信息,從而為商業(yè)決策提供依據(jù)。,4-50,基于數(shù)據(jù)挖掘的營(yíng)銷對(duì)我國(guó)當(dāng)前的市場(chǎng)競(jìng)爭(zhēng)中也很具有啟發(fā)意義,我們經(jīng)??梢钥吹椒比A商業(yè)街上一些廠商對(duì)來(lái)往行人不分對(duì)象地散發(fā)大量商品宣傳廣告,其結(jié)果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務(wù)的公司向在商店中剛剛購(gòu)買家電的消費(fèi)者郵寄維修服務(wù)廣告,賣特效藥品的廠商向醫(yī)院特定門診就醫(yī)的病人郵寄廣告,肯定會(huì)比漫無(wú)目的的營(yíng)銷效果要好得多。,4-51,2.金融,數(shù)據(jù)挖掘在金融領(lǐng)域應(yīng)用廣泛,主要有:

27、金融市場(chǎng)的分析和預(yù)測(cè)、帳戶分類、銀行擔(dān)保和信用評(píng)估等。這些金融業(yè)務(wù)都需要收集和處理大量的數(shù)據(jù),很難通過(guò)人工或使用一兩個(gè)小型軟件進(jìn)行分析預(yù)測(cè)。而數(shù)據(jù)挖掘可以通過(guò)對(duì)已有數(shù)據(jù)的處理,找到數(shù)據(jù)對(duì)象的特征和對(duì)象之間的關(guān)系,然后利用學(xué)習(xí)到的模式進(jìn)行合理的分析和預(yù)測(cè)。,4-52,3.工程與科學(xué)研究,數(shù)據(jù)挖掘技術(shù)可應(yīng)用于工程與科學(xué)數(shù)據(jù)分析。隨著先進(jìn)的科學(xué)數(shù)據(jù)收集技術(shù)的使用,如觀測(cè)衛(wèi)星、遙感器、DNA分子技術(shù)等,面對(duì)龐大的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析工具無(wú)能為力。數(shù)據(jù)挖掘技術(shù)以其強(qiáng)大的智能性和自動(dòng)性,在工程與科學(xué)研究中得到廣泛應(yīng)用。 數(shù)據(jù)挖掘技術(shù)在天文學(xué)和生物學(xué)中都有成功的案例,如在天文學(xué)中,Jet Proulsion

28、實(shí)驗(yàn)室利用決策樹(shù)方法對(duì)上百萬(wàn)個(gè)天體進(jìn)行分類(效果比人工快而準(zhǔn)確),結(jié)果幫助人們發(fā)現(xiàn)了10個(gè)新的類星體。,4-53,4.產(chǎn)品制造業(yè),制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過(guò)程分析等。 如公司的工程技術(shù)人員使用Angoss software的Knowledgeseeker來(lái)進(jìn)行彩色掃描儀的生產(chǎn)過(guò)程分析。他們基于約200個(gè)參數(shù)建立了一個(gè)自動(dòng)數(shù)據(jù)收集系統(tǒng),產(chǎn)生了人工難以處理的大量數(shù)據(jù)。,4-54,5.司法,數(shù)據(jù)挖掘技術(shù)可以用于案件調(diào)查、詐騙監(jiān)測(cè)、洗錢認(rèn)證、犯罪組織分析等,可以給司法工作帶來(lái)巨大收獲。 如美國(guó)財(cái)政部使用NetMap開(kāi)發(fā)了False系統(tǒng),并利用這個(gè)系統(tǒng)對(duì)金融交易進(jìn)行監(jiān)測(cè),

29、識(shí)別洗錢、詐騙。,4-55,數(shù)據(jù)挖掘的成功案例,4-56,目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。,4-57,四、統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘方法創(chuàng)新中的貢獻(xiàn),數(shù)據(jù)挖掘方法主要包括決策樹(shù)、關(guān)聯(lián)分析、人工神經(jīng)網(wǎng)絡(luò)、

30、遺傳算法、機(jī)器學(xué)習(xí)和可視化方法等。最近幾年,由于統(tǒng)計(jì)的加盟,使這些方法煥發(fā)出勃勃生機(jī),在此只列舉幾個(gè)計(jì)算機(jī)領(lǐng)域的熱點(diǎn)問(wèn)題,來(lái)展示統(tǒng)計(jì)的廣泛適用性。例如(1)統(tǒng)計(jì)理論在人工神經(jīng)網(wǎng)絡(luò)技術(shù)中的應(yīng)用概率分析網(wǎng)(ProbabilityAnalysisNet,簡(jiǎn)稱PLN),(2)統(tǒng)計(jì)思想在數(shù)據(jù)挖掘?qū)W習(xí)方法上的貢獻(xiàn)貝葉斯網(wǎng)絡(luò)、(3)統(tǒng)計(jì)在遺傳算法中的應(yīng)用概率進(jìn)化算法,4-58,數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)有著密切的關(guān)系。數(shù)據(jù)挖掘的出現(xiàn)為統(tǒng)計(jì)學(xué)提供了一個(gè)新的應(yīng)用領(lǐng)域,同時(shí)也給統(tǒng)計(jì)學(xué)的理論研究提出了挑戰(zhàn),它無(wú)疑將推動(dòng)統(tǒng)計(jì)學(xué)的發(fā)展。,4-59,五、知識(shí)發(fā)現(xiàn)(KDD)的過(guò)程,1.KDD過(guò)程定義:從大量數(shù)據(jù)中提取出可信的、新穎的

31、、有效的并能被人理解的模式的處理過(guò)程,這種處理的過(guò)程是非常繁瑣的過(guò)程。 2.KDD過(guò)程的圖示,數(shù) 據(jù),目標(biāo) 數(shù)據(jù),預(yù)處理 數(shù)據(jù),轉(zhuǎn)換 數(shù)據(jù),模 式,知 識(shí),KDD過(guò)程圖,4-60,從圖中可見(jiàn),KDD過(guò)程是多個(gè)步驟相互連接進(jìn)來(lái),反復(fù)進(jìn)行人機(jī)交互的過(guò)程。具體如下:,1.選擇研究主題:對(duì)商業(yè)問(wèn)題有一定的理解。具備該領(lǐng)域的知識(shí)。 2.選擇目標(biāo)數(shù)據(jù)集:選擇一個(gè)數(shù)據(jù)集或在多個(gè)數(shù)據(jù)集的子集上聚焦。 3.清理并預(yù)處理數(shù)據(jù):去除噪聲或無(wú)關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時(shí)間順序和數(shù)據(jù)的變化等。 4.數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理數(shù)據(jù)根據(jù)KDD任務(wù)進(jìn)行再處理,主要通過(guò)投影或數(shù)據(jù)庫(kù)中的其他操作減少數(shù)據(jù)量。,4-61,5.數(shù)據(jù)挖掘:,

32、首先,根據(jù)用戶要求,確定KDD目標(biāo),即確定KDD要發(fā)現(xiàn)何種類型知識(shí);然后,確定知識(shí)發(fā)現(xiàn)算法,這包括選取合適的模型和參數(shù),并使得知識(shí)發(fā)現(xiàn)算法與整個(gè)KDD的評(píng)判標(biāo)準(zhǔn)相一致;最后運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法尋找有意義的模式。 6.解釋和評(píng)價(jià):回顧初步挖掘的結(jié)果(如果有必要,要返回到前面步驟),以便對(duì)已識(shí)別的有趣的模式有更多理解。 7.知識(shí)評(píng)價(jià):將發(fā)現(xiàn)的知識(shí)以用戶能夠理解的方式呈給用戶。該期間還包括對(duì)知識(shí)的一致性檢查,以確信本次發(fā)現(xiàn)的知識(shí)不與以前發(fā)現(xiàn)的知識(shí)相抵觸。,4-62,六、數(shù)據(jù)挖掘未來(lái)研究方向,-當(dāng)前,DMKD研究方興未艾,其研究與開(kāi)發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫(kù)技術(shù)在70年代所處的地位,迫切需要類似于關(guān)系

33、模式、DBMS系統(tǒng)和SQL查詢語(yǔ)言等理論和方法的指導(dǎo),才能使DMKD的應(yīng)用得以普遍推廣。預(yù)計(jì)在本世紀(jì),DMKD的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:,4-63,發(fā)現(xiàn)語(yǔ)言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,也許會(huì)像SQL語(yǔ)言一樣走向形式化和標(biāo)準(zhǔn)化; 尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過(guò)程中進(jìn)行人機(jī)交互; 研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining)特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)WebMining;,4-64,加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開(kāi)采(DataMiningforAud

34、ioVideo),如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開(kāi)采; 處理的數(shù)據(jù)將會(huì)涉及到更多的數(shù)據(jù)類型,這些數(shù)據(jù)類型或者比較復(fù)雜,或者是結(jié)構(gòu)比較獨(dú)特。為了處理這些復(fù)雜的數(shù)據(jù),就需要一些新的和更好的分析和建立模型的方法,同時(shí)還會(huì)涉及到為處理這些復(fù)雜或獨(dú)特?cái)?shù)據(jù)所做的費(fèi)時(shí)和復(fù)雜數(shù)據(jù)準(zhǔn)備的一些工具和軟件。,4-65,七、數(shù)據(jù)挖掘熱點(diǎn),就目前來(lái)看,將來(lái)的幾個(gè)熱點(diǎn)包括網(wǎng)站的數(shù)據(jù)挖掘(Web site data mining)、生物信息或基因(Bioinformatics/genomics)的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘(Textual mining)。,4-66,電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)的業(yè)務(wù)競(jìng)爭(zhēng)更加激烈,原因有很多方面,其中一個(gè)因素是客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊,只需點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎(jiǎng)勵(lì)方案、服務(wù)等任何一個(gè)地方都有可能成為吸引客戶、同時(shí)也可能成為失去客戶的因素。而同時(shí)電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,生成大量的記錄文件(Logfiles)和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購(gòu)買模式,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論