已閱讀5頁,還剩92頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘介紹 數(shù)據(jù)挖掘基本概念 近年來數(shù)據(jù)挖掘引起了人們的極大關(guān)注,其主要原因是: 存在大量的數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索等。 數(shù)據(jù)挖掘基本概念(續(xù)) 數(shù)據(jù)挖掘是信息技術(shù)自然演化的結(jié)果。 數(shù)據(jù)收集和 DB創(chuàng)建 機(jī)制的早期開發(fā)已成為稍后 數(shù)據(jù)管理 有效機(jī)制開發(fā)的必備基礎(chǔ),隨著提供查詢和事務(wù)處理的大量 DBS廣泛付諸實(shí)踐, 數(shù)據(jù)分析和理解 自然成為下一個目標(biāo)。 數(shù)據(jù)挖掘基本概念(續(xù)) 這必將帶來對強(qiáng)有力的數(shù)據(jù)分析工具的需求。實(shí)際上,面對快速增長的海量數(shù)據(jù),沒有強(qiáng)有力的工具,理解它們已遠(yuǎn)遠(yuǎn)超出了人們的能力。 回顧數(shù)據(jù)管理技術(shù): DB技術(shù) : 能有效地存儲數(shù)據(jù)和查詢數(shù)據(jù), 但不能有效地分析數(shù)據(jù)。 數(shù)據(jù)挖掘基本概念(續(xù)) DW與 OLAP技術(shù): 具有匯總、合并和聚集功能,以及從不同的角度觀察數(shù)據(jù)的能力。但只是客觀、忠實(shí)地表現(xiàn)出用戶想查詢的眾多因素分析匯總得出的報(bào)表,而報(bào)表的翻譯將由用戶判斷。即缺乏對數(shù)據(jù)的深層次分析。 數(shù)據(jù)挖掘基本概念(續(xù)) DM技術(shù): 特別強(qiáng)調(diào)挖掘隱藏在大型數(shù)據(jù)集中有趣的數(shù)據(jù) 模式 (知識、規(guī)律),用于決策過程控制、信息管理、查詢處理等。不但分析數(shù)據(jù),而且?guī)椭脩舻弥?,并預(yù)測未來。 模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。 模式按功能可以分為預(yù)測型模式和描述型模式。 在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。 數(shù)據(jù)庫應(yīng)用的規(guī)模和深度 點(diǎn) 線 在線分析處理 (OLAP) 在線事務(wù)處理 決策支持 (DS) (OLTP) 數(shù)據(jù)挖掘 (Data Mining) 數(shù)據(jù)挖掘基本概念(續(xù)) 因此,數(shù)據(jù)挖掘被普遍認(rèn)為是非常有效的數(shù)據(jù)分析工具,是信息產(chǎn)業(yè)最重要的前沿之一,是最有前途的交叉學(xué)科。 數(shù)據(jù)挖掘基本概念(續(xù)) 數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成: DB技術(shù),統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),高性能計(jì)算,模式識別,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)可視化,信息檢索,圖象與信號處理和空間數(shù)據(jù)分析。數(shù)據(jù)挖掘基本概念(續(xù)) 廣義觀點(diǎn): 數(shù)據(jù)挖掘是從存放在 DB, DW或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。 “從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如 : 數(shù)據(jù)挖掘 ( data mining) 知識提取 (knowledge extraction) 信息發(fā)現(xiàn) (information discovery) 信息收獲 (information harvesting) 數(shù)據(jù)考古 (data archaeology) 數(shù)據(jù)模式處理 (data pattern processing) “數(shù)據(jù)挖掘”的稱法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和 MIS團(tuán)體使用的,在數(shù)據(jù)庫領(lǐng)域也得到了廣泛接受。 數(shù)據(jù)挖掘的發(fā)展 70 80年代:知識發(fā)現(xiàn)與數(shù)據(jù)挖掘結(jié)合 1989年 6月:在美國底特律舉行了第一屆“ 從數(shù)據(jù)庫中 知識發(fā)現(xiàn)”的國際學(xué)術(shù)會議,在這次會議中第一次使用了 KDD 這個詞來強(qiáng)調(diào)“知識”是數(shù)據(jù)驅(qū)動 (data-driven)發(fā)現(xiàn)的最終結(jié)果。 1995:加拿大召開第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議 歷屆有關(guān) KDD的學(xué)術(shù)會議 時間 會議名稱 會議地點(diǎn) 接受論文數(shù) 提交 論文數(shù) Jun.1989 Workshop on KDD Detroit,Michigan,USA 29 69 Jul.1991 Workshop on KDD Anaheim,California, USA 25 46 Jul.1993 Workshop on KDD Washington,USA 28 40 1995 KDD95 Montreal,Canada 40 135 Aug.1996 KDD96 Portland,Oregon,USA 45 220 Feb.1997 PAKDD97 Singapore 35 97 Aug.1997 KDD97 California,USA Apr.1998 PAKDD98 Melbourne,Australia Aug.1998 KDD98 New York,USA 數(shù)據(jù)挖掘的發(fā)展 數(shù)據(jù)挖掘技術(shù)的應(yīng)用開發(fā)在國外已經(jīng)迅速發(fā)展,許多大公司(如 Informix, Oracle, IBM等)都投入了巨資對其進(jìn)行研究,并開發(fā)出了一些產(chǎn)品和原型,如 DBMiner、 Quest、 EXPLORA等。 第一本關(guān)于數(shù)據(jù)挖掘的國際學(xué)術(shù)雜志 Data Mining and Knowledge Discovery 于 1997年 3月創(chuàng)刊。 國內(nèi)在這方面的研究起步比較晚,早期研究的方向多集中于關(guān)聯(lián)規(guī)則的挖掘,近來關(guān)于時序模式、分類、聚類、 WEB數(shù)據(jù)挖掘等的研究也日益受到重視,并取得了不少可喜的成果,一些原型系統(tǒng)或數(shù)據(jù)挖掘工具已經(jīng)研制成功并在不斷完善中。 DM系統(tǒng)的體系結(jié)構(gòu) ( 1) DW 的步驟: 數(shù)據(jù)準(zhǔn)備: 數(shù)據(jù)集成 數(shù)據(jù)選擇 預(yù)分析 挖掘 表述 評價(jià) ( 2) DW 系統(tǒng)的結(jié)構(gòu): 用戶界面 結(jié)果輸出 數(shù)據(jù)挖掘核心 知識庫 數(shù)據(jù)倉庫 數(shù)據(jù)庫 文件系統(tǒng) 其他 數(shù)據(jù)源 ODBC或其他專用數(shù)據(jù)庫接口 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)挖掘系統(tǒng)可以采用三層的 C/S結(jié)構(gòu): 第一層:為圖形用戶界面,位于系統(tǒng)的客戶端; 第二層:為數(shù)據(jù)挖掘引擎,它是數(shù)據(jù)挖掘系統(tǒng)的核心,位于系統(tǒng)的應(yīng)用服務(wù)器端; 第三層:為數(shù)據(jù)庫與數(shù)據(jù)倉庫,位于數(shù)據(jù)服務(wù)器端。 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 圖形用戶界面 該模塊實(shí)現(xiàn)用戶與數(shù)據(jù)挖掘系統(tǒng)之間的通信,允許用戶與系統(tǒng)交互。用戶可以通過圖形化界面指定數(shù)據(jù)挖掘任務(wù)、輸入有關(guān)信息,根據(jù)系統(tǒng)以可視化形式輸出的數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式的數(shù)據(jù)挖掘。此外,該模塊還提供用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu)、評價(jià)數(shù)據(jù)挖掘的模式等功能。 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)挖掘引擎 數(shù)據(jù)挖掘引擎是數(shù)據(jù)挖掘系統(tǒng)最基本、最重要的部分,是數(shù)據(jù)挖掘系統(tǒng)的核心。該部分由一系列功能模塊組成,分別用于關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、時序與序列數(shù)據(jù)挖掘和WEB數(shù)據(jù)挖掘等。 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 數(shù)據(jù)庫與數(shù)據(jù)倉庫 該部分位于數(shù)據(jù)服務(wù)器端,包括數(shù)據(jù)庫、知識庫、文件系統(tǒng)、其他數(shù)據(jù)源以及存放經(jīng)過數(shù)據(jù)準(zhǔn)備提取和集成后數(shù)據(jù)的數(shù)據(jù)倉庫。在知識庫中存放領(lǐng)域知識,用于搜索和對模式進(jìn)行評價(jià)。 數(shù)據(jù)庫與數(shù)據(jù)倉庫服務(wù)器的功能是根據(jù)用戶的數(shù)據(jù)挖掘請求,提取相應(yīng)的數(shù)據(jù)供數(shù)據(jù)挖掘引擎使用。 數(shù)據(jù)挖掘概述 KDD定義 研究 選擇目標(biāo) 數(shù)據(jù) 數(shù)據(jù) 模式 應(yīng)用 問題域 數(shù)據(jù)集 預(yù)處理 挖掘 解釋與評價(jià) KDD步驟 數(shù)據(jù)準(zhǔn)備階段:經(jīng)過處理過的數(shù)據(jù)一般存儲在數(shù)據(jù)倉庫中。數(shù)據(jù)準(zhǔn)備是否做得充分將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。包括: 數(shù)據(jù)的選擇:選擇相關(guān)的數(shù)據(jù) 數(shù)據(jù)的凈化:消除噪音、冗余數(shù)據(jù) 數(shù)據(jù)的推測:推算缺失數(shù)據(jù) 數(shù)據(jù)的轉(zhuǎn)化:離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等 數(shù)據(jù)的縮減:減少數(shù)據(jù)量 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘的過程 挖掘階段:該階段是數(shù)據(jù)挖掘的核心步驟,也是技術(shù)難點(diǎn)所在。根據(jù)數(shù)據(jù)挖掘的目標(biāo),采用人工智能、集合論、統(tǒng)計(jì)學(xué)等方法,應(yīng)用相應(yīng)的數(shù)據(jù)挖掘算法,分析數(shù)據(jù)并通過可視化工具表述所獲得的模式或規(guī)則。 數(shù)據(jù)挖掘的過程 評價(jià)階段:在數(shù)據(jù)挖掘中得到的模式可能是沒有實(shí)際意義或沒有使用價(jià)值的,也有可能不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此需要評估,確定哪些是有效的、有用的模式。評估可以根據(jù)用戶多年的經(jīng)驗(yàn),有些模式也可以直接用數(shù)據(jù)來檢驗(yàn)其準(zhǔn)確性。 數(shù)據(jù)挖掘的過程 鞏固和運(yùn)用階段:用戶理解的、并被認(rèn)為是符合實(shí)際和有價(jià)值的模式形成了知識。同時還要對知識進(jìn)行一致性檢查,解決與以前得到的知識互相沖突、矛盾的地方,使知識得到鞏固。運(yùn)用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求運(yùn)用知識對新的數(shù)據(jù)進(jìn)行分析,由此可能產(chǎn)生新的問題,而需要對知識作進(jìn)一步的優(yōu)化。 數(shù)據(jù)挖掘的數(shù)據(jù)源 1.關(guān)系數(shù)據(jù)庫 2.數(shù)據(jù)倉庫 3.事務(wù)數(shù)據(jù)庫 數(shù)據(jù)挖掘的數(shù)據(jù)源(續(xù)) 空間數(shù)據(jù)庫 時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫 文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫 異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫 WWW 數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘任務(wù)分兩類: 描述式數(shù)據(jù)挖掘: 刻劃 DB中數(shù)據(jù)的一般特性。 預(yù)測式數(shù)據(jù)挖掘: 在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。 數(shù)據(jù)挖掘的功能(續(xù)) 數(shù)據(jù)挖掘系統(tǒng)應(yīng)具備: 能夠挖掘多種類型的模式 能夠發(fā)現(xiàn)各種粒度的模式 允許用戶給出指示,指導(dǎo)或聚焦有趣模式的搜索。 1. 總結(jié)規(guī)則挖掘 它所要做的是從指定的大量數(shù)據(jù)中挖掘出(從不同的角度或在不同的層次上)平均值 /極小值 /極大值、總和、百分比等。挖掘結(jié)果運(yùn)用交叉表、特征規(guī)則和統(tǒng)計(jì)的曲線圖表等表示。 2. 關(guān)聯(lián)規(guī)則挖掘 通過關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。即給定一組項(xiàng)和一個記錄集合,通過分析記錄集合,推導(dǎo)出項(xiàng)之間的相關(guān)性。 2. 關(guān)聯(lián)規(guī)則挖掘(續(xù)) 典型的例子:購物籃分析,該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣,通過了解哪些商品頻繁地被顧客同時購買,用于制定營銷政策。 3. 分類規(guī)則挖掘 在已知訓(xùn)練數(shù)據(jù)的特征和分類結(jié)果的基礎(chǔ)上,為每一種類別找到一個合理的描述或模型,然后再用這些分類的描述或模型來對未知的新數(shù)據(jù)進(jìn)行分類。 4. 群集規(guī)則挖掘 又稱為無監(jiān)督式的分類,其目的在于實(shí)事求是地、即客觀地按被處理對象的特征分類,有相同特征的對象被歸為一類。它與分類規(guī)則挖掘的區(qū)別在于:分類面向訓(xùn)練數(shù)據(jù),而群集則直接對數(shù)據(jù)進(jìn)行處理。 4. 群集規(guī)則挖掘(續(xù)) 在群集化作業(yè)中,我們并不需要事先定義好該如何分類,同時也不需要訓(xùn)練組的數(shù)據(jù),數(shù)據(jù)是依靠本身的相似性而群集在一起,而群集的意義也是要靠事后的解釋才能得知。 5. 預(yù)測分析 當(dāng)分類工作偏向于插入漏掉的數(shù)據(jù)、預(yù)測數(shù)據(jù)分類或發(fā)展的趨勢時,就是預(yù)測分析。 所有用來進(jìn)行分類及估計(jì)的技術(shù)都可以經(jīng)修正之后,通過已知變量數(shù)值的訓(xùn)練組數(shù)據(jù)來得到。 5. 預(yù)測分析(續(xù)) 其中歷史數(shù)據(jù)就是很好的數(shù)據(jù)來源。歷史數(shù)據(jù)可以用來建立模型,以檢查近年來觀察值的變化。若運(yùn)用最新數(shù)據(jù)作為輸入值,可以獲得未來變化的預(yù)測值。 5. 預(yù)測分析(續(xù)) 像 “ 購物籃 ” 分析,就可以預(yù)測在超市中哪些商品總是會被同時購買。而經(jīng)過修正后,也可以通過最新的更新數(shù)據(jù)來預(yù)測未來的購買行為。 6. 趨勢分析 又稱時間序列分析。描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。 7. 偏差分析 又稱比較分析,它找出一系列判別式的規(guī)則,以區(qū)別客戶設(shè)置的兩個不同類別。 8. 孤立點(diǎn)分析 DB中有些數(shù)據(jù),它們與大多數(shù)數(shù)據(jù)的一般行為或模型不一致,稱其為孤立點(diǎn),大部分挖掘方法將孤立點(diǎn)視為噪聲或異常而丟棄。而在一些應(yīng)用中,罕見事件可能比正常出現(xiàn)的更有意義。 數(shù)據(jù)挖掘分類 數(shù)據(jù)挖掘有幾種分類方法 1、根據(jù)挖掘的數(shù)據(jù)源類型分類 2、根據(jù)采用的挖掘技術(shù)分類 3、根據(jù)發(fā)現(xiàn)的知識類型分類 描述性挖掘 1、特征與比較描述 2、關(guān)聯(lián)規(guī)則挖掘 3、聚類分析 預(yù)測性挖掘 1、數(shù)據(jù)分類 2、數(shù)值預(yù)測 數(shù)據(jù)挖掘方法 數(shù)據(jù)挖掘的主要方法及其重點(diǎn)如下: 1.統(tǒng)計(jì)分析方法 統(tǒng)計(jì)分析方法主要用于完成知識總結(jié)和關(guān)系型知識挖掘。對關(guān)系表中各屬性進(jìn)行統(tǒng)計(jì)分析,找到它們之間存在的關(guān)系。 1. 統(tǒng)計(jì)分析方法(續(xù)) 在關(guān)系表的屬性間一般存在兩種關(guān)系: 函數(shù)關(guān)系 相關(guān)關(guān)系 但確定性關(guān)系和相關(guān)關(guān)系之間并沒有一道不可逾越的鴻溝。 1. 統(tǒng)計(jì)分析方法(續(xù)) 由于有測量誤差等原因,確定性關(guān)系實(shí)際上往往通過相關(guān)關(guān)系呈現(xiàn)出來;當(dāng)事物內(nèi)部規(guī)律被得到了解時,相關(guān)關(guān)系又可能轉(zhuǎn)化為確定性關(guān)系。 對它們可采用回歸分析,相關(guān)分析,主成分分析等方法。 2. 決策樹 決策樹可用于分類,利用信息論中的信息增益尋找 DB中具有最大信息量的字節(jié),建立決策樹的一個結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支。在每個分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,便生成一棵決策樹。 2. 決策樹(續(xù)) 然后還要對決策樹進(jìn)行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則。運(yùn)用這些規(guī)則,可以對新事例進(jìn)行分類。 典型的決策樹方法有:分類回歸樹,ID3、 C4.5、卡方自動歸納法、卡方自動互動偵測器等。 2. 決策樹(續(xù)) 決策樹可應(yīng)用在監(jiān)督式數(shù)據(jù)挖掘上,尤其是數(shù)據(jù)分類。它們能夠?qū)⒂?xùn)練模塊的記錄區(qū)分為獨(dú)立的子群,而其中子群都有自己的規(guī)律。 3. 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)用于分類、群集、特征挖掘、預(yù)測和模式識別。 人工神經(jīng)網(wǎng)絡(luò)仿真生物神經(jīng)網(wǎng)絡(luò),本質(zhì)上是一個分散型或矩陣結(jié)構(gòu),它通過對訓(xùn)練數(shù)據(jù)的挖掘,逐步計(jì)算網(wǎng)絡(luò)連接的加權(quán)值。人工神經(jīng)網(wǎng)絡(luò)可分為下列三種: 3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù)) 前饋式網(wǎng)絡(luò) 它以感應(yīng)機(jī)、逆向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測及模式識別等方面。 3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù)) 反饋式網(wǎng)絡(luò) 它以 Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和最優(yōu)化計(jì)算。 自組織型網(wǎng)絡(luò) 它以 ART模型、 Koholon模型為代表,用于群集。 3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù)) 人工神經(jīng)網(wǎng)絡(luò)具有分散型或儲存信息、平行處理信息和進(jìn)行推理、自我組織和自我學(xué)習(xí)等特點(diǎn),解決了眾多以往方法很難解決的問題。 3. 人工神經(jīng)網(wǎng)絡(luò)(續(xù)) 它在多數(shù)應(yīng)用中可以從訓(xùn)練數(shù)據(jù)組中學(xué)習(xí),并產(chǎn)生歸類和預(yù)測的模型。它也可以通過自我組織圖和相關(guān)結(jié)構(gòu),應(yīng)用于非監(jiān)督或數(shù)據(jù)挖掘和時間原則分析,其新的應(yīng)用及結(jié)構(gòu)正在快速增加中。 4. 基因算法 基因算法用于分類、關(guān)系型規(guī)則挖掘等?;蛩惴7氯斯みx擇培育良種的思路,從一個初始規(guī)則集合開始,逐代地通過交換對象成員產(chǎn)生群體,評估并擇優(yōu)復(fù)制,優(yōu)勝劣敗,逐代積累計(jì)算,最終得到最優(yōu)化的知識集。 5. 粗糙集 粗糙集用于數(shù)據(jù)簡化、數(shù)據(jù)意義評估、對象相似性或共性分析、因果關(guān)系及范式挖掘等。粗糙集理論由 Z. Pawlak在 20世紀(jì) 80年代提出,用于處理不確定性。其主要思路如下: 5. 粗糙集(續(xù)) 把對象的屬性分為條件屬性和決策屬性,按各個屬性值相同劃分成等價(jià)類。條件屬性上的等價(jià)類 E與決策屬性上的等價(jià)類Y之間有三種情況 : (1)下近似 Y包含 E; 5. 粗糙集(續(xù)) (2)上近似 Y和 E的交集并非空集合; (3)無關(guān) Y和 E的交集為空集合。 對下近似建立確定性規(guī)則,對上近似建立不確定性規(guī)則(含可信度),而無關(guān)情況下不存在規(guī)則。 6. 聯(lián)機(jī)分析處理技術(shù) 用具體圖形將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,使客戶能交互式地分析數(shù)據(jù)的關(guān)系,而 OLAP技術(shù)將人的觀察力和智力融入挖掘系統(tǒng)中,極大地改善了系統(tǒng)挖掘的速度和深度。 6. 聯(lián)機(jī)分析處理技術(shù)(續(xù)) “聯(lián)機(jī)分析處理系統(tǒng)”是以多維數(shù)據(jù)庫為基礎(chǔ)。多維數(shù)據(jù)庫是數(shù)據(jù)的典型代表,使得用戶能深入數(shù)據(jù)內(nèi)涵,了解重要的結(jié)論,它對數(shù)據(jù)轉(zhuǎn)化成信息或知識非常有幫助。 數(shù)據(jù)挖掘系統(tǒng) 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu) 圖形用戶界面 模式解釋與評價(jià) 數(shù)據(jù)挖掘引擎 數(shù)據(jù)源服務(wù)器 數(shù)據(jù)源 知識庫 數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì) 1、數(shù)據(jù)挖掘系統(tǒng)怎樣與數(shù)據(jù)源集成 2、數(shù)據(jù)挖掘系統(tǒng)怎樣指定目標(biāo)數(shù)據(jù)集 3、數(shù)據(jù)挖掘系統(tǒng)怎樣指定數(shù)據(jù)挖掘任務(wù) 4、數(shù)據(jù)挖掘系統(tǒng)怎樣解釋與評價(jià)模式 5、數(shù)據(jù)挖掘系統(tǒng)怎樣利用領(lǐng)域知識 6、數(shù)據(jù)挖掘系統(tǒng)怎樣提交知識 數(shù)據(jù)挖掘系統(tǒng)的發(fā)展 代 集成 算法 數(shù)據(jù)模型 數(shù)據(jù)處理 計(jì)算模型 代表 第一代 獨(dú)立系統(tǒng) 支持一個或幾個算法 支持向量數(shù)據(jù) 支持能夠一次調(diào)入內(nèi)存的數(shù)據(jù) 單機(jī) CART 第二代 集成數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫與數(shù)據(jù)倉庫 支持多個算法 支持文本、媒體、對象數(shù)據(jù) 支持不能一次調(diào)入內(nèi)存的大量、復(fù)雜數(shù)據(jù) 同質(zhì)、局部計(jì)算機(jī)群 DBMiner 第三代 集成語言模型系統(tǒng) 支持多個算法 支持半結(jié)構(gòu)化、Web數(shù)據(jù) 支持分布、異質(zhì)的數(shù)據(jù) Intranet/Extranet Clementine 第四代 集成移動等各種信息系統(tǒng) 支持多個算法 支持普遍存在的數(shù)據(jù)模型 支持移動等各種類型數(shù)據(jù) 移動等各種計(jì)算設(shè)備 數(shù)據(jù)挖掘的應(yīng)用 1.企業(yè)界的數(shù)據(jù)挖掘 直效行銷 顧客關(guān)系管理 交叉銷售 信用評估 財(cái)務(wù)預(yù)測 2. 針對金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造 DW 貸款償還預(yù)測和客戶信用政策分析(特征選擇和屬性相關(guān)性計(jì)算) 2. 針對金融數(shù)據(jù)分析的數(shù)據(jù)挖掘 (續(xù) ) 對目標(biāo)市場客戶的分類與聚類 洗黑錢和其他金融犯罪的偵破(可視化工具 ,鏈接分析工具 ,分類工具 ,聚類分析 ,孤立點(diǎn)分析 ,序列模式分析) 3. 零售業(yè)中的數(shù)據(jù)挖掘 基于數(shù)據(jù)挖掘的 DW的設(shè)計(jì)與構(gòu)造 銷售、顧客、產(chǎn)品、時間和地區(qū)的多維分析 促銷活動的有效性分析(多維分析,關(guān)聯(lián)分析) 3. 零售業(yè)中的數(shù)據(jù)挖掘 (續(xù) ) 顧客保持力 顧客忠誠分析(序列模式分析) 購買推薦和商品參照(關(guān)聯(lián)分析) 4. 電信業(yè)中的數(shù)據(jù)挖掘 電信數(shù)據(jù)的多維分析 盜用模式分析和異常模式識別 (多維分析,聚類分析,孤立點(diǎn)分析) 多維關(guān)聯(lián)和序列模式分析 電信數(shù)據(jù)分析中 可視化工具的使用 數(shù)據(jù)預(yù)處理 數(shù)據(jù)清理 消除不完整 使用全局常量填充 使用屬性平均值填充 使用相同類的屬性平均值填充 使用最可能的值填充 消除噪聲 通過平滑數(shù)據(jù)消除噪聲 通過識別孤立點(diǎn)消除噪聲 消除不一致 通過元數(shù)據(jù)消除不一致 數(shù)據(jù)集成 在數(shù)據(jù)集成時,有許多問題需要考慮 冗余:一個屬性是冗余的,如果它能由另外的屬性導(dǎo)出,如年薪。 有些冗余可以被相關(guān)分析檢測到 重復(fù) 沖突檢測和處理 BABAnBBAAr)1()(, 數(shù)據(jù)變換 最小 -最大規(guī)格化 零 -均值規(guī)格化 小數(shù)定標(biāo)規(guī)格化 數(shù)據(jù)規(guī)約 屬性規(guī)約 數(shù)據(jù)規(guī)約 記錄規(guī)約 給定關(guān)系表、各個屬性的概念層次樹及屬性閾值 步驟 根據(jù)屬性 A的概念層次樹,將關(guān)系表中 A的屬性值轉(zhuǎn)換為最底層的相應(yīng)概念 統(tǒng)計(jì)關(guān)系表中 A的不同葉概念個數(shù),如果 A的不同葉概念個數(shù)大于 A的屬性閾值,再根據(jù) A的概念層次樹,將關(guān)系表中 A的葉概念轉(zhuǎn)換為上一層的相應(yīng)概念 如此重復(fù),直至關(guān)系表中 A的不同概念個數(shù)小于等于 A的屬性閾值 最后合并相同記錄,并統(tǒng)計(jì)重復(fù)記錄書目。 地名 氣溫 玉溪 18 通海 18 五華 17 安寧 16 曲靖 15 宣威 14 云南省 玉溪地區(qū) 曲靖地區(qū) 昆明市 玉溪市 通海縣 五華區(qū) 安寧市 宣威市 曲靖市 -4040 -400 040 -40-20 -200 2040 020 地名 氣溫 count 玉溪地區(qū) 10-20 2 昆明市 10-20 2 曲靖地區(qū) 10-20 2 屬性概念分層的自動生成 離散屬性概念分層的自動生成 概念層次樹中高層的概念個數(shù)一般少于低層的概念個數(shù) 統(tǒng)計(jì)屬性不同值的個數(shù) 得到概念層次樹結(jié)構(gòu),也稱模式定義的概念分層 得到屬性的概念層次樹 例如:“地址”屬性 連續(xù)屬性概念分層的自動生成 例如:“氣溫”屬性,取值區(qū)間是 【 -100, 100】 ,在區(qū)間上的屬性值及記錄數(shù),如何生成屬性的概念層次樹 基于熵的離散化技術(shù) 屬性值 -3 6 18 22 26 記錄數(shù) 6 9 36 28 21 信息理論( Information Theory)和熵( Entropy) 1948年,香農(nóng)( C. E. Shannon)提出了信息論。 信息論的發(fā)展是以信息可以度量為基礎(chǔ)的,度量信息的量稱為信息量。 給出了關(guān)于信息量( Information)和熵( Entropy)的定義,熵實(shí)際上是系統(tǒng)信息量的加權(quán)平均,也就是系統(tǒng)的平均信息量。 擲骰子可表示為: 616161621)( XPX而某一天簡單的天氣氣象則可表示為: 81814121)(x)(x)(x)(x)X(PX 4321雪雨陰晴根據(jù)香農(nóng)信息的概念,消息中所包含的不確定性的成分才是信息,不確定性的成分越大,或者說出現(xiàn)的概率越小,信息量就越大 如果將信源輸出 xi 所包含的信息量用I(xi)來表示,則其必須滿足的條件是: I(xi)與輸出 xi的概率相關(guān); I(xi)是 P(xi)的減函數(shù),且當(dāng) P(xi) =1時 I(xi) =0 。 I(xi)是 P(xi)的連續(xù)函數(shù); 因此, xi 的信息量的定義為: )(lo g)( ixi xPxI 當(dāng)對數(shù)底為 2時,自信息量的單位為比特(bit,binary unit);對數(shù)底為 e時,其單位為奈特 (nat,nature unit);對數(shù)底為 10時,其單位為哈特 (Hart, Hartley)。 目前的通信系統(tǒng)或其他信息傳輸系統(tǒng)大多以二進(jìn)制為基礎(chǔ),因此信息量的單位以 bit最為常用。 )(lo g)( ii xPxI 以 bit為單位的信息量可記為: 信息量的性質(zhì) I(xi)是非負(fù)值; ),0)(l o g)(0,()(l o g1,0)(iiiixPxIxPxP故 I(xi)是隨機(jī)量; I(xi)是 P(xi)的單調(diào)遞減函數(shù)。 0)(l og)( l n)()(l og)()()(1,0)(iiiiiiiixPexPxdPdl bexPxdPdxdPxdIxP例 1,求擲骰子這一信源發(fā)出各種消息所包含的信息量。 解: 該信源的數(shù)學(xué)模型為 )(585.26l o g61l o g)1(l o g)1( b i tPI 616161621)X(PX)(585.2)1()6()5()4()3()2(b i tIIIIII同理,解: 該信源的數(shù)學(xué)模型為: 81814121)(x)(x)(x)(x)X(PX 4321雪雨陰晴例 2,求某一天簡單的天氣氣象這一信源發(fā)出各種消息所包含的信息量。 )(12l o g21l o g)(l o g)( 11 b i txPxI )(24l o g41l o g)(l o g)( 22 b i txPxI )(38l o g81l o g)(l o g)( 33 b i txPxI )(38l o g81l o g)(l o g)( 44 b i txPxI 在布袋中放入 81枚硬幣 ,它們外形完全相同 .已知有一枚硬幣的重量與其他 80枚重量不同 .問隨意取出的一枚恰好是重量不同的一枚硬幣 ,并進(jìn)一步確定它比其他硬幣重還是輕所需要的信息量是多少 ? 信息理論( Information Theory)和熵( Entropy) 考慮一個任意的變量,它有兩個不同的值 A和 B。假設(shè)已知這個變量不同值的概率分配,將估測該概率分配的不純度。 情況 1 .如果 P( A) = 1 和 P( B) = 0,那么知道這個變量的值一定為 A,不存在不純度,因此已知變量結(jié)果值不會帶來任何的信息。 情況 2 .如果 P( A) = P( B) = 0.5,那么它的不純度明顯地高于 P( A) = 0.1和 P( B) =0.9的情況。在這種情況下,已知變量的結(jié)果值就會攜帶信息。 不純度的最佳評估方法是平均信息量,也就是信息熵( Entropy): S = - (pi * log(Pi) 在上面的例子中,情況 1和情況 2的信息熵分別是: S1 = - ( 1 * log 1 + 0 * log 0) = 0 S2 = - ( 0.5 * log 0.5 +
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)大三(應(yīng)急技術(shù)與管理)應(yīng)急演練組織試題及答案
- 2025年中職(寵物醫(yī)療技術(shù))寵物疾病診療試題及答案
- 2025年大學(xué)大一(機(jī)械電子工程)機(jī)械設(shè)計(jì)基礎(chǔ)試題及答案
- 2025年中職(市場營銷)產(chǎn)品推銷技巧階段測試試題及答案
- 2026年注冊土木工程師(水工結(jié)構(gòu))(專業(yè)知識考試上)試題及答案
- 2025年大學(xué)大三(生態(tài)學(xué))海洋生態(tài)學(xué)階段測試題及答案
- 2025年大學(xué)二年級(建筑工程技術(shù))工程合同管理試題及答案
- 2025年高職建筑工程技術(shù)(建筑工程質(zhì)量驗(yàn)收)試題及答案
- 2025年高職第一學(xué)年(小學(xué)教育)心理學(xué)強(qiáng)化試題及答案
- 2025年大學(xué)漢語言文學(xué)(古代文學(xué)基礎(chǔ))試題及答案
- JB-QGL-TX3016AJB-QTL-TX3016A火災(zāi)報(bào)警控制器安裝使用說明書
- 機(jī)械原理發(fā)展史總結(jié)
- 如何做好信訪工作
- 譯林 英語 五年級下冊 電子課本
- 四川省廣安市武勝縣+2023-2024學(xué)年九年級上學(xué)期期末考試道德與法治試題
- 北京市海淀區(qū)衛(wèi)生學(xué)校招聘真題
- 鋼筋焊接施工安全技術(shù)交底
- 銷售授權(quán)書模板
- 2021年10月全國自學(xué)考試00265西方法律思想史試題答案
- 2023年關(guān)于寧波市鄞州糧食收儲有限公司公開招聘工作人員筆試的通知筆試備考題庫及答案解析
- 經(jīng)典離騷公開課
評論
0/150
提交評論