版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘信息管理與工程學(xué)院,教材信息:數(shù)據(jù)挖掘原理與算法 毛國君,段立娟,王實,石云 清華大學(xué)出版社,2007,本課程的一些約定:,1、課程目的:拓寬與加深專業(yè)知識 2、注重平時學(xué)習(xí) 作業(yè)按時完成 未按時為晚交 一周內(nèi)未交視為放棄 作業(yè)按規(guī)定要求完成 教科書:不可或缺 不允許抄襲 但鼓勵討論 3、無遲到、缺席、手機等,什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的? 什么是數(shù)據(jù)挖掘? 在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘功能可以挖掘什么類型的模式 所有模式都是有趣的嗎? 數(shù)據(jù)挖掘系統(tǒng)的分類 數(shù)據(jù)挖掘的主要問題,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖
2、掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘技術(shù)的商業(yè)需求分析,隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍和深度不斷擴大,網(wǎng)絡(luò)環(huán)境成為主流等等。產(chǎn)生“數(shù)據(jù)豐富而信息貧乏(Data Rich & Information Poor)”現(xiàn)象。 在強大的商業(yè)需求的驅(qū)動下,商家們開始注意到有效地解決大容量數(shù)據(jù)的利用問題具有巨大的商機;學(xué)者們開始思考如何從大容量數(shù)據(jù)集中獲取有用信息和知識的方法。 隨著信息技術(shù)的高速發(fā)展,人們希望能夠提供更高層次的數(shù)據(jù)處理功能。新的需求推動新的技術(shù)的誕生。 數(shù)據(jù)(Da
3、ta)、信息(Information)和知識(Knowledge)是廣義數(shù)據(jù)表現(xiàn)的不同形式。,數(shù)據(jù)、信息和知識,data,information,knowledge,數(shù)據(jù)挖掘產(chǎn)生的技術(shù)背景,數(shù)據(jù)挖掘是相關(guān)學(xué)科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的。 主要的相關(guān)技術(shù): 數(shù)據(jù)庫、數(shù)據(jù)倉庫和Internet等信息技術(shù)的發(fā)展 計算機性能的提高和先進的體系結(jié)構(gòu)的發(fā)展 統(tǒng)計學(xué)和人工智能等方法在數(shù)據(jù)分析中的研究和應(yīng)用,數(shù)據(jù)挖掘是一個多學(xué)科交叉技術(shù),Data Mining,Database Technology,Statistics,Other Disciplines,Information Science,AI /
4、Machine Learning,Visualization,數(shù)據(jù)庫系統(tǒng)的發(fā)展,60年代:簡單文件處理系統(tǒng)向數(shù)據(jù)庫系統(tǒng)變革 。 70年代:層次、網(wǎng)絡(luò)和關(guān)系型數(shù)據(jù)庫普及。 80年代:RDBS及其相關(guān)工具、數(shù)據(jù)索引及數(shù)據(jù)組織技術(shù)被廣泛采用;中期開始,分布式數(shù)據(jù)庫廣發(fā)討論,關(guān)系數(shù)據(jù)庫技術(shù)和新型技術(shù)的結(jié)合。 90年代:數(shù)據(jù)庫領(lǐng)域中的新內(nèi)容、新應(yīng)用、新技術(shù)層出不窮,形成了龐大的數(shù)據(jù)庫家族;人們期望分析預(yù)測、決策支持等高級應(yīng)用, Data mining and data warehousing等出現(xiàn)。 本世紀開始: Data mining 得到理論/技術(shù)深化。,統(tǒng)計學(xué)的深入應(yīng)用,強大有效的數(shù)理統(tǒng)計方法和工
5、具,已成為信息咨詢業(yè)的基礎(chǔ) 。 統(tǒng)計分析技術(shù)是基于嚴格的數(shù)學(xué)理論和高超的應(yīng)用技巧的 。 數(shù)據(jù)挖掘技術(shù)是數(shù)理統(tǒng)計分析應(yīng)用的延伸和發(fā)展 。 和數(shù)據(jù)庫技術(shù)的結(jié)合性研究,人工智能技術(shù)的研究和應(yīng)用,人工智能是計算機科學(xué)研究中爭議最多而又仍始終保持強大生命的研究領(lǐng)域。 專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲,但是諸多難題限制了專家系統(tǒng)的應(yīng)用: 知識獲取成為專家系統(tǒng)研究中公認的瓶頸問題。 知識表示成為一大難題:知識工程師在整理表達從領(lǐng)域?qū)<夷抢铽@得的知識時勉強抽象出來的規(guī)則有很強的工藝色彩。 對常識和百科知識出奇地貧乏:人工智能學(xué)家Feigenbaum估計,一般人擁有的常識存入計算機大約有100萬條事實和抽
6、象經(jīng)驗法則,離開常識的專家系統(tǒng)有時會比傻子還傻。 數(shù)據(jù)挖掘繼承了專家系統(tǒng)的高度實用性特點,并且以數(shù)據(jù)為基本出發(fā)點,客觀地挖掘知識。 機器學(xué)習(xí)得到了充分的研究和發(fā)展:理論和算法。 數(shù)據(jù)挖掘研究在繼承已有的人工智能相關(guān)領(lǐng)域,特別是機器學(xué)習(xí)的研究成果的基礎(chǔ)上,成為新的研究分支。,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘處于研究和應(yīng)用探索階段,經(jīng)過十幾年的研究和實踐,數(shù)據(jù)挖掘技術(shù)已經(jīng)吸收了許多學(xué)科的最新
7、研究成果而形成獨具特色的研究分支。 大部分學(xué)者認為數(shù)據(jù)挖掘的研究仍然處于廣泛研究和探索階段: 一方面,數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受。 另一方面,數(shù)據(jù)挖掘的大面積應(yīng)用還有待時日。 隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來越大,數(shù)據(jù)挖掘的研究向著更深入和實用技術(shù)方向發(fā)展: 大學(xué)等研究機構(gòu)的大多數(shù)基礎(chǔ)性研究集中在數(shù)據(jù)挖掘理論、挖掘算法等的探討上。 公司的研究更注重和實際商業(yè)問題結(jié)合。 數(shù)據(jù)挖掘的經(jīng)濟價值已經(jīng)顯現(xiàn)出來:Gartner報告中列舉重要影響的五項關(guān)鍵技術(shù),其中KDD和人工智能排名第一。,數(shù)據(jù)挖掘研究聚焦點,數(shù)據(jù)挖掘在如下幾個方面需要重點開展工作: 數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題:數(shù)據(jù)挖
8、掘需要代表性的應(yīng)用實例來證明(像“啤酒與尿布” )。 數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲類型的適應(yīng)問題:不同的數(shù)據(jù)存儲方式會影響數(shù)據(jù)挖掘的具體實現(xiàn)機制、目標定位、技術(shù)有效性等。 大型數(shù)據(jù)的選擇與規(guī)格化問題: 數(shù)據(jù)的噪音、信息丟失等問題的處理; 針對特定挖掘方法進行數(shù)據(jù)規(guī)格化等問題。 數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技術(shù): 在具體的實現(xiàn)機制、技術(shù)路線以及各階段的功能定位等方面仍需細化和深入研究。 良好的交互式挖掘(Interaction Mining)也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。 數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題:可視化挖掘除了要和良好的交互式技術(shù)結(jié)合外,還必須在挖掘結(jié)果或過程的可視化進行探索和實踐。 數(shù)據(jù)
9、挖掘理論與算法研究 一方面,在已有的理論框架下有許多面向?qū)嶋H應(yīng)用目標的挖掘理論等待探索和創(chuàng)新。 另一方面,隨著數(shù)據(jù)挖掘技術(shù)本身和相關(guān)技術(shù)的發(fā)展,新的挖掘理論和算法的誕生是必然的。,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,從商業(yè)角度看數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘從本質(zhì)上說是一種新的商業(yè)信息處理技術(shù): 數(shù)據(jù)挖掘技術(shù)把人們對數(shù)據(jù)的應(yīng)用,從低層次的聯(lián)機查詢操作,提高到?jīng)Q策支持、分析預(yù)測等更高級應(yīng)用上。 通過對數(shù)據(jù)的統(tǒng)
10、計、分析、綜合和推理,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性、未來趨勢以及一般性的概括知識等,這些知識性的信息可以用來指導(dǎo)高級商務(wù)活動。 從決策、分析和預(yù)測等高級商業(yè)目的看,原始數(shù)據(jù)只是未被開采的礦山,需要挖掘和提煉才能獲得對商業(yè)目的有用的規(guī)律性知識。 從商業(yè)角度看,數(shù)據(jù)挖掘就是按企業(yè)的既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行深層次分析以揭示隱藏的、未知的規(guī)律性并將其模型化,從而支持商業(yè)決策活動。,數(shù)據(jù)挖掘的技術(shù)含義,數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD: Knowledge Discovery in Databases)是比數(shù)據(jù)挖掘出現(xiàn)更早的一個名詞。 KDD與Data Mining的關(guān)系,有不同的看法: KDD看成數(shù)據(jù)挖掘的
11、一個特例:這是早期比較流行的觀點,這種描述強調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。 數(shù)據(jù)挖掘是KDD的一個關(guān)鍵步驟:這種觀點得到大多數(shù)學(xué)者認同,有它的合理性。 KDD與Data Mining含義相同:事實上,在現(xiàn)今的許多場合,如技術(shù)綜述等,這兩個術(shù)語仍然不加區(qū)分地使用著。也有其他的說法: KDD在人工智能界更流行,而Data Mining在數(shù)據(jù)庫界使用更多。 在研究領(lǐng)域被稱作KDD,在工程領(lǐng)域則稱之為數(shù)據(jù)挖掘。,數(shù)據(jù)挖掘定義,數(shù)據(jù)挖掘定義有廣義和狹義之分。 從廣義的觀點,數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有
12、用的知識的過程。 從這種狹義的觀點上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識的過程。 下列技術(shù)不是數(shù)據(jù)挖掘: OLTP Expert systems Small ML Statistical programs,數(shù)據(jù)挖掘研究的理論基礎(chǔ),數(shù)據(jù)挖掘方法可以是基于數(shù)學(xué)理論的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。 從研究者可能是來自于數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、計算機科學(xué)以及其他方面的學(xué)者和工程技術(shù)人員,他們會從不同的視點進行探討性研究。 有下面一些重要的理論視點值得關(guān)注: 模式發(fā)現(xiàn)(Pattern Discovery)架構(gòu) 規(guī)則發(fā)現(xiàn)(Rule Discovery)架構(gòu) 基于概率
13、和統(tǒng)計理論 微觀經(jīng)濟學(xué)觀點(Microeconomic View) 基于數(shù)據(jù)壓縮(Data Compression)理論 基于歸納數(shù)據(jù)庫(Inductive Database)理論 可視化數(shù)據(jù)挖掘(Visual Data Mining) 等等,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,根據(jù)挖掘任務(wù),分類或預(yù)測模型發(fā)現(xiàn) 數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn) 關(guān)聯(lián)規(guī)則發(fā)現(xiàn) 序列模式發(fā)現(xiàn) 相似模式發(fā)現(xiàn) 混沌模式發(fā)現(xiàn) 依賴關(guān)系或依
14、賴模型發(fā)現(xiàn) 異常和趨勢發(fā)現(xiàn)等,根據(jù)挖掘?qū)ο?關(guān)系數(shù)據(jù)庫挖掘 面向?qū)ο髷?shù)據(jù)庫挖掘 空間數(shù)據(jù)庫挖掘 時態(tài)數(shù)據(jù)庫挖掘 文本數(shù)據(jù)源挖掘 多媒體數(shù)據(jù)庫挖掘 異質(zhì)數(shù)據(jù)庫挖掘 遺產(chǎn)數(shù)據(jù)庫挖掘 web數(shù)據(jù)挖掘等,根據(jù)挖掘方法,機器學(xué)習(xí)方法 統(tǒng)計方法 聚類分析方法 神經(jīng)網(wǎng)絡(luò)(Neural Network)方法 遺傳算法(Genetic Algorithm)方法 數(shù)據(jù)庫方法 近似推理和不確定性推理方法 基于證據(jù)理論和元模式的方法 現(xiàn)代數(shù)學(xué)分析方法 粗糙集(Rough Set)或模糊集方法 集成方法等,根據(jù)知識類型,挖掘廣義型知識 挖掘差異型知識 挖掘關(guān)聯(lián)型知識 挖掘預(yù)測型知識 挖掘偏離型(異常)知識 挖掘不確定性
15、知識等,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,知識表示模式分類,數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)知識,知識要通過一定的模式給出。通過對數(shù)據(jù)挖掘中知識表示模式及其所采用方法的分析,可以更清楚地了解數(shù)據(jù)挖掘系統(tǒng)的特點。 主要知識模式類型有: 廣義知識(Generalization) 關(guān)聯(lián)知識(Association) 類知識(Class/Cluster) 預(yù)測型知識(Prediction) 特異型知識(Excepti
16、on),廣義知識挖掘,廣義知識是指描述類別特征的概括性知識。這類數(shù)據(jù)挖掘系統(tǒng)是對細節(jié)數(shù)據(jù)的所蘊涵的概念特征信息的概括和抽象的過程。 主要方法有: 概念描述(Concept Description)方法:概念描述本質(zhì)上就是對某類對象的內(nèi)涵特征進行概括: 特征性(Characterization)描述:描述某類對象的共同特征。 區(qū)別性(Discrimination)描述:描述不同類對象之間的區(qū)別。 多維數(shù)據(jù)分析可以看作是一種廣義知識挖掘的特例 多層次概念描述問題:由數(shù)據(jù)歸納出的概念是有層次的,不同層次的概念是對原始數(shù)據(jù)的不同粒度上的概念抽象。例如, “北京工業(yè)大學(xué)”能歸納出“北京市”、“中國”、“
17、亞洲”等層次。 銷售表SALES(ENO,ENAME,EAGE,VALUE,DEPT),它的每個屬性的定義域都可能存在蘊涵于領(lǐng)域知識內(nèi)的概念延伸。例如,DEPT能歸納出公司COMPANY、城市CITY或國家COUNTRY等層次 概念分層(Concept Hierarchy)技術(shù):將低層概念集映射到高層概念集的方法,是一個常用的處理多層次概念描述的方法。,主要的概念分層方法,模式分層(Schema Hierarchy):利用屬性在特定背景知識下的語義層次形成不同層次的模式關(guān)聯(lián)。 這種關(guān)聯(lián)是一種的全序或偏序關(guān)系。 例如,DEPT的模式分層結(jié)構(gòu)可能是:DEPTCOMPANYCITYCOUNTRY。
18、集合分組分層(Set-Grouping Hierarchy):將屬性在特定背景知識下的取值范圍合理分割,形成替代的離散值或區(qū)間集合。 例如,年齡EAGE可以抽象成20,29,30,39,40,49,50,59或者青年,中年,老年 。 操作導(dǎo)出分層(Operation-Drived Hierarchy):有些屬性可能包含多類信息。 例如,一個跨國公司的雇員號可能包含這個雇員的所在的部門、城市、國家和雇傭的時間等。對這類對象可以作為背景知識定義它的結(jié)構(gòu),通過編碼解析等操作完成概念的抽象。 基于規(guī)則分層(Rule-Based Hierarchy):通過定義背景知識的抽象規(guī)則,形成不同層次上的概念的抽
19、象。,關(guān)聯(lián)知識挖掘,關(guān)聯(lián)知識挖掘的目的就是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)信息。 關(guān)聯(lián)知識反映一個事件和其他事件之間的依賴或關(guān)聯(lián)。 關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序(Time Series)關(guān)聯(lián)、因果關(guān)聯(lián)、數(shù)量關(guān)聯(lián)等。 從廣義上講,關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì)。 關(guān)聯(lián)規(guī)則挖掘(Association Rule Mining)是關(guān)聯(lián)知識發(fā)現(xiàn)的最常用方法: 關(guān)聯(lián)規(guī)則的研究最早的分支之一,最著名的Apriori算法。 是數(shù)據(jù)挖掘研究中比較深入的分支,許多關(guān)聯(lián)規(guī)則挖掘的理論和算法已經(jīng)被提出。,類知識挖掘,類知識(Class)刻畫了一類事物,這類事物具有某種意義上的共同特征,并明顯和不同類事物相區(qū)別。 有兩個基本的方法來挖掘
20、類知識: 分類:分類是數(shù)據(jù)挖掘中的一個重要的目標和任務(wù),是目前的研究和應(yīng)用最多的分支之一。 分類的目的是學(xué)會一個分類模型(稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中。 分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí)(Supervised Learning),即每個訓(xùn)練樣本的數(shù)據(jù)對象已經(jīng)有類標識,通過學(xué)習(xí)可以形成表達數(shù)據(jù)對象與類標識間對應(yīng)的知識。 聚類:數(shù)據(jù)挖掘的目標之一是進行聚類分析。 聚類是把一組個體按照相似性歸成若干類別,它的目的是使得屬于同一類別的個體之間的差別盡可能的小,而不同類別上的個體間的差別盡可能的大。 聚類屬于無指導(dǎo)學(xué)習(xí)(Unsupervised Learning) ),當(dāng)一組數(shù)據(jù)對
21、象可以由一個概念(區(qū)別于其他的概念)來描述時,就形成一個簇(Cluster)。刻畫了數(shù)據(jù)所蘊涵的類知識。,分類中的基礎(chǔ)方法,決策樹方法:基本的分類技術(shù)之一,如ID3及其改進算法ID4、ID5、C4.5、C5.0等;針對大訓(xùn)練樣本集的SLIQ、SPRINT、雨林(Rainforest)BOAT等算法。 貝葉斯分類 :具有堅實的理論基礎(chǔ),理論上具有較小的出錯率。但是,它的適應(yīng)性差。 神經(jīng)網(wǎng)絡(luò):作為一個相對獨立的研究分支已經(jīng)很早被提出,具有高度的抗干擾能力和可以對未訓(xùn)練數(shù)據(jù)進行分類等優(yōu)點,因此產(chǎn)生了神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)挖掘技術(shù)的結(jié)合性研究。 遺傳算法:是基于進化理論的機器學(xué)習(xí)方法。 類比學(xué)習(xí) :最典型的方
22、法是k-最臨近分類(k-Nearest Neighbor Classification)方法,它屬于懶散學(xué)習(xí)法。 其他方法:如粗糙集(Rough Set)、模糊集(Fuzzy Set)方法等 。,主要聚類的技術(shù),基于劃分的聚類方法:k-平均算法是統(tǒng)計學(xué)中的一個經(jīng)典聚類方法,它以預(yù)先定義好的簇平均值,構(gòu)造劃分,評價和選擇他們。 基于層次的聚類方法:通過對源數(shù)據(jù)庫中的數(shù)據(jù)進行層次分解,達到目標簇的逐步生成。 凝聚(Agglomeration):由小到大逐步合并、評價。 分裂(Division)由大到小逐步分裂、評價。 基于密度的聚類方法:基于密度的聚類方法是通過度量區(qū)域所包含的對象數(shù)目來形成最終目
23、標的。 如果一個區(qū)域的密度超過指定的值,那么它就需要進一步分解。 基于網(wǎng)格的聚類方法:對象空間離散化成有限的網(wǎng)格單元,聚類工作在這種網(wǎng)格結(jié)構(gòu)上進行。 基于模型的聚類方法:每個簇假定一個模型,尋找數(shù)據(jù)對給定模型的最佳擬和。,預(yù)測型知識挖掘,預(yù)測型知識(Prediction)是指由歷史的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的知識。 預(yù)測性挖掘主要是對未來數(shù)據(jù)的概念分類和趨勢輸出。 分類技術(shù)可以用于產(chǎn)生預(yù)測型的類知識。 統(tǒng)計學(xué)中的回歸方法等可以通過歷史數(shù)據(jù)直接產(chǎn)生對未來數(shù)據(jù)預(yù)測的連續(xù)值,因而這些預(yù)測型知識已經(jīng)蘊藏在諸如趨勢曲線等輸出形式中。 預(yù)測型知識的挖掘可以結(jié)合經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)等技術(shù)
24、來研究。,預(yù)測型知識挖掘中的典型方法,趨勢預(yù)測模式:主要是針對那些具有時序(Time Series)屬性的數(shù)據(jù),如股票價格等,或者是序列項目(Sequence Items)的數(shù)據(jù),如年齡和薪水對照等,發(fā)現(xiàn)長期的趨勢變化等。 周期分析模式:主要是針對那些數(shù)據(jù)分布和時間的依賴性很強的數(shù)據(jù)進行周期模式的挖掘。例如,服裝在某季節(jié)或所有季節(jié)的銷售周期。 序列模式:主要是針對歷史事件發(fā)生次序的分析形成預(yù)測模式來對未來行為進行預(yù)測。例如,預(yù)測“三年前購買計算機的客戶有很大概率會買數(shù)字相機”。 神經(jīng)網(wǎng)絡(luò):在預(yù)測型知識挖掘中,神經(jīng)網(wǎng)絡(luò)也是很有用的模式結(jié)構(gòu)。,特異型知識挖掘,特異型知識(Exception)是源數(shù)
25、據(jù)中所蘊涵的極端特例或明顯區(qū)別于其他數(shù)據(jù)的知識描述,它揭示了事物偏離常規(guī)的異常規(guī)律。 特異知識挖掘的價值: 例如,在Web站點發(fā)現(xiàn)那些區(qū)別于正常登錄行為的用戶特點可以防止非法入侵。 金融、電信欺詐等 分類中的反常實例、不滿足普通規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、數(shù)據(jù)聚類外的離群值等,特異型知識挖掘的任務(wù)和方法,許多技術(shù)可以擴展到特異型知識挖掘中,如: 孤立點(Outlier)分析:孤立點是指不符合數(shù)據(jù)的一般模型的數(shù)據(jù)。在類知識挖掘中,孤立點分析是不能歸入正常類知識中的零散數(shù)據(jù)的再分析。 異常序列分析:在一系列行為或事件對應(yīng)的序列中發(fā)現(xiàn)明顯不符合一般規(guī)律的特異型知識。 特異規(guī)則發(fā)現(xiàn):產(chǎn)生并
26、評價雖然具有低支持度但可能很有價值的規(guī)則。,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘方法與數(shù)據(jù)存儲類型,數(shù)據(jù)挖掘技術(shù)應(yīng)該應(yīng)用到任何數(shù)據(jù)存儲方式的知識挖掘中,但是因為源數(shù)據(jù)的存儲類型的不同,挖掘的挑戰(zhàn)性和技術(shù)會不同。 近年來的研究表明數(shù)據(jù)挖掘所涉及的數(shù)據(jù)存儲類型越來越豐富,除了一些有通用價值的模型、構(gòu)架等研究外,也開展了一些針對復(fù)雜或新型數(shù)據(jù)存儲方式下的挖掘技術(shù)或算法的研究。 主要的數(shù)據(jù)類型: 事
27、務(wù)數(shù)據(jù)庫(Transactional Database ) 關(guān)系型數(shù)據(jù)庫 (Related Database ) 數(shù)據(jù)倉庫(Data Warehouse ) 在關(guān)系模型基礎(chǔ)上發(fā)展的新型數(shù)據(jù)庫 面向應(yīng)用的新型數(shù)據(jù)源 Web數(shù)據(jù),事務(wù)數(shù)據(jù)庫中的數(shù)據(jù)挖掘,一個事務(wù)數(shù)據(jù)庫是對事務(wù)型數(shù)據(jù)的收集。1993年,當(dāng)Agrawal等開始討論數(shù)據(jù)挖掘問題時,是以購物籃分析(Market Basket Analysis)作為商業(yè)應(yīng)用背景的。 從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)知識是數(shù)據(jù)挖掘中研究較早但至今仍然很活躍的問題。通過特定的技術(shù)對事務(wù)數(shù)據(jù)庫進行挖掘,可以獲得動態(tài)行為所蘊藏的關(guān)聯(lián)規(guī)則、分類、聚類以及預(yù)測等知識模式。 第三章將
28、詳細講解,關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)挖掘,關(guān)系型數(shù)據(jù)庫是由一系列數(shù)據(jù)表組成的,相當(dāng)成熟: 成熟的語義模型(像實體-關(guān)系模型);成熟的DBMS(像Oracle) 成熟的查詢語言(像SQL語言;可視化的輔助工具和優(yōu)化軟件。 一些更深入和亟待解決的問題: 多維知識挖掘: 傳統(tǒng)的事務(wù)數(shù)據(jù)庫挖掘所研究的知識一般是單維(Single-Demension)的,但是,在關(guān)系型數(shù)據(jù)庫中,多維的知識更普遍和有應(yīng)用價值。 單維: “購買計算機的人也購買打印機”。 多維: “什么樣購買計算機的人也購買打印機的可能性更大?” 。 多表挖掘:關(guān)系型數(shù)據(jù)庫是一系列表的集合。因此,多表挖掘是必然的。 數(shù)量數(shù)據(jù)挖掘: 關(guān)系型數(shù)據(jù)庫經(jīng)
29、常包含非離散數(shù)量屬性(如工資)。 多層知識挖掘:數(shù)據(jù)及其關(guān)聯(lián)總是可在多個不同的概念層上來理解它。 知識評價問題:對傳統(tǒng)的數(shù)據(jù)挖掘框架的知識評價問題,也是關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)挖掘走向?qū)嶋H應(yīng)用必須要解決的問題。 約束數(shù)據(jù)挖掘問題:數(shù)據(jù)挖掘系統(tǒng)在用戶的約束指導(dǎo)下進行,可以提高挖掘效率和準確度。,數(shù)據(jù)倉庫中的數(shù)據(jù)挖掘,數(shù)據(jù)倉庫中的數(shù)據(jù)是按著主題來組織的。存儲的數(shù)據(jù)可以從歷史的觀點提供信息。雖然目前的一些數(shù)據(jù)倉庫輔助工具可以幫助完成數(shù)據(jù)分析,但是發(fā)現(xiàn)蘊藏在數(shù)據(jù)內(nèi)部的知識模式及其按知識工程方法來完成高層次的工作仍需要數(shù)據(jù)挖掘技術(shù)支持。 數(shù)據(jù)挖掘不僅伴隨數(shù)據(jù)倉庫而產(chǎn)生,而且隨著應(yīng)用深入產(chǎn)生了許多新的課題。 如
30、果我們把數(shù)據(jù)挖掘作為高級數(shù)據(jù)分析手段來看,那么它是伴隨數(shù)據(jù)倉庫技術(shù)提出并發(fā)展起來的。 OLAP盡管在許多方面和數(shù)據(jù)挖掘是有區(qū)別的,但是它們在應(yīng)用目標上有很大的重合度。 數(shù)據(jù)挖掘更看中數(shù)據(jù)分析后所形成的知識表示模式,而OLAP更注重利用多維等高級數(shù)據(jù)模型實現(xiàn)數(shù)據(jù)的聚合。從某種意義上講,我們可以把數(shù)據(jù)挖掘看作是OLAP的高級形式,與此更接近的名詞可能算是OLAM(聯(lián)機分析挖掘)。,新型數(shù)據(jù)庫中的數(shù)據(jù)挖掘,對象關(guān)系型數(shù)據(jù)庫(Object-Ralational Database)挖掘; 面向?qū)ο髷?shù)據(jù)庫的挖掘; 空間數(shù)據(jù)庫的挖掘; 時態(tài)數(shù)據(jù)庫的挖掘; 工程數(shù)據(jù)庫(Engineering Database
31、)的挖掘; 多媒體數(shù)據(jù)庫(Multimedia Database)的挖掘; 等等,Web數(shù)據(jù)源中的數(shù)據(jù)挖掘,隨著Internet的廣泛使用, Web這一巨大的海洋中蘊藏著極其豐富的有用信息。 面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多: 異構(gòu)數(shù)據(jù)源環(huán)境:Web網(wǎng)站上的信息是異構(gòu): 每個站點的信息和組織都不一樣;存在大量的無結(jié)構(gòu)的文本信息、復(fù)雜的多媒體信息;站點使用和安全性、私密性要求各異等等。 數(shù)據(jù)的是復(fù)雜性:有些是無結(jié)構(gòu)的(如Web頁),通常都是用長的句子或短語來表達文檔類信息;有些可能是半結(jié)構(gòu)的(如Email,HTML頁)。當(dāng)然有些具有很好的結(jié)構(gòu)(如電子表格)。揭開這些
32、復(fù)合對象蘊涵的一般性描述特征成為數(shù)據(jù)挖掘的不可推卸的責(zé)任。 動態(tài)變化的應(yīng)用環(huán)境: Web的信息是頻繁變化的,像新聞、股票等信息是實時更新的。 這種高變化也體現(xiàn)在頁面的動態(tài)鏈接和隨機存取上。 Web上的用戶是難以預(yù)測的。 Web上的數(shù)據(jù)環(huán)境是高噪音的。,Web挖掘的研究主要流派,Web結(jié)構(gòu)挖掘:挖掘Web上的鏈接結(jié)構(gòu)。 通過Web頁面間的鏈接信息可以識別出權(quán)威頁面(Authoritative Page)、安全隱患(非法鏈接)等。 Web使用挖掘?qū)eb上的Log日志記錄的挖掘 Web上的Log日志記錄了包括URL請求、IP地址以及時間等的訪問信息。 分析和發(fā)現(xiàn)Log日志中蘊藏的規(guī)律可以幫助我們識
33、別潛在的客戶、跟蹤Web服務(wù)的質(zhì)量以及偵探非法訪問的隱患等。 Web內(nèi)容挖掘: Web的內(nèi)容是豐富的,而且構(gòu)成成分是復(fù)雜的(無結(jié)構(gòu)的、半結(jié)構(gòu)的等),對內(nèi)容的分析是重要而艱巨的工作。 Web的內(nèi)容主要是包含文本、聲音、圖片等的文檔信息。 文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相關(guān)領(lǐng)域的研究。目 多媒體信息挖掘技術(shù)。,第一章 緒論 內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,粗糙集
34、理論簡介,粗糙集理論是一種研究不精確、不確定性知識的數(shù)學(xué)工具,由波蘭科學(xué)家Z. Pawlak在1982年首先提出的。 粗糙集一經(jīng)提出就立刻引起數(shù)據(jù)挖掘研究人員的注意,并被廣泛討論。 粗糙集的知識形成思想可以概括為:一種類別對應(yīng)于一個概念,知識由概念組成。 粗糙集理論是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。,粗糙集理論簡介,在數(shù)據(jù)挖掘與知識發(fā)現(xiàn)中,粗糙集理論與方法對于處理復(fù)雜系統(tǒng)已成為一個有效的方法,它與概率論、模糊集方法和證據(jù)理論等其他處理不確定性問題理論的最顯著區(qū)別是:它無需提供問題所處理的數(shù)據(jù)集
35、合的任何先驗信息。粗糙集理論強調(diào)的是信息系統(tǒng)中知識的不完全性、不可分辨性,其處理方法是確定的,要求屬性值都是定性值,而實際應(yīng)用中大量存在的是定量數(shù)據(jù),必須設(shè)法轉(zhuǎn)換成定性數(shù)據(jù)才能運用粗糙集方法。因此與其他處理不確定性問題的理論,如模糊數(shù)學(xué)和云理論等,具有很強的互補性,可以相互促進,增強其知識發(fā)現(xiàn)的能力。,粗糙集理論簡介,粗糙集和數(shù)據(jù)挖掘關(guān)系密切,目前已經(jīng)在關(guān)聯(lián)規(guī)則、決策樹等方面得到了廣泛應(yīng)用。基于粗糙集的關(guān)聯(lián)規(guī)則提取主要步驟包括去除不一致實例、求屬性核、求相對約簡、相同實例合并和值約簡?;诖植诩膯巫兞繘Q策樹構(gòu)造方法的基本思想是具有最小邊界的屬性在構(gòu)造決策樹時將首先被選擇。并且目前的研究趨向是
36、:粗糙集和遺傳算法相結(jié)合、和模糊集相結(jié)合,以及和神經(jīng)網(wǎng)絡(luò)相結(jié)合用于數(shù)據(jù)挖掘。,粗糙集理論簡介,粗糙集為數(shù)據(jù)挖掘提供了一種新的方法和工具,并擁有廣闊的前景。 首先,數(shù)據(jù)挖掘研究的實施對象多為關(guān)系型數(shù)據(jù)庫。關(guān)系表可被看作為粗糙集理論中的信息表或決策表,這給粗糙集方法的應(yīng)用帶來極大的方便; 第二,粗糙集的約簡理論可用于高維數(shù)據(jù)的預(yù)處理上以去除冗余屬性從而達到降低維數(shù)的目的; 第三,現(xiàn)實世界中的規(guī)則有確定性的,也有不確定性的。從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地; 第四,運用粗糙集方法得到的知識發(fā)現(xiàn)算法有利于并行執(zhí)行,這可極大地提高對大規(guī)模數(shù)據(jù)庫的知識發(fā)現(xiàn)的效率。,第一章 緒論 內(nèi)
37、容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)挖掘研究的發(fā)展趨勢 數(shù)據(jù)挖掘概念 數(shù)據(jù)挖掘技術(shù)的分類問題 數(shù)據(jù)挖掘常用的知識表示模式與方法 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題 粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用 數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。由于現(xiàn)在各行業(yè)的業(yè)務(wù)操作都向著流程自動化的方向發(fā)展,企業(yè)內(nèi)產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù)。 數(shù)據(jù)挖掘技術(shù)應(yīng)用很廣,應(yīng)用較好的領(lǐng)域有: 金融保險業(yè):Credit Scoring; Insurance Evaluation 電信: Detecting telephone fraud 零售(如超級市場)等商業(yè)領(lǐng)域:Marketing An
38、alysis 醫(yī)學(xué): Detecting inappropriate medical treatment 體育: IBM Advanced Scout analyzed NBA game statistics 在天文學(xué)、分子生物學(xué)等科學(xué)研究方面 等等,數(shù)據(jù)挖掘與CRM,CRM(客戶關(guān)系管理)是指對企業(yè)和客戶之間的交互活動或行為進行管理的過程。 數(shù)據(jù)挖掘能夠幫助企業(yè)確定客戶的特點,使企業(yè)能夠為客戶提供有針對性的服務(wù)。因此,把數(shù)據(jù)挖掘和CRM結(jié)合起來進行研究和實踐,是一個有很大應(yīng)用前景的工作。 所能解決的典型商業(yè)問題包括: 數(shù)據(jù)庫營銷(Database Marketing) 客戶群體劃分(Customer Segmentation & Classification) 客戶背景分析(Profile
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆廣東省深圳市龍崗區(qū)高三上學(xué)期期末考試歷史試題(含答案)
- 實數(shù)考試例題解析及答案
- 商法機考考試題及答案
- 汽車美容保養(yǎng)試題及答案
- 水泥廠培訓(xùn)課件教學(xué)
- 2025 小學(xué)三年級科學(xué)下冊保存磁鐵防止消磁的方法課件
- 《GAT 1054.6-2017公安數(shù)據(jù)元限定詞(6)》專題研究報告
- 2026 年初中英語《感嘆詞》專項練習(xí)與答案 (100 題)
- 《GAT 488-2020道路交通事故現(xiàn)場勘查車載照明設(shè)備通 用技術(shù)條件》專題研究報告
- 2026年深圳中考物理電熱的計算專項試卷(附答案可下載)
- GB/T 4447-2025船舶與海洋技術(shù)海船起錨機和起錨絞盤
- 中考體育前家長會課件
- 江蘇省南京市2024-2025學(xué)年高一上學(xué)期1月期末學(xué)情調(diào)研測試生物試題(解析版)
- 工作簡歷模板
- 2024年廣東省佛山市南海區(qū)道路建設(shè)管理處招聘公益一類事業(yè)編制人員3人歷年管理單位遴選500模擬題附帶答案詳解
- 動物輔助療法行業(yè)研究報告
- 模塊化軟件質(zhì)量保證
- 人教版七年級語文上冊《課內(nèi)文言文基礎(chǔ)知識 》專項測試卷及答案
- 【關(guān)于構(gòu)建我國個人破產(chǎn)制度的探討(論文)16000字】
- 加固專業(yè)承包合同
- 國家職業(yè)技術(shù)技能標準 5-01-05-01 中藥材種植員 人社廳發(fā)200994號
評論
0/150
提交評論