版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 第一 章 引 論1.1 為什么進行數(shù)據挖掘1.2 什么是數(shù)據挖掘1.3 可以挖掘什么類型的數(shù)據1.4 可以挖掘什么類型的模式1.5 使用什么技術1.6 面向什么類型的應用1.7 數(shù)據挖掘的主要問題 1.1.為什么進行數(shù)據挖掘為什么進行數(shù)據挖掘1.1.1 邁向信息時代邁向信息時代 數(shù)據的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時代成為真正的數(shù)據時代。急需功能強大和通用的工具,以便從這些海量的數(shù)據中發(fā)現(xiàn)有價值的信息,把這些數(shù)據轉化成有組織的知識。這種需求導致了數(shù)據挖掘的誕生。例如:Googel的Flu Trends(流感趨勢)使用特殊的搜索項作為流感活動的指示器。它發(fā)現(xiàn)了搜索流感相關信息的人數(shù)與
2、實際具體流感癥狀的人數(shù)之間的緊密聯(lián)系。當與流感相關的所有搜索聚集在一起時,一個模式就出現(xiàn)了。 使用聚集的搜索數(shù)據,Googel的Flu Trends可以比傳統(tǒng)的系統(tǒng)早兩周對流感活動作出評估。這個例子表明,數(shù)據挖掘如何把大型數(shù)據集轉化成知識,幫助我們應對當代的全球性挑戰(zhàn)。 1.1. 2 數(shù)據挖掘是信息技術的進化數(shù)據挖掘是信息技術的進化 數(shù)據庫和數(shù)據管理產業(yè)在一些關鍵功能的開發(fā)上不斷發(fā)展(見圖1.1):數(shù)據收集和數(shù)據庫創(chuàng)建、數(shù)據管理(包括數(shù)據存儲和檢索、數(shù)據庫事物處理)和高級數(shù)據分析(包括數(shù)據倉庫和數(shù)據挖掘)。 數(shù)據收集和數(shù)據庫創(chuàng)建機制是數(shù)據存儲和檢索以及查詢和事物處理的有效機制開發(fā)的必備基礎。
3、數(shù)據庫和信息技術已經系統(tǒng)的從開始的文件處理演變成復雜的、功能強大的數(shù)據庫系統(tǒng)。數(shù)據庫的系統(tǒng)的研究和開發(fā)已經從開發(fā)層次和網狀數(shù)據庫發(fā)展到開發(fā)關系數(shù)據庫系統(tǒng)、數(shù)據建模工具、索引和存取方法。此外,用戶通過查詢語言、用戶界面、查詢處理優(yōu)化和事務管理,可以方便靈活的訪問數(shù)據。 最近出現(xiàn)的一種數(shù)據存儲是數(shù)據倉庫,這是一種多個異構數(shù)據源在單個站點以統(tǒng)一的模式組織的存儲,以支持管理決策。數(shù)據倉庫技術包括數(shù)據清理、數(shù)據集成和聯(lián)機分析處理(OLAP)。(OLAP是一種分析技術,具有匯總、合并和聚集以及從不同的角度觀察數(shù)據的能力。) 由于決策者缺乏從海量的量數(shù)據中提取有價值的知識的工具,這就要求我們必須系統(tǒng)的開發(fā)數(shù)
4、據挖掘的工具。 1.2 什么是數(shù)據挖掘什么是數(shù)據挖掘 數(shù)據中的知識發(fā)現(xiàn)(KDD)有以下步驟的迭代序列組成: (1)數(shù)據清理(消除噪聲和刪除不一致數(shù)據) (2)數(shù)據集成(多種數(shù)據源可以組合在一起) (3)數(shù)據選擇(從數(shù)據庫里提取與分析任務相關的數(shù)據) (4)數(shù)據變換(通過匯總或聚集?操作,把數(shù)據變換和統(tǒng)一成適合挖掘的形式) (5)數(shù)據挖掘(基本步驟,使用智能方法提取數(shù)據模式) (6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式) (7)知識表達(使用可視化和知識表示技術,向有戶提供挖掘的知識) 步驟 14是數(shù)據挖掘預處理的不同形式,為挖掘準備數(shù)據,數(shù)據挖掘步驟可以與用戶界或知識庫交
5、互。有趣的模式提供給用戶,或作為新的知識存放在知識庫中。 該觀點把數(shù)據挖掘看做知識發(fā)現(xiàn)的過程中的一個步驟,但是通常人們人們把他看做知識發(fā)現(xiàn)的整個過程,數(shù)據挖掘是從大量的數(shù)據中挖掘有趣的模式和知識的過程。1.3 可以挖掘什么類型的數(shù)據可以挖掘什么類型的數(shù)據 數(shù)據最基本的形式是數(shù)據庫數(shù)據、數(shù)據倉庫數(shù)據和事務數(shù)據。1.3.1 數(shù)據庫數(shù)據數(shù)據庫數(shù)據 數(shù)據庫系統(tǒng),也稱數(shù)據庫管理系統(tǒng)(DBMS),由一組內部相關的數(shù)據(數(shù)據庫)和一組管理和存儲數(shù)據的軟件程序組成。軟件程序提供如下的機制:定義數(shù)據庫結構和數(shù)據存儲,說明和管理并發(fā)、共享或分布式數(shù)據訪問,面對系統(tǒng)癱瘓或未經授權的訪問,確保存儲的信息的一致性和安全
6、性。 關系數(shù)據庫是表的匯集,每個表被賦予一個唯一的名字。每個表都包含一組屬性(列或字段),并且通過存放大量元組(行或記錄)。每個元組代表一個對象,被唯一的關鍵字標識,并被一組屬性值描述。通常關系數(shù)據庫構建語義數(shù)據模型,如實體-聯(lián)系(ER)數(shù)據模型。ER數(shù)據模型將數(shù)據庫表示成一組實體和他們之間關系的聯(lián)系。(例1.2 p30) 關系數(shù)據可以通過數(shù)據庫查詢訪問。使用如SQL這樣的關系查詢語言,或借助于圖形用戶界面書寫。關系查詢語言可以包含聚集函數(shù),如sum、avg、count、max和min。 當數(shù)據挖掘應用于關系數(shù)據庫時,可以進一步探索趨勢或數(shù)據模式。1.3.2 數(shù)據倉庫數(shù)據倉庫 數(shù)據倉庫是一個從
7、多個數(shù)據源收集的信息存數(shù)庫,存放在一致的模式下,并且通常駐留在單個站點上。數(shù)據倉庫通過數(shù)據清理、數(shù)據變換、數(shù)據集成、數(shù)據裝入和定期數(shù)據刷新來構造。 為了便于決策,數(shù)據倉庫中數(shù)據圍繞主題組織。數(shù)據存儲從歷史的角度提供信息,并且通常是匯總的。通常數(shù)據倉庫用稱做數(shù)據立方體的多維數(shù)據結構建模。其中每個維對應模式中的一個或一組屬性,而每個單元存放某種聚集度量值。(例1.3 p32) 數(shù)據倉庫非常適合聯(lián)機分析處理,允許在不同的抽象層提供數(shù)據。OLAP操作的例子包括下鉆和上卷,他們允許用戶從不同的匯總級別觀察數(shù)據。1.3.3 事務數(shù)據事務數(shù)據 事務數(shù)據庫的每一個記錄代表一個事務,如顧客的一次購物、一個用戶的
8、網頁點擊。通常,一個事務有唯一的事務標識號(trans-ID),以及一個組成事務的項(如,交易中購買的商品)的列表。(例1.4p33) 傳統(tǒng)的數(shù)據庫系統(tǒng)不能進行購物數(shù)據籃數(shù)據分析,但事務數(shù)據上的數(shù)據挖掘可以通過挖掘頻繁項集來做這件事。頻繁項集就是頻繁的一起銷售的商品的集合。 1.3.4 其他類型的數(shù)據其他類型的數(shù)據 時間相關或序列數(shù)據、數(shù)據流(如視頻監(jiān)控和傳感器數(shù)據,它們連續(xù)播送)、空間數(shù)工程設計數(shù)據(如建筑數(shù)據、系統(tǒng)部件或集成電路)、超文本和多媒體數(shù)據和萬維網。1.4 可以挖掘什么類型的模式可以挖掘什么類型的模式 存在大量數(shù)據挖掘功能,包括特征化與區(qū)分,頻繁模式、關聯(lián)和相關性挖掘,分類與回歸
9、,聚類分析,離群點分析。一般而言。數(shù)據挖掘任務可分為兩類:描述性和預測性。描述性任務刻畫目標數(shù)據的一般性質,預測性任務在當前的數(shù)據上進行歸納,以便做出預測。1.4.1 類類/概念描述:特征化和區(qū)分概念描述:特征化和區(qū)分 用匯總的、簡潔的、精確的表達方式描述每個類和概念是有用的。這種描述可通過下述方法得到:(1)數(shù)據特征化,一般的匯總所研究類(目標類)的數(shù)據;(2)數(shù)據區(qū)分,將目標類與一個或多個可比較類(對比類)進行比較;(3)數(shù)據特征化和區(qū)分。 將數(shù)據特征化和匯總有一些有效的方法,基于統(tǒng)計度量和圖的簡單數(shù)據匯總,基于數(shù)據立方體的OLAP上卷操作可以用來執(zhí)行用戶控制的、沿著指定維的數(shù)據匯總,面向
10、屬性的歸納技術可以用來進行數(shù)據的泛化和特征化。特征化的輸出形式,如,餅圖、曲線、多維數(shù)據立方體和包含交叉表在內的多維表?。結果描述可以用廣義關系或規(guī)則(特征規(guī)則)形式提供。 數(shù)據區(qū)分的輸出可以類似特征描述,但是應當包含比較度量,以便幫助區(qū)分目標類和比較類。1.4.2 挖掘頻繁模式、關聯(lián)和相關性挖掘頻繁模式、關聯(lián)和相關性 頻繁模式包含多種類型:頻繁項集、頻繁子序列和頻繁子結構。 (1)頻繁項集:頻繁的在事務數(shù)據中一起出現(xiàn)的商品的集合; (2)頻繁子序列集:頻繁出現(xiàn)的子序列,先購買,再購買; (3)頻繁子結構?:涉及不同的形式(圖、樹和格)可以與項集或子序列結合在一起; 關聯(lián)分析,變量、置信度和支
11、持度。如,50%的置信度,如果一位顧客購買計算機,則購買軟件的可能性是50%,1%的支持度,所分析的所有事物的1%顯示計算機與軟件一起被購買。包含單個為此的關聯(lián)規(guī)則稱作單維關聯(lián)規(guī)則,去掉謂詞符號,可以簡寫成:涉及多個屬性或謂詞的關聯(lián),可以成為多維關聯(lián)規(guī)則,如:2%的年齡是2029歲,年收入為40 00049 000美元,并且購買便攜式計算機,這個年齡和收入組的顧客購買便攜機的概率是60%。 不能同時滿足最小支持度閥值和最小置信區(qū)間閥值是被視為無趣的而被丟棄。1.4.3 用于預測分析的分類與回歸用于預測分析的分類與回歸 分類,它找出描述和區(qū)分數(shù)據類或概念的模型,以便能夠使用模型預測類標號未知的對
12、象的類標號。導出模型是基于對訓練數(shù)據集的分析。 “如何提供導出的模型?如何提供導出的模型?”分類規(guī)則(即IF-THEN規(guī)則)、決策樹、數(shù)學公式或神經網絡。決策樹類似于流程圖的樹結構。其中每一個結點代表在一個屬性值上的測試,每一個分支代表測試的一個結果,而樹葉代表類或類分布。決策樹與分類規(guī)則之間容易轉換。用于分類時,神經網絡是一組類似神經元的處理單元,單元之間加權連接。如下圖: 分類預測類別(離散的、無序的)標號,而回歸建立連續(xù)值函數(shù)模型?;貧w用于預測缺失的或難以獲得的數(shù)值數(shù)據值。 相關分析可能需要在分類和回歸之前進行,它試圖識別與分類和回歸過程顯著相關的屬性。1.4.4 聚類分析聚類分析 聚類
13、分析數(shù)據對象,而不考慮類標號。對象根據最大化類內相似性、最小化類間相似性的原則進行聚類和分組。所形成的每個簇都可以看做一個對象類,由它可以導出規(guī)則。類似于分類法形成,即將觀測數(shù)據組織成類分層結構,把類似的事件組織在一起。1.4.5 離群點分析離群點分析 它們與數(shù)據的一般行為或模型不一致,這些數(shù)據對象是離群點。大部分數(shù)據挖掘方法都將離群點視為噪聲或異常而丟棄。然而,在一些應用中(如,欺詐檢測)這些離群單更令人感興趣,離群點數(shù)據的分析稱作離群點分析或異常挖掘。 1.4.6 所有模式都是有趣的嗎所有模式都是有趣的嗎 “所有模式都是有趣的嗎”答案通常是否定的。一個模式是有趣的,如果:(1)易于被人理解
14、;)易于被人理解;(2)在某種確信度上,對于新的或檢測數(shù)據是有效的;)在某種確信度上,對于新的或檢測數(shù)據是有效的;(3)是潛在有用的;)是潛在有用的;(4)是新穎的;)是新穎的; 模式興趣度的客觀度量:支持度和置信度。支持度表示事務數(shù)據庫中滿足規(guī)則的事務所占的百分比。支持度可以取概率P(XUY),表示同時包含X和Y 的事務,即項集X和Y的并。置信度,它評估所發(fā)現(xiàn)的規(guī)則的確信程度,可以取條件概率P(Y/X),即包含X的事務也 包含Y的概率。 一般地,每個興趣度度量都與一個閥值相關聯(lián),該閥值可以由用戶自己控制。 其他興趣度量包括分類規(guī)則的準確率和覆蓋率。準確率告訴我們被一個規(guī)則正確分類的數(shù)據所占的
15、百分比,覆蓋率類似于支持率,告訴我們規(guī)則可以作用的數(shù)據所占的百分比。 盡管客觀度量有助于 識別有趣的模式,但是僅有這些還不夠,還要結合反映特定用戶需要和興趣的主觀度量?!皵?shù)據挖掘系統(tǒng)能夠產生所有有趣的模式嗎?”-涉及數(shù)據挖掘算法的完全性。“數(shù)據挖掘系統(tǒng)能夠進產生有趣的模式嗎?”-是數(shù)據挖掘的優(yōu)化問題。1.5 使用什么技術使用什么技術 1.5.1 統(tǒng)計學統(tǒng)計學 統(tǒng)計學研究數(shù)據的收集、分析、解釋和表示。統(tǒng)計模型是一組數(shù)學函數(shù),它們用隨機變量及其概率分布刻畫目標類對象的行為。廣泛應用與對數(shù)據和數(shù)據類建模。統(tǒng)計學研究開發(fā)一些使用數(shù)據和統(tǒng)計模型進行預測和預報的工具。統(tǒng)計學方法可以用來匯總或描述數(shù)據集。統(tǒng)
16、計學方法夜可以用來驗證數(shù)據挖掘的結果。1.5.2 機器學習機器學習 機器學習考察計算機如何基于數(shù)據學習(提高它們的性能)。主要領域是,計算機程序基于數(shù)據自動地學習識別復雜的模式,并作出智能的決斷。下面介紹一些與數(shù)據挖掘高度相關的、經典的機器學習問題: 監(jiān)督學習監(jiān)督學習:分類的同義詞; 無監(jiān)督學習無監(jiān)督學習:聚類的同義詞,因為輸入的實例沒有類標記; 半監(jiān)督學習半監(jiān)督學習:一類機器學習技術,在學習模型時,它使用標記的和未標記的實例,標記的實例用來學習類模型,而未標記的實例用來進一步改進類邊界。對于兩類問題,把一類看做正實例,另一類看做負實例。 如下圖1.12 如果我們不考慮未標記的實例,則虛線是分
17、隔正實例和負實例的最佳決策邊界,使用未標記的實例,我們可以把該決策邊界改進為實線邊界,此外,我們能夠檢測出右上角的兩個正實例可能中噪聲或離群點,盡管他們被標記了。 主動學習:主動學習:一種機器學習方法,讓用戶在學習過程中扮演主要的色。目的是通過主動地從用戶獲取知識來提高模型質量。 數(shù)據挖掘和機器學習有許多相似之處。機器學習通常關注準確率,除準確率外,數(shù)據挖掘研究非常強調數(shù)據挖掘方法在大型數(shù)據集上的有效性和可伸縮性?。1.5.3 數(shù)據庫系統(tǒng)與數(shù)據倉庫數(shù)據庫系統(tǒng)與數(shù)據倉庫 數(shù)據庫系統(tǒng)研究關注為單位和最終用戶創(chuàng)建、維護和使用數(shù)據庫。已經建立了數(shù)據建模、查詢語言、查詢處理與優(yōu)化方法、數(shù)據存儲以及索引和
18、存取方法的公認原則。數(shù)據庫系統(tǒng)因其在處理非常大的、相對結構化的數(shù)據集方面的高度可伸縮性而聞名。 數(shù)據倉庫集成來自多種數(shù)據源和各個時間段的數(shù)據。它在多維空間合并數(shù)據,形成部分物化?的數(shù)據立方體。數(shù)據立方體不僅有利于多維數(shù)據庫的OLAP,而且推動了多維數(shù)據挖掘。 1.5.4 信息檢索 信息檢索(IR)是搜索文檔或文檔中信息的科學。文檔可以使文本或多媒體,并且可能駐留在Web上。傳統(tǒng)的信息檢索與數(shù)據庫系統(tǒng)的差別有兩點:信息檢索假定所搜索的數(shù)據是無結構;信息檢索查詢主要用關鍵詞,沒有復雜的結構。 信息檢索的典型方法采用概率模型。例如,文本文檔可以看做詞的包,及出現(xiàn)在文檔中的詞的多重集。文檔的語言模型是
19、生成文檔中詞的包的概率密度函數(shù)。兩個文檔之間煩人相似度可以用對應的語言模型之間的相似性度量?。 此外,一個文本文檔集的主題可以用詞匯表上的概率分布建模?,稱作主題建模。一個文本文檔可以涉及多個主題,可以看做多主題混合模型。通過集成信息檢索模型和數(shù)據挖掘技術,我們可以找出文檔及中的主要主題,對集合中的每個文檔,找出所涉及的主要問題。 1.6 面向什么類型的應用面向什么類型的應用1.6.1 商務智能商務智能 對于商務而言,較好理解它的諸如顧客、市場、供應和資源以及競爭對手等商務背景是至關重要的。商務智能(BI)技術提供商務運作的歷史、現(xiàn)狀和預測視圖。 數(shù)據挖掘是商務智能的核心。商務智能的聯(lián)機分析處理工具依賴于數(shù)據倉庫和多維數(shù)據挖掘。分類和預測技術是商務智能預測分析的核心,在分析市場、供應和銷售方面存在許多應用。此外,在客戶關系管理方面,聚類其主要作用,它根據顧客的相似性把顧客分組。1.6.2 Web 搜索引擎搜索引擎 Web搜索引擎是一種專門的計算機服務器,在Web上搜索信息。通常,用戶查詢的搜索結果用一張表返給用戶。搜索引擎不同于,因為網絡目錄是人工編輯管理的,而搜索引擎是按算法運行的,或者是算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026秋招:美欣達集團筆試題及答案
- 2026秋招:龍佰集團試題及答案
- 2026秋招:利華益集團筆試題及答案
- 2026秋招:蘭州蘭石集團筆試題及答案
- 2026秋招:金鑼肉制品集團筆試題及答案
- 2026秋招:江蘇海外企業(yè)集團面試題及答案
- 提升涂膜劑耐候性技術指導書
- 2025輸血科日常培訓試題及答案
- 2026年大學(城市地下空間工程)實踐應用測試試題及答案
- 2025年起重機司機(限橋式起重機)考試試題及答案
- 技術股入股協(xié)議書
- DL-T5796-2019水電工程邊坡安全監(jiān)測技術規(guī)范
- 魁北克腰痛障礙評分表(Quebec-Baclain-Disability-Scale-QBPDS)
- 實驗室生物安全培訓-課件
- 八年級上冊歷史【全冊】知識點梳理背誦版
- 《工會法》及《勞動合同法》教學課件
- 第章交流穩(wěn)態(tài)電路
- 股權轉讓協(xié)議書常電子版(2篇)
- 2023年副主任醫(yī)師(副高)-推拿學(副高)考試歷年高頻考點真題演練附帶含答案
- 產品質量法課件
- 《食品包裝學(第三版)》教學PPT課件整套電子講義
評論
0/150
提交評論