數(shù)據(jù)挖掘第一章資料_第1頁
數(shù)據(jù)挖掘第一章資料_第2頁
數(shù)據(jù)挖掘第一章資料_第3頁
數(shù)據(jù)挖掘第一章資料_第4頁
數(shù)據(jù)挖掘第一章資料_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章引用論1.1為什么要進行數(shù)據(jù)挖掘1.2進行數(shù)據(jù)挖掘1.3能夠進行哪種類型的數(shù)據(jù)挖掘1.5使用哪種技術1.6面向哪種類型的應用處理1.7數(shù)據(jù)挖掘的主要問題1.1 .為什么要把數(shù)據(jù)挖掘為了從這些龐大的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,并將該數(shù)據(jù)轉換為組織性的知識,需要強大而通用的工具。 這個需求導致了數(shù)據(jù)挖掘的誕生。 例如,谷歌的Flu Trends (流感傾向)使用特別的檢索項目作為流感活動的指標。 發(fā)現(xiàn)了檢索流感相關信息的人數(shù)與確定實際流感癥狀的人數(shù)之間的密切關系。 聚集了所有關于流感的檢索時,出現(xiàn)了一種模式。 使用收集的搜索數(shù)據(jù),谷歌Flu Trends可以比傳統(tǒng)系統(tǒng)早兩周評估流感活動。 此示例

2、說明了數(shù)據(jù)挖掘如何將大數(shù)據(jù)集轉換成知識并有助于解決現(xiàn)代的全球挑戰(zhàn)。 1.1. 2數(shù)據(jù)挖掘是信息技術的進化數(shù)據(jù)庫和數(shù)據(jù)管理產(chǎn)業(yè)發(fā)展為幾個重要的功能的開發(fā)(參見圖1.1 ) :數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建、數(shù)據(jù)管理(包括數(shù)據(jù)的存儲和檢索、數(shù)據(jù)庫的處理)和高級數(shù)據(jù)分析(數(shù)據(jù)倉庫和數(shù)據(jù)數(shù)據(jù)收集和數(shù)據(jù)庫建立機制是數(shù)據(jù)存儲、檢索和查詢以及事件處理有效機制開發(fā)的必要基礎。 數(shù)據(jù)庫和信息技術已經(jīng)從系統(tǒng)的最初的文件處理發(fā)展成了復雜強大的數(shù)據(jù)庫系統(tǒng)。 數(shù)據(jù)庫系統(tǒng)的研究和開發(fā)已經(jīng)從開發(fā)水平和網(wǎng)格數(shù)據(jù)庫發(fā)展為開發(fā)關系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)建模工具、索引和訪問方法。 用戶還可以通過查詢語言、用戶界面、查詢處理優(yōu)化和事務管理,來方便靈

3、活地訪問數(shù)據(jù)。 最近出現(xiàn)的一個數(shù)據(jù)存儲庫是數(shù)據(jù)倉庫,它支持管理決策,其中多個異構數(shù)據(jù)源是在一個站點上以統(tǒng)一的模式組織的存儲。 數(shù)據(jù)倉庫技術包括數(shù)據(jù)清理、數(shù)據(jù)整合和在線分析處理(OLAP )。 (OLAP是一種分析技術,可以聚合、整合、聚合數(shù)據(jù),并從各種角度進行觀察。 )決策者缺乏從大量數(shù)據(jù)中提取有價值知識的工具,因此必須開發(fā)系統(tǒng)數(shù)據(jù)挖掘的工具。1.2數(shù)據(jù)挖掘數(shù)據(jù)知識發(fā)現(xiàn)(KDD )指的是,(1)組織數(shù)據(jù)(去除噪聲和刪除不匹配數(shù)據(jù)) (2)數(shù)據(jù)聚合(可以將多個數(shù)據(jù)源組合) (3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務有關的數(shù)據(jù)) (4) (5)數(shù)據(jù)挖掘(基本步驟,以智能的方式提取數(shù)據(jù)的模式) (6)

4、模式評估(基于某一興趣度的度量,標識代表知識的真正有趣模式在知識表示中(通過使用可視化和知識表示技術為用戶提供挖掘知識),步驟1-4采用不同形式的數(shù)據(jù)挖掘預處理準備用于挖掘的數(shù)據(jù),從而數(shù)據(jù)挖掘步驟可以與用戶界和知識庫交互。 有趣的模型提供給用戶,或作為新知識存儲在知識庫中。 這個觀點認為數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程的一個步驟,但是很多人把他當作整個知識發(fā)現(xiàn)過程,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)掘有趣的模式和知識的過程。 1.3可以挖掘的數(shù)據(jù)種類最基本的形式是數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)、事務數(shù)據(jù)。 1.3.1也稱為數(shù)據(jù)庫數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)(DBMS ),由管理并存儲內部相關的數(shù)據(jù)(數(shù)據(jù)庫)和數(shù)據(jù)的一系列

5、軟件程序構成。軟件程序定義了數(shù)據(jù)庫結構和數(shù)據(jù)存儲,同時解釋和管理共享、分布式數(shù)據(jù)訪問,并提供了一種機制來確保存儲的信息的完整性和安全性,以防止系統(tǒng)的宕機或未經(jīng)授權的訪問。 關系數(shù)據(jù)庫是一個表的集合,每個表都有唯一的名稱。 每個表都有一組屬性(列或字段),包含多個元組(行或記錄)。 每個元組都代表一個對象,用唯一的關鍵字來標識,并用一組屬性值來描述。 關系數(shù)據(jù)庫通常構建語義數(shù)據(jù)模型,如實體聯(lián)系(ER )數(shù)據(jù)模型。 ER數(shù)據(jù)模型將數(shù)據(jù)庫表示為一系列實體及其關系的聯(lián)系。 (例1.2 p30 )關系數(shù)據(jù)可以通過數(shù)據(jù)庫查詢訪問。 可以使用關系查詢語言(如SQL ),也可以使用圖形用戶界面來編寫。 關系查

6、詢語言可以包含求和函數(shù),如sum、avg、count、max和min。 將數(shù)據(jù)挖掘應用于關系數(shù)據(jù)庫,可以進一步查看趨勢和數(shù)據(jù)模式。 1.3.2數(shù)據(jù)倉庫數(shù)據(jù)倉庫是從多個數(shù)據(jù)源收集的信息存儲庫,以一致的模式存儲,通常存儲在單個站點。 數(shù)據(jù)倉庫是通過組織數(shù)據(jù)、轉換數(shù)據(jù)、整合數(shù)據(jù)、加載數(shù)據(jù)和定期更新數(shù)據(jù)而構建的。 為了便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)以主題組織為中心。 數(shù)據(jù)存儲庫從歷史的角度提供信息,通常是摘要的。 數(shù)據(jù)倉庫通常是通過稱為數(shù)據(jù)多維數(shù)據(jù)集的多維數(shù)據(jù)結構來建模的。 每個維對應于架構中的一個或多個屬性,每個單元格保存合并度量的值。 (例1.3 p32 )數(shù)據(jù)倉庫適用于在線分析處理,可以在不同的抽象

7、層上提供數(shù)據(jù)。 OLAP操作的示例包括向下鉆取和上滾,用戶可以從不同的聚合級別觀察數(shù)據(jù)。 1.3.3事務數(shù)據(jù)庫的各記錄代表一個事務,如顧客一次購物、用戶網(wǎng)頁的點擊等。 通常,事務處理有唯一的事務處理id(trans-id )和構成事務處理的項目(例如在事務處理中購買的商品)的列表。 (例1.4p33 )雖然常規(guī)數(shù)據(jù)庫系統(tǒng)不能分析購物數(shù)據(jù)的籃數(shù)據(jù),但是事務數(shù)據(jù)上的數(shù)據(jù)挖掘可以挖掘頻繁的項目集。 頻繁的物品集是指頻繁一起銷售的商品的集合。1.3.4其他類型的數(shù)據(jù)時間相關或序列數(shù)據(jù)、數(shù)據(jù)流(視頻監(jiān)視和傳感器數(shù)據(jù),它們正在連續(xù)播放)、空間數(shù)字設計數(shù)據(jù)(建筑數(shù)據(jù)、系統(tǒng)部件或集成電路等)、超文本和多媒體數(shù)

8、據(jù)1.4能挖掘什么樣的模式存在大量的數(shù)據(jù)挖掘功能,包括特征和劃分、頻繁的模式、關聯(lián)和相關挖掘、分類和回歸、聚類分析、偏離點分析。 一般來說。 數(shù)據(jù)挖掘任務分為兩類:說明和預測。 描述性任務描述了目標數(shù)據(jù)的一般性質,預測性任務匯總到現(xiàn)在的數(shù)據(jù)中作出預測。 1.4.1類/概念的記述:用總結各類和概念的簡潔準確的表現(xiàn)來記述是有用的。 該描述包括(1)數(shù)據(jù)的特征,一般摘要研究類(目標類)的數(shù)據(jù)(2)數(shù)據(jù)劃分,將目標類與一個或多個可比較類(比較類)進行比較(3)數(shù)據(jù)的特征和劃分。 有幾種有效的方法來表征和摘要數(shù)據(jù),基于統(tǒng)計度量和圖表的簡單數(shù)據(jù)摘要,基于數(shù)據(jù)立方體的OLAP上滾操作可用于執(zhí)行由用戶控制的、

9、沿指定維的數(shù)據(jù)摘要,而面向屬性的摘要技術用于數(shù)據(jù)的泛化和特征化特征輸出格式有哪些,如餅圖、曲線、多維數(shù)據(jù)立方體和包含交叉表的多維表? 的雙曲馀弦值。 結果的描述可以以廣義的關系和規(guī)則(特征規(guī)則)的形式提供。 數(shù)據(jù)分類的輸出類似于特征性描述,但必須包含有助于區(qū)分目標類和比較類的比較度量。1.4.2挖掘的頻繁模式,關聯(lián)性和相關性的頻繁模式包括頻繁的項集、頻繁的子序列和頻繁的子結構。 (1)頻繁的項目集:頻繁出現(xiàn)在事務數(shù)據(jù)中的商品的集合(2)頻繁的子序列集:頻繁出現(xiàn)的子序列首先購買,然后購買(3)頻繁的子結構?各種形式(圖、樹、格)可以與項目集或子序列合并,關聯(lián)分析、變量、可靠性、支持度。 例如,5

10、0%的可靠性表示,如果一個客戶購買了計算機,則購買軟件的可能性為50%,支持度為1%,分析的所有內容中有1%表示計算機是和軟件一起購買的。 為此包含單一的關聯(lián)規(guī)則稱為一維關聯(lián)規(guī)則,除了謂詞符號以外,與多個屬性和謂詞相關的相關可以簡稱為多維關聯(lián)規(guī)則。 例如,年齡的2%是2029歲,年收入是40萬49萬美元,購買手機,這個年齡和收入組的顧客購買手機的概率是60%。 不能同時滿足最小支持度閾值和最小置信區(qū)間閾值被視為無聊而拋棄。 1.4.3用于預測分析的分類和回歸分類描述數(shù)據(jù)類和概念,找到要區(qū)分的模型,以使模型能夠預測類標簽未知的對象類標簽。 模型的導出是基于對訓練數(shù)據(jù)集的分析的. “我如何提供導出

11、的模型呢?”? ”。分類規(guī)則(IF-THEN規(guī)則)、決策樹、數(shù)學公式或神經(jīng)網(wǎng)絡。 決策樹類似流程圖的樹結構。 每個節(jié)點代表屬性值的測試,每個分支代表測試的結果,葉代表類或類的分布。 在決策樹和分類規(guī)則之間容易轉換。 在分類中,神經(jīng)網(wǎng)絡是類似于神經(jīng)的一系列處理單元,并且是單元之間的加權連接。 對下圖:和預測類別(離散、無序)標簽進行分類,回歸來構建連續(xù)值函數(shù)模型。 回歸用于預測缺少或難以獲得的數(shù)值數(shù)據(jù)值。 相關分析可能需要在分類和回歸之前進行,并試圖識別與分類和回歸過程明顯相關的屬性。 1.4.4不考慮分類標簽地分析聚類分析數(shù)據(jù)的對象。 對象基于使類內的相似性最大化、使類間的相似性最小化的原則進

12、行聚類和分組。 形成的每個群集都可以看作是可以導出規(guī)則的對象類. 類似于分類法的形成,將觀測數(shù)據(jù)編成分類階層結構,總結出類似的事件。 1.4.5分析了離群點與數(shù)據(jù)的一般行為和模型不一致,這些數(shù)據(jù)的對象是離群點。 大部分數(shù)據(jù)挖掘方法都將偏離的點作為噪聲和異常廢棄。 但是,在一些應用(欺詐檢查等)中,這些離群票更感興趣,離群點數(shù)據(jù)的分析被稱為離群點分析或異常挖掘。 1.4.6所有的模式都有趣嗎? 所有的模式都有趣嗎? 答案是不。 一個模型很有趣。 如果(1)容易被人理解的話(2)以某個確信度,對新數(shù)據(jù)和檢查數(shù)據(jù)有效(3)潛在有用(4)是新穎的模式興趣度的客觀測定:支持度和信賴度。 支持度是指滿足事

13、務數(shù)據(jù)庫規(guī)則的事務所所占的百分比。 支持速度取概率P(XUY ),并且表示包含x和y兩者的事務,即項目集x和y的和。 置信度可以評估所發(fā)現(xiàn)規(guī)則的置信度,取條件概率P(Y/X ),并且包含x的交易也可以取包括y的概率。 一般來說,每個興趣度量都與用戶自己可以控制的閾值相關聯(lián)。 其他關心尺度包括分類規(guī)則的精度和復蓋率。 正解率表示按規(guī)則正確分類的數(shù)據(jù)所占的比例,復蓋率與支持率相似,表示規(guī)則能發(fā)揮功能的數(shù)據(jù)所占的比例。 客觀測量有助于識別有趣的模式,但這還不夠,它將反映特定用戶需求和興趣的主觀測量結合起來。 “數(shù)據(jù)挖掘系統(tǒng)能做出所有有趣的模型嗎? ”與數(shù)據(jù)挖掘算法的完整性有關。“數(shù)據(jù)挖掘系統(tǒng)能做出有

14、趣的模型嗎? ”是數(shù)據(jù)挖掘的優(yōu)化問題。 1.5使用什么技術,1.5.1統(tǒng)計學的統(tǒng)計學研究數(shù)據(jù)的收集、分析、解釋和顯示。 統(tǒng)計模型是一系列數(shù)學函數(shù),用隨機變量及其概率分布描繪目標類對象的行為。 廣泛的應用程序和數(shù)據(jù)和數(shù)據(jù)類的建模。 統(tǒng)計學研究開發(fā)了使用數(shù)據(jù)和統(tǒng)計模型進行預測和預報的工具。 統(tǒng)計學方法可以用于總結和描述數(shù)據(jù)集。 統(tǒng)計學方法可以在晚上用于驗證數(shù)據(jù)挖掘的結果。 1.5.2考察機器學習機器學習計算機如何根據(jù)數(shù)據(jù)學習(提高性能)。 主要領域是計算機程序根據(jù)數(shù)據(jù)自動學習認識復雜的模式,做出智能的決定。 介紹數(shù)據(jù)挖掘和高度相關的經(jīng)典機器學習問題:監(jiān)督學習:分類同義詞; 無監(jiān)視學習:集群的同義詞

15、由于輸入的實例沒有集群標記,所以半監(jiān)視學習:學習模型時使用帶標記的實例和未標記的實例,帶標記的實例學習類模型,無標記的實例進一步劃分類界限關于兩種問題,把一種作為正的事例,另一種作為負的事例。 參見下面的圖1.12。 如果不考慮未標記的實例,虛線是分離正實例和負實例的最佳決策邊界,可以使用未標記的實例將此決策邊界改進為實線邊界。 另外,右上角的兩個正實例可以檢測噪音和偏離點。 盡管被標了標簽。 自主學習:用戶在學習過程中扮演主要顏色的機器學習方法。 目的是積極地從用戶那里獲得知識,提高模型的質量。 數(shù)據(jù)挖掘和機器學習有很多相似之處。 機器學習通常關注精度,除了精度之外,數(shù)據(jù)挖掘研究還非常強調數(shù)

16、據(jù)挖掘方法在大數(shù)據(jù)集上的有效性和可擴展性嗎? 的雙曲馀弦值。 1.5.3數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫數(shù)據(jù)庫系統(tǒng)的研究關注單位和最終用戶數(shù)據(jù)庫的創(chuàng)建、維護和使用。 建立了數(shù)據(jù)建模、查詢語言、查詢處理和優(yōu)化方法、數(shù)據(jù)存儲、索引和訪問方法的公認原則。 數(shù)據(jù)庫系統(tǒng)以處理相對較大的結構化數(shù)據(jù)集的高級可伸縮性是眾所周知的。 數(shù)據(jù)倉庫將不同的數(shù)據(jù)源和時間段的數(shù)據(jù)整合起來。 在多維空間中整合數(shù)據(jù),形成部分物理化嗎? 的雙曲馀弦值。 數(shù)據(jù)多維數(shù)據(jù)集不僅推動了多維數(shù)據(jù)庫的OLAP,還推動了多維數(shù)據(jù)挖掘。 1.5.4信息檢索信息檢索(IR )是檢索文件或文件中信息的科學。 文檔可以創(chuàng)建文本和多媒體,并且可能存在于網(wǎng)絡上。

17、傳統(tǒng)的信息檢索和數(shù)據(jù)庫系統(tǒng)有兩個區(qū)別:信息檢索假設檢索的數(shù)據(jù)沒有結構的信息檢索查詢主要是關鍵詞,沒有復雜的結構。 信息檢索的典型方法采用概率模型。 例如,可以將文本文檔視為一個單詞包和出現(xiàn)在文檔中的多組單詞。 文檔的語言模型是生成文檔中的詞包的概率密度函數(shù)。 兩個文檔之間的麻煩相似度可以用對應的語言模型之間的相似度來測量嗎? 的雙曲馀弦值。 此外,文本文檔集的主題是否可以通過詞匯表的概率分布建模? 的雙曲馀弦值。 一個文本文檔可以包含多個主題,可以視為多個主題的混合模型。 通過集成信息檢索模型和數(shù)據(jù)挖掘技術,可以確定文檔的主要主題,并為集合中的每個文檔確定相關的主要問題。 1.6面向什么類型的應用1.6.1商務智能對業(yè)務來說,充分理解客戶、市場、供應和資源、競爭對手等業(yè)務背景很重要。 商業(yè)智能(BI )技術提供了業(yè)務運營的歷史、現(xiàn)狀和預測視圖。 數(shù)據(jù)挖掘是商業(yè)智能的核心。 商業(yè)智能的在線分析處理工具依賴于數(shù)據(jù)倉庫和多維數(shù)據(jù)挖掘.分類和預測技術是商業(yè)智能預測分析的核心,在市場、供給和銷售分析中有很多應用。 另外,在顧客關系管理中,對其主要角色進行聚類,根據(jù)顧客的相似性對顧客進行分組。 1.6.2 Web搜索引擎Web搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論