版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術概述 數(shù)據(jù)挖掘,第一講 緒論,什么是數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘的步驟 數(shù)據(jù)挖掘的主要功能(任務) 概念/類描述:特征化和區(qū)分 關聯(lián)分析 分類和預測 聚類分析 孤立點分析 演變分析 在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘(對象) 數(shù)據(jù)挖掘技術的前景,數(shù)據(jù)挖掘的案例:“啤酒”和“尿布”,一則廣為流傳的案例:啤酒和尿布的故事,美國加州某個超市連鎖店發(fā)現(xiàn): 在下班后前來購買嬰兒尿布的顧客多數(shù)是男性,他們往往也同時購買啤酒。 處理:重新布置了貨架,啤酒類商品、嬰兒尿布、土豆片之類的佐酒小食品、男士們日常生活用品就近布置。 結果:上述幾種商品的銷量幾乎馬上成倍增長。,什么是數(shù)據(jù)挖掘?,數(shù)據(jù)挖掘的定義非常
2、模糊,對它的定義取決于定義者的觀點和背景。如下是一些DM文獻中的定義: 數(shù)據(jù)挖掘是一個從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。 -Fayyad. 數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進行關鍵的商業(yè)決策的過程。 -Zekulin. 數(shù)據(jù)挖掘是用在知識發(fā)現(xiàn)過程,來辯識存在于數(shù)據(jù)中的未知關系和模式的一些方法。 -Ferruzza 數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。 -Jonn 數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個決策支持過程。 -Parsaye,什么是數(shù)據(jù)挖掘?,從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用
3、的,以及最終可理解的模式的非平凡過程。 非平凡(的過程):有一定的智能性、自動性(僅僅給出所有數(shù)據(jù)之和不能算做一個發(fā)現(xiàn)過程)。 有效性:所發(fā)現(xiàn)的模式對新的數(shù)據(jù)仍保持一定的可信度。 新穎性:所發(fā)現(xiàn)的模式應該是新的。 潛在有用性:所發(fā)現(xiàn)的模式將來有實際的效用。 最終可理解性:能被用戶理解,如:簡潔性 有趣性:有效性、新穎性、潛在有用性、最終可理解性的綜合。,數(shù)據(jù)挖掘: 多個學科的融合,數(shù)據(jù)挖掘,數(shù)據(jù)庫系統(tǒng),統(tǒng)計學,其他學科,算法,機器學習,可視化,數(shù)據(jù)挖掘相關領域,知識發(fā)現(xiàn)領域充分體現(xiàn)了各種方法論的相互交叉、滲透和協(xié)作。相關的理論和技術可以分類如下: 按挖掘任務分類:包括概念/類描述、特征化和區(qū)分
4、關聯(lián)分析、分類和預測 、聚類分析 、孤立點分析、演變分析等。 按挖掘對象分類:包括關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、異構數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web數(shù)據(jù)庫等。 按挖掘方法分類:包括統(tǒng)計方法,機器學習方法,神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法等。,數(shù)據(jù)挖掘的稱謂,數(shù)據(jù)挖掘涉及多學科領域,有多個術語名稱(可能其內容的側重點略有差異)。 數(shù)據(jù)挖掘(data mining) 數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD, knowledge discovery in databases) 知識抽取(knowledge extraction) 信息發(fā)現(xiàn)(information discover
5、y) 智能數(shù)據(jù)分析(intelligent data analysis) 探索式數(shù)據(jù)分析(exploratory data analysis) 信息收獲 (information harvesting) 數(shù)據(jù)考古(data archeology) “數(shù)據(jù)挖掘”流行于 統(tǒng)計界、數(shù)據(jù)庫、數(shù)據(jù)分析、管理信息系統(tǒng)界,數(shù)據(jù)挖掘的步驟,觀點:數(shù)據(jù)挖掘是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)的一個步驟。 粗略理解三部曲: 數(shù)據(jù)準備(data preparation)、 數(shù)據(jù)挖掘(data mining) 結果的解釋評估(interpretation and evaluation),數(shù)據(jù)挖掘的步驟,數(shù)據(jù)準備 數(shù)據(jù)選擇:
6、目標數(shù)據(jù) 數(shù)據(jù)預處理:消除噪聲、不一致、冗余等 數(shù)據(jù)變換:連續(xù)數(shù)據(jù)離散化、數(shù)據(jù)轉化 數(shù)據(jù)歸約:特征選擇或抽取 數(shù)據(jù)挖掘時,需要 明確任務如數(shù)據(jù)總結、分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)等。 考慮用戶的知識需求(得到描述性的知識、預測型的知識)。 根據(jù)具體的數(shù)據(jù)集合,選取有效的挖掘算法。,數(shù)據(jù)挖掘的步驟,結果的解釋評估(interpretation and evaluation) 對挖掘出來的結果(模式),經(jīng)用戶或機器評價,剔除冗余或無關的模式。 模式不滿足用戶需求時,返回到某一步,重新挖掘。如:重新選擇數(shù)據(jù)、采用新的變換方法、設定新的數(shù)據(jù)挖掘參數(shù),或者換一種挖掘算法(如分類方法,不同的方法對
7、不同的數(shù)據(jù)有不同的效果)。 挖掘的結果是面向用戶的,對挖掘結果進行可視化或者轉化為用戶易于理解的形式表示。 評注 影響挖掘結果質量的因素:采用的算法、數(shù)據(jù)本身的質量與數(shù)量 數(shù)據(jù)挖掘的過程是一個不斷反饋的過程 可視化在數(shù)據(jù)挖掘過程的各個階段都扮演著重要角色,如用散點圖或直方圖等統(tǒng)計可視化技術來顯示有關數(shù)據(jù),以期對數(shù)據(jù)有一個初步的了解。,KDD的一般步驟,傳統(tǒng)KDD的一般步驟(細化) 數(shù)據(jù)清理: (這個可能要占全過程60的工作量) 數(shù)據(jù)集成 數(shù)據(jù)選擇 數(shù)據(jù)變換 數(shù)據(jù)挖掘(選擇適當?shù)乃惴▉碚业礁信d趣的模式) 模式評估 知識表示,數(shù)據(jù)挖掘: 數(shù)據(jù)庫中的知識挖掘(KDD),數(shù)據(jù)挖掘知識挖掘的核心,數(shù)據(jù)清
8、理,數(shù)據(jù)集成,數(shù)據(jù)庫,數(shù)據(jù)倉庫,Knowledge,任務相關數(shù)據(jù),選擇,數(shù)據(jù)挖掘,模式評估,數(shù)據(jù)挖掘的主要功能可以挖掘哪些模式?,一般功能 描述性的數(shù)據(jù)挖掘 預測性的數(shù)據(jù)挖掘 通常,用戶并不知道在數(shù)據(jù)中能挖掘出什么東西,對此我們會在數(shù)據(jù)挖掘中應用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括: 概念/類描述: 特性化和區(qū)分(定性與對比) 關聯(lián)分析 分類和預測 聚類分析 孤立點分析 趨勢和演變分析,概念/類描述:特征化和區(qū)分,一個概念:對一個包含大量數(shù)據(jù)的數(shù)據(jù)集合總體情況的概述。 概念描述(concept description):對含有大量數(shù)據(jù)的數(shù)據(jù)集合進行概述性的總結并獲得簡明、準確的描
9、述。 概念描述的主要方法: 對目標數(shù)據(jù)進行概述性的總結,數(shù)據(jù)泛化。 對兩個數(shù)據(jù)集合概化后,進行對比并將對比結果進行概化。(以表格或對比規(guī)則形式給出) 如一個大學中講師、副教授的情況 講師:75% (papers=3) and (teaching courses=2),概念描述:示例,Prime Generalized Relation,Initial Relation,新增加,關聯(lián)規(guī)則,關聯(lián)規(guī)則挖掘就是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關聯(lián) 關聯(lián)規(guī)則挖掘的典型案例:購物籃問題 在商場中擁有大量的商品(項目),如:牛奶、面包等,客戶將所購買的商品放入到自己的購物籃中。 通過發(fā)現(xiàn)顧客放入購物籃中的不同商
10、品之間的聯(lián)系,分析顧客的購買習慣: 哪些物品經(jīng)常被顧客購買? 同一次購買中,哪些商品經(jīng)常會被一起購買? 一般用戶的購買過程中是否存在一定的購買時間序列?,關聯(lián)規(guī)則,基本表示形式: 前提條件結論支持度, 置信度 buys(x, “diapers”) buys(x, “beers”) 0.5%, 66% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75% 具體應用:利潤最大化 商品貨架設計:更加適合客戶的購物路徑 貨存安排:實現(xiàn)超市的零庫存管理 用戶分類:提供個性化的服務,Presentation of Association Rules (Ta
11、ble Form ),分類與預測,分類的目的是提出一個分類函數(shù)或分類模型(即分類器),通過分類器將數(shù)據(jù)對象映射到某一個給定的類別中。 數(shù)據(jù)分類可以分為兩步進行。 第一步建立模型,用于描述給定的數(shù)據(jù)集合。通過分析由屬性描述的數(shù)據(jù)集合來建立反映數(shù)據(jù)集合特性的模型。這一步也稱作有監(jiān)督的學習,導出模型是基于訓練數(shù)據(jù)集的,訓練數(shù)據(jù)集是已知類標記的數(shù)據(jù)對象。 第二步使用模型對數(shù)據(jù)對象進行分類。首先應該評估模型的分類準確度,如果模型準確度可以接受,就可以用它來對未知類標記的對象進行分類。,Classification Process (1): Model Construction,Training Data
12、,Classification Algorithms,IF rank = professor OR years 6 THEN tenured = yes,Classifier (Model),Classification Process (2): Use the Model in Prediction,Classifier,Testing Data,Unseen Data,(Jeff, Professor, 4),Tenured?,決策樹學習簡介,決策樹(Decision Tree)學習是以樣本為基礎的歸納學習方法。 決策樹的表現(xiàn)形式是類似于流程圖的樹結構,在決策樹的內部節(jié)點進行屬性值測試,并
13、根據(jù)屬性值判斷由該節(jié)點引出的分支,在決策樹的葉節(jié)點得到結論。內部節(jié)點是屬性或屬性的集合,葉節(jié)點代表樣本所屬的類或類分布。 經(jīng)由訓練樣本集產(chǎn)生一棵決策樹后,為了對未知樣本集分類,需要在決策樹上測試未知樣本的屬性值。測試路徑由根節(jié)點到某個葉節(jié)點,葉節(jié)點代表的類就是該樣本所屬的類。,Training Dataset,This follows an example from Quinlans ID3,Output: A Decision Tree for “buys_computer”,age?,overcast,student?,credit rating?,no,yes,fair,excellen
14、t,=30,40,no,no,yes,yes,yes,30.40,決策樹實例,關于PlayTennis的決策樹如圖所示:,預測,預測的目的是從歷史數(shù)據(jù)記錄中自動推導出對給定數(shù)據(jù)的推廣描述,從而能夠對事先未知的數(shù)據(jù)進行預測。 分類和回歸是兩類主要的預測問題。分類是預測離散的值,回歸是預測連續(xù)值。,聚類分析,聚類是對數(shù)據(jù)對象進行劃分的一種過程,與分類不同的是,它所劃分的類是未知的,故此,這是一個“無指導的學習”(unsupervised learning)過程,即聚類算法不需要“教師”的指導,不需要提供訓練數(shù)據(jù),它傾向于數(shù)據(jù)的自然劃分。 文本聚類(Text clustering): 將文本集合分組
15、成多個類或簇,使得在同一個簇中的文本內容具有較高的相似度,而不同簇中的文本內容差別較大。它是聚類分析技術在文本處理領域的一種應用。,Vivisimo SE,Microsoft Research Asia,孤立點分析,與數(shù)據(jù)的一般行為或模式不一致。多數(shù)為噪聲或異常數(shù)據(jù),常被剔除。 在某些應用中,孤立點數(shù)據(jù)更有趣,如:銀行詐騙,洗黑錢、恐怖行為。 有專門進行孤立點研究的方法與技術。統(tǒng)計方法是占主流,考察數(shù)據(jù)的分布,用距離來度量。,演化分析,對隨時間變化的數(shù)據(jù)對象的變化規(guī)律和演化趨勢進行建模分析。(時序數(shù)據(jù)庫) 如對主要股票的交易數(shù)據(jù)進行建模分析。 方法 趨勢和偏差: 回歸分析 序列模式匹配:周期性
16、分析 基于類似性的分析,實例1-產(chǎn)毛量,資料來源 選用1961年第一季至1996年第二季之間的臺灣地區(qū)每季產(chǎn)毛資料,共計142筆。,觀察 觀測值資料呈現(xiàn)季節(jié)性變動,周期為4季;即12個月為一個循環(huán)。 數(shù)列亦呈現(xiàn)向上攀升的趨勢,為一種無定向型的時間序列資料。,實例2-北海布蘭特原油,資料來源 本研究選用1984年1月至1996年10月之北海布蘭特原油現(xiàn)貨價格(美元/桶)資料,共計154筆,作為研究的資料。,實例2-北海布蘭特原油(續(xù)),介入因子: 時間點為80的時候即為1990年8月,正是伊拉克入侵科威特的時候,也是波斯灣危機的開始時間,也造成國際原油價突然上漲,于是可將波斯灣戰(zhàn)爭視為介入因子,
17、而此影響持續(xù)了半年之久,于是在研究進口油價的時間序列分析時應以介入模型來探討。,在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘,關系數(shù)據(jù)庫 數(shù)據(jù)倉庫 事務數(shù)據(jù)庫 高級數(shù)據(jù)庫系統(tǒng)和信息庫 空間數(shù)據(jù)庫 時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫 多媒體數(shù)據(jù)庫 面向對象數(shù)據(jù)庫和對象-關系數(shù)據(jù)庫 異種數(shù)據(jù)庫 文本數(shù)據(jù)庫 萬維網(wǎng)(WWW),典型數(shù)據(jù)挖掘系統(tǒng)的體系結構,數(shù)據(jù)倉庫,數(shù)據(jù)清洗,過濾,數(shù)據(jù)庫,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務器,數(shù)據(jù)挖掘引擎,模式評估,圖形用戶界面,知識庫,數(shù)據(jù)集成,數(shù)據(jù)挖掘的工具,SAS Enterprise Miner SPSS Intelligent Miner(IBM) Analysis Services(MS) DBM
18、iner (DBMiner Technology Inc.) Matlab .,數(shù)據(jù)挖掘技術的研究歷史,KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學術會議上 19891994年,由美國人工智能協(xié)會主辦的KDD國際研討會 1995開始,召開KDD and Data Mining國際學術大會 1998年,建立ACM SIGKDD組織 SIGKDD1999-2002 conferences SIGKDD Explorations 其它的國際和地區(qū)性的KDD和數(shù)據(jù)挖掘會議 PAKDD PKDD DaWaK SIAM-Data Mining (IEEE) ICDM 數(shù)據(jù)庫、人工智能
19、、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了KDD專題或專刊。 在Internet上還有不少KDD電子出版物,如:Knowledge Discovery Nuggets(,數(shù)據(jù)挖掘技術的應用領域,科學研究 購物籃分析 Web點擊流分析 市場營銷(客戶關系管理) 風險管理 ,數(shù)據(jù)挖掘技術的前景,國際知名調查機構Gartner Group在高級技術調查報告中,將 數(shù)據(jù)挖掘和人工智能列為“未來三到五年內將對工業(yè)產(chǎn)生深遠影響的五大關鍵技術”之首 并行處理體系和數(shù)據(jù)挖掘列為未來五年內投資焦點的十大新興技術前二位 預計到2010年數(shù)據(jù)挖掘的市場將由目前小于5增加到大于80 美國銀行家協(xié)會預測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術在美國商業(yè)銀行的應用增長
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康系列活動策劃方案(3篇)
- 直播相伴活動策劃方案(3篇)
- 財務管理制度制定依據(jù)(3篇)
- 2026廣東廣州國家實驗室中國數(shù)字肺項目工程技術中心招聘2人備考考試題庫及答案解析
- 2026河北廊坊師范學院選聘26人參考考試題庫及答案解析
- 2026山東德州市事業(yè)單位招聘初級綜合類崗位人員備考考試題庫及答案解析
- 2026云南省人力資源和社會保障廳所屬事業(yè)單位招聘12人備考考試試題及答案解析
- 2026廣東廣州市華南理工大學醫(yī)院合同制人員招聘2人備考考試題庫及答案解析
- 2026廣東惠州市博羅縣村級經(jīng)濟聯(lián)盟有限公司招聘1人備考考試試題及答案解析
- 入校物品消毒管理制度(3篇)
- 廣東省領航高中聯(lián)盟2024-2025學年高一下學期第一次聯(lián)合考試語文試卷(含答案)
- 社區(qū)健康服務與管理課件
- QGDW1512-2014電力電纜及通道運維規(guī)程
- 投資車行合同協(xié)議書
- 國際消防安全系統(tǒng)規(guī)則
- 靜脈治療新理念
- 高中研究性學習指導課課件系列總結階段-學生如何開展研究活動
- 心內介入治療護理
- 民辦職業(yè)培訓方案模板
- 04S519小型排水構筑物(含隔油池)圖集
- 旅居養(yǎng)老可行性方案
評論
0/150
提交評論