4數(shù)據(jù)挖掘:概念與技術(shù)-第三章-數(shù)據(jù)倉庫和OLAP技術(shù)1_第1頁
4數(shù)據(jù)挖掘:概念與技術(shù)-第三章-數(shù)據(jù)倉庫和OLAP技術(shù)1_第2頁
4數(shù)據(jù)挖掘:概念與技術(shù)-第三章-數(shù)據(jù)倉庫和OLAP技術(shù)1_第3頁
4數(shù)據(jù)挖掘:概念與技術(shù)-第三章-數(shù)據(jù)倉庫和OLAP技術(shù)1_第4頁
4數(shù)據(jù)挖掘:概念與技術(shù)-第三章-數(shù)據(jù)倉庫和OLAP技術(shù)1_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),1,數(shù)據(jù)挖掘:概念與技術(shù) 第三章:數(shù)據(jù)倉庫與OLAP技術(shù)概述 ,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),2,第三章:數(shù)據(jù)倉庫與OLAP技術(shù)概述,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)集模型 數(shù)據(jù)倉庫體系結(jié)構(gòu) 數(shù)據(jù)倉庫實現(xiàn) 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),3,什么是數(shù)據(jù)倉庫?,多種定義方式,但不嚴格 從組織機構(gòu)的操作數(shù)據(jù)庫分離并獨立維護的決策支持數(shù)據(jù)庫 支持信息處理,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺 數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的和非易失的數(shù)據(jù)集合,支持管理部門的決策過程。W. H. Inmon 建立數(shù)據(jù)倉庫: 構(gòu)建和使

2、用數(shù)據(jù)倉庫的過程,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),4,數(shù)據(jù)倉庫面向主題的,圍繞主題組織數(shù)據(jù), 如顧客、產(chǎn)品、銷售等。 關(guān)注決策者的數(shù)據(jù)建模與分析,而不是組織機構(gòu)的日常操作和事務(wù)處理。 提供特定主題的簡明視圖,排除對于決策支持過程無用的數(shù)據(jù)。,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),5,數(shù)據(jù)倉庫集成的,由多個異構(gòu)數(shù)據(jù)源集成構(gòu)建 關(guān)系數(shù)據(jù)庫,平面文件,聯(lián)機事務(wù)記錄 應(yīng)用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù) 確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性 將數(shù)據(jù)遷入數(shù)據(jù)倉庫時需要進行數(shù)據(jù)轉(zhuǎn)換,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),6,數(shù)據(jù)倉庫時變的,數(shù)據(jù)倉庫中數(shù)據(jù)的時間范圍比業(yè)務(wù)操作系統(tǒng)中長得多 業(yè)務(wù)操

3、作數(shù)據(jù)庫:當前數(shù)據(jù) 數(shù)據(jù)倉庫:提供歷史數(shù)據(jù)信息 (如過去5-10年) 數(shù)據(jù)倉庫中的結(jié)構(gòu)主鍵: 都隱式或顯示包含時間元素 但業(yè)務(wù)操作數(shù)據(jù)主鍵不一定包含時間元素,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),7,數(shù)據(jù)倉庫非易失的,物理存儲:與操作環(huán)境分離,雖然來自其中。 數(shù)據(jù)倉庫環(huán)境中不發(fā)生數(shù)據(jù)更新操作 不需要事務(wù)處理,恢復(fù)和并發(fā)控制機制 只需要兩種數(shù)據(jù)操作: i數(shù)據(jù)初始化裝入 數(shù)據(jù)訪問,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),8,數(shù)據(jù)倉庫與異構(gòu)數(shù)據(jù)庫,傳統(tǒng)異構(gòu)數(shù)據(jù)庫集成:查詢驅(qū)動方法 在異構(gòu)數(shù)據(jù)庫上建立包裝程序和集成程序(中介程序) 提交查詢時,使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換為異構(gòu)站點上的查詢。然后將查

4、詢映射和發(fā)送到局部查詢處理器,由不同站點返回的結(jié)果集成為全局查詢結(jié)果集。 復(fù)雜的信息過濾和集成處理,與局部數(shù)據(jù)源的處理競爭資源 數(shù)據(jù)倉庫:更新驅(qū)動方法,高性能 將異構(gòu)源的信息預(yù)先集成并存儲在數(shù)據(jù)倉庫中,供直接查詢和分析 不包含最近的信息 支持復(fù)雜多維查詢,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),9,數(shù)據(jù)倉庫與業(yè)務(wù)操作數(shù)據(jù)庫,OLTP (on-line transaction processing),聯(lián)機事務(wù)處理 傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng)的主要任務(wù) 日常操作:購物,庫存,制造,銀行,工資,注冊,記賬等。 OLAP (on-line analytical processing),聯(lián)機分析處理 數(shù)據(jù)

5、倉庫系統(tǒng)的主要任務(wù) 數(shù)據(jù)分析和決策制定 區(qū)別 (OLTP vs. OLAP): 用戶和系統(tǒng)的面向性:顧客事務(wù)和查詢(辦事員,打工仔)與市場數(shù)據(jù)分析(知識工人,老板) 數(shù)據(jù)內(nèi)容: 當前的,細節(jié)的 vs. 歷史的, 匯總聚集的 數(shù)據(jù)庫設(shè)計: E-R + 業(yè)務(wù)應(yīng)用 vs. 星形、雪花型 + 主題 視圖: 當前的,局部的 vs. 進化的,集成的 訪問模式: 更新 vs. 只讀 但查詢復(fù)雜,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),10,OLTP vs. OLAP,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),11,為什么需要分離數(shù)據(jù)倉庫?,提高兩個系統(tǒng)的系能 DBMS tuned for OLTP: ac

6、cess methods, indexing, concurrency control, recovery Warehousetuned for OLAP: complex OLAP queries, multidimensional view, consolidation 不同的功能和不同的數(shù)據(jù): 數(shù)據(jù)不全: Decision support requires historical data which operational DBs do not typically maintain 數(shù)據(jù)聚合: DS requires consolidation (aggregation, summari

7、zation) of data from heterogeneous sources 數(shù)據(jù)質(zhì)量: different sources typically use inconsistent data representations, codes and formats which have to be reconciled Note: 越來越多的系統(tǒng)直接在DBMS上進行,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),12,Chapter 3: Data Warehousing and OLAP Technology: An Overview,What is a data warehouse? A m

8、ulti-dimensional data model Data warehouse architecture Data warehouse implementation From data warehousing to data mining,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),13,由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體,數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,以數(shù)據(jù)立方體的方式觀察數(shù)據(jù) 數(shù)據(jù)立方體,如銷售, 從多維角度對數(shù)據(jù)建模和觀察 維度表, 如 item (item_name, brand, type), or time(day, week, month, quarter, year)

9、事實表 (如 dollars_sold) 包含度量值和關(guān)聯(lián)維度表的碼 名詞: 數(shù)據(jù)立方體成為方體(cuboid) 存放最底層匯總的方體( n-D )成為基本方體(basic cuboid) 存放最高層匯總的方體( 0-D )稱為頂點方體(apex cuboid),用all標記 方體的格成為數(shù)據(jù)立方體(data cube),2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),14,3-D數(shù)據(jù)立方體,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),15,4-D數(shù)據(jù)立方體,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),16,數(shù)據(jù)立方體:方體的格,time,item,time,item,location,time, it

10、em, location, supplier,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),17,數(shù)據(jù)倉庫的概念建模,數(shù)據(jù)倉庫建模: dimensions week year Set_grouping hierarchy 1.10 = minsup,動機 僅一小部分“浮于水面”的立方體單元存儲在稀疏立方體中 僅計算感興趣的單元數(shù)據(jù)超出某一閾值 避免立方體的爆炸性增長,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),54,索引OLAP數(shù)據(jù):位圖索引,某一具體列上的索引; 列中的每一個值都有一個位向量:位操作速度快 如果給定屬性上包含n個值,則位圖索引中每項需要n個位。 位向量的長度:基本表的記錄數(shù) 如果基

11、表給定行上該屬性值為v,則位圖索引對應(yīng)行的該值位置1。 不適合集數(shù)很大的域,導(dǎo)致位向量很長,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),55,位圖索引例子,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),56,索引OLAP數(shù)據(jù): 連接索引,連接索引:JI(R-id, S-id) where R (R-id, ) S (S-id, ) 傳統(tǒng)的索引將給定列上的值映射到具有該值的行的列表上 在JI文件中物化關(guān)系連接,加快連接速度 在數(shù)據(jù)倉庫中,連接索引維護維的屬性值與事實表的對應(yīng)行的聯(lián)系 連接索引可以跨越多維,形成符合連接索引,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),57,連接索引例子,2020/6/27

12、,數(shù)據(jù)挖掘:概念與技術(shù),58,OLAP 查詢的有效處理,確定哪些操作應(yīng)該在可利用的方體上執(zhí)行 將 drill, roll等操作轉(zhuǎn)化為SQL或OLAP操作 e.g., dice = selection + projection 確定相關(guān)操作 應(yīng)當使用哪些物化的方體 假設(shè)對 brand, province_or_state 處理查詢,選擇常量 “year = 2004”, 有4個物化方體可用: 1) year, item_name, city 2) year, brand, country 3) year, brand, province_or_state 4) item_name, provin

13、ce_or_state where year = 2004 應(yīng)該選擇哪一個來處理查詢? 基于代價的估計。 采用稀疏矩陣和數(shù)據(jù)壓縮技術(shù),2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),59,Chapter 3: Data Warehousing and OLAP Technology: An Overview,What is a data warehouse? A multi-dimensional data model Data warehouse architecture Data warehouse implementation From data warehousing to data min

14、ing,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),60,數(shù)據(jù)倉庫的使用,三種數(shù)據(jù)倉庫應(yīng)用 信息處理 支持查詢、基本的統(tǒng)計分析、使用交叉表、表、圖表進行報告 構(gòu)造低代價的基于Web的訪問工具。 分析處理 多維數(shù)據(jù)分析 支持OLAP操作: slice-dice, drilling, pivoting 數(shù)據(jù)挖掘 從隱藏的模式中發(fā)現(xiàn)知識 支持關(guān)聯(lián)分析,構(gòu)造分析模型,進行分類和預(yù)測,使用可視化工具提供挖掘結(jié)果,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),61,數(shù)據(jù)倉庫的漸進使用,商務(wù)管理人員使用數(shù)據(jù)倉庫和數(shù)據(jù)集市進行數(shù)據(jù)分析和戰(zhàn)略決策 數(shù)據(jù)倉庫使用時間越長,進化的越好 開始,用于產(chǎn)生報告和回答預(yù)先定義的查

15、詢 漸漸地,用于分析匯總和詳細的數(shù)據(jù)結(jié)果以報表和圖表提供 稍后,用于戰(zhàn)略目的,進行多維分析和復(fù)雜的切片和切塊操作。 最后,用于知識發(fā)現(xiàn),并使用數(shù)據(jù)挖掘工具進行戰(zhàn)略決策。 數(shù)據(jù)倉庫工具:訪問與檢索工具,數(shù)據(jù)庫報表工具,數(shù)據(jù)分析工具和數(shù)據(jù)挖掘工具,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),62,從聯(lián)機分析處理(OLAP) 到聯(lián)機分析挖掘 (OLAM),為什么需要聯(lián)機分析挖掘? 數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量 DW中包含集成,一致,干凈的數(shù)據(jù) 環(huán)繞數(shù)據(jù)倉庫的信息處理基礎(chǔ)設(shè)施 ODBC, OLEDB, Web訪問, 服務(wù)機制, reporting and OLAP tools 基于OLAP的探測試數(shù)據(jù)分析 M

16、ining with drilling, dicing, pivoting, etc. 數(shù)據(jù)挖掘功能的聯(lián)機選擇 Integration and swapping of multiple mining functions, algorithms, and tasks,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),63,聯(lián)機分析挖掘的體系結(jié)構(gòu),2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),64,Chapter 3: Data Warehousing and OLAP Technology: An Overview,What is a data warehouse? A multi-dimensional

17、data model Data warehouse architecture Data warehouse implementation From data warehousing to data mining Summary,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),65,總結(jié): 數(shù)據(jù)倉庫和OLAP技術(shù),為什么需要數(shù)據(jù)倉庫? 數(shù)據(jù)倉庫的多維數(shù)據(jù)模型 Star schema, snowflake schema, fact constellations A data cube consists of dimensions & measures OLAP 操作: drilling, rolling

18、, slicing, dicing and pivoting 數(shù)據(jù)倉庫結(jié)構(gòu)體系 OLAP 服務(wù)器: ROLAP, MOLAP, HOLAP 數(shù)據(jù)立方體的有效計算 Partial vs. full vs. no materialization Indexing OALP data: Bitmap index and join index OLAP query processing 從 OLAP 到 OLAM (聯(lián)機分析挖掘),2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),66,References (I),S. Agarwal, R. Agrawal, P. M. Deshpande, A. Gup

19、ta, J. F. Naughton, R. Ramakrishnan, and S. Sarawagi. On the computation of multidimensional aggregates. VLDB96 D. Agrawal, A. E. Abbadi, A. Singh, and T. Yurek. Efficient view maintenance in data warehouses. SIGMOD97 R. Agrawal, A. Gupta, and S. Sarawagi. Modeling multidimensional databases. ICDE97

20、 S. Chaudhuri and U. Dayal. An overview of data warehousing and OLAP technology. ACM SIGMOD Record, 26:65-74, 1997 E. F. Codd, S. B. Codd, and C. T. Salley. Beyond decision support. Computer World, 27, July 1993. J. Gray, et al. Data cube: A relational aggregation operator generalizing group-by, cro

21、ss-tab and sub-totals. Data Mining and Knowledge Discovery, 1:29-54, 1997. A. Gupta and I. S. Mumick. Materialized Views: Techniques, Implementations, and Applications. MIT Press, 1999. J. Han. Towards on-line analytical mining in large databases. ACM SIGMOD Record, 27:97-107, 1998. V. Harinarayan,

22、A. Rajaraman, and J. D. Ullman. Implementing data cubes efficiently. SIGMOD96,2020/6/27,數(shù)據(jù)挖掘:概念與技術(shù),67,References (II),C. Imhoff, N. Galemmo, and J. G. Geiger. Mastering Data Warehouse Design: Relational and Dimensional Techniques. John Wiley, 2003 W. H. Inmon. Building the Data Warehouse. John Wiley, 1996 R. Kimball and M. Ross. The Data Wa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論