版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第3章 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),2,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 數(shù)據(jù)立方體的進(jìn)一步發(fā)展 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘,3,什么是數(shù)據(jù)倉(cāng)庫(kù)?,有不同的方法定義, 但不是嚴(yán)格的. 是一個(gè)決策支持?jǐn)?shù)據(jù)庫(kù), 它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù) 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起, 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái), 支持信息處理. W. H. Inmon的定義: 數(shù)據(jù)倉(cāng)庫(kù)是 面向主題的(subject-oriented), 集成的(integrated), 時(shí)變的(time-variant), 和非易失的( nonvo
2、latile) 數(shù)據(jù)集合, 支持管理決策過(guò)程 建立數(shù)據(jù)倉(cāng)庫(kù)(Data warehousing): 構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,4,數(shù)據(jù)倉(cāng)庫(kù)面向主題的,圍繞重要的主題( 如顧客、產(chǎn)品、銷售等) 組織. 關(guān)注決策制定者的數(shù)據(jù)建模與分析, 而不是日常的操作和事務(wù)處理. 數(shù)據(jù)倉(cāng)庫(kù)排除對(duì)于決策過(guò)程無(wú)用的數(shù)據(jù), 提供特定主題的簡(jiǎn)明視圖.,5,數(shù)據(jù)倉(cāng)庫(kù) 集成的,通過(guò)將多個(gè)異種的數(shù)據(jù)源集成在一起, 而構(gòu)造 比如,關(guān)系數(shù)據(jù)庫(kù), 一般文件, 聯(lián)機(jī)事務(wù)記錄 使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù). 確保命名約定, 編碼結(jié)構(gòu), 屬性度量等的一致性 例如, 飯店價(jià)格: 貨幣種類, 稅, 是否含早餐, 等. 當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)時(shí), 數(shù)
3、據(jù)將被轉(zhuǎn)換.,6,數(shù)據(jù)倉(cāng)庫(kù) 時(shí)變的,數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間跨度顯著地比操作數(shù)據(jù)庫(kù)長(zhǎng). 操作數(shù)據(jù)庫(kù)數(shù)據(jù): 當(dāng)前值數(shù)據(jù). 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù): 從歷史的角度提供數(shù)據(jù) (例如, 過(guò)去 5-10 年) 數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)鍵結(jié)構(gòu) 顯式或隱式地包含時(shí)間元素, 但是, 操作數(shù)據(jù)的鍵可能包含, 也可能不包含“時(shí)間元素”.,7,數(shù)據(jù)倉(cāng)庫(kù) 非易失的,從操作環(huán)境轉(zhuǎn)換過(guò)來(lái)的數(shù)據(jù)物理地分離存放. 數(shù)據(jù)的更新不在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中出現(xiàn). 不需要事務(wù)處理, 恢復(fù), 和并發(fā)控制機(jī)制 只需要兩種數(shù)據(jù)存取操作: 數(shù)據(jù)的初始化裝入 和 數(shù)據(jù)訪問(wèn).,8,數(shù)據(jù)倉(cāng)庫(kù)和異種DBMS,傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成: 在異種數(shù)據(jù)庫(kù)上建立一個(gè)包裝程序(wrappers)或
4、中介程序(/mediators) 查詢驅(qū)動(dòng)的方法 當(dāng)查詢提交給一個(gè)站點(diǎn)時(shí), 使用元數(shù)據(jù)詞典將查詢轉(zhuǎn)換成所涉及的異構(gòu)站點(diǎn)上的相應(yīng)查詢, 查詢的結(jié)果被集成為一個(gè)全局回答的集合 需要:復(fù)雜的信息過(guò)濾, 對(duì)資源的競(jìng)爭(zhēng) 數(shù)據(jù)倉(cāng)庫(kù): 更新驅(qū)動(dòng)的, 高性能 來(lái)自異種信息源的數(shù)據(jù)被預(yù)先集成并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中, 直接用于查詢和分析,9,數(shù)據(jù)倉(cāng)庫(kù)VS.操作數(shù)據(jù)庫(kù),OLTP (on-line transaction processing, 聯(lián)機(jī)事務(wù)處理) 傳統(tǒng)關(guān)系 DBMS的主要任務(wù) 涵蓋日常操作: 購(gòu)買, 庫(kù)存, 銀行, 制造, 工資單, 注冊(cè), 記帳, 等. OLAP (on-line analytical p
5、rocessing, 聯(lián)機(jī)分析處理) 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要任務(wù) 數(shù)據(jù)分析和決策制定上提供服務(wù) 不同的特點(diǎn) (OLTP vs. OLAP): 用戶和系統(tǒng)的面向性: 顧客 vs. 市場(chǎng) 數(shù)據(jù)內(nèi)容: 當(dāng)前的, 細(xì)節(jié)的 vs. 歷史的, 合并的 數(shù)據(jù)庫(kù)設(shè)計(jì): ER + 應(yīng)用 vs. 星型 + 主題 視圖: 當(dāng)前的, 局部的 vs. 進(jìn)化的, 集成的 訪問(wèn)模式: 更新 vs. 只讀的, 但是復(fù)雜的查詢,10,OLTP vs. OLAP,11,為什么建立分離的數(shù)據(jù)倉(cāng)庫(kù)?,為了兩個(gè)系統(tǒng)的高性能 DBMS 目的是 OLTP: 存取方法, 索引, 并發(fā)控制, 恢復(fù) 數(shù)據(jù)倉(cāng)庫(kù)目的是 OLAP: 復(fù)雜的 OLAP 查
6、詢, 多維視圖, 統(tǒng)一. 不同的功能和不同的數(shù)據(jù): 缺少數(shù)據(jù): 決策支持需要?dú)v史數(shù)據(jù), 通常操作數(shù)據(jù)庫(kù)并不維護(hù)這些數(shù)據(jù) 數(shù)據(jù)統(tǒng)一: 決策支持需要將來(lái)自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一 (聚集, 匯總) 數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示, 編碼, 和應(yīng)當(dāng)遵循的格式,12,第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘 數(shù)據(jù)立方體的進(jìn)一步發(fā)展,13,由表和電子數(shù)據(jù)表到數(shù)據(jù)方,數(shù)據(jù)倉(cāng)庫(kù)基于 多維數(shù)據(jù)模型 , 多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(data cube)形式 數(shù)據(jù)方( 如sales) 可以將數(shù)據(jù)建模, 并允許由多個(gè)維
7、進(jìn)行觀察 維表, 如 item (item_name, brand, type), 或 time(day, week, month, quarter, year) 事實(shí)表包含度量 (如 dollars_sold) 和每個(gè)相關(guān)維表的鍵 在數(shù)據(jù)倉(cāng)庫(kù)的文獻(xiàn)中, 一個(gè) n-D 基本立方體 稱作基本方體(base cuboid). 最頂部的 0-D方體存放最高層的匯總, 稱作頂點(diǎn)方體( apex cuboid). 方體的格形成數(shù)據(jù)方.,14,立方體: 方體的格,all,time,item,location,supplier,time,item,time,location,time,supplier,it
8、em,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time, item, location, supplier,0-D(頂點(diǎn)) 方體,1-D 方體,2-D方體,3-D方體,4-D(基本)方體,15,數(shù)據(jù)倉(cāng)庫(kù)的概念建模,數(shù)據(jù)倉(cāng)庫(kù)建模: 多維模型,涉及維和度量 星型模式: 事實(shí)表在中央, 連接一組維表 雪花模式 : 星型模式的精煉, 其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表, 形成類似于雪花的
9、形狀,減少冗余 事實(shí)星座: 多個(gè)事實(shí)表共享維表, 可以看作星星的集合, 因此稱作星系模式, 或事實(shí)星座,16,星型模式的例子,事實(shí)表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,17,雪花模式的例子,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,18,事實(shí)星座的例子,Sales Fact Table,time_ke
10、y,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,Shipping Fact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,19,數(shù)據(jù)挖掘查詢語(yǔ)言 DMQL: 語(yǔ)言原語(yǔ),立方體定義 (事實(shí)表) define cube : 維定義 ( 維表) define dimension as () 特殊情況 (共享維表) 第一次, 如 “cube definition”
11、define dimension as in cube ,20,用DMQL定義星型模式,define cube sales_star time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_k
12、ey, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country),21,用DMQL定義雪花模式,define cube sales_snowflake time, item, branch, location: dollars_sold = sum(sales_in_doll
13、ars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type) define dimension branch as (branch_key, branch_name, branch_typ
14、e) define dimension location as (location_key, street, city(city_key, province_or_state, country),22,用DMQL定義事實(shí)星座,define cube sales time, item, branch, location: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day
15、_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping time, item, shipper,
16、 from_location, to_location: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension
17、from_location as location in cube sales define dimension to_location as location in cube sales,23,三類度量(數(shù)值函數(shù)),分布的(distributive): 將數(shù)據(jù)劃分為n個(gè)集合, 函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值. 如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果, 與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣, 則該函數(shù)可以用分布方式計(jì)算. 例, count(), sum(), min(), max(). 代數(shù)的(algebraic):如果它能夠由一個(gè)具有M(其中, M是一個(gè)整數(shù)界)個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算, 而每個(gè)
18、參數(shù)都可以用一個(gè)分布聚集函數(shù)求得 . 例, avg(), min_N(), standard_deviation(). 整體的(holistic):如果描述它的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界 . 例, median(), mode(), rank().,24,一個(gè)概念分層: 維Location,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,25,數(shù)據(jù)倉(cāng)庫(kù)和分層結(jié)構(gòu)
19、視圖,26,多維數(shù)據(jù),多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個(gè)抽象層 銷售量作為 product, month, 和 region的函數(shù),Product,Region,Month,維: Product, Location, Time 的分層結(jié)構(gòu),Industry Region Year Category Country Quarter Product City Month Week Office Day,27,一個(gè)數(shù)據(jù)方的樣本,TV 在 U.S.A.的總銷售,28,對(duì)應(yīng)于數(shù)據(jù)方的方體,all,product,date,country,product,date,product,c
20、ountry,date, country,product, date, country,0-D(頂點(diǎn)) 方體,1-D方體,2-D方體,3-D(基本)方體,29,瀏覽數(shù)據(jù)方,可視化 OLAP 的能力 交互式操作,30,典型的OLAP操作,上卷(Roll up)/上鉆 (drill-up): 匯總數(shù)據(jù) 下鉆(Drill down)/下卷 (roll down): 上卷的逆操作 切片(Slice)和切塊 : 投影和選擇 轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn) (rotate): 調(diào)整數(shù)據(jù)方, 目視操作, 3D 到 2D 平面. 其它操作 鉆過(guò)(drill across): 涉及多個(gè)事實(shí)表 鉆透(drill thr
21、ough): 通過(guò)數(shù)據(jù)方的最底層, 到它背后的關(guān)系表 (使用 SQL),31,OLAP 操作: 上卷,上卷(Roll up)/上鉆 (drill-up): 匯總數(shù)據(jù) 通過(guò)沿概念分層攀升或通過(guò)維歸約 在 location上卷(由 cities 到 countries),32,OLAP 操作: 下鉆,下鉆(Drill down)/下卷 (roll down): 上卷的逆操作 由較高層的匯總到較低層的匯總或詳細(xì)數(shù)據(jù), 或者引進(jìn)新的維 在 time下鉆 (由 quarters 到 months),33,OLAP 操作:切片,切片(Slice) : 投影和選擇,對(duì)一個(gè)維進(jìn)行選擇,導(dǎo)致子方體 切片條件:
22、time=“Q2”,34,OLAP 操作: 切塊,切塊 : 對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,導(dǎo)致子方體 切塊條件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” or “computer”),35,OLAP 操作: 轉(zhuǎn)軸,轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn) (rotate): 調(diào)整數(shù)據(jù)方, 可視化操作,提供數(shù)據(jù)的替代表示.,36,其他操作,其它操作 鉆過(guò)(drill across): 涉及多個(gè)事實(shí)表 鉆透(drill through): 通過(guò)數(shù)據(jù)方的最底層, 到它背后的關(guān)系表
23、 (使用 SQL) 統(tǒng)計(jì)計(jì)算 比率、方差;增長(zhǎng)率 分析建模,等,37,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘 數(shù)據(jù)立方體的進(jìn)一步發(fā)展,38,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中,必須考慮四種視圖 自頂向下視圖 選擇數(shù)據(jù)倉(cāng)庫(kù)所需的有關(guān)信息 數(shù)據(jù)源視圖 揭示(操作)數(shù)據(jù)庫(kù)系統(tǒng)捕獲、存儲(chǔ)、和管理的信息 數(shù)據(jù)倉(cāng)庫(kù)視圖 由事實(shí)表和維表組成 商務(wù)查詢視圖 從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),39,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程,自頂向下, 自底向上方法或二者的結(jié)合 自頂向下: 由總體設(shè)計(jì)和規(guī)劃開始 (成熟) 自底向上: 由實(shí)驗(yàn)和原型開始 (
24、快速) 軟件工程的觀點(diǎn) 瀑布式: 在進(jìn)行下一步之前, 每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析 螺旋式 :功能漸增的系統(tǒng)的快速產(chǎn)生, 相繼版本之間的間隔很短 , 快速轉(zhuǎn)向 典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程 選取待建模的商務(wù)處理, 例如, 訂單, 發(fā)票, 庫(kù)存等. 選取商務(wù)處理的粒度 (原子層數(shù)據(jù)), 例如,單個(gè)事務(wù)、一天的快照等 選取用于每個(gè)事實(shí)表記錄的維, 如,時(shí)間、商品、顧客、供應(yīng)商、倉(cāng)庫(kù)、事務(wù)類型和狀態(tài) 等 選取將安放在事實(shí)表中的度量. 典型的度量是可加的數(shù)值量, 如dollars_sold和units_sold,40,多層結(jié)構(gòu),數(shù)據(jù)倉(cāng)庫(kù),OLAP引擎,分析 查詢 報(bào)告 數(shù)據(jù)挖掘,Monitor & Int
25、egrator,元數(shù)據(jù),數(shù)據(jù)源,終端工具,輸出,數(shù)據(jù)集市,數(shù)據(jù)存儲(chǔ),OLAP 服務(wù)器,41,三層數(shù)據(jù)倉(cāng)庫(kù)模型,企業(yè)倉(cāng)庫(kù) 搜集了關(guān)于主題的所有信息, 跨越整個(gè)組織 數(shù)據(jù)集市 數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集, 對(duì)于特定的用戶是有用的. 其范圍限于選定的主題, 如銷售數(shù)據(jù) 獨(dú)立的 vs. 依賴的 (直接來(lái)自數(shù)據(jù)倉(cāng)庫(kù)) 數(shù)據(jù)集市 虛擬倉(cāng)庫(kù) 操作數(shù)據(jù)庫(kù)上視圖的集合 只有部分可能的匯總視圖被物化,42,數(shù)據(jù)倉(cāng)庫(kù)開發(fā): 一種推薦的方法,定義一個(gè)高層企業(yè)數(shù)據(jù)模型,數(shù)據(jù)集市,分布式 數(shù)據(jù)集市,多層數(shù)據(jù)倉(cāng)庫(kù),企業(yè)數(shù)據(jù)倉(cāng)庫(kù),模型 提煉,數(shù)據(jù)集市,模 型 提 煉,43,OLAP 服務(wù)器結(jié)構(gòu),關(guān)系OLAP (ROL
26、AP) 使用關(guān)系或擴(kuò)充關(guān)系的 DBMS 存放和管理倉(cāng)庫(kù)數(shù)據(jù), 使用OLAP中間件支持其它部分 包含一個(gè)優(yōu)化的 DBMS 后端, 聚集導(dǎo)航邏輯的實(shí)現(xiàn), 以及附加的工具和服務(wù) 較大的可伸縮性 多維 OLAP (MOLAP) 基于數(shù)組的多維存儲(chǔ)引擎 (稀疏矩陣技術(shù)) 對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引 混合 OLAP (HOLAP) 彈性, 底層: 關(guān)系的, 高層: 數(shù)組. 專門的 SQL 服務(wù)器 對(duì)星型/雪花型模式上的SQL查詢提供特殊的支持,44,元數(shù)據(jù)存儲(chǔ),元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù). 有如下類型 描述數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu) 模式, 視圖, 維, 分層結(jié)構(gòu), 數(shù)據(jù)源定義, 數(shù)據(jù)集市的位置和內(nèi)容 操作元數(shù)據(jù) 數(shù)
27、據(jù)血統(tǒng) (數(shù)據(jù)變遷歷史和轉(zhuǎn)換路徑), 數(shù)據(jù)流通 (主動(dòng), 存檔, 或凈化), 管理信息 (數(shù)據(jù)倉(cāng)庫(kù)使用統(tǒng)計(jì), 錯(cuò)誤報(bào)告, 審計(jì)跟蹤) 用于匯總的算法 由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射 涉及系統(tǒng)性能的數(shù)據(jù) 倉(cāng)庫(kù)模式, 視圖和導(dǎo)出數(shù)據(jù)的定義 商務(wù)數(shù)據(jù) 商務(wù)術(shù)語(yǔ)和定義, 數(shù)據(jù)的所有者, 收費(fèi)政策,45,數(shù)據(jù)倉(cāng)庫(kù)的后端工具和實(shí)用程序,數(shù)據(jù)提取: 由多個(gè)異種, 外部數(shù)據(jù)源收集數(shù)據(jù) 數(shù)據(jù)清理: 檢測(cè)數(shù)據(jù)中的錯(cuò)誤, 可能時(shí)訂正它們 數(shù)據(jù)變換: 將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式 裝載: 排序, 綜合, 加固, 計(jì)算視圖, 檢查整體性, 并建立索引和劃分 刷新 傳播由數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的更新,46,第2章: 數(shù)
28、據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn) 從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘 數(shù)據(jù)立方體的進(jìn)一步發(fā)展,47,數(shù)據(jù)方的有效計(jì)算,數(shù)據(jù)方可以視為方體的格 最下面的方體是基本方體 最上面的 (頂點(diǎn)) 方體只包含一個(gè)單元 具有L層的n-D數(shù)據(jù)方包含多少個(gè)方體? 其中Li是與維i相關(guān)聯(lián)的層數(shù) 數(shù)據(jù)方的物化(Materialization) 物化每一個(gè)方體 (全物化), 不物化任何方體(不物化), 或物化某些方體(部分物化) 物化方體的選擇 基于大小, 共享, 訪問(wèn)頻率, 等.,48,數(shù)據(jù)方計(jì)算,用DMQL定義和計(jì)算數(shù)據(jù)方 define cube salesitem,
29、city, year: sum(sales_in_dollars) compute cube sales 將它變換成類SQL語(yǔ)句 (用新的操作 cube by擴(kuò)充, 由Gray 等96引進(jìn)) SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year 需要計(jì)算的分組 (city, item, year), (city,item),(city, year), (item, city), (city), (item), (year) (),(item),(city),(),(year),(city, item)
30、,(city, year),(item, year),(city, item, year),49,數(shù)據(jù)方計(jì)算: 基于ROLAP的方法(1),有效的方計(jì)算方法 基于ROLAP的方計(jì)算算法 (Agarwal et al96) 基于數(shù)組的方計(jì)算算法 (Zhao et al97) 自底向上的方法 (Beyer & Ramarkrishnan99) 混合的方法 (Han, Pei, Dong & Wang:SIGMOD01) 基于ROLAP的方計(jì)算算法 排序, 散列,和分組操作用于維屬性, 以便對(duì)相關(guān)元組重新排序和分簇 在某些子聚集上分組,作為“部分分組” 由以前計(jì)算的聚集計(jì)算新的聚集,而不必由基本事實(shí)
31、表計(jì)算,50,數(shù)據(jù)方計(jì)算: 基于ROLAP的方法(2),取自研究論文 基于Hash/排序 的方法 (Agarwal 等. VLDB96) 最小雙親(Smallest-parent): 由最小的, 先前計(jì)算的方體計(jì)算方體 存儲(chǔ)結(jié)果(Cache-results): 存儲(chǔ)先前計(jì)算的方體, 由它可以計(jì)算其它方體, 以減少磁盤I/O 分?jǐn)倰呙?Amortize-scans): 同時(shí)計(jì)算盡可能多的方體, 以分?jǐn)偞疟P的讀操作開銷 共享排序(Share-sorts): 使用基于排序的方法時(shí), 在多個(gè)方體之間共享排序開銷 共享劃分(Share-partitions): 使用基于hash的方法時(shí), 在多個(gè)方體之間
32、共享劃分開銷,51,索引OLAP 數(shù)據(jù),為了有效的訪問(wèn),大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支持索引結(jié)構(gòu) 兩種常用的方法對(duì)OLAP數(shù)據(jù)進(jìn)行索引 位圖索引 bitmap indexing 連接索引 join indexing,52,索引OLAP 數(shù)據(jù): 位圖索引,在一個(gè)特定列上索引 列上的每個(gè)值是一個(gè)位向量 : 位操作很快 位向量的長(zhǎng)度: 基本表的記錄數(shù) 如果數(shù)據(jù)表中給定行的屬性值為v, 則在位圖索引的對(duì)應(yīng)行, 表示該值的位為1, 該行的其它位均為0 不適合勢(shì)(不同值個(gè)數(shù))很高的域,基本表,在 Region上索引,在 Type上索引,53,索引OLAP 數(shù)據(jù): 連接索引,連接索引: JI(R-id, S-id) , 其中 R (R-id, ) S (S-id, ) 將關(guān)系的連接物
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GA 1052.6-2013警用帳篷 第6部分:60m2棉帳篷》專題研究報(bào)告
- 養(yǎng)老院入住老人生活照料服務(wù)規(guī)范制度
- 企業(yè)員工培訓(xùn)與能力建設(shè)制度
- 企業(yè)內(nèi)部溝通協(xié)作制度
- 紀(jì)檢監(jiān)督檢查培訓(xùn)課件
- 2026湖北武漢人才服務(wù)發(fā)展有限公司招聘初中教師派往江岸區(qū)公立學(xué)校1人參考題庫(kù)附答案
- 2026湖南醫(yī)發(fā)投養(yǎng)老產(chǎn)業(yè)有限公司子公司高級(jí)管理人員招聘2人備考題庫(kù)附答案
- 2026福建廈門市集美區(qū)樂(lè)海幼兒園頂崗教職工招聘2人備考題庫(kù)附答案
- 2026福建省面向清華大學(xué)選調(diào)生選拔工作參考題庫(kù)附答案
- 2026秋季威海銀行校園招聘參考題庫(kù)附答案
- DB31-T 1502-2024 工貿(mào)行業(yè)有限空間作業(yè)安全管理規(guī)范
- 2022版義務(wù)教育(物理)課程標(biāo)準(zhǔn)(附課標(biāo)解讀)
- 肺結(jié)核患者合并呼吸衰竭的護(hù)理查房課件
- 井噴失控事故案例教育-井筒工程處
- 地源熱泵施工方案
- GB/T 16947-2009螺旋彈簧疲勞試驗(yàn)規(guī)范
- 硒功能與作用-課件
- 《英語(yǔ)教師職業(yè)技能訓(xùn)練簡(jiǎn)明教程》全冊(cè)配套優(yōu)質(zhì)教學(xué)課件
- PKPM結(jié)果分析限值規(guī)范要求和調(diào)整方法(自動(dòng)版)
- 同步工程的內(nèi)涵、導(dǎo)入和效果
- 喪假證明模板
評(píng)論
0/150
提交評(píng)論