版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
什么是數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)的定義很多,但卻很難有一種嚴(yán)格的定義數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)數(shù)據(jù)庫(kù),它與公司的操作數(shù)據(jù)庫(kù)分開(kāi)維護(hù)。允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)區(qū)別于其他數(shù)據(jù)存儲(chǔ)系統(tǒng)“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門(mén)的決策過(guò)程.”—W.H.Inmon面向主題,是數(shù)據(jù)倉(cāng)庫(kù)顯著區(qū)別于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)特征圍繞一些主題,如顧客、供應(yīng)商、產(chǎn)品等關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。排除對(duì)于決策無(wú)用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。一個(gè)數(shù)據(jù)倉(cāng)庫(kù)是通過(guò)集成多個(gè)異種數(shù)據(jù)源來(lái)構(gòu)造的。關(guān)系數(shù)據(jù)庫(kù),一般文件,聯(lián)機(jī)事務(wù)處理記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)。確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉(cāng)庫(kù)時(shí),它們要經(jīng)過(guò)轉(zhuǎn)化。數(shù)據(jù)倉(cāng)庫(kù)是從歷史的角度提供信息數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間范圍比操作數(shù)據(jù)庫(kù)系統(tǒng)要長(zhǎng)的多。操作數(shù)據(jù)庫(kù)系統(tǒng):主要保存當(dāng)前數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù):從歷史的角度提供信息(比如過(guò)去5-10年)數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素,而操作數(shù)據(jù)庫(kù)中的關(guān)鍵結(jié)構(gòu)可能就不包括時(shí)間元素。盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自于操作數(shù)據(jù)庫(kù),但他們卻是在物理上分離保存的。操作數(shù)據(jù)庫(kù)的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下不需要事務(wù)處理,恢復(fù),和并發(fā)控制等機(jī)制只需要兩種數(shù)據(jù)訪(fǎng)問(wèn):數(shù)據(jù)的初始轉(zhuǎn)載和數(shù)據(jù)訪(fǎng)問(wèn)(讀操作)異種數(shù)據(jù)庫(kù)的集成方法傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成:(查詢(xún)驅(qū)動(dòng))在多個(gè)異種數(shù)據(jù)庫(kù)上建立包裝程序(wrappers)和中介程序(mediators)查詢(xún)驅(qū)動(dòng)方法——當(dāng)從客戶(hù)端傳過(guò)來(lái)一個(gè)查詢(xún)時(shí),首先使用元數(shù)據(jù)字典將查詢(xún)轉(zhuǎn)換成相應(yīng)異種數(shù)據(jù)庫(kù)上的查詢(xún);然后,將這些查詢(xún)映射和發(fā)送到局部查詢(xún)處理器數(shù)據(jù)倉(cāng)庫(kù):(更新驅(qū)動(dòng))將來(lái)自多個(gè)異種源的信息預(yù)先集成,并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,供直接查詢(xún)和分析查詢(xún)驅(qū)動(dòng)的方法需要負(fù)責(zé)的信息過(guò)濾和集成處理與局部數(shù)據(jù)源上的處理競(jìng)爭(zhēng)資源對(duì)于頻繁的查詢(xún),尤其是涉及聚集(匯總)操作的查詢(xún),開(kāi)銷(xiāo)很大(決策支持中常見(jiàn)的查詢(xún)形式)更新驅(qū)動(dòng)的方法(帶來(lái)高性能)數(shù)據(jù)經(jīng)預(yù)處理后單獨(dú)存儲(chǔ),對(duì)聚集操作提供良好支持不影響局部數(shù)據(jù)源上的處理集成歷史信息,支持負(fù)責(zé)的多維查詢(xún)操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理OLTP日常操作:購(gòu)買(mǎi),庫(kù)存,銀行,制造,工資,注冊(cè),記帳等數(shù)據(jù)倉(cāng)庫(kù)的主要任務(wù)是聯(lián)機(jī)分析處理OLAP數(shù)據(jù)分析和決策支持,支持以不同的形式顯示數(shù)據(jù)以滿(mǎn)足不同的用戶(hù)需要用戶(hù)和系統(tǒng)的面向性面向顧客(事務(wù))VS.面向市場(chǎng)(分析)數(shù)據(jù)內(nèi)容當(dāng)前的、詳細(xì)的數(shù)據(jù)VS.歷史的、匯總的數(shù)據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì)實(shí)體-聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)VS.星型/雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)數(shù)據(jù)視圖當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù)VS.經(jīng)過(guò)演化的、集成的數(shù)據(jù)訪(fǎng)問(wèn)模式事務(wù)操作VS.只讀查詢(xún)(但很多是復(fù)雜的查詢(xún))任務(wù)單位簡(jiǎn)短的事務(wù)VS.復(fù)雜的查詢(xún)?cè)L問(wèn)數(shù)據(jù)量數(shù)十個(gè)VS.數(shù)百萬(wàn)個(gè)用戶(hù)數(shù)數(shù)千個(gè)VS.數(shù)百個(gè)數(shù)據(jù)庫(kù)規(guī)模100M-數(shù)GBVS.100GB-數(shù)TB設(shè)計(jì)優(yōu)先性高性能、高可用性VS.高靈活性、端點(diǎn)用戶(hù)自治度量事務(wù)吞吐量VS.查詢(xún)吞吐量、響應(yīng)時(shí)間提高兩個(gè)系統(tǒng)的性能DBMS是為OLTP而設(shè)計(jì)的:存儲(chǔ)方式,索引,并發(fā)控制,恢復(fù)數(shù)據(jù)倉(cāng)庫(kù)是為OLAP而設(shè)計(jì):復(fù)雜的OLAP查詢(xún),多維視圖,匯總不同的功能和不同的數(shù)據(jù):歷史數(shù)據(jù):決策支持需要?dú)v史數(shù)據(jù),而這些數(shù)據(jù)在操作數(shù)據(jù)庫(kù)中一般不會(huì)去維護(hù)數(shù)據(jù)匯總:決策支持需要將來(lái)自異種源的數(shù)據(jù)統(tǒng)一(如聚集和匯總)數(shù)據(jù)質(zhì)量:不同的源使用不一致的數(shù)據(jù)表示、編碼和格式,對(duì)這些數(shù)據(jù)進(jìn)行有效的分析需要將他們轉(zhuǎn)化后進(jìn)行集成什么是數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)和OLAP工具基于多維數(shù)據(jù)模型在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(datacube)的形式存在數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱(chēng)為維表。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示事實(shí)表包括事實(shí)的名稱(chēng)或度量以及每個(gè)相關(guān)維表的關(guān)鍵字事實(shí)指的是一些數(shù)字度量
time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcitystate_or_provincecountrylocation維表Sales事實(shí)表time_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_sales度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)立方體是n-D的(n維)(關(guān)系表和電子表格是幾維的?)示例AllElectronics的銷(xiāo)售數(shù)據(jù)按維time,item的2-D視圖(P71,表3-2)AllElectronics的銷(xiāo)售數(shù)據(jù)按維time,item和location的3-D視圖(P71,表3-3)AllElectronics的銷(xiāo)售數(shù)據(jù)按維time,item和location的3-D視圖的3-D數(shù)據(jù)立方體表示(P71,圖3-1)銷(xiāo)售數(shù)據(jù)的4-D立方體表示(P72,圖3-2)多維數(shù)據(jù)模型為不同角度上的數(shù)據(jù)建模和觀察提供了一個(gè)良好的基礎(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)的研究文獻(xiàn)中,一個(gè)n維的數(shù)據(jù)的立方體叫做基本方體。給定一個(gè)維的集合,我們可以構(gòu)造一個(gè)方體的格,每個(gè)都在不同的匯總級(jí)或不同的數(shù)據(jù)子集顯示數(shù)據(jù),方體的格稱(chēng)為數(shù)據(jù)立方體。0維方體存放最高層的匯總,稱(chēng)作頂點(diǎn)方體;而存放最底層匯總的方體則稱(chēng)為基本方體。alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點(diǎn))方體1-D方體2-D方體3-D方體4-D(基本)方體最流行的數(shù)據(jù)倉(cāng)庫(kù)概念模型是多維數(shù)據(jù)模型。這種模型可以以星型模式、雪花模式、或事實(shí)星座模式的形式存在。星型模式(Starschema):事實(shí)表在中心,周?chē)鷩@地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒(méi)有冗余。雪花模式(Snowflakeschema):是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類(lèi)似于雪花的形狀。事實(shí)星座(Factconstellations):復(fù)雜應(yīng)用可能需要多個(gè)事實(shí)表共享維表,這種模式可以看作星型模式的匯集,因此稱(chēng)為星系模式(galaxyschema),或者事實(shí)星座(factconstellation)
time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchtime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycitytime_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSalesFactTabletime_keyitem_keybranch_keylocation_keyunits_solddollars_soldavg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShippingFactTabletime_keyitem_keyshipper_keyfrom_locationto_locationdollars_costunits_shippedshipper_keyshipper_namelocation_keyshipper_typeshipperDMQL首先包括定義數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市的語(yǔ)言原語(yǔ),這包括兩種原語(yǔ)定義:一種是立方體定義,一種是維定義立方體定義(事實(shí)表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊案例(共享維表的定義)第一次作為維表定義“cubedefinition”然后:definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales一個(gè)數(shù)據(jù)立方體的度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體空間的每一個(gè)點(diǎn)求值。度量可以根據(jù)其所用的聚集函數(shù)分為三類(lèi):分布的(distributive):將函數(shù)用于n個(gè)聚集值得到的結(jié)果和將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣。比如:count(),sum(),min(),max()等代數(shù)的(algebraic):函數(shù)可以由一個(gè)帶M個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算(M為有界整數(shù)),而每個(gè)參數(shù)值都可以有一個(gè)分布的聚集函數(shù)求得。比如:avg(),min_N(),standard_deviation()整體的(holistic):描述函數(shù)的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界(無(wú)法以上述方法進(jìn)行計(jì)算)。比如:median(),mode(),rank()一個(gè)概念分層(concepthierarchy)定義一個(gè)映射序列,將低層概念映射到更一般的高層概念E.g.表示location的概念:杭州浙江中國(guó)亞洲概念分層允許我們?cè)诟鞣N抽象級(jí)審查和處理數(shù)據(jù)概念分層可以由系統(tǒng)用戶(hù)、領(lǐng)域?qū)<?、知識(shí)工程師人工的提供,也可以根據(jù)數(shù)據(jù)分布的統(tǒng)計(jì)分析自動(dòng)的產(chǎn)生allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity許多概念分層的定義隱含在數(shù)據(jù)庫(kù)的模式中。比如:location維的定義,office<city<country<region;這些屬性按一個(gè)全序相關(guān),形成一個(gè)層次結(jié)構(gòu):yeardayquartermonthweek維的屬性也可以組成一個(gè)偏序,形成一個(gè)格:概念分層為不同級(jí)別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)綜合概念分層和多維數(shù)據(jù)模型的潛力,可以對(duì)數(shù)據(jù)獲得更深入的洞察力通過(guò)在多維數(shù)據(jù)模型中,在不同的維上定義概念分層,使得用戶(hù)在不同的維上從不同的層次對(duì)數(shù)據(jù)進(jìn)行觀察成為可能。多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶(hù)從不同角度不同層次觀察數(shù)據(jù)提供了靈活性:上卷(roll-up):匯總數(shù)據(jù)通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約當(dāng)用維歸約進(jìn)行上卷時(shí),一個(gè)或多個(gè)維由給定的數(shù)據(jù)立方體刪除下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn)(為給定數(shù)據(jù)添加更多細(xì)節(jié))切片和切塊(sliceanddice)切片操作在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方切塊操作通過(guò)對(duì)兩個(gè)或多個(gè)維進(jìn)行選擇,定義子方轉(zhuǎn)軸(pivot)立方體的重定位,可視化,或?qū)⒁粋€(gè)3維立方體轉(zhuǎn)化為一個(gè)2維平面序列轉(zhuǎn)軸是一種可視化操作,通過(guò)轉(zhuǎn)動(dòng)當(dāng)前數(shù)據(jù)的視圖來(lái)提供一個(gè)數(shù)據(jù)的替代表示其他OLAP操作鉆過(guò)(drill_across):執(zhí)行涉及多個(gè)事實(shí)表的查詢(xún)鉆透(drill_through):使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表其他OLAP操作可能包括列出表中最高或最低的N項(xiàng),以及計(jì)算移動(dòng)平均值、增長(zhǎng)率、利潤(rùn)、統(tǒng)計(jì)函數(shù)等等什么是數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與構(gòu)造三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的后端工具和實(shí)用程序元數(shù)據(jù)存儲(chǔ)與使用用于OLAP處理的各種類(lèi)型的數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)倉(cāng)庫(kù)給商業(yè)分析專(zhuān)家提供了什么?通過(guò)提供相關(guān)數(shù)據(jù)與信息,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)通過(guò)有效的收集精確的描述組織的數(shù)據(jù),獲得生產(chǎn)力的提高通過(guò)提供不同級(jí)別(部門(mén)、市場(chǎng)、商業(yè))的客戶(hù)視圖,協(xié)助客戶(hù)關(guān)系管理通過(guò)追蹤長(zhǎng)期趨勢(shì)、異常等,降低成本有效構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵:理解和分析商業(yè)需求通過(guò)提供一個(gè)商業(yè)分析框架,綜合各種不同的數(shù)據(jù)使用者的視圖數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的四種視圖自頂向下視圖允許我們選擇數(shù)據(jù)倉(cāng)庫(kù)所需的相關(guān)信息數(shù)據(jù)源視圖揭示被操作數(shù)據(jù)庫(kù)系統(tǒng)所捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉(cāng)庫(kù)視圖由事實(shí)表和維表所組成商務(wù)查詢(xún)視圖從最終用戶(hù)的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建與使用涉及多種技能商業(yè)技能理解系統(tǒng)如何存儲(chǔ)和管理數(shù)據(jù)數(shù)據(jù)如何提取數(shù)據(jù)如何刷新技術(shù)方面的技能如何通過(guò)使用各種數(shù)據(jù)或量化的信息,到處可以提供決策支持的模式、趨勢(shì)、判斷等如何通過(guò)審查歷史數(shù)據(jù),分析發(fā)展趨勢(shì)等計(jì)劃管理技能如何通過(guò)與不同的技術(shù)、廠商、用戶(hù)交互,來(lái)及時(shí)、有效、經(jīng)濟(jì)的提交結(jié)果自頂向下法、自底向上法或者兩者的混合方法自頂向下法:由總體設(shè)計(jì)和規(guī)劃開(kāi)始在技術(shù)成熟、商業(yè)理解透徹的情況下使用自底向上法:以實(shí)驗(yàn)和原型開(kāi)始常用在模型和技術(shù)開(kāi)發(fā)的初期,可以有效的對(duì)使用的技術(shù)和模型進(jìn)行評(píng)估,降低風(fēng)險(xiǎn)混合方法:上述兩者的結(jié)合從軟件過(guò)程的觀點(diǎn)瀑布式方法:在進(jìn)行下一步前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析螺旋式方法:功能漸增的系統(tǒng)的快速產(chǎn)生,相繼版本之間間隔很短典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)過(guò)程找到所構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)的主題,比如:銷(xiāo)售、貨運(yùn)、訂單等等選取商務(wù)過(guò)程的顆粒度數(shù)據(jù)起始于多細(xì)的顆粒度,比如:記錄每條詳細(xì)訂單,或是開(kāi)始于每日的匯總數(shù)據(jù)選取用于每個(gè)事實(shí)表記錄的維常用的維有:時(shí)間、貨物、客戶(hù)、供應(yīng)商等選取將安放在事實(shí)表中的度量常用的數(shù)字度量包括:售價(jià)、貨物數(shù)量等數(shù)據(jù)倉(cāng)庫(kù)提取清理轉(zhuǎn)換裝入刷新OLAP服務(wù)器查詢(xún)報(bào)告分析數(shù)據(jù)挖掘監(jiān)控、整合元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)源前端工具輸出數(shù)據(jù)集市操作數(shù)據(jù)庫(kù)其他外部信息源數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器OLAP服務(wù)器底層:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)庫(kù)服務(wù)器關(guān)注的問(wèn)題:如何從這一層提取數(shù)據(jù)來(lái)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)(通過(guò)Gateway(ODBC,JDBC,OLE/DB等)來(lái)提?。┲虚g層:OLAP服務(wù)器關(guān)注的問(wèn)題:OLAP服務(wù)器如何實(shí)施(關(guān)系型OLAP,多維OLAP等)前端客戶(hù)工具層關(guān)注的問(wèn)題:查詢(xún)工具、報(bào)表工具、分析工具、挖掘工具等從體系結(jié)構(gòu)的角度去看,數(shù)據(jù)倉(cāng)庫(kù)模型可以有以下三種:企業(yè)倉(cāng)庫(kù)搜集關(guān)于跨越整個(gè)組織的主題的所有信息數(shù)據(jù)集市企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的客戶(hù)是有用的。其范圍限于選定的主題,比如一個(gè)商場(chǎng)的數(shù)據(jù)集市獨(dú)立的數(shù)據(jù)集市VS.非獨(dú)立的數(shù)據(jù)集市(數(shù)據(jù)來(lái)自于企業(yè)數(shù)據(jù)倉(cāng)庫(kù))虛擬倉(cāng)庫(kù)操作數(shù)據(jù)庫(kù)上的一系列視圖只有一些可能的匯總視圖被物化數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)上的困難自頂向下的開(kāi)發(fā)方法從全系統(tǒng)的角度提供解決方案,使得(模塊)集成的問(wèn)題最小;但是該方法十分昂貴,需要對(duì)組織進(jìn)行長(zhǎng)期研究和建模分析。自底向上方法提供了更多的開(kāi)發(fā)靈活性,價(jià)格便宜;但往往會(huì)遇到集成問(wèn)題(每個(gè)模塊單獨(dú)運(yùn)行都沒(méi)有問(wèn)題,但是一集成就出異常)解決方法:使用遞增性、演化性的開(kāi)發(fā)方法高層數(shù)據(jù)模型企業(yè)倉(cāng)庫(kù)和數(shù)據(jù)集市并行開(kāi)發(fā)通過(guò)分布式模型集成各數(shù)據(jù)集市多層數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)后端工具主要指的是用來(lái)裝入和刷新數(shù)據(jù)的工具,包括:數(shù)據(jù)提?。簭亩鄠€(gè)外部的異構(gòu)數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理檢測(cè)數(shù)據(jù)種的錯(cuò)誤并作可能的訂正數(shù)據(jù)變換將數(shù)據(jù)由歷史或主機(jī)的格式轉(zhuǎn)化為數(shù)據(jù)倉(cāng)庫(kù)的格式裝載排序、匯總、合并、計(jì)算視圖,檢查完整性,并建立索引和分區(qū)刷新將數(shù)據(jù)源的更新傳播到數(shù)據(jù)倉(cāng)庫(kù)中在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)就是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。有以下幾種:數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(datalineage)、數(shù)據(jù)類(lèi)別(currencyofdata),以及監(jiān)視信息匯總用的算法由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射關(guān)于系統(tǒng)性能的數(shù)據(jù)索引,profiles,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí)商務(wù)元數(shù)據(jù)商務(wù)術(shù)語(yǔ)和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等元數(shù)據(jù)與數(shù)據(jù)一起,構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模型,元數(shù)據(jù)所描述的更多的是這個(gè)模型的結(jié)構(gòu)方面的信息在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)的主要用途包括:用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定義作為數(shù)據(jù)倉(cāng)庫(kù)和操作性數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換時(shí)的映射標(biāo)準(zhǔn)用于指導(dǎo)當(dāng)前細(xì)節(jié)數(shù)據(jù)和稍加綜合的數(shù)據(jù)之間的匯總算法,指導(dǎo)稍加綜合的數(shù)據(jù)和高度綜合的數(shù)據(jù)之間的匯總算法。邏輯上,OLAP服務(wù)器從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中給商業(yè)用戶(hù)提供多維數(shù)據(jù)物理上,OLAP的底層數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)可以有多種不同的方式關(guān)系OLAP服務(wù)器(ROLAP)使用關(guān)系數(shù)據(jù)庫(kù)或擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù)存放并管理數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),而用OLAP中間件支持其余部分包括每個(gè)DBMS后端優(yōu)化,聚集導(dǎo)航邏輯的實(shí)現(xiàn),附加的工具和服務(wù)較大的可擴(kuò)展性多維OLAP服務(wù)器(MOLAP)基于數(shù)組的多維存儲(chǔ)引擎(稀疏矩陣技術(shù))能對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引混合OLAP服務(wù)器(HOLAP)結(jié)合上述兩種技術(shù),更大的使用靈活性特殊的SQL服務(wù)器在星型和雪花模型上支持SQL查詢(xún)什么是數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)中的OLAP查詢(xún)是一種海量數(shù)據(jù)計(jì)算e.g.想象一下對(duì)過(guò)去10年各地區(qū)的軟件產(chǎn)品銷(xiāo)售的匯總查詢(xún)用戶(hù)卻希望這個(gè)計(jì)算
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 紡絲凝固浴液配制工崗前創(chuàng)新思維考核試卷含答案
- 輕冶料漿配料工操作知識(shí)強(qiáng)化考核試卷含答案
- 信息通信網(wǎng)絡(luò)測(cè)量員崗前班組安全考核試卷含答案
- 2025年聚氨酯泡沫穩(wěn)定劑合作協(xié)議書(shū)
- 2025年輸液輸血類(lèi)產(chǎn)品項(xiàng)目合作計(jì)劃書(shū)
- 2025年娛樂(lè)、游覽用船舶項(xiàng)目合作計(jì)劃書(shū)
- 2025年玉米免耕播種機(jī)項(xiàng)目發(fā)展計(jì)劃
- 2026年生態(tài)價(jià)值銀行項(xiàng)目建議書(shū)
- 2025年山東省菏澤市中考生物真題卷含答案解析
- 心電圖實(shí)時(shí)處理算法試題及答案
- 2026年榆能集團(tuán)陜西精益化工有限公司招聘?jìng)淇碱}庫(kù)完整答案詳解
- 2026廣東省環(huán)境科學(xué)研究院招聘專(zhuān)業(yè)技術(shù)人員16人筆試參考題庫(kù)及答案解析
- 邊坡支護(hù)安全監(jiān)理實(shí)施細(xì)則范文(3篇)
- 6.1.3化學(xué)反應(yīng)速率與反應(yīng)限度(第3課時(shí) 化學(xué)反應(yīng)的限度) 課件 高中化學(xué)新蘇教版必修第二冊(cè)(2022-2023學(xué)年)
- 北京市西城區(qū)第8中學(xué)2026屆生物高二上期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 2026年遼寧輕工職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫(kù)帶答案解析
- 2026屆北京市清華大學(xué)附中數(shù)學(xué)高二上期末調(diào)研模擬試題含解析
- 醫(yī)院實(shí)習(xí)生安全培訓(xùn)課課件
- 天然氣加氣站安全事故的案例培訓(xùn)課件
- (售后服務(wù)方案)物料、設(shè)備采購(gòu)售后服務(wù)方案
- 施工現(xiàn)場(chǎng)車(chē)輛進(jìn)出沖洗記錄
評(píng)論
0/150
提交評(píng)論