《數(shù)據(jù)倉庫與商務(wù)智能》第~章_第1頁
《數(shù)據(jù)倉庫與商務(wù)智能》第~章_第2頁
《數(shù)據(jù)倉庫與商務(wù)智能》第~章_第3頁
《數(shù)據(jù)倉庫與商務(wù)智能》第~章_第4頁
《數(shù)據(jù)倉庫與商務(wù)智能》第~章_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與商務(wù)智能錢沄濤浙江大學(xué)計算機(jī)學(xué)院人工智能研究所1主要內(nèi)容數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述 數(shù)據(jù)倉庫的數(shù)據(jù)模型與數(shù)據(jù)組織 數(shù)據(jù)倉庫的設(shè)計 數(shù)據(jù)加載技術(shù) 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)與實(shí)現(xiàn)技術(shù)數(shù)據(jù)挖掘中的常用方法 關(guān)聯(lián)規(guī)則挖掘 分類和預(yù)測 聚類分析 時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘 Web數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的應(yīng)用 2教學(xué)方式與考核方式教學(xué)方式本課程以課堂教學(xué)為主,以課件的內(nèi)容為主線課外閱讀指定的參考文獻(xiàn)并利用網(wǎng)上資源,加深對教學(xué)內(nèi)容的理解??己朔绞郊耙笞珜懻n程論文一篇課程論文的內(nèi)容不僅包括數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的綜述,而且應(yīng)包括對某一方面深入的分析、獨(dú)立的見解或?qū)嶋H應(yīng)用。課程論文的格式按照正式發(fā)表學(xué)術(shù)論文的要求,篇幅一般可大于正式發(fā)表的論文。進(jìn)行大組報告與交流。3教材與參考書W.H.Inmon,《BuildingtheDataWarehouse》,王志海等譯,機(jī)械工業(yè)出版社,2000.5康曉東等,《基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)》,機(jī)械工業(yè)出版社,2004.01JiaweiHan,MichelineKambr,《DATAMININGCONCEPTSANDTECHNIQUES》(影印版),高等教育出版社陳京民等,《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》,電子工業(yè)出版社,2002TomMitchell,《MachineLearning》,McGraw-HillCompanies,1997網(wǎng)上有關(guān)參考資料和文獻(xiàn)學(xué)術(shù)刊物上有關(guān)論文4第1章

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述數(shù)據(jù)倉庫的發(fā)展數(shù)據(jù)倉庫的基本概念數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)挖掘的基本概念數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的集成5數(shù)據(jù)倉庫的發(fā)展NCR公司為WalMart建立了第一個數(shù)據(jù)倉庫。1996年,加拿大的IDC公司調(diào)查了62家實(shí)現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。早期的數(shù)據(jù)倉庫大都采用當(dāng)時流行的客戶/服務(wù)器結(jié)構(gòu)。近年來分布式對象技術(shù)飛速發(fā)展,整個數(shù)據(jù)倉庫體系結(jié)構(gòu)從功能上劃分為若干個分布式對象,這些分布式對象不僅可以直接用于建立數(shù)據(jù)倉庫,還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉庫方面已經(jīng)進(jìn)行了10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領(lǐng)域也紛紛提出了各自的解決方案。6數(shù)據(jù)倉庫的發(fā)展IBM:在其DB2發(fā)布一年后的1998年9月發(fā)布5.2版,并于1998年12月推向中國市場,除了用于OLAP(聯(lián)機(jī)分析處理)的后臺服務(wù)器DB2OLAPServer外,IBM還提供了一系列相關(guān)的產(chǎn)品,包括前端工具,形成一整套解決方案。Informix公司:在其動態(tài)服務(wù)器IDS(InformixDynamicServer)中提供一系列相關(guān)選件,如高級決策支持選件(AdvancedDecisionSupportOption)、OLAP選件(MetaCubeROLAPOption)、擴(kuò)展并行選件(ExtendedParallelOption)等,這種體系結(jié)構(gòu)嚴(yán)謹(jǐn)、管理方便、索引機(jī)制完善,并行處理的效率更高,其中數(shù)據(jù)倉庫和數(shù)據(jù)庫查詢的SQL語句的一致性使得用戶開發(fā)更加簡便。7數(shù)據(jù)倉庫的發(fā)展微軟公司:在其SQLServer7.0以及SQLServer2000中集成了代號為Plato的OLAP服務(wù)器。Sybase:提供了專門的OLAP服務(wù)器SybaseIQ,并將其與數(shù)據(jù)倉庫相關(guān)工具打包成WarehouseStudio。PLATINUM:提出了由InfoPump(數(shù)據(jù)倉庫建模與數(shù)據(jù)加載工具)和Forest&Trees(前端報表工具)構(gòu)成的一套較有特色的整體方案。;Oracle公司:則推出從數(shù)據(jù)倉庫構(gòu)建、OLAP到數(shù)據(jù)集市管理等一系列產(chǎn)品包(如OracleWarehouseBuilder、OracleExpress、DataMartSuit等)。

8數(shù)據(jù)倉庫的我國的發(fā)展現(xiàn)狀:數(shù)據(jù)倉庫的概念已經(jīng)被國內(nèi)用戶接受多年,但在應(yīng)用方面的收效仍很有限。原因:尚不存在可靠的、完善的、被廣泛接受的數(shù)據(jù)倉庫標(biāo)準(zhǔn);現(xiàn)有的數(shù)據(jù)庫系統(tǒng)不健全,數(shù)據(jù)積累還不夠,無法提出決策支持需求;缺乏能夠擔(dān)負(fù)規(guī)劃、設(shè)計、構(gòu)建和維護(hù)數(shù)據(jù)倉庫的重任的復(fù)合型人才;缺乏數(shù)據(jù)倉庫前端工具(如OLAP工具、數(shù)據(jù)挖掘工具等);由于國內(nèi)外文化的差異,一些用于構(gòu)建數(shù)據(jù)倉庫的知名產(chǎn)品無法處理一些難以預(yù)料的問題,使得建立數(shù)據(jù)倉庫的困難加大。9數(shù)據(jù)倉庫的我國的發(fā)展前景:隨著計算機(jī)技術(shù)的發(fā)展,尤其是分布式技術(shù)的發(fā)展,數(shù)據(jù)倉庫在我國有著廣闊的發(fā)展空間和良好的發(fā)展前景。例如:由于銀行商業(yè)化的步伐正在加大,各大中型銀行在入世的機(jī)遇和挑戰(zhàn)下,開始重新考慮自身的業(yè)務(wù),特別是信貸風(fēng)險管理方面特別注意,因而有關(guān)信貸風(fēng)險管理和風(fēng)險規(guī)章的基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的需求逐漸增多;由于電子商務(wù)的迅速發(fā)展,越來越多的電子商務(wù)網(wǎng)站,開始考慮如何將數(shù)據(jù)倉庫應(yīng)用于商品銷售分析、顧客的誠信度分析等,為客戶提供更進(jìn)一步的個性化服務(wù);如移動通信等各大型企業(yè)也開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)劃。10數(shù)據(jù)挖挖掘的的發(fā)展展數(shù)據(jù)挖挖掘是是與數(shù)數(shù)據(jù)倉倉庫密密切相相關(guān)的的一個個信息息技術(shù)術(shù)新領(lǐng)領(lǐng)域,,它是是信息息技術(shù)術(shù)自然然演化化的結(jié)結(jié)果。。隨著數(shù)據(jù)庫庫技術(shù)的迅迅速發(fā)展以以及數(shù)據(jù)庫庫管理系統(tǒng)統(tǒng)的廣泛應(yīng)應(yīng)用,人們們積累的數(shù)數(shù)據(jù)越來越越多,但缺缺乏挖掘數(shù)數(shù)據(jù)中隱藏藏的知識的的手段,導(dǎo)導(dǎo)致了“數(shù)數(shù)據(jù)爆炸但但知識貧乏乏的”現(xiàn)象象。自80年代代后期以來來,聯(lián)機(jī)分分析處理((OLAP)和數(shù)據(jù)據(jù)挖掘技術(shù)術(shù)應(yīng)運(yùn)而生生。11數(shù)據(jù)挖掘的的發(fā)展數(shù)據(jù)挖掘((DataMining,,簡記為DM)是從從關(guān)系數(shù)據(jù)據(jù)庫、數(shù)據(jù)據(jù)倉庫、WEB數(shù)據(jù)據(jù)庫以及其其他文件系系統(tǒng)中發(fā)現(xiàn)現(xiàn)重要的數(shù)數(shù)據(jù)模式、、規(guī)律的過過程,因此此又稱為數(shù)數(shù)據(jù)庫中的的知識發(fā)現(xiàn)現(xiàn)(KnowledgeDiscoveryinDatabase,簡記記為KDD),它是是OLAP的高級階階段。自20世紀(jì)紀(jì)80年代代起,開始始了數(shù)據(jù)挖挖掘技術(shù)的的研究。1989年年在美國召召開的國際際學(xué)術(shù)會議議上包含了了“從數(shù)據(jù)據(jù)庫中知識識發(fā)現(xiàn)”的的主題;1995年年在加拿大大召開了第第一屆知識識發(fā)現(xiàn)與數(shù)數(shù)據(jù)挖掘國國際學(xué)術(shù)會會議。12從數(shù)據(jù)庫到到數(shù)據(jù)倉庫庫數(shù)據(jù)庫應(yīng)用用的規(guī)模和和深度點(diǎn)線線面互互聯(lián)網(wǎng)在線分析處處理(OLAP)在在線事務(wù)務(wù)處理決決策支持持(DS)(OLTP)數(shù)據(jù)挖掘(DataMining)13事務(wù)型處理理與分析型型處理事務(wù)型處理理:即操作作型處理,,是指對數(shù)數(shù)據(jù)庫的聯(lián)聯(lián)機(jī)操作處處理。事務(wù)務(wù)型處理是是用來協(xié)助助企業(yè)對響響應(yīng)事件或或事務(wù)的日日常商務(wù)活活動進(jìn)行處處理。它是是事件驅(qū)動動、面向應(yīng)應(yīng)用的,通通常是對一一個或一組組記錄的增增、刪、改改以及簡單單查詢等。。事務(wù)型處處理的應(yīng)用用程序和數(shù)數(shù)據(jù)是緊緊緊圍繞著所所管理的事事件來構(gòu)造造的。在事事務(wù)型處理理環(huán)境中,,數(shù)據(jù)庫要要求能支持持日常事務(wù)務(wù)中的大量量事務(wù),用用戶對數(shù)據(jù)據(jù)的存取操操作頻率高高而每次操操作處理的的時間短。。14分析型處理理分析型處理理:用于管管理人員的的決策分析析,例如DSS、EIS、、和多維分分析等。它它幫助決策策者分析數(shù)數(shù)據(jù)以察看看趨向、判判斷問題。。分析型處處理經(jīng)常要要訪問大量量的歷史數(shù)數(shù)據(jù),支持持復(fù)雜的查查詢。在分分析型處理理中,并不不是對從事事務(wù)型處理理環(huán)境中中得到的細(xì)細(xì)節(jié)數(shù)據(jù)進(jìn)進(jìn)行分析。。細(xì)節(jié)數(shù)據(jù)據(jù)量太大,,會嚴(yán)重影影響分析的的效率,而而且太多的的細(xì)節(jié)數(shù)據(jù)據(jù)不利于分分析人員將將注意力集集中于有用用的信息。。分析型處處理過程中中經(jīng)常用到到外部數(shù)據(jù)據(jù),這部分分?jǐn)?shù)據(jù)不是是由事務(wù)型型處理系統(tǒng)統(tǒng)產(chǎn)生的,,而是來自自于其他外外部數(shù)據(jù)源源。15事務(wù)型處理理數(shù)據(jù)和分分析型處理理數(shù)據(jù)的區(qū)區(qū)別事務(wù)型處理理數(shù)據(jù)分分析析型處理數(shù)數(shù)據(jù)細(xì)節(jié)的綜綜合的的,或提煉煉的在存取瞬間間是準(zhǔn)確的的代代表過去的的數(shù)據(jù)可更新不不可更新,,只讀的操作需求事事先可知道道 操作作需求事先先不知生命周期符符合SDLC完完全不同的的生命周期期對性能要求求高對對性能能要求寬松松一個時刻操操作一個單單元 一個個時刻操作作一個事務(wù)驅(qū)動分分析析驅(qū)動面向應(yīng)用面面向向分析一次操作數(shù)數(shù)據(jù)量小一一次操操作數(shù)據(jù)量量大支持日常操操作支支持管理需需求16數(shù)據(jù)庫系統(tǒng)統(tǒng)的局限性性數(shù)據(jù)庫適于于存儲高度度結(jié)構(gòu)化的的日常事務(wù)務(wù)細(xì)節(jié)數(shù)據(jù)據(jù),而決策策型數(shù)據(jù)多多為歷史性性、匯總性性或計算性性數(shù)據(jù),多多表現(xiàn)為靜靜態(tài)數(shù)據(jù),,不需直接接更新,但但可周期性性刷新。決策分析型型數(shù)據(jù)是多多維性,分分析內(nèi)容復(fù)復(fù)雜。在事務(wù)處理理環(huán)境中,,決策者可可能并不關(guān)關(guān)心具體的的細(xì)節(jié)信息息,在決策策分析環(huán)境境中,如果果這些細(xì)節(jié)節(jié)數(shù)據(jù)量太太大一方面面會嚴(yán)重影影響分析效效率,另一一方面這些些細(xì)節(jié)數(shù)據(jù)據(jù)會分散決決策者的注注意力。17數(shù)據(jù)庫系統(tǒng)統(tǒng)的局限性性當(dāng)事務(wù)型處處理環(huán)境和和分析型處處理環(huán)境在在同一個數(shù)數(shù)據(jù)庫系統(tǒng)統(tǒng)中,事務(wù)務(wù)型處理對對數(shù)據(jù)的存存取操作頻頻率高,操操作處理的的時間短,,而分析型型處理可能能需要連續(xù)續(xù)運(yùn)行幾個個小時,從從而消耗大大量的系統(tǒng)統(tǒng)資源。決策型分析析數(shù)據(jù)的數(shù)數(shù)據(jù)量大,,這些數(shù)據(jù)據(jù)有來自企企業(yè)內(nèi)部的的,也有來來自企業(yè)外外部的。來來自企業(yè)外外部的數(shù)據(jù)據(jù)又可能來來自不同的的數(shù)據(jù)庫系系統(tǒng),在分分析時如果果直接對這這些數(shù)據(jù)操操作會造成成分析的混混亂。對于于外部數(shù)據(jù)據(jù)中的一些些非結(jié)構(gòu)化化數(shù)據(jù),數(shù)數(shù)據(jù)庫系統(tǒng)統(tǒng)常常是無無能為力的的。18多庫系統(tǒng)的的限制可用性:源源站點(diǎn)或通通信網(wǎng)絡(luò)故故障將導(dǎo)致致系統(tǒng)癱瘓瘓,源站站點(diǎn)不能通通過網(wǎng)絡(luò)在在線聯(lián)入多多庫系統(tǒng)。。響應(yīng)速度::全局查詢詢多級轉(zhuǎn)換換和通信傳傳輸,延延遲和低層層效率影響響響應(yīng)速度度。系統(tǒng)性能::總體性能能取決于源源站點(diǎn)中性性能最低的的系統(tǒng),影影響系統(tǒng)統(tǒng)性能的發(fā)發(fā)揮;系統(tǒng)開銷::每次查詢詢要啟動多多個局部系系統(tǒng),通通信和運(yùn)行行開銷大。。19數(shù)據(jù)倉庫(DataWarehouse)的的定義數(shù)據(jù)倉庫用用來保存從從多個數(shù)據(jù)據(jù)庫或其它它信息源選選取的數(shù)據(jù)據(jù),并為為上層應(yīng)用用提供統(tǒng)一一用戶接口口,完成數(shù)數(shù)據(jù)查詢和和分析。數(shù)據(jù)倉庫是是作為DSS服務(wù)基礎(chǔ)的的分析型DB,用來來存放大容容量的只讀讀數(shù)據(jù),為為制定決策策提供所需需要的信息息。數(shù)據(jù)倉庫是是與操作型型系統(tǒng)相分分離的、基基于標(biāo)準(zhǔn)企企業(yè)模型集集成的、帶帶有時間屬屬性的、面面向主題及及不可更新新的數(shù)據(jù)集集合。W.H.Inmon對數(shù)據(jù)倉倉庫所下的的定義:數(shù)據(jù)倉庫是是面向主題題的、集成成的、穩(wěn)定定的、隨時時間變化的的數(shù)據(jù)集合合,用以支支持管理決決策的過程程。20數(shù)據(jù)據(jù)倉倉庫庫的的適適用用范范圍圍信息息源源中中的的數(shù)數(shù)據(jù)據(jù)變變化化穩(wěn)穩(wěn)定定或可可預(yù)預(yù)測測應(yīng)應(yīng)用用不不需需要要最最新新的的數(shù)數(shù)據(jù)據(jù)或允允許許有有延延遲遲應(yīng)應(yīng)用用要要求求有有較較高高的的查查詢詢性性能能而而降降低低精精度度要要求求21數(shù)據(jù)據(jù)倉倉庫庫中中數(shù)數(shù)據(jù)據(jù)的的特特點(diǎn)點(diǎn)面向向主主題題集成成性性穩(wěn)定定性性時變變性性支持持管管理理決決策策22面向向主主題題主題題::是是一一個個抽抽象象的的概概念念,,是是在在較較高高層層次次上上將將企企業(yè)業(yè)信信息息系系統(tǒng)統(tǒng)中中的的數(shù)數(shù)據(jù)據(jù)綜綜合合、、歸歸類類并并進(jìn)進(jìn)行行分分析析利利用用的的抽抽象象。。在在邏邏輯輯上上,,它它對對應(yīng)應(yīng)于于企企業(yè)業(yè)中中某某一一宏宏觀觀分分析析領(lǐng)領(lǐng)域域所所涉涉及及的的分分析析對對象象。。面向向主主題題的的數(shù)數(shù)據(jù)據(jù)組組織織方方式式可可在在較較高高層層次次上上對對分分析析對對象象的的數(shù)數(shù)據(jù)據(jù)給給出出完完整整、、一一致致的的描描述述,,能能完完整整、、統(tǒng)統(tǒng)一一的的刻刻畫畫各各個個分分析析對對象象所所涉涉及及的的企企業(yè)業(yè)的的各各項項數(shù)數(shù)據(jù)據(jù)以以及及數(shù)數(shù)據(jù)據(jù)之之間間的的聯(lián)聯(lián)系系,,從從而而適適應(yīng)應(yīng)企企業(yè)業(yè)各各個個部部門門的的業(yè)業(yè)務(wù)務(wù)活活動動特特點(diǎn)點(diǎn)和和企企業(yè)業(yè)數(shù)數(shù)據(jù)據(jù)的的動動態(tài)態(tài)特特征征,,從從根根本本上上實(shí)實(shí)現(xiàn)現(xiàn)數(shù)數(shù)據(jù)據(jù)與與應(yīng)應(yīng)用用的的分分離離。。23集成成性性數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù)是是從從原原有有分分散散的的源源數(shù)數(shù)據(jù)據(jù)庫庫中中提提取取出出來來的的,,其其每每一一個個主主題題所所對對應(yīng)應(yīng)的的源源數(shù)數(shù)據(jù)據(jù)在在原原有有的的數(shù)數(shù)據(jù)據(jù)庫庫中中有有許許多多冗冗余余和和不不一一致致,,且且與與不不同同的的應(yīng)應(yīng)用用邏邏輯輯相相關(guān)關(guān)。。為為了了創(chuàng)創(chuàng)建建一一個個有有效效的的主主題題域域,,必必須須將將這這些些來來自自不不同同數(shù)數(shù)據(jù)據(jù)源源的的數(shù)數(shù)據(jù)據(jù)集集成成起起來來,,使使之之遵遵循循統(tǒng)統(tǒng)一一的的編編碼碼規(guī)規(guī)則則。。因因此此,,數(shù)數(shù)據(jù)據(jù)倉倉庫庫在在提提取取數(shù)數(shù)據(jù)據(jù)時時必必須須經(jīng)經(jīng)過過數(shù)數(shù)據(jù)據(jù)集集成成,,消消除除源源數(shù)數(shù)據(jù)據(jù)中中的的矛矛盾盾,,并并進(jìn)進(jìn)行行數(shù)數(shù)據(jù)據(jù)綜綜合合和和計計算算。。經(jīng)經(jīng)過過數(shù)數(shù)據(jù)據(jù)集集成成后后,,數(shù)數(shù)據(jù)據(jù)倉倉庫庫所所提提供供的的信信息息比比數(shù)數(shù)據(jù)據(jù)庫庫提提供供的的信信息息更更概概括括、、更更本本質(zhì)質(zhì)。。24穩(wěn)定定性性數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù)反反映映的的是是一一段段時時間間內(nèi)內(nèi)歷歷史史數(shù)數(shù)據(jù)據(jù)的的內(nèi)內(nèi)容容,,是是不不同同時時點(diǎn)點(diǎn)的的數(shù)數(shù)據(jù)據(jù)庫庫快快照照的的集集合合,,以以及及基基于于快快照照的的統(tǒng)統(tǒng)計計、、綜綜合合和和重重組組的的導(dǎo)導(dǎo)出出數(shù)數(shù)據(jù)據(jù),,而而不不是是聯(lián)聯(lián)機(jī)機(jī)處處理理的的數(shù)數(shù)據(jù)據(jù)。。主主要要供供企企業(yè)業(yè)高高層層決決策策分分析析之之用用,,所所涉涉及及的的數(shù)數(shù)據(jù)據(jù)操操作作主主要要是是查查詢詢,,一一般般情情況況下下并并不不進(jìn)進(jìn)行行修修改改操操作作,,即即數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù)是是不不可可實(shí)實(shí)時時更更新新的的,,僅僅當(dāng)當(dāng)超超過過規(guī)規(guī)定定的的存存儲儲期期限限,,才才將將其其從從數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中刪刪除除,,提提取取新新的的數(shù)數(shù)據(jù)據(jù)經(jīng)經(jīng)集集成成后后輸輸入入數(shù)數(shù)據(jù)據(jù)倉倉庫庫。。25時變變性性時變變性性::許許多多商商業(yè)業(yè)分分析析要要求求對對發(fā)發(fā)展展趨趨勢勢做做出出預(yù)預(yù)測測,,對對發(fā)發(fā)展展趨趨勢勢的的分分析析需需要要訪訪問問歷歷史史數(shù)數(shù)據(jù)據(jù)。。因因此此數(shù)數(shù)據(jù)據(jù)倉倉庫庫必必須須不不斷斷捕捕捉捉OLTP數(shù)數(shù)據(jù)據(jù)庫庫中中變變化化的的數(shù)數(shù)據(jù)據(jù),,生生成成數(shù)數(shù)據(jù)據(jù)庫庫的的快快照照,,經(jīng)經(jīng)集集成成后后增增加加到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中去去;;另另外外數(shù)數(shù)據(jù)據(jù)倉倉庫庫還還需需要要隨隨時時間間的的變變化化刪刪去去過過期期的的、、對對分分析析沒沒有有幫幫助助的的數(shù)數(shù)據(jù)據(jù),,并并且且還還需需要要按按規(guī)規(guī)定定的的時時間間段段增增加加綜綜合合數(shù)數(shù)據(jù)據(jù)。。26支持持管管理理決決策策數(shù)據(jù)據(jù)倉倉庫庫支支持持OLAP((聯(lián)聯(lián)機(jī)機(jī)分分析析處處理理))、、數(shù)數(shù)據(jù)據(jù)挖挖掘掘和和決決策策分分析析。。OLAP從從數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中的的綜綜合合數(shù)數(shù)據(jù)據(jù)出出發(fā)發(fā),,提提供供面面向向分分析析的的多多維維模模型型,,并并使使用用多多維維分分析析的的方方法法從從多多個個角角度度、、多多個個層層次次對對多多維維數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行分分析析,,使使決決策策者者能能夠夠以以更更加加自自然然的的方方式式來來分分析析數(shù)數(shù)據(jù)據(jù)。。數(shù)數(shù)據(jù)據(jù)挖挖掘掘則則以以數(shù)數(shù)據(jù)據(jù)倉倉庫庫和和多多維維數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)為為基基礎(chǔ)礎(chǔ),,發(fā)發(fā)現(xiàn)現(xiàn)數(shù)數(shù)據(jù)據(jù)中中的的潛潛在在模模式式和和進(jìn)進(jìn)行行預(yù)預(yù)測測。。因因此此,,數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的功功能能是是支支持持管管理理層層進(jìn)進(jìn)行行科科學(xué)學(xué)決決策策,,而而不不是是事事務(wù)務(wù)處處理理。。27數(shù)據(jù)倉庫的技技術(shù)要求大量數(shù)據(jù)的組組織和管理::包含了大量的的歷史數(shù)據(jù),,它是從數(shù)據(jù)據(jù)庫中提取得得來的,不必必關(guān)心它的數(shù)數(shù)據(jù)安全性和和數(shù)據(jù)完整性性。復(fù)雜分析的高高性能體現(xiàn)::涉及大量數(shù)據(jù)據(jù)的聚集、綜綜合等,在進(jìn)進(jìn)行復(fù)雜查詢詢時經(jīng)常會使使用多表的聯(lián)聯(lián)接、累計、、分類、排序序等操作。對提取出來的的數(shù)據(jù)進(jìn)行集集成:數(shù)據(jù)倉庫中的的數(shù)據(jù)是從多多個應(yīng)用領(lǐng)域域中提取出來來的,在不同同的應(yīng)用領(lǐng)域域和不同的數(shù)數(shù)據(jù)庫系統(tǒng)中中都有不同的的結(jié)構(gòu)和形式式,所以如何何對數(shù)據(jù)進(jìn)行行集成也是構(gòu)構(gòu)建數(shù)據(jù)倉庫庫的一個重要要方面。對進(jìn)行高層決決策的最終用用戶的界面支支持:提供各種分析析應(yīng)用工具。。28數(shù)據(jù)挖掘的定定義數(shù)據(jù)挖掘(DataMining,簡記為DM):是指指從大型數(shù)據(jù)據(jù)庫或數(shù)據(jù)倉倉庫中提取隱隱含的、未知知的、非平凡凡的及有潛在在應(yīng)用價值的的信息或模式式的高級處理理過程。模式:即知識識,它給出了了數(shù)據(jù)特性或或數(shù)據(jù)之間的的關(guān)系,是對對數(shù)據(jù)所包含含的信息更抽抽象的描述。。按功能可以以分為預(yù)測型型模式和描述述型模式。在在實(shí)際應(yīng)用中中,可以細(xì)分分為關(guān)聯(lián)模式式、分類模式式、聚類模式式和序列模式式等。數(shù)據(jù)挖掘和數(shù)數(shù)據(jù)倉庫是作作為兩種獨(dú)立立的信息技術(shù)術(shù)出現(xiàn)的。它它們都可以完完成對決策過過程的支持,,并且相互間間有一定的內(nèi)內(nèi)在聯(lián)系。因因此,將數(shù)據(jù)據(jù)倉庫與數(shù)據(jù)據(jù)挖掘集成到到一個系統(tǒng)中中將能夠更有有效地提高系系統(tǒng)的決策支支持能力。數(shù)據(jù)挖掘是一一門交叉性學(xué)學(xué)科,它涉及及到機(jī)器學(xué)習(xí)習(xí)、模式識別別、統(tǒng)計學(xué)、、智能數(shù)據(jù)庫庫、知識獲取取、數(shù)據(jù)可視視化、高性能能計算、專家家系統(tǒng)等多個個領(lǐng)域。29數(shù)據(jù)挖掘的類類型數(shù)據(jù)挖掘的任任務(wù)是從大量量的數(shù)據(jù)中發(fā)發(fā)現(xiàn)模式。根根據(jù)數(shù)據(jù)挖掘掘的任務(wù)可分分為多種類型型,其中比較較典型的有::預(yù)測模型關(guān)聯(lián)分析分類分析聚類分析序列分析偏差檢測模式相似性挖挖掘Web數(shù)據(jù)挖挖掘30預(yù)測模型預(yù)測模型(PredictiveModeling)::所謂預(yù)測即即從數(shù)據(jù)庫或或數(shù)據(jù)倉庫中中已知的數(shù)據(jù)據(jù)推測未知的的數(shù)據(jù)或?qū)ο笙蠹心承賹傩缘闹捣植疾?。建立預(yù)測模型型的常用方法法:回歸分析線性模型關(guān)聯(lián)規(guī)則決策樹預(yù)測遺傳算法神經(jīng)網(wǎng)絡(luò)31關(guān)聯(lián)分析關(guān)聯(lián)(Association)分分析:關(guān)聯(lián)規(guī)規(guī)則描述了一一組數(shù)據(jù)項之之間的密切度度或關(guān)系。關(guān)關(guān)聯(lián)分析用于于發(fā)現(xiàn)項目集集之間的關(guān)聯(lián)聯(lián)。在關(guān)聯(lián)規(guī)規(guī)則挖掘算法法中,通常給給出了置信度度和支持度兩兩個概念,對對于置信度和和支持度均大大于給定閾值值的規(guī)則稱為為強(qiáng)規(guī)則,而而關(guān)聯(lián)分析主主要就是對強(qiáng)強(qiáng)規(guī)則的挖掘掘。關(guān)聯(lián)規(guī)則則挖掘近幾年年研究較多?!,F(xiàn)在,關(guān)聯(lián)聯(lián)規(guī)則的挖掘掘已經(jīng)從單一一概念層次關(guān)關(guān)聯(lián)規(guī)則的發(fā)發(fā)現(xiàn)發(fā)展到多多概念層次的的關(guān)聯(lián)規(guī)則的的發(fā)現(xiàn),并把把研究的重點(diǎn)點(diǎn)放在提高算算法的效率和和規(guī)??墒湛s縮性上。它廣廣泛地運(yùn)用于于幫助市場導(dǎo)導(dǎo)向、商品目目錄設(shè)計客戶戶關(guān)系管理))(CRM))和其他各種種商業(yè)決策過過程中。關(guān)聯(lián)分分析算算法::APRIORI算算法、、DHP算算法、、DIC算算法、、PARTITION算算法及及它們們的各各種改改進(jìn)算算法等等。另另外,,對于于大規(guī)規(guī)模、、分布布在不不同站站點(diǎn)上上的數(shù)數(shù)據(jù)庫庫或數(shù)數(shù)據(jù)倉倉庫,,關(guān)聯(lián)聯(lián)規(guī)則則的挖挖掘可可以使使用并并行算算法,,如::Count分分布算算法、、Data分布算算法、、Candidate分分布布算法法、智智能Data分布算算法((IDD))和DMA分布布算法法等。。32分類分分析分類((Classification)分分析::所謂謂分類類是根根據(jù)數(shù)數(shù)據(jù)的的特征征為每每個類類別建建立一一個模模型,,根據(jù)據(jù)數(shù)據(jù)據(jù)的屬屬性將將數(shù)據(jù)據(jù)分配配到不不同的的組中中。在在實(shí)際際應(yīng)用用過程程中,,分類類規(guī)則則可以以分析析分組組中數(shù)數(shù)據(jù)的的各種種屬性性,并并找出出數(shù)據(jù)據(jù)的屬屬性模模型,,從而而確定定哪些些數(shù)據(jù)據(jù)屬于于哪些些組。。這樣樣就可可以利利用該該模型型來分分析已已有數(shù)數(shù)據(jù),,并預(yù)預(yù)測新新數(shù)據(jù)據(jù)將屬屬于哪哪一個個組。。類的的描述述可以以是顯顯式的的,如如用一一組特特征概概念描描述;;也可可以是是隱式式的,,如用用一個個數(shù)學(xué)學(xué)公式式或數(shù)數(shù)學(xué)模模型描描述。。分類類分析析已經(jīng)經(jīng)成功功地用用于顧顧客分分類、、疾病病分類類、商商業(yè)建建模和和信用用卡分分析等等。分類分分析的的常用用方法法:決策樹樹神經(jīng)網(wǎng)網(wǎng)絡(luò)統(tǒng)計分分析法法33聚類分分析聚類(Clustering)分分析::所謂謂聚類類是指指一組組彼此此間非非?!啊跋嗨扑啤钡牡臄?shù)據(jù)據(jù)對象象的集集合。。相似似的程程度可可以通通過距距離函函數(shù)來來表示示,由由用戶戶或?qū)<抑钢付?。。聚類類分析析是按按照某某種相相近程程度度度量方方法將將數(shù)據(jù)據(jù)分成成互不不相同同的一一些分分組。。每一一個分分組中中的數(shù)數(shù)據(jù)相相近,,不同同分組組之間間的數(shù)數(shù)據(jù)相相差較較大。。好的的聚類類方法法可以以產(chǎn)生生高質(zhì)質(zhì)量的的聚類類,保保證每每一聚聚類內(nèi)內(nèi)部的的相似似性很很高,,而各各聚類類之間間的相相似性性很低低。聚聚類分分析的的核心心是將將某些些定性性的相相近程程度測測量方方法轉(zhuǎn)轉(zhuǎn)換成成定量量測試試方法法。采采用聚聚類分分析,,系統(tǒng)統(tǒng)可以以根據(jù)據(jù)部分分?jǐn)?shù)據(jù)據(jù)發(fā)現(xiàn)現(xiàn)規(guī)律律,找找出對對全體體數(shù)據(jù)據(jù)的描描述。。聚類分分析的的常用用方法法:基于目目標(biāo)函函數(shù)優(yōu)優(yōu)化的的方法法層次方方法34序列分分析序列((Sequence)分分析::序列列分析析主要要用于于分析析數(shù)據(jù)據(jù)倉庫庫中的的某類類與時時間相相關(guān)的的數(shù)據(jù)據(jù),搜搜索類類似的的序列列或子子序列列,并并挖掘掘時序序模式式、周周期性性、趨趨勢和和偏離離等。。例如如,它它可以以導(dǎo)出出類似似“若若AT&T股票票連續(xù)續(xù)上漲漲兩天天且DEC股票票不下下跌,,則第第三天天IBM股股票上上漲的的可能能性為為75%””的數(shù)數(shù)據(jù)關(guān)關(guān)系。。序列列模式式可以以看成成是一一種特特定的的關(guān)聯(lián)聯(lián)模型型,它它在關(guān)關(guān)聯(lián)模模型中中增加加了時時間屬屬性。。35偏差檢檢測與與模式式相似似性挖挖掘偏差檢檢測((DeviationDetection)):用于于檢測測并解解釋數(shù)數(shù)據(jù)分分類的的偏差差,它它有助助于濾濾掉知知識發(fā)發(fā)現(xiàn)引引擎所所抽取取的無無關(guān)信信息,,也可可濾掉掉那些些不合合適的的數(shù)據(jù)據(jù),同同時可可產(chǎn)生生新的的關(guān)注注性事事實(shí)。。模式相相似性性挖掘掘:用于在在時間間數(shù)據(jù)據(jù)庫或或空間間數(shù)據(jù)據(jù)庫中中搜索索相似似模式式時,,從所所有對對象中中找出出用戶戶定義義范圍圍內(nèi)的的對象象;或或找出出所有有元素素對,,元素素對中中兩者者的距距離小小于用用戶定定義的的距離離范圍圍。模模式相相似性性挖掘掘的方方法有有相似似度測測量法法、遺遺傳算算法等等。36Web數(shù)據(jù)據(jù)挖掘掘Web數(shù)據(jù)據(jù)挖掘掘:萬萬維網(wǎng)網(wǎng)是一一個巨巨大的的、分分布廣廣泛的的和全全球性性的信信息服服務(wù)中中心,,其中中包含含了豐豐富的的超鏈鏈接信信息,,為數(shù)數(shù)據(jù)挖挖掘提提供了了豐富富的資資源。。Web數(shù)數(shù)據(jù)挖挖掘包包括Web使用用模式式挖掘掘、Web結(jié)構(gòu)構(gòu)挖掘掘和Web內(nèi)容容挖掘掘等。。Web使用用模式式挖掘掘:在在Web環(huán)環(huán)境中中,文文檔和和對象象一般般都是是通過過鏈接接來便便于用用戶訪訪問。。捕捉捉用戶戶的存存取模模式或或發(fā)現(xiàn)現(xiàn)一個個Web網(wǎng)網(wǎng)站最最頻繁繁的訪訪問路路徑稱稱為Web使用用模式式挖掘掘或Web路徑徑挖掘掘。Web結(jié)構(gòu)構(gòu)挖掘掘:是是挖掘掘Web的的鏈接接結(jié)構(gòu)構(gòu),并并找出出關(guān)于于某一一主題題的權(quán)權(quán)威網(wǎng)網(wǎng)站。。Web內(nèi)容容挖掘掘:是是指在在大量量訓(xùn)練練樣本本的基基礎(chǔ)上上,得得到數(shù)數(shù)據(jù)對對象之之間的的內(nèi)在在特征征,并并以此此為依依據(jù)進(jìn)進(jìn)行有有目的的的信信息篩篩選,,從而而獲得得指定定內(nèi)容容的信信息。?;赪eb的研研究::搜索索引擎擎的設(shè)設(shè)計、、文件件自動動分類類技術(shù)術(shù)、關(guān)關(guān)鍵詞詞的自自動提提取、、半結(jié)結(jié)構(gòu)化化信息息的提提取及及Web上上新型型應(yīng)用用的研研究等等。37第2章章數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)模模型型與與數(shù)數(shù)據(jù)據(jù)組組織織數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)模模型型概念念模模型型邏輯輯模模型型物理理模模型型數(shù)據(jù)據(jù)倉倉庫庫數(shù)數(shù)據(jù)據(jù)組組織織的的基基本本概概念念粒度度維度度元數(shù)數(shù)據(jù)據(jù)數(shù)據(jù)據(jù)分分割割數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)組組織織數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)組組織織方方式式數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)存存儲儲組組織織38數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù)組組織織高度度綜綜合合級級輕度度綜綜合合級級當(dāng)前前綜綜合合級級早期期細(xì)細(xì)節(jié)節(jié)級級多級級數(shù)數(shù)據(jù)據(jù)3940星型型圖圖模模型型物理理數(shù)數(shù)據(jù)據(jù)模模型型概念念模模型型邏輯輯模模型型物理理模模型型面向向用用戶戶的的需需求求細(xì)化化層層次次更詳詳細(xì)細(xì)的的技術(shù)術(shù)細(xì)細(xì)節(jié)節(jié)數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)模模型型信息息包包圖圖41信息息包包圖圖((概概念念模模型型))信息息包包圖圖::是數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)模模型型的的第第一一層層或或最最高高層層。。由由于于大大多多數(shù)數(shù)商商務(wù)務(wù)數(shù)數(shù)據(jù)據(jù)是是多多維維的的,,但但傳傳統(tǒng)統(tǒng)的的數(shù)數(shù)據(jù)據(jù)模模型型表表示示三三維維以以上上的的數(shù)數(shù)據(jù)據(jù)有有一一定定困困難難。。而而信信息息包包圖圖簡簡化化了了這這一一過過程程并并且且允允許許用用戶戶設(shè)設(shè)計計多多維維信信息息包包并并與與開開發(fā)發(fā)者者和和其其他他用用戶戶建建立立聯(lián)聯(lián)系系。。這這種種模模型型集集中中在在用用戶戶對對信信息息包包的的需需要要,,信信息息包包提提供供了了分分析析人人員員思思維維模模式式的的可可視視化化表表示示。。工作作::確定定系系統(tǒng)統(tǒng)邊邊界界::決決策策類類型型、、需需要要的的信信息息、、原原始始信信息息確定定主主題題域域及及其其內(nèi)內(nèi)容容::主主題題域域的的公公共共鍵鍵碼碼、、聯(lián)聯(lián)系系、、屬屬性性組組確定定維維度度::如如時時間間維維、、銷銷售售位位置置維維、、產(chǎn)產(chǎn)品品維維、、組組別別維維等等確定定類類別別::相相應(yīng)應(yīng)維維的的詳詳細(xì)細(xì)類類別別確定定指指標(biāo)標(biāo)和和事事實(shí)實(shí)::用用于于進(jìn)進(jìn)行行分分析析的的數(shù)數(shù)值值化化信信息息42信息息包包圖圖信息息包包::維度度類別別空白白信信息息包包圖圖樣樣式式指標(biāo)和事實(shí)43信息息包包圖圖〖例例〗〗試試畫畫出出銷銷售售分分析析的的信信息息包包圖圖。。解::首首先先根根據(jù)據(jù)銷銷售售分分析析的的實(shí)實(shí)際際需需求求,,確確定定信信息息包包的的維維度度、、類類別別和和指指標(biāo)標(biāo)與與事事實(shí)實(shí)::(1))維維度度::包包括括日日期期維維、、銷銷售售地地點(diǎn)點(diǎn)維維、、銷銷售售產(chǎn)產(chǎn)品品維維、、年年齡齡組組別別維維、、性性別別維維等等。。(2))類類別別::確確定定各各維維的的詳詳細(xì)細(xì)類類別別,,如如::日日期期維維包包括括年年((10))、、季季度度((40))、、月月((120))等等類類別別,,括括號號中中的的數(shù)數(shù)字字分分別別指指出出各各類類別別的的數(shù)數(shù)量量;;銷銷售售地地點(diǎn)點(diǎn)維維包包括括國國家家((15))、、區(qū)區(qū)域域((45))、、城城市市((280))、、區(qū)區(qū)((880))、、商商店店((2000))等等類類別別,,括括號號中中的的數(shù)數(shù)字字同同樣樣分分別別指指出出各各類類別別的的數(shù)數(shù)量量;;類類似似地地,,可可以以確確定定銷銷售售產(chǎn)產(chǎn)品品、、年年齡齡組組別別維維、、性性別別維維等等的的詳詳細(xì)細(xì)類類別別。。(3)指指標(biāo)和事事實(shí):確確定用于于進(jìn)行分分析的數(shù)數(shù)值化信信息,包包括預(yù)測測銷售量量、實(shí)際際銷售量量和預(yù)測測偏差等等。44銷售分析析的信息息包圖日期銷售地點(diǎn)銷售產(chǎn)品年齡組別性別年(10)國家(15)產(chǎn)品類(6)年齡組(8)性別組(2)季度(40)區(qū)域(45)產(chǎn)品組(48)月(120)城市(280)產(chǎn)品(240)區(qū)(880)商店(2000)指標(biāo)和事實(shí):預(yù)測銷售量、實(shí)際銷售量、預(yù)測偏差信息包::銷售分析析維度類別45星型圖模模型(邏邏輯模型型)星型圖::數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)模型型的第二二層是向向最終的的數(shù)據(jù)結(jié)結(jié)構(gòu)添加加某些細(xì)細(xì)節(jié)的星星型圖模模型。與與傳統(tǒng)的的關(guān)系模模型相比比,星型型圖模型型簡化了了用戶分分析所需需的關(guān)系系,從支支持決策策的角度度去定義義數(shù)據(jù)實(shí)實(shí)體,更更適合大大量復(fù)雜雜查詢。。星形圖包包括了三三種邏輯輯實(shí)體::指標(biāo)維度詳細(xì)類別別46星型圖模模型(邏邏輯模型型)〖例〗銷銷售分析析的星型型圖模型型。時間維產(chǎn)品維地區(qū)維組別維其他維銷售分析析:實(shí)際銷售售預(yù)測銷售售預(yù)測偏差差47物理數(shù)據(jù)據(jù)模型物理數(shù)據(jù)據(jù)模型::數(shù)據(jù)模模型的第第三層,,它是星星型圖模模型在數(shù)數(shù)據(jù)倉庫庫中的實(shí)實(shí)現(xiàn),如如物理的的存取方方式、數(shù)數(shù)據(jù)存儲儲結(jié)構(gòu)等等。在物理設(shè)設(shè)計時,,常常要要按數(shù)據(jù)據(jù)的重要要程度、、使用頻頻率以及及對響應(yīng)應(yīng)時間的的要求進(jìn)進(jìn)行分類類,并將將不同類類的數(shù)據(jù)據(jù)分別存存儲在不不同的存存儲設(shè)備備中。重重要程度度高、經(jīng)經(jīng)常存取取并對響響應(yīng)時間間高的數(shù)數(shù)據(jù)就存存放在高高速存儲儲設(shè)備上上,如硬硬盤;存存取頻率率低或?qū)Υ嫒№戫憫?yīng)時間間要求低低的數(shù)據(jù)據(jù)則可以以放在低低速存儲儲設(shè)備上上。48粒度-第一種形形式粒度:對對數(shù)據(jù)倉倉庫中的的數(shù)據(jù)綜綜合程度度高低的的一個度度量,它它既影響響數(shù)據(jù)倉倉庫中的的數(shù)據(jù)量量的多少少,也影影響數(shù)據(jù)據(jù)倉庫所所能回答答詢問的的種類。。粒度越小小,綜合合程度越越低,回回答查詢詢的種類類越多;;粒度度越高,,綜合程程度越高高,查詢詢的效率率也越高高。在數(shù)據(jù)倉倉庫中可可將小粒粒度的數(shù)數(shù)據(jù)存儲儲在低速速存儲器器上;大大粒度的的數(shù)據(jù)存存儲在高高速存儲儲器上。。49粒度-第二種形形式:樣樣本數(shù)據(jù)據(jù)庫樣本數(shù)據(jù)據(jù)庫:在在分析過過程中,,有許多多探索的的過程有有時分析析的目的的并不要要求精確確的結(jié)果果,只需需要得到到相對準(zhǔn)準(zhǔn)確、能能反映趨趨勢的數(shù)數(shù)據(jù),所所以可以以提取出出樣本數(shù)數(shù)據(jù)庫。。樣本數(shù)據(jù)據(jù)庫的粒粒度:是是根據(jù)采采樣率的的高低來來劃分的的,采樣樣粒度不不同的樣樣本數(shù)據(jù)據(jù)庫可以以具有相相同的綜綜合級別別,它是是按一定定的采樣樣率從細(xì)細(xì)節(jié)數(shù)據(jù)據(jù)庫或輕輕度綜合合數(shù)據(jù)庫庫中提取取的一個個子集。。樣本數(shù)據(jù)據(jù)庫的抽抽取按照照數(shù)據(jù)的的重要程程度不同同進(jìn)行,,利用樣樣本數(shù)據(jù)據(jù)庫采集集重要數(shù)數(shù)據(jù)進(jìn)行行分析既既可提高高分析效效率,又又有助于于抓住主主要因素素和主要要矛盾。。50維度維度:是是一個物物理特性性(如時時間、地地點(diǎn)、產(chǎn)產(chǎn)品等)),它是是表達(dá)數(shù)數(shù)據(jù)倉庫庫中信息息的一個個基本途途徑,可可作為標(biāo)標(biāo)識數(shù)據(jù)據(jù)的索引引。通常常的報表表只包含含有行和和列兩維維,但在在數(shù)據(jù)倉倉庫中所所存儲的的數(shù)據(jù)大大多是用用多維((三維或或三維以以上)視視圖表示示的。例如:一個銷售售系統(tǒng)中中的數(shù)據(jù)據(jù)可分為為時間維維、產(chǎn)品品維和地地理位置置維等;;一個財務(wù)務(wù)系統(tǒng)中中的數(shù)據(jù)據(jù)可分為為時間維維、支出出維和收收入維等等;一個企業(yè)業(yè)決策支支持系統(tǒng)統(tǒng)中的數(shù)數(shù)據(jù)可分分為成本本開支維維、銷售售收入維維、利潤潤維、股股票價值值維等。。51聚合在數(shù)據(jù)倉倉庫技術(shù)術(shù)中,每每一維可可包括多多個層次次,這些些層次反反過來可可以向用用戶提供供某一層層次的數(shù)數(shù)據(jù)。例例如,在在地理位位置維中中,由所所有的街街區(qū)組成成了地區(qū)區(qū),由所所有的地地區(qū)組成成了城市市等。聚聚合就是是指在維維的不同同層次內(nèi)內(nèi)移動數(shù)數(shù)據(jù),從從而構(gòu)成成維內(nèi)不不同層次次的數(shù)據(jù)據(jù)集,使使用戶不不僅能夠夠在一個個維度內(nèi)內(nèi)觀察數(shù)數(shù)據(jù),而而且能夠夠在維度度內(nèi)的不不同層次次上觀察察數(shù)據(jù)。。52分解與合成成分解與合成成是在一個個維度內(nèi)進(jìn)進(jìn)一步細(xì)分分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)按照照另一標(biāo)準(zhǔn)準(zhǔn)組合的過過程。例如如,當(dāng)以地地理位置維維觀察數(shù)據(jù)據(jù)時,用戶戶可以首先先以國家((如中國))為單位觀觀察數(shù)據(jù),,然后可以以選擇觀察察某一個地地區(qū)(如華華東地區(qū)))的數(shù)據(jù),,接下來可可以選擇觀觀察某一個個省或城市市(如上海海)的數(shù)據(jù)據(jù),這就是是數(shù)據(jù)分解解的過程。。而合成則則是分解的的逆過程,,例如用戶戶開始以省省市為觀察察對象,接接著再以地地區(qū)、國家家等為觀察察對象,就就是一個數(shù)數(shù)據(jù)合成的的過程。53分割及其標(biāo)標(biāo)準(zhǔn)分割:將數(shù)數(shù)據(jù)分散到到各自的物物理單元中中去以便能能分別處理理,提高數(shù)數(shù)據(jù)處理效效率,數(shù)據(jù)據(jù)分割后的的數(shù)據(jù)單元元稱為分片片。數(shù)據(jù)分割的的標(biāo)準(zhǔn):可可按日期、、地域、業(yè)業(yè)務(wù)領(lǐng)域或或按多個分分割標(biāo)準(zhǔn)的的組合。數(shù)據(jù)分割的的目的:便便于進(jìn)行數(shù)數(shù)據(jù)的重構(gòu)構(gòu)、索引、、重組、恢恢復(fù)、監(jiān)控控、掃描54數(shù)據(jù)分割的的方法垂直分割::垂直分割割就是把一一個表垂直直分成兩部部分。這種種類型的分分割有助于于把一大堆堆列分成兩兩個獨(dú)立的的表,這兩兩個表之間間通過一個個關(guān)鍵字段段相關(guān)聯(lián)。。水平分割::水平分割割就是把表表按行分成成兩部分。。這種類型型的分割被被用來存儲儲與用戶聯(lián)聯(lián)系緊密的的本地重要要數(shù)據(jù),從從而減少網(wǎng)網(wǎng)絡(luò)查詢。。圖解分割::經(jīng)由多個個分布系統(tǒng)統(tǒng)把一個圖圖分解成兩兩部分。可可以從指定定的服務(wù)器器或在多個個服務(wù)器之之間建立連連接而得到到一個表所所需要的全全部數(shù)據(jù)。。這種類型型的分割被被用來把小小的、靜止止的表從不不穩(wěn)定的、、越變越大大的表中分分割出來。。55元數(shù)據(jù)元數(shù)據(jù):是是用來描述述數(shù)據(jù)的數(shù)數(shù)據(jù)。它描描述和定位位數(shù)據(jù)組件件、它們的的起源及它它們在數(shù)據(jù)據(jù)倉庫進(jìn)程程中的活動動;關(guān)于數(shù)數(shù)據(jù)和操作作的相關(guān)描描述(輸入入、計算和和輸出)。。元數(shù)據(jù)可可用文件存存在元數(shù)據(jù)據(jù)庫中。要有效的管管理數(shù)據(jù)倉倉庫,必須須設(shè)計一個個描述能力力強(qiáng)、內(nèi)容容完善的元元數(shù)據(jù)。56元數(shù)據(jù)的種種類轉(zhuǎn)換元數(shù)據(jù)據(jù):為了從從事務(wù)處理理型環(huán)境向向數(shù)據(jù)倉庫庫中轉(zhuǎn)換而而建立的元元數(shù)據(jù),它它包含了所所有源數(shù)據(jù)據(jù)的信息、、事務(wù)描述述、數(shù)據(jù)結(jié)結(jié)構(gòu)的定義義、提取數(shù)數(shù)據(jù)和傳送送數(shù)據(jù)的算算法、綜合合數(shù)據(jù)和凈凈化數(shù)據(jù)的的規(guī)則、數(shù)數(shù)據(jù)訪問和和傳送的記記錄等。DSS元數(shù)數(shù)據(jù):在數(shù)數(shù)據(jù)倉庫中中用來與終終端用戶的的多維商業(yè)業(yè)模型/前前端工具之之間建立映映射,這種種元數(shù)據(jù)常常稱為DSS元數(shù)據(jù)據(jù),常用來來開發(fā)更先先進(jìn)的決策策支持工具具。57數(shù)據(jù)倉庫中中的元數(shù)據(jù)據(jù)的內(nèi)容與數(shù)據(jù)庫的的數(shù)據(jù)字典典中相似的的內(nèi)容數(shù)據(jù)倉庫的的主題描述述外部數(shù)據(jù)和和非結(jié)構(gòu)化化數(shù)據(jù)的描描述記錄系統(tǒng)定定義邏輯模型的的定義數(shù)據(jù)進(jìn)入數(shù)數(shù)據(jù)倉庫的的轉(zhuǎn)換規(guī)則則數(shù)據(jù)的提取取歷史粒度的定義義數(shù)據(jù)分割的的定義廣義索引有關(guān)存儲路路徑和結(jié)構(gòu)構(gòu)的描述關(guān)于源數(shù)據(jù)據(jù)的元數(shù)據(jù)據(jù):數(shù)據(jù)源源中所有物物理數(shù)據(jù)結(jié)結(jié)構(gòu);所有有數(shù)據(jù)項的的業(yè)務(wù)定義義;每個數(shù)數(shù)據(jù)項更新新的頻率,,以及由誰誰或哪個過過程更新的的說明;每每個數(shù)據(jù)項項的有效值值;其它系系統(tǒng)中具有有相同業(yè)務(wù)務(wù)含義的數(shù)數(shù)據(jù)項的清清單。關(guān)于數(shù)據(jù)倉倉庫映射的的元數(shù)據(jù)。。用元數(shù)據(jù)據(jù)反映數(shù)據(jù)據(jù)倉庫中的的數(shù)據(jù)項是是從哪個特特定的數(shù)據(jù)據(jù)源填充的的,經(jīng)過哪哪些轉(zhuǎn)換、、集成過程程。關(guān)于系統(tǒng)安安全的元數(shù)數(shù)據(jù)。描述述系統(tǒng)中用用戶、權(quán)限限組及用戶戶權(quán)限信息息。與設(shè)計時采采用的具體體技術(shù)以及及具體應(yīng)用用環(huán)境有關(guān)關(guān)的內(nèi)容。。58數(shù)據(jù)倉庫的的數(shù)據(jù)組織織為了提高分分析和決策策的效率和和有效性,,分析型處處理及其數(shù)數(shù)據(jù)必須與與事務(wù)型處處理及其數(shù)數(shù)據(jù)相分離離,把分析析型處理所所需要的數(shù)數(shù)據(jù)從事務(wù)務(wù)型處理環(huán)環(huán)境中提取取出來,按按照分析型型處理的要要求進(jìn)行重重新組織,,建立單獨(dú)獨(dú)的分析處處理環(huán)境。。數(shù)據(jù)倉庫庫正是構(gòu)建建這種新的的分析處理理環(huán)境而出出現(xiàn)的一種種數(shù)據(jù)存儲儲和組織技技術(shù)。數(shù)據(jù)倉庫的的數(shù)據(jù)組織織結(jié)構(gòu)不同同于一般的的數(shù)據(jù)庫系系統(tǒng),需要要將從原有有的業(yè)務(wù)數(shù)數(shù)據(jù)庫中獲獲得的基本本數(shù)據(jù)和綜綜合數(shù)據(jù)分分成一些不不同的級別別。在數(shù)據(jù)據(jù)倉庫中,,數(shù)據(jù)按照照粒度從小小到大可分分為四個級級別:早期期細(xì)節(jié)級、、當(dāng)前細(xì)節(jié)節(jié)級、輕度度細(xì)節(jié)級和和高度細(xì)節(jié)節(jié)級。從事事務(wù)型處理理環(huán)境中提提取的源數(shù)數(shù)據(jù)經(jīng)過綜綜合后,首首先進(jìn)入當(dāng)當(dāng)前細(xì)節(jié)級級,并根據(jù)據(jù)需要進(jìn)行行進(jìn)一步的的綜合進(jìn)入入輕度綜合合級或高度度綜合級,,老化的數(shù)數(shù)據(jù)將進(jìn)入入早期細(xì)節(jié)節(jié)級。59數(shù)據(jù)倉庫的的數(shù)據(jù)組織織方式虛擬存儲方方式:數(shù)據(jù)倉庫數(shù)數(shù)據(jù)的虛擬擬存儲方式式是指在數(shù)數(shù)據(jù)倉庫中中實(shí)際上并并沒有具體體的數(shù)據(jù)存存儲,數(shù)據(jù)據(jù)倉庫中的的數(shù)據(jù)仍然然存儲在源源數(shù)據(jù)庫中中,只是根根據(jù)用戶的的多維分析析需求而形形成多維視視圖,臨時時在源數(shù)據(jù)據(jù)庫中找出出并提取所所需要的數(shù)數(shù)據(jù),完成成多維分析析。這種組組織方式比比較簡單、、花費(fèi)少、、使用靈活活,但同時時它也存在在一個致命命的弱點(diǎn)::即只有當(dāng)當(dāng)源數(shù)據(jù)庫庫的組織比比較規(guī)范、、數(shù)據(jù)完備備并沒有冗冗余,同時時又比較接接近多維數(shù)數(shù)據(jù)模型時時,虛擬數(shù)數(shù)據(jù)倉庫的的多維語義義層才容易易定義。而而一般數(shù)據(jù)據(jù)庫的組織織關(guān)系都比比較復(fù)雜,,數(shù)據(jù)庫中中的數(shù)據(jù)存存在許多冗冗余和相互互矛盾的地地方,數(shù)據(jù)據(jù)的凈化、、提取、集集成需要花花費(fèi)大量的的時間,在在實(shí)際應(yīng)用用中這種方方式難以建建立起有效效的、為決決策服務(wù)的的數(shù)據(jù)支持持。60數(shù)據(jù)倉庫的的數(shù)據(jù)組織織方式基于關(guān)系表表的存儲方方式:基于關(guān)系表表的存儲方方式是將數(shù)數(shù)據(jù)倉庫的的數(shù)據(jù)存儲儲在關(guān)系型型數(shù)據(jù)庫的的表結(jié)構(gòu)中中,在元數(shù)數(shù)據(jù)的管理理下完成數(shù)數(shù)據(jù)倉庫的的功能。這這種組織方方式在建庫庫時有兩個個主要過程程用以完成成數(shù)據(jù)的提提?。菏紫认纫峁┮灰环N可視化化的操作界界面,使決決策分析人人員能對源源數(shù)據(jù)庫的的內(nèi)容進(jìn)行行選擇,定定義多維數(shù)數(shù)據(jù)模型;;然后再編編制程序把把數(shù)據(jù)庫中中的數(shù)據(jù)提提取到數(shù)據(jù)據(jù)倉庫的數(shù)數(shù)據(jù)庫中。。這種方式式的主要問問題是在多多維數(shù)據(jù)模模型定義好好后,從數(shù)數(shù)據(jù)庫中提提取數(shù)據(jù)往往往需要編編制獨(dú)立、、復(fù)雜的程程序,因此此,通用性性較差,且且很難維護(hù)護(hù)。多維數(shù)據(jù)庫庫存儲方式式:多維數(shù)據(jù)庫庫的組織方方式是直接接面向OLAP分析析操作的數(shù)數(shù)據(jù)組織形形式。這種種數(shù)據(jù)庫產(chǎn)產(chǎn)品也比較較多,實(shí)現(xiàn)現(xiàn)方法也不不盡相同。。其數(shù)據(jù)組組織采用多多維數(shù)據(jù)結(jié)結(jié)構(gòu)文件進(jìn)進(jìn)行存儲,,并有維索索引及相應(yīng)應(yīng)的元數(shù)據(jù)據(jù)與其對應(yīng)應(yīng)。61數(shù)據(jù)倉庫中中文件的存存儲方式簡單堆積文文件:它將每天從從數(shù)據(jù)庫中中提取加工工后的數(shù)據(jù)據(jù)逐日積累累的存儲起起來。按這這種方式存存儲的數(shù)據(jù)據(jù)細(xì)節(jié)化程程度很高,,可以應(yīng)付付多種細(xì)節(jié)節(jié)查詢,但但分析時查查詢的效率率較低。輪轉(zhuǎn)綜合文文件:它將數(shù)據(jù)按按不同的期期限輪轉(zhuǎn)地地存儲。例如,可將將每一天的的數(shù)據(jù)記錄錄在一個日日記錄集中中,當(dāng)?shù)竭_(dá)達(dá)一個星期期后再將這這七天的數(shù)數(shù)據(jù)進(jìn)行綜綜合然后存存儲在一個個周記錄中中,同時將將原來日記記錄集中的的數(shù)據(jù)清空空開始對新新一周的每每一天的數(shù)數(shù)據(jù)進(jìn)行記記錄;同理理,當(dāng)?shù)竭_(dá)達(dá)一個月后后,將周記記錄集中的的數(shù)據(jù)進(jìn)行行綜合然后后存儲在一一個月記錄錄中,而周周記錄中又又開始新一一個月的每每一周的記記錄,以此此類推。按按這種形式式存儲的數(shù)數(shù)據(jù)較按簡簡單堆積文文件形式存存儲的數(shù)據(jù)據(jù)其數(shù)據(jù)量量大大減少少,但是它它是以損失失細(xì)節(jié)程度度為代價的的,時間越越久的數(shù)據(jù)據(jù),細(xì)節(jié)程程度越低。。62數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)組織形形式簡化直接接文件:數(shù)據(jù)是從從操作型型環(huán)境直直接裝入入數(shù)據(jù)倉倉庫中,,并沒有有任何積積累,只只不過這這種文件件不是在在每天的的基礎(chǔ)上上組織的的,而是是以較長長時間((如一個個星期、、一個月月)為單單位的。。因此,,簡單直直接文件件是按一一定時間間操作型型數(shù)據(jù)庫庫的一個個快照,,即按一一定所時時間間隔隔對數(shù)據(jù)據(jù)庫的采采樣。連續(xù)文件件:它是通過過比較兩兩個連續(xù)續(xù)的簡單單直接文文件的不不同而生生成的另另一種連連續(xù)文件件,生成成的連續(xù)續(xù)文件又又可以和和新的簡簡單直接接文件一一起生成成新的連連續(xù)文件件。例如如:通過過比較兩兩個簡單單文件““1月份份顧客表表”和““2月份份顧客表表”生成成一個連連續(xù)文件件“1~~2月份份顧客表表”,然然后再通通過比較較連續(xù)文文件“1~2月月份顧客客表”和和另一個個簡單直直接文件件“3月月份顧客客表”生生成一個個相等連連續(xù)文件件“1~~3月份份顧客表表”等。。63第3章

數(shù)據(jù)據(jù)倉庫的設(shè)計計數(shù)據(jù)倉庫設(shè)計計與數(shù)據(jù)庫設(shè)設(shè)計的區(qū)別數(shù)據(jù)倉庫的設(shè)設(shè)計步驟高層設(shè)計技術(shù)準(zhǔn)備工作作中層設(shè)計低層設(shè)計數(shù)據(jù)倉庫生成成64數(shù)據(jù)倉庫的設(shè)設(shè)計數(shù)據(jù)倉庫是企企業(yè)信息化環(huán)環(huán)境的核心,,它是建立決決策支持系統(tǒng)統(tǒng)的基礎(chǔ)。一一個企業(yè)在實(shí)實(shí)施其數(shù)據(jù)倉倉庫戰(zhàn)略時,,數(shù)據(jù)倉庫體體系結(jié)構(gòu)的選選擇是關(guān)系到到數(shù)據(jù)倉庫成成功與否的關(guān)關(guān)鍵問題。為為了提高系統(tǒng)統(tǒng)的效率和性性能,數(shù)據(jù)倉倉庫的數(shù)據(jù)內(nèi)內(nèi)容、結(jié)構(gòu)、、粒度、分割割以及其他物物理設(shè)計需要要根據(jù)用戶所所返回的信息息不斷地調(diào)整整和完善,而而且數(shù)據(jù)倉庫庫需要通過不不斷地理解用用戶的分析需需求,向用戶戶提供更準(zhǔn)確確、更有用的的決策信息,,所以數(shù)據(jù)倉倉庫對靈活性性和擴(kuò)展性有有較高的要求求,它的建立立是一個動態(tài)態(tài)、循環(huán)和反反饋的過程。。65數(shù)據(jù)倉庫的設(shè)設(shè)計-與數(shù)據(jù)庫設(shè)計計的區(qū)別系統(tǒng)設(shè)計的目目標(biāo)不同:數(shù)據(jù)庫是面向向事務(wù)型處理理的,所以事事務(wù)型處理性性能是系統(tǒng)設(shè)設(shè)計的一個主主要目標(biāo)。而而數(shù)據(jù)倉庫是是為了支持決決策分析而建建立的一種數(shù)數(shù)據(jù)存儲集合合,在系統(tǒng)設(shè)設(shè)計時,更關(guān)關(guān)心的是建立立起一個全局局一致的分析析型處理環(huán)境境來支持企業(yè)業(yè)的決策分析析。面向的需求不不同:數(shù)據(jù)庫系統(tǒng)是是面向應(yīng)用的的,所以在系系統(tǒng)設(shè)計時應(yīng)應(yīng)以此為出發(fā)發(fā)點(diǎn)和基礎(chǔ)。。而在決策分分析時,決策策者分析問題題的角度多種種多樣,所以以數(shù)據(jù)處理流流和信息流不不固定,甚至至決策者對所所要進(jìn)行的分分析處理都不不太明了,數(shù)數(shù)據(jù)的分析處處理的需求更更靈活。這就就決定了在數(shù)數(shù)據(jù)倉庫系統(tǒng)統(tǒng)設(shè)計時,不不可能完全從從用戶需求出出發(fā)來進(jìn)行設(shè)設(shè)計。66數(shù)據(jù)倉庫的設(shè)設(shè)計-與數(shù)據(jù)庫設(shè)計計的區(qū)別數(shù)據(jù)來源不同同:數(shù)據(jù)庫系統(tǒng)中中數(shù)據(jù)是從企企業(yè)外部通過過輸入得到的的,所以系統(tǒng)統(tǒng)設(shè)計時就是是設(shè)計如何與與外部對話得得到數(shù)據(jù),如如何存儲這些些數(shù)據(jù),它關(guān)關(guān)心的是數(shù)據(jù)據(jù)的安全性和和完整性等。。數(shù)據(jù)倉庫中中的數(shù)據(jù)大部部分是從企業(yè)業(yè)內(nèi)部的數(shù)據(jù)據(jù)庫系統(tǒng)得到到的,還有一一部分是企業(yè)業(yè)外部的非結(jié)結(jié)構(gòu)化數(shù)據(jù),,這些數(shù)據(jù)都都是安全可靠靠且正確有效效的,所以在在系統(tǒng)設(shè)計時時它關(guān)心的不不是數(shù)據(jù)的安安全性和完整整性,而是數(shù)數(shù)據(jù)的一致性性。數(shù)據(jù)的處理類類型不同:數(shù)據(jù)庫系統(tǒng)支支持的是事務(wù)務(wù)型處理,主主要指數(shù)據(jù)的的增、刪、改改、查等等,,系統(tǒng)計時時都是針對某某一具體應(yīng)用用。數(shù)據(jù)倉庫庫是面向分析析的,它的數(shù)數(shù)據(jù)處理大都都是對數(shù)據(jù)的的復(fù)雜查詢,,所以在設(shè)計計時考慮的是是如何更好的的面向主題,,如何提高查查詢的效率等等。67數(shù)據(jù)倉庫的設(shè)設(shè)計-與數(shù)據(jù)庫設(shè)計計的區(qū)別設(shè)計方法不同同:由于在數(shù)據(jù)庫庫系統(tǒng)中業(yè)務(wù)務(wù)過程和規(guī)則則比較規(guī)范固固定,系統(tǒng)設(shè)設(shè)計人員能清清楚的知道應(yīng)應(yīng)用需求和數(shù)數(shù)據(jù)流程,所所以系統(tǒng)設(shè)計計一般采用系系統(tǒng)生命周期期法(SystemsDevelopmentLifeCycle,SDLC)。。在決策分析析時,決策人人員往往無法法給決策需求求一個規(guī)范的的說明,只能能給出一個模模糊的描述,,對這種需求求不確定的開開發(fā)過程,設(shè)設(shè)計方法有很很大的不同,,采用與SDLC相反的CLDS法。68收集應(yīng)用需求求分析應(yīng)用需求求構(gòu)建數(shù)據(jù)庫數(shù)據(jù)倉庫建模模數(shù)據(jù)獲取與集集成構(gòu)建數(shù)據(jù)倉庫庫系統(tǒng)實(shí)施應(yīng)用編程系統(tǒng)測試DSS應(yīng)用編編程系統(tǒng)測試?yán)斫庑枨驞B應(yīng)用B應(yīng)用ADBDB外部數(shù)據(jù)DWSDLC方法法CLDS方法法69數(shù)據(jù)倉庫設(shè)計計的技術(shù)要求求對大量數(shù)據(jù)的的組織和管理理。數(shù)據(jù)倉庫中包包含了大量的的歷史數(shù)據(jù),,它是一段較較長時間內(nèi)的的數(shù)據(jù)。另外外,數(shù)據(jù)倉庫庫中的數(shù)據(jù)是是從數(shù)據(jù)庫中中提取得來的的,所以不必必關(guān)心它的數(shù)數(shù)據(jù)安全性和和數(shù)據(jù)完整性性,它要求進(jìn)進(jìn)行大量數(shù)據(jù)據(jù)的組織與管管理。支持高性能的的復(fù)雜分析。。復(fù)雜分析時通通常涉及大量量數(shù)據(jù)的聚集集、綜合等,,在進(jìn)行復(fù)雜雜查詢時經(jīng)常常會使用多表表的聯(lián)接、累累計、分類、、排序等操作作,這對數(shù)據(jù)據(jù)倉庫基于的的數(shù)據(jù)庫系統(tǒng)統(tǒng)的性能特別別是并行處理理能力提出了了挑戰(zhàn)。對提取出來的的數(shù)據(jù)進(jìn)行集集成。數(shù)據(jù)倉庫中的的數(shù)據(jù)是從多多個應(yīng)用領(lǐng)域域中提取出來來的,在不同同的應(yīng)用領(lǐng)域域和不同的數(shù)數(shù)據(jù)庫系統(tǒng)中中都有不同的的結(jié)構(gòu)和形式式。如果直接接對這些數(shù)據(jù)據(jù)進(jìn)行分析,,會得到不同同的結(jié)果,所所以如何對數(shù)數(shù)據(jù)進(jìn)行集成成也是構(gòu)建數(shù)數(shù)據(jù)倉庫的一一個重要方面面。對高層決策的的最終用戶提提供工具。數(shù)據(jù)倉庫只是是一個數(shù)據(jù)存存儲的集合,,如果沒有各各種分析應(yīng)用用工具,一個個龐大的數(shù)據(jù)據(jù)倉庫是毫無無意義的。這這些工具的設(shè)設(shè)計對于開發(fā)發(fā)一個完整的的數(shù)據(jù)倉庫及及其應(yīng)用體系系是致關(guān)重要要的。70數(shù)據(jù)倉庫的設(shè)設(shè)計步驟高層設(shè)計技術(shù)準(zhǔn)備工作作中層設(shè)計低層設(shè)計數(shù)據(jù)倉庫生成成71高層設(shè)計(概概念模型設(shè)計計)高層設(shè)計:主主要考慮商業(yè)業(yè)過程和商業(yè)業(yè)需求的集成成,將與目前前商業(yè)過程有有關(guān)的信息和和數(shù)據(jù)倉庫試試圖實(shí)現(xiàn)的目目標(biāo)合并在一一起,創(chuàng)建信信息包圖。創(chuàng)建信息包圖圖的過程:分分析用戶需求求,收集信息息將信息打包包的過程。分析用戶需求求(確定系統(tǒng)統(tǒng)邊界):確定用戶要做做的決策類型型確定用戶決策策時需要的信信息確定原始信息息決定數(shù)據(jù)倉庫庫所需要的信信息的級別,,采用多級信信息包圖定義關(guān)鍵性能能指標(biāo)(確定定主要的主題題域):主題域的公共共鍵碼主題域間的聯(lián)聯(lián)系充分代表主題題的屬性72高層設(shè)計(概概念模型設(shè)計計)定義維度:每每一個維代表表一個統(tǒng)一的的訪問數(shù)據(jù)倉倉庫中信息的的途徑。這些些維也定義了了一個完整的的主題分類,,而且這些分分類將被用作作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論