數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)_第5頁(yè)
已閱讀5頁(yè),還剩64頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程簡(jiǎn)介:1.為什么出現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?啤酒與尿布7-112.研究?jī)?nèi)容從海量數(shù)據(jù)中找到規(guī)律與聯(lián)系,為決策提供支持3.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的不同數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)主要學(xué)習(xí)內(nèi)容:第一篇數(shù)據(jù)倉(cāng)庫(kù)與OLAP數(shù)據(jù)倉(cāng)庫(kù)聯(lián)機(jī)分析處理技術(shù)(OLAP)數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)清洗數(shù)據(jù)集成和變換數(shù)據(jù)約簡(jiǎn)第二篇數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)規(guī)則挖掘、分類(lèi)、聚類(lèi)分析數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用等。主要參考書(shū):

1.《數(shù)據(jù)倉(cāng)庫(kù)》

InmonW.H著

機(jī)械工業(yè)出版社

2.《數(shù)據(jù)挖掘–概念與技術(shù)》

JiaweiHan&MichelineKamber

著機(jī)械工業(yè)出版社

3.《數(shù)據(jù)挖掘》

朱明

中國(guó)科學(xué)技術(shù)大學(xué)出版社

4.《數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理》

王珊等

科學(xué)出版社考核方法:

考核采取筆試結(jié)合實(shí)驗(yàn)的方法:實(shí)驗(yàn)成績(jī)30%筆試成績(jī)70%第一章數(shù)據(jù)倉(cāng)庫(kù)概述本章介紹了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)產(chǎn)生的背景、數(shù)據(jù)倉(cāng)庫(kù)的含義與特征、數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)系統(tǒng)的區(qū)別和數(shù)據(jù)倉(cāng)庫(kù)的基本體系結(jié)構(gòu)。

1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生

1.2數(shù)據(jù)倉(cāng)庫(kù)的含義

1.3數(shù)據(jù)倉(cāng)庫(kù)的特征

1.4數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)

1.5數(shù)據(jù)倉(cāng)庫(kù)的基本結(jié)構(gòu)1.6數(shù)據(jù)倉(cāng)庫(kù)的基本概念1.7數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.1數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生1.數(shù)據(jù)處理分為兩類(lèi): 事物處理 分析處理 2.傳統(tǒng)數(shù)據(jù)庫(kù)較難滿足分析處理的要求: 歷史數(shù)據(jù)需求量大 不同系統(tǒng)的數(shù)據(jù)難以集成(蜘蛛網(wǎng)問(wèn)題) 對(duì)大量數(shù)據(jù)的訪問(wèn)性能不足 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離

1.2數(shù)據(jù)倉(cāng)庫(kù)的含義對(duì)于什么是數(shù)據(jù)倉(cāng)庫(kù),還有許多不同的定義,如:“數(shù)據(jù)倉(cāng)庫(kù)是融合方法、技術(shù)和工具以在完整的平臺(tái)上將數(shù)據(jù)提交給終端用戶的一種手段”?!皵?shù)據(jù)倉(cāng)庫(kù)是對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程”?!皵?shù)據(jù)倉(cāng)庫(kù)是一種具有集成性、穩(wěn)定性和提供決策支持的處理”?!盀椴樵兒头治觯ú皇鞘聞?wù)處理)而設(shè)計(jì)的關(guān)系數(shù)據(jù)庫(kù)”

20世紀(jì)80年代中期,“數(shù)據(jù)倉(cāng)庫(kù)”這個(gè)名詞首次出現(xiàn)在號(hào)稱(chēng)“數(shù)據(jù)倉(cāng)庫(kù)之父”W.H.Inmon的《BuildingDataWarehouse》一書(shū)中,在該書(shū)中,W.H.Inmon把數(shù)據(jù)倉(cāng)庫(kù)定義為“一個(gè)面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理決策過(guò)程?!保ā癆datawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.”)WilliamH.Inmon:數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)是是一一個(gè)個(gè)面向向主主題題的的、集成成的的、非易易失失的的且隨時(shí)時(shí)間間變變化化的的數(shù)據(jù)據(jù)集集合合,,用用于于支支持持管管理理人人員員的的決決策。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)之父--BillInmon1.3數(shù)數(shù)據(jù)倉(cāng)庫(kù)的的特征數(shù)據(jù)倉(cāng)庫(kù)的的數(shù)據(jù)是面面向主題的的數(shù)據(jù)倉(cāng)庫(kù)的的數(shù)據(jù)是集集成的數(shù)據(jù)倉(cāng)庫(kù)的的數(shù)據(jù)是非非易失的數(shù)據(jù)倉(cāng)庫(kù)的的數(shù)據(jù)是隨隨時(shí)間不斷斷變化的面向主題主題(Subject):特特定的數(shù)據(jù)據(jù)分析領(lǐng)域域與目標(biāo)。。面向主題::為特定的的數(shù)據(jù)分析析領(lǐng)域提供供數(shù)據(jù)支持持。數(shù)據(jù)倉(cāng)庫(kù)是是面向分析析、決策人人員的主觀觀要求的,,不同的用用戶有不同同的要求,,同一個(gè)用用戶的要求求也會(huì)隨時(shí)時(shí)間而經(jīng)常常變化,因因此,數(shù)據(jù)據(jù)倉(cāng)庫(kù)中的的主題有時(shí)時(shí)會(huì)因用戶戶主觀要求求的變化而而變化的。。面向主題為特定數(shù)據(jù)據(jù)分析領(lǐng)域域提供的數(shù)數(shù)據(jù)與傳統(tǒng)統(tǒng)數(shù)據(jù)庫(kù)中中的數(shù)據(jù)是是有不同的的。傳統(tǒng)數(shù)數(shù)據(jù)庫(kù)中的的數(shù)據(jù)是原原始的、基基礎(chǔ)的數(shù)據(jù)據(jù),而特定定分析領(lǐng)域域數(shù)據(jù)則是是需要對(duì)它它們作必要要的抽取、、加工與總總結(jié)而形成成。面向主題示示例例:一個(gè)面面向事務(wù)處處理的“商場(chǎng)”數(shù)據(jù)庫(kù)系統(tǒng)統(tǒng),其數(shù)據(jù)據(jù)模式如下下采購(gòu)子系統(tǒng)統(tǒng):訂單(訂單單號(hào),供應(yīng)應(yīng)商號(hào),總總金額,日日期)訂單細(xì)則((訂單號(hào),,商品號(hào),,類(lèi)別,單單價(jià),數(shù)量量)供應(yīng)商(供供應(yīng)商號(hào),,供應(yīng)商名名,地址,,電話)銷(xiāo)售子系統(tǒng)統(tǒng):顧客(顧客客號(hào),姓名名,性別,,年齡,文文化程度,,地址,電電話)銷(xiāo)售(員工工號(hào),顧客客號(hào),商品品號(hào),數(shù)量量,單價(jià),,日期)面向主題示示例庫(kù)存管理子子系統(tǒng):領(lǐng)料單(領(lǐng)領(lǐng)料單號(hào),,領(lǐng)料人,,商品號(hào),,數(shù)量,日日期)進(jìn)料單(進(jìn)進(jìn)料單號(hào),,訂單號(hào),,進(jìn)料人,,收料人,,日期)庫(kù)存(商品品號(hào),庫(kù)房房號(hào),庫(kù)存存量,日期期)庫(kù)房(庫(kù)房房號(hào),倉(cāng)庫(kù)庫(kù)管理員,,地點(diǎn),庫(kù)庫(kù)存商品描描述)人事管理子子系統(tǒng):?jiǎn)T工(員工工號(hào),姓名名,性別,,年齡,文文化程度,,部門(mén)號(hào)))部門(mén)(部門(mén)門(mén)號(hào),部門(mén)門(mén)名稱(chēng),部部門(mén)主管,,電話)面向主題示示例如果按照面面向主題的的方式進(jìn)行行數(shù)據(jù)組織織,首先應(yīng)應(yīng)該抽取主主題,即按按照管理人人員的分析析要求來(lái)確確定主題,,而與每個(gè)個(gè)主題相關(guān)關(guān)的數(shù)據(jù)又又與有關(guān)的的事務(wù)處理理所需的數(shù)數(shù)據(jù)不盡相相同。在每個(gè)主題題中,都包包含了有關(guān)關(guān)該主題的的所有信息息,同時(shí)又又拋棄了與與分析處理理無(wú)關(guān)或不不需要的數(shù)數(shù)據(jù),從而而將原本分分散在各個(gè)個(gè)子系統(tǒng)中中的有關(guān)信信息集中在在一個(gè)主題題中,形成成有關(guān)該主主題的一個(gè)個(gè)完整一致致的描述。。面向主題題的數(shù)據(jù)組組織方式所所強(qiáng)調(diào)的就就是要形成成一個(gè)這樣樣一致的信信息集合主題一:商品商品固有信信息:商品品號(hào),商品品名,類(lèi)別別,顏色等等商品采購(gòu)信信息:商品品號(hào),供應(yīng)應(yīng)商號(hào),供供應(yīng)價(jià),供供應(yīng)日期,,供應(yīng)量等等商品銷(xiāo)售信信息:商品品號(hào),顧客客號(hào),售價(jià)價(jià),銷(xiāo)售日日期,銷(xiāo)售售量等商品庫(kù)存信信息:商品品號(hào),庫(kù)房房號(hào),庫(kù)存存量,日期期等主題二:供應(yīng)商供應(yīng)商固有有信息:供供應(yīng)商號(hào),,供應(yīng)商名名,地址,,電話等供應(yīng)商品信信息:供應(yīng)應(yīng)商號(hào),商商品號(hào),供供應(yīng)價(jià),供供應(yīng)日期,,供應(yīng)量等等主題三::顧客顧客固有有信息::顧客號(hào)號(hào),顧客客名,性性別,年年齡,文文化程度度,住址址,電話話等顧客購(gòu)物物信息::顧客號(hào)號(hào),商品品號(hào),售售價(jià),購(gòu)購(gòu)買(mǎi)日期期,購(gòu)買(mǎi)買(mǎi)量等)示例了一一個(gè)電信信企業(yè)的的情況。。計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù):計(jì)計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù)記錄錄了客戶戶的消費(fèi)費(fèi)情況財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù):財(cái)財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù)記錄錄了客戶戶的繳費(fèi)費(fèi)情況客戶服務(wù)務(wù)數(shù)據(jù)庫(kù)庫(kù):客戶戶的咨詢?cè)兒屯对V訴情況如果直接接基于傳傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)進(jìn)行““客戶””和“收收益”信信息的分分析,則則需要訪訪問(wèn)多個(gè)個(gè)數(shù)據(jù)庫(kù)庫(kù)才能獲獲得客戶戶或收益益各個(gè)側(cè)側(cè)面的信信息(收收益主題題需從計(jì)計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù)和財(cái)財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù)中了了解公司司各項(xiàng)業(yè)業(yè)務(wù)的收收入情況況;客戶戶主題則則要從計(jì)計(jì)費(fèi)數(shù)據(jù)據(jù)庫(kù)、財(cái)財(cái)務(wù)數(shù)據(jù)據(jù)庫(kù)、客客戶服務(wù)務(wù)數(shù)據(jù)庫(kù)庫(kù)中獲得得客戶消消費(fèi)、交交費(fèi)、咨咨詢等全全方位的的信息。。),這這樣將極極大的影影響系統(tǒng)統(tǒng)處理的的時(shí)間和和效率,,并且數(shù)數(shù)據(jù)之間間的不一一致性和和不同步步等問(wèn)題題將影響響決策的的可靠性性。而以以“客戶戶”和““收益””主題組組織的數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù),將某某個(gè)主題題的全部部相關(guān)數(shù)數(shù)據(jù)集中中于一個(gè)個(gè)地方,,這樣決決策者可可以非常常方便地地在數(shù)據(jù)據(jù)倉(cāng)庫(kù)中中的一個(gè)個(gè)位置檢檢索包含含某個(gè)主主題的所所有數(shù)據(jù)據(jù)。面向主題題每個(gè)主題題所需數(shù)數(shù)據(jù)的物物理存儲(chǔ)儲(chǔ):多維數(shù)據(jù)據(jù)庫(kù)(MDDB—Multi-DimensionalDataBase)用用多維數(shù)數(shù)組形式式存儲(chǔ)數(shù)數(shù)據(jù)。關(guān)系數(shù)據(jù)據(jù)庫(kù)。用一組關(guān)關(guān)系來(lái)組組織數(shù)據(jù)據(jù)的存儲(chǔ)儲(chǔ),同一一主題的的一組關(guān)關(guān)系都有有一個(gè)公共的關(guān)關(guān)鍵字,存放的的也不是是細(xì)節(jié)性性的業(yè)務(wù)務(wù)數(shù)據(jù),,而是經(jīng)經(jīng)過(guò)一定定程度的的綜合形形成的綜綜合性數(shù)數(shù)據(jù)。集成的數(shù)據(jù)是分分散的;;由于事事務(wù)處理理應(yīng)用分分散、蜘蜘蛛網(wǎng)問(wèn)問(wèn)題、數(shù)數(shù)據(jù)不一一致問(wèn)題題、外部部數(shù)據(jù)和和非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中的數(shù)數(shù)據(jù)是為為分析服服務(wù)的,,而分析析需要多多種廣泛泛的不同同數(shù)據(jù)源源以便進(jìn)進(jìn)行比較較、鑒別別,因此此數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的數(shù)據(jù)必必須從多多個(gè)數(shù)據(jù)據(jù)源中獲獲取,這這些數(shù)據(jù)據(jù)源包括括多種類(lèi)類(lèi)型數(shù)據(jù)據(jù)庫(kù)、文文件系統(tǒng)統(tǒng)以及Internet網(wǎng)上上數(shù)據(jù)等等,它們們通過(guò)數(shù)數(shù)據(jù)集成成而形成成數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的的數(shù)據(jù)。。數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中存儲(chǔ)儲(chǔ)的數(shù)據(jù)據(jù)一般從從企業(yè)原原來(lái)已建建立的數(shù)數(shù)據(jù)庫(kù)系系統(tǒng)中提提取出來(lái)來(lái),但并并不是原原有數(shù)據(jù)據(jù)的簡(jiǎn)單單拷貝,,而是經(jīng)經(jīng)過(guò)了抽抽取、篩篩選、清清理、綜綜合等工工作。這這是因?yàn)闉椋?)原原有數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)記錄的的是每一一項(xiàng)業(yè)務(wù)務(wù)處理的的流水帳帳,這些些數(shù)據(jù)不不適合于于分析處處理。在在進(jìn)入數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)之前必必須經(jīng)過(guò)過(guò)綜合、、計(jì)算,,同時(shí)拋拋棄一些些分析處處理不需需要的數(shù)數(shù)據(jù)項(xiàng),,必要時(shí)時(shí)還要增增加一些些可能涉涉及的外外部數(shù)據(jù)據(jù)。2)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)每一個(gè)主主題所對(duì)應(yīng)的的源數(shù)據(jù)在源源分散數(shù)據(jù)庫(kù)庫(kù)中有許多重重復(fù)或不一致致之處,必須須將這些數(shù)據(jù)據(jù)轉(zhuǎn)換成全局局統(tǒng)一的定義義,消除不一一致和錯(cuò)誤之之處,以保證證數(shù)據(jù)的質(zhì)量量;顯然,對(duì)對(duì)不準(zhǔn)確,甚甚至不正確的的數(shù)據(jù)分析得得出的結(jié)果將將不能用于指指導(dǎo)企業(yè)做出出科學(xué)的決策策。3)源數(shù)據(jù)據(jù)加載到數(shù)據(jù)據(jù)倉(cāng)庫(kù)后,還還要根據(jù)決策策分析的需要要對(duì)這些數(shù)據(jù)據(jù)進(jìn)行概括、、聚集處理。。事實(shí)上,決策策支持系統(tǒng)需需要集成的數(shù)數(shù)據(jù)。全面而而正確的數(shù)據(jù)據(jù)是有效地分分析和決策的的首要前提,,相關(guān)數(shù)據(jù)收收集得越完整整,得到的結(jié)結(jié)果就越可靠靠。因此,對(duì)對(duì)源數(shù)據(jù)的集集成是數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)建設(shè)中最最關(guān)鍵,也是是最復(fù)雜的一一步。集成的集成的集成的方法::統(tǒng)一:消除不不一致的現(xiàn)象象綜合:對(duì)原有有數(shù)據(jù)進(jìn)行綜綜合和計(jì)算需要考慮的問(wèn)問(wèn)題:數(shù)據(jù)格式計(jì)量單位數(shù)據(jù)代碼含含義混亂數(shù)據(jù)名稱(chēng)混混亂非易失的數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)是是經(jīng)過(guò)抽取取而形成的的分析型數(shù)數(shù)據(jù),不具具有原始性性,主要供供企業(yè)決策策分析之用用,執(zhí)行的的主要是‘查詢’操作,一般般情況下不不執(zhí)行‘更新’操作。同時(shí)時(shí),一個(gè)穩(wěn)穩(wěn)定的數(shù)據(jù)據(jù)環(huán)境也有有利于數(shù)據(jù)據(jù)分析操作作和決策的的制訂。但這也不等等于數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中的數(shù)數(shù)據(jù)不需要要‘更新’操作。在需要進(jìn)行行新的分析析決策時(shí),,可能需要要進(jìn)行新的的數(shù)據(jù)抽取取和‘更新’操作數(shù)據(jù)倉(cāng)庫(kù)中中的一些過(guò)過(guò)時(shí)的數(shù)據(jù)據(jù),也可以以通過(guò)‘刪除’操作丟棄掉掉。因此數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的存儲(chǔ)儲(chǔ)管理相對(duì)對(duì)于DBMS來(lái)說(shuō)要要簡(jiǎn)單得多多。隨時(shí)間不斷斷變化數(shù)據(jù)倉(cāng)庫(kù)中中的數(shù)據(jù)必必須以一定定時(shí)間段為為單位進(jìn)行行統(tǒng)一更新新。不斷增加新新的數(shù)據(jù)內(nèi)內(nèi)容不斷刪去舊舊的數(shù)據(jù)內(nèi)內(nèi)容更新與時(shí)間間有關(guān)的綜綜合數(shù)據(jù)1.4數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)與傳統(tǒng)數(shù)數(shù)據(jù)庫(kù)的比比較1.兩兩個(gè)系統(tǒng)的的主要區(qū)別別2.兩兩個(gè)系統(tǒng)的的查詢支持持不同3.兩兩個(gè)系統(tǒng)數(shù)數(shù)據(jù)組織模模式不同1兩個(gè)個(gè)系統(tǒng)的主主要區(qū)別傳統(tǒng)數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)的主主要任務(wù)是是執(zhí)行聯(lián)機(jī)機(jī)事務(wù)和查查詢處理。。這種系統(tǒng)統(tǒng)稱(chēng)為聯(lián)機(jī)機(jī)事務(wù)處理理(OLTP)系統(tǒng)統(tǒng)。它們涵涵蓋了一個(gè)個(gè)組織的大大部分日常常操作,如如購(gòu)買(mǎi)、庫(kù)庫(kù)存、制造造、銀行、、工資、注注冊(cè)、記帳帳等。另一一方面,數(shù)數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)在數(shù)據(jù)據(jù)分析和決決策支持方方面提供服服務(wù)。這種種系統(tǒng)稱(chēng)為為聯(lián)機(jī)分析析處理(OLAP))系統(tǒng)。兩個(gè)系統(tǒng)的的主要區(qū)別別概括如下下:數(shù)據(jù)內(nèi)容:數(shù)據(jù)庫(kù)系系統(tǒng)管理當(dāng)當(dāng)前數(shù)據(jù)。。通常,這這種數(shù)據(jù)太太瑣碎,難難以用于決決策。數(shù)據(jù)據(jù)倉(cāng)庫(kù)系統(tǒng)統(tǒng)管理大量量歷史的、、存檔的、、歸納的、、計(jì)算的數(shù)數(shù)據(jù),提供供匯總和聚聚集機(jī)制,,并在不同同的粒度級(jí)級(jí)別上存儲(chǔ)儲(chǔ)和管理信信息。這種種特點(diǎn)使得得系統(tǒng)容易易用于“見(jiàn)見(jiàn)多識(shí)廣””的決策。。數(shù)據(jù)目標(biāo):數(shù)據(jù)庫(kù)系系統(tǒng)是面向向業(yè)務(wù)操作作,用于辦辦事員、客客戶和信息息技術(shù)專(zhuān)業(yè)業(yè)人員的事事務(wù)和查詢?cè)兲幚?。?shù)數(shù)據(jù)倉(cāng)庫(kù)是是面向主題題的,用于于知識(shí)工人人(包括經(jīng)經(jīng)理、主管管和分析人人員)的決決策分析。。數(shù)據(jù)特性:數(shù)據(jù)庫(kù)系系統(tǒng)存儲(chǔ)的的是當(dāng)前數(shù)數(shù)據(jù),數(shù)據(jù)據(jù)是動(dòng)態(tài)變變化的,按按字段進(jìn)行行更新操作作。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中數(shù)據(jù)據(jù)是批量載載入的、靜靜態(tài)的,系系統(tǒng)定期執(zhí)執(zhí)行提取過(guò)過(guò)程為數(shù)據(jù)據(jù)倉(cāng)庫(kù)增加加數(shù)據(jù),這這些數(shù)據(jù)一一旦加入,,一般不再再?gòu)南到y(tǒng)中中刪除。數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)庫(kù)系系統(tǒng)采用面面向應(yīng)用的的數(shù)據(jù)庫(kù)設(shè)設(shè)計(jì),以高高度結(jié)構(gòu)化化和復(fù)雜的的形式組織織數(shù)據(jù),以以適應(yīng)復(fù)雜雜的事務(wù)操操作計(jì)算的的需求。數(shù)數(shù)據(jù)倉(cāng)庫(kù)通通常采用面面向主題的的星型或雪雪花數(shù)據(jù)組組織模式,,以適應(yīng)分分析決策,,數(shù)據(jù)結(jié)構(gòu)構(gòu)簡(jiǎn)單。。2兩個(gè)個(gè)系統(tǒng)的查查詢支持不不同OLTP系系統(tǒng)是為了了快速回答答簡(jiǎn)單查詢?cè)?,而不是是為了存?chǔ)儲(chǔ)分析趨勢(shì)勢(shì)的歷史數(shù)數(shù)據(jù)而創(chuàng)建建的。一般般的,OLTP提供供了大量的的原始數(shù)據(jù)據(jù),這些數(shù)數(shù)據(jù)不易被被分析。數(shù)據(jù)倉(cāng)庫(kù)需需要回答更更復(fù)雜的查查詢,而不不僅僅是一一些像“英英國(guó)主要城城市的商品品平均銷(xiāo)售售價(jià)格是多多少”之類(lèi)類(lèi)的簡(jiǎn)單聚聚集數(shù)據(jù)查查詢。數(shù)據(jù)據(jù)倉(cāng)庫(kù)需要要回答的查查詢類(lèi)型可可以是簡(jiǎn)單單的查詢,,也可以是是高度復(fù)雜雜的,且還還與終端用用戶使用的的查詢工具具相關(guān)。以下是某數(shù)數(shù)據(jù)倉(cāng)庫(kù)支支持的一些些查詢示例例:2008年年第三季度度,整個(gè)英英格蘭的總總收入是多多少?2007年年英國(guó)每一一類(lèi)房產(chǎn)銷(xiāo)銷(xiāo)售的總收收入是多少少?2008年年租借房產(chǎn)產(chǎn)業(yè)務(wù)中每每個(gè)城市哪哪個(gè)地域最最受歡迎??與過(guò)去的的兩年相比比有何不同同?每個(gè)分支機(jī)機(jī)構(gòu)本月的的房產(chǎn)銷(xiāo)售售月收入是是多少,并并與剛過(guò)去去的12個(gè)個(gè)月相比較較。如果對(duì)于10萬(wàn)英鎊鎊以上的房房產(chǎn),法定定價(jià)格上升升3.5%而政府稅稅收下降1.5%,,對(duì)英國(guó)不不同區(qū)域的的銷(xiāo)售會(huì)產(chǎn)產(chǎn)生什么影影響?在英國(guó)主要要城市中,,哪種類(lèi)型型的房產(chǎn)銷(xiāo)銷(xiāo)售價(jià)格高高于平均房房產(chǎn)銷(xiāo)售價(jià)價(jià)格?這與與人口統(tǒng)計(jì)計(jì)數(shù)據(jù)有何何聯(lián)系?3兩個(gè)個(gè)系統(tǒng)數(shù)據(jù)據(jù)組織模式式示例比較較從上述實(shí)例例,不難看看出:1)在從面面向應(yīng)用到到面向主題題的轉(zhuǎn)變過(guò)過(guò)程中,丟丟棄了原來(lái)來(lái)有的但不不必要的、、不適于分分析的信息息;2)在原有有的數(shù)據(jù)庫(kù)庫(kù)模式中,,有關(guān)商品品的信息分分散在各個(gè)個(gè)子系統(tǒng)之之中;面向向主題的數(shù)數(shù)據(jù)組織方方式所強(qiáng)調(diào)調(diào)的就是要要形成關(guān)于于主題一致致的信息集集合;3)不同主主題之間有有重疊內(nèi)容容。1.5數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的系統(tǒng)結(jié)結(jié)構(gòu)1.三三層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)服服務(wù)器OLAP服服務(wù)器前端工具2.數(shù)數(shù)據(jù)倉(cāng)庫(kù)的的運(yùn)行結(jié)構(gòu)構(gòu)兩層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)結(jié)構(gòu)多層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)結(jié)構(gòu)1.三層數(shù)據(jù)據(jù)倉(cāng)庫(kù)結(jié)結(jié)構(gòu)原則上,,數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的系系統(tǒng)結(jié)構(gòu)構(gòu)被劃分分為三層層:數(shù)據(jù)據(jù)倉(cāng)庫(kù)服服務(wù)器、、OLAP服務(wù)務(wù)器和前前端工具具。1)底底層是數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)服務(wù)器器,它幾幾乎總是是一個(gè)關(guān)關(guān)系數(shù)據(jù)據(jù)庫(kù)系統(tǒng)統(tǒng)。數(shù)據(jù)據(jù)倉(cāng)庫(kù)系系統(tǒng)使用用后端工工具和實(shí)實(shí)用程序序從操作作數(shù)據(jù)庫(kù)庫(kù)和外部部信息源源加載和和刷新它它的數(shù)據(jù)據(jù),這些些機(jī)制統(tǒng)統(tǒng)稱(chēng)ETL((Extract/Transformation/Load)工具具,它們們具有數(shù)數(shù)據(jù)抽取取、數(shù)據(jù)據(jù)清洗、、數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換、數(shù)數(shù)據(jù)加載載和數(shù)據(jù)據(jù)刷新等等功能。。此外,,這一層層還包含含一個(gè)元元數(shù)據(jù)存存儲(chǔ),它它是關(guān)于于數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)和數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)中數(shù)據(jù)據(jù)的信息息。2)中中間層是是OLAP服務(wù)務(wù)器,其其典型的的實(shí)現(xiàn)有有:(?、。╆P(guān)系系OLAP(ROLAP)模模型,即即擴(kuò)展的的關(guān)系DBMS,它將將多維數(shù)數(shù)據(jù)上的的操作映映射為標(biāo)標(biāo)準(zhǔn)的關(guān)關(guān)系操作作;(ⅱⅱ)多維維OLAP(MOALP)模模型,一一種特殊殊的服務(wù)務(wù)器,它它直接實(shí)實(shí)現(xiàn)多維維數(shù)據(jù)操操作。3)頂頂層層是客客戶,,它包包括查查詢和和報(bào)告告工具具、分分析工工具和和/或或數(shù)據(jù)據(jù)挖掘掘工具具(例例如關(guān)關(guān)聯(lián)分分析、、分類(lèi)類(lèi)分析析、預(yù)預(yù)測(cè)等等)。。過(guò)程模模型數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)管管理系系統(tǒng)元數(shù)據(jù)據(jù)多維關(guān)關(guān)系數(shù)據(jù)庫(kù)庫(kù)多維數(shù)據(jù)庫(kù)庫(kù)外部操操作型型數(shù)據(jù)數(shù)據(jù)抽抽取數(shù)據(jù)清清潔數(shù)據(jù)裝裝載管理平平臺(tái)報(bào)表查查詢工工具數(shù)據(jù)挖挖掘工工具OLAP工工具倉(cāng)庫(kù)管管理--數(shù)據(jù)據(jù)建模模數(shù)據(jù)建建模是是建立立數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)的數(shù)數(shù)據(jù)模模型。。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的的數(shù)據(jù)據(jù)模型型不同同于數(shù)數(shù)據(jù)庫(kù)庫(kù)的數(shù)數(shù)據(jù)模模型在在于::數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)只只為決決策分分析用用,不不包含含事務(wù)務(wù)處理理的數(shù)數(shù)據(jù)。。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的的增加加了時(shí)時(shí)間屬屬性數(shù)數(shù)據(jù)。。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)增增加了了一些些綜合合數(shù)據(jù)據(jù)。數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的的數(shù)據(jù)據(jù)建模模是適適應(yīng)決決策用用戶使使用的的邏輯輯數(shù)據(jù)據(jù)模型型。倉(cāng)庫(kù)管管理--元數(shù)數(shù)據(jù)管管理最基本本的元元數(shù)據(jù)據(jù)相當(dāng)當(dāng)于數(shù)數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)統(tǒng)中的的數(shù)據(jù)據(jù)字典典。元數(shù)據(jù)據(jù)定義義了數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)有有什么么,指指明了了數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)中數(shù)數(shù)據(jù)的的內(nèi)容容和位位置,,刻畫(huà)畫(huà)了數(shù)數(shù)據(jù)的的抽取取和轉(zhuǎn)轉(zhuǎn)換規(guī)規(guī)則,,存儲(chǔ)儲(chǔ)了與與數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)主題題有關(guān)關(guān)的各各種商商業(yè)信信息,,而且且整個(gè)個(gè)數(shù)據(jù)據(jù)倉(cāng)庫(kù)庫(kù)的運(yùn)運(yùn)行都都是基基于元元數(shù)據(jù)據(jù)的。。數(shù)據(jù)源的元元數(shù)據(jù)數(shù)據(jù)模型的的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)映映射的元數(shù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)使使用的元數(shù)數(shù)據(jù)倉(cāng)庫(kù)管理--數(shù)據(jù)處理理異構(gòu)數(shù)據(jù)源源:企業(yè)內(nèi)部數(shù)數(shù)據(jù)存檔的歷史史數(shù)據(jù)企業(yè)的外部部數(shù)據(jù)。軟硬件平臺(tái)臺(tái)不一致ETL過(guò)程程抽?。‥xtraction)轉(zhuǎn)換(Transform))裝載(Load)分析工具--查詢工具數(shù)據(jù)倉(cāng)庫(kù)的的查詢不是是指對(duì)記錄錄級(jí)數(shù)據(jù)的的查詢,而而是指對(duì)分分析要求的的查詢。分析工具--多維分析工工具通過(guò)對(duì)信息息的多種可可能的觀察察形式進(jìn)行行快速、一一致和交互互性的存取取,這樣便便利用戶對(duì)對(duì)數(shù)據(jù)進(jìn)行行深入的分分析和觀察察。多維數(shù)據(jù)的的每一維代代表對(duì)數(shù)據(jù)據(jù)的一個(gè)特特定的觀察察視角,如如時(shí)間、地地域、業(yè)務(wù)務(wù)等。分析工具--數(shù)據(jù)挖掘工工具從大量數(shù)據(jù)據(jù)中挖掘具具有規(guī)律性性知識(shí),需需要利用數(shù)數(shù)據(jù)挖掘((DataMining))工具。482.數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的運(yùn)行行結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)應(yīng)用是一個(gè)個(gè)典型的客客戶/服務(wù)務(wù)器(C/S)結(jié)構(gòu)構(gòu)形式:客戶端所做做的工作::客戶交互互、格式化化查詢、結(jié)結(jié)果顯示、、報(bào)表生成成等。服務(wù)器端完完成各種輔輔助決策的的SQL查查詢、復(fù)雜雜的計(jì)算和和各類(lèi)綜合合功能等。。數(shù)據(jù)倉(cāng)庫(kù)的的運(yùn)行結(jié)構(gòu)構(gòu)兩層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)服服務(wù)器數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)客戶端圖形用戶接接口/表示示邏輯查詢規(guī)范數(shù)據(jù)分析報(bào)表格式總結(jié)數(shù)據(jù)訪問(wèn)50解釋客戶/服務(wù)務(wù)器(C/S)是網(wǎng)網(wǎng)絡(luò)上一種種重要的組組織形式。。數(shù)據(jù)倉(cāng)庫(kù)在在網(wǎng)絡(luò)上都都是以服務(wù)務(wù)器(Server)形式提提供服務(wù),,能對(duì)網(wǎng)絡(luò)絡(luò)上多個(gè)客客戶(Client)同時(shí)提提供服務(wù)。。數(shù)據(jù)倉(cāng)庫(kù)的的運(yùn)行結(jié)構(gòu)構(gòu)多層數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)結(jié)構(gòu)多維數(shù)據(jù)服服務(wù)器數(shù)據(jù)倉(cāng)庫(kù)數(shù)數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)數(shù)據(jù)倉(cāng)庫(kù)服服務(wù)器應(yīng)用服務(wù)器器圖形用戶接接口查詢規(guī)范數(shù)據(jù)分析報(bào)表格式數(shù)據(jù)訪問(wèn)客戶端過(guò)濾總結(jié)元數(shù)據(jù)多維視圖數(shù)據(jù)訪問(wèn)52OLAP服服務(wù)器將加加強(qiáng)和規(guī)范范化決策支支持的服務(wù)務(wù)工作,集集中和簡(jiǎn)化化了原客戶戶端和數(shù)據(jù)據(jù)倉(cāng)庫(kù)服務(wù)務(wù)器的部分分工作,降降低了系統(tǒng)統(tǒng)數(shù)據(jù)傳輸輸量。這種結(jié)構(gòu)形形式工作效效率更高。。OLAP的的三層C/S結(jié)構(gòu)1.6數(shù)數(shù)據(jù)倉(cāng)庫(kù)的的基本概念念1.ETL2.元數(shù)數(shù)據(jù)(MetaData)3.數(shù)據(jù)據(jù)集市(DataMarket)4.OLAP)1.ETL(Extract/Transformation/Load)—數(shù)數(shù)據(jù)抽取、、轉(zhuǎn)換、加加載工具ETL工具具就是進(jìn)行行數(shù)據(jù)的抽抽取、轉(zhuǎn)換換和加載。。具體來(lái)講講,ETL工具包括括:數(shù)據(jù)提提?。╠ataextract)、、數(shù)據(jù)轉(zhuǎn)換換(datatransform))、數(shù)據(jù)清清洗(datacleaning))和數(shù)據(jù)加加載(dataloading)。。(1)數(shù)據(jù)提?。ǎ―ataExtract)從數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的角度來(lái)來(lái)看,并不不是業(yè)務(wù)數(shù)數(shù)據(jù)庫(kù)中的的所有數(shù)據(jù)據(jù)都是決策策支持所必必需的。通通常,數(shù)據(jù)據(jù)倉(cāng)庫(kù)按照照分析的主主題來(lái)組織織數(shù)據(jù),我我們只需提提取出系統(tǒng)統(tǒng)分析必需需的那一部部分?jǐn)?shù)據(jù)。。例如,某某超市確定定以分析客客戶的購(gòu)買(mǎi)買(mǎi)行為為主主題建立數(shù)數(shù)據(jù)倉(cāng)庫(kù),,則我們只只需將與客客戶購(gòu)買(mǎi)行行為相關(guān)的的數(shù)據(jù)提取取出來(lái),而而超市服務(wù)務(wù)員工的數(shù)數(shù)據(jù)就沒(méi)有有必要放進(jìn)進(jìn)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)?,F(xiàn)有的數(shù)據(jù)據(jù)倉(cāng)庫(kù)產(chǎn)品品幾乎都提提供各種關(guān)關(guān)系型數(shù)據(jù)據(jù)接口,提提供提取引引擎,從關(guān)關(guān)系型數(shù)據(jù)據(jù)中提取數(shù)數(shù)據(jù)。(2)數(shù)數(shù)據(jù)轉(zhuǎn)換((DataTransform)由于業(yè)務(wù)系系統(tǒng)可能使使用不同的的數(shù)據(jù)庫(kù)廠廠商的產(chǎn)品品,比如IBMDB2、Oracle、Informix、Sybase、NCRTeradata、、SQLServer等等,各種數(shù)數(shù)據(jù)庫(kù)產(chǎn)品品提供的數(shù)數(shù)據(jù)類(lèi)型可可能不同,,因此,需需要將不同同格式的數(shù)數(shù)據(jù)轉(zhuǎn)換成成統(tǒng)一的數(shù)數(shù)據(jù)格式。。如時(shí)間格格式“年/月/日””,“月/日/年””、“日-月-年””的不一致致問(wèn)題等。。(3))數(shù)數(shù)據(jù)據(jù)清清洗洗((DataClean))對(duì)于于決決策策支支持持系系統(tǒng)統(tǒng)來(lái)來(lái)說(shuō)說(shuō),,最最重重要要的的是是決決策策的的準(zhǔn)準(zhǔn)確確性性,,因因此此確確保保數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)中中數(shù)數(shù)據(jù)據(jù)的的準(zhǔn)準(zhǔn)確確性性是是極極其其重重要要的的。。從從多多個(gè)個(gè)業(yè)業(yè)務(wù)務(wù)系系統(tǒng)統(tǒng)中中獲獲取取數(shù)數(shù)據(jù)據(jù)時(shí)時(shí),,必必須須對(duì)對(duì)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行必必要要的的清清洗洗,,從從而而得得到到準(zhǔn)準(zhǔn)確確的的數(shù)數(shù)據(jù)據(jù)。。所謂謂““清清洗洗””就就是是將將錯(cuò)錯(cuò)誤誤的的、、不不一一致致的的數(shù)數(shù)據(jù)據(jù)在在進(jìn)進(jìn)入入數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)之之前前予予以以更更正正或或刪刪除除,,以以免免影影響響決決策策支支持持系系統(tǒng)統(tǒng)決決策策的的正正確確性性。。(4))數(shù)數(shù)據(jù)據(jù)加加載載((DataLoad))數(shù)據(jù)據(jù)加加載載部部件件負(fù)負(fù)責(zé)責(zé)將將數(shù)數(shù)據(jù)據(jù)按按照照物物理理數(shù)數(shù)據(jù)據(jù)模模型型定定義義的的表表結(jié)結(jié)構(gòu)構(gòu)裝裝入入數(shù)數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù),,包包括括清清空空數(shù)數(shù)據(jù)據(jù)域域、、填填充充空空格格、、有有效效性性檢檢查查等等步步驟驟。。2.元元數(shù)數(shù)據(jù)據(jù)((MetaData))元數(shù)數(shù)據(jù)據(jù)是描描述述數(shù)數(shù)據(jù)據(jù)的的數(shù)數(shù)據(jù)據(jù)。。元數(shù)數(shù)據(jù)據(jù)通通常常包包括括::數(shù)據(jù)據(jù)倉(cāng)倉(cāng)庫(kù)庫(kù)結(jié)結(jié)構(gòu)構(gòu)的的描描述述信信息息,包包括括倉(cāng)倉(cāng)庫(kù)庫(kù)模模式式、、視視圖圖、、維維、、層層次次結(jié)結(jié)構(gòu)構(gòu)和和導(dǎo)導(dǎo)出出數(shù)數(shù)據(jù)據(jù)的的定定義義,,以以及及數(shù)數(shù)據(jù)據(jù)集集市市的的位位置置和和內(nèi)內(nèi)容容。。操作元數(shù)據(jù),包括數(shù)據(jù)血血統(tǒng)信息(來(lái)來(lái)自何處以及及如何轉(zhuǎn)換的的),數(shù)據(jù)流流通信息(主主動(dòng)的、檔案案的或凈化的的)以及監(jiān)視視信息(倉(cāng)庫(kù)庫(kù)使用統(tǒng)計(jì)、、錯(cuò)誤報(bào)告、、審計(jì)跟蹤))。匯總用的算法法,包括度量與與維定義算法法,數(shù)據(jù)粒度度、分割、主主題域、聚集集、匯總、預(yù)預(yù)定義查詢與與報(bào)告的算法法。由操作環(huán)境到到數(shù)據(jù)倉(cāng)庫(kù)的的映射信息,包括源數(shù)據(jù)據(jù)庫(kù)和它們的的內(nèi)容,ETL程序描述述,數(shù)據(jù)分割割、提取、清清理和轉(zhuǎn)換的的規(guī)則和缺省省,數(shù)據(jù)刷新新和裁減的規(guī)規(guī)則以及數(shù)據(jù)據(jù)安全信息((用戶授權(quán)和和存取控制))。關(guān)于系統(tǒng)性能能的數(shù)據(jù)信息息,除刷新、更更新和復(fù)制周周期的定時(shí)和和調(diào)度的規(guī)則則外,還包括括改善數(shù)據(jù)存存取和檢索性性能的索引和和配置。商務(wù)元數(shù)據(jù),包括商務(wù)術(shù)術(shù)語(yǔ)和定義,,數(shù)據(jù)擁有者者信息和收費(fèi)費(fèi)策略。數(shù)據(jù)倉(cāng)庫(kù)包括括不同級(jí)別的的綜合,元數(shù)數(shù)據(jù)是其中一一種類(lèi)型。其其它類(lèi)型包括括當(dāng)前的細(xì)節(jié)節(jié)數(shù)據(jù)(幾乎乎總是在磁盤(pán)盤(pán)上),老的的細(xì)節(jié)數(shù)據(jù)((通常在三級(jí)級(jí)存儲(chǔ)器上)),稍加綜合合的數(shù)據(jù),以以及高度綜合合的數(shù)據(jù)(可可以存入倉(cāng)庫(kù)庫(kù)也可以不存存入)。3.數(shù)據(jù)集集市(DataMarket)建立數(shù)據(jù)集市市的原因數(shù)據(jù)倉(cāng)庫(kù)是一一種反映主題題的全局性數(shù)數(shù)據(jù)組織。但但是,全局性性數(shù)據(jù)倉(cāng)庫(kù)往往往太大,在在實(shí)際應(yīng)用中中將它們按部部門(mén)或個(gè)人分分別建立反映映各個(gè)子主題題的局部性數(shù)數(shù)據(jù)組織,它它們即是數(shù)據(jù)集市。因此,有時(shí)時(shí)我們也稱(chēng)它它為部門(mén)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)。例:在有關(guān)商商品銷(xiāo)售的數(shù)數(shù)據(jù)倉(cāng)庫(kù)中可可以建立多個(gè)個(gè)不同主題的的數(shù)據(jù)集市::商品采購(gòu)數(shù)據(jù)據(jù)集市庫(kù)房使用數(shù)據(jù)據(jù)集市商品銷(xiāo)售數(shù)據(jù)據(jù)集市60數(shù)據(jù)集市(DataMarts))是一種更小小、更集中的的數(shù)據(jù)倉(cāng)庫(kù),,為公司提供供分析商業(yè)數(shù)數(shù)據(jù)的一條廉廉價(jià)途徑。DataMarts是是指具有特定定應(yīng)用的數(shù)據(jù)據(jù)倉(cāng)庫(kù),主要要針對(duì)某個(gè)應(yīng)應(yīng)用或者具體體部門(mén)級(jí)的應(yīng)應(yīng)用,支持用用戶獲得競(jìng)爭(zhēng)爭(zhēng)優(yōu)勢(shì)或者找找到進(jìn)入新市市場(chǎng)的具體解解決方案。數(shù)據(jù)集市概念念數(shù)據(jù)集市類(lèi)型型按照數(shù)據(jù)獲取取來(lái)源:獨(dú)立型:直接接從操作型環(huán)環(huán)境獲取數(shù)據(jù)據(jù)。從屬型:從企企業(yè)級(jí)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)獲取數(shù)據(jù)據(jù)。獨(dú)立數(shù)據(jù)集市市(IndependentDataMart)從屬數(shù)據(jù)集市市(DependentDataMart)4.OLAPOLAP(On-lineAnalyticalProcessing,,在線分析處處理或聯(lián)機(jī)分分析處理)就是一個(gè)應(yīng)用用廣泛的數(shù)據(jù)據(jù)倉(cāng)庫(kù)使用技技術(shù)。它可以以根據(jù)分析人人員的要求,,迅速靈活地地對(duì)大量的數(shù)數(shù)據(jù)進(jìn)行復(fù)雜雜的查詢處理理,并以直觀觀的容易理解解的形式將查查詢結(jié)果提供供給各種決策策人員,使他他們能夠迅速速準(zhǔn)確地掌握握企業(yè)的運(yùn)營(yíng)營(yíng)情況,了解解市場(chǎng)的需求求。這就是說(shuō)說(shuō),OLAP是使分析人人員、管理人人員或執(zhí)行人人員能夠從多多角度對(duì)信息息進(jìn)行快速、、一致、交互互地查詢,從從而獲得對(duì)數(shù)數(shù)據(jù)的更深

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論