數(shù)據(jù)倉(cāng)庫(kù)概念(ppt-69頁(yè))課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念(ppt-69頁(yè))課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念(ppt-69頁(yè))課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念(ppt-69頁(yè))課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念(ppt-69頁(yè))課件_第5頁(yè)
已閱讀5頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1第一章 數(shù)據(jù)倉(cāng)庫(kù)基本概念2第一章 目錄1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)1.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.6 本章小結(jié)3 1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù) 傳統(tǒng)數(shù)據(jù)庫(kù)以及OLTP(On-Line Transaction Processing 聯(lián)機(jī)事務(wù)處理)在日常的管理事務(wù)處理中獲得了巨大的成功,但是對(duì)管理人員的決策分析要求卻無(wú)法滿足。因?yàn)?,管理人員常常希望能夠通過(guò)對(duì)組織中的大量數(shù)據(jù)進(jìn)行分析,了解業(yè)務(wù)的發(fā)展趨勢(shì)。而傳統(tǒng)數(shù)據(jù)庫(kù)只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量的歷史信息。為滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫(kù)

2、的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)(Data Warehose)。 4 1.1.1 蜘蛛網(wǎng)問(wèn)題(1) 在市場(chǎng)經(jīng)濟(jì)的激烈競(jìng)爭(zhēng)中,信息對(duì)于企業(yè)的生存和發(fā)展起著至關(guān)重要的作用。企業(yè)對(duì)信息的需求是多方面的,為了避免企業(yè)中各部門或各用戶間的沖突和簡(jiǎn)化用戶的數(shù)據(jù)視圖,一種稱作“抽取程序”的方法被廣泛地應(yīng)用。 比如,市場(chǎng)部人員通常只關(guān)心企業(yè)的銷售、市場(chǎng)策劃方面的信息,而不注重企業(yè)的研發(fā)、生產(chǎn)等其他環(huán)節(jié)。因此,將銷售、市場(chǎng)策劃方面的信息抽取出來(lái)單獨(dú)建立部門級(jí)的數(shù)據(jù)庫(kù)很有必要,這樣可以提高數(shù)據(jù)的訪問(wèn)效率。5 在部門級(jí)數(shù)據(jù)的基礎(chǔ)上可能還要被繼續(xù)執(zhí)行抽取程序,以建立個(gè)人級(jí)的數(shù)據(jù)庫(kù)。比如,專門負(fù)責(zé)制作公司財(cái)務(wù)

3、報(bào)表的數(shù)據(jù)人員,常常需要從財(cái)務(wù)部門的數(shù)據(jù)庫(kù)系統(tǒng)中抽取數(shù)據(jù)。又如,部門經(jīng)理可能經(jīng)常抽取常用的數(shù)據(jù)到本地,有針對(duì)性的建立個(gè)人級(jí)數(shù)據(jù)庫(kù)就顯得尤為重要。 隨著數(shù)據(jù)的逐層抽取,很可能最終導(dǎo)致系統(tǒng)內(nèi)的數(shù)據(jù)間形成了錯(cuò)綜復(fù)雜的網(wǎng)狀結(jié)構(gòu),如圖1.1所示,人們形象地稱為“蜘蛛網(wǎng)”。一個(gè)大型的公司每天進(jìn)行上萬(wàn)次的數(shù)據(jù)抽取很普遍。這種演變不是人為制造的,而是自然演變的結(jié)果。企業(yè)的規(guī)模越大,“蜘蛛網(wǎng)”問(wèn)題就越嚴(yán)重。 1.1.1 蜘蛛網(wǎng)問(wèn)題(2)6 網(wǎng)上的任意兩個(gè)節(jié)點(diǎn)的數(shù)據(jù)可能歸根結(jié)底是從一個(gè)原始庫(kù)中抽取出來(lái)的,但其數(shù)據(jù)沒有統(tǒng)一的時(shí)間基準(zhǔn),因而錯(cuò)綜復(fù)雜的抽取與訪問(wèn)將產(chǎn)生很多問(wèn)題,主要有以下幾個(gè)方面。1.1.1 蜘蛛網(wǎng)問(wèn)題

4、(3)7 1. 數(shù)據(jù)分析的結(jié)果缺乏可靠性 圖1.2中展示了某企業(yè)的市場(chǎng)部和計(jì)劃部對(duì)項(xiàng)目I是否具有市場(chǎng)前景的分析過(guò)程和結(jié)果。市場(chǎng)部認(rèn)為“項(xiàng)目I的市場(chǎng)前景很好”,而計(jì)劃部卻得到截然相反的結(jié)果-“項(xiàng)目I沒有市場(chǎng)前景”。作為企業(yè)的最終決策者,將如何根據(jù)這樣的結(jié)論進(jìn)行決策呢? 為什么分析同一個(gè)企業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù),卻得到截然相反的結(jié)論呢? 首先,兩部門可能抽取數(shù)據(jù)的內(nèi)容不同。比如,市場(chǎng)部抽取的是項(xiàng)目I在大客戶中的應(yīng)用情況,而計(jì)劃部抽取的是項(xiàng)目I在普通客戶中的應(yīng)用情況。 1.1.1 蜘蛛網(wǎng)問(wèn)題(4)8 其次,可能兩部門抽取數(shù)據(jù)的時(shí)間不同。如市場(chǎng)部在星期日晚上提取分析所需的數(shù)據(jù),而計(jì)劃部在星期三下午就抽取了數(shù)

5、據(jù)。有任何理由相信對(duì)某一天抽取的數(shù)據(jù)樣本進(jìn)行分析與對(duì)另一天抽取的數(shù)據(jù)樣本進(jìn)行的分析可能相同嗎?當(dāng)然不能!企業(yè)內(nèi)的數(shù)據(jù)總是在變的。 再次,引用外部信息的不同。分析項(xiàng)目的發(fā)展趨勢(shì)常常需要引入企業(yè)外部的信息,比如報(bào)刊信息、國(guó)家的政策等。市場(chǎng)部門引用的外部信息來(lái)源可能與計(jì)劃部門不同,而外部信息自然是仁者見仁,智者見智,這也可能是導(dǎo)致最終分析結(jié)果不同的原因。 最后,分析程序的差異。市場(chǎng)部門使用的分析程序可能與計(jì)劃部門不同,分析的內(nèi)容和指標(biāo)也可能不同。1.1.1 蜘蛛網(wǎng)問(wèn)題(5)9 1.1.1 蜘蛛網(wǎng)問(wèn)題(6)10 2. 數(shù)據(jù)處理的效率很低 數(shù)據(jù)分析的結(jié)果缺乏可靠性并不是蜘蛛網(wǎng)問(wèn)題中唯一的主要問(wèn)題。在一個(gè)

6、大型企業(yè)中,不同級(jí)別的數(shù)據(jù)庫(kù)可能使用不同類型的數(shù)據(jù)庫(kù)系統(tǒng),對(duì)于擁有巨型數(shù)據(jù)量的企業(yè)級(jí)數(shù)據(jù)庫(kù)可能使用IBM DB2,而對(duì)于部門級(jí)和個(gè)人級(jí)的中小型數(shù)據(jù)庫(kù)可能使用SQL Server。各種數(shù)據(jù)庫(kù)的開發(fā)工具和開發(fā)環(huán)境不同,當(dāng)需要在整個(gè)企業(yè)范圍內(nèi)查詢數(shù)據(jù)時(shí),數(shù)據(jù)處理的低效率將是不容忽視的。 如果一個(gè)大型企業(yè)的決策領(lǐng)導(dǎo)需要一份關(guān)于公司整體運(yùn)營(yíng)情況的報(bào)表,通常需要?jiǎng)佑么罅康娜肆臀锪Σ拍苓_(dá)到。首先,定位報(bào)表需要的數(shù)據(jù),即確定報(bào)表涉及的內(nèi)容分布在哪個(gè)數(shù)據(jù)庫(kù)的哪個(gè)位置,然后調(diào)動(dòng)各個(gè)部門的程序員/分析員對(duì)應(yīng)用進(jìn)行分析、設(shè)計(jì)和編碼。 1.1.1 蜘蛛網(wǎng)問(wèn)題(7)11 由于數(shù)據(jù)分散在各個(gè)數(shù)據(jù)庫(kù)中,因此需要編寫的程序很

7、多。由于企業(yè)中使用的數(shù)據(jù)庫(kù)類型很多,因此可能需要使用多種技術(shù)來(lái)實(shí)現(xiàn)??梢姡鎸?duì)企業(yè)中存在的蜘蛛網(wǎng)現(xiàn)象,為產(chǎn)生一份關(guān)于公司整體運(yùn)營(yíng)情況的報(bào)表,將動(dòng)用大量的人力、物力和時(shí)間才能完成。 如果低效率的過(guò)程是一次性的,那么為生成報(bào)表花費(fèi)大量的資源也是可取的。換句話說(shuō),如果生成第一份企業(yè)報(bào)表需要大量資源,生成所有后繼報(bào)表可以建立在第一份企業(yè)報(bào)表基礎(chǔ)之上,那么不妨為生成第一份報(bào)表付出一些代價(jià)。但是事實(shí)并非如此。 除非事先知道未來(lái)的企業(yè)報(bào)表需求,并且除非這些需求影響到第一張報(bào)表的建造,每個(gè)新的企業(yè)報(bào)表總是要花費(fèi)同前面差不多的代價(jià)。 因此,數(shù)據(jù)處理的低效率是蜘蛛網(wǎng)問(wèn)題所面臨的又一個(gè)問(wèn)題。1.1.1 蜘蛛網(wǎng)問(wèn)題(

8、8)123. 難以將數(shù)據(jù)轉(zhuǎn)化成信息 除了數(shù)據(jù)處理效率和數(shù)據(jù)可信度的問(wèn)題之外,“蜘蛛網(wǎng)”式的結(jié)構(gòu)還難以將數(shù)據(jù)轉(zhuǎn)化成信息。比如,某電信公司要想分析某個(gè)大客戶今年的情況和過(guò)去3年有什么不同?大客戶的情況可能包括呼叫行為、話費(fèi)情況、交費(fèi)情況、咨詢問(wèn)題等。因此要想比較完整地回答這個(gè)問(wèn)題,實(shí)際上需要將客戶多方面的數(shù)據(jù)綜合成信息。但“蜘蛛網(wǎng)”式的結(jié)構(gòu)中數(shù)據(jù)缺乏集成性,因此,對(duì)綜合信息需求的支持確實(shí)是不充分的。 另外,每個(gè)數(shù)據(jù)庫(kù)由于其數(shù)據(jù)量和業(yè)務(wù)處理的需求不同,對(duì)歷史數(shù)據(jù)的存儲(chǔ)時(shí)間也不同,因此在蜘蛛網(wǎng)環(huán)境中的系統(tǒng)難以提供完整的歷史數(shù)據(jù)。如,記錄客戶呼叫行為的數(shù)據(jù)庫(kù)通常只保留最近3個(gè)月的呼叫話單,財(cái)務(wù)數(shù)據(jù)庫(kù)可能

9、保留客戶今年的交費(fèi)情況,客戶咨詢數(shù)據(jù)庫(kù)可能只保留客戶2年內(nèi)的咨詢信息,于是,從這些數(shù)據(jù)中提取出完整的信息是不可能的。1.1.1 蜘蛛網(wǎng)問(wèn)題(9)13 數(shù)據(jù)庫(kù)系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事務(wù)處理。在這些數(shù)據(jù)庫(kù)中已經(jīng)保存了大量的日常業(yè)務(wù)數(shù)據(jù)。傳統(tǒng)的DSS(Decision Support System,決策支持系統(tǒng))一般是直接建立在這種事務(wù)處理環(huán)境上的。數(shù)據(jù)庫(kù)技術(shù)一直力圖使自己能勝任從事務(wù)處理、批處理到分析處理的各種類型的信息處理任務(wù)。盡管數(shù)據(jù)庫(kù)在事務(wù)處理方面的應(yīng)用獲得了巨大的成功,但它對(duì)分析處理的支持一直不能令人滿意,這也正是產(chǎn)生“蜘蛛網(wǎng)”問(wèn)題的原因之所在。因此,要解決“蜘蛛網(wǎng)”問(wèn)題,必須將用

10、于事務(wù)處理的數(shù)據(jù)環(huán)境和用于分析處理的數(shù)據(jù)環(huán)境分離開。 這樣,數(shù)據(jù)處理被分為事務(wù)型處理和分析型處理兩大類。事務(wù)型處理以傳統(tǒng)的數(shù)據(jù)庫(kù)為中心進(jìn)行企業(yè)的日常業(yè)務(wù)處理。比如電信部門的計(jì)費(fèi)數(shù)據(jù)庫(kù)用于記錄客戶的通信消費(fèi)情況,銀行的數(shù)據(jù)庫(kù)用于記錄客戶的帳號(hào)、密碼、存入和支出等一系列業(yè)務(wù)行為。 1.1.2 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離(1)14 分析型處理以數(shù)據(jù)倉(cāng)庫(kù)為中心分析數(shù)據(jù)背后的關(guān)聯(lián)和規(guī)律,為企業(yè)的決策提供可靠有效的依據(jù)。比如,通過(guò)對(duì)超市近期數(shù)據(jù)進(jìn)行分析可以發(fā)現(xiàn)近期暢銷的產(chǎn)品,從而為公司的采購(gòu)部門提供指導(dǎo)信息。 事務(wù)處理的使用人員通常是企業(yè)的具體操作人員,處理的數(shù)據(jù)通常是企業(yè)業(yè)務(wù)的細(xì)節(jié)信息,其目標(biāo)是實(shí)

11、現(xiàn)企業(yè)的業(yè)務(wù)運(yùn)營(yíng);而分析處理的使用人員通常是企業(yè)的中高層的管理者,或者是從事數(shù)據(jù)分析的工程師。決策分析數(shù)據(jù)環(huán)境包含的信息往往是企業(yè)的宏觀信息而非具體的細(xì)節(jié),其目的是為企業(yè)的決策者提供信息支持,并最終指導(dǎo)企業(yè)的商務(wù)活動(dòng)。事務(wù)處理和信息分析數(shù)據(jù)環(huán)境的劃分如圖1.3所示。 事務(wù)處理和信息分析數(shù)據(jù)環(huán)境的分離,劃清了數(shù)據(jù)處理的分析型環(huán)境與事務(wù)型環(huán)境之間的界限,從而由原來(lái)以單一數(shù)據(jù)庫(kù)為中心的數(shù)據(jù)環(huán)境發(fā)展為以數(shù)據(jù)庫(kù)為中心的事務(wù)處理系統(tǒng)和以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的分析處理系統(tǒng)。企業(yè)的生產(chǎn)環(huán)境,也由以數(shù)據(jù)庫(kù)為中心的環(huán)境發(fā)展為以數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)為中心的環(huán)境。 1.1.2 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離(2)15 1.1

12、.2 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離(3)16 綜上所述,在事務(wù)處理環(huán)境中直接構(gòu)建分析處理應(yīng)用是不合適的,要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務(wù)處理環(huán)境中提取出來(lái),按照DSS處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境,數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。 目前,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)正成為企業(yè)信息集成和輔助決策應(yīng)用的關(guān)鍵技術(shù)之一。當(dāng)然,數(shù)據(jù)倉(cāng)庫(kù)的主要驅(qū)動(dòng)力并不是過(guò)去的缺點(diǎn)和問(wèn)題,而是市場(chǎng)商業(yè)經(jīng)營(yíng)行為的改變,市場(chǎng)競(jìng)爭(zhēng)要求捕獲和分析事務(wù)級(jí)的業(yè)務(wù)數(shù)據(jù)。 1.1.2 事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的分離(4)

13、17第一章 目錄1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)1.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.6 本章小結(jié)18 1.2 什么是數(shù)據(jù)倉(cāng)庫(kù) 20世紀(jì)80年代中期,“數(shù)據(jù)倉(cāng)庫(kù)”這個(gè)名詞首次出現(xiàn)在號(hào)稱“數(shù)據(jù)倉(cāng)庫(kù)之父”W.H.Inmon的Building Data Warehouse一書中,在該書中,W.H.Inmon把數(shù)據(jù)倉(cāng)庫(kù)定義為“一個(gè)面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理決策過(guò)程?!保ā癆 data warehouse is a subject-oriented, integrated, non-volatil

14、e, time-variant collection of data in support of management decisions.”) 對(duì)于什么是數(shù)據(jù)倉(cāng)庫(kù),還有許多不同的定義,如: “數(shù)據(jù)倉(cāng)庫(kù)是融合方法、技術(shù)和工具以在完整的平臺(tái)上將數(shù)據(jù)提交給終端用戶的一種手段”。 “數(shù)據(jù)倉(cāng)庫(kù)是對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程”。 “數(shù)據(jù)倉(cāng)庫(kù)是一種具有集成性、穩(wěn)定性和提供決策支持的處理”。 “為查詢和分析(不是事務(wù)處理)而設(shè)計(jì)的關(guān)系數(shù)據(jù)庫(kù)” 在眾多的數(shù)據(jù)倉(cāng)庫(kù)定義中,公認(rèn)的仍然是W.H.Inmon的定義,該定義指出了數(shù)據(jù)倉(cāng)庫(kù)面向主題、集成、穩(wěn)定、隨時(shí)間變化這4個(gè)最重要的特征。19

15、與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對(duì)應(yīng),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題進(jìn)行組織的。什么是主題呢?首先,從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對(duì)分析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。 面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對(duì)面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方

16、式具有更高的數(shù)據(jù)抽象級(jí)別 1.2.1 面向主題(1)201.2.1 面向主題(2)21 例如在圖1.4所示中,我們示例了一個(gè)電信企業(yè)的情況。該企業(yè)基于傳統(tǒng)數(shù)據(jù)庫(kù)已經(jīng)建立有計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客戶服務(wù)數(shù)據(jù)庫(kù)等。其中,計(jì)費(fèi)數(shù)據(jù)庫(kù)記錄了客戶的消費(fèi)情況,財(cái)務(wù)數(shù)據(jù)庫(kù)記錄了客戶的繳費(fèi)情況,客戶服務(wù)數(shù)據(jù)庫(kù)記錄了客戶的咨詢和投訴情況,這些數(shù)據(jù)庫(kù)里都有與客戶主題相關(guān)的數(shù)據(jù)。如果直接基于傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行“客戶”和“收益”信息的分析,則需要訪問(wèn)多個(gè)數(shù)據(jù)庫(kù)才能獲得客戶或收益各個(gè)側(cè)面的信息(收益主題需從計(jì)費(fèi)數(shù)據(jù)庫(kù)和財(cái)務(wù)數(shù)據(jù)庫(kù)中了解公司各項(xiàng)業(yè)務(wù)的收入情況;客戶主題則要從計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客戶服務(wù)數(shù)據(jù)庫(kù)中獲得客

17、戶消費(fèi)、交費(fèi)、咨詢等全方位的信息。),這樣將極大的影響系統(tǒng)處理的時(shí)間和效率,并且數(shù)據(jù)之間的不一致性和不同步等問(wèn)題將影響決策的可靠性。而以“客戶”和“收益”主題組織的數(shù)據(jù)倉(cāng)庫(kù),將某個(gè)主題的全部相關(guān)數(shù)據(jù)集中于一個(gè)地方,這樣決策者可以非常方便地在數(shù)據(jù)倉(cāng)庫(kù)中的一個(gè)位置檢索包含某個(gè)主題的所有數(shù)據(jù)。 1.2.1 面向主題(3)22 如圖1.5所示顯示了某電信企業(yè)的“客戶主題”的數(shù)據(jù)存儲(chǔ),屬于“客戶”主題域的數(shù)據(jù)集合使用相同的公共鍵碼“客戶標(biāo)識(shí)”來(lái)連接。從圖1.5中可看到,數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中還是以數(shù)據(jù)表的形式進(jìn)行存儲(chǔ),但是,數(shù)據(jù)的組織方式和建模方法已經(jīng)同數(shù)據(jù)庫(kù)系統(tǒng)有了較大的改變。1.2.1 面向主題(4)23

18、 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來(lái)已建立的數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái),但并不是原有數(shù)據(jù)的簡(jiǎn)單拷貝,而是經(jīng)過(guò)了抽取、篩選、清理、綜合等工作。這是因?yàn)椋?1) 原有數(shù)據(jù)庫(kù)系統(tǒng)記錄的是每一項(xiàng)業(yè)務(wù)處理的流水帳,這些數(shù)據(jù)不適合于分析處理。在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前必須經(jīng)過(guò)綜合、計(jì)算,同時(shí)拋棄一些分析處理不需要的數(shù)據(jù)項(xiàng),必要時(shí)還要增加一些可能涉及的外部數(shù)據(jù)。 2) 數(shù)據(jù)倉(cāng)庫(kù)每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在源分散數(shù)據(jù)庫(kù)中有許多重復(fù)或不一致之處,必須將這些數(shù)據(jù)轉(zhuǎn)換成全局統(tǒng)一的定義,消除不一致和錯(cuò)誤之處,以保證數(shù)據(jù)的質(zhì)量;顯然,對(duì)不準(zhǔn)確,甚至不正確的數(shù)據(jù)分析得出的結(jié)果將不能用于指導(dǎo)企業(yè)做出科學(xué)的決策。 3) 源數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)

19、后,還要根據(jù)決策分析的需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。 事實(shí)上,決策支持系統(tǒng)需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效地分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。因此,對(duì)源數(shù)據(jù)的集成是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中最關(guān)鍵,也是最復(fù)雜的一步。 1.2.2 集成24 業(yè)務(wù)系統(tǒng)一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫(kù)中一般也只存儲(chǔ)短期數(shù)據(jù),因此在數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。 但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有大量歷史數(shù)據(jù)的支持是難以進(jìn)行企業(yè)的決策分析的,因此數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)大多表示過(guò)去某一時(shí)刻的數(shù)據(jù),主要用于查詢、分析,不像

20、業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫(kù)那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是錯(cuò)誤的。 圖1.6中形象地說(shuō)明了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的穩(wěn)定性,可以看到數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)存儲(chǔ)方面是分批進(jìn)行的,定期執(zhí)行提取過(guò)程為數(shù)據(jù)倉(cāng)庫(kù)增加數(shù)據(jù),這些數(shù)據(jù)一旦加入,一般不再?gòu)南到y(tǒng)中刪除。1.2.3 穩(wěn)定性(1)251.2.3 穩(wěn)定性(2)26 1.2.4 隨時(shí)間而變化 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是批量載入的,是穩(wěn)定的,這使得數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)總是擁有時(shí)間維度。從這個(gè)角度,數(shù)據(jù)倉(cāng)庫(kù)實(shí)際是記錄了系統(tǒng)的各個(gè)瞬態(tài),并通過(guò)將各個(gè)瞬態(tài)連接起來(lái)形成動(dòng)畫,從而在數(shù)據(jù)分析的時(shí)候再現(xiàn)系統(tǒng)運(yùn)動(dòng)的全過(guò)程。數(shù)據(jù)批量載入(提?。┑闹芷趯?shí)際上決定了動(dòng)畫間隔的時(shí)間,數(shù)據(jù)提取的周期短

21、,則動(dòng)畫的速度快,圖1.7示意了這種特點(diǎn)。27第一章 目錄1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)1.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.6 本章小結(jié)28 1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較 1.3.1 兩個(gè)系統(tǒng)的主要區(qū)別(1) 傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。它們涵蓋了一個(gè)組織的大部分日常操作,如購(gòu)買、庫(kù)存、制造、銀行、工資、注冊(cè)、記帳等。另一方面,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策支持方面提供服務(wù)。這種系統(tǒng)稱為聯(lián)機(jī)分析處理(OLAP)系統(tǒng)。 兩個(gè)系統(tǒng)的主要區(qū)別概括如下: 數(shù)據(jù)內(nèi)容

22、:數(shù)據(jù)庫(kù)系統(tǒng)管理當(dāng)前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以用于決策。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理大量歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息。這種特點(diǎn)使得系統(tǒng)容易用于“見多識(shí)廣”的決策。29 數(shù)據(jù)目標(biāo):數(shù)據(jù)庫(kù)系統(tǒng)是面向業(yè)務(wù)操作,用于辦事員、客戶和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,用于知識(shí)工人(包括經(jīng)理、主管和分析人員)的決策分析。 數(shù)據(jù)特性:數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的是當(dāng)前數(shù)據(jù),數(shù)據(jù)是動(dòng)態(tài)變化的,按字段進(jìn)行更新操作。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是批量載入的、靜態(tài)的,系統(tǒng)定期執(zhí)行提取過(guò)程為數(shù)據(jù)倉(cāng)庫(kù)增加數(shù)據(jù),這些數(shù)據(jù)一旦加入,一般不再?gòu)南到y(tǒng)中刪除。 數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)庫(kù)系

23、統(tǒng)采用面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì),以高度結(jié)構(gòu)化和復(fù)雜的形式組織數(shù)據(jù),以適應(yīng)復(fù)雜的事務(wù)操作計(jì)算的需求。數(shù)據(jù)倉(cāng)庫(kù)通常采用面向主題的星型或雪花數(shù)據(jù)組織模式(在4.3.2節(jié)討論),以適應(yīng)分析決策,數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單。 1.3.1 兩個(gè)系統(tǒng)的主要區(qū)別(2)30 兩個(gè)系統(tǒng)的其他區(qū)別包括使用頻率、數(shù)據(jù)訪問(wèn)量、對(duì)響應(yīng)時(shí)間的要求等。這些都概括在表1.1中。1.3.1 兩個(gè)系統(tǒng)的主要區(qū)別(3)31 1.3.2 兩個(gè)系統(tǒng)的查詢支持不同 OLTP系統(tǒng)是為了快速回答簡(jiǎn)單查詢,而不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)建的。一般的,OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)不易被分析。 數(shù)據(jù)倉(cāng)庫(kù)需要回答更復(fù)雜的查詢,而不僅僅是一些像“英國(guó)主要

24、城市的商品平均銷售價(jià)格是多少”之類的簡(jiǎn)單聚集數(shù)據(jù)查詢。數(shù)據(jù)倉(cāng)庫(kù)需要回答的查詢類型可以是簡(jiǎn)單的查詢,也可以是高度復(fù)雜的,且還與終端用戶使用的查詢工具相關(guān)。 以下是某數(shù)據(jù)倉(cāng)庫(kù)支持的一些查詢示例: 2008年第三季度,整個(gè)英格蘭的總收入是多少? 2007年英國(guó)每一類房產(chǎn)銷售的總收入是多少? 2008年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡迎?與過(guò)去的兩年相比有何不同? 每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過(guò)去的12個(gè)月相比較。 如果對(duì)于10萬(wàn)英鎊以上的房產(chǎn),法定價(jià)格上升3.5%而政府稅收下降1.5%,對(duì)英國(guó)不同區(qū)域的銷售會(huì)產(chǎn)生什么影響? 在英國(guó)主要城市中,哪種類型的房產(chǎn)銷售價(jià)格高于平均房產(chǎn)銷

25、售價(jià)格?這與人口統(tǒng)計(jì)數(shù)據(jù)有何聯(lián)系?321.3.3 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較(1)331.3.3 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較(2)34從上述實(shí)例,不難看出:1)在從面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程中,丟棄了原來(lái)有的但不必要的、不適于分析的信息;2)在原有的數(shù)據(jù)庫(kù)模式中,有關(guān)商品的信息分散在各個(gè)子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成關(guān)于主題一致的信息集合;3)不同主題之間有重疊內(nèi)容。1.3.3 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式示例比較(3)35第一章 目錄1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)1.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.6

26、 本章小結(jié)36 1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) 1.4.1 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)(1) 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)可以用圖1.8來(lái)表示。由于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的出發(fā)點(diǎn)不同,數(shù)據(jù)倉(cāng)庫(kù)將獨(dú)立于業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng),但是數(shù)據(jù)倉(cāng)庫(kù)又同業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)息息相關(guān)。37 1.4.1 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)(2)38 原則上,數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)被劃分為三層:數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、OLAP服務(wù)器和前端工具。 1) 底層是數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,它幾乎總是一個(gè)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)使用后端工具和實(shí)用程序從操作數(shù)據(jù)庫(kù)和外部信息源加載和刷新它的數(shù)據(jù),這些機(jī)制統(tǒng)稱ETL (Extract/Transformation/Load)工具,它們具有數(shù)據(jù)抽取、數(shù)

27、據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和數(shù)據(jù)刷新等功能。此外,這一層還包含一個(gè)元數(shù)據(jù)存儲(chǔ),它是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的信息,關(guān)于元數(shù)據(jù)的進(jìn)一步描述在1.4.2小節(jié)。 2) 中間層是OLAP服務(wù)器,其典型的實(shí)現(xiàn)有:()關(guān)系OLAP(ROLAP)模型,即擴(kuò)展的關(guān)系DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;()多維OLAP(MOALP)模型,一種特殊的服務(wù)器,它直接實(shí)現(xiàn)多維數(shù)據(jù)操作。OLAP服務(wù)器將在4.4小節(jié)討論。 3) 頂層是客戶,它包括查詢和報(bào)告工具、分析工具和/或數(shù)據(jù)挖掘工具(例如關(guān)聯(lián)分析、分類分析、預(yù)測(cè)等)。 1.4.1 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)(3)39 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(1

28、) 下面詳細(xì)討論數(shù)據(jù)倉(cāng)庫(kù)中的一些關(guān)鍵名詞。 1. ETL(Extract/Transformation/Load)數(shù)據(jù)抽取、轉(zhuǎn)換、加載工具 ETL工具就是進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。具體來(lái)講,ETL工具包括:數(shù)據(jù)提取(data extract)、數(shù)據(jù)轉(zhuǎn)換(data transform)、數(shù)據(jù)清洗(data cleaning)和數(shù)據(jù)加載(data loading)。 (1) 數(shù)據(jù)提取(Data Extract) 從數(shù)據(jù)倉(cāng)庫(kù)的角度來(lái)看,并不是業(yè)務(wù)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)都是決策支持所必需的。通常,數(shù)據(jù)倉(cāng)庫(kù)按照分析的主題來(lái)組織數(shù)據(jù),我們只需提取出系統(tǒng)分析必需的那一部分?jǐn)?shù)據(jù)。例如,某超市確定以分析客戶的購(gòu)買

29、行為為主題建立數(shù)據(jù)倉(cāng)庫(kù),則我們只需將與客戶購(gòu)買行為相關(guān)的數(shù)據(jù)提取出來(lái),而超市服務(wù)員工的數(shù)據(jù)就沒有必要放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。 現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品幾乎都提供各種關(guān)系型數(shù)據(jù)接口,提供提取引擎,從關(guān)系型數(shù)據(jù)中提取數(shù)據(jù)。40 (2) 數(shù)據(jù)轉(zhuǎn)換(Data Transform) 由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫(kù)廠商的產(chǎn)品,比如IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫(kù)產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。如時(shí)間格式“年/月/日”,“月/日/年”、“日-月-年”的不一致問(wèn)題等。 (3) 數(shù)據(jù)清洗(

30、Data Clean) 由于企業(yè)常常為不同的應(yīng)用對(duì)象建立不同的業(yè)務(wù)數(shù)據(jù)庫(kù),比如一個(gè)電信運(yùn)營(yíng)公司擁有計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客服數(shù)據(jù)庫(kù)、客戶投訴數(shù)據(jù)庫(kù)等業(yè)務(wù)系統(tǒng),這些業(yè)務(wù)系統(tǒng)中可能包含重復(fù)的信息,比如客服數(shù)據(jù)庫(kù)中的部分客戶基本信息也在客戶投訴數(shù)據(jù)庫(kù)中存在,由于不同的數(shù)據(jù)庫(kù)可能使用不同數(shù)據(jù)庫(kù)公司的產(chǎn)品,不同的業(yè)務(wù)系統(tǒng)可能由不同的軟件開發(fā)商提供,這使得各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)可能存在不一致現(xiàn)象。再者,由于數(shù)據(jù)被冗余地存放在不同的數(shù)據(jù)庫(kù)中,如果不同數(shù)據(jù)庫(kù)間的數(shù)據(jù)刷新不是實(shí)時(shí)的,則可能出現(xiàn)數(shù)據(jù)不同步的情況。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(2)41 對(duì)于決策支持系統(tǒng)來(lái)說(shuō),最重要的是決策的準(zhǔn)確性,因此確保

31、數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的準(zhǔn)確性是極其重要的。從多個(gè)業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)時(shí),必須對(duì)數(shù)據(jù)進(jìn)行必要的清洗,從而得到準(zhǔn)確的數(shù)據(jù)。 所謂“清洗”就是將錯(cuò)誤的、不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前予以更正或刪除,以免影響決策支持系統(tǒng)決策的正確性。 (4) 數(shù)據(jù)加載(Data Load) 數(shù)據(jù)加載部件負(fù)責(zé)將數(shù)據(jù)按照物理數(shù)據(jù)模型定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉(cāng)庫(kù),包括清空數(shù)據(jù)域、填充空格、有效性檢查等步驟。 現(xiàn)在ETL工具的功能越來(lái)越強(qiáng)。它具有支持?jǐn)?shù)據(jù)的“凈化提煉”功能、數(shù)據(jù)加工功能和自動(dòng)運(yùn)行功能(包括處理過(guò)程的監(jiān)控、調(diào)度和外部批處理作業(yè)的啟動(dòng)等),支持多種數(shù)據(jù)源,能自動(dòng)實(shí)現(xiàn)數(shù)據(jù)抽取。所謂數(shù)據(jù)的“凈化提煉”就是對(duì)從多個(gè)不同業(yè)務(wù)數(shù)據(jù)庫(kù)所

32、抽取的數(shù)據(jù),進(jìn)行數(shù)據(jù)項(xiàng)名稱的統(tǒng)一、位數(shù)的統(tǒng)一、編碼的統(tǒng)一和形式的統(tǒng)一,消除重復(fù)數(shù)據(jù)。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(3)422. 元數(shù)據(jù)(MetaData) “什么是元數(shù)據(jù)?”元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)。元數(shù)據(jù)包括相應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)名和定義、數(shù)據(jù)提取操作時(shí)被提取數(shù)據(jù)的時(shí)間和地點(diǎn)以及數(shù)據(jù)清理或數(shù)據(jù)集成過(guò)程添加的字段等。它提供了有關(guān)數(shù)據(jù)的環(huán)境,用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)中尤為重要。 元數(shù)據(jù)通常包括: 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述信息,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容。 操作元數(shù)據(jù),包括數(shù)據(jù)血統(tǒng)信息(

33、來(lái)自何處以及如何轉(zhuǎn)換的),數(shù)據(jù)流通信息(主動(dòng)的、檔案的或凈化的)以及監(jiān)視信息(倉(cāng)庫(kù)使用統(tǒng)計(jì)、錯(cuò)誤報(bào)告、審計(jì)跟蹤)。 匯總用的算法,包括度量與維定義算法,數(shù)據(jù)粒度、分割、主題域、聚集、匯總、預(yù)定義查詢與報(bào)告的算法。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(4)43 由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射信息,包括源數(shù)據(jù)庫(kù)和它們的內(nèi)容,ETL程序描述,數(shù)據(jù)分割、提取、清理和轉(zhuǎn)換的規(guī)則和缺省,數(shù)據(jù)刷新和裁減的規(guī)則以及數(shù)據(jù)安全信息(用戶授權(quán)和存取控制)。 關(guān)于系統(tǒng)性能的數(shù)據(jù)信息,除刷新、更新和復(fù)制周期的定時(shí)和調(diào)度的規(guī)則外,還包括改善數(shù)據(jù)存取和檢索性能的索引和配置。 業(yè)務(wù)元數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)和定義,數(shù)據(jù)擁有者信息和收費(fèi)策

34、略。 數(shù)據(jù)倉(cāng)庫(kù)包括不同級(jí)別的綜合,元數(shù)據(jù)是其中一種類型。其它類型包括當(dāng)前的細(xì)節(jié)數(shù)據(jù)(幾乎總是在磁盤上),老的細(xì)節(jié)數(shù)據(jù)(通常在三級(jí)存儲(chǔ)器上),稍加綜合的數(shù)據(jù),以及高度綜合的數(shù)據(jù)(可以存入倉(cāng)庫(kù)也可以不存入)。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(5)44 與數(shù)據(jù)倉(cāng)庫(kù)中的其它數(shù)據(jù)相比,元數(shù)據(jù)扮演很不相同的角色,并且由于種種原因,也是重要的角色。例如元數(shù)據(jù)用作目錄,幫助決策支持系統(tǒng)分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定位;當(dāng)數(shù)據(jù)由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換時(shí),作為數(shù)據(jù)映射指南;對(duì)于用在當(dāng)前細(xì)節(jié)數(shù)據(jù)與稍加綜合的數(shù)據(jù)之間以及稍加綜合的數(shù)據(jù)與高度綜合的數(shù)據(jù)之間的匯總算法,也作為指南。 元數(shù)據(jù)應(yīng)當(dāng)持久存放和管理(即存放在磁盤

35、上)。通常,數(shù)據(jù)倉(cāng)庫(kù)將建立專用的元數(shù)據(jù)庫(kù)來(lái)存放和管理元數(shù)據(jù)。3. 數(shù)據(jù)集市(Data Market) 數(shù)據(jù)倉(cāng)庫(kù)中存放的是整個(gè)企業(yè)的信息,并且數(shù)據(jù)是按照不同主題來(lái)組織的。比如市場(chǎng)發(fā)展規(guī)律的分析主題主要由市場(chǎng)部門的人員使用,我們可以在邏輯上或者物理上將這部分?jǐn)?shù)據(jù)分離出來(lái),當(dāng)市場(chǎng)部門人員需要信息時(shí),不需要到數(shù)據(jù)倉(cāng)庫(kù)的巨量數(shù)據(jù)中檢索,而只需在相應(yīng)的部門數(shù)據(jù)上進(jìn)行分析,因此從效率和處理速度的角度出發(fā),這種劃分是合算的。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(6)45 我們把這種面向企業(yè)中的某個(gè)部門(主題)而在邏輯上或物理上劃分出來(lái)的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)子集稱為數(shù)據(jù)集市。換句話說(shuō),數(shù)據(jù)集市包含了用于特殊目的數(shù)據(jù)倉(cāng)

36、庫(kù)的部分?jǐn)?shù)據(jù)。 數(shù)據(jù)倉(cāng)庫(kù)面向整個(gè)企業(yè),而數(shù)據(jù)集市則是面向企業(yè)中的某個(gè)部門。典型示例是銷售部門、庫(kù)存和發(fā)貨部門、財(cái)務(wù)部門和高級(jí)管理部門等的數(shù)據(jù)集市。數(shù)據(jù)倉(cāng)庫(kù)中存放了企業(yè)的整體信息,而數(shù)據(jù)集市只存放了某個(gè)主題需要的信息,其目的是減少數(shù)據(jù)處理量,使信息的利用更快捷、靈活。 通常,數(shù)據(jù)集市可以在低價(jià)格的部門服務(wù)器上實(shí)現(xiàn)。實(shí)現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)以周計(jì),而不是數(shù)以月計(jì)或數(shù)以年計(jì)。然而,如果它們的規(guī)劃不是企業(yè)范圍的,從長(zhǎng)遠(yuǎn)講,可能涉及很復(fù)雜的集成。 根據(jù)數(shù)據(jù)的來(lái)源不同,數(shù)據(jù)集市分為獨(dú)立的和依賴的兩類。在獨(dú)立的數(shù)據(jù)集市中,數(shù)據(jù)來(lái)自一個(gè)或多個(gè)操作的系統(tǒng)或外部信息提供者,或者來(lái)自一個(gè)特定的部門或地域局部產(chǎn)生的

37、數(shù)據(jù)。依賴的數(shù)據(jù)集市中的數(shù)據(jù)直接來(lái)自企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(7)464. OLAP 數(shù)據(jù)倉(cāng)庫(kù)是管理決策分析的基礎(chǔ),要有效地利用數(shù)據(jù)倉(cāng)庫(kù)的信息資源,必須要有強(qiáng)大的工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)的信息進(jìn)行分析決策。OLAP(On-line Analytical Processing,在線分析處理或聯(lián)機(jī)分析處理)就是一個(gè)應(yīng)用廣泛的數(shù)據(jù)倉(cāng)庫(kù)使用技術(shù)。它可以根據(jù)分析人員的要求,迅速靈活地對(duì)大量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營(yíng)情況,了解市場(chǎng)的需求。這就是說(shuō),OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息

38、進(jìn)行快速、一致、交互地查詢,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念。 維(dimension)是人們觀察數(shù)據(jù)的特定角度。例如,一個(gè)企業(yè)在考慮產(chǎn)品的銷售情況時(shí),通常從時(shí)間、地區(qū)和產(chǎn)品的不同角度來(lái)深入觀察產(chǎn)品的銷售情況。這里的時(shí)間、地區(qū)和產(chǎn)品就是維。而這些維的不同組合和所考察的度量指標(biāo)構(gòu)成的多維數(shù)組則是OLAP分析的基礎(chǔ),可形式化表示為(維1,維2,維n,度量指標(biāo)),如(地區(qū)、時(shí)間、產(chǎn)品、銷售額)。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(8)47 “維”一般包含著層次關(guān)系,這種層次關(guān)系有時(shí)會(huì)相當(dāng)復(fù)雜。

39、通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維,使用戶能從不同維對(duì)數(shù)據(jù)進(jìn)行分析比較。因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。 多維分析是指對(duì)以多維形式組織起來(lái)的數(shù)據(jù)采取切片(Slice)、切塊(Dice)、鉆?。―rill-down和Roll-up)、旋轉(zhuǎn)(Pivot)等各種分析動(dòng)作,以求剖析數(shù)據(jù),使用戶能從多個(gè)角度、多側(cè)面地觀察數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而深入理解包含在數(shù)據(jù)中的信息。 切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則是切片;如果有三個(gè),則是切塊。 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(9)48 鉆取是改變維的層次,變換分析的粒度。它包括向上探?。?/p>

40、roll up)和向下鉆取(drill down)。roll up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。 旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。 根據(jù)數(shù)據(jù)的組織方式的不同,目前常見的OLAP主要有基于多維數(shù)據(jù)庫(kù)的MOLAP及基于關(guān)系數(shù)據(jù)庫(kù)的ROLAP兩種。MOLAP是以多維的方式組織和存儲(chǔ)數(shù)據(jù),ROLAP則利用現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)模擬多維數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,OLAP應(yīng)用一般是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的前端工具,同時(shí)OLAP工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計(jì)分析工具配合使用,

41、增強(qiáng)決策分析功能 1.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵名詞(10)49第一章 目錄1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)1.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.6 本章小結(jié)501.5.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)(1) 在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)一般分成4個(gè)級(jí)別:高度綜合級(jí)、輕度綜合級(jí)、當(dāng)前細(xì)節(jié)級(jí)和早期細(xì)節(jié)級(jí)。51 一個(gè)典型的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織如圖1.9所示1.5.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)(2)52 源數(shù)據(jù)(早期細(xì)節(jié)級(jí)數(shù)據(jù))經(jīng)過(guò)綜合后,首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),然后根據(jù)應(yīng)用的需求,通過(guò)預(yù)運(yùn)算將數(shù)據(jù)聚合成輕度綜合和高度綜合級(jí)。由此可見,數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)著不同綜

42、合級(jí)別的數(shù)據(jù),一般稱之為“數(shù)據(jù)粒度”。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高。比如,在電信公司中的電話呼叫數(shù)據(jù)中記錄了每個(gè)用戶的每次呼叫。進(jìn)行OLAP分析時(shí),常常需要不同層次的數(shù)據(jù)粒度,因此可以通過(guò)預(yù)運(yùn)算將數(shù)據(jù)綜合成每個(gè)用戶每“天”的通話次數(shù),還可以進(jìn)一步聚合成每個(gè)用戶每“月”的通話次數(shù)(圖1.9中右列所示)。 在數(shù)據(jù)倉(cāng)庫(kù)中,輕度和高度綜合級(jí)別的數(shù)據(jù)一般是由細(xì)節(jié)數(shù)據(jù)聚合而來(lái),但需要說(shuō)明的是輕度和高度是相對(duì)的概念,而沒有絕對(duì)的界限,并且在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的綜合程度常常有很多的級(jí)別。1.5.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)(3)53 隨著時(shí)間的推移,系統(tǒng)中的一些細(xì)節(jié)數(shù)據(jù)已經(jīng)“老化”了,很少會(huì)被用戶使用,

43、此時(shí)為了節(jié)省系統(tǒng)的存儲(chǔ)空間,可以將這些老化的細(xì)節(jié)數(shù)據(jù)導(dǎo)出到備份設(shè)備上。實(shí)際應(yīng)用中,綜合數(shù)據(jù)也可能被導(dǎo)出系統(tǒng)。比如企業(yè)的管理者認(rèn)為企業(yè)的決策只同企業(yè)近15年來(lái)的運(yùn)營(yíng)數(shù)據(jù)有關(guān),則15年之前的綜合數(shù)據(jù)也可以導(dǎo)出。對(duì)于高度綜合的數(shù)據(jù),由于其數(shù)據(jù)量已經(jīng)很少,所以一般可以不考慮它們的導(dǎo)出問(wèn)題。 在數(shù)據(jù)倉(cāng)庫(kù)中,處理提取和綜合后的數(shù)據(jù)還包含非常重要的元數(shù)據(jù),它描述的是提取和綜合后的數(shù)據(jù)的組織方式,屬于數(shù)據(jù)的一種綜合類型,我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)(1.4節(jié))中已經(jīng)介紹了元數(shù)據(jù)。1.5.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)(4)541. 數(shù)據(jù)粒度 數(shù)據(jù)粒度是數(shù)據(jù)倉(cāng)庫(kù)中極其重要的概念。粒度可以分為兩種形式,一種是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中

44、的數(shù)據(jù)的綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的用途。在數(shù)據(jù)倉(cāng)庫(kù)中,多重的數(shù)據(jù)粒度是必不可少。由于數(shù)據(jù)倉(cāng)庫(kù)最主要的目的是反映企業(yè)整體信息和DSS分析,因而決大多數(shù)查詢都是基于一定程度的綜合數(shù)據(jù)之上,只有極少數(shù)查詢涉及到細(xì)節(jié)。所以,應(yīng)該將大粒度數(shù)據(jù)存儲(chǔ)于快速設(shè)備(如磁盤)上,而將細(xì)節(jié)數(shù)據(jù)定期導(dǎo)出到低速設(shè)備(如磁帶)上。 粒度的第二種形式是指抽樣率,即以一定的抽樣率對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行抽樣后得到一個(gè)樣本數(shù)據(jù)庫(kù)。這種樣本數(shù)據(jù)庫(kù)中的粒度不是根據(jù)綜合程度的不同來(lái)劃分的,而是由抽樣率的高低來(lái)劃分,抽樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的數(shù)據(jù)綜合程度。 在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中

45、粒度之所以是一個(gè)極其重要的概念,是因?yàn)樗钌畹赜绊懘娣旁跀?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉(cāng)庫(kù)所能回答的查詢類型,在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量大小與查詢的詳細(xì)程度之間要做出權(quán)衡。 1.5.2 數(shù)據(jù)粒度與數(shù)據(jù)分割(1)552. 數(shù)據(jù)分割 數(shù)據(jù)分割是數(shù)據(jù)倉(cāng)庫(kù)中又一重要概念。所謂數(shù)據(jù)分割是指將數(shù)據(jù)分散到各自的物理單元中以便能夠獨(dú)立處理,提高數(shù)據(jù)處理的效率。數(shù)據(jù)分割沒有固定的標(biāo)準(zhǔn),分割的方法和粒度應(yīng)當(dāng)根據(jù)實(shí)際情況來(lái)確定。分割方法常常可以選擇時(shí)間、地點(diǎn)、業(yè)務(wù)領(lǐng)域來(lái)劃分,也可以是其組合。按照時(shí)間進(jìn)行分割符合數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)隨時(shí)間變化的特點(diǎn),并且分割后數(shù)據(jù)分布比較均勻,所以是最常用的分割方法。 不過(guò)需注意的是:在數(shù)據(jù)

46、倉(cāng)庫(kù)中,圍繞分割問(wèn)題的關(guān)鍵并不是該不該對(duì)數(shù)據(jù)進(jìn)行分割,而是如何分割。這也是為什么有人說(shuō),如果粒度和分割都做得很好的話,幾乎數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)和實(shí)現(xiàn)的所有其他問(wèn)題都容易解決。但是,假如粒度處理不當(dāng),并且分割也沒有認(rèn)真地設(shè)計(jì)與實(shí)現(xiàn),將嚴(yán)重影響其他方面的設(shè)計(jì)效果。 1.5.2 數(shù)據(jù)粒度與數(shù)據(jù)分割(2)56 分割的一個(gè)簡(jiǎn)單例子: 如表1.2所示,分割是按照時(shí)間和業(yè)務(wù)領(lǐng)域的組合來(lái)劃分的。 1.5.2 數(shù)據(jù)粒度與數(shù)據(jù)分割(3)57 1.5.3 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式(1) 在數(shù)據(jù)倉(cāng)庫(kù)發(fā)展過(guò)程中,出現(xiàn)了多種不同的數(shù)據(jù)組織形式:1. 簡(jiǎn)單堆積文件 簡(jiǎn)單堆積文件就是將每天由業(yè)務(wù)數(shù)據(jù)庫(kù)提取并處理后的數(shù)據(jù)逐天存儲(chǔ)起來(lái),如

47、圖1.10所示。還有一種形式被稱為簡(jiǎn)單直接文件,它同簡(jiǎn)單堆積文件非常類似,只是按照一定的時(shí)間間隔對(duì)業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行快照并存儲(chǔ),但是時(shí)間間隔不一定是每天。582. 定期綜合文件 在定期綜合文件這種方式中,數(shù)據(jù)存儲(chǔ)單位被分成日、周、月、季、年等多個(gè)級(jí)別。首先數(shù)據(jù)被逐一添加到每天的數(shù)據(jù)集合中,當(dāng)一個(gè)星期過(guò)去了,每天數(shù)據(jù)被綜合成周數(shù)據(jù),依此類推,周數(shù)據(jù)被綜合成月數(shù)據(jù)。 定期綜合文件的組織方式使得數(shù)據(jù)量比簡(jiǎn)單堆積文件方式大大減少,但是由于數(shù)據(jù)被進(jìn)行了綜合,使得數(shù)據(jù)的細(xì)節(jié)在綜合中丟失。因此,定期綜合文件的形式是犧牲數(shù)據(jù)的細(xì)節(jié)信息換取數(shù)據(jù)量級(jí)的減少。 3. 連續(xù)文件 定期綜合文件其數(shù)據(jù)量級(jí)小時(shí)丟失了數(shù)據(jù)細(xì)節(jié),

48、簡(jiǎn)單堆積文件保留細(xì)節(jié)但數(shù)據(jù)量級(jí)又很大,是否可以綜合兩者的優(yōu)點(diǎn)呢?答案是肯定的。 1.5.3 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式(2)59 在簡(jiǎn)單堆積文件中,每天的數(shù)據(jù)表中有許多雷同的信息,如圖1.11所示的某商場(chǎng)2007年1月和2007年2月的兩張采購(gòu)表,其中“鋼筆”和“水杯”在兩個(gè)表都出現(xiàn)了?!吧虾!碑a(chǎn)的“鋼筆”既在2007/1購(gòu)買,又在2007/2購(gòu)買。如果能夠用一條記錄將兩條記錄所包含的信息記錄下來(lái),則既能保留細(xì)節(jié)信息,又能大大減少數(shù)據(jù)量。 1.5.3 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式(3)60 圖1.12中顯示了對(duì)兩張表使用連續(xù)文件的形式進(jìn)行存儲(chǔ)的結(jié)果。對(duì)于兩張表中相同的項(xiàng)“鋼筆”,只需在時(shí)間列上說(shuō)明購(gòu)買時(shí)

49、間是“2007/12007/2”,對(duì)于兩表不同的表項(xiàng)分別記錄 。 1.5.3 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式(4)61 隨著時(shí)間的推移,如果又有新的數(shù)據(jù)表加入,則可以使用連續(xù)文件和新的數(shù)據(jù)表進(jìn)行類似的處理,以達(dá)到“兩全其美”的目的。但是,應(yīng)當(dāng)指出:連續(xù)文件增加的“時(shí)間”列也會(huì)為查詢帶來(lái)一定的不便。一個(gè)系統(tǒng)某些性能的提高,總是以犧牲其他性能為代價(jià)的。 1.5.3 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式(5)621.5.4 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加和清理(1)1.數(shù)據(jù)追加 數(shù)據(jù)的組織結(jié)構(gòu)和數(shù)據(jù)的組織形式解決的是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的存儲(chǔ)問(wèn)題。而數(shù)據(jù)追加解決的是數(shù)據(jù)倉(cāng)庫(kù)初始數(shù)據(jù)加載后,如何再向數(shù)據(jù)倉(cāng)庫(kù)輸入數(shù)據(jù)的問(wèn)題。 如果業(yè)務(wù)數(shù)據(jù)庫(kù)中的

50、數(shù)據(jù)沒有發(fā)生變化,則不需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行追加,因此,數(shù)據(jù)追加實(shí)際上只增加在上次數(shù)據(jù)輸入后業(yè)務(wù)數(shù)據(jù)庫(kù)中變化了的數(shù)據(jù)。要完成數(shù)據(jù)追加的工作,最關(guān)鍵的是“捕獲”數(shù)據(jù)變化,并將數(shù)據(jù)的變化記錄下來(lái)。63 (1)時(shí)標(biāo)法 “時(shí)標(biāo)法”的思想是為數(shù)據(jù)記錄增加一個(gè)時(shí)間標(biāo)記字段。當(dāng)數(shù)據(jù)在上次數(shù)據(jù)導(dǎo)入完成后發(fā)生了變化,則修改這條記錄的時(shí)間標(biāo)記。 但是,在業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)中,通常沒有專門的時(shí)間標(biāo)記字段。數(shù)據(jù)庫(kù)應(yīng)用的設(shè)計(jì)者主要是從實(shí)現(xiàn)事務(wù)處理的功能角度來(lái)考慮問(wèn)題,因此,數(shù)據(jù)庫(kù)應(yīng)用的設(shè)計(jì)者通常不會(huì)增加時(shí)間標(biāo)記字段,因?yàn)樵摿袑?duì)于事務(wù)處理系統(tǒng)來(lái)說(shuō)是不必要的。由于這些原因,時(shí)標(biāo)法雖然簡(jiǎn)單,但很難得到實(shí)際應(yīng)用。1.5.4 數(shù)據(jù)倉(cāng)庫(kù)的

51、數(shù)據(jù)追加和清理(2)64(2)前后快照比較法 其思想很簡(jiǎn)單:將上次執(zhí)行完數(shù)據(jù)追加任務(wù)的當(dāng)前業(yè)務(wù)數(shù)據(jù)庫(kù)快照記錄下來(lái),同要執(zhí)行新的數(shù)據(jù)追加任務(wù)前的原先業(yè)務(wù)數(shù)據(jù)庫(kù)快照進(jìn)行比較,比較這兩次快照的不同,來(lái)生成追加的內(nèi)容。 這種方法簡(jiǎn)單,但是數(shù)據(jù)庫(kù)的數(shù)量級(jí)很大時(shí),進(jìn)行這樣全數(shù)據(jù)庫(kù)的比較將會(huì)耗費(fèi)大量的系統(tǒng)資源和時(shí)間,所以這種方法并不實(shí)用。(3)DELTA文件法 “DELTA文件法”是一種從應(yīng)用程序來(lái)感知數(shù)據(jù)變化的方法。其基本思想是;數(shù)據(jù)的變化是由業(yè)務(wù)數(shù)據(jù)庫(kù)應(yīng)用程序引發(fā)的,因此業(yè)務(wù)數(shù)據(jù)庫(kù)應(yīng)用程序應(yīng)當(dāng)知道它修改了哪些數(shù)據(jù),應(yīng)用程序可以將它執(zhí)行成功的修改操作記錄下來(lái),形成DELTA文件作為追加的內(nèi)容。 業(yè)務(wù)數(shù)據(jù)庫(kù)

52、應(yīng)用程序主要是為了完成事務(wù)處理而設(shè)計(jì)的,要使所有的應(yīng)用程序都支持DELTA文件的功能在實(shí)際的工程應(yīng)用中很難,因此,這種方法也沒有得到實(shí)用化。 1.5.4 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加和清理(3)65(4)日志文件法 DELTA文件法從能夠感知業(yè)務(wù)數(shù)據(jù)變化的應(yīng)用程序來(lái)生成追加文件,這種想法是很巧妙,但是它沒有考慮到應(yīng)用程序常常是由不同的軟件開發(fā)商開發(fā)的,因此很難對(duì)其進(jìn)行統(tǒng)一的規(guī)范。 我們知道,各個(gè)應(yīng)用程序都是通過(guò)同數(shù)據(jù)庫(kù)服務(wù)器進(jìn)程通信來(lái)實(shí)現(xiàn)其數(shù)據(jù)訪問(wèn)功能,最終數(shù)據(jù)的訪問(wèn)和處理工作是由數(shù)據(jù)庫(kù)服務(wù)器來(lái)承擔(dān),因此數(shù)據(jù)庫(kù)服務(wù)器能夠感知數(shù)據(jù)的變化。如果數(shù)據(jù)庫(kù)開啟了系統(tǒng)日志,數(shù)據(jù)庫(kù)服務(wù)器將會(huì)把它所執(zhí)行的所有操作詳細(xì)地

53、記錄下來(lái)。我們可以通過(guò)分析數(shù)據(jù)庫(kù)系統(tǒng)日志來(lái)獲取數(shù)據(jù)變化的情況,得到追加內(nèi)容。 雖然日志文件法需要對(duì)日志本身進(jìn)行比較復(fù)雜的分析,但是由于它能夠極大程度地減少工作量,所以得到了廣泛的應(yīng)用。 1.5.4 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加和清理(4)662.數(shù)據(jù)清理 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理與傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)清理的含義有區(qū)別。在傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)中,數(shù)據(jù)清理意味著將數(shù)據(jù)刪除。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)清理并不是簡(jiǎn)單地刪除,而是從細(xì)化級(jí)別的數(shù)據(jù)逐漸上升為高度綜合級(jí)的數(shù)據(jù),直到數(shù)據(jù)已經(jīng)不再具備任何意義時(shí)被清除的過(guò)程。事實(shí)上,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)清理包括: 1)數(shù)據(jù)從操作型環(huán)境進(jìn)入分析型環(huán)境; 2)數(shù)據(jù)從細(xì)節(jié)數(shù)據(jù)逐漸轉(zhuǎn)換為綜合數(shù)據(jù); 3)

54、數(shù)據(jù)從高速磁盤中轉(zhuǎn)移到低速存儲(chǔ)介質(zhì)上; 4)數(shù)據(jù)失去實(shí)際意義,最終被清除。 這個(gè)過(guò)程實(shí)際上也是數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中的生命周期。 1.5.4 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加和清理(5)67第一章 目錄1.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)1.2 什么是數(shù)據(jù)倉(cāng)庫(kù)1.3 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1.4 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)1.5 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織1.6 本章小結(jié)681.6 本章小結(jié) 本章以“蜘蛛網(wǎng)”問(wèn)題為導(dǎo)引,介紹了從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)的演變過(guò)程。在給出數(shù)據(jù)倉(cāng)庫(kù)的定義后,詳細(xì)闡述數(shù)據(jù)倉(cāng)庫(kù)面向主題、數(shù)據(jù)集成、數(shù)據(jù)穩(wěn)定、數(shù)據(jù)隨時(shí)間變化的基本特征。討論傳統(tǒng)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別。介紹數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)及數(shù)據(jù)倉(cāng)庫(kù)中ETL、元數(shù)據(jù)、OL

55、AP等一系列重要的概念。最后介紹了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織,以及數(shù)據(jù)粒度、數(shù)據(jù)分割、數(shù)據(jù)追加等概念。69End of Chapter 1(第14講)考場(chǎng)作文開拓文路能力分解層次(網(wǎng)友來(lái)稿)江蘇省鎮(zhèn)江中學(xué) 陳乃香說(shuō)明:本系列稿共24講,20XX年1月6日開始在資源上連載【要義解說(shuō)】文章主旨確立以后,就應(yīng)該恰當(dāng)?shù)胤纸鈱哟?,使幾個(gè)層次構(gòu)成一個(gè)有機(jī)的整體,形成一篇完整的文章。如何分解層次主要取決于表現(xiàn)主旨的需要?!静呗越庾x】一般說(shuō)來(lái),記人敘事的文章常按時(shí)間順序分解層次,寫景狀物的文章常按時(shí)間順序、空間順序分解層次;說(shuō)明文根據(jù)說(shuō)明對(duì)象的特點(diǎn),可按時(shí)間順序、空間順序或邏輯順序分解層次;議論文主要根據(jù)“提出問(wèn)題分

56、析問(wèn)題解決問(wèn)題”順序來(lái)分解層次。當(dāng)然,分解層次不是一層不變的固定模式,而應(yīng)該富于變化。文章的層次,也常常有些外在的形式:1小標(biāo)題式。即圍繞話題把一篇文章劃分為幾個(gè)相對(duì)獨(dú)立的部分,再給它們加上一個(gè)簡(jiǎn)潔、恰當(dāng)?shù)男?biāo)題。如世界改變了模樣四個(gè)小標(biāo)題:壽命變“長(zhǎng)”了、世界變“小”了、勞動(dòng)變“輕”了、文明變“綠”了。 2序號(hào)式。序號(hào)式作文與小標(biāo)題作文有相同的特點(diǎn)。序號(hào)可以是“一、二、三”,可以是“A、B、C”,也可以是“甲、乙、丙”從全文看,序號(hào)式干凈、明快;但從題目上看,卻看不出文章內(nèi)容,只是標(biāo)明了層次與部分。有時(shí)序號(hào)式作文,也適用于敘述性文章,為故事情節(jié)的展開,提供了明晰的層次。 3總分式。如高考佳作人生也是一張答卷。開頭:“人生就是一張答卷。它上面有選擇題、填空題、判斷題和問(wèn)答題,但它又不同于一般的答卷。一般的答卷用手來(lái)書寫,人生的答卷卻要用行動(dòng)來(lái)書寫?!敝黧w部分每段首句分別為:選擇題是對(duì)人生進(jìn)行正確的取舍,填空題是充實(shí)自己的人生,判斷題是表明自己的人生態(tài)度,問(wèn)答題是考驗(yàn)自己解決問(wèn)題的能力。這份“試卷”設(shè)計(jì)得合理而且實(shí)在,每個(gè)人的人生都是不同的,這就意味著這份人生試卷的“答案是豐富多彩的”。分解層次,應(yīng)追求作文美學(xué)的三個(gè)價(jià)值取向:一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論