2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫

上傳人：招*** IP屬地：河北上傳時(shí)間：2024-10-15 格式：PDF 頁數(shù)：35 大?。?.93MB 積分：12 舉報(bào) 版權(quán)申訴

2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫_第2頁

2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫_第3頁

2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫_第4頁

2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫_第5頁

已閱讀5頁，還剩30頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)數(shù)據(jù)倉庫

1、數(shù)據(jù)倉庫基本概念

數(shù)據(jù)倉庫即DataWarehouse,簡稱DW,主要研究和解決從數(shù)據(jù)中獲取信息的問

題，為企業(yè)所有級(jí)別的決策制定過程，提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。本質(zhì)

上，數(shù)據(jù)倉庫試圖提供一種從操作型系統(tǒng)到?jīng)Q策支持系統(tǒng)的數(shù)據(jù)流架構(gòu)模型。主

要是解決多重?cái)?shù)據(jù)復(fù)制帶來的高成本問題。在有數(shù)倉之前，需要大量的冗余數(shù)據(jù)

來支撐多個(gè)決策支持系統(tǒng)，盡管每個(gè)系統(tǒng)服務(wù)于不同的用戶，但是這些系統(tǒng)經(jīng)常

需要大量相同的數(shù)據(jù)。決策支持系統(tǒng)DecisionsupportSystem,即DDS,是用

于支持業(yè)務(wù)或組織決策活動(dòng)的信息系統(tǒng)，服務(wù)于組織管理、運(yùn)營和規(guī)劃管理層（通

常是中層或高級(jí)管理層），幫助人們對(duì)可能快速變化并且不容易預(yù)測結(jié)果的問題

做出決策。數(shù)據(jù)倉庫就是為決策系統(tǒng)提供數(shù)據(jù)支持的。

1.1、數(shù)據(jù)倉庫的概念

數(shù)據(jù)倉庫之父BillInmon提出了被廣泛認(rèn)可的數(shù)據(jù)倉庫定義，把數(shù)據(jù)倉庫定義為

是一個(gè)面向主題的、集成的、非易失的和時(shí)變的數(shù)據(jù)集合，用于支持管理者的決

策過程。

1.2、數(shù)據(jù)倉庫的特性

面向主題

傳統(tǒng)的操作型系統(tǒng)是圍繞功能性應(yīng)用來組織數(shù)據(jù)的，各個(gè)業(yè)務(wù)系統(tǒng)可能是相互隔

離的，而數(shù)據(jù)倉庫是面向主題的。主題是一個(gè)抽象概念，簡單的來說就是用戶使

用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面，一個(gè)主題通常與多個(gè)操作型系統(tǒng)相關(guān)。

例如一個(gè)保險(xiǎn)公司要分析銷售數(shù)據(jù)，就可以建立一個(gè)專注銷售數(shù)據(jù)的數(shù)據(jù)倉庫，

通過這個(gè)數(shù)據(jù)倉庫就可以得到“過去半年銷售保險(xiǎn)總額以及各險(xiǎn)種的占比“，這

個(gè)場景下銷售就是一個(gè)數(shù)據(jù)主題，同時(shí)數(shù)據(jù)倉庫設(shè)計(jì)時(shí)要排除對(duì)于決策無用的數(shù)

據(jù)，上述場景決策關(guān)注銷售，理賠不是這個(gè)主題的，因此理賠的數(shù)據(jù)就不需要在

這個(gè)數(shù)據(jù)倉庫中存儲(chǔ)。

集成

集成是與面向主題密切相關(guān)。我們上面的保險(xiǎn)的例子中，建立一個(gè)保險(xiǎn)公司的銷

售數(shù)據(jù)倉庫，不同的險(xiǎn)種由不同的部門負(fù)責(zé)，他們有各自獨(dú)立的銷售數(shù)據(jù)庫，此

時(shí)要想從公司層面整體分析銷售數(shù)據(jù)，必須將各分散的數(shù)據(jù)源統(tǒng)一成一致的、無

歧義的數(shù)據(jù)格式后，再存儲(chǔ)在數(shù)據(jù)倉庫中，因此就需要解決各數(shù)據(jù)源的矛盾之處，

例如字段的同名異意、異名同意、字段數(shù)據(jù)類型不一致，長度不一致，計(jì)量單位

不一致等等。另外數(shù)據(jù)還需要進(jìn)行綜合和計(jì)算等處理。當(dāng)完成了這些數(shù)據(jù)的整合

工作后，數(shù)據(jù)倉庫就是集成的，這個(gè)過程就是數(shù)據(jù)倉庫中最復(fù)雜、最關(guān)鍵的過程：

ETLo集成也就是把多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)到數(shù)據(jù)倉庫中。

非易失性

非易失性指的是數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫，數(shù)據(jù)就不應(yīng)該再有改變，操作型系統(tǒng)中

的數(shù)據(jù)一般會(huì)頻繁更新，而數(shù)據(jù)倉庫中的數(shù)據(jù)一般不進(jìn)行更新，當(dāng)操作型系統(tǒng)的

改變的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫后會(huì)產(chǎn)生新的記錄，這樣就保留了數(shù)據(jù)變化的歷史軌跡,

因此，數(shù)據(jù)倉庫中的數(shù)據(jù)基本是靜態(tài)的，因?yàn)閿?shù)據(jù)倉庫的目的就是要根據(jù)曾經(jīng)發(fā)

生的事件進(jìn)行分析，如果數(shù)據(jù)是可修改的，那么歷史數(shù)據(jù)分析就沒有意義了。

時(shí)變

為了發(fā)現(xiàn)業(yè)務(wù)變化的趨勢、存在的問題以及新的機(jī)會(huì)，需要分析大量的歷史數(shù)據(jù)。

數(shù)據(jù)倉庫中包含各種粒度的歷史數(shù)據(jù)，雖然數(shù)據(jù)倉庫具有非易失性，但數(shù)據(jù)倉庫

中的數(shù)據(jù)并不是不變的，是隨著時(shí)間進(jìn)行變化的，也就是說數(shù)據(jù)倉庫中的數(shù)據(jù)反

映的是某一歷史時(shí)間點(diǎn)的數(shù)據(jù)快照，當(dāng)業(yè)務(wù)發(fā)生變化，挖掘出的模式會(huì)失去時(shí)效

性，并且任何一個(gè)存儲(chǔ)介質(zhì)都不可能無限擴(kuò)展，數(shù)據(jù)也不可能只入不出永久駐留

在數(shù)據(jù)倉庫中，因此，數(shù)據(jù)倉庫中的數(shù)據(jù)也有自己的生命期限，過期會(huì)從數(shù)據(jù)倉

庫中移除。移除的方式可以是將細(xì)節(jié)數(shù)據(jù)進(jìn)行匯總后刪除，將老的數(shù)據(jù)轉(zhuǎn)儲(chǔ)到大

容量介質(zhì)后刪除和直接物理刪除等。數(shù)據(jù)倉庫是聯(lián)機(jī)分析處理(OLAP),與之對(duì)

應(yīng)的是操作型系統(tǒng)是聯(lián)機(jī)事務(wù)處理(OLTP),OLTP反映的是當(dāng)前時(shí)間點(diǎn)的數(shù)據(jù)情

況，要求高性能、高并發(fā)和極短的響應(yīng)時(shí)間，因此從提高性能考慮,OLTP系統(tǒng)一

般會(huì)根據(jù)數(shù)據(jù)的活躍程度分級(jí)，將活躍度低的歷史數(shù)據(jù)遷移到歸檔數(shù)據(jù)庫中，也

就是我們通常所說的“熱庫“和“冷庫”。

粒度

數(shù)據(jù)倉庫還有一個(gè)重要的概念就是粒度，粒度是指數(shù)據(jù)的細(xì)化和綜合的程度，細(xì)

化程度越高，粒度級(jí)別就越低，例如，單個(gè)事務(wù)是低粒度級(jí)別的，而一個(gè)月事務(wù)

的匯總就是高粒度級(jí)別。粒度之所以是數(shù)據(jù)倉庫環(huán)境的關(guān)鍵設(shè)計(jì)問題，是因?yàn)樗?/p>

極大的影響數(shù)據(jù)倉庫的數(shù)據(jù)量和可以進(jìn)行的查詢類型，粒度級(jí)別越低，數(shù)據(jù)量越

大，查詢的細(xì)化程度就越高，查詢的范圍越廣泛，反之亦然。大多數(shù)情況下，數(shù)

據(jù)會(huì)以很低粒度級(jí)別進(jìn)入數(shù)據(jù)倉庫，比如日志類型的數(shù)據(jù)或者點(diǎn)擊流數(shù)據(jù)等，此

時(shí)應(yīng)對(duì)數(shù)據(jù)進(jìn)行匯總和過濾，使其適應(yīng)數(shù)據(jù)倉庫的粒度級(jí)別，以減少數(shù)據(jù)存儲(chǔ)量。

因此在設(shè)計(jì)數(shù)據(jù)倉庫的時(shí)候，要在數(shù)據(jù)量大小和查詢的詳細(xì)程度之間做出權(quán)衡。

1.3建立數(shù)據(jù)倉庫的必要性

數(shù)據(jù)倉庫的數(shù)據(jù)通常是來自各個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)。業(yè)務(wù)系統(tǒng)的數(shù)據(jù)形式多種多樣,

可能是Oracle、MySQL、DB2等關(guān)系型數(shù)據(jù)庫里的結(jié)構(gòu)化數(shù)據(jù)，也可能是文本、

csv等平面文件或者word、excel等非結(jié)構(gòu)化數(shù)據(jù)以及JSON、XML等半結(jié)構(gòu)化數(shù)

據(jù)。下面詳細(xì)解釋一下數(shù)據(jù)倉庫的數(shù)據(jù)類型。

數(shù)據(jù)倉庫數(shù)據(jù)源類型有：結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)：結(jié)構(gòu)化數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫進(jìn)行表示和存儲(chǔ)的數(shù)據(jù)，一

般特點(diǎn)為數(shù)據(jù)以行單位，一行數(shù)據(jù)表示一個(gè)實(shí)體的信息，每一行的數(shù)的屬性是相

同的（即數(shù)據(jù)的列），結(jié)構(gòu)化的數(shù)據(jù)的存儲(chǔ)和排列是有規(guī)律的，這對(duì)查詢和修改

數(shù)據(jù)很有幫助，但擴(kuò)展性不好，如果要增加一個(gè)屬性（列），對(duì)已有數(shù)據(jù)的影響

就很大。

半結(jié)構(gòu)化數(shù)據(jù)：半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式，它并不符合關(guān)系型數(shù)據(jù)

庫或其他數(shù)據(jù)表的形式的數(shù)據(jù)模型結(jié)構(gòu)，但包含相關(guān)標(biāo)記，用來分隔語義元素以

及對(duì)記錄和字段進(jìn)行分層，因此，它也被稱為自描述的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)，屬

于同一類實(shí)體可以有不同的屬性，即使他們被組合在一起，這些屬性的順序也并

不重要。常用的半結(jié)構(gòu)化數(shù)據(jù)有JSON、XML等，對(duì)于兩個(gè)XML文件來說，第一個(gè)

文件可能是

<gender>female</gender>

</person>

第二個(gè)XML可能是

</person>

從上面的例子中，屬性的個(gè)數(shù)不一定相同，但他們有屬性的描述和屬性值，可以

通過屬性格式的定義，自動(dòng)的表達(dá)很多有用的信息，因此，半結(jié)構(gòu)化數(shù)據(jù)的可擴(kuò)

展性很好。

非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)沒有固定的格式，各種文檔，圖片、音視頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)，

一般存儲(chǔ)為二進(jìn)制的數(shù)據(jù)文件。

上面我們講了數(shù)據(jù)源的數(shù)據(jù)的各種各樣的類型，所有這些業(yè)務(wù)數(shù)據(jù)就需要經(jīng)

過一系列的操作：抽取、轉(zhuǎn)換、清洗，最終以一種統(tǒng)一的格式裝載到數(shù)據(jù)倉庫中，

作為數(shù)據(jù)分析的數(shù)據(jù)源，提供給后面的即席查詢（用戶根據(jù)自己的需求，靈活的

設(shè)置自定義查詢條件，普通應(yīng)用查詢的查詢條件是定制開發(fā)的，是固化的）、分

析系統(tǒng)、數(shù)據(jù)集市、報(bào)表系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)等。

從數(shù)據(jù)存儲(chǔ)的角度看，數(shù)據(jù)倉庫里的數(shù)據(jù)實(shí)際上已經(jīng)存在于業(yè)務(wù)應(yīng)用系統(tǒng)中

了，那么為什么不能直接操作業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析，而要使用數(shù)據(jù)倉

庫呢？原因有多個(gè)方面包括：

?由于安全以及權(quán)限的因素，有些業(yè)務(wù)數(shù)據(jù)不能直接訪問

?業(yè)務(wù)系統(tǒng)變更頻繁，每次變更都要重寫分析系統(tǒng)，字段的增刪更改等

?很難生成和維護(hù)跨業(yè)務(wù)系統(tǒng)的匯總報(bào)表

?業(yè)務(wù)系統(tǒng)的列名通常是硬編碼，有時(shí)僅僅是無意義的字符串(拼音縮

寫等，很多保險(xiǎn)公司的字段用大寫的拼音縮寫，基本上看不出含義)，

當(dāng)業(yè)務(wù)系統(tǒng)很多，命名規(guī)范不一致的問題，給分析人員帶來很大的困

難

?業(yè)務(wù)系統(tǒng)的表結(jié)構(gòu)為事務(wù)處理性能而優(yōu)化，有時(shí)并不適合查詢分析，

有時(shí)候要取個(gè)匯總的數(shù)據(jù)要關(guān)聯(lián)很多表

?沒有適當(dāng)?shù)姆绞綄⒂袃r(jià)值的數(shù)據(jù)合并進(jìn)特定應(yīng)用的數(shù)據(jù)庫

?沒有適當(dāng)?shù)奈恢么鎯?chǔ)元數(shù)據(jù)

?用戶需要的字段，有時(shí)在業(yè)務(wù)數(shù)據(jù)庫中并不存在

?分析查詢往往很耗性能，這給業(yè)務(wù)系統(tǒng)增加額外性能壓力，會(huì)影響業(yè)

務(wù)系統(tǒng)的正常運(yùn)行

?通常事務(wù)處理的優(yōu)先級(jí)要高于分析系統(tǒng)，如果分析系統(tǒng)和事務(wù)處理運(yùn)

行在一個(gè)服務(wù)器上，分析系統(tǒng)往往性能很差并且性能的消耗，如果宕

機(jī)直接就影響到了事務(wù)處理，沒有在業(yè)務(wù)系統(tǒng)運(yùn)行的服務(wù)器上去分析

數(shù)據(jù)的

基于以上幾點(diǎn)，數(shù)據(jù)倉庫的主要作用是輔助決策，從無規(guī)律的海量數(shù)據(jù)找到

數(shù)據(jù)的規(guī)律，發(fā)現(xiàn)數(shù)據(jù)的價(jià)值，輔助決策，數(shù)據(jù)倉庫是起著重大作用的。但如果

業(yè)務(wù)量很小，業(yè)務(wù)比較單一，那么就沒有建立數(shù)據(jù)倉庫的必要，畢竟建立數(shù)據(jù)倉

庫也是需要人力、硬件等成本的。如果數(shù)據(jù)量龐大，像京東淘寶這樣的大型電商，

要搞清楚一個(gè)特定的商品到底適合不適合18-35歲的人群，以決定這個(gè)商品是否

推薦給這個(gè)群體，這個(gè)商品應(yīng)該使用什么樣的銷售策略，這個(gè)時(shí)候數(shù)據(jù)倉庫的作

用就得到了體現(xiàn)。我們需要去統(tǒng)計(jì)歷史數(shù)據(jù)的銷售量和點(diǎn)擊量，分析這個(gè)商品的

購買人群的年齡分布，看它的主要銷售群體是哪些客戶，有數(shù)據(jù)分析的支撐，就

可以做到智能化的商品推薦。

1.4操作型系統(tǒng)(OLTP)和分析系統(tǒng)(OLAP)

OLTP和OLAP的區(qū)別

聯(lián)機(jī)事務(wù)處理OLTP(on-linetransactionprocessing)主要是執(zhí)行基本日常

的事務(wù)處理，比如數(shù)據(jù)庫記錄的增刪查改。比如在銀行的一筆交易記錄，就是一

個(gè)典型的事務(wù)。

OLTP的特點(diǎn)一般有：

1.實(shí)時(shí)性要求高。我記得之前上大學(xué)的時(shí)候，銀行異地匯款，要隔天才能到賬,

而現(xiàn)在是分分鐘到賬的節(jié)奏，說明現(xiàn)在銀行的實(shí)時(shí)處理能力大大增強(qiáng)。

2.數(shù)據(jù)量不是很大，生產(chǎn)庫上的數(shù)據(jù)量一般不會(huì)太大，而且會(huì)及時(shí)做相應(yīng)的數(shù)據(jù)

處理與轉(zhuǎn)移。

3.交易一般是確定的，比如銀行存取款的金額肯定是確定的，所以O(shè)LTP是對(duì)確

定性的數(shù)據(jù)進(jìn)行存取

4.高并發(fā)，并且要求滿足ACID原則。比如兩人同時(shí)操作一個(gè)銀行卡賬戶，比如

大型的購物網(wǎng)站秒殺活動(dòng)時(shí)上萬的QPS請(qǐng)求。

聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)是數(shù)據(jù)倉庫系統(tǒng)的主

要應(yīng)用，支持復(fù)雜的分析操作，側(cè)重決策支持，并且提供直觀易懂的查詢結(jié)果。

典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)的報(bào)表系統(tǒng)。

OLAP的特點(diǎn)一般有：

1.實(shí)時(shí)性要求不是很高，比如最常見的應(yīng)用就是天級(jí)更新數(shù)據(jù)，然后出對(duì)應(yīng)的數(shù)

據(jù)報(bào)表。

2.數(shù)據(jù)量大，因?yàn)镺LAP支持的是動(dòng)態(tài)查詢，所以用戶也許要通過將很多數(shù)據(jù)的

統(tǒng)計(jì)后才能得到想要知道的信息，例如時(shí)間序列分析等等，所以處理的數(shù)據(jù)量很

大；

3.OLAP系統(tǒng)的重點(diǎn)是通過數(shù)據(jù)提供決策支持，所以查詢一般都是動(dòng)態(tài)，自定義

的。所以在OLAP中，維度的概念特別重要。一般會(huì)將用戶所有關(guān)心的維度數(shù)據(jù)，

存入對(duì)應(yīng)數(shù)據(jù)平臺(tái)。

總結(jié)：

OLTP即聯(lián)機(jī)事務(wù)處理，就是我們經(jīng)常說的關(guān)系數(shù)據(jù)庫，增刪查改就是我們經(jīng)常

應(yīng)用的東西，這是數(shù)據(jù)庫的基礎(chǔ)；TPCC(TransactionProcessingPerformance

Council)屬于此類。

OLAP即聯(lián)機(jī)分析處理，是數(shù)據(jù)倉庫的核心部心，所謂數(shù)據(jù)倉庫是對(duì)于大量已經(jīng)

由OLTP形成的數(shù)據(jù)的一種分析型的數(shù)據(jù)庫，用于處理商業(yè)智能、決策支持等重

要的決策信息；數(shù)據(jù)倉庫是在數(shù)據(jù)庫應(yīng)用到一定程序之后而對(duì)歷史數(shù)據(jù)的加工與

分析，讀取較多，更新較少，TPCH屬于此類。

隨著大數(shù)據(jù)時(shí)代的到來，對(duì)于OLAP,列存儲(chǔ)模式或者說nosql模式比傳統(tǒng)意義

的行存儲(chǔ)模式可能更具優(yōu)勢。

1.5數(shù)據(jù)倉庫的架構(gòu)

數(shù)據(jù)倉庫架構(gòu)圖

數(shù)據(jù)應(yīng)用層報(bào)表即席查詢數(shù)據(jù)可視化

Apache任

數(shù)據(jù)共享層RDBMS

KylinHBase務(wù)

調(diào)

度

與

商線分析實(shí)時(shí)計(jì)茸

監(jiān)

數(shù)據(jù)存儲(chǔ)

與分析層控

Kafka

數(shù)據(jù)采集

數(shù)據(jù)采集層的任務(wù)就是把數(shù)據(jù)從各種數(shù)據(jù)源中采集和存儲(chǔ)到數(shù)據(jù)存儲(chǔ)上，期間有

可能會(huì)做一些ETL操作。

數(shù)據(jù)采集，采用Flume收集日志，采用Sqoop將RDBMS以及NoSQL中的數(shù)據(jù)同步

到HDFS上。

數(shù)據(jù)源種類可以有多種：

日志：所占份額最大，存儲(chǔ)在備份服務(wù)器上

業(yè)務(wù)數(shù)據(jù)庫:如Mysql、Orac1e

來自HTTP/FTP的數(shù)據(jù)：合作伙伴提供的接口

其他數(shù)據(jù)源：如Excel等需要手工錄入的數(shù)據(jù)

數(shù)據(jù)存儲(chǔ)與分析

HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫/數(shù)據(jù)平臺(tái)最完美的數(shù)據(jù)存儲(chǔ)解決方案。

離線數(shù)據(jù)分析與計(jì)算，也就是對(duì)實(shí)時(shí)性要求不高的部分，Hive是不錯(cuò)的選擇。

使用Hadoop框架自然而然也提供了MapReduce接口，如果真的很樂意開發(fā)Java,

或者對(duì)SQL不熟，那么也可以使用MapReduce來做分析與計(jì)算。

Spark性能比MapReduce好很多，同時(shí)使用SparkSQL操作Hive。

消息系統(tǒng)：可以加入Kafka防止數(shù)據(jù)丟失

實(shí)時(shí)計(jì)算：實(shí)時(shí)計(jì)算使用SparkStreaming消費(fèi)Kafka中收集的日志數(shù)據(jù)，實(shí)時(shí)

計(jì)算結(jié)果大多保存在Redis中

機(jī)器學(xué)習(xí)：使用了SparkMLlib提供的機(jī)器學(xué)習(xí)算法

多維分析OLAP：使用Kyiin作為OLAP引擎

數(shù)據(jù)共享

前面使用Hive、MR、Spark、SparkSQL分析和計(jì)算的結(jié)果，還是在HDFS上，但

大多業(yè)務(wù)和應(yīng)用不可能直接從HDFS上獲取數(shù)據(jù)，那么就需要一個(gè)數(shù)據(jù)共享的地

方，使得各業(yè)務(wù)和產(chǎn)品能方便的獲取數(shù)據(jù)。

這里的數(shù)據(jù)共享，其實(shí)指的是前面數(shù)據(jù)分析與計(jì)算后的結(jié)果存放的地方，其實(shí)就

是關(guān)系型數(shù)據(jù)庫和NOSQL數(shù)據(jù)庫。

數(shù)據(jù)應(yīng)用

報(bào)表：報(bào)表所使用的數(shù)據(jù)，一般也是已經(jīng)統(tǒng)計(jì)匯總好的，存放于數(shù)據(jù)共享層。

接口：接口的數(shù)據(jù)都是直接查詢數(shù)據(jù)共享層即可得到。

即席查詢：即席查詢通常是現(xiàn)有的報(bào)表和數(shù)據(jù)共享層的數(shù)據(jù)并不能滿足需求，需

要從數(shù)據(jù)存儲(chǔ)層直接查詢。一般都是通過直接操作SQL得到。

數(shù)據(jù)可視化：提供可視化前端頁面，方便運(yùn)營等非開發(fā)人員直接查詢

1.6數(shù)據(jù)存儲(chǔ)和ETL

ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程，

目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起，為企業(yè)的決策提

供分析依據(jù)。ETL是BI項(xiàng)目重要的一個(gè)環(huán)節(jié)。通常情況下，在BI項(xiàng)目中ETL

會(huì)花掉整個(gè)項(xiàng)目至少1/3的時(shí)間，ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗。

ETL的設(shè)計(jì)分三部分：數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。在設(shè)計(jì)ETL

的時(shí)候我們也是從這三部分出發(fā)。數(shù)據(jù)的抽取是從各個(gè)不同的數(shù)據(jù)源抽取到

ODS（OperationalDataStore,操作型數(shù)據(jù)存儲(chǔ)）中這個(gè)過程也可以做一些

數(shù)據(jù)的清洗和轉(zhuǎn)換），在抽取的過程中需要挑選不同的抽取方法，盡可能的提高

ETL的運(yùn)行效率。ETL三個(gè)部分中，花費(fèi)時(shí)間最長的是'吁"（Transform,清洗、

轉(zhuǎn)換）的部分，一般情況下這部分工作量是整個(gè)ETL的2/3。數(shù)據(jù)的加載一般在

數(shù)據(jù)清洗完了之后直接寫入DW（DataWarehousing,數(shù)據(jù)倉庫）中去。

ETL的實(shí)現(xiàn)有多種方法，常用的有三種。一種是借助ETL工具（如Oracle的

OWB、SQLServer2000的DTS、SQLServer2005的SSIS服務(wù)、Informatic等）

實(shí)現(xiàn)，一種是SQL方式實(shí)現(xiàn)，另外一種是ETL工具和SQL相結(jié)合。前兩種方法各

有各的優(yōu)缺點(diǎn)，借助工具可以快速的建立起ETL工程，屏蔽了復(fù)雜的編碼任務(wù),

提高了速度，降低了難度，但是缺少靈活性。SQL的方法優(yōu)點(diǎn)是靈活，提高ETL

運(yùn)行效率，但是編碼復(fù)雜，對(duì)技術(shù)要求比較高。第三種是綜合了前面二種的優(yōu)點(diǎn)，

會(huì)極大地提高ETL的開發(fā)速度和效率。

一、數(shù)據(jù)的抽?。‥xtract）

這一部分需要在調(diào)研階段做大量的工作，首先要搞清楚數(shù)據(jù)是從幾個(gè)業(yè)務(wù)系統(tǒng)中

來，各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫服務(wù)器運(yùn)行什么DBMS,是否存在手工數(shù)據(jù)，手工數(shù)據(jù)

量有多大，是否存在非結(jié)構(gòu)化的數(shù)據(jù)等等，當(dāng)收集完這些信息之后才可以進(jìn)行數(shù)

據(jù)抽取的設(shè)計(jì)。

1,對(duì)于與存放DW的數(shù)據(jù)庫系統(tǒng)相同的數(shù)據(jù)源處理方法

這一類數(shù)據(jù)源在設(shè)計(jì)上比較容易。一般情況下，DBMS（SQLServer、Oracle）都會(huì)

提供數(shù)據(jù)庫鏈接功能，在DW數(shù)據(jù)庫服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)

系就可以寫Select語句直接訪問。

2、對(duì)于與DW數(shù)據(jù)庫系統(tǒng)不同的數(shù)據(jù)源的處理方法

對(duì)于這一類數(shù)據(jù)源，一般情況下也可以通過ODBC的方式建立數(shù)據(jù)庫鏈接

----如SQLServer和Oracle之間。如果不能建立數(shù)據(jù)庫鏈接，可以有兩種方式

完成，一種是通過工具將源數(shù)據(jù)導(dǎo)出成.txt或者是.xls文件，然后再將這些源

系統(tǒng)文件導(dǎo)入到ODS中。另外一種方法是通過程序接口來完成。

3、對(duì)于文件類型數(shù)據(jù)源(.txt,.xls),可以培訓(xùn)業(yè)務(wù)人員利用數(shù)據(jù)庫工具將這些

數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫，然后從指定的數(shù)據(jù)庫中抽取?；蛘哌€可以借助工具實(shí)

現(xiàn)

4、增量更新的問題

對(duì)于數(shù)據(jù)量大的系統(tǒng)，必須考慮增量抽取。一般情況下，業(yè)務(wù)系統(tǒng)會(huì)記錄業(yè)

務(wù)發(fā)生的時(shí)間，我們可以用來做增量的標(biāo)志，每次抽取之前首先判斷ODS中記錄

最大的時(shí)間，然后根據(jù)這個(gè)時(shí)間去業(yè)務(wù)系統(tǒng)取大于這個(gè)時(shí)間所有的記錄。利用業(yè)

務(wù)系統(tǒng)的時(shí)間戳，一般情況下，業(yè)務(wù)系統(tǒng)沒有或者部分有時(shí)間戳。

二、數(shù)據(jù)的清洗轉(zhuǎn)換(Cleaning,Transform)

一般情況下，數(shù)據(jù)倉庫分為ODS、DW兩部分。通常的做法是從業(yè)務(wù)系統(tǒng)到ODS

做清洗，將臟數(shù)據(jù)和不完整數(shù)據(jù)過濾掉，在從ODS到DW的過程中轉(zhuǎn)換，進(jìn)行一

些業(yè)務(wù)規(guī)則的計(jì)算和聚合。

1、數(shù)據(jù)清洗

數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù)，將過濾的結(jié)果交給業(yè)務(wù)主管

部門，確認(rèn)是否過濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。

不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。

(1)不完整的數(shù)據(jù)：這一類數(shù)據(jù)主要是一些應(yīng)該有的信息缺失，如供應(yīng)商的名稱、

分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等。對(duì)

于這一類數(shù)據(jù)過濾出來，按缺失的內(nèi)容分別寫入不同Excel文件向客戶提交，要

求在規(guī)定的時(shí)間內(nèi)補(bǔ)全。補(bǔ)全后才寫入數(shù)據(jù)倉庫。

(2)錯(cuò)誤的數(shù)據(jù)：這一類錯(cuò)誤產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全，在接收輸入后沒

有進(jìn)行判斷直接寫入后臺(tái)數(shù)據(jù)庫造成的，比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符

串?dāng)?shù)據(jù)后面有一個(gè)回車操作、日期格式不正確、日期越界等。這一類數(shù)據(jù)也要分

類，對(duì)于類似于全角字符、數(shù)據(jù)前后有不可見字符的問題，只能通過寫SQL語句

的方式找出來，然后要求客戶在業(yè)務(wù)系統(tǒng)修正之后抽取。日期格式不正確的或者

是日期越界的這一類錯(cuò)誤會(huì)導(dǎo)致ETL運(yùn)行失敗，這一類錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)

庫用SQL的方式挑出來，交給業(yè)務(wù)主管部門要求限期修正，修正之后再抽取。

(3)重復(fù)的數(shù)據(jù)：對(duì)于這一類數(shù)據(jù)一一特別是維表中會(huì)出現(xiàn)這種情況一一將重復(fù)

數(shù)據(jù)記錄的所有字段導(dǎo)出來，讓客戶確認(rèn)并整理。

數(shù)據(jù)清洗是一個(gè)反復(fù)的過程，不可能在幾天內(nèi)完成，只有不斷的發(fā)現(xiàn)問題,

解決問題。對(duì)于是否過濾，是否修正一般要求客戶確認(rèn)，對(duì)于過濾掉的數(shù)據(jù)，寫

入Excel文件或者將過濾數(shù)據(jù)寫入數(shù)據(jù)表，在ETL開發(fā)的初期可以每天向業(yè)務(wù)單

位發(fā)送過濾數(shù)據(jù)的郵件，促使他們盡快地修正錯(cuò)誤，同時(shí)也可以做為將來驗(yàn)證數(shù)

據(jù)的依據(jù)。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過濾掉，對(duì)于每個(gè)過濾規(guī)則

認(rèn)真進(jìn)行驗(yàn)證，并要用戶確認(rèn)。

2、數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換的任務(wù)主要進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換，以及一些商務(wù)規(guī)

則的計(jì)算。

(1)不一致數(shù)據(jù)轉(zhuǎn)換：這個(gè)過程是一個(gè)整合的過程，將不同業(yè)務(wù)系統(tǒng)的相同類型

的數(shù)據(jù)統(tǒng)一，比如同一個(gè)供應(yīng)商在結(jié)算系統(tǒng)的編碼是XX0001,而在CRM中編碼是

YY0001,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼。

(2)數(shù)據(jù)粒度的轉(zhuǎn)換：業(yè)務(wù)系統(tǒng)一般存儲(chǔ)非常明細(xì)的數(shù)據(jù)，而數(shù)據(jù)倉庫中數(shù)據(jù)是

用來分析的，不需要非常明細(xì)的數(shù)據(jù)。一般情況下，會(huì)將業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)

倉庫粒度進(jìn)行聚合。

(3)商務(wù)規(guī)則的計(jì)算：不同的企業(yè)有不同的業(yè)務(wù)規(guī)則、不同的數(shù)據(jù)指標(biāo)，這些指

標(biāo)有的時(shí)候不是簡單的加加減減就能完成，這個(gè)時(shí)候需要在ETL中將這些數(shù)據(jù)指

標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉庫中，以供分析使用。

三、ETL日志、警告發(fā)送

1、ETL日志

ETL日志分為三類。

一類是執(zhí)行過程日志，這一部分日志是在ETL執(zhí)行過程中每執(zhí)行一步的記錄，記

錄每次運(yùn)行每一步驟的起始時(shí)間，影響了多少行數(shù)據(jù)，流水賬形式。

一類是錯(cuò)誤日志，當(dāng)某個(gè)模塊出錯(cuò)的時(shí)候?qū)戝e(cuò)誤日志，記錄每次出錯(cuò)的時(shí)間、出

錯(cuò)的模塊以及出錯(cuò)的信息等。

第三類日志是總體日志，只記錄ETL開始時(shí)間、結(jié)束時(shí)間是否成功信息。如果使

用ETL工具,ETL工具會(huì)自動(dòng)產(chǎn)生一些日志，這一類日志也可以作為ETL日志的

一部分。

記錄日志的目的是隨時(shí)可以知道ETL運(yùn)行情況，如果出錯(cuò)了，可以知道哪里出錯(cuò)。

2、警告發(fā)送

如果ETL出錯(cuò)了，不僅要形成ETL出錯(cuò)日志，而且要向系統(tǒng)管理員發(fā)送警告。發(fā)

送警告的方式多種，一般常用的就是給系統(tǒng)管理員發(fā)送郵件，并附上出錯(cuò)的信息，

方便管理員排查錯(cuò)誤。

ETL是BI項(xiàng)目的關(guān)鍵部分，也是一個(gè)長期的過程，只有不斷的發(fā)現(xiàn)問題并解決

問題，才能使ETL運(yùn)行效率更高，為BI項(xiàng)目后期開發(fā)提供準(zhǔn)確與高效的數(shù)據(jù)。

做數(shù)據(jù)倉庫系統(tǒng)，ETL是關(guān)鍵的一環(huán)。說大了，ETL是數(shù)據(jù)整合解決方案，說小

了，就是倒數(shù)據(jù)的工具?；貞浺幌鹿ぷ鬟@么長時(shí)間以來，處理數(shù)據(jù)遷移、轉(zhuǎn)換的

工作倒還真的不少。但是那些工作基本上是一次性工作或者很小數(shù)據(jù)量?？墒窃?/p>

數(shù)據(jù)倉庫系統(tǒng)中，ETL上升到了一定的理論高度，和原來小打小鬧的工具使用不

同了。究竟什么不同，從名字上就可以看到，人家已經(jīng)將倒數(shù)據(jù)的過程分成3

個(gè)步驟，E、T、L分別代表抽取、轉(zhuǎn)換和裝載。

其實(shí)ETL過程就是數(shù)據(jù)流動(dòng)的過程，從不同的數(shù)據(jù)源流向不同的目標(biāo)數(shù)據(jù)。但在

數(shù)據(jù)倉庫中，

ETL有幾個(gè)特點(diǎn)，

一是數(shù)據(jù)同步，它不是一次性倒完數(shù)據(jù)就拉到，它是經(jīng)常性的活動(dòng)，按照固定周

期運(yùn)行的，甚至現(xiàn)在還有人提出了實(shí)時(shí)ETL的概念。

二是數(shù)據(jù)量，一般都是巨大的，值得你將數(shù)據(jù)流動(dòng)的過程拆分成E、T和L。

現(xiàn)在有很多成熟的工具提供ETL功能，且不說他們的好壞。從應(yīng)用角度來說,

ETL的過程其實(shí)不是非常復(fù)雜，這些工具給數(shù)據(jù)倉庫工程帶來和很大的便利性，

特別是開發(fā)的便利和維護(hù)的便利。但另一方面，開發(fā)人員容易迷失在這些工具中。

舉個(gè)例子，VB是一種非常簡單的語言并且也是非常易用的編程工具，上手特別

快，但是真正VB的高手有多少？微軟設(shè)計(jì)的產(chǎn)品通常有個(gè)原則是“將使用者當(dāng)

作傻瓜”，在這個(gè)原則下，微軟的東西確實(shí)非常好用，但是對(duì)于開發(fā)者，如果你

自己也將自己當(dāng)作傻瓜，那就真的傻了。ETL工具也是一樣，這些工具為我們提

供圖形化界面，讓我們將主要的精力放在規(guī)則上，以期提高開發(fā)效率。從使用效

果來說，確實(shí)使用這些工具能夠非?？焖俚貥?gòu)建一個(gè)job來處理某個(gè)數(shù)據(jù)，不過

從整體來看，并不見得他的整體效率會(huì)高多少。問題主要不是出在工具上，而是

在設(shè)計(jì)、開發(fā)人員上。他們迷失在工具中，沒有去探求ETL的本質(zhì)?？梢哉f這些

工具應(yīng)用了這么長時(shí)間，在這么多項(xiàng)目、環(huán)境中應(yīng)用，它必然有它成功之處，它

必定體現(xiàn)了ETL的本質(zhì)。如果我們不透過表面這些工具的簡單使用去看它背后蘊(yùn)

涵的思想，最終我們作出來的東西也就是一個(gè)個(gè)獨(dú)立的job,將他們整合起來仍

然有巨大的工作量。大家都知道“理論與實(shí)踐相結(jié)合”，如果在一個(gè)領(lǐng)域有所超

越，必須要在理論水平上達(dá)到一定的高度.

2、數(shù)據(jù)倉庫設(shè)計(jì)基礎(chǔ)、維表和事實(shí)表技術(shù)

專業(yè)數(shù)據(jù)倉庫面臨的一個(gè)問題是數(shù)據(jù)倉庫中數(shù)據(jù)庫設(shè)計(jì)的基本模型選取問題。廣

泛采用的數(shù)據(jù)庫設(shè)計(jì)模型有兩種，關(guān)系型和多維型。

下面介紹兩種模型，及其兩種方法的區(qū)別和在數(shù)據(jù)倉庫中的應(yīng)用，兩種方法的優(yōu)

缺點(diǎn)。在建立數(shù)據(jù)倉庫過程中，對(duì)于數(shù)據(jù)庫設(shè)計(jì)而言，建立關(guān)系型數(shù)據(jù)庫是最佳

的長期的方法，并且這種情況需要真正的企業(yè)方法。多維模型有利于短期數(shù)據(jù)倉

庫，但這種方法使用的數(shù)據(jù)倉庫的范圍有限。

一、關(guān)系模型

二、多維模型

三、兩種模型的區(qū)別

一、關(guān)系模型

關(guān)系型數(shù)據(jù)庫設(shè)計(jì)首先要?jiǎng)?chuàng)建一張數(shù)據(jù)表，表中每一行包含不同的列。關(guān)系表可

以包含不同的屬性，每一數(shù)據(jù)列表示不同的物理特征。不同的列可以索引并作為

標(biāo)識(shí)符。部分列在執(zhí)行過程中可以為空。所有列都是根據(jù)數(shù)據(jù)定義語言（DDL）

標(biāo)準(zhǔn)定義的。關(guān)系型數(shù)據(jù)以一種稱為“標(biāo)準(zhǔn)化”的形式存在。數(shù)據(jù)標(biāo)準(zhǔn)化是指數(shù)

據(jù)庫設(shè)計(jì)會(huì)使數(shù)據(jù)分解成非常低的粒度級(jí)。標(biāo)準(zhǔn)化的數(shù)據(jù)以一種孤立模式存在，

這種情況下對(duì)數(shù)據(jù)表里的數(shù)據(jù)關(guān)系要求很嚴(yán)格。當(dāng)進(jìn)行標(biāo)準(zhǔn)化的時(shí)候，表中的數(shù)

據(jù)只能與這張表里的其他數(shù)據(jù)關(guān)聯(lián)。

通過關(guān)系模型產(chǎn)生的數(shù)據(jù)倉庫的設(shè)計(jì)是很靈活的?；谠O(shè)計(jì)的數(shù)據(jù)庫起初可以是

一種方式，當(dāng)根據(jù)關(guān)系模型設(shè)計(jì)后又形成另一種形式。數(shù)據(jù)元可以以多種方式重

新賦值。靈活性是關(guān)系模型最大的優(yōu)勢，其次是功能性。因?yàn)榧?xì)節(jié)數(shù)據(jù)需要被收

集到一起并且能夠結(jié)合，因此給予關(guān)系模型的數(shù)據(jù)倉庫的設(shè)計(jì)可以支持?jǐn)?shù)據(jù)的多

種視圖。

二、多維模型

星形連接：

多維模型方法也叫星形連接。

數(shù)據(jù)庫設(shè)計(jì)多維模型方法的中心是星形連接，之所以稱為星形連接，是因?yàn)樗?/p>

表示方法是以一顆“星”為中心，周圍圍繞著其他數(shù)據(jù)結(jié)構(gòu)。即星形連接的中心

是一張事實(shí)表。事實(shí)表是包含大量數(shù)據(jù)值的一種結(jié)構(gòu)。事實(shí)表的周圍是維表，用

來描述事實(shí)表的某個(gè)重要方面。

雪花結(jié)構(gòu)：

通常，星形連接只包含一張事實(shí)表。但是在數(shù)據(jù)庫設(shè)計(jì)中要?jiǎng)?chuàng)建一種雪花結(jié)構(gòu)的

復(fù)合結(jié)構(gòu)需要多張事實(shí)表結(jié)合。在雪花結(jié)構(gòu)中，不同的事實(shí)表通過共享一個(gè)或多

個(gè)公共維表連接起來。雪花結(jié)構(gòu)隱含的另外一個(gè)想法是將事實(shí)表和維表結(jié)合起來,

形成一個(gè)類似于雪花結(jié)構(gòu)的形式。

多維模型設(shè)計(jì)的最大優(yōu)點(diǎn)在于訪問的高效性。當(dāng)設(shè)計(jì)適當(dāng)時(shí)，通過星形連接將數(shù)

據(jù)傳遞給最終用戶是非常高效的。為了提高傳遞信息的效率，必須收集并吸收最

終用戶的請(qǐng)求。最終用戶使用數(shù)據(jù)的過程是要定義什么樣的多維結(jié)構(gòu)的核心。一

旦清楚了最終用戶的請(qǐng)求，這些請(qǐng)求就可以用來最終確定星形連接，形成最理想

的結(jié)構(gòu)。

三、兩種模型的區(qū)別

最重要的區(qū)別：靈活性和性能。

靈活性和性能：

關(guān)系模型粒度低，具有高靈活性，但是對(duì)用戶來說在性能方面卻不是理想的。

多維模型在滿足用戶需求方面是非常高效的，但靈活性不好。

設(shè)計(jì)的范圍不同：

多維設(shè)計(jì)通過用戶需求建立模型，只能在有限范圍內(nèi)進(jìn)行，適合于小范圍數(shù)據(jù)（如

一個(gè)部門甚至子部門），僅服務(wù)于一組用戶的需求；

關(guān)系型設(shè)計(jì)以最低粒度進(jìn)行存儲(chǔ)，那么就可以無限制的添加新數(shù)據(jù)。很顯然，添

加數(shù)據(jù)到關(guān)系模型永遠(yuǎn)也不會(huì)停止。所以關(guān)系模型適合于大范圍數(shù)據(jù)（如一個(gè)企

業(yè)模型），能滿足多個(gè)企業(yè)的信息需求

關(guān)系模型對(duì)數(shù)據(jù)倉庫的直接訪問是最佳的，而多維模型用于服務(wù)數(shù)據(jù)倉庫的直接

用戶的需求時(shí)最理想的。

四、獨(dú)立數(shù)據(jù)集市和從屬數(shù)據(jù)集市

數(shù)據(jù)集市：是用來表示服務(wù)一組特定群體的分析需求的數(shù)據(jù)結(jié)構(gòu)。

獨(dú)立數(shù)據(jù)集市：是指直接通過歷史應(yīng)用創(chuàng)建的數(shù)據(jù)集市。獨(dú)立數(shù)據(jù)集市可以由單

一的部門創(chuàng)建，而不考慮其他部門或組織。建立獨(dú)立數(shù)據(jù)集市也不需要有“全局

思想”考慮。獨(dú)立數(shù)據(jù)集市表示企業(yè)全部DSS請(qǐng)求的一個(gè)子集，建立獨(dú)立數(shù)據(jù)集

市的費(fèi)用不高，并且允許企業(yè)掌控子集的信息。

從屬數(shù)據(jù)集市：與獨(dú)立數(shù)據(jù)集市對(duì)應(yīng)。從屬數(shù)據(jù)集市是利用來自數(shù)據(jù)倉庫的數(shù)據(jù)

建立的。它的數(shù)據(jù)源不依賴于歷史數(shù)據(jù)或操作型數(shù)據(jù)，只依賴于數(shù)據(jù)倉庫。從屬

數(shù)據(jù)集市要求預(yù)先計(jì)劃和投資，并需要“全局考慮此外，從屬數(shù)據(jù)集市要求

多個(gè)用戶共享他們創(chuàng)建數(shù)據(jù)倉庫時(shí)的信息需求?？傊瑥膶贁?shù)據(jù)集市要求有預(yù)先

的計(jì)劃、長期的觀察、全局的分析和企業(yè)各不同部門對(duì)需求分析的合作與協(xié)調(diào)。

多維模型的另一特點(diǎn)是在數(shù)據(jù)集市中進(jìn)行分析時(shí)，能夠直接訪問歷史和操作型數(shù)

據(jù)。數(shù)據(jù)集市分為兩類：獨(dú)立數(shù)據(jù)集市和從屬數(shù)據(jù)集市。

獨(dú)立數(shù)據(jù)集市存在很多問題，而這些問題只有當(dāng)建立起一定數(shù)目的獨(dú)立數(shù)據(jù)集市

后才會(huì)變得明顯。

獨(dú)立數(shù)據(jù)集市存在以下問題：

不提供數(shù)據(jù)重用平臺(tái)；

不提供數(shù)據(jù)一致性的基礎(chǔ)；

不提供單一歷史接口程序基礎(chǔ)；

需要每一個(gè)獨(dú)立數(shù)據(jù)集市創(chuàng)建自己的細(xì)節(jié)數(shù)據(jù)集，其他的獨(dú)立數(shù)據(jù)集市會(huì)建立大

量的冗余數(shù)據(jù)。

從屬數(shù)據(jù)集市可以從數(shù)據(jù)倉庫提起數(shù)據(jù)，而不存在獨(dú)立數(shù)據(jù)集市存在的體系結(jié)構(gòu)

的問題。

維度表

在星型模式中，每個(gè)維度表都分配有一個(gè)代理鍵（surrogatekey,SK）?該列是

維度表的唯一標(biāo)識(shí)符，是維度表的事實(shí)主鍵（這里事實(shí)主鍵是指事實(shí)意義上的主

鍵，能唯一標(biāo)識(shí)維度表中的一行），只在數(shù)據(jù)倉庫中創(chuàng)建。代理鍵在星型模式的

加載過程中分配和維護(hù)。代理鍵沒有內(nèi)在的含義，通常表現(xiàn)為一個(gè)整數(shù)。代理鍵

有時(shí)指的是warehousekey,是維度表的主鍵。

維度表中也包含類似操作型系統(tǒng)中存在的用于唯一區(qū)分實(shí)體的鍵列。這些操作型

系統(tǒng)中的鍵通常稱為自然鍵（naturalkey,NK）ONK在維度表中未必唯一標(biāo)識(shí)

一條記錄，即并非維度表的事實(shí)主鍵。

在數(shù)據(jù)倉庫中，區(qū)分代理鍵和自然鍵的目的是跟蹤在操作性系統(tǒng)中無須考慮的數(shù)

據(jù)變化情況。例如，假定客戶A在操作型系統(tǒng)中以customejid10711標(biāo)識(shí)。如

果客戶的位置發(fā)生變化，操作型系統(tǒng)中只需對(duì)customejid為10711的記錄修改；

而從分析角度考慮，可能需要根據(jù)地區(qū)統(tǒng)計(jì)，因此不能直接覆蓋維度表中相關(guān)記

錄。因?yàn)樾切湍Ｊ降目蛻艟S度表中不以customejid作為事實(shí)主鍵，僅作為NK,

因此可以存儲(chǔ)多個(gè)版本的客戶A的信息，這些版本都具有相同的customer_ido

不同版本的信息可以通過不同的代理鍵加以區(qū)分。這樣就通過增加帶有序號(hào)的自

然鍵的方式對(duì)變化進(jìn)行跟蹤。代理鍵可以基于單一的列實(shí)現(xiàn)事實(shí)表和維度表之間

的連接操作。

這與緩慢變化維有關(guān)。

維度表中包含的列應(yīng)該盡可能全面。如對(duì)于操作型系統(tǒng)中為代碼（如，使用0

和1代表男和女）的列，維度表中應(yīng)該包含該代碼（0或1）和代碼描述（男或

女）。

2事實(shí)表

事實(shí)表由緊湊的包含引用維度和事實(shí)的外鍵構(gòu)成。

事實(shí)表應(yīng)該包含所有與過程有關(guān)的事實(shí)，即使某些事實(shí)可以由其他事實(shí)計(jì)算

得來。類似比率等非可加事實(shí)應(yīng)該分解為完全可加的組成部分，其計(jì)算應(yīng)該在創(chuàng)

建報(bào)表時(shí)執(zhí)行。

事實(shí)表是稀疏的，只有當(dāng)某些事實(shí)發(fā)生時(shí)才產(chǎn)生相應(yīng)的記錄行。

對(duì)事實(shí)表粒度的聲明非常重要，要么以維度術(shù)語聲明，要么以業(yè)務(wù)術(shù)語聲明。

存儲(chǔ)在事實(shí)表中的維度被稱為退化維度。這種技術(shù)通常用于具有較高基數(shù)

（cardinality）的事務(wù)標(biāo)識(shí)符中。

記錄在事實(shí)表中的行表示業(yè)務(wù)活動(dòng)的發(fā)生情況，這意味著事實(shí)表中的行沒有

包含所有可能的維度組合。出現(xiàn)在事實(shí)表中的組合數(shù)量遠(yuǎn)遠(yuǎn)小于可能存在的組合

數(shù)量。事實(shí)表的這項(xiàng)特性稱為稀疏性。例如，某客戶在某天未從某銷售商處購買

特定產(chǎn)品，則不會(huì)有此項(xiàng)記錄。

多數(shù)情況下，模式設(shè)計(jì)者會(huì)避免在將數(shù)據(jù)加載到事實(shí)表之前聚合數(shù)據(jù)。盡可

能保持最細(xì)粒度的數(shù)據(jù)，星型模式就能解決范圍更加寬泛的分析型需求（即擴(kuò)展

性更好）。無論采用何種數(shù)據(jù)倉庫結(jié)構(gòu)（多維數(shù)據(jù)倉庫或企業(yè)信息化工廠，CIF）,

這一指導(dǎo)原則都普遍適用。對(duì)多維數(shù)據(jù)倉庫來說，事實(shí)表包含細(xì)粒度數(shù)據(jù)至關(guān)重

要，因?yàn)槎嗑S數(shù)據(jù)倉庫是細(xì)節(jié)數(shù)據(jù)的集中存儲(chǔ)倉庫。對(duì)于CIF,這一指導(dǎo)原則可

以寬松一些，因?yàn)閿?shù)據(jù)倉庫中包含細(xì)粒度數(shù)據(jù)，因此數(shù)據(jù)集市的事實(shí)表可以聚集

數(shù)據(jù)，而不用擔(dān)心丟失信息。不過這些數(shù)據(jù)集市可能無法滿足新需求。

存儲(chǔ)到事實(shí)表中的維度列被稱為退化維度，簡稱退化維。雖然被存儲(chǔ)在事實(shí)

表中，但該列仍被視為維度。與其他表中的維度列一樣，其值仍然可以用于過濾

查詢、控制聚合層次、排序數(shù)據(jù)、定義主從關(guān)系等。應(yīng)該改謹(jǐn)慎使用退化維度，

因?yàn)槭聦?shí)表累計(jì)記錄的速度很快，包含退化維度可能會(huì)造成存儲(chǔ)空間的過度消耗,

特別是當(dāng)退化維度為文本元素時(shí)。多數(shù)情況下，適合選作退化維度的維度最好放

置到雜項(xiàng)維度中，事務(wù)標(biāo)識(shí)除外。

事務(wù)標(biāo)識(shí)通常作為退化維度存儲(chǔ)。它也可以作為事實(shí)表中行的唯一標(biāo)識(shí)，并

用于定義事實(shí)表的粒度。

3緩慢變化維

維度表中的數(shù)據(jù)來源于操作型系統(tǒng)。在多維數(shù)據(jù)倉庫（Kimball）或獨(dú)立型

數(shù)據(jù)集市中，數(shù)據(jù)直接來源于操作型系統(tǒng)。在企業(yè)信息化工廠（Inmon）中，來

自于操作型系統(tǒng)的數(shù)據(jù)首先移到企業(yè)數(shù)據(jù)倉庫中，然后進(jìn)入多維數(shù)據(jù)集市。進(jìn)入

到維度表中的信息，在操作型系統(tǒng)中可能發(fā)生變化。因此維度設(shè)計(jì)中需要確定維

度表如何處理數(shù)據(jù)源的發(fā)生變化的情況，這種維度表稱為緩慢變化的維度，簡稱

緩慢變維。

由于維度表引入了代理鍵作為其主鍵，因此不需要與源系統(tǒng)采用相同的處理

方式。操作型系統(tǒng)可以跟蹤數(shù)據(jù)變化的歷史情況，也可以簡單地采用重寫變化值

的方式。對(duì)于任何一種情況，星型模式都可以采用兩種響應(yīng)方式：變化類型1、

變化類型2O

變化類型1在響應(yīng)數(shù)據(jù)源變化時(shí)，重寫維度屬性。這樣維度表不能反映歷史

情況，已存在事實(shí)的歷史環(huán)境被改變了。

變化類型2在源數(shù)據(jù)值發(fā)生改變時(shí)，創(chuàng)建一個(gè)新版本的維度行。變化類型2

保存了變化的歷史事實(shí)。描述變化前的事件的事實(shí)與過去的值關(guān)聯(lián)，描述變化后

的事件的事實(shí)將與新值關(guān)聯(lián)。多數(shù)操作型系統(tǒng)的變化采用變化類型2處理。

3、基于大數(shù)據(jù)的數(shù)據(jù)倉庫

數(shù)據(jù)倉庫概念最早可追溯到20世紀(jì)70年代，希望提供一種架構(gòu)將業(yè)務(wù)處理系統(tǒng)

和分析處理分為不同的層次。

20世紀(jì)80年代,建立TA2(TechnicalArchitecture?)規(guī)范,該明確定義了分析

系統(tǒng)的四個(gè)組成部分：數(shù)據(jù)獲取、數(shù)據(jù)訪問、目錄、用戶服務(wù)

1988年，IBM第一次提出信息倉庫的概念：一個(gè)結(jié)構(gòu)化的環(huán)境，能支持最終用戶

管理其全部的業(yè)務(wù)，并支持信息技術(shù)部門保證數(shù)據(jù)質(zhì)量；抽象出基本組件：數(shù)據(jù)

抽取、轉(zhuǎn)換、有效性驗(yàn)證、加載、cube開發(fā)等，基本明確了數(shù)據(jù)倉庫的基本原

理、框架結(jié)構(gòu)，以及分析系統(tǒng)的主要原則

1991年，BillInmon出版《BuildingtheDataWarehouse》提出了更具體的

數(shù)據(jù)倉庫原則：

L數(shù)據(jù)倉庫是面向主題的

2.集成的

3.包含歷史的

4.不可更新的

5.面向決策支持的

6.面向全企業(yè)的

7.最明細(xì)的數(shù)據(jù)存儲(chǔ)

8.數(shù)據(jù)快照式的數(shù)據(jù)獲取

盡管有些理論目前仍有爭議，但憑借此書獲得“數(shù)據(jù)倉庫之父”的殊榮

BillInmon主張自上而下的建設(shè)企業(yè)數(shù)據(jù)倉庫，認(rèn)為數(shù)據(jù)倉庫是一個(gè)整體的商

業(yè)智能系統(tǒng)的一部分。

一家企業(yè)只有一個(gè)數(shù)據(jù)倉庫，數(shù)據(jù)集市的信息來源出自數(shù)據(jù)倉庫，在數(shù)據(jù)倉庫中,

信息存儲(chǔ)符合第三范式，大致架構(gòu)：

RalphKimball出版《TheDataWarehouseToolkit》，其主張自下而上的

建立數(shù)據(jù)倉庫，極力推崇建立數(shù)據(jù)集市，認(rèn)為數(shù)據(jù)倉庫是企業(yè)內(nèi)所有數(shù)據(jù)集市的

集合，信息總是被存儲(chǔ)在多維模型當(dāng)中，其思路：

兩種思路和觀點(diǎn)在實(shí)際的操作中都很難成功的完成項(xiàng)目交付，直至最終Bill

Inmon提出了新的BI架構(gòu)CIF(Corporationinformationfactory),把數(shù)據(jù)集市

包含了進(jìn)來。CIF的核心是將數(shù)倉架構(gòu)劃分為不同的層次以滿足不同場景的需求,

比如常見的ODS、DW、DM等，每層根據(jù)實(shí)際場景采用不同的建設(shè)方案，改思路也

是目前數(shù)據(jù)倉庫建設(shè)的架構(gòu)指南，但自上而下還是自下而上的進(jìn)行數(shù)據(jù)倉庫建設(shè),

并未統(tǒng)一。

基于大數(shù)據(jù)數(shù)倉構(gòu)建特點(diǎn)

隨著我們從IT時(shí)代步入DT時(shí)代，數(shù)據(jù)從積累量也與日俱增，同時(shí)伴隨著互聯(lián)網(wǎng)

的發(fā)展，越來越多的應(yīng)用場景產(chǎn)生，傳統(tǒng)的數(shù)據(jù)處理、存儲(chǔ)方式已經(jīng)不能滿足日

益增長的需求。而互聯(lián)網(wǎng)行業(yè)相比傳統(tǒng)行業(yè)對(duì)新生事物的接受度更高、應(yīng)用場景

更復(fù)雜，因此基于大數(shù)據(jù)構(gòu)建的數(shù)據(jù)倉庫最先在互聯(lián)網(wǎng)行業(yè)得到了嘗試。

盡管數(shù)據(jù)倉庫建模方法論是一致的，但由于所面臨的行業(yè)、場景的不同，在互聯(lián)

網(wǎng)領(lǐng)域，基于大數(shù)據(jù)的數(shù)據(jù)倉庫建設(shè)無法按照原有的項(xiàng)目流程、開發(fā)模式進(jìn)行，

更多的是需要結(jié)合新的技術(shù)體系、業(yè)務(wù)場景進(jìn)行靈活的調(diào)整，以快速響應(yīng)需求為

導(dǎo)向。

應(yīng)用場景廣泛

1）傳統(tǒng)的數(shù)倉建設(shè)周期長，需求穩(wěn)定，面向DSS、CRM、BI等系統(tǒng)，時(shí)效性要求

不高。

2）基于大數(shù)據(jù)的數(shù)據(jù)倉庫建設(shè)要求快速響應(yīng)需求，同時(shí)需求靈活、多變，對(duì)實(shí)

時(shí)性有不同程度的要求，除了面向DSS、BI等傳統(tǒng)應(yīng)用外，還要響應(yīng)用戶畫像、

個(gè)性化推薦、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析等各種復(fù)雜的應(yīng)用場景。

技術(shù)棧更全面、復(fù)雜

傳統(tǒng)數(shù)倉建設(shè)更多的基于成熟的商業(yè)數(shù)據(jù)集成平臺(tái)，比如Teradata、Oracle,

Informatica等，技術(shù)體系比較成熟完善，但相對(duì)比較封閉，對(duì)實(shí)施者技術(shù)面要

求也相對(duì)專業(yè)且單一，一般更多應(yīng)用于銀行、保險(xiǎn)、電信等“有錢”行業(yè)。

基于大數(shù)據(jù)的數(shù)倉建設(shè)一般是基于非商業(yè)、開源的技術(shù)，常見的是基于hadoop

生態(tài)構(gòu)建，涉及技術(shù)較廣泛、復(fù)雜，同時(shí)相對(duì)于商業(yè)產(chǎn)品，穩(wěn)定性、服務(wù)支撐較

弱，需要自己維護(hù)更多的技術(shù)框架。

技術(shù)棧轉(zhuǎn)變

HBAS

HDFS

數(shù)倉模型設(shè)計(jì)更靈活

1.傳統(tǒng)數(shù)倉有較為穩(wěn)定的業(yè)務(wù)場景和相對(duì)可靠的數(shù)據(jù)質(zhì)量，同時(shí)也有較為穩(wěn)定的

需求，對(duì)數(shù)倉的建設(shè)有較為完善的項(xiàng)目流程管控，數(shù)倉模型設(shè)計(jì)有嚴(yán)格的、穩(wěn)定

的建設(shè)標(biāo)準(zhǔn)。

2.在互聯(lián)網(wǎng)行業(yè)：

1）行業(yè)變化快、業(yè)務(wù)靈活，同時(shí)互聯(lián)網(wǎng)又是個(gè)靠速度存活的行業(yè)

2）源數(shù)據(jù)種類繁多：數(shù)據(jù)庫、Nginxlog、用戶瀏覽軌跡等結(jié)構(gòu)化、非結(jié)構(gòu)化、

半結(jié)構(gòu)化數(shù)據(jù)

3）數(shù)據(jù)質(zhì)量相對(duì)差，層次不齊

所以，在互聯(lián)網(wǎng)領(lǐng)域，數(shù)倉模型的設(shè)計(jì)更關(guān)注靈活、快速響應(yīng)和應(yīng)對(duì)多變的市場

環(huán)境，更加以快速解決業(yè)務(wù)、運(yùn)營問題為導(dǎo)向，快速數(shù)據(jù)接入、快速業(yè)務(wù)接入,

更不存在一勞永逸。

4、數(shù)據(jù)倉庫模型

數(shù)據(jù)倉庫中常見的模型有：范式建模，雪花模型，星型建模，事實(shí)星座模型.

星型模型

星型模型是數(shù)據(jù)集市維度建模中推薦的建模方法。星型模型是以事實(shí)表為中心,

所有的維度表直接連接在事實(shí)表上，像星星一樣。星型模型的特點(diǎn)是數(shù)據(jù)組織直

觀，執(zhí)行效率高。因?yàn)樵跀?shù)據(jù)集市的建設(shè)過程中，數(shù)據(jù)經(jīng)過了預(yù)處理，比如按照

維度進(jìn)行了匯總，排序等等，數(shù)據(jù)量減少，執(zhí)行的效率就比較高。

雪花模型

雪花模型也是維度建模中的一種選擇。雪花模型的維度表可以擁有其他維度表的,

雖然這種模型相比星型模型更規(guī)范一些，但是由于這種模型不太容易理解，維護(hù)

成本比較高，而且性能方面需要關(guān)聯(lián)多層維表，性能也比星型模型要低。所以一

第三范式建模是在數(shù)據(jù)庫建模中使用的建模方法，特點(diǎn)是體系化，擴(kuò)展性好，避

免冗余，避免更新異常。所以，在數(shù)據(jù)倉庫的EDW層建模中，我們也提倡使用第

三范式建模。但是數(shù)據(jù)倉庫的集成和反映歷史變化的特征意味著數(shù)據(jù)量非常之大,

表和表之間的關(guān)聯(lián)效率比較低，所以有些時(shí)候完全規(guī)范的范式建模并不是最好的

選擇，通常我們會(huì)選擇非規(guī)范化處理，增加一些冗余的字段來避免表之間關(guān)聯(lián)的

次數(shù)，這樣會(huì)節(jié)約大量的時(shí)間。

雪花模型是介于星型模型和范式建模之間的。個(gè)人理解，范式建模和雪花模型的

區(qū)別在于雪花模型在維度上也是有冗余的。例如雪花模型例圖的地域維度不符合

第三范式，因?yàn)榈赜蚓S度中存在傳遞依賴，城市-省級(jí)-國家-地域。

星座模型

星座模型是星型模型延伸而來，星型模型是基于一張事實(shí)表的，而星座模型是基

于多張事實(shí)表的，而且共享維度信息。通過構(gòu)建一致性維度，來建設(shè)星座模型，

也是很好的選擇。比如同一主題的細(xì)節(jié)表和匯總表共享維度，不同主題的事實(shí)表,

可以通過在維度上互相補(bǔ)充來生成可以共享的維度。

5、數(shù)據(jù)的抽取、轉(zhuǎn)換、裝載和自動(dòng)化ETL

ETL（Extract-Transform-Load的縮寫，即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程）作為

BI/DW（BusinessIntelligence）的核心和靈魂，能夠按照統(tǒng)一的規(guī)則集成并提

高數(shù)據(jù)的價(jià)值，是負(fù)責(zé)完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實(shí)施數(shù)

據(jù)倉庫的重要步驟。如果說數(shù)據(jù)倉庫的模型設(shè)計(jì)是一座大廈的設(shè)計(jì)藍(lán)圖,數(shù)據(jù)是

磚瓦的話，那么ETL就是建設(shè)大廈的過程。在整個(gè)項(xiàng)目中最難部分是用戶需求分

析和模型設(shè)計(jì)，而ETL規(guī)則設(shè)計(jì)和實(shí)施則是工作量最大的，約占整個(gè)項(xiàng)目的60%?

80%,這是國內(nèi)外從眾多實(shí)踐中得到的普遍共識(shí)。

ETL是數(shù)據(jù)抽?。‥xtract）、清洗（Cleaning）、轉(zhuǎn)換（Transform）、裝載（Load）

的過程。是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過教

據(jù)清洗，最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。

信息是現(xiàn)代企業(yè)的重要資源，是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。目前，大

多數(shù)企業(yè)花費(fèi)大量的資金和時(shí)間來構(gòu)建聯(lián)機(jī)事務(wù)處理OLTP的業(yè)務(wù)系統(tǒng)和辦公自

動(dòng)化系統(tǒng),用來記錄事務(wù)處理的各種相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì)，數(shù)據(jù)量每2?3年時(shí)間

就會(huì)成倍增長，這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值，而企業(yè)所關(guān)注的通常只占在總

數(shù)據(jù)量的2%?4%左右。因此，企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源，

以致于浪費(fèi)了更多的時(shí)間和資金，也失去制定關(guān)鍵商業(yè)決策的最佳契機(jī)。于是,

企業(yè)如何通過各種技術(shù)手段，并把數(shù)據(jù)轉(zhuǎn)換為信息、知識(shí)，已經(jīng)成了提高其核心

競爭力的主要瓶頸。而ETL則是主要的一個(gè)技術(shù)手段。如何正確選擇ETL工具？

如何正確應(yīng)用ETL?

ETL工具的典型代表有：Informatica、Datastage.OWB、微軟DTS……

開源的工具有eclips的etl插件。http：//www.cloveretl.org/clover/

數(shù)據(jù)集成：快速實(shí)現(xiàn)ETL

ETL的質(zhì)量問題具體表現(xiàn)為正確性、完整性、一致性、完備性、有效性、時(shí)

效性和可獲取性等幾個(gè)特性。而影響質(zhì)量問題的原因有很多，由系統(tǒng)集成和歷史

數(shù)據(jù)造成的原因主要包括:業(yè)務(wù)系統(tǒng)不同時(shí)期系統(tǒng)之間數(shù)據(jù)模型不一致；業(yè)務(wù)系

統(tǒng)不同時(shí)期業(yè)務(wù)過程有變化；舊系統(tǒng)模塊在運(yùn)營、人事、財(cái)務(wù)、辦公系統(tǒng)等相關(guān)

信息的不一致；遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。

實(shí)現(xiàn)ETL,首先要實(shí)現(xiàn)ETL轉(zhuǎn)換的過程。它可以集中地體現(xiàn)為以下幾個(gè)方面：

空值處理可捕獲字段空值，進(jìn)行加載或替換為其他含義數(shù)據(jù)，并可根據(jù)字

段空值實(shí)現(xiàn)分流加載到不同目標(biāo)庫。

規(guī)范化數(shù)據(jù)格式可實(shí)現(xiàn)字段格式約束定義，對(duì)于數(shù)據(jù)源中時(shí)間、數(shù)值、字

符等數(shù)據(jù)，可自定義加載格式。

拆分?jǐn)?shù)據(jù)依據(jù)業(yè)務(wù)需求對(duì)字段可進(jìn)行分解。例，主叫號(hào)861084613409,可

進(jìn)行區(qū)域碼和電話號(hào)碼分解。

驗(yàn)證數(shù)據(jù)正確性可利用Lookup及拆分功能進(jìn)行數(shù)據(jù)驗(yàn)證。例如，主叫號(hào)

861084613409,進(jìn)行區(qū)域碼和電話號(hào)碼分解后，可利用Lookup返回主叫網(wǎng)關(guān)或

交換機(jī)記載的主叫地區(qū)，進(jìn)行數(shù)據(jù)驗(yàn)證。

數(shù)據(jù)替換對(duì)于因業(yè)務(wù)因素，可實(shí)現(xiàn)無效數(shù)據(jù)、缺失數(shù)據(jù)的替換。

Lookup查獲丟失數(shù)據(jù)Lookup實(shí)現(xiàn)子查詢，并返回用其他手段獲取的缺失

字段，保證字段完整性。

建立ETL過程的主外鍵約束對(duì)無依賴性的非法數(shù)據(jù)，可替換或?qū)С龅藉e(cuò)誤

數(shù)據(jù)文件中，保證主鍵惟一記錄的加載。

為了能更好地實(shí)現(xiàn)ETL,筆者建議用戶在實(shí)施ETL過程中應(yīng)注意以下幾點(diǎn)：

第一，如果條件允許，可利用數(shù)據(jù)中轉(zhuǎn)區(qū)對(duì)運(yùn)營數(shù)據(jù)進(jìn)行預(yù)處理，保證集成

與加載的高效性；

第二，如果ETL的過程是主動(dòng)“拉取”，而不是從內(nèi)部“推送”，其可控性

將大為增強(qiáng)；

第三，ETL之前應(yīng)制定流程化的配置管理和標(biāo)準(zhǔn)協(xié)議；

第四，關(guān)鍵數(shù)據(jù)標(biāo)準(zhǔn)至關(guān)重要。目前，ETL面臨的最大挑戰(zhàn)是當(dāng)接收數(shù)據(jù)時(shí)

其各源數(shù)據(jù)的異構(gòu)性和低質(zhì)量。以電信為例，A系統(tǒng)按照統(tǒng)計(jì)代碼管理數(shù)據(jù)，B

系統(tǒng)按照賬目數(shù)字管理，C系統(tǒng)按照語音ID管理。當(dāng)ETL需要對(duì)這三個(gè)系統(tǒng)進(jìn)

行集成以獲得對(duì)客戶的全面視角時(shí)，這一過程需要復(fù)雜的匹配規(guī)則、名稱/地址

正常化與標(biāo)準(zhǔn)化。而ETL在處理過程中會(huì)定義一個(gè)關(guān)鍵數(shù)據(jù)標(biāo)準(zhǔn)，并在此基礎(chǔ)上,

制定相應(yīng)的數(shù)據(jù)接口標(biāo)準(zhǔn)。

ETL過程在很大程度上受企業(yè)對(duì)源數(shù)據(jù)的理解程度的影響，也就是說從業(yè)務(wù)

的角度看數(shù)據(jù)集成非常重要。一個(gè)優(yōu)秀的ETL設(shè)計(jì)應(yīng)該具有如下功能：

管理簡單；采用元數(shù)據(jù)方法，集中進(jìn)行管理；接口、數(shù)據(jù)格式、傳輸有嚴(yán)格

的規(guī)范；盡量不在外部數(shù)據(jù)源安裝軟件；數(shù)據(jù)抽取系統(tǒng)流程自動(dòng)化，并有自動(dòng)調(diào)

度功能；抽取的數(shù)據(jù)及時(shí)、準(zhǔn)確、完整；可以提供同各種數(shù)據(jù)系統(tǒng)的接口，系統(tǒng)

適應(yīng)性強(qiáng)；提供軟件框架系統(tǒng)，系統(tǒng)功能改變時(shí)，應(yīng)用程序很少改變便可適應(yīng)變

化；可擴(kuò)展性強(qiáng)。

數(shù)據(jù)模型：標(biāo)準(zhǔn)定義數(shù)據(jù)

合理的業(yè)務(wù)模型設(shè)計(jì)對(duì)ETL至關(guān)重要。數(shù)據(jù)倉庫是企業(yè)惟一、真實(shí)、可靠的

綜合數(shù)據(jù)平臺(tái)。數(shù)據(jù)倉庫的設(shè)計(jì)建模一般都依照三范式、星型模型、雪花模型，

無論哪種設(shè)計(jì)思想，都應(yīng)該最大化地涵蓋關(guān)鍵業(yè)務(wù)數(shù)據(jù)，把運(yùn)營環(huán)境中雜亂無序

的數(shù)據(jù)結(jié)構(gòu)統(tǒng)一成為合理的、關(guān)聯(lián)的、分析型的新結(jié)構(gòu)，而ETL則會(huì)依照模型的

定義去提取數(shù)據(jù)源，進(jìn)行轉(zhuǎn)換、清洗，并最終加載到目標(biāo)數(shù)據(jù)倉庫中。

模型的重要之處在于對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化定義，實(shí)現(xiàn)統(tǒng)一的編碼、統(tǒng)一的分類和

組織。標(biāo)準(zhǔn)化定義的內(nèi)容包括：標(biāo)準(zhǔn)代碼統(tǒng)一、業(yè)務(wù)術(shù)語統(tǒng)一。ETL依照模型進(jìn)

行初始加載、增量加載、緩慢增長維、慢速變化維、事實(shí)表加載等數(shù)據(jù)集成，并

根據(jù)業(yè)務(wù)需求制定相應(yīng)的加載策略、刷新策略、匯總策略、維護(hù)策略。

元數(shù)據(jù)：拓展新型應(yīng)用

對(duì)業(yè)務(wù)數(shù)據(jù)本身及其運(yùn)行環(huán)境的描述與定義的數(shù)據(jù)，稱之為元數(shù)據(jù)

(metadata)。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。從某種意義上說，業(yè)務(wù)數(shù)據(jù)主要用于

支持業(yè)務(wù)系統(tǒng)應(yīng)用的數(shù)據(jù)，而元數(shù)據(jù)則是企業(yè)信息門戶、客戶關(guān)系管理、數(shù)據(jù)倉

庫、決策支持和B2B等新型應(yīng)用所不可或缺的內(nèi)容。

元數(shù)據(jù)的典型表現(xiàn)為對(duì)象的描述，即對(duì)數(shù)據(jù)庫、表、歹入列屬性(類型、格

式、約束等)以及主鍵/外部鍵關(guān)聯(lián)等等的描述。特別是現(xiàn)行應(yīng)用的異構(gòu)性與分

布性越來越普遍的情況下，統(tǒng)一的元數(shù)據(jù)就愈發(fā)重要了?！靶畔⒐聧u”曾經(jīng)是很

多企業(yè)對(duì)其應(yīng)用現(xiàn)狀的一種抱怨和概括，而合理的元數(shù)據(jù)則會(huì)有效地描繪出信息

的關(guān)聯(lián)性。

而元數(shù)據(jù)對(duì)于ETL的集中表現(xiàn)為：定義數(shù)據(jù)源的位置及數(shù)據(jù)源的屬性、確定

從源數(shù)據(jù)到目標(biāo)數(shù)據(jù)的對(duì)應(yīng)規(guī)則、確定相關(guān)的業(yè)務(wù)邏輯、在數(shù)據(jù)實(shí)際加載前的其

他必要的準(zhǔn)備工作，等等，它一般貫穿整個(gè)數(shù)據(jù)倉庫項(xiàng)目，而ETL的所有過程必

須最大化地參照元數(shù)據(jù)，這樣才能快速實(shí)現(xiàn)ETL。

ETL是指從源系統(tǒng)中提取數(shù)據(jù)，轉(zhuǎn)換數(shù)據(jù)為一個(gè)標(biāo)準(zhǔn)的格式，并加載數(shù)據(jù)到目標(biāo)

數(shù)據(jù)存儲(chǔ)區(qū)，通常是數(shù)據(jù)倉庫。

ETL體系結(jié)構(gòu)圖

Designmanager提供一個(gè)圖形化的映射環(huán)境，讓開發(fā)者定義從源到目標(biāo)的

映射關(guān)系、轉(zhuǎn)換、處理流程。設(shè)計(jì)過程的各對(duì)象的邏輯定義存儲(chǔ)在一個(gè)元數(shù)據(jù)資

料庫中。

Metadatamanagement提供一個(gè)關(guān)于ETL設(shè)計(jì)和運(yùn)行處理等相關(guān)定義、管

理信息的元數(shù)據(jù)資料庫。ETL引擎在運(yùn)行時(shí)和其它應(yīng)用都可參考此資料庫中的元

數(shù)據(jù)。

Extract通過接口提取源數(shù)據(jù)，例如、專用數(shù)據(jù)庫接口和平面文件提

取器，并參照元數(shù)據(jù)來決定數(shù)據(jù)的提取及其提取方式。

Transform開發(fā)者將提取的數(shù)據(jù)，按照業(yè)務(wù)需要轉(zhuǎn)換為目標(biāo)數(shù)據(jù)結(jié)構(gòu)，并實(shí)

現(xiàn)匯總。

Load加載經(jīng)轉(zhuǎn)換和匯總的數(shù)據(jù)到目標(biāo)數(shù)據(jù)倉庫中，可實(shí)現(xiàn)SQL或批量加載。

Transportservices利用網(wǎng)絡(luò)協(xié)議或文件協(xié)議，在源和目標(biāo)系統(tǒng)之間移動(dòng)

數(shù)據(jù)，利用內(nèi)存在ETL處理的各組件中移動(dòng)數(shù)據(jù)。

Administrationandoperation可讓管理員基于事件和時(shí)間進(jìn)行調(diào)度、運(yùn)

行、監(jiān)測ETL作業(yè)、管理錯(cuò)誤信息、從失敗中恢復(fù)和調(diào)節(jié)從源系統(tǒng)的輸出。

6、數(shù)據(jù)分析

數(shù)據(jù)分析是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息，集中、萃取和提煉出

來，以找出所研究對(duì)象的內(nèi)在規(guī)律，并提供決策支持的一系列分析過程。數(shù)據(jù)統(tǒng)

計(jì)分析方法已經(jīng)應(yīng)用到各行各業(yè)，在互聯(lián)網(wǎng)電商的運(yùn)用也非常廣泛。

在做網(wǎng)絡(luò)推廣時(shí)，一定要用數(shù)據(jù)分析作為基礎(chǔ)。沒有數(shù)據(jù)做支撐的推廣是沒有意

義的。在這里介紹一些方法和工具。

1.比較分析法

是統(tǒng)計(jì)分析中最常用的方法。是通過有關(guān)的指標(biāo)對(duì)比來反映事物數(shù)量上差異和

變化的方法。指標(biāo)分析對(duì)比分析方法可分為靜態(tài)比較和動(dòng)態(tài)比較分析。靜態(tài)比

較是同一時(shí)間條件下不同總體指標(biāo)比較，如不同部門、不同地區(qū)、不同國家的

比較，也叫橫向比較；動(dòng)態(tài)比較是同一總體條件不同時(shí)期指標(biāo)數(shù)值的比較，也

叫縱向比較。這兩種方法既可單獨(dú)使用，也可結(jié)合使用。

2.分組分析法

統(tǒng)計(jì)分析不僅要對(duì)總體數(shù)量特征和數(shù)量關(guān)系進(jìn)行分析，還要深入總體的內(nèi)部進(jìn)

行分組分析。分組分析法就是根據(jù)統(tǒng)計(jì)分析的目的要求，把所研究的總體按照

一個(gè)或者幾個(gè)標(biāo)志劃分為若干個(gè)部分，加以整理，進(jìn)行觀察、分析，以揭示其

內(nèi)在的聯(lián)系和規(guī)律性。

統(tǒng)計(jì)分組法的關(guān)鍵問題在于正確選擇分組標(biāo)值和劃分各組界限。

3.回歸分析法

回歸分析法是依據(jù)事物發(fā)展變化的因果關(guān)系來預(yù)測事物未來的發(fā)展走勢，它是

研究變量間相互關(guān)系的一種定量預(yù)測方法，回歸分析中，當(dāng)研究的因果關(guān)系只

涉及因變量和一個(gè)自變量時(shí)，叫做一元回歸分析；當(dāng)研究的因果關(guān)系涉及因變

量和兩個(gè)或兩個(gè)以上自變量時(shí)，叫做多元回歸分析。此外，回歸分析中，又依

據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)表達(dá)式是線性的還是非線性的，分

為線性回歸分析和非線性回歸分析。

市場研究中的多變量物8分析技術(shù)

因素分析法的最大功用，就是運(yùn)用數(shù)學(xué)方法對(duì)可觀測的事物在發(fā)展中所表現(xiàn)出

的外部特征和聯(lián)系進(jìn)行由表及里、由此及彼、去粗取精、去偽存真的處理，從

而得出客觀事物普遍本質(zhì)的概括。其次，使用因素分析法可以使復(fù)雜的研究課

題大為簡化，并保持其基本的信息量。

機(jī)

目

標(biāo)

不

理

想

環(huán)法物

工具：

除了各種科學(xué)分析法，在過網(wǎng)絡(luò)推廣時(shí)，我們還會(huì)用到各種工具：

一、各種數(shù)據(jù)分析工具。其實(shí)大部分?jǐn)?shù)據(jù)分析可以用EXCEL解決，再高階一點(diǎn)

可以用SPSS、SAS等軟件?！墩l說菜鳥不會(huì)數(shù)據(jù)分析》一書就詳細(xì)分析了各種工

具和實(shí)用方法，公眾號(hào)＜shopl23電商》里有一些關(guān)于這本書的研究，有興趣可以

關(guān)注下。

二、關(guān)鍵詞提取。如何從一大推雜亂的信息中提取出關(guān)鍵信息？如何利用這

些關(guān)鍵信息去推廣自己的產(chǎn)品/網(wǎng)站？光年有一款簡單好用的關(guān)鍵詞提取工具，

可以通過分析文本內(nèi)容提取出關(guān)鍵信息，從而應(yīng)用到SEO做關(guān)鍵詞研究、優(yōu)化文

章標(biāo)題或文案、PPC關(guān)鍵詞選擇等各種應(yīng)用場景。

7、數(shù)據(jù)報(bào)表及數(shù)據(jù)可視化

數(shù)據(jù)可視化，可以增強(qiáng)數(shù)據(jù)的呈現(xiàn)效果，方便用戶以更加直觀的方式觀察數(shù)

據(jù)，進(jìn)而發(fā)現(xiàn)數(shù)據(jù)中隱藏的信息?？梢暬瘧?yīng)用領(lǐng)域十分廣泛，主要涉及網(wǎng)絡(luò)數(shù)據(jù)

可視化、交通數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、數(shù)據(jù)挖掘可視化、生物醫(yī)藥可視化、

社交可視化等領(lǐng)域。依照CARD可視化模型，將數(shù)據(jù)可視化過程分為：數(shù)據(jù)預(yù)處

理、繪制、顯示和交互這幾個(gè)階段。依照SHNEIDERMAN分類，可視化的數(shù)據(jù)分為：

一維數(shù)據(jù)、二維數(shù)據(jù)、三維數(shù)據(jù)、高維數(shù)據(jù)、時(shí)態(tài)數(shù)據(jù)、層次數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)。

其中高維數(shù)據(jù)、層次數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、時(shí)態(tài)數(shù)據(jù)是當(dāng)前可視化的研究熱點(diǎn)。

高維數(shù)據(jù)目前已經(jīng)成為了計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)，所謂高維數(shù)據(jù)是指每一個(gè)

樣本數(shù)據(jù)包含p(p24)維空間特征。人類對(duì)于數(shù)據(jù)的理解主要集中在低維度的空

間表示上，如果單從高維數(shù)據(jù)的抽象數(shù)據(jù)值上進(jìn)行分析很難得到有用的信息。相

對(duì)于對(duì)數(shù)據(jù)的高維模擬，低維空間的可視化技術(shù)顯得更簡單、直截。而且高維空

間包含的元素相對(duì)于低維空間來說更加更復(fù)雜，容易造成人們的分析混亂。將高

維數(shù)據(jù)信息映射到二三維空間上，方便高維數(shù)據(jù)進(jìn)行人與數(shù)據(jù)的交互，有助于對(duì)

數(shù)據(jù)進(jìn)行聚類以及分類。高維數(shù)據(jù)可視化的研究主要包含數(shù)據(jù)變化、數(shù)據(jù)呈現(xiàn)兩

個(gè)方面。

層次數(shù)據(jù)具有等級(jí)或?qū)蛹?jí)關(guān)系。層次數(shù)據(jù)的可視化方法主要包括節(jié)點(diǎn)鏈接圖

和樹圖2種方式。其中樹圖(treemap)由一系列的嵌套環(huán)、塊來展示層次數(shù)據(jù)。

為了能展示更多的節(jié)點(diǎn)內(nèi)容，一些基于“焦點(diǎn)+上下文”技術(shù)的交互方法被開發(fā)

出來。包括“魚眼”技術(shù)、幾何變形、語義縮放、遠(yuǎn)離焦點(diǎn)的節(jié)點(diǎn)聚類技術(shù)等。

網(wǎng)絡(luò)數(shù)據(jù)表現(xiàn)為更加自由、更加復(fù)雜的關(guān)系網(wǎng)絡(luò)。

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫

文檔簡介

溫馨提示

最新文檔

評(píng)論

2021年大數(shù)據(jù)技術(shù)-大數(shù)據(jù)數(shù)據(jù)倉庫

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔