版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫面試題
問題1:inexists的區(qū)別notin和notexists的區(qū)別?
答案:n是一個(gè)集合運(yùn)算符.ain{a,c,d,s,d…}這個(gè)運(yùn)算中,前面是一個(gè)元素,
后面是一個(gè)集合,集合中的元素類型是和前面的元素一樣的.而exists是一個(gè)存在
判斷,如果后面的查詢中有結(jié)果,則exists為真,否則為假。
notin和notexists如果查詢語句使用了notin那么內(nèi)外表都進(jìn)行全表掃描,
沒有用到索引;而notextsts的子查詢依然能用到表上的索引。所以無論那個(gè)表
大,用notexists都比notin要快。
總之:
盡量使用notexist,避免使用notin
notin會默認(rèn)調(diào)用子查詢
notexist會調(diào)用關(guān)聯(lián)子查詢
問題2:拉鏈表知道么?
答案:拉鏈表就是隨著時(shí)間變遷產(chǎn)生歷史數(shù)據(jù)。
拉鏈表的含義:就是記錄歷史。記錄一個(gè)事務(wù)從開始一直到當(dāng)前狀態(tài)的所有變化信
息。
問題3:數(shù)倉三層架構(gòu),具體每層作用?
答案:
1:數(shù)據(jù)訪問層:主要是對非原始數(shù)據(jù)(數(shù)據(jù)庫或者文本文件等存放數(shù)據(jù)的形式)
的操作層,而不是指原始數(shù)據(jù),也就是說,是對數(shù)據(jù)庫的操作,而不是數(shù)據(jù),具體
為業(yè)務(wù)邏輯層或表示層提供數(shù)據(jù)服務(wù)。
2:業(yè)務(wù)邏輯層:主要是針對具體的問題的操作,也可以理解成對數(shù)據(jù)層的操作,
對數(shù)據(jù)業(yè)務(wù)邏輯處理,如果說數(shù)據(jù)層是積木,那邏輯層就是對這些積木的搭建。
3:界面層:主要表示W(wǎng)EB方式,也可以表示成WINFORM方式,WEB方式也可以表現(xiàn)
成:aspx,如果邏輯層相當(dāng)強(qiáng)大和完善,無論表現(xiàn)層如何定義和更改,邏輯層都能
完善地提供服務(wù)。
問題4:為什么叫星型模型和雪花模型?
答案:
星型模型是:多維表的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表和一組維表組成,每個(gè)維作為主
鍵
雪花模型是:當(dāng)一個(gè)或多個(gè)維沒有直接連接到事實(shí)表上,而是通過其他維表連接到
事實(shí)表上的時(shí)候,其圖解就像雪花模型連接在一起、
使用場景:雪花模型使得維度分析更加容易,比如“針對特定的廣告主,有哪些客
戶或者公司是在線的?”星形模型用來做指標(biāo)分析更適合,比如“給定的一個(gè)客戶
他們的收入是多少?”
問題5:星型模型和雪花模型各自的優(yōu)點(diǎn)?
答案:
概念一一根據(jù)事實(shí)表和維度表的關(guān)系,可將常見的模型分為星型模型和雪花模型。
在數(shù)據(jù)倉庫的建設(shè)中,一般都會圍繞著這兩種模型來設(shè)計(jì)表關(guān)系或者結(jié)構(gòu)。那么什
么是事實(shí)表和維度表呢?在維度建模中,將度量稱為“事實(shí)”,將環(huán)境描述為“維
度”。維度是用于分析事實(shí)所需要的多樣環(huán)境。例如,在分析交易過程時(shí),可以通
過買家、賣家、商品和時(shí)間等維度描述交易發(fā)生的環(huán)境。事實(shí)則緊緊圍繞著業(yè)務(wù)過
程來設(shè)計(jì),通過獲取描述業(yè)務(wù)過程的度量來表達(dá)業(yè)務(wù)過程,包含了引用的維度和與
業(yè)務(wù)過程有關(guān)的度量。例如訂單作為交易行為的核心載體,直觀反映了交易的狀況。
訂單的流轉(zhuǎn)會產(chǎn)生很多業(yè)務(wù)過程,而下單、支付和成功完結(jié)三個(gè)業(yè)務(wù)過程是整個(gè)訂
單的關(guān)鍵節(jié)點(diǎn)。獲取這三個(gè)業(yè)務(wù)過程的筆數(shù)、金額以及轉(zhuǎn)化率是日常數(shù)據(jù)統(tǒng)計(jì)分析
的重點(diǎn),事務(wù)事實(shí)表設(shè)計(jì)可以很好地滿足這個(gè)需求。
當(dāng)所有維表都直接連接到事實(shí)表上時(shí),整個(gè)圖解就像星星一樣,故將該模型稱為星
型模型。
星型架構(gòu)是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個(gè)維度都直接與事實(shí)表相連
接,不存在漸變維度,所以數(shù)據(jù)有一點(diǎn)的冗余。如在地域維度表中,存在國家A省
B的城市C以及國家A省B的城市D兩條記錄,那么國家A和省B的信息
分別存儲了兩次,即存在冗余。
二
品
名
豆
挎
品B
品W
星型模型強(qiáng)調(diào)的是對維度進(jìn)行預(yù)處理,將多個(gè)維度集合到一個(gè)事實(shí)表,形成一個(gè)寬
表。這也是我們在使用hive時(shí),經(jīng)常會看到一些大寬表的原因,大寬表一般都是
事實(shí)表,包含了維度關(guān)聯(lián)的主鍵和一些度量信息,而維度表則是事實(shí)表里面維度的
具體信息,使用時(shí)候一般通過join來組合數(shù)據(jù),相對來說對OLAP的分析比較方便。
當(dāng)有一個(gè)或多個(gè)維表沒有直接連接到事實(shí)表上,而是通過其他維度表連接到事實(shí)表
上時(shí),其圖解就像多個(gè)雪花連接在一起,故稱雪花模型。
雪花模型是對星型模型的擴(kuò)展,它對星型模型的維表進(jìn)一步層次化,原有的各維表
可能被擴(kuò)展為小的事實(shí)表,形成一些局部的〃層次”區(qū)域,這些被分解的表都連
接到主維度表而不是事實(shí)表。如將地域維表分解為國家,省份,城市等維表。它的
優(yōu)點(diǎn)是:通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能,去
除了數(shù)據(jù)冗余,但是在分析數(shù)據(jù)的時(shí)候,操作比較復(fù)雜,需要.join的表比較多所
以其性能并不一定比星型模型高。
■*9
”0
區(qū)別及優(yōu)缺點(diǎn)
星型模型因?yàn)閿?shù)據(jù)的冗余所以很多統(tǒng)計(jì)查詢不需要做外部的連接,因此一般情況下
效率比雪花模型要高。
星型模型不用考慮很多正規(guī)化的因素,設(shè)計(jì)與實(shí)現(xiàn)都比較簡單。
雪花模型由于去除了冗余,有些統(tǒng)計(jì)就需要通過表的連接才能產(chǎn)生,所以效率不一
定有星型模型高。
正規(guī)化也是一種比較復(fù)雜的過程,相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)的ETL、以及后期
的維護(hù)都要復(fù)雜一些。因此在冗余可以接受的前提下,實(shí)際運(yùn)用中星型模型使用更
多,也更有效率。
屬性星型模型孰耀
數(shù)據(jù)總量多少
可讀性容易差
表個(gè)數(shù)少多
查詢速度快慢
冗余度高低
對實(shí)時(shí)表的情況增加寬度字段比較少,冗余底
生
擴(kuò)展性左好
什么時(shí)候使用雪花模型?
RalphKimball,數(shù)據(jù)倉庫大師,講述了三個(gè)例子。對于三個(gè)例子,使用雪花模型
不僅僅是可接受的,而且可能是一個(gè)成功設(shè)計(jì)的關(guān)鍵。
1、一個(gè)用戶維度表且數(shù)據(jù)量較大。其中,80%的事實(shí)度量表是匿名訪問者,僅包含
少數(shù)詳細(xì)信息。20%的是可靠的注冊用戶,且這些注冊用戶有較為詳細(xì)的信息,與
多個(gè)維度表中的數(shù)據(jù)相連。
2、例如一個(gè)金融產(chǎn)品維度表,且這些金融產(chǎn)品有銀行類的,保險(xiǎn)類等等區(qū)別。因
此不同種類的產(chǎn)品有自己一系列的特殊屬性,且這些屬性并非是所有產(chǎn)品共享的。
3、多個(gè)企業(yè)共用的日歷維度表。但每個(gè)企業(yè)的財(cái)政周期不同,節(jié)假日不同等等。
在數(shù)據(jù)倉庫的環(huán)境中用雪花模型,降低儲存的空間,到了具體某個(gè)主題的數(shù)據(jù)集市
再用星型模型。
雪花模型使得維度分析更加容易,比如“針對特定的廣告主,有哪些客戶或者公司
是在線的?",星形模型用來做指標(biāo)分析更適合,比如“給定的一個(gè)客戶他們的收
入是多少?”
總結(jié)
通過上面的對比我們可以發(fā)現(xiàn),在數(shù)據(jù)倉庫建設(shè)中大多時(shí)候比較適合使用星型模型
構(gòu)建底層數(shù)據(jù)Hive表,通過大量的冗余來提升查詢效率,星型模型對OLAP的分析
引擎支持比較友好,這一點(diǎn)在Kylin中比較能體現(xiàn)。而雪花模型在關(guān)系型數(shù)據(jù)庫中
如MySQL,Oracle中非常常見,尤其像電商的數(shù)據(jù)庫表。在數(shù)據(jù)倉庫中雪花模型的
應(yīng)用場景比較少,但也不是沒有,所以在具體設(shè)計(jì)的時(shí)候,可以考慮是不是能結(jié)合
兩者的優(yōu)點(diǎn)參與設(shè)計(jì),以此達(dá)到設(shè)計(jì)的最優(yōu)化目的。
問題6:什么是緩慢變化維
答案:緩慢變化維
1.緩慢變化維在數(shù)據(jù)倉庫中,有個(gè)概念叫緩慢變化維,經(jīng)常簡寫為SCD,
2.緩慢變化維的提出是因?yàn)楝F(xiàn)實(shí)世界中,維度的屬性并不是靜態(tài)的,它會隨時(shí)間的
流失發(fā)生緩慢的變化。這種隨著時(shí)間變化的我們稱之為緩慢變化維。
問題7:如果現(xiàn)在有一千張表從一個(gè)庫到另外一個(gè)庫的ODS層,你會怎么做?
答案:利用消息隊(duì)列做數(shù)據(jù)訂閱發(fā)布
問題8:'2019-04-12'取周幾
答案:weekofyear
問題9:說說數(shù)倉分層?
答案:
、數(shù)據(jù)倉片分U
ODSVJ:除除數(shù)據(jù)層?。故,―期,I'l接加我竦始H3、數(shù)據(jù),數(shù)據(jù)保持原權(quán)不做處庠.
DWD晶結(jié)構(gòu)和粒度與原始表保持ft.HQDSJ',;,,';”修,.??;,",.
10過極限危國的數(shù)據(jù))
以DWD為及礎(chǔ)?/?'『:I
ADSjg.力A種統(tǒng)計(jì)報(bào)要/供數(shù)州
問題10:為什么要對數(shù)倉進(jìn)行分層?
答案
八數(shù)據(jù)倉片為什么要分公
I)把復(fù)雜向遨筒中化
將個(gè)乂雜的;分分二成多個(gè)步舞來完成,悔星只處理單一的步舞?比較脩單、井J1方便定位向1
,2)M少幣復(fù)開發(fā)
規(guī)范數(shù)據(jù)分層,通過的中佃—能銘通少極大的用復(fù)計(jì)Y-次計(jì)?結(jié)果的V"H:
,3)隔向原始數(shù)據(jù)
不論是數(shù)據(jù)的界常還是數(shù)據(jù)的收感性,使其實(shí)數(shù)據(jù)9統(tǒng)計(jì)數(shù)據(jù),桐開.
問題11:說說你對數(shù)據(jù)倉庫的理解?
答案:數(shù)據(jù)倉庫是面向主題進(jìn)行組織的,數(shù)據(jù)是集成的、不可更新的、隨時(shí)間變化
的的。數(shù)據(jù)倉庫經(jīng)歷了這樣三個(gè)階段:簡單報(bào)表階段、數(shù)據(jù)集市階段、數(shù)據(jù)倉庫階
段。
問題12:數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別?
數(shù)據(jù)庫:是一種邏輯概念,用來存放數(shù)據(jù)的倉庫,通過數(shù)據(jù)庫軟件來實(shí)現(xiàn)。數(shù)據(jù)庫
由很多表組成,表是二維的,一張表里可以有很多字段。
數(shù)據(jù)倉庫:是數(shù)據(jù)庫概念的升級。從邏輯上理解,數(shù)據(jù)庫和數(shù)據(jù)倉庫沒有區(qū)別,都
是通過數(shù)據(jù)庫軟件實(shí)現(xiàn)存放數(shù)據(jù)的地方,但是從數(shù)據(jù)量來講數(shù)據(jù)倉庫比數(shù)據(jù)庫更龐
大些。數(shù)據(jù)倉庫的主要作用用于數(shù)據(jù)挖掘、數(shù)據(jù)分析,輔助領(lǐng)導(dǎo)來做決策的。
區(qū)別:實(shí)際上二者之間講的是OLTP和nAP
操作型處理OLTP:它是針對具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常對少數(shù)記錄
進(jìn)行查詢、修改。分析型處理OLAP:一般針對某些主題的歷史數(shù)據(jù)進(jìn)行分析,支
持管理決策。
問題13:如何構(gòu)建數(shù)據(jù)倉庫?
答案:數(shù)據(jù)倉庫模型的選擇是靈活的,不局限與某種模型方法;數(shù)據(jù)倉庫數(shù)據(jù)是靈
活的,以實(shí)際需求場景為導(dǎo)向;數(shù)倉設(shè)計(jì)要兼顧靈活性、可擴(kuò)展性、要考慮技術(shù)可
靠性和實(shí)現(xiàn)成本
1)調(diào)研:業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研
2)劃分主題域:通過業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研最終確定主題域
3)構(gòu)建總線矩陣、維度建模
總線矩陣:把總線架構(gòu)列表形成矩陣形式,行表示業(yè)務(wù)處理過程,即事實(shí),列表示
一致性的維度,在交叉點(diǎn)上打上標(biāo)記表示該業(yè)務(wù)處理過程與該維度相關(guān)(交叉探查)
4)設(shè)計(jì)數(shù)倉分層架構(gòu)
5)模型落地
6)數(shù)據(jù)治理
問題14:什么是數(shù)據(jù)中臺?
答案:數(shù)據(jù)中臺是通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲、加工,同時(shí)
統(tǒng)一標(biāo)準(zhǔn)和口徑。數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后,會形成標(biāo)準(zhǔn)數(shù)據(jù),再進(jìn)行存儲,形成
大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶提供高效服務(wù)。這些服務(wù)和企業(yè)的業(yè)務(wù)有較強(qiáng)關(guān)聯(lián)性,
是企業(yè)所獨(dú)有且能復(fù)用的,他是企業(yè)業(yè)務(wù)和數(shù)據(jù)的積淀,其不僅能降低重復(fù)建設(shè),
減少煙囪式協(xié)助的成本,也是差異化競爭的優(yōu)勢所在。
數(shù)據(jù)中臺是通過整合公司開發(fā)工具、打通全域數(shù)據(jù)、讓數(shù)據(jù)持續(xù)為業(yè)務(wù)賦能,實(shí)現(xiàn)
數(shù)據(jù)平臺化、數(shù)據(jù)服務(wù)化和數(shù)據(jù)價(jià)值化。數(shù)據(jù)中臺更加側(cè)重于“復(fù)用”和“業(yè)務(wù)”。
問題15:數(shù)據(jù)中臺、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)湖的關(guān)鍵區(qū)別是什么?
答案:
1)基礎(chǔ)能力上的區(qū)別
數(shù)據(jù)平臺:提供的是計(jì)算和存儲能力
數(shù)據(jù)倉庫:利用數(shù)據(jù)平臺提供的計(jì)算和存儲能力,在一套方法論的指導(dǎo)下建設(shè)的一
整套的數(shù)據(jù)表
數(shù)據(jù)中臺:包含了數(shù)據(jù)平臺和數(shù)據(jù)倉庫的所有內(nèi)容,將其打包,并且以更加整合以
及更加產(chǎn)品化的方式對外提供服務(wù)和價(jià)值
數(shù)據(jù)湖:一個(gè)存儲企業(yè)各種各樣原始數(shù)據(jù)的大型倉庫,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),
其中湖里的數(shù)據(jù)可供存取、處理、分析和傳輸
2)業(yè)務(wù)能力上的區(qū)別
數(shù)據(jù)平臺:為業(yè)務(wù)提供數(shù)據(jù)主要方式是提供數(shù)據(jù)集
數(shù)據(jù)倉庫:相對具體的功能概念是存儲和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,為業(yè)務(wù)
提供服務(wù)的方式主要是分析報(bào)表
數(shù)據(jù)中臺:企業(yè)級的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)產(chǎn)生價(jià)值的能力,為業(yè)務(wù)提供服務(wù)的
主要方式是數(shù)據(jù)API
數(shù)據(jù)湖:數(shù)據(jù)倉庫的數(shù)據(jù)來源
總的來說,數(shù)據(jù)中臺距離業(yè)務(wù)更近,數(shù)據(jù)復(fù)用能力更強(qiáng),能為業(yè)務(wù)提供速度更快的
服務(wù),數(shù)據(jù)中臺在數(shù)據(jù)倉庫和數(shù)據(jù)平臺的基礎(chǔ)上,將數(shù)據(jù)生產(chǎn)為一個(gè)個(gè)數(shù)據(jù)API服
務(wù),以更高效的方式提供給業(yè)務(wù)。數(shù)據(jù)中臺可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺之上,
是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過程的中間層。
問題16:大數(shù)據(jù)有哪些相關(guān)的系統(tǒng)?
答案:
數(shù)倉設(shè)計(jì)中心:按照主題域、業(yè)務(wù)過程,分層的設(shè)計(jì)方式,以維度建模作為基本理
論依據(jù),按照維度、度量設(shè)計(jì)模型,確保模型、字段有統(tǒng)一的命名規(guī)范
數(shù)據(jù)資產(chǎn)中心:梳理數(shù)據(jù)資產(chǎn),基于數(shù)據(jù)血緣,數(shù)據(jù)的訪問熱度,做成本的治理
數(shù)據(jù)質(zhì)量中心:通過豐富的稽查監(jiān)控系統(tǒng),對數(shù)據(jù)進(jìn)行事后校驗(yàn),確保問題數(shù)據(jù)第
一時(shí)間被發(fā)現(xiàn),避免下游的無效計(jì)算,分析數(shù)據(jù)的影響范圍。
指標(biāo)系統(tǒng):管理指標(biāo)的業(yè)務(wù)口徑、計(jì)算邏輯和數(shù)據(jù)來源,通過流程化的方式,建立
從指標(biāo)需求、指標(biāo)開發(fā)、指標(biāo)發(fā)布的全套協(xié)作流程
數(shù)據(jù)地圖:提供元數(shù)據(jù)的快速索引,數(shù)據(jù)字典、數(shù)據(jù)血緣、數(shù)據(jù)特征信息的查詢,
相當(dāng)于元數(shù)據(jù)中心的門戶。
問題17:如何建設(shè)數(shù)據(jù)中臺?
答案:數(shù)據(jù)中臺在企業(yè)落地實(shí)踐時(shí),結(jié)合技術(shù)、產(chǎn)品、數(shù)據(jù)、服務(wù)、運(yùn)營等方面,
逐步開展相關(guān)工作
1)理現(xiàn)狀:了解業(yè)務(wù)現(xiàn)狀、數(shù)據(jù)現(xiàn)狀、IT現(xiàn)狀、現(xiàn)有的組織架構(gòu)
2)定架構(gòu):確認(rèn)業(yè)務(wù)架構(gòu)、技術(shù)架構(gòu)、應(yīng)用架構(gòu)、組織架構(gòu)
3)建資產(chǎn):建立貼近數(shù)據(jù)層、統(tǒng)一數(shù)倉層、標(biāo)簽數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層
4)用數(shù)據(jù):對數(shù)據(jù)進(jìn)行輸出、應(yīng)用
5)數(shù)據(jù)運(yùn)營:持續(xù)運(yùn)營、持續(xù)迭代
中臺建設(shè)需要有全員共識,由管理層從上往下推進(jìn),由技術(shù)和業(yè)務(wù)人員去執(zhí)行和落
地是一個(gè)漫長的過程,在實(shí)施數(shù)據(jù)中臺時(shí),最困難的地方就是需要有人推動(dòng)。
問題18:數(shù)據(jù)倉庫最重要的是什么?
答案:個(gè)人認(rèn)為是數(shù)據(jù)集成和數(shù)據(jù)質(zhì)量。企業(yè)的數(shù)據(jù)通常存儲在多個(gè)異構(gòu)數(shù)據(jù)庫中,
要進(jìn)行分析,必須對數(shù)據(jù)進(jìn)行一致性整合,整合后才能對數(shù)據(jù)進(jìn)行分析挖掘出潛在
的價(jià)值;數(shù)據(jù)質(zhì)量必須有保障,數(shù)據(jù)質(zhì)量不過關(guān),別人怎么會使用你的數(shù)據(jù)?
問題19:概念模型、邏輯模型、物理模型分別介紹一下?
答案:
I)概念模型CM:概念模型是最終用戶對數(shù)據(jù)存儲的看法,反映了最終用戶綜合性
的信息需求,以數(shù)據(jù)類的方式描述企業(yè)級的數(shù)據(jù)需求
概念模型的內(nèi)容包括重要的實(shí)體與實(shí)體之間的關(guān)系,在概念模型中不包含實(shí)體的屬
性,也不包含定義實(shí)體的主鍵
概念模型的目的是統(tǒng)一業(yè)務(wù)概念,作為業(yè)務(wù)人員和技術(shù)人員之間的溝通橋梁,確定
不同實(shí)體之間的最高層次的關(guān)系
2)邏輯模型LDM:邏輯模型反映的是系統(tǒng)分析人員對數(shù)據(jù)存儲的觀點(diǎn),是對概念模
型的進(jìn)一步分解和細(xì)化,邏輯模型是根據(jù)業(yè)務(wù)規(guī)則確定的,關(guān)于業(yè)務(wù)對象,業(yè)務(wù)對
象的數(shù)據(jù)項(xiàng)以及業(yè)務(wù)對象之間關(guān)系的基本藍(lán)圖
邏輯模型的內(nèi)容包括所有的實(shí)體和關(guān)系,確定每個(gè)實(shí)體的屬性,定義每個(gè)實(shí)體的主
鍵,指定實(shí)體的外鍵,需要進(jìn)行范式化處理
邏輯模型的目標(biāo)是盡可能詳細(xì)的描述數(shù)據(jù),并不考慮物理上如何實(shí)現(xiàn)
3)物理模型PDM:物理模型是在邏輯模型的基礎(chǔ)上,考慮各種具體的技術(shù)實(shí)現(xiàn)因素,
進(jìn)行數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì),真正實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)倉庫中的存放
物理模型的內(nèi)容包括確定所有的表和列,定義外鍵用確認(rèn)表之間的關(guān)系,基于用戶
的需求可能要進(jìn)行反范式化等內(nèi)容
問題20:SCD常用的處理方式有哪些?
答案:slowlychangingdimensions緩慢變化維度
常見的緩慢變化維處理方式有三種:
1)直接覆蓋:不記錄歷史數(shù)據(jù),薪數(shù)據(jù)覆蓋舊數(shù)據(jù)
2)新加一行數(shù)據(jù)(縱向擴(kuò)展):使用代理主鍵+生效失效時(shí)間或者是代理主鍵+生
效失效標(biāo)識(保存多條記錄,直接新添一條記錄,同時(shí)保留原有記錄,并用單獨(dú)的
專用字段保存)
3)新加兩個(gè)字段(橫向擴(kuò)展):一個(gè)是previous,一個(gè)是current,每次更新只
更新這兩個(gè)值,但是這樣職能保留最近兩次的變化(添加歷史列,用不同的字段保
存變化痕跡,因?yàn)橹槐4鎯纱巫兓涗?,使用與變化不超過兩次的維度)
問題21:怎么理解元數(shù)據(jù)?
答案:狹義來講就是:元數(shù)據(jù)就用來描述數(shù)據(jù)的數(shù)據(jù)
廣義來講,除了業(yè)務(wù)邏輯直接讀寫處理的業(yè)務(wù)數(shù)據(jù),所有其他用來維護(hù)整個(gè)系統(tǒng)運(yùn)
轉(zhuǎn)所需要的數(shù)據(jù),都可以認(rèn)為是元數(shù)據(jù)
在數(shù)倉中,元數(shù)據(jù)可以幫助數(shù)倉人員方便找到他們所關(guān)系的數(shù)據(jù),是描述數(shù)倉內(nèi)部
數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。按照用途可分為:技術(shù)元數(shù)據(jù)、業(yè)務(wù)員數(shù)據(jù)
技術(shù)元數(shù)據(jù):存儲關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),用于開發(fā)和管理數(shù)倉使用的數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),提供介于使用者和實(shí)際系統(tǒng)之
間的語義層,使不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能讀懂?dāng)?shù)倉中的數(shù)據(jù)元數(shù)據(jù)管理功
能
數(shù)據(jù)地圖:以拓?fù)鋱D的形式對數(shù)據(jù)系統(tǒng)的各類數(shù)據(jù)實(shí)體、數(shù)據(jù)處理過程元數(shù)據(jù)進(jìn)行
分層次的圖形化展示,并通過不同層次的圖形展現(xiàn)。元數(shù)據(jù)分析:血緣分析、影響
分析、實(shí)體關(guān)聯(lián)分析、實(shí)體差異分析、指標(biāo)一致性分析。輔助應(yīng)用優(yōu)化:結(jié)合元數(shù)
據(jù)分析功能,可以對數(shù)據(jù)系統(tǒng)的應(yīng)用進(jìn)行優(yōu)化。輔助安全管理:采用合理的安全管
理機(jī)制來保障系統(tǒng)的數(shù)據(jù)安全;對數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問和功能使用進(jìn)行有效監(jiān)控。
基于元數(shù)據(jù)的開發(fā)管理:通過元數(shù)據(jù)管理系統(tǒng)規(guī)范日常開發(fā)的工作流程(包括任務(wù)
調(diào)度系統(tǒng))。
問題22:數(shù)倉如何確定主題域?
答案:主題是在較高層次上將數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個(gè)抽象概念,每
一個(gè)主題基本對應(yīng)一個(gè)宏觀的分析領(lǐng)域,在邏輯意義上,他是對企業(yè)中某一宏觀分
析領(lǐng)域所涉及的分析對象。
面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個(gè)完整并且一
致的描述,能刻畫各個(gè)分析對象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。
主題域通常是聯(lián)系較為機(jī)密的數(shù)據(jù)主題的集合,可以根據(jù)業(yè)務(wù)的關(guān)注度,將這些數(shù)
據(jù)主題劃分到不同的主題域(也就是說對某個(gè)主題進(jìn)行分析后確定的主題的邊界)。
關(guān)于主題域的劃分,可以考慮幾方面:
1、按照業(yè)務(wù)或者業(yè)務(wù)過程劃分:比如一個(gè)靠銷售廣告位置的門戶網(wǎng)站主題域可能
會有廣告域,客戶域等,而廣告域可能就會有廣告的庫存,銷售分析、內(nèi)部投放分
析等主題;
2、根據(jù)需求方劃分:比如需求方為財(cái)務(wù)部,就可以設(shè)定對應(yīng)的財(cái)務(wù)主題域,而財(cái)
務(wù)主題域里面可能就會有員工工資分析,投資回報(bào)比分析等主題;
3、按照功能或者應(yīng)用劃分::比如微信中的朋友圈數(shù)據(jù)域、群聊數(shù)據(jù)域等,而朋
友圈數(shù)據(jù)域可能就會有用戶動(dòng)態(tài)信息主題、廣告主題等;
4、按照部門劃分:比如可能會有運(yùn)營域、技術(shù)域等,運(yùn)營域中可能會有工資支出
分析、活動(dòng)宣傳效果分析等主題;
總而言之,切入的出發(fā)點(diǎn)邏輯不一樣,就可以存在不同的劃分邏輯。在建設(shè)過程中
可采用迭代方式,不糾結(jié)于一次完成所有主題的抽象,可先從明確定義的主題開始,
后續(xù)逐步歸納總結(jié)成自身行業(yè)的標(biāo)準(zhǔn)模型。
問題23:如何控制數(shù)據(jù)質(zhì)量?
答案:
1)校驗(yàn)機(jī)制,每天對比數(shù)據(jù)量,比如count(*),早發(fā)現(xiàn),早修復(fù)
2)數(shù)據(jù)內(nèi)容的比對,抽樣對比
3)復(fù)盤、每月做一次全量
問題24:模型設(shè)計(jì)的思路?業(yè)務(wù)驅(qū)動(dòng)?數(shù)據(jù)驅(qū)動(dòng)?
答案:構(gòu)建數(shù)據(jù)倉庫有兩種方式:自上而下、自下而上
BillInmon推崇自上而下的方式,一個(gè)企業(yè)建立唯一的數(shù)據(jù)中心,數(shù)據(jù)是經(jīng)過整合、
清洗、去掉臟數(shù)據(jù)、標(biāo)準(zhǔn)的、能夠提供統(tǒng)一的視圖。要從整個(gè)企業(yè)的環(huán)境入手,建
立數(shù)據(jù)倉庫,要做很全面的設(shè)計(jì)。偏數(shù)據(jù)驅(qū)動(dòng)
RalphKimball推崇自下而上的方式,認(rèn)為數(shù)據(jù)倉庫應(yīng)該按照實(shí)際的應(yīng)用需求,架
子啊需要的數(shù)據(jù),不需要的數(shù)據(jù)不要加載到數(shù)據(jù)倉庫中。這種方式建設(shè)周期短,用
戶能很快看到結(jié)果。偏業(yè)務(wù)驅(qū)動(dòng)
■
問題25:為什么需要數(shù)據(jù)倉庫建模?
答案:數(shù)倉建模需要按照一定的數(shù)據(jù)模型,對整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行采集,整理,提
供跨部門、完全一致的報(bào)表數(shù)據(jù)。
合適的數(shù)據(jù)模型,對于大數(shù)據(jù)處理來講,可以獲得得更好的性能、成本、效率和質(zhì)
量。良好的模型可以幫助我們快速查詢數(shù)據(jù),減少不必要的數(shù)據(jù)冗余,提高用戶的
使用效率。
數(shù)據(jù)建模進(jìn)行全方面的業(yè)務(wù)梳理,改進(jìn)業(yè)務(wù)流程,消滅信息孤島,更好的推進(jìn)數(shù)倉
系統(tǒng)的建設(shè)。
1.簡單報(bào)表階段:這個(gè)階段,系統(tǒng)的主要目標(biāo)是解決一些日常的工作中業(yè)務(wù)人
員需要的報(bào)表,以及生成一些簡單的能夠幫助領(lǐng)導(dǎo)進(jìn)行決策所需要的匯總數(shù)據(jù)。
大部分表現(xiàn)形式為數(shù)據(jù)庫和前端報(bào)表工具。
2.數(shù)據(jù)集市階段:這個(gè)階段,主要是根據(jù)某個(gè)業(yè)務(wù)部門的需要,進(jìn)行一定的數(shù)
據(jù)的采集,整理,按照業(yè)務(wù)人員的需要,進(jìn)行多維報(bào)表的展現(xiàn),能夠提供對特定
業(yè)務(wù)指導(dǎo)的數(shù)據(jù),并且能夠提供特定的領(lǐng)導(dǎo)決策數(shù)據(jù)。
3.數(shù)據(jù)倉庫階段:這個(gè)階段,主要是按照一定的數(shù)據(jù)模型,對整個(gè)企業(yè)的數(shù)據(jù)
進(jìn)行采集,整理,并且能夠按照各個(gè)業(yè)務(wù)部門的需要,提供跨部門的,完全一致
的業(yè)務(wù)報(bào)表數(shù)據(jù),能夠通過數(shù)據(jù)倉庫生成對對業(yè)務(wù)具有指導(dǎo)性的數(shù)據(jù),同時(shí),為領(lǐng)
導(dǎo)決策提供全面的數(shù)據(jù)支持。
通過數(shù)據(jù)倉庫建設(shè)的發(fā)展階段,其實(shí)可以看出,數(shù)據(jù)倉庫的建設(shè)和數(shù)據(jù)集市的建設(shè)
的重要區(qū)別就在于數(shù)據(jù)模型的支持。因此,數(shù)據(jù)模型的建設(shè),對于我們數(shù)據(jù)倉庫的
建設(shè),有著決定性的意義。
一般來說,數(shù)據(jù)模型的建設(shè)主要能夠幫助我們解決以下的一些問題:
進(jìn)行全面的業(yè)務(wù)梳理,改進(jìn)業(yè)務(wù)流程。
1.在業(yè)務(wù)模型建設(shè)的階段,能夠幫助我們的企業(yè)或者是管理機(jī)關(guān)對本單位的業(yè)
務(wù)進(jìn)行全面的梳理。
2.通過業(yè)務(wù)模型的建設(shè),我們應(yīng)該能夠全面了解該單位的業(yè)務(wù)架構(gòu)圖和整個(gè)業(yè)
務(wù)的運(yùn)行情況,能夠?qū)I(yè)務(wù)按照特定的規(guī)律進(jìn)行分門別類和程序化。
3.同時(shí),幫助我們進(jìn)一步的改進(jìn)業(yè)務(wù)的流程,提高業(yè)務(wù)效率,指導(dǎo)我們的業(yè)務(wù)
部門的生產(chǎn)。
建立全方位的數(shù)據(jù)視角,消滅信息孤島和數(shù)據(jù)差異。
1.通過數(shù)據(jù)倉庫的模型建設(shè),能夠?yàn)槠髽I(yè)提供一個(gè)整體的數(shù)據(jù)視角,不再是各
個(gè)部門只是關(guān)注自己的數(shù)據(jù)。
2.而且通過模型的建設(shè),勾勒出了部門之間內(nèi)在的聯(lián)系,幫助消滅各個(gè)部門之
間的信息孤島的問題。
3.更為重要的是,通過數(shù)據(jù)模型的建設(shè),能夠保證整個(gè)企業(yè)的數(shù)據(jù)的一致性,
各個(gè)部門之間數(shù)據(jù)的差異將會得到有效解決。
解決業(yè)務(wù)的變動(dòng)和數(shù)據(jù)倉庫的靈活性。
通過數(shù)據(jù)模型的建設(shè),能夠很好的分離出底層技術(shù)的實(shí)現(xiàn)和上層業(yè)務(wù)的展現(xiàn)。當(dāng)上
層業(yè)務(wù)發(fā)生變化時(shí),通過數(shù)據(jù)模型,底層的技術(shù)實(shí)現(xiàn)可以非常輕松的完成業(yè)務(wù)的變
動(dòng),從而達(dá)到整個(gè)數(shù)據(jù)倉庫系統(tǒng)的靈活性。
幫助數(shù)據(jù)倉庫系統(tǒng)本身的建設(shè)。
1.通過數(shù)據(jù)倉庫的模型建設(shè),開發(fā)人員和業(yè)務(wù)人員能夠很容易的達(dá)成系統(tǒng)建設(shè)
范圍的界定,以及長期目標(biāo)的規(guī)劃,從而能夠使整個(gè)項(xiàng)目組明確當(dāng)前的任務(wù),
2.加快整個(gè)系統(tǒng)建設(shè)的速度。
建模大致分為四個(gè)階段,業(yè)務(wù)建模,這部分建模工作,主要包含以下幾個(gè)部分:
1.劃分整個(gè)單位的業(yè)務(wù),一般按照業(yè)務(wù)部門的劃分,進(jìn)行各個(gè)部分之間業(yè)務(wù)工
作的界定,理清各業(yè)務(wù)部門之間的關(guān)系。
2.深入了解各個(gè)業(yè)務(wù)部門的內(nèi)具體業(yè)務(wù)流程并將其程序化。
3.提出修改和改進(jìn)業(yè)務(wù)部門工作流程的方法并程序化。
4.數(shù)據(jù)建模的范圍界定,整個(gè)數(shù)據(jù)倉庫項(xiàng)目的目標(biāo)和階段劃分。
領(lǐng)域概念建模,這部分建模工作,主要包含以下幾個(gè)部分:
1.抽取關(guān)鍵業(yè)務(wù)概念,并將之抽象化。
2.將業(yè)務(wù)概念分組,按照業(yè)務(wù)主線聚合類似的分組概念。
3.細(xì)化分組概念,理清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。
4.理清分組概念之間的關(guān)聯(lián),形成完整的領(lǐng)域概念模型。
概念模型具體要求如下:
1.明確需求
2.明確要做的決策類型
1/
界定系統(tǒng)邊界]3.決策者感興趣的問題
4.這些問題需要什么樣的信息
5.要導(dǎo)到這些信息包含源數(shù)據(jù)的哪些雌
r—~~11.主題域的公共碼鍵
廠概志---------------
-------------確定主要的主邈域及其內(nèi)容,,2.主題域之間的聯(lián)系
〔3.充分代表主題的屬性組
確定主題域間的關(guān)系從企業(yè)角度深入了解各個(gè)信息系統(tǒng)的業(yè)務(wù)
邏輯建模,這部分的建模工作,主要包含以下幾個(gè)部分:
1.業(yè)務(wù)概念實(shí)體化,并考慮其具體的屬性。
2.事件實(shí)體化,也就是所謂的事實(shí),并考慮其屬性內(nèi)容。
3.說明實(shí)體化,也就是所謂的維度,并考慮其屬性內(nèi)容。
邏輯模型具體要求如下:
選擇主題域盡量小
分析豐富主題域,確定當(dāng)前要裝載的主題.------------------
逐步求精
必須保存最細(xì)粒度數(shù)據(jù)
確定粒度層次的劃分-----------------------
-----------------------根據(jù)業(yè)務(wù)部門的查詢需求考慮多重粒度耒提高復(fù)雜查詢度
1.數(shù)據(jù)量大小是決定是否進(jìn)行數(shù)據(jù)分割和如何分割的主要因素
2.數(shù)據(jù)分析處理的要求是選擇數(shù)據(jù)分割標(biāo)準(zhǔn)的一個(gè)主要依據(jù)
邏輯模型確定數(shù)據(jù)分割笫略(表劃分,列劃分)
3.所選擇的敖據(jù)分割的標(biāo)準(zhǔn)是自然地、易于實(shí)施的
4考慮我據(jù)分割的標(biāo)準(zhǔn)與粒度劃分層次是適應(yīng)的
f現(xiàn)對應(yīng)多個(gè)表
關(guān)系橫式定義---------------------
------------,確認(rèn)主題的公共碼鍵,確定各個(gè)表的關(guān)系模式
記錄系統(tǒng)定義記錄數(shù)據(jù)來源以及數(shù)據(jù)規(guī)范化標(biāo)準(zhǔn)
物理建模,這部分的建模工作,主要包含以下幾個(gè)部分:
1.針對特定物理化平臺,做出相應(yīng)的技術(shù)調(diào)整。
2.針對模型的性能考慮,對特定平臺作出相應(yīng)的調(diào)整。
3.針對管理的需要,結(jié)合特定的平臺,做出相應(yīng)的調(diào)整。
4.生成最后的執(zhí)行腳本,并完善之。
物理模型具體要求如下:
根據(jù)預(yù)算和項(xiàng)目需求,對該項(xiàng)目的成本周期和資源進(jìn)行估算
1.確定項(xiàng)目資源
ETL占據(jù)燈項(xiàng)目的70%,同時(shí)確定生命周期
估算數(shù)據(jù)容量
2.確定軟硬件配置
宗主要向fix
從應(yīng)用系統(tǒng)采集而來,只保存一定期限,同時(shí)支持部分近實(shí)時(shí)性報(bào)
ODS層表的展示____________________________________________________
保存經(jīng)過清洗,轉(zhuǎn)換和重新組織的歷史業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)將保留較
DWD層久,滿足系統(tǒng)最細(xì)粒度的查詢需要。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中國鐵路上海局集團(tuán)有限公司杭州客運(yùn)段列車乘務(wù)員崗位招聘備考題庫有答案詳解
- 2026年廣東外語外貿(mào)大學(xué)附屬番禺小學(xué)招聘備考題庫及一套答案詳解
- 2026年北京郵電大學(xué)集成電路學(xué)院招聘備考題庫(人才派遣)完整答案詳解
- 2026年哈爾濱市香坊第二幼兒園教師招聘備考題庫期待你的加入完整參考答案詳解
- 2026年傳染病預(yù)防控制所國家致病菌識別網(wǎng)中心實(shí)驗(yàn)室外聘人員公開招聘備考題庫有答案詳解
- 行政政府采購內(nèi)控制度
- 售后內(nèi)控制度
- 人事勞資內(nèi)控制度
- 測量內(nèi)控制度
- 超市收款管理內(nèi)控制度
- 粉刷安全晨會(班前會)
- 2024年國網(wǎng)35條嚴(yán)重違章及其釋義解讀-知識培訓(xùn)
- (中職)中職生創(chuàng)新創(chuàng)業(yè)能力提升教課件完整版
- 部編版八年級語文上冊課外文言文閱讀訓(xùn)練5篇()【含答案及譯文】
- 高三英語一輪復(fù)習(xí)人教版(2019)全七冊單元寫作主題匯 總目錄清單
- 路基工程危險(xiǎn)源辨識與風(fēng)險(xiǎn)評價(jià)清單
- NB-T+10131-2019水電工程水庫區(qū)工程地質(zhì)勘察規(guī)程
- 大學(xué)基礎(chǔ)課《大學(xué)物理(一)》期末考試試題-含答案
- 管理大略與領(lǐng)導(dǎo)小言智慧樹知到期末考試答案章節(jié)答案2024年山東大學(xué)
- 小班科學(xué)《瓶子和蓋子》教案
- 草地生態(tài)系統(tǒng)的地上與地下相互作用
評論
0/150
提交評論