(通信與信息系統(tǒng)專業(yè)論文)數(shù)據(jù)倉庫和olap技術(shù)在綜合話務(wù)分析中的應(yīng)用.pdf_第1頁
(通信與信息系統(tǒng)專業(yè)論文)數(shù)據(jù)倉庫和olap技術(shù)在綜合話務(wù)分析中的應(yīng)用.pdf_第2頁
(通信與信息系統(tǒng)專業(yè)論文)數(shù)據(jù)倉庫和olap技術(shù)在綜合話務(wù)分析中的應(yīng)用.pdf_第3頁
(通信與信息系統(tǒng)專業(yè)論文)數(shù)據(jù)倉庫和olap技術(shù)在綜合話務(wù)分析中的應(yīng)用.pdf_第4頁
(通信與信息系統(tǒng)專業(yè)論文)數(shù)據(jù)倉庫和olap技術(shù)在綜合話務(wù)分析中的應(yīng)用.pdf_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

(通信與信息系統(tǒng)專業(yè)論文)數(shù)據(jù)倉庫和olap技術(shù)在綜合話務(wù)分析中的應(yīng)用.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫和o l a p 技術(shù)在綜合話務(wù)分析中的應(yīng)用 摘要 我國電信業(yè)實施大規(guī)模的重組后,電信市場的競爭越來越激烈。同時,客戶對電信 服務(wù)質(zhì)量的要求越來越高,保證通信網(wǎng)絡(luò)的運行質(zhì)量和提供優(yōu)質(zhì)服務(wù),成為電信運營企 業(yè)能否獲得優(yōu)勢地位的重要因素。目前通信網(wǎng)絡(luò)中各種網(wǎng)元設(shè)備類型多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜。 這些都給通信網(wǎng)絡(luò)的運行管理增加了一定的難度。各專業(yè)網(wǎng)管數(shù)據(jù)分散在不同系統(tǒng)當(dāng) 中,難以形成統(tǒng)一運營信息視圖,歷史數(shù)據(jù)堆積,但目前沒有一個有效的分析工具來對 這些海量的數(shù)據(jù)進(jìn)行分析,缺乏對運營信息的全面掌控,無法對運營決策提供支持。 數(shù)據(jù)倉庫和聯(lián)機(jī)分析( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 為解決這一問題提供了 有效途徑。在數(shù)據(jù)倉庫中建立一個統(tǒng)一的數(shù)據(jù)模型,然后將各專業(yè)網(wǎng)管中的數(shù)據(jù)經(jīng)過抽 取、轉(zhuǎn)換和加載( e x t r a c t ,t r a n s f o r ma n dl o a d ,e t l ) 進(jìn)行有效集成,根據(jù)業(yè)務(wù)模型建立多維 數(shù)據(jù)集;運用o l a p 技術(shù)彌補數(shù)據(jù)倉庫對多維數(shù)據(jù)展示方面的不足,通過切片、切塊、 鉆取等操作對多維數(shù)據(jù)進(jìn)行靈活深入的分析和多種方式的數(shù)據(jù)展示,能夠滿足多層次用 戶對數(shù)據(jù)的需要。 本文是基于黑龍江電信公司綜合話務(wù)分析系統(tǒng)而來的,現(xiàn)在系統(tǒng)已經(jīng)通過驗收,運 行良好,為數(shù)據(jù)分析和運營決策提供有力支持。 關(guān)鍵詞:數(shù)據(jù)倉庫;e t l ;聯(lián)機(jī)分析;綜合話務(wù)分析 哈爾濱工程大學(xué)碩士學(xué)位論文 a b s t r a c t a f t e rl a r g e - s c a l e r e o r g a n i z a t i o n o fc h i n a st e l e e o m s i n d u s t r y , s i xc o m p a n i e sw e r e c o l l a p s e di n t ot h r e e ,e a c hs p a n n i n gm o b i l e ,f i x e da n db r o a d b a n ds e r v i c e s t h e r ei sm o r e i n t e n s e c o m p e t i t i o n i nt e l e c o m m a r k e t m e a n w h i l e ,t h eq u a l i t yr e q u i r e m e n t so f t e l e c o m m u n i c a t i o n ss e r v i c e sa r ei n c r e a s i n g g o o d r t m n i n go fc o m m u n i c a t i o n sn e t w o r k s b e c o m et h ei m p o r t a n tf a c t o rt oa c h i e v ec o m p e t i t i v ea d v a n t a g e s c u r r e n tc o m m u n i c a t i o n n e t w o r k si n c l u dm a n yt y p e so fn e t w o r ke l e m e n t sa n dt h en e t w o r ks t r u c t u r ei sc o m p l e x ,t h u s t h ec e r t a i nd i f f i c u l t yo f o p e r a t i o nm a n a g e m e n to fc o m m u n i c a t i o nn e t w o r ki n c r e a s e d d a t ai n d i f f e r e n tn e t w o r km a n a g e m e n ts y s t e m si s a c c u m u l a t i n g ,s oi ti sd i f f i c u l tt of o r mau n i f i e d v i e wo f o p e r a t i o n a li n f o r m a t i o n t h e r ei sn oa ne f f e c t i v ea n a l y s i st o o l st oa n a l y z et h e s ev a s t a m o u n t so fd a t a l a c ko ff u l lc o n t r o lo fo p e r a t i o n a li n f o r m a t i o nc a nn o t s u p p o r to p e r a t e d e c i s i o n m a k i n g d a t aw a r e h o u s ea n do l a pt e c h n o l o g yp r o v i d ea ne f f e c t i v ew a yt os o l v et h i sp r o b l e m i n t h ed a t aw a r e h o u s ew ec r e a t eau n i f i e dd a t am o d e l ,a n di n t e g r a t et h ed a t ai nt h ed i f f e r e n t n e t w o r ks y s t e m st h r o u g he t l ( e x t r a c t ,t r a n s f o r m ,l o a d ) p r o c e s si n t od a t aw a r e h o u s e ,t h e n b u i l dt h ec u b ea c c o r d i n gt ot h eb u s i n e s sm o d e l o l a pt e c h n o l o g ym a k eu pf o rd a t a w a r e h o u s ed e f i c i e n c yi nm u l t i d i m e n s i o n a ld a t ad i s p l a y b ys l i c e ,d i c e ,d r i l l i n ga n do t h e r o p e r a t i o n so nt h em u l t i d i m e n s i o n a ld a t a , f l e x i b l ei n d e p t ha n a l y s i sa n dv a r i o u sw a y so fd a t a d i s p l a yc a nm e e tt h em u l t i - l e v e lu s e rd a t an e e d s 1 1 1 i sp a p e ri sb a s e do l lc o m p r e h e n s i v et r a f f i ca n a l y s i ss y s t e mi nh e i l o n g j i a n gb r a n c ho f c h i n at e l e c o m n o ws y s t e mh a sb e e nt h r o u g hi n s p e c t i o n ,r u n n i n gw e l l ,a n dp r o v i d e sf o r c e f u l s u p p o r tf o rd a t aa n a l y s i sa n do p e r a t i o nd e c i s i o n k e yw o r d s :d a t aw a r e h o u s e ;e t l ;o l a p ;c o m p r e h e n s i v e t r a f f i ca n a l y s i s 第1 覃緒論 第1 章緒論 1 1 選題的背景和意義 隨著信息技術(shù)的不斷推廣和應(yīng)用,許多企業(yè)使用數(shù)據(jù)庫系統(tǒng)處理日常業(yè)務(wù),企業(yè)內(nèi) 部積累了海量的數(shù)據(jù)。然而,面對大量復(fù)雜的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫系統(tǒng),即聯(lián)機(jī)事務(wù)處 理系統(tǒng)( o n l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 統(tǒng)計分析能力不足,大量數(shù)據(jù)不能轉(zhuǎn)化 成有用的信息指導(dǎo)行業(yè)決策,越來越不能滿足企業(yè)發(fā)展的需求。為此,人們提出了為業(yè) 務(wù)的統(tǒng)計分析建立一個數(shù)據(jù)中心,專門為分析統(tǒng)計和決策支持提供應(yīng)用服務(wù),通過這個 數(shù)據(jù)中心可滿足聯(lián)機(jī)分析應(yīng)用和決策支持。數(shù)據(jù)倉庫( d a t aw a r e h o u s e ) 和聯(lián)機(jī)分析 ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技術(shù)的共同發(fā)展,為解決從海量數(shù)據(jù)中獲得對企 業(yè)決策有用信息的難題提供了理論支持。最終使得企業(yè)可以實現(xiàn)用戶對數(shù)據(jù)多視角、多 維度的觀察,從而能夠靈活而深刻的理解數(shù)據(jù),進(jìn)而提供用戶在決策方面的支持,最終 真正讓數(shù)據(jù)創(chuàng)造價值。 近年來,全球范圍內(nèi)通信發(fā)展迅速,電信市場競爭日益加劇,行業(yè)發(fā)展面臨著新的 機(jī)遇和挑戰(zhàn)。2 0 0 8 年,我國對電信業(yè)實施了大規(guī)模的重組【1 1 。形成了中國移動、中國聯(lián) 通、中國電信三家電信運營商的鼎足之勢。三家運營商分別擁有移動和固網(wǎng)業(yè)務(wù),各獲 得一張3 g 牌照。因此,三家必將在各業(yè)務(wù)中展開激烈的競爭。與此同時,用戶對電信 服務(wù)質(zhì)量的要求越來越高,面對營運成本的大幅度增加,如何能夠在滿足用戶需求和提 供優(yōu)質(zhì)服務(wù)的前提下,充分利用現(xiàn)有條件降低成本、提高效益,成為電信運營企業(yè)能否 獲得競爭優(yōu)勢地位的重要因素之一。 要提供優(yōu)質(zhì)服務(wù),就必須保證通信網(wǎng)絡(luò)的穩(wěn)定高效運行。尤其現(xiàn)在通信網(wǎng)絡(luò)發(fā)展迅 速,用戶規(guī)模越來越龐大。工業(yè)和信息化部公布了截止到2 0 1 0 年1 0 月通信業(yè)整體運營 狀況【2 】,統(tǒng)計數(shù)據(jù)顯示,我國電話用戶累計達(dá)到1 1 3 億戶,其中移動電話用戶數(shù)達(dá)到8 3 億戶。目前通信網(wǎng)絡(luò)中含有各種網(wǎng)元設(shè)備多,報告種類多,設(shè)備類型多,系統(tǒng)版本多, 涉及廠家多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜。這些都給通信網(wǎng)絡(luò)的運行管理增加了一定的難度。改組以 后,現(xiàn)有網(wǎng)管系統(tǒng)已經(jīng)難以滿足新形勢新業(yè)務(wù)的需求,主要表現(xiàn)在: ( 1 ) 專業(yè)網(wǎng)管歷史數(shù)據(jù)堆積,數(shù)據(jù)價值等待發(fā)掘。 ( 2 ) 滿足一線運維人員需求的同時,還需滿足戰(zhàn)術(shù)層、戰(zhàn)略層等各種角色用戶的需求。 ( 3 ) 網(wǎng)管數(shù)據(jù)仍然分散在各個不同的子系統(tǒng)當(dāng)中,難以形成統(tǒng)一運營信息視圖,無法 為運營分析提供一致的服務(wù),急需集成共享。 哈爾濱工程大學(xué)碩士學(xué)位論文 置 l i i i i i 一 i i i i i i i i i i i i i i i 宣i 宣i 宣i 宣i 宣i i i i i i i i i 萱 ( 4 ) 缺乏對運營信息的有效分析和全面掌控,無法有效地提供個性化、差異化的服務(wù)。 ( 5 ) 新的商業(yè)模式、新的服務(wù)模式不斷出現(xiàn),支持系統(tǒng)在技術(shù)和功能上也需要進(jìn)行補 充和完善。 因此需要建立一套綜合的話務(wù)數(shù)據(jù)分析系統(tǒng),充分利用運營商在經(jīng)營管理過程中積 累的豐富經(jīng)驗和寶貴數(shù)據(jù),通過這個平臺對目前網(wǎng)絡(luò)管理中大量的數(shù)據(jù)進(jìn)行集中管理和 分析,幫助運營商解決發(fā)展中的問題,以提高資源利用率、提供高質(zhì)量的服務(wù)、降低運 維成本、保障主導(dǎo)業(yè)務(wù)的發(fā)展。 1 2 國內(nèi)外研究現(xiàn)狀 隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)倉庫技術(shù)( d a t aw a r e h o u s e ) 和聯(lián)機(jī)分析處理( o l a p ) 成為新興的研究領(lǐng)域。美國著名信息工程學(xué)家w i l l i a n h i i l i i l o n 博士提出數(shù)據(jù)倉庫的概 念,他認(rèn)為一個數(shù)據(jù)倉庫通常是一個面向主題的、集成的、隨時間變化的、穩(wěn)定的數(shù)據(jù) 集合,用以支持管理決策過程【3 】。在i n n l o n 首次提出數(shù)據(jù)倉庫概念時,人們并沒有給予 過多關(guān)注。但是,隨著信息技術(shù)及企業(yè)全球化的不斷發(fā)展,人們開始在實踐中嘗試和研 究數(shù)據(jù)倉庫系統(tǒng)的相關(guān)技術(shù)了。1 9 9 8 年在美國舉行的第一屆( ( a c m 數(shù)據(jù)倉庫和聯(lián)機(jī)分 析國際會議【4 l 到2 0 0 9 年在香港舉行的第十二屆a c m 數(shù)據(jù)倉庫和聯(lián)機(jī)分析國際會議 【5 1 ,以及2 0 0 4 年在德國舉行的數(shù)據(jù)倉庫展望研討會 6 1 ,眾多專家對數(shù)據(jù)倉庫及面臨 的主要問題做了廣泛而又深入地討論。 國外許多計算機(jī)公司在數(shù)據(jù)倉庫和o l a p 領(lǐng)域的研究與開發(fā)也投入很大,在數(shù)據(jù)庫 技術(shù)當(dāng)前及今后的發(fā)展里程中,數(shù)據(jù)倉庫及基于此技術(shù)的商業(yè)智能將是大勢所趨,必將 成為兵家必爭之地。i b m 實驗室在這方面已經(jīng)進(jìn)行了1 0 多年的研究,在1 9 9 8 年9 月發(fā) 布d b 2 u d b5 2 版,除了用于o l a p 分析的后臺服務(wù)器d b 2 0 l a p s e r v e r 外,還提供了 一系列的相關(guān)產(chǎn)品,并且包括了前端展示工具,形成一整套的解決方案【_ 7 1 。i b m 在一個 通用的數(shù)據(jù)庫系統(tǒng)中實現(xiàn)o l t p 和o l a p 功能,i n f o r m i x 也是如此,在其動態(tài)服務(wù)器i d s ( i n f o r m i xd y n a m i cs e r v e r ) 中提供了一系列相關(guān)的選件,如高級決策支持選件、o l a p 選件、擴(kuò)展并行選件等,并且認(rèn)為這種體系結(jié)構(gòu)嚴(yán)謹(jǐn),索引機(jī)制完善,管理方便,并行 處理效率更高;而微軟則是從s q l s e r v e r 7 0 開始集成了o l a p 服務(wù)器;與上述公司不 同的是,s y b a s e 提供了專門用于o l a p 功能的服務(wù)器s y b a s ei q ,并與數(shù)據(jù)倉庫其它相 關(guān)工具打包成w a r e h o u s es t u d i o 。 數(shù)據(jù)倉庫技術(shù)在國外應(yīng)用己較為普遍,并呈現(xiàn)電子化數(shù)據(jù)積累程度高、業(yè)務(wù)應(yīng)用豐 富、業(yè)務(wù)人員i t 背景強(qiáng)、并且有較為完善的管理和實施等特點。從目前來看,世界5 0 0 2 第1 章緒論 j i i _ i i i i i i i i i i i i i i i i i i i i i 宣i i i 強(qiáng)的企業(yè)大多數(shù)都在建設(shè)或者已經(jīng)建設(shè)完成自己的數(shù)據(jù)倉庫系統(tǒng),處在世界前列的電信 運營企業(yè)都建有數(shù)據(jù)倉庫系統(tǒng)。 國外電信運營企業(yè)數(shù)據(jù)倉庫的建設(shè)起始于2 0 世紀(jì)9 0 年代中后期,如a t & t w i r e l e s s , 從1 9 9 7 年開始建設(shè)數(shù)據(jù)倉庫,西南貝爾的數(shù)據(jù)倉庫建設(shè)始于1 9 9 4 年,當(dāng)時是最大的數(shù) 據(jù)倉庫系統(tǒng)。近幾年來,隨著中國市場競爭越來越激烈和企業(yè)信息化建設(shè)的需要,國內(nèi) 的數(shù)據(jù)倉庫的建設(shè)也得到了快速的發(fā)展,但總體來說,國內(nèi)數(shù)據(jù)倉庫的建設(shè)及應(yīng)用起步 相對較晚,與國外相比還有一定的差距。在中國,中國移動和中國聯(lián)通都是較早引入了 數(shù)據(jù)倉庫系統(tǒng)的電信運營商,中國移動2 0 0 2 年開始建設(shè)數(shù)據(jù)倉庫,取得了相當(dāng)不錯的 成績,建成了世界最大的數(shù)據(jù)倉庫系統(tǒng),而且建設(shè)性地提出了“分級式數(shù)據(jù)倉庫理論, 為我國移動通信數(shù)據(jù)倉庫的應(yīng)用積累了寶貴經(jīng)驗【8 】。 1 3 研究的目的 電信運營企業(yè)各專業(yè)網(wǎng)管中存在著大量的數(shù)據(jù),如何能夠?qū)⑦@些數(shù)據(jù)集成并充分利 用,是電信運營企業(yè)所關(guān)心的重大問題。本文的目的就是將先進(jìn)的數(shù)據(jù)倉庫技術(shù)和o l a p 技術(shù),應(yīng)用到電信的話務(wù)網(wǎng)管領(lǐng)域。通過對數(shù)據(jù)倉庫和o l a p 技術(shù)的學(xué)習(xí)研究,結(jié)合電 信重組的實際情況,建立一套基于數(shù)據(jù)倉庫技術(shù)和o l a p 技術(shù)的,能夠很好滿足運營商 需求的話務(wù)綜合分析系統(tǒng)。通過對現(xiàn)有各專業(yè)網(wǎng)管的數(shù)據(jù)整合,并為電信運營商提供各 種強(qiáng)有力的分析手段,從海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息,為決策提供支持;發(fā)現(xiàn)網(wǎng)絡(luò)性能 的變化趨勢,網(wǎng)絡(luò)業(yè)務(wù)量的發(fā)展趨勢以及潛在的網(wǎng)絡(luò)故障的預(yù)兆等,為建設(shè)和容量擴(kuò)充、 網(wǎng)絡(luò)的維護(hù)等工作提供支持。從而幫助電信運營商解決發(fā)展中遇到的問題,以提高服務(wù) 質(zhì)量和資源利用率,使運營商在重組后日益激烈的競爭環(huán)境中保持優(yōu)勢。 1 4 論文研究內(nèi)容及章節(jié)安排 在論文期間參加了黑龍江電信話務(wù)綜合分析系統(tǒng)項目的實施工作,對通信系統(tǒng)、電 信網(wǎng)絡(luò)管理以及數(shù)據(jù)倉庫的相關(guān)理論知識有了比較全面的了解和掌握。在此期間主要進(jìn) 行了以下工作: l 、需求調(diào)研 通過與黑龍江電信網(wǎng)管中心的溝通交流,了解他們在日常網(wǎng)絡(luò)運行維護(hù)、網(wǎng)絡(luò)優(yōu)化 以及業(yè)務(wù)決策時遇到的困難,充分了解其各方面需求,進(jìn)行相關(guān)的需求調(diào)研,為建立一 套真正實用的電信話務(wù)綜合分析系統(tǒng)打下堅實的基礎(chǔ)。 2 、理論學(xué)習(xí) 哈爾濱工程大學(xué)碩七學(xué)位論文 認(rèn)真學(xué)習(xí)數(shù)據(jù)庫、電信網(wǎng)絡(luò)管理、數(shù)據(jù)倉庫、o l a p 等相關(guān)方面的知識;了解相關(guān) 技術(shù)及最新發(fā)展動態(tài),了解國內(nèi)外電信話務(wù)網(wǎng)管數(shù)據(jù)分析系統(tǒng)的發(fā)展?fàn)顩r及應(yīng)用前景, 為論文的順利進(jìn)行提供理論保證。 3 、系統(tǒng)建設(shè) 參與億陽信通承建的黑龍江電信話務(wù)綜合分析系統(tǒng)建設(shè)的全過程,參與系統(tǒng)總體設(shè) 計,部分承擔(dān)數(shù)據(jù)倉庫建模和數(shù)據(jù)的e t l 設(shè)計工作。目前該系統(tǒng)已經(jīng)成功通過初驗, 其在一定程度上解決了電信黑龍江分公司日常運維、網(wǎng)絡(luò)優(yōu)化和決策支持等方面的相關(guān) 問題,具有較強(qiáng)的實際應(yīng)用價值。 在以上工作基礎(chǔ)上完成了本論文,論文的章節(jié)安排如下: 第1 章緒論 本章主要討論課題的研究背景和意義、國內(nèi)外的研究現(xiàn)狀、研究目的以及論文的主 要內(nèi)容; 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 本章分別介紹了數(shù)據(jù)倉庫和o l a p 技術(shù)的基本概念和基本理論 第3 章話務(wù)綜合分析系統(tǒng)設(shè)計 本章重點介紹了系統(tǒng)設(shè)計中的幾個關(guān)鍵環(huán)節(jié),包括系統(tǒng)需求分析,分析專題設(shè)計, 數(shù)據(jù)模型設(shè)計,以及e t l 平臺的設(shè)計。 第4 章話務(wù)綜合分析系統(tǒng)實現(xiàn) 本章首先介紹了系統(tǒng)部署的硬件和軟件環(huán)境,然后說明了數(shù)據(jù)采集的實現(xiàn)過程,最 后重點描述了分析功能和展現(xiàn)情況,展示了系統(tǒng)建設(shè)的成果。 4 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 i i 宣i i i i i 宣i i i i i i i i i i i i i i i i i i iii i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 2 1 數(shù)據(jù)倉庫技術(shù) 數(shù)據(jù)倉庫是以計算機(jī)應(yīng)用為基礎(chǔ)的信息系統(tǒng),用來支持決策分析。數(shù)據(jù)倉庫 從很多不同的聯(lián)機(jī)事務(wù)處理數(shù)據(jù)源抽取數(shù)據(jù),并通過一系列的處理、匯總計算吧 數(shù)據(jù)組織成易于分析的形式,為企業(yè)提供一個統(tǒng)一的信息平臺,為管理人員和決 策者快速提取信息提供有力支持。數(shù)據(jù)倉庫技術(shù)是從數(shù)據(jù)庫技術(shù)發(fā)展而來,為了 滿足企業(yè)對決策支持的需要,并逐步獨立的一系列新的應(yīng)用技術(shù)。 2 1 1 數(shù)據(jù)倉庫的定義 數(shù)據(jù)倉庫的概念首先由w i n m o n 在1 9 9 1 年提出,他把數(shù)據(jù)倉庫描述為一爪面 向主題的、綜合的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用于支持決策管理 【9 1 。數(shù) 據(jù)倉庫有以下特點【1 0 】: ( 1 ) 面向主題的 在操作型數(shù)據(jù)庫中,數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間相互分離, 而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織存儲的。 ( 2 ) 綜合的 為了正確決策,需要將所有不同系統(tǒng)中的數(shù)據(jù)整合到一起。數(shù)據(jù)倉庫中的數(shù)據(jù) 是通過對原有分散的數(shù)據(jù)庫中的數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過匯總和整理得到的, 必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的 全局信息。 ( 3 ) 穩(wěn)定的 數(shù)據(jù)倉庫的數(shù)據(jù)主要用于企業(yè)決策分析之用,涉及的操作主要是數(shù)據(jù)查詢,一 旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫后,一般都將被長期保留,也就是說數(shù)據(jù)倉庫中會有大量的查 詢操作,但修改和刪除操作很少,通常只需要定期的加載新的數(shù)據(jù)。 ( 4 ) 反映歷史變化 數(shù)據(jù)倉庫的目的決定了它除了包含當(dāng)前數(shù)據(jù)之外,還必須包含歷史數(shù)據(jù),系統(tǒng) 記錄了企業(yè)從過去某一時間點開始到目前的各個階段的信息,通過對這些信息分析 處理,可以對企業(yè)的發(fā)展歷程總結(jié)分析以及對未來趨勢做出預(yù)測。 數(shù)據(jù)倉庫技術(shù)是一種數(shù)據(jù)整合、知識管理的有效方法。數(shù)據(jù)倉庫能夠集成來 自不同數(shù)據(jù)源的數(shù)據(jù)。這意味著可以通過數(shù)據(jù)倉庫以一個統(tǒng)一的視圖來呈現(xiàn)不同 s 哈爾濱t 程大學(xué)碩十學(xué)位論文 系統(tǒng)內(nèi)的數(shù)據(jù),將企業(yè)的業(yè)務(wù)數(shù)據(jù)整合并轉(zhuǎn)化為適合戰(zhàn)略決策的信息,用以支持 經(jīng)營管理中的決策制定過程。數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的,與傳統(tǒng)數(shù)據(jù)庫面 向應(yīng)用相對應(yīng)。 2 1 2 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別 數(shù)據(jù)倉庫是在傳統(tǒng)數(shù)據(jù)庫基礎(chǔ)上發(fā)展起來的,但它并不是對傳統(tǒng)數(shù)據(jù)庫的徹 底拋棄,而是彌補了傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)分析方面的不足,提供良好的大規(guī)模數(shù)據(jù) 分析能力,為管理決策提供有效的技術(shù)支持【l 。數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)相 比,數(shù)據(jù)庫是一種通用平臺,建立于嚴(yán)格的數(shù)學(xué)模型之上,用來管理企業(yè)數(shù)據(jù), 進(jìn)行事務(wù)處理,完成相關(guān)業(yè)務(wù)。而數(shù)據(jù)倉庫沒有嚴(yán)格的數(shù)據(jù)理論,更偏向于工程, 它不是花錢就可購買到的成品,而是企業(yè)一個日積月累的建立過程,它的應(yīng)用對 象是不同層次的管理者,它的數(shù)據(jù)源是多種數(shù)據(jù)源,庫中數(shù)據(jù)很少修改和刪除數(shù) 據(jù),主要是大規(guī)模查詢和分析,因此要求具備大量的歷史數(shù)據(jù)和匯總數(shù)據(jù)【1 2 】。和 傳統(tǒng)數(shù)據(jù)庫相比,在總體特征、面向用戶、功能目標(biāo)、數(shù)據(jù)規(guī)模等方面,都有著 很大的差異( 參見表2 1 ) 。正是由于這些差異的存在,實現(xiàn)了數(shù)據(jù)倉庫在分析能 力的突破【1 3 j 。 表2 1 數(shù)據(jù)倉庫與數(shù)據(jù)庫的差異 比較項目傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)倉庫 總體特征高效的事務(wù)處理提供決策支持 面向用戶業(yè)務(wù)處理人員 決策管理人員 存儲內(nèi)容以當(dāng)前數(shù)據(jù)為主主要是歷史的、存檔的歸納數(shù)據(jù) 功能目標(biāo)面向業(yè)務(wù)操作,注重實時性面向主題,注意分析功能 使用頻率很高較低 數(shù)據(jù)規(guī)模較小較大 數(shù)據(jù)訪問量每次事務(wù)處理訪問量較少每次分析處理訪問大量數(shù)據(jù) 響應(yīng)要求很高的實時性對實時性要求不高 2 1 3 數(shù)據(jù)倉庫的體系結(jié)構(gòu) 在有關(guān)數(shù)據(jù)倉庫體系結(jié)構(gòu)的多種理論中,著眼于體系部件功能的“三層結(jié)構(gòu)” 理論【1 4 1 得到了最廣泛的接受從各部件的功能分析,數(shù)據(jù)倉庫在邏輯上分為三個層 次,即數(shù)據(jù)獲取管理層、數(shù)據(jù)存儲層和數(shù)據(jù)分析應(yīng)用層【1 5 1 ( 如圖2 1 ) 。 6 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 數(shù)據(jù)應(yīng)用層 數(shù)據(jù)存儲層 數(shù)據(jù)獲取層 圖2 1 數(shù)據(jù)倉庫的結(jié)構(gòu) 1 數(shù)據(jù)獲取管理層 數(shù)據(jù)倉庫中保存的業(yè)務(wù)數(shù)據(jù)來自多個數(shù)據(jù)源,這些數(shù)據(jù)源提供的數(shù)據(jù)并不是 理想狀態(tài)的,存在各種缺陷,必須經(jīng)過適當(dāng)?shù)奶幚砗?,才能?dǎo)入到數(shù)據(jù)倉庫;同 時數(shù)據(jù)倉庫中的數(shù)據(jù)也必須進(jìn)行維護(hù),以保證系統(tǒng)正常運行。歸納起來主要負(fù)責(zé) 以下工作: ( 1 ) 數(shù)據(jù)倉庫的定義與修改。定義數(shù)據(jù)倉庫的數(shù)據(jù)來源、數(shù)據(jù)的組織方式, 并根據(jù)決策需要與環(huán)境變化對這些內(nèi)容進(jìn)行修改,同時對數(shù)據(jù)倉庫的元數(shù)據(jù)進(jìn)行 管理。 ( 2 ) 數(shù)據(jù)獲取。根據(jù)已制定的規(guī)則,定期從數(shù)據(jù)源抽取數(shù)據(jù),并對數(shù)據(jù)進(jìn)行 清洗、轉(zhuǎn)換和整合,對數(shù)據(jù)倉庫中的內(nèi)容定期檢查,清除失效數(shù)據(jù)。 ( 3 ) 數(shù)據(jù)倉庫系統(tǒng)的管理。根據(jù)既定的規(guī)則和實際情況,對數(shù)據(jù)倉庫進(jìn)行維 護(hù)、管理、備份和日志記錄等工作。 2 數(shù)據(jù)存儲層 數(shù)據(jù)存儲層是數(shù)據(jù)倉庫的主體,主要有三部分?jǐn)?shù)據(jù):其一是從外部數(shù)據(jù)源抽 取,經(jīng)清洗、轉(zhuǎn)換處理,并按主體組織存放的業(yè)務(wù)數(shù)據(jù),其二是數(shù)據(jù)倉庫的元數(shù) 據(jù)。其三是針對不同的數(shù)據(jù)挖掘和分析主題而生成的數(shù)據(jù)集市。 7 哈爾濱工程大學(xué)碩七學(xué)位論文 3 數(shù)據(jù)分析應(yīng)用層 數(shù)據(jù)倉庫的數(shù)據(jù)分析應(yīng)用層,面向系統(tǒng)的一般用戶滿足用戶的查詢、分析的 需要,并以適當(dāng)方式展示查詢分析的結(jié)果。其主要包括以下功能: ( 1 ) 查詢統(tǒng)計服務(wù)。為用戶提供常規(guī)的查詢檢索、簡單統(tǒng)計和報表等服務(wù)。 ( 2 ) o l a p 服務(wù)。對于以多維數(shù)據(jù)庫方式進(jìn)行數(shù)據(jù)組織的數(shù)據(jù)倉庫,o l a p 是一種有效的分析方法,通過上卷、下鉆、切片、切塊和旋轉(zhuǎn)等操作,對數(shù) 據(jù)進(jìn)行深入分析。 ( 3 ) 數(shù)據(jù)挖掘服務(wù)。數(shù)據(jù)挖掘服務(wù)是數(shù)據(jù)倉庫系統(tǒng)的深層次應(yīng)用,是從大量 的數(shù)據(jù)中,提取隱含其中的、不為人所知的但又十分有用的信息和知識的過 程。 2 1 4 數(shù)據(jù)倉庫的建模技術(shù) 數(shù)據(jù)倉庫建模是數(shù)據(jù)倉庫創(chuàng)建過程正式開始的第一步。目前,主流的數(shù)據(jù)倉庫邏輯 建模技術(shù)為維度建模( d i m e n s i o nm o d e l i n g ) ,包括星型模式和雪花模式等 1 6 ”】。實體關(guān) 系建模在創(chuàng)建聯(lián)機(jī)事務(wù)處理( o l t p ) 系統(tǒng)方面很有效;而維度建模則是創(chuàng)建有針對性的分 析模型,成為創(chuàng)建數(shù)據(jù)倉庫典型的邏輯結(jié)構(gòu)【1 引。 ( 1 ) 星型模式 星型模式是由一個事實表以及一組維度表組成。每個維度表都通過主鍵與事實表直 接相關(guān)聯(lián)。事實表是數(shù)據(jù)倉庫中的主要數(shù)據(jù)表,維表則是用來描述事實表中的數(shù)據(jù)。事 實表位于星型中央,而各維度表分布于星型的各個角上。 ( 2 ) 雪花模式 雪花模式是星型模式的一個擴(kuò)展,將星型模式的維度表規(guī)范化就會得到一個以事實 表表為中心的雪花模式。在雪花架構(gòu)中,主維度與事實表相連,其他維度表則連接到主 維度表上。雪花結(jié)構(gòu)與星型結(jié)構(gòu)的本質(zhì)是相同的,主要區(qū)別在于雪花模式將維度表進(jìn)行 了規(guī)范化處理。 2 1 5 數(shù)據(jù)集成 隨著信息技術(shù)的不斷發(fā)展,企業(yè)內(nèi)部建立了眾多的信息系統(tǒng),但是隨著各種信息系 統(tǒng)的增加,各自孤立工作的系統(tǒng)就會造成越來越多的數(shù)據(jù)冗余以及重復(fù)勞動。數(shù)據(jù)集成 能夠使更多的人員共享數(shù)據(jù)資源,減少重復(fù)勞動,提高工作效率。數(shù)據(jù)集成是把不同來 源、不同格式的數(shù)據(jù),在物理上或者邏輯上有機(jī)地集中,從而提供綜合的數(shù)據(jù)共享。e t l 8 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 ( e x t r a c t 、t r a a s f o r m 、l o a d ) 是企業(yè)數(shù)據(jù)集成的主要解決方案【1 9 1 。一個簡單的e t l 體 系結(jié)構(gòu)如圖2 2 所示: 圖2 2 e t l 體系結(jié)構(gòu) e t l 技術(shù)能夠按照既定規(guī)則集成數(shù)據(jù),是負(fù)責(zé)完成將數(shù)據(jù)從數(shù)據(jù)源向數(shù)據(jù)倉庫轉(zhuǎn)化 的過程,是創(chuàng)建數(shù)據(jù)倉庫的一個重要步驟【2 0 1 。在整個數(shù)據(jù)倉庫項目中e t l 的設(shè)計以及 實施是工作量最大的。e t l 的關(guān)鍵是變更數(shù)據(jù)捕獲和數(shù)據(jù)更新口1 1 。e t l 作為構(gòu)建數(shù)據(jù)倉 庫中的一個重要環(huán)節(jié),起著承前啟后的重要作用,負(fù)責(zé)將各種異構(gòu)數(shù)據(jù)源中的海量數(shù)據(jù) 抽取到臨時數(shù)據(jù)庫中進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫中【2 2 】。 數(shù)據(jù)抽取 數(shù)據(jù)抽取是從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中抽取所需要的數(shù)據(jù),經(jīng)過一系列處理后輸入數(shù)據(jù)倉 庫。源數(shù)據(jù)庫中的所有的數(shù)據(jù)并不是對于數(shù)據(jù)倉庫中的主題都是有用的,必須根據(jù)需要, 從源數(shù)據(jù)庫中抽取相關(guān)的數(shù)據(jù)到數(shù)據(jù)倉庫中。數(shù)據(jù)抽取在工程上要根據(jù)數(shù)據(jù)源的不同而 采取不同的抽取方式。從數(shù)據(jù)庫中抽取數(shù)據(jù),一般分為以下幾種方式: 1 全量抽取 全量抽取類似數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的所需要的數(shù)據(jù)原全部從源數(shù)據(jù) 庫中抽取出來,并轉(zhuǎn)換成數(shù)據(jù)倉庫中的數(shù)據(jù)格式。全量抽取的原理比較簡單。 2 增量抽取 增量抽取只抽取源數(shù)據(jù)庫中自上次抽取數(shù)據(jù)以來新增或修改的數(shù)據(jù)。在數(shù)據(jù)抽取過 程中,增量抽取相比全量抽取應(yīng)用也更為廣泛。如何能夠準(zhǔn)確捕獲發(fā)生變化的數(shù)據(jù)是進(jìn) 行增量抽取的關(guān)鍵。實際過程中一般有兩點要求:不能影響現(xiàn)有業(yè)務(wù);能夠?qū)I(yè)務(wù)系統(tǒng) 中變化的數(shù)據(jù)準(zhǔn)確地捕獲到。增量數(shù)據(jù)抽取中常用的方式有: ( 1 ) 觸發(fā)器方式 在要抽取數(shù)據(jù)的表上建立需要的觸發(fā)器,一般有三種觸發(fā)器:插入、修改和刪除。 o 哈爾濱工程大學(xué)碩士學(xué)位論文 當(dāng)源表中的數(shù)據(jù)發(fā)生變化時,相應(yīng)的觸發(fā)器將發(fā)生變化的數(shù)據(jù)存到一個臨時表里,然后 從臨時表中抽取數(shù)據(jù),并標(biāo)記或刪除臨時表中被抽取過的數(shù)據(jù)。 優(yōu)點:加載規(guī)則比較簡單,不需要修改原系統(tǒng)的表結(jié)構(gòu),數(shù)據(jù)抽取的性能高,能夠 實現(xiàn)數(shù)據(jù)的遞增抽取。 缺點:要建立觸發(fā)器,對原業(yè)務(wù)系統(tǒng)會有一定的影響。 ( 2 ) 時間戳方式 通過在源表上加入一個時間戳字段,當(dāng)系統(tǒng)修改或更新數(shù)據(jù)的時候,同時修改時間 戳的值。通過與時間戳的時間對比來決定抽取哪些數(shù)據(jù)。 優(yōu)點:時間戳方式的抽取性能也比較好,設(shè)計清晰,原理簡單,能夠?qū)崿F(xiàn)數(shù)據(jù)的遞 增抽取。 缺點:時間戳維護(hù)必須由業(yè)務(wù)系統(tǒng)來完成,對沒有時間戳的業(yè)務(wù)系統(tǒng)有較大的侵入 性,對沒有自動更新時間戳的數(shù)據(jù)庫系統(tǒng)來說,更新時間戳操作工作量大,改動風(fēng)險大。 ( 3 ) 日志表方式 在原系統(tǒng)中增加系統(tǒng)日志表,當(dāng)數(shù)據(jù)發(fā)生變化時,更新日志表內(nèi)容。抽取數(shù)據(jù)時, 通過日志表中的數(shù)據(jù)來決定加載那些數(shù)據(jù)。 優(yōu)點:不需要更改原系統(tǒng)的表結(jié)構(gòu),數(shù)據(jù)抽取速度較快。能夠?qū)崿F(xiàn)數(shù)據(jù)的遞增抽取。 缺點:日志表的維護(hù)需要由原來系統(tǒng)完成,需要對操作程序作修改,記錄日志信息。 對原有系統(tǒng)有較大的影響。改動較大,工作量較大,存在一定的風(fēng)險。 ( 4 ) 全表比對方式 抽取所有需要的源數(shù)據(jù),并按照相應(yīng)規(guī)則進(jìn)行數(shù)據(jù)轉(zhuǎn)換,然后與目標(biāo)數(shù)據(jù)逐條對比。 通過主鍵值來判定進(jìn)行更新與插入操作。如果目標(biāo)表己存在該主鍵值,表明該記錄已存 在,然后進(jìn)行其余字段的比對,如有不同,進(jìn)行u p d a t e 操作;如目標(biāo)表不存在該主鍵 值,則進(jìn)行i n s e r t 操作。 優(yōu)點:對原系統(tǒng)表結(jié)構(gòu)不產(chǎn)生影響,所有操作均由e t l 完成,管理維護(hù)方便,對 原系統(tǒng)沒有風(fēng)險??梢詫崿F(xiàn)數(shù)據(jù)的遞增抽取。 缺點:比對過程較復(fù)雜,設(shè)計較為麻煩,速度較慢。 ( 5 ) 全表刪除插入方式 每次e t l 操作均刪除目標(biāo)表數(shù)據(jù),全新加載數(shù)據(jù)。 優(yōu)點:加載規(guī)則簡單。 缺點:隨著數(shù)據(jù)的不斷增加,數(shù)據(jù)的更新速度會越來越慢。不能實現(xiàn)數(shù)據(jù)的遞增加 載。 1 0 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換是指把從不同系統(tǒng)中抽取到的數(shù)據(jù),根據(jù)數(shù)據(jù)倉庫的要求,進(jìn)行數(shù)據(jù)的轉(zhuǎn) 換、清洗、拆分、匯總等一系列處理,保證來自不同系統(tǒng)的數(shù)據(jù),具有完整性和一致性。 數(shù)據(jù)轉(zhuǎn)換主要完成由以下原因造成的數(shù)據(jù)不一致問題: ( 1 ) 源數(shù)據(jù)系統(tǒng)與數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)模型上的差異。 ( 2 ) 源數(shù)據(jù)結(jié)構(gòu)不一致。 ( 3 ) 源數(shù)據(jù)定義不規(guī)范導(dǎo)致的錯誤數(shù)據(jù)。 ( 4 ) 邏輯上關(guān)聯(lián)不一致。 ( 5 ) 不同數(shù)據(jù)平臺命名規(guī)范不統(tǒng)一。 ( 6 ) 存在重復(fù)數(shù)據(jù)。 數(shù)據(jù)加載 數(shù)據(jù)裝載就是將從數(shù)據(jù)源系統(tǒng)中抽取的數(shù)據(jù)經(jīng)過轉(zhuǎn)換、清洗后,裝載到數(shù)據(jù) 倉庫系統(tǒng)中。數(shù)據(jù)的裝載策略根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務(wù)規(guī)則確定的,一般有 三種類型: ( 1 ) 直接追加 每次裝載時直接將數(shù)據(jù)追加到目標(biāo)表中。 ( 2 ) 全部覆蓋 如果抽取數(shù)據(jù)本身已經(jīng)包括數(shù)據(jù)當(dāng)前和所有歷史狀況,可對目標(biāo)表采用全部 覆蓋的方式。 ( 3 ) 更新追加 對于需要連續(xù)記錄業(yè)務(wù)的狀態(tài)變化, 對比的情況,可采用更新追加的方式。 在系統(tǒng)實施時,具體采用何種方式, 2 2 聯(lián)機(jī)分析( o l a p ) 技術(shù) 并用當(dāng)前最新狀態(tài)同歷史狀態(tài)數(shù)據(jù)進(jìn)行 要綜合考慮效率和業(yè)務(wù)實現(xiàn)等因素。 數(shù)據(jù)倉庫創(chuàng)建以后,企業(yè)的決策者和分析員就開始對數(shù)據(jù)倉庫進(jìn)行一些復(fù)雜的數(shù)據(jù) 查詢,這些查詢必須是多角度的、能夠下鈷上卷的、可旋轉(zhuǎn)的,才能對決策和分析提供 強(qiáng)有力的支持。只靠擁有海量數(shù)據(jù)的數(shù)據(jù)倉庫是不夠的,必須通過一定的方式把所要查 詢的數(shù)據(jù)豐富多彩的展示出來。因此,一種新的基于多維分析的聯(lián)機(jī)分析處理( o n - l i n e a n m y t i c a lp r o e e s s i n g ,o a l p ) 技術(shù)應(yīng)運而生。 哈爾濱工程大學(xué)碩士學(xué)位論文 2 2 1 聯(lián)機(jī)分析的定義 : 1 9 9 3 年,關(guān)系數(shù)據(jù)庫之父e f c o d d 最早提出了聯(lián)機(jī)分析處理的概念【2 3 1 。c o d d 認(rèn)為傳統(tǒng)的聯(lián)機(jī)事務(wù)處理( o l t p ) 無法滿足用戶對數(shù)據(jù)庫復(fù)雜查詢分析的要求,通 過s q l 語言對大數(shù)據(jù)庫的簡單查詢,不能滿足用戶分析的需求。用戶的決策分析需 要進(jìn)行大量的統(tǒng)計計算才能得到結(jié)果,而查詢結(jié)果也不能滿足分析決策的需求。因 此,c o d d 提出了o l a p 的概念。 o l a p 委員會對聯(lián)機(jī)分析處理的定義為:使分析人員、管理人員或執(zhí)行人員能 夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映 企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的 一類軟件技術(shù)【2 4 1 。o l a p 的目標(biāo)是為了滿足決策支持,實現(xiàn)多維環(huán)境中特定的查詢。 其技術(shù)核心是“維 的概念,因此也可以說是多維數(shù)據(jù)分析工具的集合。 聯(lián)機(jī)分析面向的主要用戶是企業(yè)中的管理決策者及專業(yè)分析人員,他們在分析 數(shù)據(jù)時,很自然的會從不同的角度來觀察各項業(yè)務(wù)指標(biāo)。聯(lián)機(jī)分析處理就是仿照用 戶的多角度思考模式,預(yù)先為用戶建立多維的數(shù)據(jù)模型。在這里“維指的是用戶 觀察數(shù)據(jù)的角度。多維數(shù)據(jù)模型一旦建立完成,用戶就可以從各個不同的角度快速 地獲取數(shù)據(jù),也能在不同觀察角度之間切換,或者進(jìn)行多角度的綜合分析【2 5 1 。因此 具有很強(qiáng)的分析靈活性。這也是在近年來聯(lián)機(jī)分析處理被廣泛關(guān)注的根本原因。 2 2 2 聯(lián)機(jī)分析的主要特性 隨著人們對o l a p 理解的深入,逐漸概括出了幾個基本特性,認(rèn)為o l a p 應(yīng)該 具有共享多維信息的快速分析f a s m i ( f a s ta n a l y s i so fs h a r e dm u l t i d i m e n s i o n a l i n f o h n a t i o n ) 的特點【2 6 1 ,f a s m i 已經(jīng)成為設(shè)計人員用來判斷一個o l a p 設(shè)計的重要 準(zhǔn)則。 1 、快速性 用戶對聯(lián)機(jī)分析的反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能夠在5 秒鐘內(nèi)對用戶的大 部分查詢要求做出響應(yīng)。 2 、可分析性 聯(lián)機(jī)分析系統(tǒng)能夠處理與應(yīng)用有關(guān)的任何統(tǒng)計分析和邏輯分析。用戶無需編程 即可實現(xiàn)新的專門計算,并能夠以用戶滿意的方式給出報告。 3 可視性 聯(lián)機(jī)分析系統(tǒng)應(yīng)能提供可視化的界面,能夠把信息直觀簡潔的展示給用戶。 1 2 第2 蘋數(shù)據(jù)倉庫與o l a p 技術(shù)概述 4 、多維性 多維性是聯(lián)機(jī)分析的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維分析。實際上,多 維分析是分析數(shù)據(jù)最有效的方法,也是聯(lián)機(jī)分析的靈魂。 5 、信息性 不論數(shù)據(jù)量有多大以及數(shù)據(jù)存儲在何處,聯(lián)機(jī)分析系統(tǒng)應(yīng)能夠及時地獲得信 息,并且管理大容量的信息。 聯(lián)機(jī)分析的基本思想是使企業(yè)的決策者應(yīng)能靈活地操縱數(shù)據(jù),以多維的形式來 觀察企業(yè)的狀態(tài)并了解企業(yè)的發(fā)展趨勢。利用o l a p 分析,企業(yè)的分析人員、管理 人員和執(zhí)行人員能夠從多個角度對某一主題進(jìn)行分析,從而快速、交互地得出分析 結(jié)論。 2 2 3 聯(lián)機(jī)分析中的基本概念和操作 1 o l a p 概念體系中的基本概念 聯(lián)機(jī)分析的概念體系的基本概念主要有度量、維度、維度的層次、維度的成員、 多維數(shù)據(jù)集等【2 7 1 。 ( 1 ) 度量( m e a s u r e ) 度量是用戶所要觀察和分析的指標(biāo)數(shù)據(jù),典型的度量有產(chǎn)量、成本、銷量等。 在多維數(shù)據(jù)集中存在很多度量值。多維數(shù)據(jù)集是由其所包含的度量和維度來共同描 述的。 ( 2 ) 維度( d i m e n s i o n ) 維度是指人們在觀察數(shù)據(jù)時的特定角度,是用于描述多維數(shù)據(jù)集中度量值一組 屬性。同一個問題,可以通過不同維度進(jìn)行觀察和分析。 ( 3 ) 維度的層次( l e v e l ) 我們從某個特定角度來觀察數(shù)據(jù),這一角度可以存在不同的細(xì)節(jié)程度( 如時間 維:日、月、季度、年) ,這就是維的層次。當(dāng)人們通過維度的不同細(xì)節(jié)程度( 即 維層次) 去觀察數(shù)據(jù),可以得到多種不同描述方法。 ( 4 ) 維度的成員( m e m b e r ) 維度成員是指某個維度上的某個具體取值。如果維度具有多個層次,維度成員 則由在該維度各層次上的取值組合而成的。如“2 0 0 9 年6 月5 日”是時間維的一個 的維度成員。 哈爾濱工程大學(xué)碩七學(xué)位論文 ( 5 ) 多維數(shù)據(jù)集( c u b e ) 多維數(shù)據(jù)集是聯(lián)機(jī)分析中的重要對象,多維數(shù)據(jù)集通過其度量值和維度定義。 多維數(shù)據(jù)集中的度量值和維度派生自數(shù)據(jù)源視圖中的表和視圖,數(shù)據(jù)源視圖是多維 數(shù)據(jù)集基于的邏輯視圖。 2 o l a f 多維分析中基本操作 o l a f 多維分析包括切片、切塊、鉆取、旋轉(zhuǎn)等基本操作手段【2 8 1 ,能夠?qū)σ远?維形式組織的數(shù)據(jù)進(jìn)行深入觀察,從而使用戶達(dá)到從多個角度、多個細(xì)節(jié)分析數(shù)據(jù) 的目的。 ( 1 ) 切片( s l i c e ) 對于三個維度的多維數(shù)據(jù),切片操作是指在某一維度選定一組成員,取出其余 兩個維度所構(gòu)成的平面的過程。而對于大于三維的多維數(shù)據(jù),切片是指選定兩個維 度,而將其它維度都取定一個維度成員后,所得到的在原多維數(shù)據(jù)在選定的這兩個 維度上的二維子集。既然維度可理解為觀察角度,那么切片作用也可理解為在對數(shù) 據(jù)進(jìn)行觀察時,將注意力集中在某兩個角度上,而舍棄其他角度2 9 1 。通過切片的操 作可以降低多維數(shù)據(jù)集的維度,將注意力集中在較少的維度上進(jìn)行觀察數(shù)據(jù),使人 們能夠更好地了解多維數(shù)據(jù)集。如圖2 3 為c d m a 網(wǎng)絡(luò)性能指標(biāo)中系統(tǒng)接通率的切 片示意圖。 圖2 3c 網(wǎng)性能指標(biāo)系統(tǒng)接通率切片示意圖 ( 2 ) 切塊( d i c e ) 切塊操作就是從多維數(shù)據(jù)中,取出一個包含三個維度的數(shù)據(jù)立方的過程。也就 是只從選定的三個維度來觀察數(shù)據(jù),而不考慮其它維度。 1 4 第2 章數(shù)據(jù)倉庫與o l a p 技術(shù)概述 ( 3 ) 鉆取( d r i l l ) 鉆取是指改變維度的層次,交換分析的粒度。包括向向上鉆取( d r i l l u p ) 和下 鉆取( d r i l l d o w n ) 。上鉆是在某一維上將較低層次的細(xì)節(jié)數(shù)據(jù)聚集到高層次的匯總 數(shù)據(jù);而下鉆則相反,從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)來進(jìn)行觀察。 ( 4 ) 數(shù)據(jù)旋轉(zhuǎn) 旋轉(zhuǎn)是指改變展示數(shù)據(jù)時維度的位置關(guān)系,使用戶可以從不同的視角來觀察多 維數(shù)據(jù)。例如,交換行維度和列維度的位置,或是把某一個行維度移到列維度中去。 2 2 4 聯(lián)機(jī)分析系統(tǒng)的分類 現(xiàn)代聯(lián)機(jī)分析系統(tǒng)一般以數(shù)據(jù)倉庫作為基礎(chǔ),從數(shù)據(jù)倉庫中抽取出數(shù)據(jù)的一個 子集,經(jīng)過必要的聚集存儲到聯(lián)機(jī)分析數(shù)據(jù)庫中,以供前端分析工具讀取。聯(lián)機(jī)分 析系統(tǒng)按照其數(shù)據(jù)存儲模式的不同可以分為r e l a t i o n a lo l a p ( 簡稱r o l a p ) 、 m u l t i d i m e n s i o n a lo l a p ( 簡稱m o l a p ) 和h y b r i do l a p ( 簡稱h o l a p ) 三種類型 3 0 1 o ( 1 ) r o l a p r o l a p 是基于關(guān)系數(shù)據(jù)庫實現(xiàn)的,將分析用的多維數(shù)據(jù)以二維表格的形式存儲 在關(guān)系數(shù)據(jù)庫中。對用戶可能的查詢,優(yōu)先利用事先計算好的實視圖來產(chǎn)生查詢結(jié) 果,以提高查詢效率。同時現(xiàn)有關(guān)系型數(shù)據(jù)庫也對o l a p 作相應(yīng)的優(yōu)化,比如并行 查詢、并行數(shù)據(jù)管理、并行存儲、位圖索引和s q l 的o l a p 擴(kuò)展等。r o l a p 的特 點是細(xì)節(jié)數(shù)據(jù)、聚合后的數(shù)據(jù)都保存在關(guān)系型的數(shù)據(jù)庫中。這種方式查詢效率最低, 但是如果數(shù)據(jù)量比較小的話,用這種方法未嘗不可。 ( 2 ) m o l a p m o l a p 是基于多維數(shù)據(jù)組織的o l a p 實現(xiàn)形式。將o l a p 分析所用到的多維 數(shù)據(jù)物理上存儲為多維數(shù)組的形式,多維數(shù)據(jù)將形成“立方塊c u b e ”的結(jié)構(gòu)。在 m o l a p 中,對“立方塊 的切片、切塊、旋轉(zhuǎn)是分析多維數(shù)據(jù)的重要手段。由于 m o l a p 采用的是新的存儲結(jié)構(gòu),物理層存儲多維數(shù)據(jù),又稱為物理o l a p ;而 r o l a p 主要通過一些中間軟件實現(xiàn),數(shù)據(jù)仍存儲在關(guān)系數(shù)據(jù)庫中,因此也稱為虛擬 o l a p 。 ( 3 ) h o l a p h o l a p 結(jié)合了m o l a p 和r o l a p 各自的優(yōu)點,將細(xì)節(jié)數(shù)據(jù)保留在關(guān)系型數(shù)據(jù) 庫的中,但是聚合后的數(shù)據(jù)保存在多維數(shù)據(jù)集中。目前,h o l a p 還沒有一個正式 1 s 哈爾濱工程大學(xué)碩七學(xué)位論文 的定義,但很明顯h o l a p 結(jié)構(gòu)不應(yīng)該是m o l a p 與r o l a p 結(jié)構(gòu)的簡單組合,而是 這兩種結(jié)構(gòu)技術(shù)優(yōu)點的有機(jī)結(jié)合,能滿足用戶各種復(fù)雜的分析請求。 2 3 本章小結(jié) 本章主要介紹了數(shù)據(jù)倉庫和o l a p 技術(shù)的基本理論,對數(shù)據(jù)倉庫的定義,體系 結(jié)構(gòu),建模技術(shù)以及o l a p 技術(shù)的定義、特點、基本操作和分類等作了簡要介紹。 1 6 第3 章綜合分析系統(tǒng)的設(shè)計 第3 章綜合分析系統(tǒng)的設(shè)計 電信話務(wù)綜合分析系統(tǒng)是構(gòu)架子電信各個專業(yè)網(wǎng)管之上的綜合業(yè)務(wù)分析系統(tǒng), 主要從各個網(wǎng)管系統(tǒng)中采集相關(guān)業(yè)務(wù)數(shù)據(jù),創(chuàng)建數(shù)據(jù)倉庫,建立o l a p 多維分析模 型,從各種角度、多層次地對c 網(wǎng)、固網(wǎng)和信令等關(guān)鍵性能指標(biāo)進(jìn)行深入分析,找 出各專題關(guān)鍵性能指標(biāo)的變化規(guī)律和趨勢,從而發(fā)現(xiàn)網(wǎng)絡(luò)運行存在的問題;分析不 同業(yè)務(wù)對網(wǎng)絡(luò)的占用情況,統(tǒng)籌分配網(wǎng)絡(luò)資源;分析通信網(wǎng)絡(luò)的運行狀況,對各網(wǎng) 元的性能指標(biāo)、處理能力、系統(tǒng)容量及系統(tǒng)故障等進(jìn)行觀察分析,為全網(wǎng)的平穩(wěn)運 行提供保障。 考慮到系統(tǒng)應(yīng)該具有開放性和可擴(kuò)展性,本系統(tǒng)采用前端數(shù)據(jù)采集層、s q l s e r v e r 數(shù)據(jù)倉庫和用戶終端三層體系結(jié)構(gòu)【3 l 】。前端數(shù)據(jù)采集層將各專業(yè)網(wǎng)管系統(tǒng)數(shù)據(jù) 庫中原始的業(yè)務(wù)數(shù)據(jù),進(jìn)行e t l 處理后存放于數(shù)據(jù)倉庫中,在數(shù)據(jù)倉庫中建立多維數(shù) 據(jù)集,用戶可以通過w e b 瀏覽器訪問多維數(shù)據(jù)集,完成所需的各種o l a p 分析操作。 綜合話務(wù)分析系統(tǒng)采用先進(jìn)數(shù)據(jù)倉庫和o l a p 技術(shù),能夠滿足多層次用戶靈活的多 視角的分析需求,能輔助領(lǐng)導(dǎo)層進(jìn)行網(wǎng)絡(luò)運行維護(hù)決策,提高網(wǎng)絡(luò)運行的管理水平,提 升網(wǎng)絡(luò)運行質(zhì)量,提高客戶滿意度。 3 1 收集和分析業(yè)務(wù)需求 隨著電信各專業(yè)網(wǎng)管系統(tǒng)的不斷建設(shè)和深入應(yīng)用,逐漸積累了大量寶貴的網(wǎng)絡(luò)運行 狀況數(shù)據(jù)和性能數(shù)據(jù),但目前沒有一個有效的分析工具來對這些海量的數(shù)據(jù)進(jìn)行分析, 沒有充分發(fā)揮出歷史數(shù)據(jù)的真正作用;同時,移動通信網(wǎng)絡(luò)發(fā)展迅速,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜, 網(wǎng)絡(luò)的建設(shè)及維護(hù)人員也需要一個有效的分析工具,來分析和了解網(wǎng)絡(luò)運行狀況【3 2 1 。而 網(wǎng)絡(luò)的運行狀況是通過網(wǎng)絡(luò)系統(tǒng)中各種設(shè)備的運行數(shù)據(jù)來反映的,要加強(qiáng)網(wǎng)絡(luò)的管理就 必須利用有效的方法或工具,來全面而準(zhǔn)確的分析網(wǎng)絡(luò)運行狀況的各項數(shù)據(jù),發(fā)現(xiàn)隱含 在這些數(shù)據(jù)中潛在的網(wǎng)絡(luò)問題,只有對網(wǎng)絡(luò)運行狀況的充分了解,才能合理配置網(wǎng)絡(luò)資 源,讓有限的資源發(fā)揮最大的作用。 根據(jù)電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論