版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
PAGE2-目錄TOC\o"1-4"\h\z\u1背景 -1-2需求概述 -2-2.1電量分析 -2-2.1.1基本指標 -2-2.1.2深度分析 -3-2.2供電可靠性分析 -4-2.3電壓合格率分析 -5-2.4線損分析 -6-2.4.1基本指標 -7-2.4.2深度分析 -8-2.4.3圖形展示 -9-2.5裝備水平分析 -9-2.6人力資源分析 -10-3解決方案 -11-3.1創(chuàng)建倉庫模型 -11-3.1.1主題1售電量 -11-3.1.2主題2用電量 -12-3.2數(shù)據(jù)抽取規(guī)則 -13-3.2.1分析業(yè)務系統(tǒng)庫,對數(shù)據(jù)字典進行分類 -14-3.2.2找出各業(yè)務系統(tǒng)內(nèi)及其與目標數(shù)據(jù)庫之間存在的數(shù)據(jù)不一致。 -15-3.2.3設計出合適的轉(zhuǎn)換規(guī)則 -17-3.2.4設計數(shù)據(jù)抽取流程 -17-3.2.5設計數(shù)據(jù)抽取的流程的抽取方式,并開始數(shù)據(jù)的抽取 -18-3.2.6對抽取到數(shù)據(jù)倉庫中的數(shù)據(jù),進行驗證 -19-3.2.7完成數(shù)據(jù)的抽取 -19-3.3OLAP多維分析 -19-3.3.1多角度分析 -20-3.3.2圖形展示 -23-3.4數(shù)據(jù)挖掘 -24-3.4.1關聯(lián)分析 -25-3.4.2分類分析 -27-3.4.3預測分析 -28-4采用的技術(shù)及相關產(chǎn)品 -29-4.1構(gòu)建數(shù)據(jù)倉庫的技術(shù)步驟 -29-4.2相關產(chǎn)品介紹 -31-4.2.1WarehouseManager -32-4.2.2CubeViews -34-4.2.2.1概述 -34-4.2.2.2建模及優(yōu)化過程 -36-4.2.3OLAPServer -37-4.2.3.1概述 -37-4.2.3.2使用MOLAP系列工具建立電力分析模型 -40-4.2.4Alphablox -43-4.2.4.1概述 -43-4.2.4.2AlphaBlox體系結(jié)構(gòu) -44-4.2.4.3AlphaBlox應用 -46-4.2.4.4Cube分析引擎(AlphabloxCubingEngine) -47-4.2.5IntelligentMiner -48-4.2.5.1數(shù)據(jù)挖掘評分組件(IMScoring) -49-4.2.5.2數(shù)據(jù)挖掘建模組件(IMModeling) -50-4.2.5.3數(shù)據(jù)挖掘圖示化組件(IMVisualization) -51-5實施計劃 -52-5.1地緯公司的技術(shù)、實力與經(jīng)驗 -52-5.2實施開發(fā)綜述 -52-5.3實施開發(fā)計劃 -53-一、需求分析階段 -53-二、物理建模階段 -54-三、數(shù)據(jù)轉(zhuǎn)換(即ETL過程)階段 -54-四、生成多維模式并搭建立方體階段 -54-五、多維分析及展現(xiàn)階段 -54-六、數(shù)據(jù)挖掘階段 -55-附:工程實施整體計劃一覽表 -55-1背景隨著計算機應用技術(shù)的普及,電力行業(yè)信息化建設得以突飛猛進的發(fā)展,營銷MIS系統(tǒng)、抄表自動化系統(tǒng)、配電GIS系統(tǒng)、調(diào)度自動化系統(tǒng)、變電生產(chǎn)管理系統(tǒng)、以及辦公自動化OA系統(tǒng)等基礎應用系統(tǒng)已經(jīng)在各電力企業(yè)得以建成并穩(wěn)定運行。如何利用更前端的計算機技術(shù),在這些基礎應用系統(tǒng)之上,建立更高層次的應用,已成為各電力企業(yè)對內(nèi)提高自身管理水平和運行效率、對外提高服務質(zhì)量、最終提升企業(yè)自身競爭力的重要手段。目前,各級電力公司迫切需要對大量詳盡真實的歷史數(shù)據(jù)進行綜合分析,及時準確地掌握公司電力營銷狀況,科學地預測電力市場的發(fā)展趨勢,為制定電力政策和電力市場營銷戰(zhàn)略提供依據(jù)。因此,運用數(shù)據(jù)倉庫技術(shù)和輔助決策支持相關技術(shù),建設電力營銷數(shù)據(jù)倉庫和輔助決策支持系統(tǒng)已成為一項關鍵的任務。在這種形勢下,濟南市供電局適時提出了建立濟南供電局輔助決策支持系統(tǒng)的任務,通過對數(shù)據(jù)庫數(shù)據(jù)和人工錄入數(shù)據(jù)的挖掘,以指標體系為中心,進行深度分析和挖掘,為不同層次的管理人員提供決策的信息支持。濟南供電局輔助決策支持系統(tǒng)第一階段主要以電量、電壓合格率、供電可靠性、線損關鍵指標,輸、配、變電設備裝備水平,人力資源為重點。本方案暫以電量為主題給出建設實施初步方案。
2需求概述2.1電量分析通過對全公司、分部門、分變電站、分電壓等級、分時間段、分線路的供電量和售電量的數(shù)據(jù)顯示,提供電量的基本指標數(shù)據(jù)。通過基本數(shù)據(jù)的再挖掘可實現(xiàn)不同用電時間段的售電量分析、不同地區(qū)的用電分析、不同電價類別的售電量分析、不同行業(yè)的用電分析、大用戶分析。數(shù)據(jù)來源營銷自動化系統(tǒng)。2.1.1基本指標全公司供電量,各供電部公用區(qū)供電量,無損供電量電量,躉售供電量(按線路名稱統(tǒng)計、按躉售縣單位統(tǒng)計)全公司售電量,各供電部公用區(qū)售電量,躉售電量統(tǒng)計表(按線路名稱統(tǒng)計、按躉售縣單位統(tǒng)計),無損電量(按電壓等級),各單位電費口徑售電量、線損口徑售電量,各單位分壓售電量表,各單位分線售電量(各客戶售電量明細)。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)任意時間段的分線供電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)任意時間段的分線售電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段的分電壓售電量按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段任意關口計量點供電量。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段任意受電計量點售電量。2.1.2深度分析不同用電時間段的售電量分析根據(jù)不同月份用電總量統(tǒng)計數(shù)據(jù),縱向分析各個月份售電量變化趨勢,橫向比較不同月份售電量差異,形成多維分析,比較不同月份之間售電量變化的差異;了解市場需求的時間屬性,及時捕捉市場的變化。不同地區(qū)的用電分析分析地區(qū)售電量歷史數(shù)據(jù),形成該地區(qū)售電量變化曲線,根據(jù)曲線走勢判斷該地區(qū)未來電量變化趨勢;分析各地區(qū)對總體售電量漲跌的貢獻率;根據(jù)該地區(qū)各行業(yè)用戶分布情況,結(jié)合行業(yè)發(fā)展綜合指標,進一步分析、判斷該地區(qū)售電量潛力;分析各經(jīng)濟指標對電量漲幅的貢獻率。不同電價類別的售電量分析針對不同類別的電價,統(tǒng)計售電量歷史數(shù)據(jù),分析不同類別電價的對應售電量變化趨勢;通過多維分析,橫向和縱向相結(jié)合,立體、直觀地分析售電量變化率差異,可以得到不同電價類別的售電量增長潛力,為用電營銷部分的電價調(diào)整提供決策依據(jù)。不同行業(yè)的用電分析按照行業(yè)分類,統(tǒng)計行業(yè)售電量,比較歷史數(shù)據(jù),形成不同行業(yè)售電量變化曲線;縱向分析某一行業(yè)售電量隨時間變化的趨勢;橫向比較不同行業(yè)售電量的差異,重點關注不同行業(yè)之間售電量變化示行業(yè)用電潛力、各類用戶需求潛力和區(qū)域用電增長潛力等,為企業(yè)決策人員提供重要的決策依據(jù)。大用戶分析大用戶分析是用電營銷的重要環(huán)節(jié)。從各種角度分析大用戶的用電特征,制定貼身的營銷策略,獲取更高經(jīng)營利潤。綜合統(tǒng)計分析用電量排名前十的用戶用電量增長排名前十的用戶出現(xiàn)負增長的用戶某月用電量的日分析與溫度同軸顯示售電量,同比增長率,按單位、季度、用電類型,結(jié)合業(yè)擴分析增長原因。對緊急限電序位方案表進行管理。包括負荷接近能力的預警,超負荷運行報警等、限電序列資料等。2.2供電可靠性分析全公司、分單位的供電可靠率、用戶平均停電時間、停電用戶平均停電時間的基本數(shù)據(jù)。按月停電時間超過10小時的線路以及停電時間的長短和停電次數(shù)分別對明細排序。在此基礎上可進行可靠性影響因素分析計劃停電、臨時停電、故障對供電可靠率RS-1的影響,并詳細分析故障對可靠率的具體影響。數(shù)據(jù)來源抄表自動化、配電GIS。具體指標如下:用戶停電的明細(報表形式)對基本顯示數(shù)據(jù),按單位柱狀圖和報表顯示,歷史同期對比的柱狀圖顯示,本年度發(fā)展趨勢的折線圖顯示。可靠性影響因素,按單位和影響因素的柱狀圖和報表顯示,歷史同期對比的柱狀圖顯示,本年度發(fā)展趨勢的折線圖顯示。具體影響因素,按影響因素的柱狀圖和報表顯示,歷史同期對比的柱狀圖顯示,本年度發(fā)展趨勢的折線圖顯示。月停電時間超過10小時的線路報表顯示(本月),具體每條線路的本年度歷史停電時間折線圖顯示。按停電時間的長短和停電次數(shù)分別對明細排序(本月)。2.3電壓合格率分析基本指標:城市綜合電壓合格率、A類電壓合格率、B類電壓合格率、C類電壓合格率、D類電壓合格率等基本數(shù)據(jù)。通過對幾個系統(tǒng)數(shù)據(jù)的深度挖掘,可對A類電壓合格率分析電壓質(zhì)量監(jiān)測點越上限在每天的時間段分布;和該段時間內(nèi)主變壓器分接頭位置、電容器投切狀態(tài)、系統(tǒng)負荷情況的信息顯示在一張圖標上,判斷每天越限時間出現(xiàn)的時間段是否大致相同、是否自動調(diào)壓、電容器是否自動投切。B、C類電壓合格率,分析最差的幾個電壓質(zhì)量監(jiān)測點的供電半徑、無功配備情況,所供變電站無功補償情況,以分析原因。數(shù)據(jù)來源抄表自動化系統(tǒng)、調(diào)度自動化系統(tǒng)。WEB展示要求:綜合電壓合格率趨勢分析,歷史同期對比(折線圖)。分類別電壓合格率趨勢分析,歷史同期對比(折線圖)。具體明細的報表形式。分單位的趨勢分析,歷史同期對比(折線圖)。具體電壓質(zhì)量監(jiān)測點的電壓合格率趨勢分析,歷史同期對比(折線圖)。A類電壓質(zhì)量監(jiān)測點全天明細與主變壓器分接頭位置、電容器投切狀態(tài)、系統(tǒng)負荷情況同軸顯示。B、C、D類全月顯示與供電半徑、系統(tǒng)負荷情況、無功配備情況,所供變電站無功補償情況同軸顯示。2.4線損分析按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)任意時間段的分線線損率以及母線不平衡率等線損管理小指標查詢分析。掌握任意時間段任意計量點檔案資料展示各時段線損情況,并可以對線損率進行多項分析,包括綜合指標分析、線損組成分析、趨勢分析、供(售)電量增長分析、用戶分類用電分析等子系統(tǒng),對綜合、線損率歷史趨勢進行全面分析,用戶用電量增長分析。分析線路最近線損率變化異常??梢苑謱又鸩椒治?,分析這條線路下的任一計量點電量、檔案資料等。對線損異常的線路,查詢線路手拉手運行記錄、用電量波動較大的客戶用電信息、客戶更換供電線路查詢、營銷自動化系統(tǒng)中各種基礎數(shù)據(jù)查詢,縮小對異常線路的分析范圍,使分析更有針對性。實時形成每時段線損率,實現(xiàn)超高報警。異常分析,對線損率變化異常的線路(售電量變化異常用戶)報警。提供降損決策分析,包括調(diào)整電壓,送電線路升壓,并聯(lián)無功補償,增加并列線路,增大導線面積等多種降損決策綜合分析.數(shù)據(jù)來源抄表自動化系統(tǒng)。2.4.1基本指標全公司供電量,各供電部公用區(qū)供電量,無損供電量電量,躉售供電量(按線路名稱統(tǒng)計、按躉售縣單位統(tǒng)計)全公司售電量,各供電部公用區(qū)售電量,躉售電量統(tǒng)計表(按線路名稱統(tǒng)計、按躉售縣單位統(tǒng)計),無損電量(按電壓等級),各單位電費口徑售電量、線損口徑售電量,各單位分壓售電量表,各單位分線售電量(各客戶售電量明細)。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)任意時間段的分線供電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)任意時間段的分線售電量查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)任意時間段的分線線損率查詢分析。按照供電區(qū)域(全局、部門、變電站)任意時間段的母線不平衡率等線損管理小指標查詢分析。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段的分電壓售電量按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段任意關口計量點供電量。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段任意受電計量點售電量。按照供電區(qū)域(全公司、部門、變電站、電壓等級、線路)查詢?nèi)我鈺r間段任意計量點檔案資料2.4.2深度分析以上指標的上月同期,去年同期和指標值比對展示各時段線損情況,并可以對線損率進行多項分析,包括綜合指標分析、線損組成分析、趨勢分析、供(售)電量增長分析、用戶分類用電分析等子系統(tǒng),對綜合、線損率歷史趨勢進行全面分析,用戶用電量增長分析。手拉手線路拉手情況匯總表。手拉手線路線損綜合統(tǒng)計分析。分析線路最近線損率變化異常??梢苑謱又鸩椒治觯治鲞@條線路下的任一計量點電量、檔案資料等。對線損異常的線路,查詢線路手拉手運行記錄、用電量波動較大的客戶用電信息、磁卡表電量分析、客戶抄表時間查詢、客戶更換供電線路查詢、營銷自動化系統(tǒng)中各種基礎數(shù)據(jù)查詢,縮小對異常線路的分析范圍,使分析更有針對性。手拉手線路線損分析。在計算線損時因為線路調(diào)度可能引起誤差,分析綜合線損。實時形成每時段線損率,實現(xiàn)超高報警。異常分析,對線損率變化異常的線路(售電量變化異常用戶)報警。提供降損決策分析,包括調(diào)整電壓,送電線路升壓,并聯(lián)無功補償,增加并列線路,增大導線面積等多種降損決策綜合分析.2.4.3圖形展示以上指標和分析的圖形柱狀圖、折線圖、餅圖展示。可以任意選擇一條或幾條線路進行分析。對超過一定范圍的數(shù)據(jù)用紅色顯示。顯示某時間點的線損情況。如顯示各10點的線損曲線。可以分析某一時間段數(shù)據(jù)。每天的線損情況,可以顯示每天的線損曲線。以及每條線路每月線損曲線。2.5裝備水平分析變電站,開關、互感器、隔離開關、變壓器容量、保護綜自設備按變電站、電壓等級、產(chǎn)品型號、類型顯示統(tǒng)計結(jié)果。統(tǒng)計變電綜合自動化率、雙配置率、無油化率、組合化率。以及變電設備到期需檢修、試驗設備。檢修試驗完成率。統(tǒng)計缺陷按數(shù)量、類型、變電站等展現(xiàn)歷史變化曲線圖形點擊可直接顯示明細。輸配電線路總條數(shù),總長度。輸電線路按電壓等級、型號、架空和電纜、投運時間(年)、資產(chǎn)統(tǒng)計條數(shù)和長度。配電線路按單位、資產(chǎn)性質(zhì)、電纜架空、顯示統(tǒng)計結(jié)果。架空配電線路、配電變壓器、低壓臺區(qū)個數(shù),配電室、箱變、臺架、配電室、開關站、環(huán)網(wǎng)柜、分支箱、聯(lián)絡柱上開關、分段柱上開關顯示統(tǒng)計結(jié)果。并可按照臺帳中的設備投運日期統(tǒng)計需更換設備,按照試驗時期統(tǒng)計需進行試驗的設備,按照巡視周期應進行巡視的線路及設備等。數(shù)據(jù)來源配電GIS,變電生產(chǎn)管理系統(tǒng)。2.6人力資源分析人員基本信息,可按部門、性別、身份、年齡結(jié)構(gòu)、工作年限、人員分類、專業(yè)職務、政治面貌、文化程度、用工形式、技能工資、崗位工資進行統(tǒng)計,并可交叉統(tǒng)計。構(gòu)建歷史數(shù)據(jù),反映職工調(diào)動紀錄,記錄調(diào)動時間,前后部門、崗位變動,主業(yè)職工人數(shù)、三產(chǎn)職工人數(shù)歷史曲線,生產(chǎn)、管理人員人數(shù)及比例歷史紀錄,全局人員、生產(chǎn)人員、管理人員中各種學歷比例歷史紀錄可進行技能結(jié)構(gòu)分析、學歷層次分析、員工年齡變化趨勢分析、年齡結(jié)構(gòu)分析、專業(yè)分析統(tǒng)計、中層干部結(jié)構(gòu)分析、公司機關人員現(xiàn)狀分析、高級技能人才比例、人才密度等統(tǒng)計顯示。數(shù)據(jù)來源人事MIS系統(tǒng)。
3解決方案3.1創(chuàng)建倉庫模型 根據(jù)對電力行業(yè)的營銷系統(tǒng)、調(diào)度系統(tǒng)、抄表自動化系統(tǒng)等的了解,我們提取了售電量、用電量兩個主題,并根據(jù)可能影響該主題的相關因素,設計出該主題的星型模式。3.1.1主題1售電量主題售電量影響電量的因素:用戶(含大客戶)時間(粒度為天)行業(yè)分類用電類別電價類別供電區(qū)域 ——地區(qū) ——部門 ——變電站 ——線路 ——公用區(qū)電壓等級***售電量***構(gòu)建的星型模式:圖3-1售電量的星型模型3.1.2主題2用電量主題用電量影響電量的因素:變壓器時間(粒度為天)供電區(qū)域 ——地區(qū) ——部門 ——變電站 ——線路 ——公用區(qū)電壓等級業(yè)擴——新增——增容外部因素——天氣(溫度)——政策——電價調(diào)整——經(jīng)濟形勢***用電量***構(gòu)建的星型模式:圖3-2用電量的星型模型3.2數(shù)據(jù)抽取規(guī)則數(shù)據(jù)抽取是根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源(包括各平臺的數(shù)據(jù)庫、文本文件、HTML文件、知識庫等)進行清理、轉(zhuǎn)換,對數(shù)據(jù)進行重新組織和加工,裝載到數(shù)據(jù)倉庫的目標庫中。在組織不同來源的數(shù)據(jù)過程中,先將數(shù)據(jù)轉(zhuǎn)換成一種中間模式,再把它移至臨時工作區(qū)。加工數(shù)據(jù)是保證目標數(shù)據(jù)庫中數(shù)據(jù)的完整性、一致性。在數(shù)據(jù)抽取過程中,必須在最終用戶的密切配合下,才能實現(xiàn)數(shù)據(jù)的真正統(tǒng)一。早期數(shù)據(jù)抽取是依靠手工編程和程序生成器實現(xiàn),現(xiàn)在則通過高效的工具來實現(xiàn),如Ardent公司的Infomoter產(chǎn)品、SAS的數(shù)據(jù)倉庫產(chǎn)品SAS/WA(WarehouseAdministrator)及各大數(shù)據(jù)倉庫廠商推出的、完整的數(shù)據(jù)倉庫解決方案。在本解決方案中,我們將采用IBM公司的DB2WarehouseManager來完成數(shù)據(jù)抽取。3.2.1分析業(yè)務系統(tǒng)庫,對數(shù)據(jù)字典進行分類了解各個業(yè)務系統(tǒng)庫,分析需要從那些業(yè)務系統(tǒng)庫抽取數(shù)據(jù),并分析各個系統(tǒng)之間的聯(lián)系,熟悉要抽取數(shù)據(jù)的業(yè)務系統(tǒng)庫的數(shù)據(jù)字典。然后,對源數(shù)據(jù)庫中的數(shù)據(jù)進行細分,將數(shù)據(jù)字典中的各字段轉(zhuǎn)換到分類數(shù)據(jù)表中,然后將整個數(shù)據(jù)抽取的過程建立在分類數(shù)據(jù)表的基礎上。分類數(shù)據(jù)抽取策略的實質(zhì)是將創(chuàng)建集合記錄過程中對導入記錄映像的分類和再分類工作的一部分提前至鍵值定義中,使得原本無法并行的概括鍵值和分類抽取集合鍵值過程變得可以并行操作,而且并行操作的各類人員或程序有了更明確的任務劃分,起到了分工合作的作用。從而在數(shù)據(jù)倉庫和數(shù)據(jù)集市的構(gòu)建中,將源字段分類、分類字段鍵值概括、已抽取數(shù)據(jù)的再分類等工作分派給不同的人員并行處理,形成流水線效應,提高了工作效率。 分類數(shù)據(jù)抽取策略的過程如圖3-3所示:圖3-3分類數(shù)據(jù)抽取策略過程3.2.2找出各業(yè)務系統(tǒng)內(nèi)及其與目標數(shù)據(jù)庫之間存在的數(shù)據(jù)不一致。各個源數(shù)據(jù)系統(tǒng)是由不同的公司在不同的時間開發(fā)的,數(shù)據(jù)之間都存在很大的不一致。在不同的系統(tǒng)中,同一實體的編碼類型可能不一致。例如,有兩個數(shù)據(jù)源存儲與客戶有關的信息,在定義數(shù)據(jù)組成的客戶編碼類型時,可能一個用的是可變字符型,而另一個用的是整型;在不同的系統(tǒng)中,同一實體的編碼方案可能不一致。例如,在定義客戶性別這一屬性的類型時,一個可能是char(2),存儲的數(shù)據(jù)值為"男"和"女",另一個屬性類型為char(1),數(shù)據(jù)值為"F"和"M";有的系統(tǒng)還可能用的是0、1和2,0表示男,1表示女,2表示性別未知。不同系統(tǒng)中,數(shù)據(jù)存儲的粒度可能不一致。例如,在抄表自動化系統(tǒng)中,對大客戶的抄表時間間隔精確到小時,但是在目標數(shù)據(jù)倉庫中,需要將抄表時間間隔精確到天。數(shù)據(jù)需要清理。有的系統(tǒng)因為開發(fā)時間比較早,存儲它里面的數(shù)據(jù)可能已經(jīng)不在滿足現(xiàn)在實際需求,成為錯誤數(shù)據(jù)。例如,在老的歷史數(shù)據(jù)中,存在一個計量點對應多個有功表的情況,這是不符合實際需求的,但是,我們又必須要使用這些老的歷史數(shù)據(jù),這就要求對這些存在錯誤的歷史數(shù)據(jù)進行清洗、整理,以符合實際需求。在某些情況下,為了保證輸入數(shù)據(jù)的正確性,需要一個簡單的算法。在復雜情況下,需要調(diào)用人工智能的一些子程序把輸入數(shù)據(jù)清理為可接受的輸出形式。一個維可能有多個級別,在業(yè)務系統(tǒng)庫中,這些數(shù)據(jù)可能存儲在多個表中,這需要將包含在多個表中的有關數(shù)據(jù)進行合理合并。例如,客戶維包括供電局、供電所和客戶三個級別,它的層次如圖3-4所示:客戶維客戶維……供電局……供電所……客戶圖3-4客戶維的層次供電局、供電所的信息存儲單位信息表中,客戶信息存儲在客戶基本信息中,這就需要對兩張表進行合并。目標倉庫可能只關心業(yè)務系統(tǒng)庫表中的一部分數(shù)據(jù)。例如,在業(yè)務系統(tǒng)庫的客戶基本信息中,可能根據(jù)時間存放了一個客戶的多條信息,但是目標倉庫對每個客戶只需要一條信息就足夠了,這就需要對數(shù)據(jù)進行清洗。需要提供缺省值。有時候,數(shù)據(jù)倉庫的一個輸出值沒有對應的輸入源。這時,必須提供缺省值。必須進行數(shù)據(jù)格式的轉(zhuǎn)換。例如,EBCDIC到ASCII的轉(zhuǎn)換(或反過來)必須進行;有關日期的輸入數(shù)據(jù)格式是YY/MM/DD,當它被寫入輸出文件時,需要轉(zhuǎn)化為DD/MM/YY的格式。3.2.3設計出合適的轉(zhuǎn)換規(guī)則針對各個業(yè)務系統(tǒng)庫數(shù)據(jù)之間不一致,制定出相應的轉(zhuǎn)換規(guī)則各個系統(tǒng)編碼類型的轉(zhuǎn)換。例如,源系統(tǒng)中,客戶編碼用的是整型,目標倉庫中,用的是char(12),那么將整型的每位轉(zhuǎn)換成一位字符,轉(zhuǎn)換完成,不足12位的,在前面用字符‘0’補足12位。各個系統(tǒng)編碼方案的轉(zhuǎn)換。例如,源系統(tǒng)中,客戶性別用的是“男”、“女”,而目標倉庫中,用的是“0”,“1”,“2”,那么做如下轉(zhuǎn)換:男->0女->1空值->2對數(shù)據(jù)進行清理。例如,對一個計量點存在多個有功表的情況,就要按照實際情況,要么拆分成多個計量點,要么,將多個有功表進行求和。數(shù)據(jù)格式進行轉(zhuǎn)換。例如,ASCII碼轉(zhuǎn)換成EBCDIC,需要使用相應的轉(zhuǎn)換函數(shù)。3.2.4設計數(shù)據(jù)抽取流程每個數(shù)據(jù)抽取流程完成一個功能相對獨立的實體的數(shù)據(jù)抽取,比如,一個抽取流程完成一個維或事實表的數(shù)據(jù)抽取。在本方案中,我們將借助于IBM公司的可視化數(shù)據(jù)抽取工具DB2WarehouseManager來完成數(shù)據(jù)抽取流程的設計。一個數(shù)據(jù)抽取流程可能會涉及到多個表,需要運用多個數(shù)據(jù)抽取規(guī)則,進行多個數(shù)據(jù)轉(zhuǎn)換,并且各個數(shù)據(jù)轉(zhuǎn)換之間存在制約關系,一個轉(zhuǎn)換必需在某個或某幾個轉(zhuǎn)換完成之后才能進行。例如,客戶維的數(shù)據(jù)抽取流程需要從系統(tǒng)信息表和客戶基本信息表中抽取數(shù)據(jù),并且需要將客戶基本信息表中不需要的客戶信息清洗掉??蛻艟S數(shù)據(jù)抽取流程在DB2WarehouseManager中的設計如圖3-5所示:圖3-5客戶維數(shù)據(jù)抽取流程3.2.5設計數(shù)據(jù)抽取的流程的抽取方式,并開始數(shù)據(jù)的抽取對大數(shù)據(jù)量實體的數(shù)據(jù)抽取進行整體抽取,可能會占用太多時間,一般會采取增量抽取;對于小數(shù)據(jù)量的實體,可以考慮使用整體抽取。在數(shù)據(jù)抽取流程設計完成之后,就需要指定數(shù)據(jù)抽取流程的抽取方式,比如是人工抽取,還是自動;如果是自動,那么就需要指定開始抽取的時間或時間間隔。對有制約關系的各個抽取流程,還要指定他們之間的先后關系。在數(shù)據(jù)抽取流程的抽取方式設計完成之后,就可以開始數(shù)據(jù)的抽取了。3.2.6對抽取到數(shù)據(jù)倉庫中的數(shù)據(jù),進行驗證 在數(shù)據(jù)抽取到數(shù)據(jù)倉庫后,就需要對數(shù)據(jù)進行驗證,看是否滿足一致性,是否滿足實際需求,是否達到了預期的目標。如果,數(shù)據(jù)沒有達到預期的目標,就要找出不滿足需求的原因,重復步驟3.2.2-3.2.6,重新分析各系統(tǒng)之間存在的問題,重新設計轉(zhuǎn)換規(guī)則、數(shù)據(jù)抽取流程。3.2.7完成數(shù)據(jù)的抽取 手工或定期地啟動數(shù)據(jù)抽取流程,將數(shù)據(jù)從業(yè)務系統(tǒng)庫中抽取到數(shù)據(jù)倉庫中。3.3OLAP多維分析針對電力系統(tǒng)將要建立的數(shù)據(jù)倉庫模型,我們選擇OLAP展示作為數(shù)據(jù)倉庫向用戶提供信息的接口,來滿足決策支持或多維環(huán)境特定的查詢和報表需求。3.3.1多角度分析對同一主題的數(shù)據(jù),OLAP展現(xiàn)可以在不同的角度對數(shù)據(jù)進行展示,用戶可以根據(jù)需要,隨意組合展示的角度和展示的方式。例如,用戶選定對售電量主題進行分析,可以從用戶、時間、行業(yè)分類、用電類別、電價類別、供電區(qū)域、電壓等級角度對售電量進行。用戶在分析的過程中,既可以把上述所有的角度都選定,在各種角度綜合作用下的進行分析,也可以只選擇自己感興趣的角度進行分析。例如,可以進行下列不同角度的展現(xiàn):某行業(yè)在各個時間段內(nèi)的電量趨勢及同期比。某用電類別在各個時間段內(nèi)的電量趨勢及同期比。某電價類別在各個時間段內(nèi)的電量趨勢及同期比。某供電區(qū)域在各個時間段內(nèi)的電量趨勢及同期比。某電壓等級在各個時間段內(nèi)的電量趨勢及同期比。在某段時間內(nèi),各行業(yè)用電量及其在總電量中所占的比重。在某段時間內(nèi),各用電類別用電量及其在總電量中所占的比重。在某段時間內(nèi),各電價類別用電量及其在總電量中所占的比重。在某段時間內(nèi),各供電區(qū)域用電量及其在總電量中所占的比重。在某段時間內(nèi),各電壓等級用電量及其在總電量中所占的比重。某電價類別中,不同供電區(qū)域在某段時間內(nèi)的用電量,及對比。某行業(yè)中,不同供電區(qū)域在某段時間內(nèi)的用電量,及對比。某用電類別中,不同供電區(qū)域在某段時間內(nèi)的用電量,及對比。某供電區(qū)域中,不同供電區(qū)域在某段時間內(nèi)的用電量,及對比。某電壓等級中,不同供電區(qū)域在某段時間內(nèi)的用電量,及對比。在某供電區(qū)域內(nèi),各行業(yè)用電在某段時間內(nèi)用電量,及其在總電量中所占的比重。在某供電區(qū)域內(nèi),各用電類別用電在某段時間內(nèi)用電量,及其在總電量中所占的比重。在某供電區(qū)域內(nèi),各電價類別用電在某段時間內(nèi)用電量,及其在總電量中所占的比重。在某供電區(qū)域內(nèi),各電壓等級用電在某段時間內(nèi)用電量,及其在總電量中所占的比重。某大客戶在各個時間段內(nèi)的電量趨勢及同期比。在某段時間內(nèi),各用電大戶的用電量,及其在總售電量中所占的比重。某行業(yè)中,各用電大戶在某段時間內(nèi)的用電量,及對比。某用電類別中,各用電大戶在某段時間內(nèi)的用電量,及對比。某電價類別中,各電大戶在某段時間內(nèi)的用電量,及對比。某供電區(qū)域中,各電大戶在某段時間內(nèi)的用電量,及對比。某電壓等級中,各電大戶在某段時間內(nèi)的用電量,及對比?!治鰰r除了維度的靈活選擇外,展示系統(tǒng)還支持在某一維度上的鉆取分析。例如,在按照行業(yè)分類和時間角度對售電量進行分析時,用戶可以根據(jù)需要采取向下鉆取(Drill)分析方式,查看時間角度上更細節(jié)的數(shù)據(jù),如可以查看每個季度每月的數(shù)據(jù)或只查看第四季度下面三個月的數(shù)據(jù),如圖3-6所示。圖3-6鉆取分析圖對于某角度細節(jié)粒度的數(shù)據(jù),如各行業(yè)分類每天的售電量,也可以采取上卷(Roll-up)的分析方式查看高粒度上的數(shù)據(jù),如可以對2004年1月份每天的數(shù)據(jù)進行匯總。對于任何一個用戶關心的角度,只要此角度存在層次關系,我們的展示都可以進行此種向高層的上卷和向下層的鉆取操作。讓用戶只是點擊一下鼠標,便可以站在不同層次之間瀏覽數(shù)據(jù),方便用戶既可以對細節(jié)數(shù)據(jù)的把握,有可以滿足用戶對綜合數(shù)據(jù)的需求。 我們的展示對同樣的一組數(shù)據(jù),可以以不同的視角進行展現(xiàn)。對圖3-6所示的數(shù)據(jù),此時展示的是不同的行業(yè)的2004年四個季度的售電量。可以采取旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)分析方法,展示在2004年的四個季度中不同的行業(yè)的售電量。這種旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)操作,使得用戶對擁有同樣角度的數(shù)據(jù),可以這次以這個角度作為觀察的重點,下次又以另一角度作為觀察的重點。此種操作方法,對同一組數(shù)據(jù),給用戶提供更靈活的觀察視角。3.3.2圖形展示 我們的展示既能提供數(shù)字報表展示,還能提供強大的圖形展示功能。可以對數(shù)字報表以柱狀圖、餅圖、折線圖等圖形直觀的展現(xiàn)給用戶,還支持對用戶關心的圖形區(qū)域進一步細化展示的功能。圖3-7給出了兩種圖形的組合圖形報表,左面的餅圖給出了不同地區(qū)的售電量占總售電量的比例,右面的折線圖給出了三種行業(yè)在2002、2003的八個季度中的售電量變化趨勢。圖3-7組合圖形報表我們對一般的圖形展示功能做了擴充,支持在圖表上直接進行分析,可以使用戶方便直觀進行主題分析。如用戶查看2004年四個季度的不同行業(yè)分類的售電量(圖3-8),用戶如果此時僅想查看四個季度的“非普工業(yè)”的售電量,此時只需在“非普工業(yè)”點擊一下,圖形將顯示2004年四個季度的“非普工業(yè)”的售電量情況(3-9)。圖3-8行業(yè)分類售電量展現(xiàn)圖3-9非普工業(yè)售電量展現(xiàn)3.4數(shù)據(jù)挖掘 利用IntelligentMiner可實現(xiàn)關聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等6種信息的挖掘方法。下面舉例說明前3類挖掘。3.4.1關聯(lián)分析比如我們關心各線路之間售電量變化的相關性,這屬于挖掘中的關聯(lián)挖掘。首先我們需要在系統(tǒng)中指定我們認為可能有關聯(lián)的線路,如從線路1到線路10的相關數(shù)據(jù),經(jīng)過系統(tǒng)的運算分析我們可以得到一張如圖3-10所示的圖表:圖3-10關聯(lián)挖掘示意圖圖表可以告訴我們什么?圖中的節(jié)點表示不同的線路,節(jié)點之間的連線表示不同節(jié)點之間的關聯(lián)規(guī)則,連線的顏色代表該關聯(lián)規(guī)則的支持度,而連線的粗細程度代表著該關聯(lián)的改善度。所謂規(guī)則A==>B的支持度是指,A與B同時出現(xiàn)的概率;而A==>B的改善度是指,在A變化的情況下,B一定變化的概率。在圖中我們可以看到,線路8上售電量的改變有80%的概率會引起線路10上售電量的改變,而線路8和線路10在物理上并不一定是鄰近的。在這種情況下,如果我們要在線路8上新增一個用戶,而該用戶的用電量將會把線路8的平均負荷從50%提升到80%,這樣一來,我們是不需要對線路8進行改造的。但通過我們的挖掘分析可以知道,新增的用戶可能會大大提高線路10的平均負荷,而如果線路10本身已經(jīng)接近滿負荷,則我們需要對線路10進行改造。我們可以利用關聯(lián)做什么?有了這樣的工具之后,我們可以分析許多與主題相關因素之間的關系,找到一些潛在的規(guī)則,而這樣的規(guī)則可能是我們在平時的工作中根本不會想到的。比如:供電區(qū)域與用電類別之間的關聯(lián):歷城區(qū)的售電量上漲時,我市大宗工業(yè)的售電量也將大幅上漲。居民照明用電、商業(yè)用電及大宗工業(yè)用電之間的關系:居民照明的售電量大幅上升時,商業(yè)用電也將大幅上升,而大宗工業(yè)的售電量可能會有相應的減少。各電壓等級之間的關系:當35KV以下的售電量大幅減少時,220KV以上的售電量可能會有相應的減少。農(nóng)業(yè)售電量與某種工業(yè)之間的關系:當農(nóng)業(yè)售電量大幅上升時,某特定工業(yè)的售電量可能隨之大幅上升。如果底層數(shù)據(jù)完整,我們甚至可以找出每天的溫度與日售電量之間的關聯(lián)規(guī)則,從而根據(jù)天氣預報來推測下一時間段的售電量。3.4.2分類分析比如我們想按自己的標準對所有的總電量進行分類,而這種標準又可能是不固定的,比如,要看總電量中月用電量大于5萬度的和小于等于5萬度的各占多少,而在月用電量大于5萬度的售電量中,大工業(yè)用電和非大工業(yè)用電各占多少。要實現(xiàn)這樣的目的,我們需要在系統(tǒng)中指定每一層的規(guī)則,經(jīng)過系統(tǒng)的分析運算,我們可以得到一張類似于下圖的一張圖表:圖3-11分類挖掘示意圖圖中顯示的是一棵樹,樹的根結(jié)點代表一定時間段內(nèi)的總電量,結(jié)點上方顯示的漢字即為我們自己定義的分類規(guī)則,在這里,我們把總電量按“月售電量>5萬度”的標準分成兩部分。根結(jié)點的左結(jié)點代表月售電量大于5萬度的用戶的售電量,而右結(jié)點代表小于等于5萬度的售電量。在大于5萬度的售電量中,我們又按“是否大工業(yè)”的標準進行細分,又得到兩個結(jié)點,以此類推。當然,我們可以看到每一結(jié)點的具體數(shù)據(jù),如它在父結(jié)點的總量當中所占有的百分比或絕對數(shù)量。3.4.3預測分析比如我們想根據(jù)大量的歷史數(shù)據(jù)來推測下一時間段(可能是月也可能是年)的售電量。要實現(xiàn)這樣的目的,我們需要在系統(tǒng)中指定預測時間段的長度(如是一個月還是一年)、是否使用特定的模型、使用何種模型及指標預測的角度之后,經(jīng)過系統(tǒng)的運算、分析,我們會得到一張類似于圖3-12的圖表。圖3-12預測分析示意圖在圖中可以看到,我們可以隨時改變相應的預測條件來生成新的預測結(jié)果。預測結(jié)果的展示可以是折線圖,柱狀圖或數(shù)據(jù)表等多種形式。
4采用的技術(shù)及相關產(chǎn)品4.1構(gòu)建數(shù)據(jù)倉庫的技術(shù)步驟 具體來看,開發(fā)數(shù)據(jù)倉庫的流程主要按照下列步驟:啟動工程首先建立開發(fā)數(shù)據(jù)倉庫工程的目標及制定工程計劃。計劃包括數(shù)據(jù)來源、提供者、技術(shù)設備、資源、技能、組員培訓、責任、方式方法、工程跟蹤及詳細工程調(diào)度等。建立技術(shù)環(huán)境選擇實現(xiàn)數(shù)據(jù)倉庫的軟硬件資源,包括開發(fā)平臺、DBMS、網(wǎng)絡通信、開發(fā)工具、終端訪問工具及建立服務水平目標(關于可用性、裝載、維護及查詢性能。)確定主題進行數(shù)據(jù)建模(需求分析)根據(jù)決策需求確定主題,選擇數(shù)據(jù)源,對數(shù)據(jù)倉庫的數(shù)據(jù)組織進行邏輯結(jié)構(gòu)設計。設計數(shù)據(jù)倉庫中的數(shù)據(jù)庫(物理建模)依照需求分析得到的邏輯模式,開發(fā)數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結(jié)構(gòu),即設計多維數(shù)據(jù)結(jié)構(gòu)的事實表和維表。(Warehousemanager)數(shù)據(jù)轉(zhuǎn)換程序(即ETL過程)實現(xiàn)從源系統(tǒng)中抽取、清理、一致化、綜合、裝載數(shù)據(jù)等過程的設計和編碼。(Warehousemanager)管理元數(shù)據(jù)(部分已經(jīng)在步驟4、5中完成)定義元數(shù)據(jù),即表示、定義數(shù)據(jù)的意義及系統(tǒng)各組成部件之間的關系。元數(shù)據(jù)包括關鍵字、屬性、數(shù)據(jù)描述、物理數(shù)據(jù)結(jié)構(gòu)、源數(shù)據(jù)結(jié)構(gòu)、映射及轉(zhuǎn)換規(guī)則、綜合算法、代碼、默認值、安全要求、變化及數(shù)據(jù)時限等。(Warehousemanager)創(chuàng)建倉庫模式用定義好的事實表和維表生成多維模式。注,這個模式不存在層和層次的概念。(Warehousemanager)搭建立方體在已創(chuàng)建的倉庫模式的基礎上,對維定義了層和層次;創(chuàng)建了需要預計算的量度;利用優(yōu)化器根據(jù)業(yè)務進行了切片優(yōu)化和預處理,生成MQT(物化視圖);在模式中建立立方體,供查詢和多維分析使用。(CubeViews)開發(fā)基于多維存儲的OLAP模型前面創(chuàng)建的模型是基于關系存儲的,在這里要創(chuàng)建基于多維存儲的OLAP模型。主要工作分為建模和部署兩步:(OLAPServer)基于倉庫中的表建立OLAP模型首先建立元模型(包括創(chuàng)建星型或雪花模式,定義維、屬性、層和層次等);再建立元輪廓,即將前面定義的元模型轉(zhuǎn)換成OLAPServer所能識別的元數(shù)據(jù)。將建好的模型部署到AS(分析服務器)中;注意,CubeView和Olapserver是兩個并行使用的工具,后者的功能似乎比前者更強大。多維分析及展現(xiàn)使用數(shù)據(jù)分析和展現(xiàn)工具,開發(fā)多維分析程序以及展現(xiàn)頁面。(Alphablox)查詢優(yōu)化IBM提供了專門的查詢優(yōu)化工具QueryPatroller,它通過幫助DBA控制和了解數(shù)據(jù)庫使用情況,從而實現(xiàn)預見性的管理、查詢信息分析、查詢監(jiān)控等。數(shù)據(jù)挖掘利用數(shù)據(jù)挖掘工具抽取以前沒有發(fā)現(xiàn)、可理解的、可操作的信息。包括聚類、關聯(lián)、分類、預測分析等。(IntelligentMiner)管理數(shù)據(jù)倉庫環(huán)境數(shù)據(jù)倉庫必須像其他系統(tǒng)一樣進行管理,包括質(zhì)量檢測、管理決策支持工具及應用程序,并定期進行數(shù)據(jù)更新,使數(shù)據(jù)倉庫正常運行。4.2相關產(chǎn)品介紹IBM公司的DB2數(shù)據(jù)倉庫企業(yè)版提供了完整的數(shù)據(jù)倉庫解決方案,包括DB2ESE、DB2WarehouseManager、DB2CubeViews、DB2OLAPServer、DB2IntelligenceMiner和DB2Alphalox,整體框架如圖4-1所示:圖4-1DB2數(shù)據(jù)倉庫解決方案整體框架 DB2ESE通過使用非共享體系結(jié)構(gòu)、查詢重寫、快速裝載、物化查詢表、復制的查詢匯總表、多維聚簇技術(shù)、動態(tài)位圖索引等技術(shù),來提供了對通用海量并行數(shù)據(jù)倉庫的支持;B2WarehouseManager提供了可視化的界面,方便了數(shù)據(jù)的加載、轉(zhuǎn)換和抽?。籇B2CubeViews是OLAP元數(shù)據(jù)交換工具及物化查詢表生成器,它通過將經(jīng)常關心的查詢做成物化表,大大加快了查詢的速度;OLAPServer是功能強大的OLAP分析工具,它能夠?qū)S進行加、減、乘、除等各種運算;DB2IntelligenceMiner是數(shù)據(jù)挖掘工具,它包括數(shù)據(jù)挖掘建模工具、數(shù)據(jù)挖掘評分工具和數(shù)據(jù)挖掘圖示化工具三部分;DB2Alphablox是遵循J2EE規(guī)范的前端展示開發(fā)平臺,它提供了基于WEB開放標準的標簽語言,可以快速開發(fā)WEB分析應用。4.2.1WarehouseManager WarehouseManager主要負責數(shù)據(jù)倉庫建模、數(shù)據(jù)抽取等工作、倉庫管理等。其主要任務分為以下幾部分:連接數(shù)據(jù)源。它支持關系的數(shù)據(jù)源,也支持平面文件,例txt文件。關系數(shù)據(jù)源可以是IBM的DB2數(shù)據(jù)庫,也可以是其它廠家的數(shù)據(jù)庫產(chǎn)品,例如Oracle、Sybase等。數(shù)據(jù)源的連接可以通過IBM提供的“聯(lián)合數(shù)據(jù)庫”進行管理連接,也可以直接通過ODBC進行連接。定義數(shù)據(jù)倉庫目標。實際包含兩步:定義目標庫對應的數(shù)據(jù)庫;定義目標表或文件。其中,目標表的定義,可以自行進行創(chuàng)建和結(jié)構(gòu)設計,也可以在后面創(chuàng)建的Process中自動生成。定義數(shù)據(jù)抽取規(guī)則。在WarehouseManager中,數(shù)據(jù)的抽取是通過定義Process來實現(xiàn)的,而Process包含了一系列Step,一個Step就是數(shù)據(jù)倉庫中的一個操作,通過使用SQL語言或調(diào)用程序,steps定義了怎樣移動和轉(zhuǎn)換數(shù)據(jù)。通過定義step,即可實現(xiàn)數(shù)據(jù)的抽取及轉(zhuǎn)換。定義主題區(qū)域SubjectArea。主題區(qū)域是存放與業(yè)務中的某個主題相關的進程,其作用類似于資源管理器中的文件夾。例如,定義一個主題區(qū)域SalesSubjectArea,然后在該主題區(qū)域中定義一下4個process:BuildTimeDimensionProcess,BuildProductDimensionProcess,BuildMarketDimensionProcess,BuildSalesFactTableProcess。設置數(shù)據(jù)抽取周期。通過對數(shù)據(jù)抽取相應的Process進行調(diào)度,從而實現(xiàn)自動按周期抽取數(shù)據(jù)。例如客戶信息每個星期要導入一次,則將其對應的Process中的steps設置為“測試”模式后,即可進行調(diào)度,規(guī)定調(diào)度頻率每周星期天12:00執(zhí)行一次;調(diào)度完成后,將steps再設置為“生產(chǎn)”模式,則系統(tǒng)就開始按照調(diào)度設置來執(zhí)行該Process。在此過程中,可以通過“正在運行”窗口來查看被調(diào)度的Process當前的運行情況。創(chuàng)建倉庫模式。倉庫模式分為星型和雪花兩種。在創(chuàng)建倉庫模式的時候,首先定義各個維表的主鍵(可能需要在控制中心和DWC中分別進行定義),然后定義事實表的外鍵。通過主鍵和外鍵的定義,系統(tǒng)可以自動生成倉庫模式。如圖4-2所示。需要注意的是,在DWC中創(chuàng)建的模式中不存在層和層次的概念,即只簡單的定義了維表和事實表的關系。而關于具體的維的層和層次的定義要到CubeViews或OlapServer中定義。圖4-2一個星型模式定義數(shù)據(jù)倉庫安全性,即定義數(shù)據(jù)倉庫用戶組和用戶。第一次登陸DWC時使用的用戶名和密碼是創(chuàng)建數(shù)據(jù)倉庫控制庫時指定的DB2系統(tǒng)的用戶名和密碼。而在這里定義的用戶組和用戶,則是獨立于操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng)的。定義了用戶組和用戶后,每創(chuàng)建一個倉庫對象,例如倉庫源、倉庫目標或Process等,都可以將它們的權(quán)限指定給某些用戶或用戶組。4.2.2CubeViews4.2.2.1概述DB2CubeViews是DB2UniversalDatabase?(DB2通用數(shù)據(jù)庫)的一個加載功能部件,用于改進DB2UDB?執(zhí)行OLAP處理的能力。通過DB2CubeViews,可以描述關系表的維結(jié)構(gòu)并創(chuàng)建OLAP構(gòu)造。DB2UDB中的新多維元數(shù)據(jù)具有以下兩個主要優(yōu)點:優(yōu)點一、改進商業(yè)智能工具和應用程序之間的多維元數(shù)據(jù)流動性使用OLAP中心(附帶的一種圖形界面),倉儲和商業(yè)智能工具的用戶可以將多維元數(shù)據(jù)作為DB2數(shù)據(jù)庫一部分來存儲,并使其可用于所有工具和應用程序。優(yōu)點二、增強OLAP式的查詢的性能基于多維元數(shù)據(jù),可以使用OLAP中心中的優(yōu)化顧問程序的建議來創(chuàng)建DB2摘要表。摘要表包含映射到OLAP結(jié)構(gòu)的預計算數(shù)據(jù)。從具有相同OLAP結(jié)構(gòu)的倉儲或商業(yè)智能應用程序生成的查詢的性能將會有所提高。一、CubeViews的作用CubeViews在數(shù)據(jù)倉庫中的作用為建模和查詢優(yōu)化。所謂建模是指,我們的源數(shù)據(jù)存在于業(yè)務庫中,經(jīng)過ETL轉(zhuǎn)換到了WAREHOUSEMANAGER里,并在WM里對其進行了表與表之間的連接操作,也就是所謂的星型模式。但在WM中所建的模式只有事實和維的概念,并沒有定義維中的層(Level)和層次(Hierarchy)。層和層次是在CUBEVIEWS建立的。所謂查詢優(yōu)化是指,在CUBEVIEWS中可以建立MQT(MaterializedQueryTable),即物化查詢表,用以存儲某些統(tǒng)計的中間結(jié)果,從而大大提高查詢的效率。二、CUBEVIEWS在BI流程中的地位CUBEVIEWS處于DW底層表與ROLAP之間,在底層數(shù)據(jù)表的基礎上建立起倉庫的模式,以供后面的ROLAP及挖掘所用,所做的是ROLAP的前期準備工作。如圖4-3所示。DB2DB2EDWmartmartmartDrilldowntodetailsDB2EDWmartmartmartMOLAPHybridOLAPBIToolMiddleTierROLAPDrilldowntodetails圖4-3CubeViews在BI流程中的地位4.2.2.2建模及優(yōu)化過程導入事實:在CubeViews中指定由WarehouseM所建的星型模式中的事實表,并指定度量。建立維表的層(Level):導入事實表后,所有與事實表關聯(lián)的表都被看作維表導入,存在于模型下面的“維”結(jié)點中。但WM中并沒有對維進行分層,在這里需要定義維的層。定義層次(Hierarchy):建立好各維的層次之后,需要對每個維建立至少一個層次。定義立方體:根據(jù)已經(jīng)建立的模型,選擇適當?shù)木S和度量,建立一個具體的立方體,供Alphablox調(diào)用。創(chuàng)建或更新MQT:對模型進行優(yōu)化切片,提高Olap查詢的效率。比較查詢效率:我們可以在生成MQT的前后分別在控制中心中對同一個庫執(zhí)行同一條ROLAP查詢語句,以觀察查詢效率的變化情況:沒有MQT時:生成MQT之后:圖4-4查詢計劃及代價圖——沒有MQT時圖4-5查詢計劃及代價圖——有MQT時4.2.3OLAPServer4.2.3.1概述MOLAP表示基于多維數(shù)據(jù)組織的OLAP實現(xiàn)(MultidimensionalOLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說,MOLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成"立方塊(Cube)"的結(jié)構(gòu),在MOLAP中對"立方塊"的"旋轉(zhuǎn)"、"切塊"、"切片"是產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)。MOLAP系列工具主要包括:DB2OLAPServer、DB2OLAPIntegrationServer和DB2Administratorserver。如圖4-6所示。圖4-6MOLAP系列工具組成AnalyticServices分析服務,一個可以運行在多處理機環(huán)境下的多線程OLAP數(shù)據(jù)庫軟件。服務的主要功能有數(shù)據(jù)存儲、數(shù)據(jù)緩存、計算和數(shù)據(jù)安全性管理。分析客戶端僅僅需要檢索和查看存儲在服務器上的數(shù)據(jù)。所有的分析服務應用組件,包括數(shù)據(jù)庫輪廓、計算腳本及多維數(shù)據(jù)庫信息,都保存在服務中??梢詫⒎罩械臄?shù)據(jù)存儲在幾個磁盤上,從而使得支持大數(shù)據(jù)存儲。分析服務需要運行在裝有支持多線程操作系統(tǒng)下,以便有效的管理多個同步的請求。服務也需要一個服務代理,它用來協(xié)調(diào)多個用戶對應用程序的請求。MaxL作為一種多維數(shù)據(jù)庫的存取語言,能靈活進行數(shù)據(jù)庫管理和維護。AdministrationServices作為分析服務數(shù)據(jù)庫和系統(tǒng)的管理接口的管理服務,可以同時提供對多個分析服務的管理。使用管理服務可以設計、維護和管理多個分析服務器、應用和數(shù)據(jù)庫。不需要打開客戶端應用,在管理服務的控制臺上就可以預覽數(shù)據(jù)。也可以通過提供的java插件來改變或擴充功能。DeploymentServices部署服務允許分析服務器的多個實例運行在多臺機器上,然而它們作為一個邏輯單元來給用戶提供服務,在移除和出錯時也當作一個單元處理。部署服務使得數(shù)據(jù)庫集群擁有負載均衡能力和容錯能力。IntegrationServices集成服務(一種可選擇的產(chǎn)品組件)使用元數(shù)據(jù)驅(qū)動的方式使存儲在分析服務數(shù)據(jù)庫中的數(shù)據(jù)和存儲在關系數(shù)據(jù)庫中的細節(jié)數(shù)據(jù)建立關聯(lián)。此特性使商業(yè)用戶在做決策時可以參考更細節(jié)的數(shù)據(jù),也使IT經(jīng)理在設計和維護大規(guī)模分析應用時可以設計更好的模塊結(jié)構(gòu)。此OLAP系統(tǒng)允許允許將分析服務數(shù)據(jù)庫中的數(shù)據(jù)中的部分數(shù)據(jù)存放在關系數(shù)據(jù)庫中。關系數(shù)據(jù)庫中存放的數(shù)據(jù)可以和分析服務的某一層次關聯(lián)。HAL(HyperionApplicationLink)是一個集成的商業(yè)自動處理工具,它允許事務處理應用、桌面應用和Hyperion商業(yè)性能管理應用之間雙向交換數(shù)據(jù)。SpreadsheetProductsandHyperionAnalyzer分析服務器的商業(yè)用戶接口工具HyperionAnalyzer,SpreadsheetServices,andSpreadsheetAdd-in,能給不同的用戶團體對企業(yè)信息提供交互式的分析服務。HyperionAnalyzer,SpreadsheetServices,andSpreadsheetAdd-in可以使用戶對ERP系統(tǒng)、關系系統(tǒng)、多維系統(tǒng)及其它數(shù)據(jù)源創(chuàng)建直觀的基于Web的分析和報表。ApplicationProgrammingInterface(API)分析服務程序員接口(AnalyticServicesAPI)允許用戶根據(jù)需要創(chuàng)建應用。APIReference提供了API中的函數(shù)、平臺和支持的編譯器的說明文檔。DeveloperProducts不管用戶是否擁有編程的知識,Essbase的開發(fā)工具都能使用戶快速創(chuàng)建、管理和部署高質(zhì)量的企業(yè)級的分析應用。這些產(chǎn)品,如ApplicationBuilder和HyperionObjects,提供一套完整的應用程序接口、可拖拽的組件及一些服務。DataMining數(shù)據(jù)挖掘工具(分析服務的一個可選擇組件)能為用戶找出數(shù)據(jù)中暗含的關系和模式,使你更好的決策。用數(shù)據(jù)挖掘工具,用戶可以選擇一個合適的數(shù)據(jù)挖掘算法,建立模型,然后應用到已經(jīng)建立好的分析服務的應用和數(shù)據(jù)庫中。4.2.3.2使用MOLAP系列工具建立電力分析模型一、建模的方法所謂OLAP建模就是指對某個具體的應用在OLAPserver中建立起針對此應用的OLAP模型。在此,就是對電力中的售電量和用電量主題,根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)建立起相關的多維數(shù)據(jù)模型??梢杂萌N方法建立一個DB2OLAPServer的電力多維模型(在olapserver中此模型被稱作元輪廓)。方法一、通過應用管理器(AdministrationServer)的GUI手動建立維和成員。方法二、建立相互協(xié)調(diào)的文件集,并由ESSCMD或者Maxl通過批量模式建立一個輪廓。方法三、使用OLAP集成服務器。由于我們的任務是利用已存在的業(yè)務庫建立OLAP模型,所以應使用第三種建模方法。利用集成服務器建模的主要過程如圖4-7所示。圖4-7集成服務器的建模過程二、建模的步驟利用采用集成服務器建模的步驟如下:Step1建立存放元數(shù)據(jù)(OLAP模型和OLAP輪廓)的元數(shù)據(jù)目錄,并與要建模的源數(shù)據(jù)連接。Step2根據(jù)需求中的要求,建立OLAP模型。如圖4-8所示。對關系數(shù)據(jù)源用戶來說,這個步驟包括創(chuàng)建OLAPmodel和利用它工作,創(chuàng)建事實表(facttable),創(chuàng)建account維,創(chuàng)建時間維,創(chuàng)建維和利用維工作,編輯和轉(zhuǎn)換(transforming)維表中的列,創(chuàng)建和編輯維表的連接(joining),創(chuàng)建和利用維表的層次(hierarchies)。圖4-8如何建立OLAP模型Step3根據(jù)建立的OLAP模型,建立OLAP輪廓;利用加載工具加載到AnalyticServer。 如圖4-9所示,建立輪廓的步驟,包括創(chuàng)建輪廓和用輪廓創(chuàng)建和加載成員和數(shù)據(jù)到分析服務器的數(shù)據(jù)庫中。主要過程如下:(1)創(chuàng)建輪廓(2)在輪廓中創(chuàng)建維、成員級別和度量(3)設置加載屬性、過濾屬性,設置混合分析成員級別;設置維、成員級別和度量在分析服務器輪廓中的屬性(4)加載維和成員級別到分析服務器輪廓(5)加載指定的數(shù)據(jù)到分析服務器數(shù)據(jù)庫中圖4-9建立輪廓的步驟4.2.4Alphablox4.2.4.1概述DB2Alphablox構(gòu)建于已有的應用服務器環(huán)境之上,遵循J2EE體系結(jié)構(gòu),可以與J2EE應用服務器集成,可以無縫的訪問多個數(shù)據(jù)源,并可以很好的與其它應用和服務集成,如圖4-10所示:DataWarehouseDataWarehouseDataMartRelationalDatabaseSystemsIE,NetscapeWeb
Application
ServerIntranet/
ExtranetClient
BrowserAppServerAlphabloxAnalystsBusinessUsers,Customers,Partners&SuppliersDataMart圖4-10DB2Alphablox在應用服務器上的部署 在圖4-10中,DB2Alphablox及其所有完成分析的解決方案都作為遵循J2EE的應用運行在應用服務器上,用戶通過Web瀏覽器來訪問。傳統(tǒng)的查詢和報表工具,只跟應用服務器交互,Alphablox能夠平衡應用服務、Poertal服務和應用服務器提供的集成代理服務。DB2Alphablox完全平衡了開發(fā)、部署和維護分布式應用的公共基礎4.2.4.2AlphaBlox體系結(jié)構(gòu)Alphablox包括如下組成部分:DB2Alphablox分析服務器(AnalysisServer)DB2Alphablox能夠完成分析的解決方案(analytic-enabledsolutions)DB2Alphablox管理應用(administrationapplication)應用服務器接口(Applicationserveradapters)Alphablox的體系結(jié)構(gòu)如圖4-11所示:圖4-11DB2Alphablox體系結(jié)構(gòu)AnalysisServer,Alphablox的核心組件,運行在J2EE應用服務器的業(yè)務層(Businesstier)。當作為一個J2EE應用在主服務器上運行時,它提供了全功能分析服務器的服務。ApplicationServerAdapter允許AnalysisServer與每個支持的應用服務器通信,來執(zhí)行管理功能,其中許多功能,像定義應用,在每個應用服務器上被不同安裝。用戶和合作伙伴開發(fā)的完成分析的應用(analytic-enabledapplication)作為應用服務器的應用運行在Web層。當與AnalysisServer交互時,應用作為單獨的和封裝的J2EE應用,可以獨立于AnalysisServer進行部署、備份、升級和移植。Alphablox在應用服務器的Web層注冊了兩類J2EE應用,分別是:Alphablox服務器應用和Alphablox管理應用。應用服務器像管理其它Web應用一樣,管理Alphablox,它通過調(diào)用一個servlet來自動開始AnalysisServer。AnalysisServer根據(jù)應用服務器收到的對它的請求和應用服務器使用的管理模型,來掛起和重新開始AnalysisServer。4.2.4.3AlphaBlox應用一、什么是Alphablox應用Forend-users(終端用戶):一組網(wǎng)頁的集合提供相關的、關鍵性業(yè)務信息與業(yè)務邏輯相集成使業(yè)務分析有個友好的界面Forapplicationdevelopers(應用開發(fā)者):是成為blox的組件的集合,由AlphabloxAnalysisServer管理。JSP網(wǎng)頁包括:JSP標準和自定義TagsHTML,CSS,JavaScriptJavascriptlets其他的Web組件(graphics,Flash,etc.)二、什么是BloxBlox是可重復使用的組件;使用自定義JSPtags添加到JSP頁面中;大多數(shù)使用JavaBeans技術(shù)創(chuàng)建;使用一個數(shù)據(jù)展現(xiàn)的Blox組件,需要指定以下幾方面::數(shù)據(jù)源和抽取數(shù)據(jù)的查詢怎樣展現(xiàn)數(shù)據(jù)想要怎樣讓用戶查看、操作、分析、共享、聯(lián)合或評論數(shù)據(jù);并不是所有的blox組件都是可見的。三、Blox的分類InfrastructureInfrastructureDataAccessPresentation&ManipulationGridBloxChartBloxToolbarBloxSpreadsheetBloxPresentBloxReportingBloxFormsBloxPageBloxRepositoryBloxStatusBloxDataBloxStoredproceduresBloxMDBQueryBlox圖4-12AlphabloxCategory(Analytics)4.2.4.4Cube分析引擎(AlphabloxCubingEngine)允許Alphablox以多維方式訪問關系數(shù)據(jù);使用AlphabloxAdmin定義元數(shù)據(jù),來描述事實、維、層次結(jié)構(gòu)(層次)等;將來自blox的查詢請求轉(zhuǎn)換成SQL;到達Cube分析引擎的Blox查詢是用MDX語言描述的CubeCubeDefinitionsAlphabloxCubeServerRelationalDatabaseMDXSQL圖4-13AlphabloxCubingEngineDimensionalMetadataWarehouseDataDB2DatabaseTierApplicationServerTierCubeDefinitionimportAlphabloxCubeServer圖4-14CubeViewsIntegration4.2.5IntelligentMinerIBM公司的數(shù)據(jù)挖掘工具(IntelligenceMiner)由數(shù)據(jù)挖掘建模組件(IMModeling)、數(shù)據(jù)挖掘評分組件(IMScoring)和數(shù)據(jù)挖掘圖示化組件(IMVisualization)三部分組成,整體框架圖如圖4-15所示:圖4-15數(shù)據(jù)挖掘組件圖4.2.5.1數(shù)據(jù)挖掘評分組件(IMScoring)將IM4D或第三方挖掘工具挖掘出的模型直接倒入數(shù)據(jù)庫/數(shù)據(jù)倉庫打分可以在生產(chǎn)系統(tǒng)中完成支持DB2/ORACLE節(jié)約開發(fā)、維護成本實現(xiàn)生產(chǎn)系統(tǒng)獨立、實時打分大大提高了:快速分析能力性能易用IMScoringDataAnalystHistoricalDataDataMiningWorkbenchDB2UDFScoredDataSQLPMMLmodel圖4-16數(shù)據(jù)挖掘評分組件(IMModeling)4.2.5.2數(shù)據(jù)挖掘建模組件(IMModeling)數(shù)據(jù)挖掘建模組件(IMModeling)提供在數(shù)據(jù)倉庫或數(shù)據(jù)庫中構(gòu)建數(shù)據(jù)挖掘模型的能力,可以使用聚類(Clustering)、分類(Classification)、關聯(lián)(Association)和預測(Prediction)等各種數(shù)據(jù)挖掘方法。ClassificationClassificationPredictionAssociations圖4-17數(shù)據(jù)挖掘建模組件(IMmodeling)4.2.5.3數(shù)據(jù)挖掘圖示化組件(IMVisualization)數(shù)據(jù)挖掘圖示化組件(IMVisualization)提供數(shù)據(jù)挖掘結(jié)果的圖形化展示,它通過MiningInterface將存放在DB2數(shù)據(jù)倉庫中的挖掘結(jié)果以圖形化的方式展示給用戶,如圖4-18所示:DB2DB2MiningInterface圖4-18數(shù)據(jù)挖掘圖示化組件(IMVisualization)
5實施計劃電力數(shù)據(jù)倉庫系統(tǒng)在工程的實施開發(fā)的時間上做了明確的限定,要求在2005年底完成數(shù)據(jù)倉庫系統(tǒng)的建設工作。5.1地緯公司的技術(shù)、實力與經(jīng)驗濟南市電力數(shù)據(jù)倉庫系統(tǒng)工程項目覆蓋面廣,任務復雜,在工期上有嚴格的規(guī)定。在工程正式實施開發(fā)以前,開發(fā)商必需結(jié)合自身公司的實力、技術(shù)與經(jīng)驗,為工程的實施開發(fā)規(guī)劃出一整套嚴謹、詳細、完備的工程實施開發(fā)計劃,一套規(guī)范的可執(zhí)行的工程實施開發(fā)計劃是整個工程成功實施的保障。地緯公司自成立以來十數(shù)年來一直從事大型系統(tǒng)的開發(fā)與實施工作,承擔過多項大型的管理信息系統(tǒng)項目建設工作,例如:青海電力公司全省統(tǒng)一電力營銷技術(shù)支持系統(tǒng)項目,山東全省范圍的社會保障技術(shù)支持系統(tǒng)建設項目、新疆建設兵團(省級)社會保障系統(tǒng)建設項目等。在建設大型系統(tǒng)方面具備豐富的實戰(zhàn)經(jīng)驗。5.2實施開發(fā)綜述仔細規(guī)劃項目質(zhì)量保證措施地緯公司通過以下措施來確保電力數(shù)據(jù)倉庫系統(tǒng)的實施開發(fā)質(zhì)量:制定嚴密可行的實施計劃,整個工程嚴格按照計劃進行;地緯公司已經(jīng)通過ISO9000認證,公司質(zhì)量控制部利用ISO9000質(zhì)量管理規(guī)范對工程的軟件開發(fā)及實施全過程進行監(jiān)督和控制;建立完善的軟件開發(fā)和工程實施的文檔體系。對程序進行測試,對各個模塊之間的關聯(lián)情況下可能出現(xiàn)的問題進行嚴密的測試,并不斷完善在測試過程中暴露出來的問題。在這過程中質(zhì)量控制小組將全程參與,確保軟件質(zhì)量。前期的需求調(diào)研需求調(diào)研是軟件開發(fā)的最重要的環(huán)節(jié)之一,在調(diào)研的過程中能否真實、準確地描述客戶的需求,對于軟件的開發(fā)有著舉足輕重的影響。與客戶溝通不夠?qū)е聦ν粋€事物的描述或者理解有分歧和差異,或者調(diào)研過程中流于表面文字,而沒有進入實際的操作,都可能造成在需求調(diào)研的過程中造成對需求不精確的理解。失之毫厘,謬之千里,需求調(diào)研的微小差異可能會在軟件的開發(fā)過程中造成較大的偏差,直接影響了工程的建設質(zhì)量。為此我們?yōu)樾枨笳{(diào)研工作分配了充裕的人力的時間,制定了完善的調(diào)研方案,對需求調(diào)研的深度和廣度做了規(guī)范性的描述。確保需求調(diào)研的工作質(zhì)量。5.3實施開發(fā)計劃電力數(shù)據(jù)倉庫項目由需求分析、物理建模、數(shù)據(jù)轉(zhuǎn)換(即ETL過程)、生成多維模式并搭建立方體、多維分析及展現(xiàn)、數(shù)據(jù)挖掘六個階段組成。2005年9月1日――2005年12月31日共四個月,為系統(tǒng)建設實施階段。一、需求分析階段2005年9月1日――2005年9月20日為需求分析階段。由地緯公司熟悉電力行業(yè)業(yè)務的工程師組成的軟件開發(fā)小組對供電公司的需求、軟硬件條件、數(shù)據(jù)狀況等情況進行調(diào)研,對需求調(diào)研的結(jié)果進行分析,同時考慮需求的廣泛適用性,歸結(jié)出其中共同的部分和相異的部分,以便下一步根據(jù)需求完成系統(tǒng)軟件開發(fā)。二、物理建模階段2005年9月21日――2005年10月15日為物理建模階段。使用Warehousemanager,依照需求分析得到的邏輯模式,設計數(shù)據(jù)倉庫中的數(shù)據(jù)庫,開發(fā)數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結(jié)構(gòu),即設計多維數(shù)據(jù)結(jié)構(gòu)的事實表和維表。三、數(shù)據(jù)轉(zhuǎn)換(即ETL過程)階段2005年10月16日――2005年11月15日為數(shù)據(jù)轉(zhuǎn)換階段。使用Warehousemanager,實現(xiàn)從多個源系統(tǒng)中抽取、清理、一致化、綜合、裝載數(shù)據(jù)等過程的設計和編碼。(Warehousemanager)四、生成多維模式并搭建立方體階段2005年11月16日――2005年11月30日為生成多維模式并搭建立方體階段。使用Warehousemanager,用定義好的事實表和維表生成多維模式。使用CubeViews,在已創(chuàng)建的倉庫模式的基礎上,對維定義了層和層次;創(chuàng)建了需要預計算的量度;利用優(yōu)化器根據(jù)業(yè)務進行了切片優(yōu)化和預處理,生成MQT(物化視圖);在模式中建立立方體,供查詢和多維分析使用。五、多維分析及展現(xiàn)階段2005年12月1日――2005年12月15日為多維分析及展現(xiàn)階段。使用數(shù)據(jù)分析和展現(xiàn)工具Alphablox,開發(fā)多維分析程序以及展現(xiàn)頁面。六、數(shù)據(jù)挖掘階段2005年12月16日――2005年12月31日為數(shù)據(jù)挖掘階段。使用數(shù)據(jù)挖掘建模工具DB2IntelligentMinerModeler進行聚類、關聯(lián)、分類、預測,使用數(shù)據(jù)挖掘模型圖示化工具DB2IntelligentMinerVisualization,使用圖形展示挖掘結(jié)果。附:工程實施整體計劃一覽表開發(fā)階段起始時間終止時間需求分析階段2005年9月1日2005年9月20日物理建模階段2005年9月21日2005年10月15日數(shù)據(jù)轉(zhuǎn)換(即ETL過程)階段2005年10月16日2005年11月15日生成多維模式并搭建立方體2005年11月16日2006年11月30日多維分析及展現(xiàn)2005年12月1日2006年12月15日數(shù)據(jù)挖掘2005年12月16日2005年12月31日
附錄資料:不需要的可以自行刪除如何構(gòu)建銀行數(shù)據(jù)倉庫數(shù)據(jù)倉庫技術(shù)作為一項數(shù)據(jù)管理領域的新技術(shù),其精髓在于針對聯(lián)機分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,也沒有具體的分析規(guī)范和實現(xiàn)方法,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標準。在以往關系數(shù)據(jù)庫的設計和實現(xiàn)中,不僅有詳細的理論推導,還有無數(shù)的設計實例,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品、開發(fā)工具,只要按照規(guī)范做,那么實現(xiàn)同一業(yè)務需求的方案都會很相似。而現(xiàn)有數(shù)據(jù)倉庫的實現(xiàn)中,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具、表現(xiàn)工具,而設計人員的個人經(jīng)驗和素質(zhì)也會在其中扮演很重要的角色。
數(shù)據(jù)倉庫技術(shù)的實現(xiàn)方式
目前在數(shù)據(jù)倉庫技術(shù)的實際應用中主要包括如下幾種具體實現(xiàn)方式。
1、在關系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(ROLAP)
2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(MOLAP)
MOLAP方案是以多維方式來組織數(shù)據(jù),以多維方式來存儲數(shù)據(jù);ROLAP方案則以二維關系表為核心表達多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實表,使關系型結(jié)構(gòu)能較好地適應多維數(shù)據(jù)的表示和存儲。在多維數(shù)據(jù)模型的表達方面,多維矩陣比關系表更清晰且占用的存儲更少,而通過關系表間的連接來查詢數(shù)據(jù)的ROLAP系統(tǒng),系統(tǒng)性能成為最大問題。MOLAP方案比ROLAP方案要簡明,索引及數(shù)據(jù)聚合可以自動進行并自動管理,但同時喪失了一定的靈活性。ROLAP方案的實現(xiàn)較為復雜,但靈活性較好,用戶可以動態(tài)定義統(tǒng)計和計算方式,另外能保護在已有關系數(shù)據(jù)庫上的投資。
由于兩種方案各有優(yōu)劣,因此在實際應用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關系數(shù)據(jù)庫存儲歷史數(shù)據(jù)、細節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢,減少花費,而在多維數(shù)據(jù)庫中存儲當前數(shù)據(jù)和常用統(tǒng)計數(shù)據(jù),以提高操作性能。
3、在原有關系庫上建立邏輯上的數(shù)據(jù)倉庫
由于目前正在運行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉庫固然能從功能、性能各方面給出一個完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉庫的建設和分析數(shù)據(jù)的積累需要一段時間,無法及時滿足用戶對信息分析的迫切需要。因此在籌建數(shù)據(jù)倉庫的前期,可以采用一些合適的表現(xiàn)工具,在原有OLTP系統(tǒng)上建立起一個邏輯的數(shù)據(jù)倉庫系統(tǒng)。盡管由于原有OLTP系統(tǒng)設計上的局限性,這樣的系統(tǒng)可能無法實現(xiàn)很多分析功能,但這樣一個系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對穩(wěn)定成熟,因此數(shù)據(jù)倉庫的建模、實現(xiàn)過程會相對容易、便捷;同時,這樣的系統(tǒng)也會成為將來真正數(shù)據(jù)倉庫建設的原型。
信息系統(tǒng)與數(shù)據(jù)倉庫的關系
由于數(shù)據(jù)量大、數(shù)據(jù)來源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時,不可避免地會遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問題;而數(shù)據(jù)倉庫的最大優(yōu)點在于它能把企業(yè)網(wǎng)絡中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲在一個單一的集成的數(shù)據(jù)庫中,并提供各種手段對數(shù)據(jù)進行統(tǒng)計、分析。因此可以說,在銀行使用數(shù)據(jù)倉庫構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎,它們之間的聯(lián)系是必然的,難以割舍的。
數(shù)據(jù)倉庫在商業(yè)銀行的應用范圍包括存款分析、貸款分析、客戶市場分析、相關金融業(yè)分析決策(證券、外匯買賣)、風險預測、效益分析等。
在銀行信息系統(tǒng)構(gòu)建時,由于歷史情況和現(xiàn)實需求的不同,存在兩種途徑:
1、建設新系統(tǒng)
由于目前國內(nèi)商業(yè)銀行對銀行內(nèi)部運營的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機制,因此可以在構(gòu)建管理信息系統(tǒng)時,分數(shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問題,同時考慮到搜集過程中可能存在多個數(shù)據(jù)來源,因此可以在系統(tǒng)建設的同時構(gòu)建數(shù)據(jù)倉庫,將搜集來的各種數(shù)據(jù)通過數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫中。
2、完善原有系統(tǒng)
而對于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉庫,即使用數(shù)據(jù)分析的表現(xiàn)工具,在關系模型上構(gòu)建一個虛擬的多維模型。當系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉庫,這樣既節(jié)省投資,又縮短開發(fā)工期。
實現(xiàn)中需要注意的問題
一、模型設計中的問題
模型設計(包括邏輯模型設計和物理模型設計)是系統(tǒng)的基礎和成敗的關鍵,在實際操作中,視實現(xiàn)技術(shù)的不同應分別對下列問題引起注意。
1、直接構(gòu)建數(shù)據(jù)倉庫
直接構(gòu)建數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 消防建規(guī)培訓課件
- 企業(yè)質(zhì)量管理體系標準操作手冊(標準版)
- 2025年企業(yè)內(nèi)部審計檢查與評價手冊
- 2026年云計算技術(shù)與應用試題
- 2025年石油勘探開發(fā)規(guī)范手冊
- 2025年企業(yè)信息化系統(tǒng)數(shù)據(jù)管理手冊
- 設備管理潤滑培訓課件
- 包衣培訓課件
- 消防行業(yè)滅火救援技術(shù)手冊
- 2025年汽車售后服務與維護手冊
- 前沿財務知識培訓課件
- 財務出納述職報告
- 新疆烏魯木齊市2024-2025學年八年級(上)期末語文試卷(解析版)
- 2025年包頭鋼鐵職業(yè)技術(shù)學院單招職業(yè)技能考試題庫完整
- 蘋果電腦macOS效率手冊
- 2022年版 義務教育《數(shù)學》課程標準
- 供貨保障方案及應急措施
- TOC基本課程講義學員版-王仕斌
- 初中語文新課程標準與解讀課件
- 中建通風與空調(diào)施工方案
- GB/T 3683-2023橡膠軟管及軟管組合件油基或水基流體適用的鋼絲編織增強液壓型規(guī)范
評論
0/150
提交評論