數(shù)據(jù)倉庫系統(tǒng)_第1頁
數(shù)據(jù)倉庫系統(tǒng)_第2頁
數(shù)據(jù)倉庫系統(tǒng)_第3頁
數(shù)據(jù)倉庫系統(tǒng)_第4頁
數(shù)據(jù)倉庫系統(tǒng)_第5頁
已閱讀5頁,還剩160頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫系統(tǒng)第一頁,共165頁。主要內(nèi)容緒論數(shù)據(jù)倉庫系統(tǒng)基本概念企業(yè)集團ETL技術(shù)企業(yè)集團數(shù)據(jù)倉庫技術(shù)企業(yè)集團聯(lián)機分析處理技術(shù)企業(yè)集團數(shù)據(jù)挖掘技術(shù)企業(yè)集團決策支持技術(shù)總結(jié)第二頁,共165頁。1緒論課題的研究背景和意義課題的國內(nèi)外現(xiàn)狀目前存在的問題本文研究的主要工作第三頁,共165頁。研究的背景及意義在知識經(jīng)濟時代,企業(yè)更多關(guān)注如何提高自身的競爭力?從現(xiàn)代管理技術(shù)的角度,集團化運營已成為企業(yè)提升自身競爭力的必然趨勢,許多同行業(yè)企業(yè)進行了資產(chǎn)重組,組建了企業(yè)集團。從信息技術(shù)的角度,人們開始把企業(yè)信息化作為改善企業(yè)管理業(yè)務(wù)活動,建立現(xiàn)代企業(yè)制度的重要手段。

第四頁,共165頁。研究的背景及意義隨著企業(yè)集團信息化進程的不斷深入,企業(yè)面臨問題:數(shù)據(jù)的過度冗余而導致“數(shù)據(jù)過剩”現(xiàn)象.缺乏基于海量數(shù)據(jù)的知識發(fā)現(xiàn),導致“信息貧乏”現(xiàn)象。

第五頁,共165頁。研究的背景及意義解決問題的關(guān)鍵是:要建立一個全局化的、綜合的信息集成平臺,將這種行之有效的機制稱為數(shù)據(jù)倉庫(DataWarehouse,DW)。如何從浩瀚的數(shù)據(jù)海洋中迅速、準確無誤地提取企業(yè)集團經(jīng)營管理所需的有價值的信息,挖掘出隱含在內(nèi)的大量規(guī)律,是決策者的當務(wù)之急!第六頁,共165頁。研究的背景及意義然而,一個獨立的數(shù)據(jù)倉庫是沒有實際意義的,必須將聯(lián)機分析處理(On-LineAnalysisProcessing,OLAP)、數(shù)據(jù)挖掘(DataMining,DM)、決策支持等技術(shù)結(jié)合起來,才具有強大的生命力,而數(shù)據(jù)倉庫系統(tǒng)正好就是這些相關(guān)技術(shù)的組合。本課題針對企業(yè)集團研究數(shù)據(jù)倉庫系統(tǒng)的若干關(guān)鍵技術(shù),其意義在于:給出一個完整的企業(yè)集團數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu),并且針對每一組成部分提出高效、可用的實現(xiàn)技術(shù)和開發(fā)方法,從而使得數(shù)據(jù)倉庫的理論得到發(fā)展,并且為企業(yè)集團在數(shù)據(jù)海洋中迅速發(fā)現(xiàn)、集成有用的信息(知識)提供支持。第七頁,共165頁。課題的國內(nèi)外研究現(xiàn)狀1993年Inmon首次提出了數(shù)據(jù)倉庫概念

:“是一個面向主題的、集成的、隨時間變化的、非易失性的數(shù)據(jù)集合,用以支持管理層的決策過程”。目前,眾多專家學者對數(shù)據(jù)倉庫面臨的主要問題做了廣泛而又深入地討論,主要包括:數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫建模與設(shè)計數(shù)據(jù)倉庫操作問題新應(yīng)用與新環(huán)境下的數(shù)據(jù)倉庫構(gòu)建第八頁,共165頁。課題的國內(nèi)外研究現(xiàn)狀會議:“ACM數(shù)據(jù)倉庫和聯(lián)機分析國際會議”

、“數(shù)據(jù)倉庫與知識發(fā)現(xiàn)國際會議”

、“ACM-SIGMOD數(shù)據(jù)管理國際會議”(SIGMOD),“超大型數(shù)據(jù)庫國際會議”(VLDB),“ACMSIGACT-SIGMOD-SIGART數(shù)據(jù)庫原理研討會”(PODS),“數(shù)據(jù)工程國際會議”(ICDE),“擴展數(shù)據(jù)庫技術(shù)國際會議”(EDBT),“數(shù)據(jù)庫理論國際會議”(ICDT),“信息與知識管理國際會議”(CIKM),“數(shù)據(jù)庫與專家系統(tǒng)應(yīng)用國際會議”(DEXA),和“數(shù)據(jù)庫系統(tǒng)高級應(yīng)用國際研討會”(DASFAA)。期刊:《IEEE知識與數(shù)據(jù)工程匯刊》(TKDE),《ACM數(shù)據(jù)庫系統(tǒng)匯刊》(TODS),《ACM雜志》(JACM),《信息系統(tǒng)》,《VLDB雜志》,《數(shù)據(jù)與知識工程》,《智能信息系統(tǒng)國際雜志》(JIIIS),《知識與信息系統(tǒng)》(KAIS)和《決策支持系統(tǒng)》等。第九頁,共165頁。課題的國內(nèi)外研究現(xiàn)狀國內(nèi)對數(shù)據(jù)倉庫及其相關(guān)技術(shù)的研究稍晚,但進展較快。國內(nèi)的中科院、清華大學、北京大學、中國人民大學、北方交通大學、國防科技大學、東南大學、浙江大學、復旦大學、吉林大學、東北大學、哈爾濱工業(yè)大學、四川大學、華中科技大學、上海交通大學、大連理工大學、南京航空航天大學、重慶大學、南京理工大學、山東大學。第十頁,共165頁。課題的國內(nèi)外研究現(xiàn)狀數(shù)據(jù)倉庫界最知名的R.Kimbal博士提出了數(shù)據(jù)倉庫業(yè)務(wù)維度生命周期開發(fā)方法和數(shù)據(jù)倉庫的總線結(jié)構(gòu)。加拿大SimonFraser大學智能數(shù)據(jù)庫系統(tǒng)研究實驗室開發(fā)的多任務(wù)知識發(fā)現(xiàn)系統(tǒng)-DBMiner。IBM公司Almaden研究中心開發(fā)的多任務(wù)KDD系統(tǒng)QUEST。SAS公司推出的EnterpriseMiner、微軟公司推出的SQLSever、SPSS公司的Clementine、Sybase公司的WarehouseWorkbench、ORACLE公司的OracleWarehouseBuilder等。第十一頁,共165頁。課題的國內(nèi)外研究現(xiàn)狀國內(nèi)對數(shù)據(jù)倉庫及其相關(guān)技術(shù)的研究稍晚,但進展較快。中國科學院史忠植教授等人提出MSMiner平臺。復旦大學的朱揚勇教授建立了國內(nèi)著名的“數(shù)據(jù)挖掘討論組”網(wǎng)站()。四川大學的唐常杰教授,華中科技大學的馮玉才教授中國人民大學的王珊教授、孟小峰教授和杜小勇教授,復旦大學的施伯樂教授,國防科技大學的陳文偉教授,哈爾濱工業(yè)大學李建中教授和劉大昕教授,東北大學的于戈教授在數(shù)據(jù)挖掘和數(shù)據(jù)倉庫方面都做了許多有益的嘗試。第十二頁,共165頁。目前存在問題

迄今為止,人們對數(shù)據(jù)倉庫系統(tǒng)做的更多的是某個具體技術(shù)論述,相對很少有對整個系統(tǒng)結(jié)構(gòu)進行論述,對企業(yè)集團的數(shù)據(jù)倉庫系統(tǒng)的論述更未見報道。

針對企業(yè)集團數(shù)據(jù)倉庫系統(tǒng),我們認為目前存在下述問題急需解決:(1)如何設(shè)計面向企業(yè)集團的數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)?(2)如何實施企業(yè)集團ETL?(3)如何開發(fā)企業(yè)集團數(shù)據(jù)倉庫?(4)如何設(shè)計并實現(xiàn)企業(yè)集團聯(lián)機分析處理?(5)如何實施企業(yè)集團數(shù)據(jù)挖掘?(6)如何完成企業(yè)集團決策支持服務(wù)?

第十三頁,共165頁。2數(shù)據(jù)倉庫系統(tǒng)基本概念數(shù)據(jù)倉庫系統(tǒng)定義統(tǒng)一視圖模型基本概念數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)相關(guān)技術(shù)概述第十四頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)定義數(shù)據(jù)倉庫系統(tǒng)定義(用下面的一個組合公式表示):DWS=ETL+DW+OLAP+DM+DS其中:DWS-DataWarehouseSystem(數(shù)據(jù)倉庫系統(tǒng));ETL–Extraction/Tranformation/Loading(抽取/轉(zhuǎn)換/加載);DW-DataWarehouse(數(shù)據(jù)倉庫);OLAP–On-LineAnalyticalProcessing(聯(lián)機分析處理);DM–DataMining(數(shù)據(jù)挖掘);DS-DisicionSupport(決策支持)第十五頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)現(xiàn)美國伊利偌伊大學的JiaweiHan教授提出的三層數(shù)據(jù)倉庫體系結(jié)構(gòu)南京航空航天大學皮德常博士提出的面向倉庫內(nèi)數(shù)據(jù)組織的數(shù)據(jù)倉庫體系結(jié)構(gòu)上述一些數(shù)據(jù)倉庫體系結(jié)構(gòu)能夠包含數(shù)據(jù)倉庫、聯(lián)機分析處理、數(shù)據(jù)挖掘等相關(guān)概念,但并不是真正意義上的數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu),更不是面向集團型的企業(yè),它們對數(shù)據(jù)倉庫中數(shù)據(jù)的一致性體現(xiàn)的不夠充分,沒有站在領(lǐng)域的角度設(shè)計面向整個集團的數(shù)據(jù)倉庫事實表和維表。

第十六頁,共165頁。統(tǒng)一視圖模型基本概念定義1.統(tǒng)一視圖(UView)統(tǒng)一視圖是在一個全局數(shù)據(jù)環(huán)境應(yīng)用中,具有統(tǒng)一屬性、統(tǒng)一度量、統(tǒng)一分類的查詢模式,可用三元組描述,即UView::=<DKS,MAS,VDS>。DKS是構(gòu)成該視圖的所有統(tǒng)一維關(guān)鍵屬性的集合,即DKS={DKA1,DKA2,......,DKAm},其中DKAi是抽取的的第i個統(tǒng)一維中的關(guān)鍵屬性;MAS是構(gòu)成該視圖的所有統(tǒng)一度量屬性的集合,即MAS={MA1,MA2,......,MAk},其中MAi是抽取的第i個統(tǒng)一度量屬性;VDS是構(gòu)成該視圖的用來描述該視圖的統(tǒng)一屬性集合,即VDS={VDA1,VDA2,......,VDAn},其中VDAi是抽取的第i個描述統(tǒng)一屬性,用來表示統(tǒng)一視圖的相關(guān)信息,例如:統(tǒng)一視圖的名稱、在統(tǒng)一視圖模型中的分類等等。第十七頁,共165頁。統(tǒng)一視圖模型基本概念定義2.統(tǒng)一視圖模型(UnifiedViewsModel,UVM)統(tǒng)一視圖模型可以定義為全體統(tǒng)一屬性、全體統(tǒng)一維及全體統(tǒng)一視圖的集合,即UVM::=<UAttribute,Dime,UView>,它是全局數(shù)據(jù)環(huán)境下,能夠為所有主題數(shù)據(jù)倉庫提供抽取來源的統(tǒng)一數(shù)據(jù)模式描述。第十八頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)第十九頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)面向領(lǐng)域工程的統(tǒng)一視圖模型的確立領(lǐng)域工程是為一組相似或相近系統(tǒng)的應(yīng)用工程建立基本能力和必備基礎(chǔ)的過程,它覆蓋了建立可復用的軟件構(gòu)件的所有活動。其中“領(lǐng)域”是指一組具有相似或相近軟件需求的應(yīng)用系統(tǒng)所覆蓋的功能區(qū)域。我們按照領(lǐng)域工程的方法進行企業(yè)集團數(shù)據(jù)倉庫領(lǐng)域統(tǒng)一視圖模型的分析與設(shè)計,其模式具體內(nèi)容要取決于企業(yè)用戶實際的決策分析需求,其模型化過程如下:步驟1:依據(jù)企業(yè)集團用戶決策分析的實際需求,通過調(diào)查、論證以及分析,獲取企業(yè)集團數(shù)據(jù)倉庫領(lǐng)域需求,形成“企業(yè)集團數(shù)據(jù)倉庫領(lǐng)域需求分析說明書”。第二十頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)面向領(lǐng)域工程的統(tǒng)一視圖模型的確立步驟2對企業(yè)集團數(shù)據(jù)倉庫領(lǐng)域所涉及的數(shù)據(jù)對象進行抽象,結(jié)合相關(guān)領(lǐng)域的信息、編碼、術(shù)語的標準規(guī)范,參照統(tǒng)一屬性庫中關(guān)于統(tǒng)一屬性的語義說明,及統(tǒng)一維庫中的維度說明,定義基于統(tǒng)一屬性的統(tǒng)一視圖。統(tǒng)一視圖中的屬性需要從各個維表或標準屬性庫中選取??梢园岩恢滦跃S度定義為統(tǒng)一視圖模型中的“總線”,通過為特定數(shù)據(jù)環(huán)境定義的一種總線標準接口,就可以將新的統(tǒng)一視圖加入統(tǒng)一視圖模型中。生成的統(tǒng)一視圖既有行業(yè)領(lǐng)域的通用信息又結(jié)合了本企業(yè)集團的具體特有信息。第二十一頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)面向領(lǐng)域工程的統(tǒng)一視圖模型的確立步驟3用分類樹的方法,按照數(shù)據(jù)對象所歸屬業(yè)務(wù)系統(tǒng)的實際情況進行分類,并通過適度的細化過程,形成一棵面向問題域的統(tǒng)一視圖分類樹,它構(gòu)成了統(tǒng)一視圖模型的主體結(jié)構(gòu)。由于不存在絕對的統(tǒng)一視圖抽象方法,因此對于統(tǒng)一視圖分類樹的生成,要求建模人員盡可能真實地反映企業(yè)用戶決策分析問題域的情況。例如:針對某鋼鐵企業(yè)集團,建立統(tǒng)一視圖分類樹。對應(yīng)業(yè)務(wù)系統(tǒng),樹中有銷售、庫存、生產(chǎn)、財務(wù)、設(shè)備、質(zhì)量、采購、物資、人力資源等9個分支,每個分支下有若干統(tǒng)一視圖。在銷售分支下,可定義一個銷售合同統(tǒng)一視圖,視圖包括若干統(tǒng)一屬性,如:合同號、客戶編碼、生產(chǎn)號、產(chǎn)品類別、流向、材類別、鋼類、銷售公司、標準、加工用途、交貨狀態(tài)、冶煉方法、訂貨量、交貨年月、合同說明。在生產(chǎn)分支下,可定義一個生產(chǎn)物料跟蹤統(tǒng)一視圖,視圖包括:生產(chǎn)號、生產(chǎn)批次、爐號、工序號、分廠、班組、設(shè)備、生產(chǎn)量、完成時間、物料狀態(tài)。第二十二頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)面向領(lǐng)域工程的統(tǒng)一視圖模型的確立步驟4依據(jù)問題描述的實際需求,企業(yè)集團標準中心或信息中心,可及時向標準屬性庫中補充新的標準屬性,或向統(tǒng)一維庫中添加新的統(tǒng)一維。第二十三頁,共165頁。3企業(yè)集團ETL技術(shù)

基于統(tǒng)一視圖模型的ETL體系結(jié)構(gòu)基于統(tǒng)一視圖模型的ETL過程建?;诮y(tǒng)一視圖模型的ETL過程實現(xiàn)數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第二十四頁,共165頁。基于統(tǒng)一視圖模型的ETL體系結(jié)構(gòu)目前常見的數(shù)據(jù)倉庫ETL體系結(jié)構(gòu)如圖3.1所示,數(shù)據(jù)從操作型數(shù)據(jù)源和外部數(shù)據(jù)源流出,經(jīng)過ETL,即數(shù)據(jù)抽取-轉(zhuǎn)換-裝載到數(shù)據(jù)倉庫中。

數(shù)據(jù)源1數(shù)據(jù)倉庫外部文件數(shù)據(jù)源nETLSMTMWM數(shù)據(jù)源數(shù)據(jù)倉庫ETL過程第二十五頁,共165頁。基于統(tǒng)一視圖模型的ETL體系結(jié)構(gòu)復雜性、可用性和可維護性是這些ETL工具面臨的主要問題,無法適應(yīng)企業(yè)集團數(shù)據(jù)抽取、轉(zhuǎn)換和加載需求,這主要體現(xiàn)在以下幾個方面:

①對源數(shù)據(jù)模式的理解②對企業(yè)集團多數(shù)據(jù)倉庫ETL過程維護第二十六頁,共165頁?;诮y(tǒng)一視圖模型的ETL體系結(jié)構(gòu)面向集團型企業(yè),為降低ETL過程的復雜性,我們一方面將一個復雜的ETL過程分解為一系列的ETL操作;另一方面,我們提出了基于統(tǒng)一視圖模型的ETL體系結(jié)構(gòu),將這些ETL操作按照不同的功能分解到基于統(tǒng)一視圖模型的ETL體系結(jié)構(gòu)中。面向企業(yè)集團的數(shù)據(jù)倉庫ETL體系結(jié)構(gòu)包括資源數(shù)據(jù)層、統(tǒng)一視圖層、數(shù)據(jù)倉庫層3個層次,通過引入統(tǒng)一視圖中間層及兩級抽取映射方法,實現(xiàn)了源數(shù)據(jù)的透明抽取及訪問。這種體系結(jié)構(gòu)不僅降低了數(shù)據(jù)倉庫ETL過程的復雜性,還可以確保ETL過程的可用性和可維護性。

第二十七頁,共165頁?;诮y(tǒng)一視圖模型的ETL體系結(jié)構(gòu)我們?yōu)镋TL過程定義了9個ETL基本操作,如表3.1所示:ETL操作描述Wrapper將數(shù)據(jù)變換為基于記錄形式的數(shù)據(jù)Union基于相容屬性合并多個數(shù)據(jù)源Join通過公共屬性連接兩個數(shù)據(jù)源Filter過濾并驗證數(shù)據(jù)Clean清理無效或不正確數(shù)據(jù)Conversion改變數(shù)據(jù)類型或格式Calculate用存在數(shù)據(jù)產(chǎn)生新計算數(shù)據(jù)Aggregate基于某種條件匯總數(shù)據(jù)Load加載數(shù)據(jù)進入數(shù)據(jù)倉庫第二十八頁,共165頁。基于統(tǒng)一視圖模型的ETL體系結(jié)構(gòu)第二十九頁,共165頁?;诮y(tǒng)一視圖模型的ETL體系結(jié)構(gòu)我們提出的基于統(tǒng)一視圖模型的數(shù)據(jù)倉庫ETL框架有如下優(yōu)點:①這種方法支持把ETL過程集成在數(shù)據(jù)倉庫系統(tǒng)統(tǒng)一建??蚣芟拢軌虼_保ETL過程與數(shù)據(jù)倉庫之間的無縫集成。統(tǒng)一視圖支持ETL過程生命周期的每一步操作。②這種方法幫助數(shù)據(jù)倉庫設(shè)計人員更容易設(shè)計和維護ETL過程。通過提供統(tǒng)一視圖中間層,采用分層策略,將復雜的ETL過程分解為ET和EL兩大過程。實現(xiàn)了源數(shù)據(jù)層和數(shù)據(jù)倉庫層之間的松耦合。③這種方法能很好解決企業(yè)集團多數(shù)據(jù)倉庫ETL過程維護過于復雜問題。多個ETL過程能夠共享統(tǒng)一視圖模型,進而降低維護多數(shù)據(jù)倉庫ETL過程的復雜性,并確保多數(shù)據(jù)倉庫ETL過程的可用性。④這種方法使用統(tǒng)一視圖模型作為源數(shù)據(jù)層和目標數(shù)據(jù)倉庫層之間的映射。統(tǒng)一視圖通常是一個查詢模型,可以用SQL查詢來表示源數(shù)據(jù)與目標數(shù)據(jù)之間的映射。通過使用統(tǒng)一視圖,我們能實現(xiàn)一個動態(tài)數(shù)據(jù)倉庫ETL過程,生成存儲在數(shù)據(jù)庫中的存儲過程,按需調(diào)用執(zhí)行刷新數(shù)據(jù)倉庫中的數(shù)據(jù)。第三十頁,共165頁?;诮y(tǒng)一視圖模型的ETL體系結(jié)構(gòu)為支持企業(yè)集團多數(shù)據(jù)倉庫構(gòu)建,我們給出了統(tǒng)一視圖模型雙總線結(jié)構(gòu)(如圖3.3所示)。統(tǒng)一維總線統(tǒng)一視圖總線事實表第三十一頁,共165頁?;诮y(tǒng)一視圖模型的ETL體系結(jié)構(gòu)雙總線結(jié)構(gòu)為企業(yè)集團多數(shù)據(jù)倉庫的構(gòu)建提供了有利支持。雙總線結(jié)構(gòu)作用在于:①雙總線結(jié)構(gòu)可以確保事實表具有較高的邏輯獨立性,便于數(shù)據(jù)倉庫事實表創(chuàng)建與維護;②雙總線結(jié)構(gòu)支持統(tǒng)一維和統(tǒng)一視圖復用,便于面向多個應(yīng)用主題,快速開發(fā)多數(shù)據(jù)倉庫;③在雙總線統(tǒng)一標準框架下,數(shù)據(jù)倉庫開發(fā)人員可以相對獨立地異步開展工作,支持增量方式構(gòu)建數(shù)據(jù)倉庫。第三十二頁,共165頁?;诮y(tǒng)一視圖模型的ETL過程建模與實現(xiàn)目前ETL的開發(fā)設(shè)計過程過于依賴具體業(yè)務(wù)的表結(jié)構(gòu)和數(shù)據(jù)倉庫的形式,沒有在概念層上建立一個面向整個企業(yè)集團的,具有一定通用性的模型?,F(xiàn)行的ETL建模和設(shè)計很難借用以往的ETL建模和設(shè)計成果,需要對業(yè)務(wù)和數(shù)據(jù)倉庫進行重新的分析和設(shè)計,從而提高了設(shè)計和維護的時間和代價。第三十三頁,共165頁?;诮y(tǒng)一視圖模型的ETL過程建模在數(shù)據(jù)倉庫系統(tǒng)的統(tǒng)一框架下,在概念層上將ETL過程引入到整個企業(yè)集團數(shù)據(jù)倉庫系統(tǒng)的建模和設(shè)計中,給出一套基于統(tǒng)一視圖模型的ETL過程建模方法,使得模型具備通用性和復用性。采用UMLProfile為基于統(tǒng)一視圖模型的ETL過程建立元模型包括:統(tǒng)一視圖元模型和ETL操作元模型。第三十四頁,共165頁?;诮y(tǒng)一視圖模型的ETL過程建模統(tǒng)一視圖元模型版類第三十五頁,共165頁。基于統(tǒng)一視圖模型的ETL過程建模ETL操作元模型版類第三十六頁,共165頁。基于統(tǒng)一視圖模型的ETL過程建模第三十七頁,共165頁?!禗imension》Dim_Product《DKA》Prod_id《DDA》Prod_Name《DDA》Prod_Price《DDA》Prod_Class《UniformView》UView_SalesOrder《DKA》Order_id《DKA》Cust_id《DKA》Prod_id《DKA》Order_Date《MA》Order_Quantity《MA》Discount《VDA》UV_Class《VDA》UV_DescribeOrderOrder_id:StringCustomer_id:StringDate:DateSalesman_id:String……Order_detailOrder_id:StringProduct_id:StringQuantity:IntegerDiscount:Integer……《Join》Join_Oper1JoinwithOrder_idJoinOrderOrder_id:StringCustomer_id:StringDate:DateProduct_id:StringQuantity:IntegerDiscount:Integer《Conversion》Conversion_Oper1AttributemappingOrder_id→Order_idCustomer_id→Cust_idDate→Order_DateProduct_id→Prod_idQuantity→Order_QuantityDiscount→Discount《Filter》Filter_Oper1FilterbyYear(Order_Date)=’2007’FilterOrder《DKA》Order_id《DKA》Cust_id《DKA》Prod_id《DKA》Order_Date《MA》Order_Quantity《MA》Discount《Calculation》Calculation_Oper1CalculationOrder《DKA》Order_id《DKA》Cust_id《DKA》Prod_id《DKA》Location_id《DKA》Order_Month《MA》Order_Quantity《MA》DiscountLocation_id=substr(cust_id,1,4)Order_Month=month(Order_Date)《Aggregate》Aggregate_Oper1《Fact》Fact_MonthSales2007《DKA》Cust_id《DKA》Prod_id《DKA》Location_id《DKA》Order_Month《MA》Total_Quantity《MA》Total_MoneyGroupby(Cust_id,Prod_id,Location_id,Order_Month)Total_Quantity=SUM(Order_Quantity)Total_Money=SUM(Order_Quantity*Prod_Price*Discount)Fig.7.AcasestudyforUVM-basedETLProcessesModeling第三十八頁,共165頁。基于統(tǒng)一視圖模型的ETL過程實現(xiàn)第三十九頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型

ETL包括眾多的處理任務(wù),且這些處理任務(wù)之間有一定的約束關(guān)系,如何高效地調(diào)度和管理這些處理任務(wù)是企業(yè)集團數(shù)據(jù)倉庫ETL實施中非常重要的工作,也是提高數(shù)據(jù)倉庫開發(fā)效率和資源利用率的關(guān)鍵。我們針對數(shù)據(jù)倉庫ETL任務(wù)調(diào)度問題,建立了數(shù)據(jù)倉庫ETL任務(wù)調(diào)度模型,結(jié)合遺傳算法及同層劃分的思想,給出了相應(yīng)的模型求解算法。第四十頁,共165頁。數(shù)據(jù)倉庫ETL任務(wù)調(diào)度問題描述ETL過程包含若干獨立的ETL任務(wù),每個ETL任務(wù)又由多個有時間順序的具體ETL操作組成。不同ETL任務(wù)之間,沒有強制性的時間順序,可以并發(fā)執(zhí)行,但每個ETL任務(wù)的各個具體ETL操作應(yīng)該按照各自的先后次序約束執(zhí)行,沒有先后約束的ETL操作可以并發(fā)執(zhí)行。

任務(wù)n任務(wù)2任務(wù)1T1數(shù)據(jù)清洗1T1數(shù)據(jù)變換1T1數(shù)據(jù)變換2T1數(shù)據(jù)聚集1T1數(shù)據(jù)聚集2T1數(shù)據(jù)加載2T1數(shù)據(jù)加載1Tn數(shù)據(jù)清洗1Tn數(shù)據(jù)清洗2Tn數(shù)據(jù)變換1Tn數(shù)據(jù)變換2Tn數(shù)據(jù)集成1Tn數(shù)據(jù)加載1T2數(shù)據(jù)變換1T2數(shù)據(jù)加載1T2數(shù)據(jù)抽取1T2數(shù)據(jù)清洗1Tn數(shù)據(jù)抽取1Tn數(shù)據(jù)抽取2T1數(shù)據(jù)抽取1第四十一頁,共165頁。3.3.2數(shù)據(jù)倉庫ETL任務(wù)調(diào)度問題描述為了提高數(shù)據(jù)倉庫ETL執(zhí)行效率,需要對數(shù)據(jù)倉庫ETL所有任務(wù)進行合理的分配與調(diào)度。我們的數(shù)據(jù)倉庫ETL任務(wù)調(diào)度問題滿足以下假設(shè):①所有ETL操作一旦開始進行就不能中斷;②所有處理機都是相同的,即每個ETL操作都可以在任意處理機上執(zhí)行,而且執(zhí)行時間是相同的。其調(diào)度目標是:在滿足處理機資源約束及ETL各操作先后次序約束條件下,合理將多個ETL任務(wù)及ETL操作分配到多個處理機上,并合理調(diào)度各操作執(zhí)行順序,使ETL所有任務(wù)盡可能地并行執(zhí)行以使總的ETL完成時間最短。相應(yīng)的約束描述如下:①所有的ETL操作都必須被執(zhí)行;②每臺處理機同時只能執(zhí)行一個操作;③同一個ETL操作不能同時在不同的處理機上執(zhí)行;④任何ETL任務(wù)中的ETL操作之間都存在著一定的先后次序約束,不允許有可循環(huán)的先后次序,即ETL操作無回路,所有ETL操作必須按這個有效順序執(zhí)行。第四十二頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型

任務(wù)調(diào)度目標函數(shù)

ETL操作完整性約束

處理機執(zhí)行唯一性約束

ETL操作唯一性約束

ETL操作有序性約束

調(diào)度決策變量約束

第四十三頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型采用遺傳算法結(jié)合層層劃分思想進行模型求解。(1)染色體編碼表示采用數(shù)字串編碼方式進行染色體編碼,每個數(shù)字串表示一個可能的調(diào)度,由兩部分構(gòu)成,第一部分是一個由ETL操作序號組成的子串,表示ETL操作調(diào)度順序,稱為操作調(diào)度子串;第二部分是一個由處理機序號組成的子串,表示每個ETL操作所分配的處理機,稱為處理機子串。(2)適應(yīng)度函數(shù)本文定義適應(yīng)度函數(shù)為:。值越大,則該染色體對應(yīng)的調(diào)度效果越好。第四十四頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型(3)生成初始種群。

第四十五頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第四十六頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第四十七頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第四十八頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第四十九頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第五十頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第五十一頁,共165頁。數(shù)據(jù)倉庫系統(tǒng)ETL任務(wù)調(diào)度模型第五十二頁,共165頁。4企業(yè)集團數(shù)據(jù)倉庫技術(shù)

企業(yè)集團數(shù)據(jù)倉庫體系結(jié)構(gòu)企業(yè)集團分布式數(shù)據(jù)倉庫建模企業(yè)集團數(shù)據(jù)倉庫模型驅(qū)動開發(fā)方法企業(yè)集團分布式數(shù)據(jù)倉庫實施第五十三頁,共165頁。企業(yè)集團數(shù)據(jù)倉庫體系結(jié)構(gòu)第五十四頁,共165頁。企業(yè)集團分布式數(shù)據(jù)倉庫建模

提出一種面向主題、耦合維度的一種新的數(shù)據(jù)集市和數(shù)據(jù)倉庫模型。第五十五頁,共165頁。4.3企業(yè)集團數(shù)據(jù)倉庫模型驅(qū)動開發(fā)方法給出了一種面向模型驅(qū)動的數(shù)據(jù)倉庫開發(fā)方法。模型驅(qū)動體系架構(gòu)(ModelDrivenArchitecture,MDA)是對象管理組織OMG(ObjectManagementGroup)發(fā)布的一個軟件開發(fā)框架[11],它以模型作為軟件開發(fā)的核心元素,并為其提供了多種技術(shù)規(guī)范作為基礎(chǔ)框架。MDA的核心思想是抽象出與實現(xiàn)技術(shù)無關(guān)、完整描述系統(tǒng)的平臺無關(guān)模型(PlatformIndependentModel,PIM),針對不同實現(xiàn)技術(shù)制定變換定義;通過制定映射規(guī)則,將PIM轉(zhuǎn)換成與具體實現(xiàn)技術(shù)相關(guān)的平臺相關(guān)模型(PlatformSpecificModel,PSM);最后,再通過轉(zhuǎn)換工具將PSM自動轉(zhuǎn)換成代碼(CODE)。MDA最大的好處在于可以節(jié)省軟件開發(fā)的時間和精力,提高開發(fā)效率。第五十六頁,共165頁。4.3企業(yè)集團數(shù)據(jù)倉庫模型驅(qū)動開發(fā)方法在模型驅(qū)動體系架構(gòu)下給出了一種面向模型驅(qū)動的數(shù)據(jù)倉庫開發(fā)方法,該方法構(gòu)建了基于UMLProfile和CWM的數(shù)據(jù)倉庫PIM(平臺無關(guān)模型)元模型和數(shù)據(jù)倉庫PSM(平臺相關(guān)模型)元模型,定義了一套基于QVT規(guī)范的PIM元模型到PSM元模型轉(zhuǎn)換的規(guī)則。在模型工具MediniQVT及IBM的EMF框架下實現(xiàn)了PIM模型到PSM模型,直至SQL代碼的轉(zhuǎn)換,從而實現(xiàn)了基于模型驅(qū)動的數(shù)據(jù)倉庫開發(fā)。這種方法一方面在統(tǒng)一數(shù)據(jù)倉庫框架下很好解決集成和互操作問題,模型表示簡潔,直接面向最終用戶需求。采用MDA規(guī)范體系中的標準定義各層模型以及模型之間的轉(zhuǎn)換規(guī)則,保證了模型和轉(zhuǎn)換規(guī)則描述的準確和通用性。另一方面這種方法的開發(fā)重點在數(shù)據(jù)倉庫概念層PIM模型的設(shè)計,而不必關(guān)心概念層PIM模型到最終SQL實施代碼的轉(zhuǎn)換,進而減少開發(fā)的時間和代價,提高數(shù)據(jù)倉庫開發(fā)效率,為決策支持系統(tǒng)實施提供有力的依據(jù)。第五十七頁,共165頁。企業(yè)集團數(shù)據(jù)倉庫模型驅(qū)動開發(fā)方法在模型驅(qū)動體系架構(gòu)下,給出一種模型驅(qū)動的數(shù)據(jù)倉庫開發(fā)方法。第五十八頁,共165頁。企業(yè)集團數(shù)據(jù)倉庫模型驅(qū)動開發(fā)方法第五十九頁,共165頁。4.3.4基于MDA的數(shù)據(jù)倉庫PIM和PSM元模型

第六十頁,共165頁。4.3.4基于MDA的數(shù)據(jù)倉庫PIM和PSM元模型

第六十一頁,共165頁。4.3.4基于MDA的數(shù)據(jù)倉庫PIM和PSM元模型

第六十二頁,共165頁。4.3.5基于MDA的數(shù)據(jù)倉庫模型轉(zhuǎn)換

(1)PIM模型到PSM模型轉(zhuǎn)換本文根據(jù)Relation語言制定由數(shù)據(jù)倉庫的PIM元模型到PSM元模型的轉(zhuǎn)換規(guī)則。它們分別是:PackageToSchema,F(xiàn)CToTable,F(xiàn)AToColumn,DDTocolumn,DCToTable,BCToTable,OIDTocolumn,DAToColumn,F(xiàn)DToForeignKey。(2)PSM模型到SQL代碼的轉(zhuǎn)換采用EMF可以建立PSM元模型中各個模型元素的相對應(yīng)的Java類。再通過自定義的從PSM模型實例到SQL轉(zhuǎn)換的Java類,實現(xiàn)SQL代碼的自動生成。第六十三頁,共165頁。4.3.6基于MDA的數(shù)據(jù)倉庫模型驅(qū)動實現(xiàn)

第六十四頁,共165頁。企業(yè)集團分布式數(shù)據(jù)倉庫實施

(1)企業(yè)集團數(shù)據(jù)倉庫實施策略數(shù)據(jù)倉庫常用的開發(fā)策略有3種:即自頂向下方法、自底向上方法、自頂向下和自底向上相結(jié)合的方法。對于企業(yè)集團分布式數(shù)據(jù)環(huán)境的構(gòu)建,采用有反饋的自頂向下和自底向上相結(jié)合的方法。即利用自頂向下的方法規(guī)劃整個集團的數(shù)據(jù)倉庫,并在統(tǒng)一的整體性擴展的數(shù)據(jù)倉庫模型的指導下,利用自底向上的方法快速開發(fā)局部數(shù)據(jù)集市,即對各部門事務(wù)型數(shù)據(jù)庫,利用前面提出的擴展的數(shù)據(jù)集市模型確定主題,形成多個主題表,并建立相應(yīng)的主題耦合維,保留必要的維表,在統(tǒng)一視圖模型基礎(chǔ)上進行數(shù)據(jù)格式轉(zhuǎn)換,經(jīng)過數(shù)據(jù)提取、數(shù)據(jù)凈化、數(shù)據(jù)檢驗后,存入各部門面向主題的數(shù)據(jù)集市中。這樣做可避免各部門在開發(fā)各自的數(shù)據(jù)集市時的盲目性,減少各個數(shù)據(jù)集市之間的數(shù)據(jù)冗余和不一致。由于數(shù)據(jù)集市中數(shù)據(jù)在數(shù)據(jù)模式和數(shù)據(jù)格式上統(tǒng)一,便于數(shù)據(jù)向全局數(shù)據(jù)倉庫轉(zhuǎn)換。在整個開發(fā)過程中,不斷收集客戶的反饋信息,并根據(jù)這些反饋信息進行相應(yīng)調(diào)整、修改。第六十五頁,共165頁。企業(yè)集團分布式數(shù)據(jù)倉庫實施

企業(yè)集團數(shù)據(jù)倉庫實施技術(shù)

(1)數(shù)據(jù)倉庫中元數(shù)據(jù)管理企業(yè)集團元數(shù)據(jù)包括技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)主要包括數(shù)據(jù)倉庫中的數(shù)據(jù)模型、數(shù)據(jù)倉庫的數(shù)據(jù)源、數(shù)據(jù)倉庫的源數(shù)據(jù)到數(shù)據(jù)倉庫的映射、數(shù)據(jù)抽取日志和一些訪問數(shù)據(jù)倉庫的參數(shù)。業(yè)務(wù)元數(shù)據(jù)主要包括企業(yè)的業(yè)務(wù)模型、業(yè)務(wù)域的定義,數(shù)據(jù)倉庫中數(shù)據(jù)的業(yè)務(wù)定義,各種有關(guān)業(yè)務(wù)規(guī)則和業(yè)務(wù)活動的數(shù)據(jù),企業(yè)業(yè)務(wù)模型到數(shù)據(jù)倉庫物理結(jié)構(gòu)的映射等。這些業(yè)務(wù)元數(shù)據(jù)同企業(yè)的業(yè)務(wù)狀況有密切關(guān)系。各個局部數(shù)據(jù)集市有各自獨立的局部業(yè)務(wù)元數(shù)據(jù),全局數(shù)據(jù)倉庫也有獨立的全局業(yè)務(wù)元數(shù)據(jù)。第六十六頁,共165頁。企業(yè)集團分布式數(shù)據(jù)倉庫實施

企業(yè)集團數(shù)據(jù)倉庫實施技術(shù)

(1)數(shù)據(jù)倉庫中元數(shù)據(jù)管理企業(yè)集團業(yè)務(wù)系統(tǒng)的特點是:數(shù)據(jù)源數(shù)目多,硬件環(huán)境、操作系統(tǒng)平臺復雜。基于這一特點,可以采用PL/SQL程序的方式,從業(yè)務(wù)數(shù)據(jù)庫中抽取數(shù)據(jù),按照一定的格式將數(shù)據(jù)組織起來。數(shù)據(jù)抽取的方式可以采取增量抽取和全量抽取相結(jié)合的方式,對于有時間戳的數(shù)據(jù)采用增量抽取的方式;對無時間戳的數(shù)據(jù)如果數(shù)據(jù)量較小,則可以采取全量抽取,完全覆蓋的方式,對于數(shù)據(jù)量很大的情況,則通過抽取業(yè)務(wù)系統(tǒng)的日志信息進行增量抽取的方式,即通過系統(tǒng)的日志信息來判斷哪些數(shù)據(jù)做過修改,新增了哪些數(shù)據(jù)等等。抽取的數(shù)據(jù)經(jīng)過清洗、校驗等處理后作為有效的數(shù)據(jù)加載進入數(shù)據(jù)倉庫。具體的措施包括:重復數(shù)據(jù)唯一化、規(guī)范化以及例外處理,將不完整記錄補充完整等。數(shù)據(jù)加載后根據(jù)查詢的習慣和數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)量的大小定制相應(yīng)的索引,提高查詢速度。第六十七頁,共165頁。企業(yè)集團分布式數(shù)據(jù)倉庫實施

企業(yè)集團數(shù)據(jù)倉庫實施技術(shù)

數(shù)據(jù)安全性關(guān)鍵技術(shù)數(shù)據(jù)安全性是指保護數(shù)據(jù)以防止非法用戶的越權(quán)使用、更改或破壞數(shù)據(jù)。數(shù)據(jù)安全性是設(shè)計和實施數(shù)據(jù)倉庫系統(tǒng)的一個重要關(guān)鍵技術(shù),其保護措施是否有效是評價系統(tǒng)質(zhì)量高低的主要性能指標之一。這里,我們提出了數(shù)據(jù)安全性保護的系統(tǒng)分層控制方法,給出了實施數(shù)據(jù)安全性控制的綜合解決方案。數(shù)據(jù)安全性保護的系統(tǒng)分層控制方法就是將系統(tǒng)劃分為三個層次,即應(yīng)用程序系統(tǒng)層(ApplicationProgramSystem)、數(shù)據(jù)庫管理系統(tǒng)層(DataBaseManagementSystem)、操作系統(tǒng)層(OperationSystem),分別從不同的級別,不同的角度對系統(tǒng)的安全控制進行設(shè)計,即采取分層設(shè)置的安全措施;同時在實施上將三層數(shù)據(jù)安全性控制相結(jié)合,綜合考慮整個數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)安全控制技術(shù),從而形成統(tǒng)一的安全控制策略。第六十八頁,共165頁。5企業(yè)集團聯(lián)機分析處理技術(shù)OLAP基本操作基于MDA的OLAP集成開發(fā)框架基于MDA的OLAP模型開發(fā)基于MDA的OLAP開發(fā)應(yīng)用實例第六十九頁,共165頁。OLAP目前,基于數(shù)據(jù)倉庫(DataWarehouse,DW)進行決策分析主要有兩種方式:聯(lián)機分析處理(On-LineAnalysisProcessing,OLAP)和數(shù)據(jù)挖掘。OLAP是一種歸納型的決策過程,包括切片、切塊、旋轉(zhuǎn)、上卷、下鉆等基本操作。其主要作用是使企業(yè)的決策者能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多方面和多角度來觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數(shù)據(jù)中的規(guī)律,實現(xiàn)對數(shù)據(jù)的歸納、分析和處理,幫助組織完成相關(guān)的決策。OLAP具備了強大的決策支持能力,在決策支持系統(tǒng)中具有重要的地位。第七十頁,共165頁。TypicalOLAPOperationsRollup(drill-up):summarizedatabyclimbinguphierarchyorbydimensionreductionDrilldown(rolldown):reverseofroll-upfromhigherlevelsummarytolowerlevelsummaryordetaileddata,orintroducingnewdimensionsSliceanddice:

projectandselect

Pivot(rotate):

reorientthecube,visualization,3Dtoseriesof2Dplanes.Otheroperationsdrillacross:involving(across)morethanonefacttabledrillthrough:throughthebottomlevelofthecubetoitsback-endrelationaltables(usingSQL)第七十一頁,共165頁。OLAPOperation:roll-upRoll-uponlocation(fromcitiestocountries)第七十二頁,共165頁。OLAPOperation:drill-downDrill-downontime(fromquarterstomonths)第七十三頁,共165頁。OLAPOperation:sliceSlicefortime=“Q2”第七十四頁,共165頁。OLAPOperation:diceDicefor(location=“Montreal”or“Vancouver”)and(time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)第七十五頁,共165頁。OLAPOperation:pivotpivot第七十六頁,共165頁。OLAP的旋轉(zhuǎn)功能平面數(shù)據(jù)的坐標軸轉(zhuǎn)換。12.78.5-4.38.9差量%-4432225402-299531102差量35000030000069000350000計劃30667732540266005381102現(xiàn)有其它汽車家具服裝銷售量1999第七十七頁,共165頁。12.7-44322350000306677所有其他8.525402300000325402汽車-4.3-29956900066005家具8.931102350000381102服裝差量%差量計劃現(xiàn)有銷售量1999第七十八頁,共165頁。OLAP開發(fā)雖然人們在OLAP方面開展了大量的研究工作,但主要還集中在多維數(shù)據(jù)模型[1-3]及OLAP操作的有效算法[4-7]等幾個方面,對面向最終決策用戶的OLAP應(yīng)用開發(fā)未引起足夠的重視,基于數(shù)據(jù)倉庫的OLAP應(yīng)用開發(fā)的研究還很不夠。OLAP應(yīng)用系統(tǒng)開發(fā)是一項復雜性工作,系統(tǒng)的可用性和可維護性是構(gòu)建OLAP系統(tǒng)面臨的主要問題。第七十九頁,共165頁。OLAP開發(fā)目前多數(shù)OLAP應(yīng)用開發(fā)過于依賴于具體業(yè)務(wù)的表結(jié)構(gòu)(行、列)和數(shù)據(jù)倉庫的形式[8],缺少一個直觀的、集成的和統(tǒng)一標準規(guī)范的開發(fā)框架,少有在應(yīng)用模型的高度實施數(shù)據(jù)倉庫OLAP應(yīng)用開發(fā),導致很難借用以往的OLAP建模和設(shè)計成果,OLAP與數(shù)據(jù)倉庫系統(tǒng)其他層之間的互操作性和集成性難以保證。JesusPardilo等人在文獻[9]給出了一種模型驅(qū)動的OLAP元數(shù)據(jù)自動獲取方法,論文工作僅限于OLAP立方體,并沒有給出OLAP操作模型表示。我們在前期工作中提出了應(yīng)用UMLProfile設(shè)計OLAP元模型的方法[10],實現(xiàn)了OLAP在概念層上的設(shè)計,提供了一個具備通用性和重用性的OLAP元模型,但沒有給出這些概念模型到邏輯模型,乃至物理實現(xiàn)的具體轉(zhuǎn)換方法,沒有提供基于模型轉(zhuǎn)換的OLAP實現(xiàn)。第八十頁,共165頁。OLAP開發(fā)目前,MDA在數(shù)據(jù)倉庫系統(tǒng)開發(fā)中有一定應(yīng)用。Jose-NorbertoMazon等人在文獻[12]提出了基于MDA的數(shù)據(jù)倉庫開發(fā)方法,給出了數(shù)據(jù)倉庫PIM、PSM等相關(guān)模型及具體轉(zhuǎn)換方法,論文主要論述了數(shù)據(jù)倉庫資源層的開發(fā)。LeopoldoZepeda等人在文獻[13]中為數(shù)據(jù)倉庫系統(tǒng)概念結(jié)構(gòu)設(shè)計提出一種混合驅(qū)動的方法,應(yīng)用MDA方法完成了ER(實體-關(guān)系)模式到OLAP模式的映射,論文工作僅限于數(shù)據(jù)倉庫系概念結(jié)構(gòu)設(shè)計,沒有給出OLAP操作模型表示及實現(xiàn)方法。OctavioGlorio等人在文獻[14]應(yīng)用MDA方法為支持地理OLAP查詢實施了地理數(shù)據(jù)倉庫系統(tǒng)開發(fā),論文并未給出OLAP應(yīng)用開發(fā)實現(xiàn)方法。JesusPardillo等人在文獻[15]提出了基于MDA的數(shù)據(jù)挖掘建模方法,給出了面向數(shù)據(jù)倉庫的數(shù)據(jù)挖掘概念模型及相應(yīng)模型轉(zhuǎn)換框架。第八十一頁,共165頁。OLAP開發(fā)但將MDA方法應(yīng)用到OLAP開發(fā)中的研究報道并不多見。唯一的一項相關(guān)研究見JesusPardillo等人的工作[17],JesusPardillo等人提出采用OCL(對象約束語言)為OLAP操作實施平臺無關(guān)概念建模的方法,同時給出MDA模型轉(zhuǎn)換框架,但沒有給出OLAPPIM元模型及OLAPPSM元模型定義,沒有給出模型映射規(guī)則等關(guān)鍵技術(shù)描述。第八十二頁,共165頁。OLAP開發(fā)鑒于此,本文在數(shù)據(jù)倉庫系統(tǒng)統(tǒng)一建??蚣芟拢瑥哪P万?qū)動的角度實施OLAP應(yīng)用開發(fā),提出了基于MDA架構(gòu)的OLAP應(yīng)用開發(fā)方法,該方法構(gòu)建了基于UMLProfile和CWM的OLAPPIM(平臺無關(guān)模型)元模型和OLAPPSM(平臺相關(guān)模型)元模型,定義了一套基于QVT規(guī)范的PIM元模型到PSM元模型轉(zhuǎn)換的規(guī)則。在模型工具MediniQVT及IBM的EMF框架下實現(xiàn)了PIM模型到PSM模型,直至SQL代碼的轉(zhuǎn)換,從而實現(xiàn)了基于模型驅(qū)動的OLAP開發(fā)。第八十三頁,共165頁。OLAP開發(fā)這種方法一方面在統(tǒng)一數(shù)據(jù)倉庫框架下很好解決集成和互操作問題,模型表示簡潔,直接面向最終用戶需求。采用MDA規(guī)范體系中的標準定義各層模型以及模型之間的轉(zhuǎn)換規(guī)則,保證了模型和轉(zhuǎn)換規(guī)則描述的準確和通用性。另一方面可以讓OLAP較早地伴隨數(shù)據(jù)倉庫系統(tǒng)進入設(shè)計階段,開發(fā)的重點在OLAP概念層PIM模型的設(shè)計,而不必關(guān)心概念層PIM模型到最終SQL實施代碼的轉(zhuǎn)換,進而減少開發(fā)的時間和代價,提高OLAP應(yīng)用開發(fā)效率,為決策支持系統(tǒng)實施提供有力的依據(jù)。

第八十四頁,共165頁?;贛DA的OLAP集成開發(fā)框架第八十五頁,共165頁。基于MDA的OLAP開發(fā)第八十六頁,共165頁?;贛DA的OLAP開發(fā)OLAPPIM元模型結(jié)構(gòu)第八十七頁,共165頁。基于MDA的OLAP開發(fā)OLAPPIM元模型版類層次結(jié)構(gòu)第八十八頁,共165頁?;贛DA的OLAP開發(fā)第八十九頁,共165頁。基于MDA的OLAP開發(fā)OLAPPSM元模型結(jié)構(gòu)第九十頁,共165頁?;贛DA的OLAP開發(fā)(1)PIM模型到PSM模型轉(zhuǎn)換采用QVT規(guī)范下的Relation語言制定由OLAP的PIM元模型到PSM元模型的轉(zhuǎn)換規(guī)則。(2)PSM模型到SQL代碼的轉(zhuǎn)換采用EMF可以建立PSM元模型中各個模型元素的相對應(yīng)的Java類。再通過自定義的從PSM模型實例到SQL轉(zhuǎn)換的Java類,實現(xiàn)SQL代碼的自動生成。第九十一頁,共165頁?;贛DA的OLAP開發(fā)PIM模型到PSM模型轉(zhuǎn)換OLAP的PIM元模型到PSM元模型的轉(zhuǎn)換規(guī)則,分別是:PackageToSchema,ModelToCube,F(xiàn)AToAttr,DIMToDimension,DAToDimAttr,DAToLevelAttr,DimToDimId,OperationToDeployment,SliceToValue,DiceToLOV,DiceToInterval,DrilldownToLevel,RollupToLevel,PivotToDimHierarchy。第九十二頁,共165頁。基于MDA的OLAP開發(fā)PackageToSchema表示一個整體的PIM到PSM的轉(zhuǎn)換,Package和Schema都是PIM和PSM對各自模型的整體性描述,包含了各模型整體結(jié)構(gòu)的說明。通過后置條件(where子句)來觸發(fā)關(guān)系ModelToCube,OperationToDeployment。ModelToCube,是將PIM中事實模型和目標模型轉(zhuǎn)換成PSM中Cube的規(guī)則,其后置條件觸發(fā)關(guān)系FAToAttr,DIMToDimension,DimToDimId,分別實現(xiàn)事實屬性到屬性轉(zhuǎn)換,維屬性的轉(zhuǎn)換,以及維的轉(zhuǎn)換。OperationToDeployment,表示將PIM中操作模型轉(zhuǎn)換成PSM中的Deployment。其6個后置條件,將OLAP的幾個基本操作進行的描述,實現(xiàn)了基本操作從PIM到PSM的轉(zhuǎn)換。第九十三頁,共165頁。基于MDA的OLAP開發(fā)SliceToValue,通過設(shè)置一個屬性的值,并指定該屬性所從屬的維,實現(xiàn)的切片模型的轉(zhuǎn)換。DiceToLOV和DiceToInterval,在判斷isContinuous作為前置條件的條件下,分別實現(xiàn)了離散取值和線性取值情況的切塊模型轉(zhuǎn)換。DrilldownToLevel和RollupToLevel分別實現(xiàn)了下鉆模型和上卷模型的轉(zhuǎn)換。PivotToDimHierarchy,將旋轉(zhuǎn)模型轉(zhuǎn)換到DimHierarchy,通過對重定序轉(zhuǎn)換的描述,實現(xiàn)旋轉(zhuǎn)操作的轉(zhuǎn)換。第九十四頁,共165頁?;贛DA的OLAP開發(fā)下面以PIM中的操作模型轉(zhuǎn)換為PSM中的Deployment模型為例,說明一下基于QVT的多維數(shù)據(jù)PIM到PSM模型轉(zhuǎn)換的轉(zhuǎn)換規(guī)則。relationOperationToDeployment{ pn:String; checkonlydomainpimp:OLAP_PIM::Package{ olapOperations=oper:OLAP_PIM::OLAPOperations{ name=pn } }; enforcedomainpsms:OLAP_PSM::Schema{ deployment=dp:OLAP_PSM::Deployment{ name=pn } }; where{ SliceToValue(oper,dp); DiceToLOV(oper,dp); DiceToInterval(oper,dp); DrilldownToLevel(oper,dp); RollupToLevel(oper,dp); PivotToDimHierarchy(oper,dp); } }第九十五頁,共165頁?;贛DA的OLAP開發(fā)基于MDA的OLAP模型實現(xiàn)

第九十六頁,共165頁?;贛DA的OLAP開發(fā)應(yīng)用實例下面以通過東北特鋼集團一個具體實例進行應(yīng)用描述。

企業(yè)集團戰(zhàn)略管理處定期對企業(yè)各生產(chǎn)分廠進行考核,要實時統(tǒng)計分析銷售合同執(zhí)行情況,實時查詢提前入庫合同。為此,針對合同跟蹤事實表,首先進行提前入庫合同OLAPPIM概念建模,并通過基于MDA的模型轉(zhuǎn)換生成相應(yīng)的PSM模型,直至SQL代碼生成。第九十七頁,共165頁?;贛DA的OLAP開發(fā)應(yīng)用實例在我們的例子中,提前入庫OLAP操作中僅涉及切塊操作,所以O(shè)perationToDeployment中只有DiceToLOV關(guān)系會在轉(zhuǎn)換過程發(fā)生作用。而且DiceToLOV關(guān)系會將Dice模型中的對入庫日期區(qū)間(2008-12-28至2008-12-31)及提前入庫(實際入庫年月比合同中計劃排產(chǎn)年月早的合同)的描述轉(zhuǎn)換為在Deployment中的描述。利用支持QVT規(guī)范的MediniQVT開源模型轉(zhuǎn)換工具,實現(xiàn)了OLAP操作元模型的定義和提前入庫OLAP操作模型轉(zhuǎn)換。具體實例中我們定義了提前入庫OLAPPIM模型實例(source.xmi),利用模型轉(zhuǎn)換生成OLAPPSM模型實例(target.xmi)。第九十八頁,共165頁?;贛DA的OLAP開發(fā)應(yīng)用實例第九十九頁,共165頁?;贛DA的OLAP開發(fā)應(yīng)用實例第一百頁,共165頁?;贛DA的OLAP開發(fā)應(yīng)用實例第一百零一頁,共165頁?;贛DA的OLAP開發(fā)應(yīng)用實例利用提前入庫合同查詢結(jié)果,戰(zhàn)略管理處管理人員可以準確定位所有提前入庫合同詳細信息,正確評價合同實際完成情況,輔助制定科學、高效的企業(yè)生產(chǎn)計劃。應(yīng)用表明,使用基于MDA的OLAP開發(fā)方法,一方面可以大大提高OLAP查詢開發(fā)效率,開發(fā)效率比傳統(tǒng)軟件開發(fā)方法提高75%,支持模型重用。另一方面,通過模型驅(qū)動的方法可以讓設(shè)計人員不必關(guān)心OLAP查詢實現(xiàn)細節(jié),使得他們更多關(guān)注模型的概念設(shè)計,進而提高模型的適用性和準確性,更加高效滿足最終客戶查詢需求。

。第一百零二頁,共165頁。6企業(yè)集團數(shù)據(jù)挖掘技術(shù)基于抽樣的決策樹分類算法及應(yīng)用關(guān)聯(lián)規(guī)則改進算法及應(yīng)用第一百零三頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

提出一種基于抽樣的決策樹分類算法,能在面臨企業(yè)集團大數(shù)據(jù)集的情況下,挖掘出有一定正確性的分類規(guī)則。算法基本思想是:從原始的大數(shù)據(jù)集中選取一個與原大數(shù)據(jù)集相似分布的小樣本子集,并在這個樣本子集上采用決策樹分類算法來進行學習,根據(jù)時間復雜度要求和收斂標準來定義抽樣的終止。算法中要解決的關(guān)鍵技術(shù)問題是:如何確定抽樣的初始樣本量,如何確定抽樣的進度,如何確定抽樣的終止條件。第一百零四頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

確定抽樣的初始樣本量,采用文獻的方法,具體分為三步:①給定m個樣本大小,計算各個樣本大小對應(yīng)的樣本質(zhì)量,樣本質(zhì)量采用基于信息差異的標準度量;②利用m個樣本大小和樣本質(zhì)量,畫出樣本質(zhì)量曲線,確定統(tǒng)計優(yōu)化樣本量(StatisticalOptimalSampleSize,SOSS),其對應(yīng)的樣本質(zhì)量應(yīng)該接近1。③基于在SOSS上的學習能獲得和最優(yōu)樣本量(OptimalSampleSize,OSS)足夠近似的正確性,可以把SOSS作為抽樣的初始樣本量。第一百零五頁,共165頁。基于抽樣的決策樹分類算法及應(yīng)用

確定抽樣的進度在抽樣的進度上根據(jù)增加樣本數(shù)量的不同方法分為算術(shù)抽樣和幾何抽樣。因為算術(shù)抽樣比較保守,幾何抽樣比較激進,采用參考文獻提出的抽樣進度,抽樣樣本數(shù)量為:(i=1,2,…m),其中g(shù)o_length為步長系數(shù),定義go_length=1.1。n0是初始樣本量。第一百零六頁,共165頁。基于抽樣的決策樹分類算法及應(yīng)用

確定抽樣的終止條件①利用時間復雜度要求來確定抽樣的終止條件,在此要保證抽樣算法所花的時間復雜度必須小于使用整個原數(shù)據(jù)集所花的時間復雜度,所以必須保證:第一百零七頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

確定抽樣的終止條件第一百零八頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

確定抽樣的終止條件②利用收斂標準來確定抽樣的終止條件,當學習曲線的坡度到達一個平緩的穩(wěn)定狀態(tài)時就認為其收斂了。使用最后3個抽樣得到一個有權(quán)重的正確度平均值來檢測是否收斂,有權(quán)重的正確度平均值定義為:第一百零九頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

基于抽樣的決策樹分類算法第一百一十頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

第一百一十一頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

第一百一十二頁,共165頁。基于抽樣的決策樹分類算法及應(yīng)用

將基于抽樣的決策樹分類算法應(yīng)用到東北特鋼集團生產(chǎn)成本管理領(lǐng)域,從大量生產(chǎn)成本歷史數(shù)據(jù)中挖掘出工藝路線上的關(guān)鍵工序,為決策者在工業(yè)生產(chǎn)過程中提供更好的決策依據(jù)。第一百一十三頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

鋼鐵企業(yè)生產(chǎn)成本工序數(shù)據(jù)倉庫模型第一百一十四頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

第一百一十五頁,共165頁?;诔闃拥臎Q策樹分類算法及應(yīng)用

第一百一十六頁,共165頁。關(guān)聯(lián)規(guī)則改進算法及應(yīng)用在關(guān)聯(lián)規(guī)則挖掘中,關(guān)鍵技術(shù)問題是如何確定候選頻繁項集、如何計算項集的支持數(shù),如何減少候選項集的個數(shù),以及如何減少掃描交易數(shù)據(jù)庫的次數(shù)。本文利用有向項集圖的三叉鏈表式存儲結(jié)構(gòu)和基于有向項集圖的完全頻繁項集關(guān)聯(lián)規(guī)則挖掘算法。第一百一十七頁,共165頁。關(guān)聯(lián)規(guī)則改進算法及應(yīng)用第一百一十八頁,共165頁。關(guān)聯(lián)規(guī)則改進算法及應(yīng)用第一百一十九頁,共165頁。關(guān)聯(lián)規(guī)則改進算法及應(yīng)用第一百二十頁,共165頁。關(guān)聯(lián)規(guī)則改進算法及應(yīng)用基于有向項集圖的完全頻繁項集挖掘算法第一百二十一頁,共165頁。關(guān)聯(lián)規(guī)則改進算法及應(yīng)用將本文提出的關(guān)聯(lián)規(guī)則挖掘算法應(yīng)用到東北特鋼集團客戶營銷管理領(lǐng)域。我們結(jié)合客戶訂貨事實表進行實例應(yīng)用描述。抽取東北特鋼集團華北分公司2005年度客戶訂貨信息,挖掘客戶購買不同鋼類產(chǎn)品的關(guān)聯(lián)規(guī)則。采用本文提出的方法,首先對數(shù)據(jù)表進行縱向轉(zhuǎn)換,再定義有向圖三叉鏈表存儲結(jié)構(gòu),最后設(shè)置支持度設(shè)為3%時,挖掘完全頻繁項集,當置信度設(shè)定為60%時,生成的滿足置信度的部分關(guān)聯(lián)規(guī)則如下:第一百二十二頁,共165頁。7企業(yè)集團決策支持技術(shù)決策基本概念企業(yè)集團決策支持信息模型企業(yè)集團決策支持系統(tǒng)結(jié)構(gòu)企業(yè)集團決策支持系統(tǒng)應(yīng)用研究第一百二十三頁,共165頁。決策的涵義

韋伯大辭典的定義:決策就是從兩個或者多個備選方案中有意識的選擇其中一個方案。根據(jù)此定義決策包括兩個要素:(1)有意識的選擇(2)備選方案在《哈佛管理眾書》中,決策的定義為:“指考慮策略(或辦法)來解決目前或未來(問題)的智力活動?!蔽髅?H.A.Simon)將決策視為一個過程:決策就是找出要求制定決策的原則;尋找、擬定和分析可能的行動方案;選擇特定方案。第一百二十四頁,共165頁。決策例子“囚徒困境”例子

以下幾種情況:如果兩人都不坦白,警察會以非法攜帶槍支罪而將二人各判刑1年;如果其中一人招供而另一人不招,坦白者作為證人將不會被起訴,另一人將會被重判15年;如果二人都招供,則二人都會因罪名各判10年。這兩個囚犯該怎么辦呢?第一百二十五頁,共165頁。結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化決策問題

按照決策問題的性質(zhì),可以按其結(jié)構(gòu)化程度,劃分為“結(jié)構(gòu)化”、“半結(jié)構(gòu)化”、“非結(jié)構(gòu)化”三類。所謂結(jié)構(gòu)化程度,是指對某一過程的環(huán)境和規(guī)律,能否用明確的語言(數(shù)學的或邏輯學的,形式的或非形式,定量或推理的)給予清晰的說明或描述。如果能描述清楚的,稱為結(jié)構(gòu)化問題;不能描述清楚而只能憑知覺或經(jīng)驗作出判斷的,稱為非結(jié)構(gòu)化問題;介于二者之間的稱為半結(jié)構(gòu)化問題。與決策過程對應(yīng)起來,結(jié)構(gòu)化問題是指決策過程中的步驟都能使用確定的算法或決策規(guī)則來確定。如果上述無法用確定的算法或決策規(guī)則來確定,則稱為非結(jié)構(gòu)化決策問題。在某些條件下,其中一個階段(步驟)由于人們認識不清楚,無法完成清晰的描述,則這樣的問題就成為半結(jié)構(gòu)化問題。

第一百二十六頁,共165頁。決策問題按性質(zhì)與層次分類管理層次決策類型作業(yè)調(diào)度(I)運籌管理(II)戰(zhàn)略規(guī)劃(III)支持需求結(jié)構(gòu)化庫存報表、零件定貨生產(chǎn)調(diào)度、物資調(diào)用工廠選址辦事員、EDP、MS、OR半結(jié)構(gòu)化股票管理、貿(mào)易開發(fā)市場、經(jīng)費預算資本獲利分析DSS非結(jié)構(gòu)化為雜志選擇封面聘用管理人員研究與開發(fā)分析經(jīng)驗與直覺第一百二十七頁,共165頁。決策支持概念

決策支持是指用計算機來達到如下目的:

(1)幫助決策者在半結(jié)構(gòu)化或非結(jié)構(gòu)化的問題中做出決策;

(2)支持決策者的決策,但不替代決策者的判斷;

(3)改進決策效能(effectiveness),但不是提高它的效率(efficiency)。

第一百二十八頁,共165頁。問題綜合與交互系統(tǒng)

用戶模型庫管理系統(tǒng)模型庫知識庫管理系統(tǒng)知識庫推理機決策信息知識信息數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)開采OLAP第一百二十九頁,共165頁。智能決策支持的示例稿件處理的智能決策支持系統(tǒng)一、問題的背景:期刊編輯部每天收到大量的稿件,手工處理大量稿件將耗費大量時間,有時難免還會出現(xiàn)差錯和失誤。如何高效率地處理稿件并準確地進行稿件錄用的決策,是期刊界十分關(guān)注的問題。第一百三十頁,共165頁。稿件從提交到編輯部一直到錄用出版全過程的處理工作,主要可以分為三大方面:1.稿件處理全過程的信息管理;2.稿件的錄用決策;3.稿件刊發(fā)計劃的制定(確定稿件刊發(fā)的具體刊期)。第一百三十一頁,共165頁。解決問題的途徑稿件處理全過程的信息管理可以通過建立數(shù)據(jù)庫系統(tǒng)來實現(xiàn);(MIS)稿件的錄用決策工作可以通過建立基于知識的產(chǎn)生式系統(tǒng)——稿件錄用決策專家系統(tǒng)來完成,當然這里面將涉及到稿件信息的知識表示問題;(ES)稿件刊發(fā)計劃的制定工作可以通過建立一個0-1目標規(guī)劃數(shù)學模型及其軟件系統(tǒng)來解決。(DSS)第一百三十二頁,共165頁。系統(tǒng)結(jié)構(gòu)與處理流程人機交互界面稿件信息數(shù)據(jù)庫子系統(tǒng)稿件錄用決策子系統(tǒng)稿件刊發(fā)計劃子系統(tǒng)稿件處理的智能決策支持系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖第一百三十三頁,共165頁。子系統(tǒng)的作用與功能人機交互界面:它負責接受決策者的指令,協(xié)調(diào)各子系統(tǒng)工作,擔負著控制求解及推理過程的任務(wù)。稿件信息數(shù)據(jù)庫子系統(tǒng):它由數(shù)據(jù)庫和數(shù)據(jù)庫管理系統(tǒng)構(gòu)成,數(shù)據(jù)庫將記錄從稿件提交到編輯部一直到錄用出版這一稿件處理全過程的信息。數(shù)據(jù)庫管理系統(tǒng)完成數(shù)據(jù)的增刪、修改、更新、維護、檢索等功能。第一百三十四頁,共165頁。子系統(tǒng)的作用與功能(續(xù))稿件錄用決策子系統(tǒng):它由稿件信息知識表示模塊、稿件錄用決策模塊、被錄用稿件知識化信息模型生成模塊、用戶界面、以及相應(yīng)知識庫和數(shù)據(jù)庫等構(gòu)成。它完成稿件信息的知識表示→形成擬錄用稿件的知識化信息模型→稿件的錄用決策→形成被錄用稿件數(shù)據(jù)庫等操作。這里的知識庫實際上是一種規(guī)則庫,用于存儲稿件信息知識表示的規(guī)則、稿件錄用的標準和規(guī)則等。第一百三十五頁,共165頁。子系統(tǒng)的作用與功能(續(xù))稿件刊發(fā)計劃子系統(tǒng):由稿件刊發(fā)計劃制定模塊實現(xiàn),完成稿件在期刊上發(fā)表的具體位置,如哪一期、哪一欄目、起止頁碼等內(nèi)容。利用被錄用稿件知識化信息模型、被錄用稿件評審結(jié)果數(shù)據(jù)庫中的信息,建立稿件錄用決策數(shù)學模型和數(shù)學模型求解方法,制定稿件刊發(fā)計劃。第一百三十六頁,共165頁。稿件處理智能決策支持系統(tǒng)的信息處理流程圖被錄用稿件知識化信息模型稿件登記稿件審讀與評價稿件錄用決策制定稿件刊發(fā)計劃稿件信息數(shù)據(jù)庫子系統(tǒng)稿件錄用決策子系統(tǒng)稿件刊發(fā)計劃子系統(tǒng)稿件基本信息數(shù)據(jù)庫學術(shù)或非學術(shù)稿件評審結(jié)果數(shù)據(jù)庫稿件刊發(fā)計劃

操作的執(zhí)行體操作內(nèi)容操作結(jié)果載體第一百三十七頁,共165頁。稿件信息數(shù)據(jù)庫子系統(tǒng)的結(jié)構(gòu)稿件信息數(shù)據(jù)庫子系統(tǒng)由稿件信息數(shù)據(jù)庫管理系統(tǒng)和稿件基本信息數(shù)據(jù)庫、學術(shù)稿件評審結(jié)果數(shù)據(jù)庫、非學術(shù)稿件評審結(jié)果數(shù)據(jù)庫等構(gòu)成。稿件信息數(shù)據(jù)庫管理系統(tǒng)由稿件登記、修改、刪除、檢索、統(tǒng)計、打印、用戶界面等模塊組成。第一百三十八頁,共165頁。稿件信息數(shù)據(jù)庫子系統(tǒng)的結(jié)構(gòu)圖用戶界面檢索模塊修改模塊記錄刪除模塊統(tǒng)計模塊打印模塊登記模塊稿件及作者登記子模塊初審及專家信息登記子模塊專家評審意見及編委會終審信息登記子模塊稿件基本信息數(shù)據(jù)庫學術(shù)稿件評審結(jié)果數(shù)據(jù)庫非學術(shù)稿件評審結(jié)果數(shù)據(jù)庫第一百三十九頁,共165頁。稿件錄用決策子系統(tǒng)的結(jié)構(gòu)用戶界面知識庫管理模塊錄用決策模塊稿件錄用標準推理機稿件評審結(jié)果數(shù)據(jù)庫被錄用稿件評審結(jié)果數(shù)據(jù)庫第一百四十頁,共165頁。稿件刊發(fā)計劃子系統(tǒng)的結(jié)構(gòu)用戶界面稿件刊發(fā)計劃制定模塊被錄用稿件評審結(jié)果數(shù)據(jù)庫稿件錄用決策數(shù)學模型庫稿件錄用決策數(shù)學模型求解方法庫稿件刊發(fā)計劃第一百四十一頁,共165頁。稿件刊發(fā)計劃的數(shù)學模型

設(shè)期刊有m個欄目,第i期第j個欄目的容量(刊登論文的版面數(shù))為Cij。對于欄目j,假設(shè)第k篇已被錄用的論文占用的版面數(shù)為Pjk,期刊的每期總?cè)萘繛橐怀?shù),設(shè)為W。稿件分為加快級和普通級兩種,引入0-1變量Xijk和Yijk對其加以區(qū)分,其含義如下:第一百四十二頁,共165頁。稿件刊發(fā)計劃0-1目標規(guī)劃數(shù)學模型第一百四十三頁,共165頁。求解稿件刊發(fā)計劃

數(shù)學模型的搜索算法啟發(fā)式搜索算法第一百四十四頁,共165頁。初始化如果再多加一個,則欄目頁數(shù)超過規(guī)定的頁數(shù)。往欄目K中加入稿件否K=K+1K>欄目數(shù)是否基本可行解考慮欄目K,K=1是搜索廣度D,D=1,U=S0設(shè)BadRecord表為空搜索最優(yōu)解從欄目中窮舉選出D個不重復的欄目,且其組合滿足有效性。(有效性判斷見注1)往所有選中的欄目中加入一篇對應(yīng)欄目的稿件,并計算最優(yōu)估價函數(shù)F(S)。如果集合{F(S)}全為負數(shù)。將U作為最優(yōu)解,算法結(jié)束將F(S)為負數(shù)對應(yīng)的欄目組合存入BadRecord表中。是否找出{F(S)}中的非負最小值,并將其對應(yīng)的S作為優(yōu)化后的可行解存入U.D=D+1第一百四十五頁,共165頁。企業(yè)集團決策支持信息模型第一百四十六頁,共165頁。企業(yè)集團決策支持系統(tǒng)結(jié)構(gòu)企業(yè)集團決策問題與決策方案第一百四十七頁,共165頁。企業(yè)集團決策支持系統(tǒng)結(jié)構(gòu)企業(yè)集團決策支持系統(tǒng)層次結(jié)構(gòu)

通過分層,實現(xiàn)將決策問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論