大數(shù)據(jù)治理一一為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值_第1頁
大數(shù)據(jù)治理一一為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值_第2頁
大數(shù)據(jù)治理一一為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值_第3頁
大數(shù)據(jù)治理一一為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值_第4頁
大數(shù)據(jù)治理一一為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)治理一一為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值

書目

大數(shù)據(jù)治理——為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值...............1

概述.........................................................2

大數(shù)據(jù)治理系列...............................................2

第一部分:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略

........................................................................................................2

其次部分:元數(shù)據(jù)集成體系結(jié)構(gòu)..........................19

第三部分:實(shí)施元數(shù)據(jù)管理..............................34

第四部分:大數(shù)據(jù)治理統(tǒng)一流程參考模型的第四步到第九步..50

第五部分:定義度量值和主數(shù)據(jù)監(jiān)管.....................73

第六部分:大數(shù)據(jù)監(jiān)管和信息單一視圖監(jiān)管...............90

第七部分:分析監(jiān)管、平安與隱私管理和信息生命周期監(jiān)管108

概述

面對(duì)我們身邊每時(shí)每刻快速增長的浩大數(shù)據(jù),因?yàn)槠鋽?shù)量大、速度快、

種類多和精確性的特征,如何更好地利用大數(shù)據(jù)創(chuàng)建出有意義的價(jià)值,始

終是我們探究的重要話題。而在這之前,就須要用科學(xué)正確的方法策略對(duì)

大數(shù)據(jù)進(jìn)行治理。大數(shù)據(jù)治理是指制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私愛

護(hù)與數(shù)據(jù)變現(xiàn)的政策,是傳統(tǒng)信息治理的持續(xù)和擴(kuò)展,也是大數(shù)據(jù)分析的

基礎(chǔ),還是連接大數(shù)據(jù)科學(xué)和應(yīng)用的橋梁,因此大數(shù)據(jù)治理是大數(shù)據(jù)再創(chuàng)

高峰的“必修課”。下面我們將與您共享簇新出爐的大數(shù)據(jù)治理方案。

大數(shù)據(jù)治理系列

本系列共分為七個(gè)部分,圍繞大數(shù)據(jù)治理統(tǒng)一流程參考模型,并結(jié)合

實(shí)際業(yè)務(wù)問題和IBM相應(yīng)的產(chǎn)品解決方案綻開敘述。

第一部分:大數(shù)據(jù)治理統(tǒng)一流程模型概述和明確元數(shù)據(jù)管理策略

為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在IBM數(shù)據(jù)治理統(tǒng)一流

程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的閱歷,整

理出了大數(shù)據(jù)治理統(tǒng)一流程參考模型。本文主要介紹了大數(shù)據(jù)治理的基本

概念,以與結(jié)合圖文并茂的方式講解了大數(shù)據(jù)治理統(tǒng)一流程參考模型的前

兩步:“明確元數(shù)據(jù)管理策略”和“元數(shù)據(jù)集成體系結(jié)構(gòu)”內(nèi)容。

大數(shù)據(jù)治理概述

(狹義)大數(shù)據(jù)是指無法運(yùn)用傳統(tǒng)流程或工具在合理的時(shí)間和成本內(nèi)

處理或分析的信息,這些信息將用來幫助企業(yè)更才智地經(jīng)營和決策。而廣

義的大數(shù)據(jù)更是指企業(yè)須要處理的海量數(shù)據(jù),包括傳統(tǒng)數(shù)據(jù)以與狹義的大

數(shù)據(jù)。(廣義)大數(shù)據(jù)可以分為五個(gè)類型:Web和社交媒體數(shù)據(jù)、機(jī)器對(duì)

機(jī)器(M2M)數(shù)據(jù)、海量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。

?Web和社交媒體數(shù)據(jù):比如各種微博、博客、社交網(wǎng)站、購物網(wǎng)站中

的數(shù)據(jù)和內(nèi)容。

?M2M數(shù)據(jù):也就是機(jī)器對(duì)機(jī)器的數(shù)據(jù),比如RFID數(shù)據(jù)、GPS數(shù)據(jù)、

智能儀表、監(jiān)控記錄數(shù)據(jù)以與其他各種傳感器、監(jiān)控器的數(shù)據(jù)。

?海量交易數(shù)據(jù):是各種海量的交易記錄以與交易相關(guān)的半結(jié)構(gòu)化和非

結(jié)構(gòu)化數(shù)據(jù),比如電信行業(yè)的CDR、3G上網(wǎng)記錄等,金融行業(yè)的網(wǎng)

上交易記錄、corebanking記錄、理財(cái)記錄等,保險(xiǎn)行業(yè)的各種理賠

等。

?生物計(jì)量學(xué)數(shù)據(jù):是指和人體識(shí)別相關(guān)的生物識(shí)別信息,如指紋、DNA、

虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。

?人工生成的數(shù)據(jù):比如各種調(diào)查問卷、電子郵件、紙質(zhì)文件、掃描件、

錄音和電子病歷等。

在各行各業(yè)中,隨處可見因數(shù)量、速度、種類和精確性結(jié)合帶來的大

數(shù)據(jù)問題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理漸漸提上日程。在傳統(tǒng)系

統(tǒng)中,數(shù)據(jù)須要先存儲(chǔ)到關(guān)系型數(shù)據(jù)庫/數(shù)據(jù)倉庫后再進(jìn)行各種查詢和分

析,這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,除了靜態(tài)數(shù)據(jù)以外,

還有很多數(shù)據(jù)對(duì)實(shí)時(shí)性要求特別高,須要在采集數(shù)據(jù)時(shí)就進(jìn)行相應(yīng)的處

理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫/數(shù)據(jù)倉庫、MPP數(shù)據(jù)庫、Hadoop平

臺(tái)、各種NoSQL數(shù)據(jù)庫等,這些數(shù)據(jù)我們稱之為動(dòng)態(tài)數(shù)據(jù)。比如高鐵機(jī)

車的關(guān)鍵零部件上裝有成百上千的傳感器,每時(shí)每刻都在生成設(shè)備狀態(tài)信

息,企業(yè)須要實(shí)時(shí)收集這些數(shù)據(jù)并進(jìn)行分析,當(dāng)發(fā)覺設(shè)備可能出現(xiàn)問題時(shí)

與時(shí)告警。再比如在電信行業(yè),基于用戶通信行為的精準(zhǔn)營銷、位置營銷

等,都會(huì)實(shí)時(shí)的采集用戶數(shù)據(jù)并依據(jù)業(yè)務(wù)模型進(jìn)行相應(yīng)的營銷活動(dòng)。

大數(shù)據(jù)治理的核心是為業(yè)務(wù)供應(yīng)持續(xù)的、可度量的價(jià)值。大數(shù)據(jù)治理

人員須要定期與企業(yè)高層管理人員進(jìn)行溝通,保證大數(shù)據(jù)治理安排可以持

續(xù)獲得支持和幫助。信任隨著時(shí)間的推移,大數(shù)據(jù)將成為主流,企業(yè)可以

從海量的數(shù)據(jù)中獲得更多的價(jià)值,而大數(shù)據(jù)治理的范圍和嚴(yán)格程度也將逐

步上升。為了更好地幫助企業(yè)進(jìn)行大數(shù)據(jù)治理,筆者在IBM數(shù)據(jù)治理統(tǒng)

一流程模型基礎(chǔ)上結(jié)合在電信、金融、政府等行業(yè)進(jìn)行大數(shù)據(jù)治理的閱歷,

整理了大數(shù)據(jù)治理統(tǒng)一流程參考模型,整個(gè)參考模型分為必選步驟和可選

步驟兩部分。

大數(shù)據(jù)治理統(tǒng)一流程參考模型

如圖1所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個(gè)方向:

一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上實(shí)施全面的

元數(shù)據(jù)管理,另一條子線是在定義業(yè)務(wù)問題、執(zhí)行成熟度評(píng)估的基礎(chǔ)上定

義數(shù)據(jù)治理路途圖以與定義數(shù)值治理相關(guān)的度量值。在11個(gè)必要步驟的

基礎(chǔ)上,企業(yè)可以在7個(gè)可選步驟中選擇一個(gè)或多個(gè)途徑進(jìn)行特定領(lǐng)域的

數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、(狹義)大數(shù)據(jù)監(jiān)管、信息單一視

圖監(jiān)管、運(yùn)營分析監(jiān)管、預(yù)料分析監(jiān)管、管理平安與隱私以與監(jiān)管信息生

命周期。企業(yè)須要定期對(duì)大數(shù)據(jù)治理統(tǒng)一流程進(jìn)行度量并將結(jié)果發(fā)送給主

管級(jí)發(fā)起人。

”i6.m

安全與隔私

12.1)委濠13.1)加分析核?

12償.

依行管理員聶樨管理員(5總

義15.被測17.依管信息

12.2)大家〉i3.2)n-

M同l

11.3)實(shí)籟12.3)實(shí)篇13.3)構(gòu)*AT監(jiān)

主歐掘管理

-W-

圖1大數(shù)據(jù)治理統(tǒng)一流程參考模型

第一步:明確元數(shù)據(jù)管理策略

在最起先的時(shí)候,元數(shù)據(jù)(MetaData)是指描述數(shù)據(jù)的數(shù)據(jù),通常

由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了特別大的擴(kuò)展,

比如UML模型、數(shù)據(jù)交易規(guī)則、用Java,.NET,C++等編寫的APIs、

業(yè)務(wù)流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以與各種業(yè)務(wù)規(guī)則、術(shù)

語和定義等[1]。在大數(shù)據(jù)時(shí)代,元數(shù)據(jù)還應(yīng)當(dāng)包括對(duì)各種新數(shù)據(jù)類型的描

述,如對(duì)位置、名字、用戶點(diǎn)擊次數(shù)、音頻、視頻、圖片、各種無線感知

設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的描述等。元數(shù)據(jù)通常分為業(yè)務(wù)元數(shù)據(jù)、

技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。業(yè)務(wù)元數(shù)據(jù)主要包括業(yè)務(wù)規(guī)則、定義、術(shù)語、

術(shù)語表、運(yùn)算法則和系統(tǒng)運(yùn)用業(yè)務(wù)語言等,主要運(yùn)用者是業(yè)務(wù)用戶。技術(shù)

元數(shù)據(jù)主要用來定義信息供應(yīng)鏈(InformationSupplyChain,ISC)

各類組成部分元數(shù)據(jù)結(jié)構(gòu),具體包括各個(gè)系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、

依靠性等,以與存儲(chǔ)過程、函數(shù)、序列等各種對(duì)象。操作元數(shù)據(jù)是指應(yīng)用

程序運(yùn)行信息,比如其頻率、記錄數(shù)以與各個(gè)組件的分析和其它統(tǒng)計(jì)信息

等。

從整個(gè)企業(yè)層面來說,各種工具軟件和應(yīng)用程序越來越困難,相互依

存度逐年增加,相應(yīng)的追蹤整個(gè)信息供應(yīng)鏈各組件之間數(shù)據(jù)流淌、了解數(shù)

據(jù)元素含義和上下文的需求越來越劇烈。在從應(yīng)用議程往信息議程的轉(zhuǎn)變

過程中,元數(shù)據(jù)管理也漸漸從局部存儲(chǔ)和管理轉(zhuǎn)向共享。從總量上來看,

整個(gè)企業(yè)的元數(shù)據(jù)越來越多,光現(xiàn)有的數(shù)據(jù)模型中就包含了成千上萬的

表,同時(shí)還有更多的模型等著上線,同時(shí)隨著大數(shù)據(jù)時(shí)代的來臨,企業(yè)須

要處理的數(shù)據(jù)類型越來越多。為了企業(yè)更高效地運(yùn)轉(zhuǎn),企業(yè)須要明確元數(shù)

據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu),依托成熟的方法論和工具實(shí)現(xiàn)元數(shù)據(jù)

管理,并有步驟的提升其元數(shù)據(jù)管理成熟度。

為了實(shí)現(xiàn)大數(shù)據(jù)治理,構(gòu)建才智的分析洞察,企業(yè)須要實(shí)現(xiàn)貫穿整個(gè)

企業(yè)的元數(shù)據(jù)集成,建立完整且一樣的元數(shù)據(jù)管理策略,該策略不僅僅針

對(duì)某個(gè)數(shù)據(jù)倉庫項(xiàng)目、業(yè)務(wù)分析項(xiàng)目、某個(gè)大數(shù)據(jù)項(xiàng)目或某個(gè)應(yīng)用單獨(dú)制

定一個(gè)管理策略,而是針對(duì)整個(gè)企業(yè)構(gòu)建完整的管理策略。元數(shù)據(jù)管理策

略也不是技術(shù)標(biāo)準(zhǔn)或某個(gè)軟件工具可以取代的,無論軟件工具功能多強(qiáng)大

都不能完全替代一個(gè)完整一樣的元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成

體系結(jié)構(gòu)以與選購元數(shù)據(jù)管理工具之前須要定義元數(shù)據(jù)管理策略。

元數(shù)據(jù)管理策略須要明確企業(yè)元數(shù)據(jù)管理的愿景、目標(biāo)、需求、約束

和策略等,依據(jù)企業(yè)自身當(dāng)前以與將來的須要確定要實(shí)現(xiàn)的元數(shù)據(jù)管理成

熟度以與實(shí)現(xiàn)目標(biāo)成熟度的路途圖,完成基礎(chǔ)本體、領(lǐng)域本體、任務(wù)本體

和應(yīng)用本體的構(gòu)建,確定元數(shù)據(jù)管理的平安策略、版本限制、元數(shù)據(jù)訂閱

推送等。企業(yè)須要對(duì)業(yè)務(wù)術(shù)語、技術(shù)術(shù)語中的敏感數(shù)據(jù)進(jìn)行標(biāo)記和分類,

制定相應(yīng)的數(shù)據(jù)隱私愛護(hù)政策,確保企業(yè)在隱私愛護(hù)方面符合當(dāng)?shù)仉[私方

面的法律法規(guī),假如企業(yè)有跨國數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循

涉與國家的法律法規(guī)要求。企業(yè)須要保證每個(gè)元數(shù)據(jù)元素在信息供應(yīng)鏈中

每個(gè)組件中語義上保持一樣,也就是語義等效(semanticequivalence)o

語義等效可以強(qiáng)也可以弱,在一個(gè)元數(shù)據(jù)集成方案中,語義等效(平均)

越強(qiáng)則整個(gè)方案的效率越高。語義等效的強(qiáng)弱程度干脆影響元數(shù)據(jù)的共享

和重用。

本體(人工智能和計(jì)算機(jī)科學(xué))

本體(Ontology)源自哲學(xué)本體論,而哲學(xué)本體論則是源自哲學(xué)中“形

而上學(xué)”分支。本體有時(shí)也被翻譯成本體論,在人工智能和計(jì)算機(jī)科學(xué)領(lǐng)

域本體最早源于上世紀(jì)70年頭中期,隨著人工智能的發(fā)展人們發(fā)覺學(xué)問

的獲得是構(gòu)建強(qiáng)大人工智能系統(tǒng)的關(guān)鍵,于是起先將新的本體創(chuàng)建為計(jì)算

機(jī)模型從而實(shí)現(xiàn)特定類型的自動(dòng)化推理。之后到了上世紀(jì)80年頭,人工

智能領(lǐng)域起先運(yùn)用本體表示模型化時(shí)間的一種理論以與學(xué)問系統(tǒng)的一種

組件,認(rèn)為本體(人工智能)是一種應(yīng)用哲學(xué)。

最早的本體(人工智能和計(jì)算機(jī)科學(xué))定義是Neches等人在1991

給出的:“一個(gè)本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語和關(guān)系,以與

用于組合術(shù)語和關(guān)系以與定義詞匯外延的規(guī)則”。而第一次被業(yè)界廣泛接

受的本體定義出自TomGruber,其在1993年提出:“本體是概念化的

顯式的表示(規(guī)格說明)"。Borst在1997年對(duì)TomGruber的本體

定義做了進(jìn)一步的擴(kuò)展,認(rèn)為:“本體是共享的、概念化的一個(gè)形式的規(guī)

范說明”。在前人的基礎(chǔ)上,Stude在1998年進(jìn)一步擴(kuò)展了本體的定義,

這也是今日被廣泛接受的一個(gè)定義:“本體是共享概念模型的明確形式化

規(guī)范說明”。本體供應(yīng)一個(gè)共享詞匯表,可以用來對(duì)一個(gè)領(lǐng)域建模,具體

包括那些存在的對(duì)象或概念的類型、以與他們的屬性和關(guān)系[2]。一個(gè)簡潔

的本體示例發(fā)票概念與其相互關(guān)系所構(gòu)成的語義網(wǎng)絡(luò)如圖2所示:

郵電通訊業(yè)定額發(fā)票

(50元)、

50元

發(fā)票w是,

?\文化體育業(yè)定額發(fā)票

(50/C)

濟(jì)南市服務(wù)業(yè)機(jī)打發(fā)票濟(jì)南市服務(wù)業(yè)定額發(fā)票

(卷式)/

所在城市

濟(jì)南市/

圖2簡潔本體(發(fā)票)示例

隨著時(shí)間的推移和技術(shù)的發(fā)展,本體從最起先的人工智能領(lǐng)域漸漸擴(kuò)

展到圖書館學(xué)、情報(bào)學(xué)、軟件工程、信息架構(gòu)、生物醫(yī)學(xué)和信息學(xué)等越來

越多的學(xué)科。與哲學(xué)本體論類似,本體(人工智能和計(jì)算機(jī)科學(xué))依靠某

種類別體系來表達(dá)實(shí)體、概念、事務(wù)與其屬性和關(guān)系。本體的核心是學(xué)問

共享和重用,通過削減特定領(lǐng)域內(nèi)概念或術(shù)語上的分歧,使不同的用戶之

間可以順暢的溝通和溝通并保持語義等效性,同時(shí)讓不同的工具軟件和應(yīng)

用系統(tǒng)之間實(shí)現(xiàn)互操作。

依據(jù)探討層次可以將本體的種類劃分為“頂級(jí)本體”(top-level

ontology)、應(yīng)用本體(applicationontology)N領(lǐng)域本體(domain

ontology)和任務(wù)本體(taskontology),各個(gè)種類之間的層次關(guān)系如圖

3所示。

圖3本體層次關(guān)系

?頂級(jí)本體,也被稱為上層本體(upperontology)或基礎(chǔ)本體

(foundationontology),是指獨(dú)立于具體的問題或領(lǐng)域,在全部

領(lǐng)域都適用的共同對(duì)象或概念所構(gòu)成的模型,主要用來描述高級(jí)別

且通用的概念以與概念之間的關(guān)系。

?領(lǐng)域本體是指對(duì)某個(gè)特定的領(lǐng)域建模,顯式的實(shí)現(xiàn)對(duì)領(lǐng)域的定義,

確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯、詞匯業(yè)務(wù)含義和對(duì)應(yīng)的信息資產(chǎn)等,

供應(yīng)對(duì)該領(lǐng)域?qū)W問的共同理解。領(lǐng)域本體所表達(dá)的是適合自己領(lǐng)域

的術(shù)語的特定含義,缺乏兼容性,因而在其他領(lǐng)域往往不適用。在

同一領(lǐng)域內(nèi),由于文化背景、語言差異、受教化程度或意識(shí)形態(tài)的

差異,也可能會(huì)出現(xiàn)不同的本體。很多時(shí)候,隨著依靠領(lǐng)域本體系

統(tǒng)的擴(kuò)展,須要將不同的領(lǐng)域本體合并為更通用的規(guī)范說明,對(duì)并

非基于同一頂級(jí)本體所構(gòu)建的本體進(jìn)行合并是一項(xiàng)特別具有挑戰(zhàn)的

任務(wù),很多時(shí)候須要靠手工來完成,相反,對(duì)那些基于同一頂級(jí)本

體構(gòu)建的領(lǐng)域本體可以實(shí)現(xiàn)自動(dòng)化的合并。

?任務(wù)本體是針對(duì)任務(wù)元素與其之間關(guān)系的規(guī)范說明或具體說明,用

來說明任務(wù)存在的條件以與可以被用在哪些領(lǐng)域或環(huán)境中。是一個(gè)

通用術(shù)語的集合用來描述關(guān)于任務(wù)的定義和概念等。

?應(yīng)用本體:描述依靠于特定領(lǐng)域和任務(wù)的概念與概念之間的關(guān)系,

是用于特定應(yīng)用或用途的本體,其范疇可以通過可測試的用例來指

定。

從具體程度上來分,本體又可以分為參考本體(reference

ontologies)和共享本體(shareontologies),參考本體的具體程度高,

而共享本體的具體程度低。

本體(哲學(xué))

哲學(xué)中的本體(ontology)也被稱為存在論,源自哲學(xué)中“形而上學(xué)”

分支,主要探討存在的本質(zhì),也就是存在的存在。英文ontology事實(shí)上

就是來源于希臘文“ov”(存在)和“入6丫0勺”(學(xué)科)的組合。本體是

由早期希臘哲學(xué)在公元前6世紀(jì)到公元前4世紀(jì)提出的“始基”延長出來

的。始基(Principle,又稱本原)最早由泰勒斯(米利都學(xué)派)最早提出

來,認(rèn)為萬物由水而生,其學(xué)生阿那克西曼德認(rèn)為萬物由一種簡潔的原質(zhì)

組成,該原質(zhì)不是水[3]。而畢達(dá)哥拉斯(學(xué)派)認(rèn)為“萬物都是數(shù)”,數(shù)

不僅被看作萬物的木原,而且被看作萬物的原型、世界的木體°后來巴門

尼德(愛利亞學(xué)派)提出了“存在”的概念,認(rèn)為存在才是唯一真正存在

的真理,其創(chuàng)建了一種形而上學(xué)論證方式,之后的哲學(xué)始終到近時(shí)期為止,

都從巴門尼德處接受了其“實(shí)體的不行毀滅性”。蘇格拉底繼承了巴門尼

德的存在概念,主見“真正的善”并完善了巴門尼德弟子芝諾的辯證法,

其學(xué)生柏拉圖提出了“理念論”,認(rèn)為只要若干個(gè)個(gè)體擁有一個(gè)共同的名

字,它們就有一個(gè)共同的理念或形式。亞里士多德(柏拉圖學(xué)生)總結(jié)了

先哲們的思想,完成了《形而上學(xué)》,并將本體總結(jié)為:對(duì)世界上客觀存

在事物的系統(tǒng)的描述,即存在論,也就是最形而上學(xué)的學(xué)問。形而上學(xué)不

是指孤立、靜止之類的意思,而是指超越具體形態(tài)的抽象意思,是關(guān)于物

質(zhì)世界最普遍的、最一般的、最不具體的規(guī)律的學(xué)問。

其次步:元數(shù)據(jù)集成體系結(jié)構(gòu)

在明確了元數(shù)據(jù)管理策略后須要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體

系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個(gè)企業(yè)的元數(shù)據(jù)管理策略和元數(shù)據(jù)管

理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多樣。大體上元數(shù)據(jù)

集成體系結(jié)構(gòu)可以分為點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中心輻射式元數(shù)據(jù)

體系結(jié)構(gòu)、基于CWM(CommonWarehouseMetaModel,公共倉庫

元模型)模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的

中心存儲(chǔ)庫元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)

和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)等。

針對(duì)信息供應(yīng)鏈中不同的組件,為了實(shí)現(xiàn)跨組件的元數(shù)據(jù)交換和集

成,最起先人們接受點(diǎn)對(duì)點(diǎn)的方式進(jìn)行,也就是每一對(duì)組件之間通過一個(gè)

獨(dú)立的元數(shù)據(jù)橋(metadatabridge)進(jìn)行元數(shù)據(jù)交換,橋一般是雙向的

能夠理解兩個(gè)方向的元數(shù)據(jù)映射[4]。點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)幫助用

戶實(shí)現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,對(duì)提升信息化水平供應(yīng)了巨

大幫助。這種體系結(jié)構(gòu)在應(yīng)用過程中,也暴露了很多問題,比如元數(shù)據(jù)橋

的構(gòu)建工作量和耗時(shí)都特別大,對(duì)中間件廠商、應(yīng)用廠商、集成商和用戶

來說都是一個(gè)巨大的挑戰(zhàn),而且構(gòu)建元數(shù)據(jù)橋還必需具有全部者的元數(shù)據(jù)

模型和接口的具體信息。構(gòu)建完成的橋很多時(shí)候無法在構(gòu)建其他元數(shù)據(jù)橋

時(shí)進(jìn)行重用,因此開發(fā)和維護(hù)費(fèi)用大幅度增加,用戶投資回報(bào)率(ROD

不高。以動(dòng)態(tài)數(shù)據(jù)倉庫為例,其點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖4

所示,信息供應(yīng)鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實(shí)心箭頭表

示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。

Bridges

圖4點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)

通過運(yùn)用中心元數(shù)據(jù)存儲(chǔ)庫(centralmetadatarepository)取代

各個(gè)工具軟件和應(yīng)用程序之間的點(diǎn)對(duì)點(diǎn)連接方式,改成中心元數(shù)據(jù)存儲(chǔ)庫

與各個(gè)工具軟件和應(yīng)用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問層(也是一種橋),可

以有效降低總成本,削減建立點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)橋的工作,提高投資回報(bào)率。

信息供應(yīng)鏈各組件可以從存儲(chǔ)庫訪問元數(shù)據(jù),不必與其他產(chǎn)品進(jìn)行點(diǎn)對(duì)點(diǎn)

交互。這種運(yùn)用中心元數(shù)據(jù)存儲(chǔ)庫方式進(jìn)行元數(shù)據(jù)集成的方式就是中心輻

射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-and-spok6metadataarchitecture),具體

如圖5所示。由于特定的元數(shù)據(jù)存儲(chǔ)庫是圍繞其自身的元模型、接口和交

付服務(wù)建立的,所以仍須要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與ISC各組件的相互訪問。

圖5中心輻射式元數(shù)據(jù)體系結(jié)構(gòu)

接受模型驅(qū)動(dòng)的元數(shù)據(jù)集成方法(比如運(yùn)用CWM)可以有效降低元

數(shù)據(jù)集成的成本和困難度,無論點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)還是中心綿射

式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點(diǎn)對(duì)點(diǎn)體系結(jié)構(gòu)中,通過運(yùn)用

基于模型的方法可以不必在每一對(duì)須要集成的產(chǎn)品之間構(gòu)建元數(shù)據(jù)橋,每

個(gè)產(chǎn)品只須要供應(yīng)一個(gè)適配器(adapter)即可實(shí)現(xiàn)各個(gè)產(chǎn)品之間的元數(shù)

據(jù)交換,適配器既了解公共的元模型也了解本產(chǎn)品元模型的內(nèi)部實(shí)現(xiàn)。如

圖6所示,基于CWM模型驅(qū)動(dòng)點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)運(yùn)用通用元模

型,不再須要在各個(gè)產(chǎn)品間建立元數(shù)據(jù)橋,在各個(gè)產(chǎn)品之間通過適配器實(shí)

現(xiàn)了語義等價(jià)性。

圖6基于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖7所示,在基于模型驅(qū)動(dòng)(比如CWM)的中心輻射式元數(shù)據(jù)體

系結(jié)構(gòu)中,中心存儲(chǔ)庫包含公共元模型和整個(gè)領(lǐng)域(domain)用到的該

元模型的各個(gè)實(shí)例(模型)、存儲(chǔ)庫自身元模型與其實(shí)例、理解元模型(公

共元模型和自身元模型)的適配器層,當(dāng)然存儲(chǔ)庫也可以干脆實(shí)現(xiàn)公共元

模型的某些內(nèi)部表示。

圖7基于CWM模型驅(qū)動(dòng)的中心存儲(chǔ)庫元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖8所示,這種體系架構(gòu)是基于CWM模型驅(qū)動(dòng)的中心存儲(chǔ)庫元數(shù)

據(jù)集成體系結(jié)構(gòu)的一個(gè)變種,兩個(gè)中心輻射式的拓?fù)浣Y(jié)構(gòu)通過各自的元數(shù)

據(jù)存儲(chǔ)庫連接起來,也被稱為分布式(Distributed)或聯(lián)邦(Federated)

體系結(jié)構(gòu)。兩個(gè)元數(shù)據(jù)存儲(chǔ)庫之間通過元數(shù)據(jù)橋連接,兩個(gè)存儲(chǔ)庫運(yùn)用相

同的元模型和接口,也可以運(yùn)用不同的元模型和接口。建立分布式元數(shù)據(jù)

集成體系結(jié)構(gòu)的緣由有很多種,比如企業(yè)基于多個(gè)區(qū)域單獨(dú)部署自己的應(yīng)

用,每個(gè)區(qū)域有自己的數(shù)據(jù)中心。

CMM元數(shù)據(jù)交帙(基于

元?dú)W格

存場對(duì)2

CMM元數(shù)據(jù)交換(基F

XIV1L或標(biāo)準(zhǔn)API調(diào)心—

/一星府

(多雄分析

投也統(tǒng)計(jì)

、,

飛次策普理,

(MDM^Hl

r創(chuàng)新噸用

圖8分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)

如圖9所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲(chǔ)庫實(shí)現(xiàn)

了元模型的公共部分(橫跨整個(gè)企業(yè)),葉子存儲(chǔ)庫實(shí)現(xiàn)了一個(gè)或多個(gè)特

定的公共元模型子集,并只保存這些自己所對(duì)應(yīng)的元數(shù)據(jù)實(shí)例。特定客戶

可以主要訪問其感愛好的元數(shù)據(jù)所在的葉子存儲(chǔ)庫,也可以訪問其它葉子

存儲(chǔ)庫和根存儲(chǔ)庫。這種體系結(jié)構(gòu)被稱為層次或星型拓?fù)浣Y(jié)構(gòu)。

結(jié)束語

本文具體介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,并闡述

了該模型的第一步“明確元數(shù)據(jù)管理策略”和其次步“元數(shù)據(jù)集成體系

結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講解并描述了元數(shù)據(jù)

的基本概念以與本體在人工智能/計(jì)算機(jī)科學(xué)和哲學(xué)中的含義。在其次步

“元數(shù)據(jù)集成體系結(jié)構(gòu)”講解并描述了元數(shù)據(jù)集成體系結(jié)構(gòu)的六種示例,

分別為:點(diǎn)對(duì)點(diǎn)的元數(shù)據(jù)集成體系結(jié)構(gòu)、中心輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基

于CWM模型驅(qū)動(dòng)的點(diǎn)對(duì)點(diǎn)元數(shù)據(jù)集成體系結(jié)構(gòu)、基于CWM模型驅(qū)動(dòng)的

中心存儲(chǔ)庫元數(shù)據(jù)集成體系結(jié)構(gòu)、分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)

和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。在本系列文章的下一部分將接著介紹

大數(shù)據(jù)治理統(tǒng)一流程參考模型其次步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括

元模型、元-元模型、公共倉庫元模型(CWM)、CWM發(fā)展史、OMG的

模型驅(qū)動(dòng)體系結(jié)構(gòu)(ModelDrivenArchitecture,MDA)o

參考文獻(xiàn)

[1]DavidFrankelConsulting,UsingModeIDriven

Architecture?t?ManageMetadata”,P3;

[2]FredrikArvidssonandAnnika

Flycht-Eriksson,2008,0ntologiesl,“Anontologyprovidea

sharedvocabulary,whichcanbeusedtomodeladomain,that

is,thetypeofobjectsand/orconceptsthatexist,andtheir

propertiesandrelations”;

[3]更多內(nèi)容請(qǐng)參考:[專著]/(英)伯特蘭.羅素/著孫紹武/主編西方

哲學(xué)史>>;

[4]JohnPoole,DanChang,DouglasTolbertandDavid

Mellor,2002,CommonWarehouse

Metamodel,p18-32,p180-202;

[5]本系列文章參考了SunilSoares編寫的《TheIBMData

GovernanceUnifiedProcess?和?BigdataGovernance))書中內(nèi)

容。

其次部分:元數(shù)據(jù)集成體系結(jié)構(gòu)

在明確了元數(shù)據(jù)管理策略后須要確定實(shí)現(xiàn)該管理策略所需的技術(shù)體

系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。元數(shù)據(jù)集成體系結(jié)構(gòu)涉與到多個(gè)概念,

如元模型、元-元模型、公共倉庫元模型(CWM)等,本部分將接著介紹

大數(shù)據(jù)治理統(tǒng)一流程參考模型其次步“元數(shù)據(jù)集成體系結(jié)構(gòu)”的相關(guān)內(nèi)

容。

在本系列的第一篇文章中,我們主要介紹了大數(shù)據(jù)治理的基本概念和

統(tǒng)一流程參考模型,并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和

其次步“元數(shù)據(jù)集成體系結(jié)構(gòu)”的六種示例等內(nèi)容。大數(shù)據(jù)治理統(tǒng)一流程

參考模型的其次步是“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模

型、公共倉庫元模型(CWM)、CWM發(fā)展史、OMG的模型驅(qū)動(dòng)體系結(jié)

構(gòu)(ModelDrivenArchitecture,MDA)本文將對(duì)元數(shù)據(jù)集成體系結(jié)構(gòu)

包含的各種模型綻開敘述。

大數(shù)據(jù)治理統(tǒng)一流程參考模型,其次步:元數(shù)據(jù)集成體系結(jié)構(gòu)

元模型(Metamodel)

模型(Model)是用來描述特定的系統(tǒng)、過程、事物或概念的精確而

抽象的表示。例如軟件架構(gòu)師可以用概要設(shè)計(jì)的形式建立一個(gè)應(yīng)用系統(tǒng)的

模型。本質(zhì)上來說,元數(shù)據(jù)是數(shù)據(jù)的形式化模型,是數(shù)據(jù)的抽象描述,該

描述精確地描述了數(shù)據(jù)。元模型(Metamodel)也就是模型的模型(或

者元-元數(shù)據(jù)),是用來描述元數(shù)據(jù)的模型。

下面基于關(guān)系型表實(shí)體-關(guān)系(ER)模型舉例說明什么是元模型。如

圖1所示,一個(gè)簡潔的關(guān)系型表元模型描述了如何定義一個(gè)關(guān)系型表,規(guī)

定了每個(gè)表必需有一個(gè)名字(字符串),一個(gè)表可以有1到多個(gè)列,每個(gè)

列必需有一個(gè)名字(字符串)和數(shù)據(jù)類型(字符串):

圖1簡潔關(guān)系型表元模型

假如要?jiǎng)?chuàng)建一個(gè)關(guān)系型表模型,基于該表元模型創(chuàng)建一個(gè)實(shí)例即可,

比如創(chuàng)建一個(gè)常見的雇員表Employees表模型,具體如圖2所示,

Employees表包含6個(gè)列,分別是編號(hào)、姓、名字、部門編號(hào)、經(jīng)理編

號(hào)和職位編號(hào)。

?Entity?

Employees

+ID:Integer

+First_name:String

+Last_name:String

+DepartJD:Integer

+ManagerJD:Integer

+JobJD:Integer

圖2Employees表實(shí)例

比如在DB2中創(chuàng)建employees表,可以很簡潔的從employees表

模型中得到相應(yīng)的DDL語句,執(zhí)行DDL語句時(shí)DB2會(huì)生成描述

employees表的內(nèi)部元數(shù)據(jù)并存儲(chǔ)在書目(DB2內(nèi)部的元數(shù)據(jù)存儲(chǔ)庫)

中。

清單1在DB2中創(chuàng)建employees表示例

Createtableemployees(

Idintegernotnull,

First_nameStringnotnull,

Last_nameStringnotnull,

Depart」DIntegernotnull,

ManagejIDIntegernotnull,

JobJDIntegernotnull

)

同樣基于圖1簡潔關(guān)系型表元模型創(chuàng)建另一個(gè)實(shí)例department表模

型。department表包含2個(gè)列,分別是編號(hào)和部門名稱,具體如圖3所

示。由于department表模型和employees表模型都是基于相同的公共

元模型,其它工具和應(yīng)用程序軟件(了解關(guān)系型表的公共元模型)可以很

簡潔理解department表和employees表,因?yàn)樗鼈兌际峭粋€(gè)元模型

的實(shí)例。其它工具或應(yīng)用程序通過調(diào)用導(dǎo)入映射(importmapping)將

該department表模型或employees表模型翻譯成自己內(nèi)部的元數(shù)據(jù)實(shí)

例。同樣,也可以將該軟件內(nèi)部元數(shù)據(jù)翻譯成一個(gè)與平臺(tái)無關(guān)的形式化模

型,也就是導(dǎo)出映射(exportmapping),以便其他軟件運(yùn)用其專有的元

數(shù)據(jù)。這種基于公共元模型的集成方法就是模型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)

構(gòu)⑴。

?Entity?

Department

+ID:Integer

+name:String

圖3department表實(shí)例

元-元模型(Meta-metamodel)

元-元模型就是元模型的模型,有時(shí)也被稱為本體(ontology),是模

型驅(qū)動(dòng)的元數(shù)據(jù)集成體系結(jié)構(gòu)的基礎(chǔ),其定義了描述元模型的語言,規(guī)定

元模型必需依照肯定的形式化規(guī)則來建立,以便全部的軟件工具都能夠?qū)?/p>

其進(jìn)行理解。

元-元模型比元模型具有更高的抽象級(jí)別,一個(gè)元模型是一個(gè)元-元模

型的實(shí)例,元模型比元一元模型更加精細(xì),而元一元模型比元模型更加抽象。

元數(shù)據(jù)(模型)則是一個(gè)元模型的實(shí)例,遵守元模型的規(guī)定和約束。用戶

對(duì)象(或用戶數(shù)據(jù))則是元數(shù)據(jù)(或者稱為模型)的實(shí)例。元數(shù)據(jù)層次結(jié)

構(gòu)具體如表1所示,共分為4層,最高層L3是元-元模型,之下是L2元

模型和L1模型/元數(shù)據(jù),最底層是L。用戶對(duì)象/用戶數(shù)據(jù):

表1元數(shù)據(jù)層次結(jié)構(gòu)

元層次名稱示例

L3元-元模型元類、元屬性、元操作

L2元模型類、屬性、操作、構(gòu)件

L1模型/元數(shù)據(jù)實(shí)體-關(guān)系(ER)圖

交易數(shù)據(jù)、ODS數(shù)據(jù)、數(shù)據(jù)倉

L0用戶對(duì)象/用戶數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)集市數(shù)據(jù)、數(shù)據(jù)

中心數(shù)據(jù)等

公共倉庫元模型(CWM)概述

公共倉庫元模型(CommonWarehouseMetaModel,CWM)是被

對(duì)象管理組織OMG(ObjectManagementGroup)接受的數(shù)據(jù)倉庫和

業(yè)務(wù)分析領(lǐng)域元數(shù)據(jù)交換開放式行業(yè)標(biāo)準(zhǔn),在數(shù)據(jù)倉庫和業(yè)務(wù)分析領(lǐng)域?yàn)?/p>

元數(shù)據(jù)定義公共的元模型和基于XML的元數(shù)據(jù)交換(XMI)。CWM作為

一個(gè)標(biāo)準(zhǔn)的接口,可以幫助分布式、異構(gòu)環(huán)境中的數(shù)據(jù)倉庫工具,數(shù)據(jù)倉

庫平臺(tái)和數(shù)據(jù)倉庫元數(shù)據(jù)存儲(chǔ)庫之間輕松實(shí)現(xiàn)數(shù)據(jù)倉庫和業(yè)務(wù)分析元數(shù)

據(jù)交換。CWM供應(yīng)一個(gè)框架為數(shù)據(jù)源、數(shù)據(jù)目標(biāo)、轉(zhuǎn)換、分析、流程和

操作等創(chuàng)建和管理元數(shù)據(jù),并供應(yīng)元數(shù)據(jù)運(yùn)用的世系信息[2]。

CWM是一個(gè)基于模型驅(qū)動(dòng)方法的完整地描述數(shù)據(jù)倉庫和業(yè)務(wù)分析領(lǐng)

域的元模型,供應(yīng)構(gòu)建元數(shù)據(jù)所需的語法和語義,由若干個(gè)不相同又緊密

相關(guān)的子元模型組成。CWM模型的目的是最大限度的重用對(duì)象模型

(ObjectModel,UML的一個(gè)子集),并在可能的地方共享通用模型結(jié)構(gòu)。

如圖4所示,CWM元模型運(yùn)用包(package)和層次來簡化管理的困難

度并便于理解,共包含21個(gè)單獨(dú)的包,這些包被分為5個(gè)層次。對(duì)象模

型層包含定義基本元模型的概念、關(guān)系和約束的包,其它CWM包都須要

用到這些定義,對(duì)象模型層的包構(gòu)成了其它CWM包所須要的基本元模型

服務(wù)的全部集合。對(duì)象模型層主要包括核心包(Corepackage)、行為包

(Behavioralpackage)>關(guān)系包(Relationshipspackage)和實(shí)例包

(Instancepackage)o

?數(shù)據(jù)源層(DataResources):主要描述CWM元數(shù)據(jù)交換中既可作

為源又可以作為目標(biāo)的數(shù)據(jù)源的結(jié)構(gòu),本層含有的元模型主要描述面

對(duì)對(duì)象的數(shù)據(jù)庫和應(yīng)用、關(guān)系型數(shù)據(jù)庫、面對(duì)記錄的數(shù)據(jù)源(如文件、

記錄數(shù)據(jù)庫管理系統(tǒng)等)、多維數(shù)據(jù)庫和XML數(shù)據(jù)源等。對(duì)于面對(duì)對(duì)

象數(shù)據(jù)源,CWM一般狀況下重用基本的對(duì)象模型(位于對(duì)象模型層),

假如該數(shù)據(jù)源具有對(duì)象模型層無法處理的一些特征和功能時(shí),可以通

過定義一個(gè)擴(kuò)展包來解決。

?數(shù)據(jù)分析層(DataAnalysis):本層含有的元模型主要描述數(shù)據(jù)轉(zhuǎn)換、

在線分析處理OLAP、數(shù)據(jù)挖掘、信息可視化和業(yè)務(wù)術(shù)語等。

?倉庫管理層(WarehouseManagement):本層含有的元模型主要描

述數(shù)據(jù)倉庫處理和數(shù)據(jù)倉庫操作。

ManagementWarehouseProcessWarehouseOperation

DataInformationBusiness

AnalystsTransformationOLAP

MiningVisualizationNomenclature

ResourceObjectModelRelationalRecordMultidimensionalXML

Keys

BusinessTypeSoftware

FoundationDataTypesExpressionand

InformationMappingDeployment

Indexes

ObjectModel

圖4CWM1.1元模型

CWM1.1是在2003年3月發(fā)布的,與之相關(guān)的OMG組織規(guī)范還

有MOF、UML和XMIoCWM運(yùn)用統(tǒng)一建模語言(UML)定義公共元

數(shù)據(jù)的模型(CWM元模型),運(yùn)用可擴(kuò)展標(biāo)記語言(XML)生成CWM

元數(shù)據(jù)交換規(guī)范(也就是XML元數(shù)據(jù)交換,XMI),運(yùn)用CORBA接口定

義語言(IDL)為訪問CWM元數(shù)據(jù)生成編程語言API的規(guī)范(依靠MOF

到IDL的映射)。

UML是一種規(guī)范化、可視化、描述明確、結(jié)構(gòu)化和文檔化的定義分

布式對(duì)象系統(tǒng)的圖形化語言。1996年,業(yè)內(nèi)三種最杰出的面對(duì)對(duì)象建模

語言:GradyBooch的Booch方法、IvarJacobson的面對(duì)對(duì)象軟件工

程(OOSE)和JimRumbaugh的對(duì)象建模技術(shù)(OMT)被統(tǒng)一起來發(fā)

布,也就是UML0.9o2011年,UML2.4.1發(fā)布。CWM依靠于UML

規(guī)范的前三個(gè)部分,即UML語義、UML符號(hào)向?qū)Ш蛯?duì)象約束語言規(guī)范。

UML語義定義UML元模型的語義,UML元模型是層次結(jié)構(gòu)并以包為單

位進(jìn)行組織,每個(gè)包依據(jù)抽象語言(運(yùn)用類圖)、結(jié)構(gòu)良好規(guī)則(接受OCL)

和語義(接受英語)來定義。UML符號(hào)指定表達(dá)UML元模型語義的圖形

語法(例如類圖)。對(duì)象約束語言規(guī)范定義對(duì)象約束語言(OCL)的句法、

語義和語法,0cL是一種表述約束的形式化語言[3]。

?構(gòu)造塊和結(jié)構(gòu)良好規(guī)則:UML供應(yīng)了組成構(gòu)造塊和結(jié)構(gòu)良好規(guī)則的面對(duì)

對(duì)象建模語言,基本的構(gòu)造塊包括模型元素(如類、對(duì)象、接口、組件、

用例等)、關(guān)系(如關(guān)聯(lián)、泛化、依靠等)和圖(如類圖、對(duì)象圖、用例

圖等)等。

?UML可以為一個(gè)系統(tǒng)進(jìn)行不同方面的建模,比如結(jié)構(gòu)建模(又包括運(yùn)用

類圖和對(duì)象圖的靜態(tài)結(jié)構(gòu)建模、運(yùn)用組件圖和部署圖實(shí)現(xiàn)建模)、用例建

模和行為建模等。元數(shù)據(jù)建模只須要靜態(tài)結(jié)構(gòu)建模,靜態(tài)結(jié)構(gòu)的核心元素

是類、對(duì)象、屬性和操作。

?UML用包來將模型元素組織成語義上相關(guān)聯(lián)的分組,每個(gè)包擁有其自己

的模型元素,每個(gè)模型元素不能同時(shí)被多個(gè)包擁有。

UML在CWM中主要作為三種角色出現(xiàn)⑷:

1、UML作為和MOF等價(jià)的元-元模型。UML,或者部分對(duì)應(yīng)MOF

模型、UML符號(hào)和OCL的UML分別被用作建模語言、圖形符號(hào)和約束

語言,用來定義和表示CWM。

2、UML作為基礎(chǔ)元模型。對(duì)象模型層(ObjectModel)與UML關(guān)

系親密,是UML的一個(gè)子集。

3、UML用來作為面對(duì)對(duì)象元模型。

元對(duì)象框架(MetaObjectFramework,MOF,本文以2.4.1版本

為例)是一個(gè)以獨(dú)立于平臺(tái)的方式定義、操作、集成元數(shù)據(jù)和數(shù)據(jù)的、可

擴(kuò)展、模型驅(qū)動(dòng)的分布式對(duì)象集成框架。此框架支持各種類型的元數(shù)據(jù),

還可以依據(jù)需求添加新類型的元數(shù)據(jù)。MOF包括MOF模型(定義建立

元模型的建模元素和運(yùn)用規(guī)則)、MOF反射接口(允許程序在不運(yùn)用元模

型指定接口時(shí)對(duì)元數(shù)據(jù)進(jìn)行各種操作)和MOF至ijIDL的映射(定義MOF

模型定義的元模型到CORBAIDL之間的標(biāo)準(zhǔn)映射)。MOF模型是以UML

的概念和結(jié)構(gòu)為基礎(chǔ),尤其是以UML的靜態(tài)結(jié)構(gòu)模型和模型管理為基礎(chǔ)。

MOF模型沒有定義自己的圖形符號(hào)和約束語言,而是接受UML的圖形符

號(hào)和OCL來實(shí)現(xiàn)。MOF模型也是層次結(jié)構(gòu),并以包為單位進(jìn)行組織。

MOF支持各種類型的元數(shù)據(jù),接受四層元數(shù)據(jù)體系結(jié)構(gòu)(也就是

OMG元數(shù)據(jù)體系結(jié)構(gòu))[5],具體如表2所示,該體系架構(gòu)將元數(shù)據(jù)(Ml)

視同為數(shù)據(jù)(M0),并對(duì)之進(jìn)行形式化建模(即元模型,M2)o元模型(M2)

運(yùn)用元-元模型(M3)所供應(yīng)的元建模結(jié)構(gòu)來表示。表2表明MOF模型

(元-元模型)、UML元模型、用戶模型和用戶對(duì)象/數(shù)據(jù)之間的關(guān)系,

表2MOF四層元數(shù)據(jù)體系結(jié)構(gòu)

描述示例

MOF,i.e.thesetof

MMOFClass,MOFAttribute,MOF

constructsusedto

3Association,etc.

definemetamodels

Metamodels,consistinUMLClass,UMLAssociation,UML

MgofAttribute,UMLState,UML

2instancesofMOFActivity,etc.CWMTable,CWM

constructs.Column,etc.

Models,consistingofClass<<Customer,,,ClassuAccount

Minstances

1ofM2metamodelTable

constructs.aEmployee,,,Table,Vendor”,etc.

MObjectsandCustomerJaneSmith,CustomerJoe

0data,i.e.instancesofJones,Account

Mlmodelconstructs2989,Account2344,Employee

A3949,Vendor78988,etc.

XML元數(shù)據(jù)交換(XMI)是在工具軟件、應(yīng)用程序之間進(jìn)行元數(shù)據(jù)

交換的XML語言,整合了UML、MOF和XML三種技術(shù),允許MOF

元數(shù)據(jù)(即遵從MOF或基于MOF的元模型的元數(shù)據(jù))以流或文件的形

式依據(jù)XML的標(biāo)準(zhǔn)格式進(jìn)行交換。XMI是OMG在元數(shù)據(jù)交換方面的標(biāo)

準(zhǔn)之一,同時(shí)也是W3c認(rèn)可的標(biāo)準(zhǔn)。本質(zhì)上,XMI是W3c的XML和

MOF之間,以與XML文檔和MOF元數(shù)據(jù)之間的一對(duì)平行映射。2011

年8月,XML發(fā)布了2.4.1。

CWM發(fā)展史

其實(shí)早在上世紀(jì)80年頭末90年頭初,很多企業(yè)就嘗試運(yùn)用一種元

模型實(shí)現(xiàn)元數(shù)據(jù)集成以整合分布于各個(gè)業(yè)務(wù)豎井中的元數(shù)據(jù),但最終失敗

了,因?yàn)楹芏嗟睦嫦嚓P(guān)者各自擁有不同的觀點(diǎn),且須要不同的模型結(jié)構(gòu)。

1997年,OMG將UML接受為標(biāo)準(zhǔn),為CWM標(biāo)準(zhǔn)制定打下了第一個(gè)基

礎(chǔ)。同樣在1997年,MOF被OMG接受為標(biāo)準(zhǔn),為CWM的產(chǎn)生打下

了其次個(gè)基礎(chǔ)。1999年初,OMG接受XMI作為標(biāo)準(zhǔn),為CWM的出現(xiàn)

打下了第三個(gè)基礎(chǔ)°1998年5月,IBM、ORACLE和Unisys向OMG

提交了公共倉庫元數(shù)據(jù)交換(CommonWarehouseMetadata

Interchange,CWMI)征求看法稿(RFP),同年9月OMG發(fā)布了該征

求看法稿,經(jīng)過8個(gè)公司(IBM、Unisys、Oracle、Hyperion、UBS、

NCR>Genesis和DimensionEDI)2年半的努力和協(xié)作,OMG于2001

年4月正式接受CWM為標(biāo)準(zhǔn)。

在CWM發(fā)展的同時(shí),其他一些元數(shù)據(jù)標(biāo)準(zhǔn)的制定也在進(jìn)行中。最早

在1993年,電子信息組織就發(fā)布了計(jì)算機(jī)協(xié)助工程數(shù)據(jù)交換格式(CASE

DataInterchangeFormat,CDIF)并得到了肯定的認(rèn)可。1995年10

月,元數(shù)據(jù)聯(lián)盟(MetaDataCoalition,MDC)成立,并與1996年4

月發(fā)布了元數(shù)據(jù)交換規(guī)范1.0(MetaDataInterchangeSpecification,

MDIS),與CWM相比,MDIS涉與的范疇少很多,且其規(guī)范和交換語言

都是自身獨(dú)有的。此時(shí)微軟也在和其他一些合作者一起開發(fā)開放信息模型

(OpenInformationModel,OIM),該模型于1996年10月成形,接

受UML作為其規(guī)范語言。1998年11月,微軟加入MDC并提交OIM

標(biāo)準(zhǔn),1999年7月MDC發(fā)布了OIMvl.O版本,由此業(yè)內(nèi)面臨著兩種

元數(shù)據(jù)集成規(guī)范的競爭局面,之后考慮到業(yè)內(nèi)對(duì)CWM的認(rèn)可,MDC于

2000年9月確定終止其OIM后續(xù)工作,將其元數(shù)據(jù)標(biāo)準(zhǔn)歸入到OMG中,

從今CWM影響力和范圍持續(xù)擴(kuò)大并得到了業(yè)內(nèi)的統(tǒng)一認(rèn)可。

OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)(ModelDrivenArchitecture,MDA)

OMG組織成立不久制定了對(duì)象管理體系結(jié)構(gòu)(ObjectManagement

Architecture,OMA)參考模型,描述了OMG規(guī)范所遵循的概念化的

基礎(chǔ)結(jié)構(gòu)。OMA是由對(duì)象懇求代理(ObjectRequestBroker,ORB)>

對(duì)象服務(wù)、公共設(shè)施、域接口和應(yīng)用接口等幾個(gè)部分組成,其核心是對(duì)象

懇求代理(ORB)。對(duì)象懇求代理(ORB)是公共對(duì)象懇求代理體系結(jié)構(gòu)

(CommonObjectRequestBrokerArchitecture,CORBA)的核心

組件,供應(yīng)了識(shí)別和定位對(duì)象、處理連接管理、傳送數(shù)據(jù)和懇求通信所需

的框架結(jié)構(gòu)。OMA和CORBA被定位為軟件框架,用來指導(dǎo)基于OMG

規(guī)范的技術(shù)開發(fā)。

從1995年起先,OMG起先非正式的接受針對(duì)特定行業(yè)(“領(lǐng)域”,

Domain)的技術(shù)規(guī)范,為了保持?jǐn)U張重點(diǎn),OMG在2。。1年正式接受

其次個(gè)框架,模型驅(qū)動(dòng)體系架構(gòu)(ModelDrivenArchitecture,MDA)。

與OMA和CORBA不一樣,MDA不是部署分布式系統(tǒng)的框架,而是在

軟件開發(fā)中基于模型驅(qū)動(dòng)的方法。為了實(shí)現(xiàn)MDA,OMG隨后制定了一系

列標(biāo)準(zhǔn)如UML、MOF、XMI和CWM等,解決了MDA的模型建立、擴(kuò)

展、交換等幾個(gè)方面的問題。模型驅(qū)動(dòng)體系結(jié)構(gòu)源自眾所周知的和長期建

立的思想:”將系統(tǒng)操作規(guī)范從系統(tǒng)利用底層平臺(tái)實(shí)力的細(xì)微環(huán)節(jié)中分別

出來”。MDA供應(yīng)了一種方法(基于相關(guān)工具)來規(guī)范化一個(gè)平臺(tái)獨(dú)立

的系統(tǒng),為系統(tǒng)選擇一個(gè)特定的實(shí)現(xiàn)平臺(tái),并把系統(tǒng)規(guī)范轉(zhuǎn)換到特定的實(shí)

現(xiàn)平臺(tái)。MDA的首要三個(gè)目標(biāo)是:可移植性、互操作性和可重用性。MDA

三個(gè)視角(viewpoint)[6]分別是:

?計(jì)算無關(guān)視角(ComputationIndependentViewpoint):側(cè)重系

統(tǒng)環(huán)境和系統(tǒng)需求;系統(tǒng)結(jié)構(gòu)和流程細(xì)微環(huán)節(jié)被隱藏或尚未確定。

其對(duì)應(yīng)的是計(jì)算無關(guān)模型(ComputationIndependentModel,

CIM)O

?平臺(tái)無關(guān)視角(PlatformIndependentViewpoint):側(cè)重系統(tǒng)的

操作,同時(shí)隱藏用于特定平臺(tái)的必要細(xì)微環(huán)節(jié)。其對(duì)應(yīng)的是平臺(tái)無

關(guān)模型(PlatformIndependentModel,PIM),PIM是抽出技術(shù)

和具體工程細(xì)微環(huán)節(jié)之后的模型。

?平臺(tái)相關(guān)視角(PlatfonnSpecificViewpoint):結(jié)合平臺(tái)無關(guān)系

視角和系統(tǒng)所運(yùn)用的特定平臺(tái)細(xì)微環(huán)節(jié)。其對(duì)應(yīng)的是平臺(tái)相關(guān)模型

(PlatformSpecificViewpointModel,PSM),PSM是包含技

術(shù)和具體工程細(xì)微環(huán)節(jié)的模型。

OMG模型驅(qū)動(dòng)體系結(jié)構(gòu)如圖5所示:

圖5OMG模型驅(qū)動(dòng)體系架構(gòu)

CWM元模型、規(guī)范以與生成的產(chǎn)品同MDA特別契合,從技術(shù)平臺(tái)

角度來說,全部的平臺(tái)相關(guān)模型(CWMXML、CWMIDL和CWMJava

等)都是自動(dòng)地從平臺(tái)無關(guān)模型(CWM元模型和規(guī)范)中產(chǎn)生的;從產(chǎn)

品平臺(tái)角度來說,平臺(tái)相關(guān)模型(比如DB2、ORACLE、SQLSERVER

等)都是人工從平臺(tái)無關(guān)模型(CWM元模型和規(guī)范)中構(gòu)造出來的°

結(jié)束語

本文具體介紹了大數(shù)據(jù)治理統(tǒng)一流程參考模型其次步“元數(shù)據(jù)集成

體系結(jié)構(gòu)”的后續(xù)內(nèi)容,主要包括元模型、元-元模型、公共倉庫元模型

(CWM)、CWM發(fā)展史、對(duì)象管理組織OMG的模型驅(qū)動(dòng)體系結(jié)構(gòu)

(ModelDrivenArchitecture,MDA)0在本系列文章的下一部分將重

點(diǎn)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型的第三步:“實(shí)施元數(shù)據(jù)管理”,講

解并描述在大數(shù)據(jù)時(shí)代如何實(shí)施元數(shù)據(jù)管理,如何運(yùn)用元數(shù)據(jù)管理成熟度

模型,以與IBM在元數(shù)據(jù)管現(xiàn)方面的產(chǎn)品:業(yè)務(wù)元數(shù)據(jù)管理工具IBMInfo

SphereBusinessGlossary、業(yè)務(wù)詞匯表小工具InfoSphereBusiness

GlossaryAnywhere和技術(shù)元數(shù)據(jù)管理工具InfoSphereMetadata

Workbencho

參考文獻(xiàn)

[1]更多信息請(qǐng)參考:OMGModelDrivenArchitecture:;

[2]OMG,CommonWarehouseMetamodel(CWM)Specification

vl.l,P44;

[3]JohnPoole,DanChang,DouglasTolbertandDavid

Mellor,2002,CommonWarehouseMetamodel,p48-53,p58-63;

[4]OMG,CommonWarehouseMetamodel(CWM)Specification

vl.l,P45;

[5]DavidFrankelConsulting,vUsingModelDriven

Architecture?toManageMetadata”,P46;

⑹OMG,2003,MDAGuideVersion1.0.l,pl1-12,P15-16;

第三部分:實(shí)施元數(shù)據(jù)管理

了解了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,企業(yè)可以依據(jù)須

要選擇合適的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的元數(shù)據(jù)管

理制度進(jìn)行全面的元數(shù)據(jù)管理。本部分主要介紹大數(shù)據(jù)治理統(tǒng)一流程參考

模型第三步“實(shí)施元數(shù)據(jù)管理”,元數(shù)據(jù)管理成熟度模型、出M元數(shù)據(jù)管

理相關(guān)工具等內(nèi)容。

第三步:實(shí)施元數(shù)據(jù)管理

在明確了元數(shù)據(jù)管理策略和元數(shù)據(jù)集成體系結(jié)構(gòu)之后,企業(yè)可以依據(jù)

須要選擇合適的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的元數(shù)據(jù)

管理制度進(jìn)行全面的元數(shù)據(jù)管理。比如可以運(yùn)用IBMInfoSphere

BusinessGlossary進(jìn)行業(yè)務(wù)元數(shù)據(jù)的管理,運(yùn)用IBMInfoSphere

MetadataWorkbench作為元數(shù)據(jù)管理統(tǒng)一工具并進(jìn)行圖形化的元數(shù)據(jù)

分析。

大數(shù)據(jù)擴(kuò)大了數(shù)據(jù)的容量、速度和多樣性,給元數(shù)據(jù)管理帶來了新的

挑戰(zhàn)。在構(gòu)建關(guān)系型數(shù)據(jù)倉庫、動(dòng)態(tài)數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)中心時(shí)進(jìn)行元

數(shù)據(jù)管理,有助于保證數(shù)據(jù)被正確地運(yùn)用、重用并滿足各種規(guī)定。同樣,

對(duì)大數(shù)據(jù)來說,元數(shù)據(jù)管理過程中出現(xiàn)的任何錯(cuò)誤,都會(huì)導(dǎo)致數(shù)據(jù)重復(fù)、

數(shù)據(jù)質(zhì)量差和無法訪問關(guān)鍵信息等問題|1]。隨著大數(shù)據(jù)技術(shù)在企業(yè)中的應(yīng)

用越來越廣泛,企業(yè)須要在原有的元數(shù)據(jù)管

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論