數(shù)據(jù)治理方案_第1頁(yè)
數(shù)據(jù)治理方案_第2頁(yè)
數(shù)據(jù)治理方案_第3頁(yè)
數(shù)據(jù)治理方案_第4頁(yè)
數(shù)據(jù)治理方案_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)治理目錄1、什么是數(shù)據(jù)治理 12、數(shù)據(jù)治理的目的 13、數(shù)據(jù)治理的方法 14、數(shù)據(jù)質(zhì)量8個(gè)衡量標(biāo)準(zhǔn) 35、數(shù)據(jù)治理流程 46、如何做好數(shù)據(jù)治理 51、什么是數(shù)據(jù)治理數(shù)據(jù)治理(DataGovernance)是組織中涉及數(shù)據(jù)使用的一整套管理行為。由企業(yè)數(shù)據(jù)治理部門(mén)發(fā)起并推行,關(guān)于如何制定和實(shí)施針對(duì)整個(gè)企業(yè)內(nèi)部數(shù)據(jù)的商業(yè)應(yīng)用和技術(shù)管理的一系列政策和流程。數(shù)據(jù)的質(zhì)量直接影響著數(shù)據(jù)的價(jià)值,并且直接影響著數(shù)據(jù)分析的結(jié)果以及我們以此做出的決策的質(zhì)量。我們常說(shuō),用數(shù)據(jù)說(shuō)話,用數(shù)據(jù)支撐決策管理,但低質(zhì)量的數(shù)據(jù)、甚至存在錯(cuò)誤的數(shù)據(jù),必然會(huì)"說(shuō)假話"?。?!

數(shù)據(jù)治理即提高數(shù)據(jù)的質(zhì)量,發(fā)揮數(shù)據(jù)資產(chǎn)價(jià)值。2、數(shù)據(jù)治理的目的降低風(fēng)險(xiǎn)建立數(shù)據(jù)使用內(nèi)部規(guī)則實(shí)施合規(guī)要求改善內(nèi)部和外部溝通增加數(shù)據(jù)價(jià)值方便數(shù)據(jù)管理降低成本通過(guò)風(fēng)險(xiǎn)管理和優(yōu)化來(lái)幫助確保公司的持續(xù)生存通過(guò)數(shù)據(jù)治理實(shí)現(xiàn)企業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)化、提高數(shù)據(jù)質(zhì)量、提升業(yè)務(wù)處理的效率,為數(shù)據(jù)分析提供準(zhǔn)確的數(shù)據(jù)支撐,賦能業(yè)務(wù),助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型3、數(shù)據(jù)治理的方法從技術(shù)實(shí)施角度看,數(shù)據(jù)治理包含**“理”“采”“存”“管”“用”**這五個(gè)步驟,即業(yè)務(wù)和數(shù)據(jù)資源梳理、數(shù)據(jù)采集清洗、數(shù)據(jù)庫(kù)設(shè)計(jì)和存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)使用。數(shù)據(jù)資源梳理數(shù)據(jù)治理的第一個(gè)步驟是從業(yè)務(wù)的視角厘清組織的數(shù)據(jù)資源環(huán)境和數(shù)據(jù)資源清單,包含組織機(jī)構(gòu)、業(yè)務(wù)事項(xiàng)、信息系統(tǒng),以及以數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)、文件和API接口形式存在的數(shù)據(jù)項(xiàng)資源,本步驟的輸出物為分門(mén)別類的數(shù)據(jù)資源清單。數(shù)據(jù)采集清洗:通過(guò)可視化的ETL工具(例如阿里的DataX,PentahoDataIntegration)將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程,目的是將散落和零亂的數(shù)據(jù)集中存儲(chǔ)起來(lái)。(2)基礎(chǔ)庫(kù)主題庫(kù)建設(shè)一般情況下,可以將數(shù)據(jù)分為基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)主題數(shù)據(jù)和分析數(shù)據(jù)?;A(chǔ)數(shù)據(jù)一般指的是核心實(shí)體數(shù)據(jù),或稱主數(shù)據(jù),例如智慧城市中的人口、法人、地理信息、信用、電子證照等數(shù)據(jù)。主題數(shù)據(jù)一般指的是某個(gè)業(yè)務(wù)主題數(shù)據(jù),例如市場(chǎng)監(jiān)督管理局的食品監(jiān)管、質(zhì)量監(jiān)督檢查、企業(yè)綜合監(jiān)管等數(shù)據(jù)。而分析數(shù)據(jù)指的是基于業(yè)務(wù)主題數(shù)據(jù)綜合分析而得的分析結(jié)果數(shù)據(jù),例如市場(chǎng)監(jiān)督管理局的企業(yè)綜合評(píng)價(jià)、產(chǎn)業(yè)區(qū)域分布、高危企業(yè)分布等。那么基礎(chǔ)庫(kù)和主題庫(kù)的建設(shè)就是在對(duì)業(yè)務(wù)理解的基礎(chǔ)上,基于易存儲(chǔ)、易管理、易使用的原則抽像數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),說(shuō)白了,就是基于一定的原則設(shè)計(jì)數(shù)據(jù)庫(kù)表結(jié)構(gòu),然后再根據(jù)數(shù)據(jù)資源清單設(shè)計(jì)數(shù)據(jù)采集清洗流程,將整潔干凈的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中。(3)元數(shù)據(jù)管理元數(shù)據(jù)管理是對(duì)基礎(chǔ)庫(kù)和主題庫(kù)中的數(shù)據(jù)項(xiàng)屬性的管理,同時(shí),將數(shù)據(jù)項(xiàng)的業(yè)務(wù)含義與數(shù)據(jù)項(xiàng)進(jìn)行了關(guān)聯(lián),便于業(yè)務(wù)人員也能夠理解數(shù)據(jù)庫(kù)中的數(shù)據(jù)字段含義,并且,元數(shù)據(jù)是后面提到的自動(dòng)化數(shù)據(jù)共享、數(shù)據(jù)交換和商業(yè)智能(BI)的基礎(chǔ)。需要注意的是,元數(shù)據(jù)管理一般是對(duì)基礎(chǔ)庫(kù)和主題庫(kù)中(即核心數(shù)據(jù)資產(chǎn))的數(shù)據(jù)項(xiàng)屬性的管理,而數(shù)據(jù)資源清單是對(duì)各類數(shù)據(jù)來(lái)源的數(shù)據(jù)項(xiàng)的管理。(4)血緣追蹤數(shù)據(jù)被業(yè)務(wù)場(chǎng)景使用時(shí),發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤,數(shù)據(jù)治理團(tuán)隊(duì)需要快速定位數(shù)據(jù)來(lái)源,修復(fù)數(shù)據(jù)錯(cuò)誤。那么數(shù)據(jù)治理團(tuán)隊(duì)需要知道業(yè)務(wù)團(tuán)隊(duì)的數(shù)據(jù)來(lái)自于哪個(gè)核心庫(kù),核心庫(kù)的數(shù)據(jù)又來(lái)自于哪個(gè)數(shù)據(jù)源頭。我們的實(shí)踐是在元數(shù)據(jù)和數(shù)據(jù)資源清單之間建立關(guān)聯(lián)關(guān)系,且業(yè)務(wù)團(tuán)隊(duì)使用的數(shù)據(jù)項(xiàng)由元數(shù)據(jù)組合配置而來(lái),這樣,就建立了數(shù)據(jù)使用場(chǎng)景與數(shù)據(jù)源頭之間的血緣關(guān)系。數(shù)據(jù)資源目錄:數(shù)據(jù)資源目錄一般應(yīng)用于數(shù)據(jù)共享的場(chǎng)景,例如政府部門(mén)之間的數(shù)據(jù)共享,數(shù)據(jù)資源目錄是基于業(yè)務(wù)場(chǎng)景和行業(yè)規(guī)范而創(chuàng)建,同時(shí)依托于元數(shù)據(jù)和基礎(chǔ)庫(kù)主題而實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)申請(qǐng)和使用。(5)質(zhì)量管理數(shù)據(jù)價(jià)值的成功發(fā)掘必須依托于高質(zhì)量的數(shù)據(jù),唯有準(zhǔn)確、完整、一致的數(shù)據(jù)才有使用價(jià)值。因此,需要從多維度來(lái)分析數(shù)據(jù)的質(zhì)量,例如:偏移量、非空檢查、值域檢查、規(guī)范性檢查、重復(fù)性檢查、關(guān)聯(lián)關(guān)系檢查、離群值檢查、波動(dòng)檢查等等。需要注意的是,優(yōu)秀的數(shù)據(jù)質(zhì)量模型的設(shè)計(jì)必須依賴于對(duì)業(yè)務(wù)的深刻理解,在技術(shù)上也推薦使用大數(shù)據(jù)相關(guān)技術(shù)來(lái)保障檢測(cè)性能和降低對(duì)業(yè)務(wù)系統(tǒng)的性能影響,例如Hadoop,MapReduce,HBase等。(6)商業(yè)智能(BI)數(shù)據(jù)治理的目的是使用,對(duì)于一個(gè)大型的數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),數(shù)據(jù)使用的場(chǎng)景和需求是多變的,那么可以使用BI類的產(chǎn)品快速獲取需要的數(shù)據(jù),并分析形成報(bào)表,比較知名的產(chǎn)品有MicrosoftPowerBI,QlikView,Tableau,帆軟等。(7)數(shù)據(jù)共享交換數(shù)據(jù)共享包括組織內(nèi)部和組織之間的數(shù)據(jù)共享,共享方式也分為庫(kù)表、文件和API接口三種共享方式,庫(kù)表共享比較直接粗暴,文件共享方式通過(guò)ETL工具做一個(gè)反向的數(shù)據(jù)交換也就可以實(shí)現(xiàn)。我們比較推薦的是API接口共享方式,在這種方式下,能夠讓中心數(shù)據(jù)倉(cāng)庫(kù)保留數(shù)據(jù)所有權(quán),把數(shù)據(jù)使用權(quán)通過(guò)API接口的形式進(jìn)行了轉(zhuǎn)移。API接口共享可以使用API網(wǎng)關(guān)實(shí)現(xiàn),常見(jiàn)的功能是自動(dòng)化的接口生成、申請(qǐng)審核、限流、限并發(fā)、多用戶隔離、調(diào)用統(tǒng)計(jì)、調(diào)用審計(jì)、黑白名單、調(diào)用監(jiān)控、質(zhì)量監(jiān)控等等。4、數(shù)據(jù)質(zhì)量8個(gè)衡量標(biāo)準(zhǔn)數(shù)據(jù)的準(zhǔn)確性數(shù)據(jù)采集值或者觀測(cè)值和真實(shí)值之間的接近程度,也叫做誤差值,誤差越大,準(zhǔn)確度越低。數(shù)據(jù)的精確性指對(duì)同一對(duì)象的觀測(cè)數(shù)據(jù)在重復(fù)測(cè)量時(shí)所得到不同數(shù)據(jù)間的接近程度。數(shù)據(jù)的真實(shí)性數(shù)據(jù)的及時(shí)性數(shù)據(jù)能否在需要的時(shí)候得到保證,比如月初的財(cái)務(wù)對(duì)賬,能不能在月初就完成數(shù)據(jù)的即時(shí)性指數(shù)據(jù)采集時(shí)間節(jié)點(diǎn)和數(shù)據(jù)傳輸?shù)臅r(shí)間節(jié)點(diǎn),一個(gè)數(shù)據(jù)在數(shù)據(jù)源頭采集后立即存儲(chǔ),并立即加工呈現(xiàn),就是即時(shí)數(shù)據(jù),而經(jīng)過(guò)一段時(shí)間之后再傳輸?shù)叫畔⑾到y(tǒng)中,則數(shù)據(jù)即時(shí)性就稍差。數(shù)據(jù)的完整性是應(yīng)采集和實(shí)際采集到數(shù)據(jù)之間的比例。數(shù)據(jù)的全面性完整性衡量的是應(yīng)采集和實(shí)際采集的差異。而全面性指的是數(shù)據(jù)采集點(diǎn)的遺漏情況。數(shù)據(jù)的關(guān)聯(lián)性指各個(gè)數(shù)據(jù)集之間的關(guān)聯(lián)關(guān)系。比如員工工資數(shù)據(jù)和員工績(jī)效考核數(shù)據(jù)是通過(guò)員工這個(gè)資源關(guān)聯(lián)在一起來(lái)的。5、數(shù)據(jù)治理流程基本流程:發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題>定義數(shù)據(jù)質(zhì)量規(guī)則>質(zhì)量控制>質(zhì)量評(píng)估>質(zhì)量?jī)?yōu)化6、如何做好數(shù)據(jù)治理數(shù)據(jù)治理需要體系建設(shè)為發(fā)揮數(shù)據(jù)價(jià)值需要滿足三個(gè)要素:合理的平臺(tái)架構(gòu)、完善的治理服務(wù)、體系化的運(yùn)營(yíng)手段。根據(jù)企業(yè)的規(guī)模、所屬行業(yè)、數(shù)據(jù)量等情況選擇合適的平臺(tái)架構(gòu);治理服務(wù)需要貫穿數(shù)據(jù)全生命周期,保證數(shù)據(jù)在采集、加工、共享、存儲(chǔ)、應(yīng)用整個(gè)過(guò)程中的完整性、準(zhǔn)確性、一致性和實(shí)效性;運(yùn)營(yíng)手段則應(yīng)當(dāng)包括規(guī)范的優(yōu)化、組織的優(yōu)化、平臺(tái)的優(yōu)化以及流程的優(yōu)化等等方面。數(shù)據(jù)治理需要夯實(shí)基礎(chǔ)數(shù)據(jù)治理需要循序漸進(jìn),但在建設(shè)初期至少需要關(guān)注三個(gè)方面:數(shù)據(jù)規(guī)范、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全。規(guī)范化的模型管理是保障數(shù)據(jù)可以被治理的前提條件,高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)可用的前提條件,數(shù)據(jù)的安全管控是數(shù)據(jù)可以共享交換的前提條件。數(shù)據(jù)治理需要IT賦能數(shù)據(jù)治理不是一堆規(guī)范文檔的堆砌,而是需要將治理過(guò)程中所產(chǎn)生的的規(guī)范、流程、標(biāo)準(zhǔn)落地到IT平臺(tái)上,在數(shù)據(jù)生產(chǎn)過(guò)程中通過(guò)“以終為始”前向的方式進(jìn)行數(shù)據(jù)治理,避免事后稽核帶來(lái)各種被動(dòng)和運(yùn)維成本的增加。數(shù)據(jù)治理需要聚焦數(shù)據(jù)數(shù)據(jù)治理的本質(zhì)是管理數(shù)據(jù),因此

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論