多源數(shù)據(jù)融合平臺建設(shè)方案_第1頁
多源數(shù)據(jù)融合平臺建設(shè)方案_第2頁
多源數(shù)據(jù)融合平臺建設(shè)方案_第3頁
多源數(shù)據(jù)融合平臺建設(shè)方案_第4頁
多源數(shù)據(jù)融合平臺建設(shè)方案_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多源數(shù)據(jù)融合平臺建設(shè)方案目錄 HYPERLINK l _TOC_250006 一、元數(shù)據(jù)管理子系統(tǒng)3元數(shù)據(jù)管理3數(shù)據(jù)定義3元數(shù)據(jù)存儲4元數(shù)據(jù)查詢4元數(shù)據(jù)維護(hù)5元數(shù)據(jù)檢查5元數(shù)據(jù)分析5 HYPERLINK l _TOC_250005 二、數(shù)據(jù)采集子系統(tǒng)6采集方式6采集技術(shù)6采集功能8 HYPERLINK l _TOC_250004 三、數(shù)據(jù)清洗加工子系統(tǒng)9數(shù)據(jù)清洗結(jié)構(gòu)設(shè)計(jì)10清洗轉(zhuǎn)換10數(shù)據(jù)加工12數(shù)據(jù)加載12數(shù)據(jù)校驗(yàn)14異常處理15數(shù)據(jù)標(biāo)準(zhǔn)化16 HYPERLINK l _TOC_250003 四、數(shù)據(jù)質(zhì)量管理子系統(tǒng)16數(shù)據(jù)質(zhì)量16數(shù)據(jù)評估18稽核管理19 HYPERLINK l _TOC_2

2、50002 五、統(tǒng)一調(diào)度子系統(tǒng)20統(tǒng)一調(diào)度功能21調(diào)度配置22調(diào)度運(yùn)行22調(diào)度策略23調(diào)度監(jiān)控23 HYPERLINK l _TOC_250001 六、數(shù)據(jù)共享交換子系統(tǒng)24數(shù)據(jù)交換24數(shù)據(jù)共享26 HYPERLINK l _TOC_250000 七、數(shù)據(jù)存儲子系統(tǒng)31一、元數(shù)據(jù)管理子系統(tǒng)元數(shù)據(jù)管理元數(shù)據(jù)的范圍包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)詞典、字段維度、程序映射邏輯、數(shù)據(jù)生命周期等。元數(shù)據(jù)管理包括元數(shù)據(jù)定義、存儲、查詢、維護(hù)、檢查和分析應(yīng)用。數(shù)據(jù)定義元數(shù)據(jù)的定義可參考以下步驟:基礎(chǔ)分類信息制定設(shè)置基本的分類編碼信息。 如主題的分類, 層次的分類, 表級別分類配置管理。元模型制定根據(jù)管理需要,自定義元模型

3、信息。元模型是指管理數(shù)據(jù)的基本信息模型, 配置了表元模型的信息要素,規(guī)范管理要素等。數(shù)據(jù)分層定義歸納分類是認(rèn)識和理解對一個(gè)復(fù)雜的對象的最有效的辦法,在對數(shù)據(jù)進(jìn)行管理我們認(rèn)為從分層、 再分主題對數(shù)據(jù)進(jìn)行分類是行之有效的方法,制定好數(shù)據(jù)分層分主題,每個(gè)表歸屬到層次和主題上。數(shù)據(jù)主題管理根據(jù)數(shù)據(jù)交換共享數(shù)據(jù)目錄為基礎(chǔ),按照相關(guān)業(yè)務(wù), 劃分主題并對各主題進(jìn)行管理。通過分類來約定表數(shù)據(jù)資源的存儲周期;預(yù)置多個(gè)表資源分類(層次、主題、存儲周期等),分類可動(dòng)態(tài)擴(kuò)展,通過分類的表命名規(guī)則,可以快速把表資源歸屬到各個(gè)分類下。模型規(guī)范制定制定表的命名規(guī)范, 字段的命名規(guī)范。 解決各源系統(tǒng)不規(guī)范的命名方式,避免同名

4、不同義,同義不同名的現(xiàn)象。維表管理從各層次、主題, 提取出公共維度和維度的統(tǒng)一編碼,以了解系統(tǒng)數(shù)據(jù)的非常關(guān)鍵的內(nèi)容。指標(biāo)管理從各層次、主題提取基礎(chǔ)的指標(biāo),并定義其業(yè)務(wù)含義,技術(shù)口徑。另外,元數(shù)據(jù)定義主要需實(shí)現(xiàn)兩類規(guī)則定義:標(biāo)準(zhǔn)化的命名規(guī)則和統(tǒng)一的擴(kuò)展規(guī)則。標(biāo)準(zhǔn)化的命名規(guī)則標(biāo)準(zhǔn)化數(shù)據(jù)的名稱、 編碼、層級、層的屬性名稱, 確保協(xié)調(diào)一致, 統(tǒng)一管理, 解決各源系統(tǒng)不規(guī)范的命名方式, 避免同名不同義, 同義不同名的現(xiàn)象, 解決系統(tǒng)之間數(shù)據(jù)集成的標(biāo)準(zhǔn), 解決跨部門數(shù)據(jù)分析時(shí)數(shù)據(jù)一致理解, 同時(shí)也是溝通 IT 和業(yè)務(wù)的一致理解。提供統(tǒng)一數(shù)據(jù)擴(kuò)展規(guī)則系統(tǒng)對指標(biāo)代碼, 元數(shù)據(jù), 子類等擴(kuò)展要素的擴(kuò)展規(guī)則進(jìn)行統(tǒng)

5、一限定, 保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。元數(shù)據(jù)存儲元數(shù)據(jù)存儲的信息管理范圍: 數(shù)據(jù)源接口、ETL 和前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié),并提供對技術(shù)元數(shù)據(jù)及業(yè)務(wù)元數(shù)據(jù)存儲。)業(yè)務(wù)元數(shù)據(jù)面向業(yè)務(wù)分析人員, 是數(shù)據(jù)中心數(shù)據(jù)處理規(guī)則的業(yè)務(wù)化描述, 主要包括業(yè)務(wù)規(guī)則、業(yè)務(wù)術(shù)語、業(yè)務(wù)指標(biāo)、信息分類等;業(yè)務(wù)指標(biāo)基本屬性包括:指標(biāo)標(biāo)識、指標(biāo)名稱、指標(biāo)描述、指標(biāo)數(shù)據(jù)來源、指標(biāo)業(yè)務(wù)口徑、指標(biāo)統(tǒng)計(jì)周期、指標(biāo)度量單位、指標(biāo)創(chuàng)建日期、指標(biāo)最后修訂日期和指標(biāo)備注等。維度數(shù)據(jù)基本屬性包括:維度標(biāo)識、維度名稱、維度描述、維度層級數(shù)、維度生效時(shí)間和維度失效時(shí)間等。)技術(shù)元數(shù)據(jù)面向運(yùn)維技術(shù)人員, 偏重?cái)?shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理細(xì)節(jié)方面的技術(shù)化描

6、述,是用于開發(fā)和維護(hù)的基本信息, 主要包括源系統(tǒng)接口規(guī)范、 數(shù)據(jù)結(jié)構(gòu)的描述以及數(shù)據(jù)處理過程的描述等信息。元數(shù)據(jù)查詢元數(shù)據(jù)查詢必須支持對元數(shù)據(jù)庫中的元數(shù)據(jù)基本信息進(jìn)行查詢與檢索的功能,可查詢數(shù)據(jù)庫表、維表、指標(biāo)、過程及參與的輸入輸出對象信息,以及其它納入管理的對象基本信息, 查詢的信息按處理的層次及業(yè)務(wù)主題進(jìn)行組織,查詢功能返回實(shí)體及其所屬的相關(guān)信息。提供可視化的界面,實(shí)現(xiàn)元數(shù)據(jù)信息的查詢展現(xiàn),支持按照元數(shù)據(jù)的查詢、按指標(biāo)定義和指標(biāo)名稱的查詢。查詢的信息內(nèi)容包括:數(shù)據(jù)字典、數(shù)據(jù)目錄、服務(wù)目錄等。提供對歷史信息的查詢,方便維護(hù)人員了解具體對象的歷史變更情況。查詢功能包括快速查詢功能和屬性查詢。查詢

7、功能描述以關(guān)鍵字為核心,通過對元數(shù)據(jù)的關(guān)鍵屬性進(jìn)行模糊查詢,返回符合條件快速查詢的元數(shù)據(jù)列表,查看某一元數(shù)據(jù)的詳細(xì)信息。指定元數(shù)據(jù)類型、元數(shù)據(jù)屬性,并輸入查詢屬性的值,對該類型元數(shù)據(jù)進(jìn)屬性查詢行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某元數(shù)據(jù)的詳細(xì)信息。查詢功能表元數(shù)據(jù)維護(hù)隨著本項(xiàng)目的深入, 元數(shù)據(jù)是動(dòng)態(tài)更新的, 因此元數(shù)據(jù)的維護(hù)需提供對元數(shù)據(jù)的增加、 刪除和修改等基本操作。 對于元數(shù)據(jù)的增量維護(hù), 可以保留歷史版本信息。用戶使用元數(shù)據(jù)基本維護(hù)功能,可以統(tǒng)一管理所有系統(tǒng)中的元數(shù)據(jù)。元數(shù)據(jù)的維護(hù)操作是原子操作, 這些原子操作可通過服務(wù)封裝的形式向性能管理系統(tǒng)的其它模塊提供元數(shù)據(jù)維護(hù)接口。使用者可

8、基于業(yè)務(wù)和管理的層面對業(yè)務(wù)、管理需求進(jìn)行建模, 定義元數(shù)據(jù)的屬性;支持 Excel 批量操作和外部接口導(dǎo)入功能。元數(shù)據(jù)檢查數(shù)據(jù)質(zhì)量檢查機(jī)制能及時(shí)發(fā)現(xiàn)、報(bào)告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題,因此, 平臺應(yīng)提供對元數(shù)據(jù)數(shù)據(jù)質(zhì)量的檢查手段,在元數(shù)據(jù)上線時(shí), 對元數(shù)據(jù)進(jìn)行稽核檢查,保證元數(shù)據(jù)信息的完整性,合理性。元數(shù)據(jù)檢查應(yīng)包括SQL 解析成功率、表級關(guān)系完整率、字段關(guān)系完整率等評估指標(biāo)進(jìn)行元數(shù)據(jù)質(zhì)量檢查。元數(shù)據(jù)分析當(dāng)數(shù)據(jù)出現(xiàn)問題時(shí), 元數(shù)據(jù)管理能夠通過血緣分析和影響分析,定位數(shù)據(jù)問題產(chǎn)生的路徑,并評估出該問題對平臺其他數(shù)據(jù)或應(yīng)用的影響。二、數(shù)據(jù)采集子系統(tǒng)采集方式通過多源數(shù)據(jù)采集接口,與其他系統(tǒng)對接,系統(tǒng)提

9、供多種類型的采集手段, 以滿足 IT 系統(tǒng)對數(shù)據(jù)采集現(xiàn)狀的要求,如:采集手段可包括“推”模式、 “拉”模式、web 上傳模式、直連模式等,如下圖所示:數(shù)據(jù)采集方式示意圖采集技術(shù)如何快速從業(yè)務(wù)系統(tǒng)獲取采集實(shí)時(shí)數(shù)據(jù),而不能對源業(yè)務(wù)系統(tǒng)產(chǎn)生大的性能影響。數(shù)據(jù)共享交換平臺數(shù)據(jù)采集可參考以下關(guān)鍵技術(shù):)服務(wù)接口的數(shù)據(jù)采集服務(wù)接口數(shù)據(jù)采集方法原理優(yōu)點(diǎn)缺點(diǎn)由于對于快照對象基于快照法快照是數(shù)據(jù)庫中存儲對象在某一時(shí)刻的即時(shí)映像。 周期性的提取源數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)快照加載到目 標(biāo)數(shù)據(jù)庫中它不需要依賴于特別的機(jī)制,系統(tǒng)資源占用較小,容易管理和操作并 不 區(qū) 分 具 體 的變動(dòng)記錄,而且采用 快 照 集 合 完 全刷

10、新,因此效率較低基于觸發(fā)器法在源數(shù)據(jù)庫為同步對象創(chuàng)建相應(yīng)的觸發(fā)器,當(dāng)對同步對象進(jìn)行修改、極大提高了系統(tǒng)效率使用的系統(tǒng)資源比較多,需要對系統(tǒng)方法原理優(yōu)點(diǎn)缺點(diǎn)插入或刪除等DML命令時(shí),觸發(fā)器進(jìn)行改動(dòng)被喚醒,將變化傳播到目標(biāo)數(shù)據(jù)庫基于日志法不僅方便,而數(shù)據(jù)庫日志的格式數(shù)據(jù)庫日志作為維護(hù)數(shù)據(jù)完整性和且也不會占用太多額外是不公開的,因而數(shù)據(jù)庫恢復(fù)的重要工具,其中已經(jīng)的系統(tǒng)資源,對任何類不 得 不 基 于 某 一包含了全部成功提交的數(shù)據(jù)庫操型的復(fù)制都適合,不但同 定 的 數(shù) 據(jù) 庫 日基于日志法作記錄信息。 基于日志法就是通過能提高效率和保證數(shù)據(jù)志 分 析 工 具 或 接分析數(shù)據(jù)庫日志的這些信息來捕的完整

11、性,還能在對等口,這給異構(gòu)數(shù)據(jù)獲復(fù)制對象的變化序列。式復(fù)制時(shí)提供詳細(xì)的控庫 復(fù) 制 帶 來 了 問制信息題。在大部分應(yīng)用程序和數(shù)據(jù)庫之間引入一類中間件,由它提供一系列對那些不經(jīng)過APIAPI( 包括 ODBC/JDBC驅(qū)動(dòng)程序 ) ,不需要改變現(xiàn)有的數(shù)據(jù)操作進(jìn)行的SQL語基于 API 法這些中間件在完成應(yīng)用程序?qū)?shù)庫,也不依賴具體的數(shù)句 而 產(chǎn) 生 的 數(shù) 據(jù)據(jù)庫修改的同時(shí), 也把復(fù)制對象的據(jù)庫變化變化序列記錄下來, 從而達(dá)到捕獲的目的影子表法是在初始化時(shí)為復(fù)制對象基于影子表法表 T建立一張影子表S,也就是作一份當(dāng)時(shí)的拷貝, 以后就可在適當(dāng)時(shí)機(jī)通過比較當(dāng)前T和 S的內(nèi)容來獲取凈變化信息能在任何

12、數(shù)據(jù)庫上實(shí)現(xiàn)資源開銷比較大基于時(shí)間戳法基于表中數(shù)據(jù)的時(shí)間戳增量提取變化的內(nèi)容能在任何數(shù)據(jù)庫上實(shí)現(xiàn)依賴于源系統(tǒng)表結(jié)構(gòu)設(shè)計(jì)) FTP 文件采集文本文件輸入:處理有列分隔符(限定符、逃逸字符)的文本文件。功能選項(xiàng)豐富、有錯(cuò)誤處理機(jī)制。CSV 文件輸入:簡化了文本文件輸入通過NIO、并行、延遲轉(zhuǎn)換提高性能固定寬度:列固定寬度的文件,不用解析字符串,性能好。) Socket消息采集Socket消息采集模塊主要功能: 1、Socket客戶端接收流量系統(tǒng)提供的A 信令消息保存到本地文件。2、Socket 服務(wù)端將接收的A 信令消息實(shí)時(shí)傳輸數(shù)據(jù)給下游其他系統(tǒng),同時(shí)支持將本地文件轉(zhuǎn)為消息后轉(zhuǎn)發(fā)。) Sqoop數(shù)

13、據(jù)高速同步采集可采用開源的 Sqoop來實(shí)現(xiàn)大數(shù)據(jù)平臺和DB2 庫、HBASE 的高效數(shù)據(jù)同步。共用基礎(chǔ)平臺數(shù)據(jù)分發(fā)的功能。應(yīng)用場景:可以使用于數(shù)據(jù)抽取,或從數(shù)據(jù)中心同步到其他數(shù)據(jù)庫。采集功能)離線采集離線采集,即非實(shí)時(shí)采集;采集可分為“推”模式和 “拉”模式兩種。離線采集 “推”模式:即,各行政單位定期將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺指定的前置機(jī)存儲設(shè)備進(jìn)行存儲,可采用 FTP 可 SFTP等相關(guān)方式; 平臺負(fù)責(zé)周轉(zhuǎn)前置機(jī)設(shè)備實(shí)現(xiàn)數(shù)據(jù)的入庫等相關(guān)操作。離線采集 “拉”模式:即,各行政單位具備自有IT 系統(tǒng)數(shù)據(jù)緩沖前置機(jī)的,由數(shù)據(jù)交換共享平臺定期到指定設(shè)備進(jìn)行數(shù)據(jù)采集。)實(shí)時(shí)采集實(shí)時(shí)采集主要以 “

14、推”模為主,即在數(shù)據(jù)交換共享平臺前置設(shè)備建立數(shù)據(jù)監(jiān)聽機(jī)制,監(jiān)聽各行政單位是否將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺指定的前置機(jī)存儲位置,當(dāng)發(fā)現(xiàn)存儲設(shè)備有數(shù)據(jù)產(chǎn)生時(shí),實(shí)時(shí)地將數(shù)據(jù)采集到數(shù)據(jù)交換共享平臺,用于數(shù)據(jù)的處理工作。) WEB 服務(wù)采集針對各行政單位IT 系統(tǒng)無法提供數(shù)據(jù)文件的,通過數(shù)據(jù)交換共享平臺提供WEB 采集系統(tǒng),用戶登錄系統(tǒng),可進(jìn)行數(shù)據(jù)錄入或直接上傳文件數(shù)據(jù)?;?WEB 的采集,系統(tǒng)提供自定義表單的功能,以滿足不同行政單位數(shù)據(jù)采集的需要。)接口服務(wù)采集基于各行政單位IT 系統(tǒng)提供的數(shù)據(jù)接口,數(shù)據(jù)交換共享平臺通過調(diào)用接口服務(wù),實(shí)現(xiàn)數(shù)據(jù)文件的采集。)采集異常處理系統(tǒng)提供采集異常處理機(jī)制,包括:

15、采集任務(wù)中斷、采集數(shù)據(jù)失敗等相關(guān)異 ?,F(xiàn)象時(shí), 實(shí)現(xiàn)相關(guān)的補(bǔ)采機(jī)制, 或通過告警的方式通知系統(tǒng)用戶;如采集各行政單位數(shù)據(jù)時(shí), 系統(tǒng)監(jiān)聽采集任務(wù)中斷或網(wǎng)絡(luò)中斷等異常故障時(shí),系統(tǒng)可智能觸發(fā)補(bǔ)采機(jī)制, 若無法補(bǔ)采, 可通知系統(tǒng)用戶進(jìn)行故障檢查,以保障源數(shù)據(jù)采集的可靠性。)配置管理配置觸發(fā)采集的方式,如:實(shí)時(shí)采集、按小時(shí)采集、按天采集、按月采集等不同的時(shí)間方式。配置各行政單位數(shù)據(jù)采集的存儲位置,以便于安全存放與管理。三、數(shù)據(jù)清洗加工子系統(tǒng)處理采集過來的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換、加載功能,一方面保障采集的數(shù)據(jù)能正確、完整、規(guī)范地加載到目的地;另一方面,實(shí)現(xiàn)數(shù)據(jù)整合過程中的異常處理機(jī)制,如:處理傳輸異常

16、、數(shù)據(jù)加載異常、數(shù)據(jù)結(jié)構(gòu)與質(zhì)量異常等。圖 5-42 數(shù)據(jù)清洗整體能力結(jié)構(gòu)圖建議采用成熟的 ETL 工具實(shí)現(xiàn)數(shù)據(jù)的清洗整理過程。原始數(shù)據(jù)基礎(chǔ)數(shù)據(jù)生產(chǎn)地圖消費(fèi)政務(wù)數(shù)據(jù)庫地理信息數(shù)據(jù)庫元數(shù)據(jù)儲運(yùn)元數(shù)據(jù)庫存加工價(jià)格供求專業(yè)數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)庫數(shù)據(jù)清洗結(jié)構(gòu)設(shè)計(jì)清洗轉(zhuǎn)換數(shù)據(jù)清洗轉(zhuǎn)換指對前端采集過來的數(shù)據(jù)進(jìn)行清洗與轉(zhuǎn)換處理,包括數(shù)據(jù)過濾、數(shù)據(jù)剔重、類型轉(zhuǎn)換、編碼映射、文件拆分與合并、維度轉(zhuǎn)換等功能。數(shù)據(jù)清洗轉(zhuǎn)換的任務(wù)主要是進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換、 數(shù)據(jù)去臟和一些轉(zhuǎn)換規(guī)則的計(jì)算。 其中不一致轉(zhuǎn)換過程是數(shù)據(jù)整合的過程,側(cè)重于將來源于不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理;數(shù)據(jù)粒度轉(zhuǎn)換需要對數(shù)據(jù)進(jìn)行統(tǒng)

17、一歸整;轉(zhuǎn)換規(guī)則計(jì)算按照設(shè)計(jì)的計(jì)算歸則對數(shù)據(jù)進(jìn)行重新計(jì)算。系統(tǒng)支持批量清洗和實(shí)時(shí)清洗, 針對批量離線數(shù)據(jù)進(jìn)行分布式并行清洗轉(zhuǎn)換, 針對實(shí)時(shí)數(shù)據(jù)進(jìn)行不落地清洗轉(zhuǎn)換。)轉(zhuǎn)換規(guī)則配置數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)轉(zhuǎn)換規(guī)則配置,以圖形化的界面來實(shí)現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置,主要提供的數(shù)據(jù)轉(zhuǎn)換規(guī)則設(shè)置包括:對數(shù)據(jù)進(jìn)行計(jì)算、合并、拆分 的規(guī)則配置、對空值替換規(guī)則的配置、對數(shù)據(jù)格式化規(guī)則的配置等。)處理過程記錄數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)處理過程記錄功能,支持對數(shù)據(jù)處理過程的日志進(jìn)行記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、 轉(zhuǎn)換的時(shí)間等內(nèi)容。)數(shù)據(jù)轉(zhuǎn)換組件數(shù)據(jù)清洗系統(tǒng)提供豐富的數(shù)據(jù)轉(zhuǎn)換處理組件,主

18、要包含如下:支持任意合理的數(shù)據(jù)格式轉(zhuǎn)換,包括但不限于:時(shí)間類型的轉(zhuǎn)換、字符編碼轉(zhuǎn)換、數(shù)據(jù)類型轉(zhuǎn)換;支持統(tǒng)一編碼映射,為了保障數(shù)據(jù)的一致性,需要對不同來源的數(shù)據(jù)進(jìn)行統(tǒng)一的編碼,如公民唯一標(biāo)識,各種緯度參數(shù)等。支持多字段的混合運(yùn)算,運(yùn)算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg 等;支持各種字符操作,包括但不限于:字符替換、字符截取、字符連接;支持?jǐn)?shù)據(jù)粒度的轉(zhuǎn)換,保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi);支持?jǐn)?shù)據(jù)格式化,包括時(shí)間、數(shù)值、字符、計(jì)量單位等數(shù)據(jù);支持復(fù)雜條件過濾,過濾條件可靈活配置;支持?jǐn)?shù)據(jù)去重處理,可按照用戶定義的規(guī)則自動(dòng)判斷重復(fù)數(shù)據(jù),并按照用戶定義的規(guī)則處理重復(fù)的數(shù)據(jù);支持

19、記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄;支持行、列變換;支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化;支持處理過程支持各種字符集的轉(zhuǎn)換等。硬編碼數(shù)據(jù)轉(zhuǎn)換基于硬編碼實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換依托于插件方式來實(shí)現(xiàn),采用將不同的數(shù)據(jù)轉(zhuǎn)換過程通過硬編碼的形式封裝為相應(yīng)的處理插件置入到數(shù)據(jù)處理工作流程,針對此類模式主要支撐以下應(yīng)用場景:時(shí)間類型的轉(zhuǎn)換;碼表映射;記錄拆分;字符集轉(zhuǎn)換)庫外數(shù)據(jù)轉(zhuǎn)換基于庫外計(jì)算進(jìn)行數(shù)據(jù)轉(zhuǎn)換操作,需要借助Hadoop、流式計(jì)算引擎等海量數(shù)據(jù)計(jì)算處理平臺來完成,借助并行計(jì)算處理能力來滿足復(fù)雜數(shù)據(jù)轉(zhuǎn)換來進(jìn)行。 主要支撐以下業(yè)務(wù)應(yīng)用場景:多字段的混合運(yùn)算。過濾、去重、清洗。復(fù)雜條件過濾。排序、統(tǒng)計(jì)、合

20、并計(jì)算、行列變換等。數(shù)據(jù)加工數(shù)據(jù)加工是指對采集數(shù)據(jù)庫和基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行加工,匯總到綜合指標(biāo)數(shù)據(jù)庫,并在此基礎(chǔ)上進(jìn)一步挖掘分析,按照主題邏輯設(shè)計(jì)和轉(zhuǎn)換規(guī)則設(shè)計(jì),形成主題數(shù)據(jù)庫的過程。 如下圖所示, 包含了主題加工流程管理、 數(shù)據(jù)加工設(shè)計(jì)、數(shù)據(jù)加工實(shí)現(xiàn)。建議采用成熟的ETL 工具實(shí)現(xiàn)數(shù)據(jù)加工的過程。在實(shí)現(xiàn)數(shù)據(jù)加工活動(dòng)時(shí),定義數(shù)據(jù)加工相關(guān)的元數(shù)據(jù)并將元數(shù)據(jù)存儲于元數(shù)據(jù)庫中,與基于數(shù)據(jù)倉庫的其他應(yīng)用元數(shù)據(jù)統(tǒng)一進(jìn)行管理和使用。數(shù)據(jù)加工元數(shù)據(jù)主要可分為:對象描述元數(shù)據(jù)和運(yùn)行管理元數(shù)據(jù)。對象描述元數(shù)據(jù)用于描述主題派生分組、主題派生指標(biāo)、主題轉(zhuǎn)換規(guī)則、流程定義等信息。運(yùn)行管理元數(shù)據(jù)用于描述流程執(zhí)行記錄等

21、操作信息。數(shù)據(jù)加載數(shù)據(jù)加載主要指將采集與清洗轉(zhuǎn)換的數(shù)據(jù), 準(zhǔn)確、及時(shí)地存儲到不同目標(biāo)庫中(如: RDBMS 、MPP、Hadoop 等)中,依據(jù)數(shù)據(jù)的加載方式包括文件加載、流加載、壓縮加載、不落地加載等。依據(jù)數(shù)據(jù)加載技術(shù)特點(diǎn),可分為全量數(shù)據(jù)加載、流式(實(shí)時(shí))數(shù)據(jù)加載、文件落地雙加載、內(nèi)存不落地加載。對于不同的數(shù)據(jù)庫加載、 不同的方式加載, 在數(shù)據(jù)加載過程的工作原理基本相同,數(shù)據(jù)加載能力要求包含:默認(rèn)情況下提供基礎(chǔ)通用的加載控件,支持將數(shù)據(jù)源加載到不同的數(shù)據(jù)庫中,加載的數(shù)據(jù)支持接口、文件加載策略或流式策略。加載方式支持全量或?qū)崟r(shí)方式,全量加載方式則采用落地加載策略,并且需要結(jié)合運(yùn)用不同平臺的加載

22、工具 ; 實(shí)時(shí)加載與實(shí)時(shí)采集必須配套使用, 二者之間共享內(nèi)存實(shí)現(xiàn)同步數(shù)據(jù)交換,通過引入插件機(jī)制來屏敝不同數(shù)據(jù)源差異性。支持加載時(shí)事物提交的參數(shù)配置,允許設(shè)定數(shù)據(jù)文件相關(guān)輸入路徑與加載文件匹配規(guī)則等信息,由數(shù)據(jù)裝載完成發(fā)現(xiàn)文件、文件獲取、加載數(shù)據(jù)、數(shù)據(jù)校驗(yàn)等操作流程后完成數(shù)據(jù)入庫操作。在加載實(shí)現(xiàn)過程中支持提供SQL、HQL 、SHELL 等不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來加載到 數(shù)據(jù)。數(shù)據(jù)加載結(jié)束或失敗時(shí),都需要記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問題排查提供詳細(xì)信息。在加載觸發(fā)模式上支持自動(dòng)加載與手工執(zhí)行的二大類型。支持?jǐn)?shù)據(jù)自動(dòng) 加載的設(shè)計(jì)與執(zhí)行,

23、當(dāng)數(shù)據(jù)加載出錯(cuò)時(shí), 應(yīng)提供操作界面以人工干預(yù)的方式來重新啟動(dòng)數(shù)據(jù)的接收和加載。)全量數(shù)據(jù)加載全量加載是將數(shù)據(jù)一次性加載到接口機(jī)上,是準(zhǔn)實(shí)時(shí)加載, 主要應(yīng)對數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對外提供數(shù)據(jù)時(shí)可采用此種采集模式,全量數(shù)據(jù)加載取具備多協(xié)議數(shù)據(jù)加載和并發(fā)加載控制兩種能力,多協(xié)議數(shù)據(jù)加載提供了文件和數(shù)據(jù)庫等多種目標(biāo)數(shù)據(jù)庫進(jìn)行加載,包括支持:高性能關(guān)系型數(shù)據(jù)倉庫、MPP 分布式數(shù)據(jù)倉庫、 HDFS 等,接口協(xié)議可以根據(jù)需要隨時(shí)添加;并發(fā)加載控制是運(yùn)用大規(guī)模并行計(jì)算多個(gè)加載任務(wù)發(fā)布到集群中并行處理,可控制并發(fā)數(shù)和任務(wù)優(yōu)先級。)流式(實(shí)時(shí))數(shù)據(jù)加載流式數(shù)據(jù)加載主要應(yīng)對海量數(shù)據(jù), 采用流式計(jì)算方法進(jìn)行高

24、性能的實(shí)時(shí)計(jì)算實(shí)時(shí)加載。)文件落地雙加載包括文件從接口機(jī)到ETL服務(wù)器不同的傳輸方式;管道、FTP 傳輸、 CFS 傳輸?shù)葌鬏敺绞?;雙進(jìn)程異步方式讀取接口文件多節(jié)點(diǎn)/多分區(qū)加載到雙庫,兩個(gè)進(jìn)程互不影響。)內(nèi)存不落地加載不落地實(shí)時(shí)加載主要是采用分布式內(nèi)存數(shù)據(jù)計(jì)算, 以多進(jìn)程管道方式并行讀取不同的接口文件,每個(gè)接口文件以 KEY 的方式分塊計(jì)算,計(jì)算完把各節(jié)點(diǎn)上聚合結(jié)果匯總到內(nèi)存池,調(diào)用 LOAD API 加載到數(shù)據(jù)庫。)數(shù)據(jù)加載過程控制數(shù)據(jù)裝載過程中, 針對數(shù)據(jù)加載中斷或者出錯(cuò),支持采用斷點(diǎn)續(xù)傳、 一致性保障等方法進(jìn)行過程控制, 避免重新啟動(dòng)數(shù)據(jù)的接收和加載。數(shù)據(jù)裝載過程控制主要包括如下功能:斷

25、點(diǎn)續(xù)傳:由于網(wǎng)絡(luò)中斷或者其他原因造成傳輸中斷,提供斷點(diǎn)續(xù)傳功能,在下次傳輸時(shí)能夠接著前面的傳輸進(jìn)度繼續(xù)進(jìn)行,節(jié)省時(shí)間,提高速度。一致性保障:支持兩階段提交,提供訪問的多種數(shù)據(jù)源發(fā)起兩階段提交任務(wù),兩階段提交可以保證在多個(gè)數(shù)據(jù)源上執(zhí)行的任務(wù)包含在一個(gè)事務(wù)中,當(dāng)一個(gè)數(shù)據(jù)源加載失敗時(shí), 其他數(shù)據(jù)源可做數(shù)據(jù)回滾, 確保多個(gè)數(shù)據(jù)源的數(shù)據(jù)保持一致。數(shù)據(jù)校驗(yàn)數(shù)據(jù)校驗(yàn)包括數(shù)據(jù)采集、 數(shù)據(jù)加載、 數(shù)據(jù)分發(fā)等過程中數(shù)據(jù)校驗(yàn)。 在數(shù)據(jù)采集過程中通過對數(shù)據(jù)源與目標(biāo)數(shù)據(jù)庫之間的數(shù)據(jù)進(jìn)行對比分析, 從而進(jìn)一步來分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過程可能產(chǎn)生的異常錯(cuò)誤信息。數(shù)據(jù)校驗(yàn)包含以下能力:數(shù)據(jù)校驗(yàn)?zāi)芰π蛱柟δ芄δ苊枋鰯?shù)據(jù)校驗(yàn)

26、記錄文件獲支持對數(shù)據(jù)抽取過程中記錄的文件進(jìn)行獲取,并對信息記錄1取與信息解析進(jìn)行解析提取,為后續(xù)分析提供輸入數(shù)據(jù);支持?jǐn)?shù)據(jù)文件級校驗(yàn);支持?jǐn)?shù)據(jù)文件分隔符校驗(yàn);提供豐富的數(shù)據(jù)校驗(yàn)2支持記錄級校驗(yàn);包括但不限于:格式校驗(yàn)、類型校驗(yàn)、取值手段范圍校驗(yàn)、長度校驗(yàn)、非空校驗(yàn)、字段關(guān)系校驗(yàn)、異常值校驗(yàn)、按照用戶定義的邏輯規(guī)則校驗(yàn)等。3提供靈活的數(shù)據(jù)校驗(yàn)支持對數(shù)據(jù)校驗(yàn)規(guī)則進(jìn)行靈活定義,可以自定義數(shù)據(jù)校驗(yàn)規(guī)序號功能功能描述規(guī)則設(shè)置則結(jié)構(gòu);提供圖形化數(shù)據(jù)校驗(yàn)規(guī)則設(shè)置功能,允許對校驗(yàn)規(guī)則進(jìn)行維護(hù)、優(yōu)化等處理。依托數(shù)據(jù)校驗(yàn)提供全能夠根據(jù)設(shè)置的數(shù)據(jù)校驗(yàn)與監(jiān)控規(guī)則或算法,對需要進(jìn)行校4面的數(shù)據(jù)質(zhì)量監(jiān)控管驗(yàn)的數(shù)據(jù)進(jìn)行采集

27、后執(zhí)行相應(yīng)校驗(yàn)檢查,并依據(jù)稽核和檢查理過程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量異常情況進(jìn)行告警過程。數(shù)據(jù)校驗(yàn)從校驗(yàn)對象細(xì)粒度維度分析,支持文件級校驗(yàn)與記錄級校驗(yàn)二大類。數(shù)據(jù)校驗(yàn)?zāi)K還內(nèi)置了部分的數(shù)據(jù)檢查功能,如數(shù)據(jù)唯一性檢查、 外鍵完整性檢查。數(shù)據(jù)校驗(yàn)內(nèi)容有類型,長度,是否為空,精度,范圍,格式等信息。如果數(shù)據(jù)不符合,會進(jìn)行過濾,只有正確的數(shù)據(jù)才能繼續(xù)使用。對于錯(cuò)誤的數(shù)據(jù),可以 進(jìn)行輸出, 包括錯(cuò)誤原因和錯(cuò)誤字段序號等信息。相關(guān)的錯(cuò)誤類型和數(shù)量等統(tǒng)計(jì)信息也會綁定到流程變量中,以便后續(xù)節(jié)點(diǎn)進(jìn)行判斷使用。異常處理在數(shù)據(jù)整合過程中會出現(xiàn)不同種類的異?,F(xiàn)象,如:數(shù)據(jù)節(jié)點(diǎn)異常、 數(shù)據(jù)清洗轉(zhuǎn)換異常、數(shù)據(jù)加載異常等,系統(tǒng)通過異

28、常處理機(jī)制來保障系統(tǒng)的穩(wěn)定性。)計(jì)算節(jié)點(diǎn)異常針對數(shù)據(jù)計(jì)算節(jié)點(diǎn)異常, 如:作業(yè)過程采用分布式多節(jié)點(diǎn)并發(fā)作業(yè)來提升系統(tǒng)處理速度, 在作業(yè)過程中某個(gè)節(jié)點(diǎn)失效會導(dǎo)致作業(yè)中斷或掛起現(xiàn)象,處理機(jī)制如下:Agent 節(jié)點(diǎn)與 Master 節(jié)點(diǎn)通過 Heartbeat 進(jìn)行狀態(tài)通信,使Master 第一時(shí)間掌握節(jié)點(diǎn)狀態(tài)。Agent 節(jié)點(diǎn)所有 Task皆由 Master 分發(fā),并周期性向 Master 匯報(bào)每個(gè) Task執(zhí)行狀態(tài)。當(dāng) Agent1 節(jié)點(diǎn)出現(xiàn)異常,將由Master 重新將 Task分發(fā)到其它節(jié)點(diǎn)重新運(yùn)行。)數(shù)據(jù)清洗轉(zhuǎn)換異常針對數(shù)據(jù)清洗轉(zhuǎn)換: 支持校驗(yàn)點(diǎn), 當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí),如果因?yàn)槟撤N原因

29、發(fā)生故障中斷后,可以從最近的校驗(yàn)點(diǎn)開始恢復(fù)處理。)數(shù)據(jù)加載異常針對數(shù)據(jù)裝載過程中異常: 支持異常自動(dòng)重試、 超時(shí)重試、 將任務(wù)轉(zhuǎn)移到其它節(jié)點(diǎn)執(zhí)行、 任務(wù)掛起等待人工介入等異常處理機(jī)制,執(zhí)行器數(shù)據(jù)轉(zhuǎn)載支持分布式數(shù)據(jù)轉(zhuǎn)載, 在單一節(jié)點(diǎn)數(shù)據(jù)轉(zhuǎn)載異常情況下,可實(shí)現(xiàn)將轉(zhuǎn)載工作轉(zhuǎn)發(fā)到其它節(jié)點(diǎn)重新執(zhí)行。在任務(wù)內(nèi)數(shù)據(jù)裝載,采用雙向加載線程同時(shí)檢查、匯報(bào)機(jī)制,只有 最終狀態(tài)一致,工作任務(wù)才宣告完成,否則將進(jìn)行重試等操作。數(shù)據(jù)標(biāo)準(zhǔn)化對清洗后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以解決系統(tǒng)之間數(shù)據(jù)差異問題,解決跨部門數(shù)據(jù)調(diào)用時(shí)數(shù)據(jù)一致問題。 通過技術(shù)工具實(shí)現(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)處理,是對政府?dāng)?shù)據(jù)交換共享標(biāo)準(zhǔn)規(guī)范體系的有效執(zhí)行,也是溝通業(yè)務(wù)和

30、IT 一致理解、有機(jī)融合的關(guān)鍵。標(biāo)準(zhǔn)化處理過程包括標(biāo)準(zhǔn)的執(zhí)行、標(biāo)準(zhǔn)的控制、 標(biāo)準(zhǔn)執(zhí)行和稽核, 以及標(biāo)準(zhǔn)化問題的管理。四、數(shù)據(jù)質(zhì)量管理子系統(tǒng)數(shù)據(jù)質(zhì)量)質(zhì)量規(guī)則管理質(zhì)量規(guī)則配置依據(jù)質(zhì)量需求,靈活配置質(zhì)量規(guī)則。如開發(fā)質(zhì)量規(guī)則(如命名不規(guī)范、不必 要的跨層數(shù)據(jù)訪問、不合理的大表關(guān)聯(lián)操作)、數(shù)據(jù)波動(dòng)規(guī)則(接口 /指標(biāo)數(shù)據(jù)同環(huán)比)。質(zhì)量規(guī)則自動(dòng)優(yōu)化根據(jù)歷史運(yùn)行信息,自動(dòng)給出調(diào)整監(jiān)控算法、閥值、優(yōu)先級建議,使得規(guī)則更合理。)質(zhì)量規(guī)則執(zhí)行依據(jù)質(zhì)量規(guī)則執(zhí)行的時(shí)機(jī)需求,配置執(zhí)行方式, 依據(jù)執(zhí)行規(guī)則, 管控平臺自動(dòng)執(zhí)行質(zhì)量規(guī)則檢查。質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支撐按固定時(shí)間周期(如月、周、 日)、事件觸發(fā)等執(zhí)行方式。)數(shù)據(jù)

31、質(zhì)量監(jiān)控依據(jù)質(zhì)量檢查規(guī)則對數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,如接口波動(dòng)率的監(jiān)控, 如果發(fā)現(xiàn)異?,F(xiàn)象可及時(shí)告知或預(yù)警相關(guān)人員可參考檢查方法列表數(shù)據(jù)質(zhì)量檢查方法檢查方法檢查描述適用場景指標(biāo)數(shù)值與閾值上下限的比較,閾值可以手工錄入經(jīng)驗(yàn)數(shù)值檢查值或采用n 個(gè)周期內(nèi)指標(biāo)的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對指標(biāo)的影響等主要適用變化趨勢平穩(wěn)的業(yè)務(wù)關(guān)鍵指標(biāo)波動(dòng)檢查包括同比波動(dòng)檢查和環(huán)比波動(dòng)檢查,先計(jì)算指波動(dòng)檢查標(biāo)的同比或環(huán)比波動(dòng)率,然后與預(yù)定的波動(dòng)率上下限(閾值)進(jìn)行比較,閾值可以手工錄入經(jīng)驗(yàn)值或采用n個(gè)周期內(nèi)指標(biāo)的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對指標(biāo)的影響等如業(yè)務(wù)發(fā)展類指標(biāo)、用戶數(shù)類指標(biāo)等

32、平衡性檢查通過對若干個(gè)指標(biāo)值的簡單四則運(yùn)算(加、減、乘、除), 來檢驗(yàn)各個(gè)指標(biāo)間潛在的平衡或其他比較關(guān)系需要進(jìn)行相關(guān)性檢查的指標(biāo),如日指標(biāo)匯總與月指標(biāo)的平衡檢查加權(quán)波動(dòng)檢查通過對單個(gè)指標(biāo)的基礎(chǔ)檢查結(jié)果和影響因素的加權(quán)計(jì)算分析,綜合檢查指標(biāo)的波動(dòng)和變化情況關(guān)聯(lián)性檢查定義相關(guān)性指標(biāo),和指標(biāo)相關(guān)系數(shù),如正強(qiáng)相關(guān),負(fù)相關(guān),定義兩個(gè)指標(biāo)當(dāng)前值是否滿足相關(guān)性的特點(diǎn)主要用于考察多個(gè)指標(biāo)之間的邏輯關(guān)系是否符合規(guī)律 ,如量收匹配的問題一致性檢查計(jì)算一個(gè)指標(biāo)在不同的采集計(jì)算點(diǎn)的值是否一致在倉庫底層的值,在應(yīng)用匯總表值,在前臺應(yīng)用 1,應(yīng)用 2 中的值是否一致值域評判直接對某個(gè)值進(jìn)行評判或是否在允許的取值范圍內(nèi)容進(jìn)

33、行評判)質(zhì)量問題管理統(tǒng)一收集數(shù)據(jù)質(zhì)量問題、 形成數(shù)據(jù)質(zhì)量知識庫, 提升數(shù)據(jù)質(zhì)量問題解決效率。)質(zhì)量評估報(bào)告依據(jù)質(zhì)量檢查評估規(guī)則對數(shù)據(jù)質(zhì)量進(jìn)行評估,形成數(shù)據(jù)質(zhì)量評估報(bào)告, 定期對評估報(bào)告進(jìn)行分析得出優(yōu)化建議,并付諸優(yōu)化動(dòng)作,持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量。數(shù)據(jù)評估)數(shù)據(jù)使用評估對數(shù)據(jù)及應(yīng)用使用情況進(jìn)行評估,并據(jù)此數(shù)據(jù)存儲、處理、應(yīng)用進(jìn)行優(yōu)化。以下為數(shù)據(jù)評估示例:數(shù)據(jù)評估方法科目分?jǐn)偡椒ㄇ芭_應(yīng)用使用次數(shù)應(yīng)用的點(diǎn)擊次數(shù)平均分?jǐn)偨o應(yīng)用鏈路上的所有表分發(fā)給外部系統(tǒng)接口數(shù)(分發(fā)給外部表,平均分?jǐn)偨o分發(fā)接口表鏈路上的據(jù)所有表 )* 加權(quán)系數(shù)數(shù)據(jù)評估(采集外部表,平均分?jǐn)偨o采集接口表鏈路上的所采集外部系統(tǒng)數(shù)據(jù)有表 )* 加

34、權(quán)系數(shù)(外部應(yīng)用調(diào)用表次數(shù)平均分?jǐn)偨o應(yīng)用表鏈路上的外部應(yīng)用調(diào)用次數(shù)所有表 )* 加權(quán)系數(shù))數(shù)據(jù)關(guān)系評估數(shù)據(jù)關(guān)系的類別可以分為以下幾種:主外鍵關(guān)系。參考關(guān)系。主要描述實(shí)體表與維度表的關(guān)系。輸入與輸出。歷史拍照。冗余備份。從目的可以劃分為:分工提速、轉(zhuǎn)儲優(yōu)化、應(yīng)用分流、數(shù)據(jù)統(tǒng)計(jì)臨時(shí)備份。數(shù)據(jù)交換共享平臺通過建立處理程序解析、元數(shù)據(jù)解析、及上線登記等方式實(shí)現(xiàn)數(shù)據(jù)關(guān)系評估。)時(shí)效性評估通過對數(shù)據(jù)關(guān)系的分析, 發(fā)現(xiàn)孤立表或無效表。 根據(jù)表名判斷此表大約含義, 建表日期、 狀態(tài)日期, 表內(nèi)數(shù)據(jù)時(shí)間等判斷此表最后更新時(shí)間。通過數(shù)據(jù)的使用日志,對孤立表和無效表進(jìn)行判斷是否有使用。)冗余數(shù)據(jù)評估數(shù)據(jù)交換共享平臺

35、將來納入大量數(shù)據(jù),可能存在著大量冗余的數(shù)據(jù)。 冗余數(shù)據(jù)一方面給數(shù)據(jù)的精確性和可靠性將帶來影響,同時(shí)也影響著數(shù)據(jù)庫的性能。系統(tǒng)必須要解決冗余問題, 主要有兩個(gè)環(huán)節(jié): 發(fā)現(xiàn)冗余數(shù)據(jù)和冗余進(jìn)行消除合并。輸入分析的起始表表名,業(yè)務(wù)主鍵查找分析起始表的后續(xù)所有表計(jì)算表的粒度層級計(jì)算表的相關(guān)性判斷表是否冗余和可合并的記錄冗余表信息輸出冗余表和合并建議圖 5-45 冗余數(shù)據(jù)評估)重要性評估在數(shù)據(jù)使用過程中和數(shù)據(jù)應(yīng)用中對表和數(shù)據(jù)的重要性進(jìn)行評估,通過訪問頻次,數(shù)據(jù)質(zhì)量,數(shù)據(jù)熱度,數(shù)據(jù)標(biāo)準(zhǔn)化等指標(biāo),進(jìn)行全面評估,并輸出表重要性 級別。稽核管理根據(jù)預(yù)先配置的規(guī)則、 算法和質(zhì)量檢查度量, 對數(shù)據(jù)的準(zhǔn)確性、 合理性等

36、多角度的檢查,以及時(shí)發(fā)現(xiàn)問題,解決問題。對于稽核結(jié)果,進(jìn)行統(tǒng)計(jì)分析,形成結(jié)果報(bào)告,為以后的數(shù)據(jù)倉庫建設(shè)、實(shí)施和維護(hù)的改進(jìn)打下堅(jiān)實(shí)的基礎(chǔ)。)稽核規(guī)則管理接口數(shù)據(jù)檢驗(yàn):對接口數(shù)據(jù)的過程進(jìn)行稽核和校驗(yàn),分為文件接口,DB-LINK接口,其他異構(gòu)數(shù)據(jù)庫接口。處理過程檢驗(yàn):對數(shù)據(jù)處理過程進(jìn)行監(jiān)控和稽核,分為JOB 稽核,工作流稽核,其他處理方式稽核等。處理環(huán)境檢驗(yàn): 對數(shù)據(jù)處理環(huán)境進(jìn)行檢查, 針對不同的應(yīng)用環(huán)境, 主要分為數(shù)據(jù)庫系統(tǒng)檢查、主機(jī)系統(tǒng)檢查、接口機(jī)檢查、應(yīng)用服務(wù)器檢查。日志監(jiān)控: 在平臺運(yùn)行的過程中可能出現(xiàn)各種各樣的錯(cuò)誤,通過檢測運(yùn)行過程的日志可以判斷出過程輸出的目標(biāo)表數(shù)據(jù)是否完整。提供選擇日

37、志監(jiān)控的各種信息供選擇,如:過程名、所屬模塊、執(zhí)行時(shí)間、完成時(shí)間、執(zhí)行時(shí)長、執(zhí)行用戶、執(zhí)行結(jié)果、預(yù)警等。維度檢驗(yàn):如:所屬模塊、日期、表名、維度名稱、緯度格式、緯度說明、緯度關(guān)聯(lián)編碼表、各緯度記錄分布情況、是否有空值、空值記錄數(shù)、空值率、預(yù)警區(qū)間等指標(biāo)。指標(biāo)值檢驗(yàn):包括數(shù)據(jù)量校驗(yàn)、單指標(biāo)校驗(yàn)、交叉校驗(yàn)等。)稽核任務(wù)調(diào)度在設(shè)定數(shù)據(jù)稽核的模板后, 可以對稽核任務(wù)實(shí)行自動(dòng)化處理,也可以通過定制方式來完成,可以定時(shí)調(diào)用或觸發(fā)。由不同類型數(shù)據(jù)檢驗(yàn)確定。)稽核結(jié)果分析對于稽核的結(jié)果, 進(jìn)行統(tǒng)計(jì)分析, 回答經(jīng)典的 “4W”問題:該報(bào)表是否異常、該報(bào)表在哪里發(fā)生、該報(bào)表什么時(shí)候發(fā)生異常和為什么該報(bào)表會發(fā)生異常

38、。)數(shù)據(jù)問題管理對系統(tǒng)使用者或數(shù)據(jù)倉庫開發(fā)者遇到的問題及解決方案,進(jìn)行收集和整理, 形成知識庫,便于用戶咨詢,同時(shí)也提高開發(fā)團(tuán)隊(duì)的效率,避免很多重復(fù)工作。五、統(tǒng)一調(diào)度子系統(tǒng)統(tǒng)一調(diào)度指完成多源數(shù)據(jù)融合平臺所有數(shù)據(jù)處理工作的統(tǒng)一執(zhí)行調(diào)度,包括采集任務(wù)調(diào)度、資源調(diào)度、優(yōu)先級設(shè)定等,統(tǒng)一調(diào)度能力包括統(tǒng)一調(diào)度配置、統(tǒng)一調(diào)度運(yùn)行、資源控制、調(diào)度策略、調(diào)度監(jiān)控等功能。利用統(tǒng)一調(diào)度可視化界面創(chuàng)建任務(wù), 支持基于內(nèi)部調(diào)度任務(wù), 也支持基于外部接口的任務(wù),在此基礎(chǔ)上可將任務(wù)進(jìn)行細(xì)分成多個(gè)任務(wù), 形成調(diào)度任務(wù)線程池。如下圖所示:圖 5-46 任務(wù)調(diào)度步驟任務(wù)管理相關(guān)功能依據(jù)所配置的任務(wù)驅(qū)動(dòng)條件啟動(dòng)調(diào)度任務(wù),對調(diào)度流

39、程的新增、修改、刪除,調(diào)度任務(wù)分配執(zhí)行,并向執(zhí)行代理客戶端發(fā)送任務(wù),代理執(zhí) 行完成后返回任務(wù)執(zhí)行結(jié)果和日志。統(tǒng)一調(diào)度功能)跨平臺統(tǒng)一調(diào)度:能夠跨平臺的統(tǒng)一任務(wù)作業(yè)調(diào)度能力。)統(tǒng)一調(diào)度配置:通過對圖形化組件進(jìn)行拖拽、流程連接等頁面操作,完成調(diào)度配置。)智能調(diào)度運(yùn)行: 傳統(tǒng)的調(diào)度平臺需要人工去配置作業(yè)流程、運(yùn)行時(shí)間窗口。調(diào)度系統(tǒng)能夠?qū)Y源情況智能調(diào)度運(yùn)行。)資源控制:可以將各種運(yùn)行操作資源、權(quán)限合理的分配給作業(yè),使核心權(quán)限得到有效保護(hù),資源得到合理利用。)優(yōu)先級管理評估:根據(jù)靜態(tài)優(yōu)先級評估計(jì)算、動(dòng)態(tài)優(yōu)先級評估計(jì)算,實(shí)現(xiàn)調(diào)度系統(tǒng)根據(jù)優(yōu)先級執(zhí)行任務(wù)。)調(diào)度策略管控:前臺頁面提供簡單任務(wù)邏輯的組合處理及

40、配置,支持多個(gè)平臺獨(dú)立調(diào)度, 及多個(gè)平臺間依賴調(diào)度, 對各種各樣的調(diào)度情況提供統(tǒng)一的策略管控。)調(diào)度全面監(jiān)控:能夠監(jiān)控多種作業(yè)的執(zhí)行情況,并分析作業(yè)執(zhí)行效率,發(fā)現(xiàn)作業(yè)執(zhí)行的關(guān)鍵環(huán)節(jié)。)集中的作業(yè)告警與錯(cuò)誤反饋:統(tǒng)一的作業(yè)告警,支持多種告警方式,并集中作業(yè)運(yùn)行錯(cuò)誤反饋,將問題日志抓取在平臺統(tǒng)一查看。調(diào)度配置在統(tǒng)一調(diào)度平臺中以數(shù)據(jù)流作為驅(qū)動(dòng), 通過控制中心統(tǒng)一進(jìn)行調(diào)度配置、 進(jìn)行作業(yè)命令下發(fā)、狀態(tài)收集進(jìn)行控制,達(dá)到 Agent 調(diào)度。圖 5-47 agent調(diào)度以一個(gè)業(yè)務(wù)量生產(chǎn)過程為例。 統(tǒng)一調(diào)度平臺圍繞作業(yè) (Job)與任務(wù)(Task) 為核心展開整個(gè)調(diào)度執(zhí)行流程。通過 Server 服務(wù)器,將

41、一個(gè)作業(yè)分布到 Agent 集群上,再由 Agent 根據(jù)資源控制、調(diào)度策略等, 分發(fā)到一個(gè)或多個(gè)節(jié)點(diǎn) ( node) 上。Server 服務(wù)器根據(jù)Job 描述文件將不同任務(wù)分發(fā)至多個(gè)節(jié)點(diǎn)(node)執(zhí)行, 任務(wù)執(zhí)行嚴(yán)格按照依賴關(guān)系執(zhí)行并實(shí)時(shí)返回狀態(tài)。同時(shí), Server服務(wù)器實(shí)時(shí)采集Agent 節(jié)點(diǎn)的系統(tǒng)資源與任務(wù)執(zhí)行狀態(tài)數(shù)據(jù),并形成任務(wù)執(zhí)行預(yù)警信息及時(shí)告警給運(yùn)維人員。調(diào)度運(yùn)行支持基于 shell 腳本的調(diào)度,簡化調(diào)度過程并判斷任務(wù)成功與否;支持基于存儲過程的調(diào)度, 如:支持調(diào)用 Oracle、DB2 等傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)中的存儲過程,并且需要支持調(diào)用GreenPlum,Vertica 等

42、 MPP 數(shù)據(jù)庫系統(tǒng)中的腳本;支持外部程序的調(diào)度,如:開發(fā)IDE 觸發(fā) ETL 調(diào)度流程實(shí)現(xiàn)調(diào)度的運(yùn)行。)數(shù)據(jù)存儲模塊通過不同方式進(jìn)行數(shù)據(jù)的入庫,實(shí)現(xiàn)自動(dòng)入庫和手動(dòng)入庫, 在數(shù)據(jù)入庫的過程中,需要對采集的數(shù)據(jù)進(jìn)行校驗(yàn),同時(shí)還需要實(shí)現(xiàn)數(shù)據(jù)的出庫功能。)數(shù)據(jù)管理模塊構(gòu)建基于云的分布式數(shù)據(jù)庫系統(tǒng),實(shí)現(xiàn)對采集存儲的各類數(shù)據(jù)進(jìn)行增加、刪除、修改和查詢功能;建立數(shù)據(jù)庫索引,提高數(shù)據(jù)庫信息檢索效率。)數(shù)據(jù)維護(hù)歸檔模塊圍繞儲存在數(shù)據(jù)綜合管理系統(tǒng)中的數(shù)據(jù),通過質(zhì)量檢測、標(biāo)準(zhǔn)化處理、歸檔、遷移等方法,實(shí)現(xiàn)對各類數(shù)據(jù)的編目存檔, 并對歸檔的數(shù)據(jù)進(jìn)行質(zhì)量檢測及管理。對存儲的數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)的備份和恢復(fù),達(dá)到對數(shù)據(jù)進(jìn)行更新

43、和維護(hù)的功能。)數(shù)據(jù)安全模塊對應(yīng)用軟件和數(shù)據(jù)庫操作情況等內(nèi)容進(jìn)行監(jiān)視和控制,對操作行為信息進(jìn)行授權(quán)權(quán)限方面的審計(jì)跟蹤。)數(shù)據(jù)檢索模塊通過模糊檢索、分類檢索、高級復(fù)合檢索等多種檢索途徑,實(shí)現(xiàn)檢索服務(wù),它接受用戶的查詢請求, 并根據(jù)高效的優(yōu)化算法從數(shù)據(jù)庫中提取出符合條件的記錄并顯示。調(diào)度策略依據(jù)業(yè)務(wù)要求,調(diào)度策略可分為:時(shí)間調(diào)度、手工調(diào)度、消息/API接口調(diào)度、優(yōu)先級調(diào)度等。時(shí)間調(diào)度 :源系統(tǒng)每天都在不斷產(chǎn)生新的數(shù)據(jù),系統(tǒng)需要將數(shù)據(jù)及時(shí)同步的目標(biāo)系統(tǒng)中。 系統(tǒng)需要支持周期性自動(dòng)進(jìn)行數(shù)據(jù)處理,以減少維護(hù)工程師的工作量。支持以年、月、日、小時(shí)、分鐘為單位進(jìn)行周期性調(diào)度。手工調(diào)度: 對于某些一次性的數(shù)據(jù)

44、處理任務(wù),系統(tǒng)支持手工調(diào)度功能, 用戶可以隨時(shí)啟動(dòng)這些數(shù)據(jù)處理任務(wù)。消息/API 接口調(diào)度 :對于其他系統(tǒng)需要調(diào)用企業(yè)級 ETL 的流程進(jìn)行數(shù)據(jù)處理的情況, 可以由第三方系統(tǒng)發(fā)送消息或者調(diào)用 API ,由統(tǒng)一調(diào)度進(jìn)行處理流程的調(diào)度。優(yōu)先級調(diào)度: 為避免服務(wù)器負(fù)荷過載, 甚至導(dǎo)致系統(tǒng)崩潰, 一方面系統(tǒng)需要提供最大任務(wù)并發(fā)數(shù)限制, 另一方面要防止任務(wù)擁塞的問題。通過提供流程優(yōu)先級控制功能, 當(dāng)資源消耗達(dá)到系統(tǒng)上限時(shí), 系統(tǒng)需要優(yōu)先保障優(yōu)先級較高的任務(wù)執(zhí)行,讓優(yōu)先級較低的任務(wù)處于等待狀態(tài),直到其它任務(wù)釋放出足夠的資源。調(diào)度監(jiān)控總體任務(wù)監(jiān)控:系統(tǒng)支持對所有任務(wù)按照系統(tǒng)、按日期對任務(wù)總體運(yùn)行情況進(jìn)行匯總

45、展現(xiàn),使得總體任務(wù)執(zhí)行情況一目了然。作業(yè)組監(jiān)控:系統(tǒng)支持對作業(yè)任務(wù)的分組,展現(xiàn)不同組作業(yè)的執(zhí)行情況,方便系統(tǒng)使用用戶、使用角色快速實(shí)現(xiàn)對所關(guān)心的作業(yè)的監(jiān)控與處理。任務(wù)組監(jiān)控內(nèi)容包括作業(yè)總數(shù)、掛起作業(yè)數(shù)、運(yùn)行作業(yè)數(shù)、延時(shí)作業(yè)數(shù)、停止作業(yè)數(shù)、暫停作業(yè)等指標(biāo)。可通過可視化界面查看具體作業(yè)的作業(yè)執(zhí)行狀態(tài)、執(zhí)行進(jìn)度、執(zhí)行節(jié)點(diǎn)數(shù)、成功任務(wù)數(shù)、正在執(zhí)行數(shù)、失敗任務(wù)數(shù)、延時(shí)任務(wù)數(shù)、未執(zhí)行任務(wù)數(shù)等。使用用戶可通過選擇具體作業(yè)或者批量作業(yè),完成對相關(guān)作業(yè)的啟動(dòng)、停止、手工運(yùn)行等操作。作業(yè)運(yùn)行監(jiān)控任務(wù)狀態(tài)監(jiān)控指前臺通過表格形式實(shí)時(shí)展現(xiàn)任務(wù)的運(yùn)行狀態(tài),通過前端頁面監(jiān)控各個(gè)任務(wù)的實(shí)時(shí)運(yùn)行狀態(tài)及運(yùn)行日志。集群監(jiān)控系統(tǒng)可通

46、過調(diào)度中心的自定義集群監(jiān)控功能實(shí)現(xiàn)對主、從服務(wù)器的監(jiān)控,如服務(wù)器的內(nèi)存使用率、 I/O 吞吐量、 CPU 使用率、物理機(jī)器資源占用等信息。六、數(shù)據(jù)共享交換子系統(tǒng)數(shù)據(jù)交換依據(jù)數(shù)據(jù)提供單位、數(shù)據(jù)使用單位的特點(diǎn), 數(shù)據(jù)交換主要提供三種服務(wù)能力,即:對接入的各 IT 系統(tǒng)提供公共基礎(chǔ)數(shù)據(jù),為IT 系統(tǒng)提供通用信息資源以及數(shù)據(jù)的導(dǎo)入;對大數(shù)據(jù)主題應(yīng)用提供元數(shù)據(jù)信息及主題數(shù)據(jù)信息;對前端門戶界面展示提供數(shù)據(jù)傳輸服務(wù)。總體如下圖所示數(shù)據(jù)共享交換平臺數(shù)據(jù)交換示意圖數(shù)據(jù)交換請求管理用戶通過門戶發(fā)起數(shù)據(jù)交換請求,該請求總體分為兩大類:第一類指數(shù)據(jù)傳輸采集交換,即由接入單位的IT 系統(tǒng)、大數(shù)據(jù)主題應(yīng)用發(fā)起數(shù)據(jù)采集請

47、求;該請求通過審核審批后,直接傳輸?shù)綌?shù)據(jù)采集抽取系統(tǒng);第二類指數(shù)據(jù)界面展現(xiàn)請求, 即用戶通過門戶查詢基礎(chǔ)數(shù)據(jù)、主題數(shù)據(jù)及目錄數(shù)據(jù)等,通過 API 形式(含 jdbc 等)將數(shù)據(jù)傳輸?shù)介T戶界面進(jìn)行展示,該請求無須審核, 根據(jù)用戶的權(quán)限進(jìn)行數(shù)據(jù)展示。 系統(tǒng)提供數(shù)據(jù)交換請求的管理與審批。ETL 數(shù)據(jù)抽取與加載服務(wù)ETL 采集與抽取工具, 接收到數(shù)據(jù)采集指令后, 執(zhí)行數(shù)據(jù)采集任務(wù), 對基礎(chǔ)數(shù)據(jù)、主題數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集,支持離線批量采集與實(shí)時(shí)采集;采集 完成的數(shù)據(jù)通過ETL 工具壓縮進(jìn)行傳輸。采集的數(shù)據(jù)由ETL 傳輸?shù)綌?shù)據(jù)交換共享平臺的前置服務(wù)設(shè)備進(jìn)行存儲,待接入單位或主題應(yīng)用單位進(jìn)行采集。消息

48、通知服務(wù)用戶請求交換的數(shù)據(jù)完成采集后,系統(tǒng)通知相關(guān)用戶, 告知用戶數(shù)據(jù)已完成采集,由用戶自行到數(shù)據(jù)交換共享平臺的前置服務(wù)設(shè)備進(jìn)行下載。API 數(shù)據(jù)交換服務(wù)用戶通過門戶檢索、查詢目錄系統(tǒng)等相關(guān)數(shù)據(jù)時(shí),由系統(tǒng)自動(dòng)調(diào)用API 服務(wù),根據(jù)數(shù)據(jù)量、計(jì)算規(guī)模的大小,實(shí)時(shí)或非實(shí)時(shí)地將數(shù)據(jù)推送給門戶界面。數(shù)據(jù)共享)共享服務(wù)提供圖 5-49 共享服務(wù)數(shù)據(jù)共享基于數(shù)據(jù)虛擬化過程實(shí)現(xiàn)。數(shù)據(jù)虛擬化管理包括數(shù)據(jù)發(fā)現(xiàn)和注冊, 數(shù)據(jù)目錄,共享管理及租戶管理。)數(shù)據(jù)注冊平臺在復(fù)雜數(shù)據(jù)環(huán)境中定位多個(gè)數(shù)據(jù)孤島中的相關(guān)實(shí)體,自動(dòng)完成數(shù)據(jù)匹配工作,發(fā)現(xiàn)可用數(shù)據(jù) ,建立隱藏關(guān)系,并注冊在數(shù)據(jù)虛擬化平臺,形成邏輯上的數(shù)據(jù)倉庫。)數(shù)據(jù)目錄

49、針對平臺發(fā)布的可共享數(shù)據(jù)接口, 將數(shù)據(jù)接口最終封裝成一個(gè)一個(gè)的服務(wù)包對外發(fā)布,并進(jìn)行分類整理。以數(shù)據(jù)目錄形式,提供在線服務(wù)查詢索引、服務(wù)展示及數(shù)據(jù)調(diào)用功能。)共享服務(wù)查詢服務(wù)對上層業(yè)務(wù)提供靈活的數(shù)據(jù)查詢,屏蔽下層不同存儲處理方式的查詢。通過統(tǒng)一的接口讓使用者和物理數(shù)據(jù)源隔離了開來。使不同的數(shù)據(jù)結(jié)構(gòu)或異構(gòu)的數(shù)據(jù)存儲,都不會對使用者產(chǎn)生不利影響。半/非結(jié)構(gòu)化數(shù)據(jù)查詢:使用OpenApi 的形式,通過 HTTP 協(xié)議來查詢小批量數(shù)據(jù), 系統(tǒng)提供高穩(wěn)定性與低延遲的性能保證。適用與指標(biāo)庫、 標(biāo)簽庫等類應(yīng)用的數(shù)據(jù)訪問。結(jié)構(gòu)化數(shù)據(jù)查詢:使用各種復(fù)雜的SQL 中聚合分組語法來獲取數(shù)據(jù),導(dǎo)出XML 、JSON

50、等格式數(shù)據(jù),適用于稍大數(shù)據(jù)量的即時(shí)分析類查詢需求。以下為數(shù)據(jù)查詢的典型業(yè)務(wù)場景示例:指標(biāo)類API使用同步 HTTP 協(xié)議來查詢單個(gè)指標(biāo)數(shù)據(jù), 該類接口要求系統(tǒng)提供高穩(wěn)定性及低延遲的性能保證。 實(shí)體數(shù)據(jù)由云平臺完成運(yùn)算后分發(fā)到關(guān)系數(shù)據(jù)庫中。查詢返回的數(shù)據(jù)為對象數(shù)據(jù)結(jié)構(gòu)。資料服務(wù)對上層應(yīng)用提供幫助文檔信息,主要包含數(shù)據(jù)模型: 把元數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)表、 模型定義信息通過接口開放給業(yè)務(wù)使用者,可以查詢出來表定義相關(guān)的數(shù)據(jù)處理流程指標(biāo)口徑:開放指標(biāo)的口徑信息,清晰的表達(dá)出來指標(biāo)代表的含義API 文檔: API 列表,可以在線查詢API 的參數(shù),幫助信息,并提供在線測試用戶界面。文件接口服務(wù)支持在內(nèi)外部系

51、統(tǒng)的不同存儲間(如Hadoop、DB2 等),進(jìn)行數(shù)據(jù)的交換、同步、分發(fā)。交換可以通過接口文件、JDBC 等多種方式。針對大批量數(shù)據(jù)的交互,應(yīng)通過調(diào)用底層事件服務(wù)與分發(fā)服務(wù),提交一個(gè)異步分發(fā)請求, 如輸入分發(fā)腳本、分發(fā)目錄包裝成消息, 提交到事件服務(wù), 數(shù)據(jù)導(dǎo)出完成后分發(fā)到相應(yīng)的主機(jī)目錄。數(shù)據(jù)權(quán)限管理主要面向平臺使用者和數(shù)據(jù)資源管理人員,提供信息資源查詢和展現(xiàn)能力, 以及相應(yīng)的信息資源權(quán)限管控。平臺使用者快速目錄檢索:通過數(shù)據(jù)資源目錄,由平臺實(shí)現(xiàn)數(shù)據(jù)快速檢索功能;權(quán)限快速申請: 提供權(quán)限申請調(diào)用接口, 用戶在圖列表中點(diǎn)擊申請權(quán)限,完成申請信息提交,由管理員進(jìn)行審批。權(quán)限管控對內(nèi)數(shù)據(jù)權(quán)限管控,

52、驗(yàn)證內(nèi)部用戶是否有能夠訪問當(dāng)前數(shù)據(jù)的權(quán)限。在具備權(quán)限條件下,才允許調(diào)用共享服務(wù)。提供待審批列表數(shù)據(jù)資源管理員通過待審批列表快速瀏覽到待審批的權(quán)限申請, 包括申請時(shí)間、申請人帳號、表資產(chǎn)名稱、所屬庫、所屬表空間、權(quán)限狀態(tài)(待審批 /已審批)、用途說明等,并能夠支持根據(jù)關(guān)鍵選項(xiàng)快速檢索;提供已審批列表查看已審批的數(shù)據(jù)權(quán)限列表; 提供權(quán)限審批支持打開申請記錄,審批申請人的數(shù)據(jù)權(quán)限,完成授權(quán); 提供歷史審批查詢根據(jù)時(shí)間范圍、表資產(chǎn)、所屬庫等關(guān)鍵條件查詢歷史權(quán)限審批列表。)租戶管理共享服務(wù)調(diào)用通過多租戶形式進(jìn)行管理。多租戶是將數(shù)據(jù)查詢、 數(shù)據(jù)處理和數(shù)據(jù)調(diào)用能力按需、可控的進(jìn)行開放, 在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下, 通過租戶的方式實(shí)現(xiàn)用戶及用戶組管理, 以達(dá)到資源管控及數(shù)據(jù)權(quán)限控制的目的。多租戶注冊, 由管理員創(chuàng)建并維護(hù), 每個(gè)租戶都被分配一定的計(jì)算資源和存儲資源, 可以根據(jù)應(yīng)用情況動(dòng)態(tài)的調(diào)整。使用開發(fā)平臺的賬號, 用戶與租戶的關(guān)系是多對一,同一個(gè)應(yīng)用開發(fā)廠商或是數(shù)據(jù)開發(fā)部門的用戶都屬于同一個(gè)租戶, 使用租戶對應(yīng)的計(jì)算資源和存儲資源。資源分配,對租戶的計(jì)算資源和存儲資源進(jìn)行分配。計(jì)算資源計(jì)算資源的分配主要是依據(jù)CPU 虛擬核數(shù)和內(nèi)存量。每個(gè)租戶分配一定的計(jì)算資源,此資源為租戶的獨(dú)占資源, 在租戶內(nèi)部各任務(wù)根據(jù)優(yōu)先級搶占資源。獨(dú)占資源耗盡

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論