2022年智慧電商大數(shù)據(jù)分析平臺建設(shè)方案-電商企業(yè)大數(shù)據(jù)分析平臺建設(shè)方案完整版_第1頁
2022年智慧電商大數(shù)據(jù)分析平臺建設(shè)方案-電商企業(yè)大數(shù)據(jù)分析平臺建設(shè)方案完整版_第2頁
2022年智慧電商大數(shù)據(jù)分析平臺建設(shè)方案-電商企業(yè)大數(shù)據(jù)分析平臺建設(shè)方案完整版_第3頁
2022年智慧電商大數(shù)據(jù)分析平臺建設(shè)方案-電商企業(yè)大數(shù)據(jù)分析平臺建設(shè)方案完整版_第4頁
2022年智慧電商大數(shù)據(jù)分析平臺建設(shè)方案-電商企業(yè)大數(shù)據(jù)分析平臺建設(shè)方案完整版_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

智慧電商大數(shù)據(jù)分析平臺建設(shè)方案大數(shù)據(jù)云平臺Contents目錄1.電商大數(shù)據(jù)平臺綜述2.電商大數(shù)據(jù)分析平臺總體架構(gòu)3.電商大數(shù)據(jù)分析平臺演進(jìn)路線4.電商大數(shù)據(jù)分析平臺實施重點5.數(shù)據(jù)質(zhì)量管理平臺Part1電商大數(shù)據(jù)平臺綜述電商集團企業(yè)管理分析類應(yīng)用建設(shè)現(xiàn)狀基本分析基本的現(xiàn)狀存在的問題關(guān)注的內(nèi)容

信用已建立面向整個零售業(yè)務(wù)的數(shù)據(jù)倉庫,整合了前臺業(yè)務(wù)運營數(shù)據(jù)和后臺管理數(shù)據(jù),建立了面向零售的管理分析應(yīng)用;電商集團企業(yè)已開展供應(yīng)鏈金融、人人貸和保理等多種業(yè)務(wù),積累了一定量的業(yè)務(wù)數(shù)據(jù),同時業(yè)務(wù)人員也從客戶管理、風(fēng)險評級和經(jīng)營規(guī)模預(yù)測等方面,提出了大量分析預(yù)測需求;……

信用數(shù)據(jù)倉庫累積數(shù)據(jù)沒有充分利用

數(shù)據(jù)平臺整體架構(gòu);數(shù)據(jù)平臺各層建設(shè)的標(biāo)準(zhǔn);較成熟的金融業(yè)數(shù)據(jù)模型;數(shù)據(jù)質(zhì)量治理;元數(shù)據(jù)管理;數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)數(shù)據(jù)整合;數(shù)據(jù)應(yīng)用建設(shè);數(shù)據(jù)平臺的軟硬環(huán)境……

缺乏面向整個電商集團企業(yè)的統(tǒng)一、完整的數(shù)據(jù)視圖;缺乏支撐電商集團企業(yè)日常業(yè)務(wù)運轉(zhuǎn)的風(fēng)險評估體系;缺乏電商集團企業(yè)客戶360度視圖,客戶行為分析和預(yù)測無法實現(xiàn);缺乏面向金融業(yè)務(wù)運營管理的關(guān)鍵績效指標(biāo)體系;……

數(shù)據(jù)平臺、數(shù)據(jù)應(yīng)用、數(shù)據(jù)管控……基礎(chǔ)數(shù)據(jù)平臺和BI應(yīng)用建設(shè)是未來一段時間的重點!Page4大數(shù)據(jù)分析平臺建設(shè)目標(biāo)通過數(shù)據(jù)平臺和BI應(yīng)用建設(shè),電商集團企業(yè)將搭建統(tǒng)一的大數(shù)據(jù)共享和分析平臺,對各類業(yè)務(wù)進(jìn)行前瞻性預(yù)測及分析,為集團各層次用戶提供統(tǒng)一的決策分析支持,提升數(shù)據(jù)共享與流轉(zhuǎn)能力統(tǒng)一制定目標(biāo)和自定義報表工具多種格式報表BI分析工具600%500%400%300%200%100%0%分析模型行+列的簡單定義方式2004年2005年2006年2007年2008年鐵礦石焦煤云數(shù)據(jù)推送平臺已實現(xiàn)了主要零售及金融業(yè)務(wù)系統(tǒng)數(shù)據(jù)清洗、整合,為未來電商集團企業(yè)數(shù)據(jù)平臺提供了豐富的數(shù)統(tǒng)一定義BI應(yīng)用集團決策層統(tǒng)一規(guī)劃分析方法統(tǒng)一劃分分析主題據(jù)源。統(tǒng)一設(shè)計數(shù)據(jù)模式統(tǒng)一部署技術(shù)基礎(chǔ)集團職能管控層供應(yīng)鏈金融系統(tǒng)外部非結(jié)構(gòu)化數(shù)據(jù)POP系統(tǒng)采購管理系統(tǒng)其他業(yè)務(wù)系統(tǒng)各級業(yè)務(wù)操作層Page5關(guān)注集團主要經(jīng)營指標(biāo)查看職能部門的業(yè)務(wù)經(jīng)營情業(yè)務(wù)人員使用實現(xiàn)業(yè)務(wù)協(xié)作和創(chuàng)新應(yīng)用大數(shù)據(jù)分析平臺建設(shè)預(yù)期收益1.實現(xiàn)數(shù)據(jù)共享通過數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)集中,確保電商集團企業(yè)各級部門均可在保證數(shù)據(jù)隱私和安全的前提下使用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)作為企業(yè)重要資產(chǎn)的業(yè)務(wù)價值實現(xiàn)分散在供應(yīng)鏈金融、人人貸、保理等各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)在數(shù)據(jù)平臺中的集2.加強業(yè)務(wù)協(xié)作中和整合,建立單一的產(chǎn)品、客戶等數(shù)據(jù)的企業(yè)級視圖,有效促進(jìn)業(yè)務(wù)的集成和協(xié)作,并為企業(yè)級分析、交叉銷售提供基礎(chǔ)3.促進(jìn)業(yè)務(wù)創(chuàng)新電商集團企業(yè)業(yè)務(wù)人員可以基于明細(xì)、可信的數(shù)據(jù),進(jìn)行多維分析和數(shù)據(jù)挖掘,為金融業(yè)務(wù)創(chuàng)新(客戶服務(wù)創(chuàng)新、產(chǎn)品創(chuàng)新等)創(chuàng)造了有利條件通過數(shù)據(jù)平臺對數(shù)據(jù)進(jìn)行集中,為管理分析、挖掘預(yù)測類等系統(tǒng)提供一致的數(shù)據(jù)基4.提升建設(shè)效率礎(chǔ),改變現(xiàn)有系統(tǒng)數(shù)據(jù)來源多、數(shù)據(jù)處理復(fù)雜的現(xiàn)狀,實現(xiàn)應(yīng)用系統(tǒng)建設(shè)模式的轉(zhuǎn)變,提升相關(guān)IT系統(tǒng)的建設(shè)和運行效率5.改善數(shù)據(jù)質(zhì)量從中長期看,數(shù)據(jù)倉庫對電商集團企業(yè)分散在各個業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)整合、清洗,有助于企業(yè)整體數(shù)據(jù)質(zhì)量的改善,提高的數(shù)據(jù)的實用性Page6Part2電商大數(shù)據(jù)分析平臺總體架構(gòu)電商大數(shù)據(jù)分析平臺總體架構(gòu)數(shù)據(jù)管控平臺IT人員內(nèi)部用戶外部用戶用戶訪問層流程調(diào)度平臺實時數(shù)歷史數(shù)據(jù)查詢內(nèi)部管理分析業(yè)務(wù)沙盤演練數(shù)據(jù)增值產(chǎn)品數(shù)據(jù)應(yīng)用數(shù)據(jù)標(biāo)準(zhǔn)據(jù)查詢層流程調(diào)度應(yīng)用集市數(shù)據(jù)區(qū)增值產(chǎn)客戶管理財務(wù)管理風(fēng)險管理……沙盤演練數(shù)據(jù)區(qū)品數(shù)據(jù)區(qū)數(shù)據(jù)質(zhì)量流程調(diào)度層歷史歸檔據(jù)數(shù)區(qū)大數(shù)據(jù)區(qū)數(shù)據(jù)管控層實時數(shù)區(qū)據(jù)客戶匯總敗戶匯總機構(gòu)匯總……主題數(shù)據(jù)區(qū)數(shù)據(jù)計算監(jiān)告控警待社交媒體理處用戶評價大移動互聯(lián)數(shù)據(jù)訪問日志處理后大數(shù)據(jù)客戶主題協(xié)議主題產(chǎn)品主題……層元數(shù)據(jù)零售數(shù)據(jù)供應(yīng)鏈數(shù)據(jù)…………貼源數(shù)據(jù)區(qū)大數(shù)據(jù)交換組件數(shù)據(jù)庫數(shù)據(jù)交換組件數(shù)據(jù)區(qū)數(shù)據(jù)交換組件數(shù)據(jù)交換數(shù)據(jù)安全數(shù)據(jù)交換平臺層數(shù)據(jù)Page產(chǎn)生8企業(yè)內(nèi)外部半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)信用零售供應(yīng)鏈金融人人貸系統(tǒng)基金系統(tǒng)……系統(tǒng)層電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)產(chǎn)生層源數(shù)據(jù)內(nèi)容

內(nèi)部業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)

信用日常零售業(yè)務(wù)處理過程中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),存儲在關(guān)系型數(shù)據(jù)庫中,如:供應(yīng)商信息、采購信息、商品信息、銷售流水……

電商集團企業(yè)日常業(yè)務(wù)處理過程中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),存儲在關(guān)系型數(shù)據(jù)庫中,如:客戶信息、賬戶信息、金融產(chǎn)品信息、交易流水……企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)

日常業(yè)務(wù)處理過程中產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),存儲形式多樣,主要包括用戶訪問日志、用戶投訴、用戶點評……企業(yè)外部數(shù)據(jù)

企業(yè)外部數(shù)據(jù)以非結(jié)構(gòu)化為主,主要包括國家政策法規(guī)、論壇等互聯(lián)網(wǎng)信息、地理位置等移動信息、微博等社交媒體信息……源數(shù)據(jù)增量

在本次項目實施中將采用以增量為主、全量為輔結(jié)合的方式獲取源數(shù)據(jù)信用和電商集團企業(yè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)

增量數(shù)據(jù)識別、獲取由云數(shù)據(jù)推送平臺負(fù)責(zé),云數(shù)據(jù)推送平臺采用分析、對比源系統(tǒng)日志方式實現(xiàn)

對于無法通過上述方式獲取增量的源系統(tǒng)數(shù)據(jù),則采用某一個時間范圍內(nèi)的全部數(shù)據(jù)作為增量

初始數(shù)據(jù)加載均采用全量模式Page9電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)交換層傳輸組件是根據(jù)數(shù)據(jù)源存儲的不同分類而設(shè)計的,本質(zhì)是通過分析數(shù)據(jù)存儲結(jié)構(gòu)和數(shù)據(jù)存儲庫的特點來針對性的設(shè)計工具,以追求卓越的性能數(shù)據(jù)交換層設(shè)計目標(biāo)數(shù)據(jù)服務(wù)層保證數(shù)據(jù)在平臺內(nèi)高速流轉(zhuǎn)數(shù)據(jù)區(qū)數(shù)據(jù)數(shù)據(jù)庫數(shù)據(jù)大數(shù)據(jù)交換交換組件交換組件組件保證數(shù)據(jù)交換過程中不失真NAS存儲Hadoo數(shù)據(jù)平臺導(dǎo)入數(shù)據(jù)平臺導(dǎo)出ETLp元數(shù)臨時區(qū)臨時區(qū)程序保證數(shù)據(jù)交換過程中不丟失據(jù)區(qū)云數(shù)據(jù)推送平臺外部大數(shù)據(jù)保證數(shù)據(jù)交換過程安全可靠信用系統(tǒng)電商集團企業(yè)系統(tǒng)Page10(Hadoop集群)(Hadoop集群)(X86MPP集匯總層采用了逆范式寬表設(shè)計,某種程度上數(shù)據(jù)平臺臨時區(qū)Hive標(biāo)準(zhǔn)維護請求接收數(shù)據(jù)參與討論參與討論參與討論參與討論參與討論用戶通過B/S方式登錄平臺執(zhí)行配置管理務(wù)指標(biāo)、業(yè)務(wù)定義等,制定相應(yīng)的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)大數(shù)據(jù)分析平臺演進(jìn)說明——數(shù)據(jù)管控用使者產(chǎn)生者理者據(jù)據(jù)據(jù)數(shù)數(shù)數(shù)applications11財務(wù)研發(fā)、大物流、供應(yīng)鏈、大數(shù)據(jù)分析平臺建設(shè)目標(biāo)理流程中,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的更新、發(fā)布、使用監(jiān)督等工作。金融數(shù)據(jù)管控體系涵蓋組織架構(gòu)、評價與考核、管控流程、管控平臺四個域。一致性檢查:通過對兩個指標(biāo)按某幾個維度展開后的增減幅度來發(fā)現(xiàn)數(shù)據(jù)的波動、變化情況階段劃分建設(shè)內(nèi)容預(yù)期效果電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)交換層NAS存儲Hadoop集群元存儲數(shù)據(jù)平臺各個Hadoop集群的元數(shù)據(jù)信息,如:HDFS文件數(shù)據(jù)區(qū)系統(tǒng)元數(shù)據(jù)集團數(shù)據(jù)交換平臺每日獲取運輸局推送平臺提供的業(yè)務(wù)系統(tǒng)變化數(shù)據(jù),暫存在NAS臨時數(shù)據(jù)區(qū)金融數(shù)據(jù)平臺加工計算結(jié)果返回給業(yè)務(wù)系統(tǒng),暫存在NAS臨時數(shù)據(jù)區(qū)數(shù)據(jù)平臺臨時數(shù)據(jù)區(qū)數(shù)據(jù)平臺ETL數(shù)數(shù)據(jù)平臺ETL加工處理程序(數(shù)據(jù)壓縮、數(shù)據(jù)加載、各數(shù)據(jù)數(shù)據(jù)處理等)統(tǒng)一存儲在NAS集群指定目錄,各接口服務(wù)器通過文件系統(tǒng)Link建立映射據(jù)處理程序區(qū)Page11電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)交換層大數(shù)據(jù)交換組件處理對象實現(xiàn)功能實現(xiàn)技術(shù)應(yīng)用場景

企業(yè)內(nèi)部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如:音頻、視頻、郵件、Office文檔、抵押品掃描件等企業(yè)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),如:微博、貼吧、論壇、用戶點擊流、用戶移動位置等

組件以實時和批量兩種模式實現(xiàn)下列功能:

批量采集:大數(shù)據(jù)源以SFTP協(xié)議批量傳輸數(shù)據(jù)文件在線訪問:開發(fā)Java或C應(yīng)用,調(diào)用大據(jù)源API,或以網(wǎng)絡(luò)平臺爬蟲方式抓取源系統(tǒng)非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)

定時抽取用戶訪問日志,加載到數(shù)據(jù)平臺大數(shù)據(jù)區(qū)HDFS指定目錄,MR程序加工處理開發(fā)網(wǎng)絡(luò)爬蟲程序,掃描用戶微博,抓取用戶微博內(nèi)容,社交圈信息,存入大數(shù)據(jù)區(qū)

數(shù)據(jù)采集

數(shù)據(jù)傳輸?shù)綌?shù)據(jù)交

換平臺(接口服務(wù)器)NAS指定目錄

存儲數(shù)據(jù)到數(shù)據(jù)平臺大數(shù)據(jù)區(qū)指定HDFS目錄Page12電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)庫數(shù)據(jù)交換組件處理對象實現(xiàn)功能實現(xiàn)技術(shù)應(yīng)用場景

企業(yè)內(nèi)部業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),包括兩大來源:

組件以實時和批量模式實現(xiàn)下列功能:

Perl程序

云數(shù)據(jù)推送平臺連接供應(yīng)鏈金融系統(tǒng)數(shù)據(jù)庫,分析供應(yīng)鏈金融MySQL數(shù)據(jù)庫日志,識別增量數(shù)據(jù),存儲到金融平臺NAS存儲的指定目錄,金融平臺加載數(shù)據(jù)文件到數(shù)據(jù)平臺臨時區(qū)Hive表

數(shù)據(jù)采集,調(diào)用

數(shù)據(jù)采集,輪詢NASPerl文件模塊相關(guān)函數(shù),輪詢指定目錄,獲取數(shù)據(jù)文件

信用零售業(yè)務(wù)數(shù)據(jù),集群指定目錄,獲取數(shù)據(jù)文件(LZO壓縮)數(shù)據(jù)存儲在Oracle、SQLServer、MySQL和MongoDB四類數(shù)據(jù)庫

數(shù)據(jù)核查,Perl執(zhí)

數(shù)據(jù)核查,對數(shù)據(jù)文行文件級數(shù)據(jù)質(zhì)量檢查件進(jìn)行質(zhì)量校驗

電商集團企業(yè)互聯(lián)網(wǎng)金融業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)

數(shù)據(jù)加載,加載數(shù)據(jù)

數(shù)據(jù)加載,調(diào)用到臨時數(shù)據(jù)區(qū)HiveLoad數(shù)據(jù)命令,加載到數(shù)據(jù)平臺臨時數(shù)據(jù)區(qū)的HiveTable存儲在MySQL數(shù)據(jù)庫Page13電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)交換層數(shù)據(jù)區(qū)數(shù)據(jù)交換組件處理對象實現(xiàn)功能實現(xiàn)技術(shù)應(yīng)用場景

數(shù)據(jù)平臺計算層各數(shù)據(jù)區(qū)

組件以批量方式實現(xiàn)下列數(shù)據(jù)交換功能:

Sqoop實現(xiàn)集市數(shù)據(jù)區(qū)與數(shù)據(jù)平臺其他Hadoop數(shù)據(jù)區(qū)的數(shù)據(jù)交換Hadoop命令、Hive外部表、MR程序?qū)崿F(xiàn)數(shù)據(jù)平臺Hadoop數(shù)據(jù)區(qū)間的數(shù)據(jù)交換

數(shù)據(jù)集市的數(shù)據(jù)按照據(jù)生命周期規(guī)劃,統(tǒng)一將過期數(shù)據(jù)歸檔到歷史數(shù)據(jù)歸檔區(qū)

貼源數(shù)據(jù)區(qū)

主題數(shù)據(jù)區(qū)

貼源數(shù)據(jù)區(qū)和主題數(shù)

集市數(shù)據(jù)區(qū)據(jù)區(qū)到集市數(shù)據(jù)區(qū)

沙盤數(shù)據(jù)區(qū)

大數(shù)據(jù)區(qū)到主題數(shù)據(jù)

大數(shù)據(jù)區(qū)區(qū)和集市數(shù)據(jù)區(qū)

歸檔數(shù)據(jù)區(qū)

主題數(shù)據(jù)區(qū)、貼源數(shù)據(jù)區(qū)、集市數(shù)據(jù)區(qū)到沙盤數(shù)據(jù)區(qū)

各個數(shù)據(jù)區(qū)數(shù)據(jù)歸檔Page14電商大數(shù)據(jù)分析平臺總體架構(gòu)——流程調(diào)度層批量處理流程

批量數(shù)據(jù)處理由流程調(diào)度層部署的自定義開發(fā)WorkFlow組件調(diào)度運行整個流程主要完成如下工作:

獲取業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù),存1.入臨時數(shù)據(jù)區(qū)2.獲取企業(yè)內(nèi)外部非結(jié)構(gòu)化數(shù)據(jù),并進(jìn)行結(jié)構(gòu)化處理,存入主題或集市數(shù)據(jù)區(qū)3.按照貼源數(shù)據(jù)模型整合數(shù)據(jù)(標(biāo)準(zhǔn)化、數(shù)據(jù)更新/追加)4.按照主題數(shù)據(jù)模型整合數(shù)據(jù)并生成匯總5.數(shù)據(jù)加工計算后,結(jié)果交付到數(shù)據(jù)集市,支持分析類應(yīng)用Page15電商大數(shù)據(jù)分析平臺總體架構(gòu)——流程調(diào)度層實時數(shù)據(jù)處理流程

實時數(shù)據(jù)處理強調(diào)的是實時或準(zhǔn)實時獲取并處理數(shù)據(jù),通常采取消息隊列等技術(shù)構(gòu)建“數(shù)據(jù)流”整個處理流程由流程調(diào)度層部署的自定義開發(fā)WorkFlow組件調(diào)度運行整個流程主要完成如下工作:

1.通過數(shù)據(jù)庫數(shù)據(jù)交換組件獲取增量數(shù)據(jù),加載到實時數(shù)據(jù)區(qū)2.通過大數(shù)據(jù)交換組件獲取非結(jié)構(gòu)化數(shù)據(jù),并利用Storm處理數(shù)據(jù),加載到實時數(shù)據(jù)區(qū)針對實時數(shù)據(jù)區(qū)數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化3.處理和貼源整合Page16電商大數(shù)據(jù)分析平臺總體架構(gòu)——流程調(diào)度層歸檔數(shù)據(jù)處理流程

數(shù)據(jù)歸檔的對象包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)文件、貼源數(shù)據(jù)區(qū)數(shù)據(jù)、主題數(shù)據(jù)區(qū)數(shù)據(jù)、大數(shù)據(jù)區(qū)數(shù)據(jù)和集市數(shù)據(jù)區(qū)數(shù)據(jù)數(shù)據(jù)按照生命周期規(guī)劃存儲到歸檔區(qū)Hadoop集群,歸檔后原數(shù)據(jù)區(qū)刪除此數(shù)據(jù)整個處理流程由流程調(diào)度層部署的自定義開發(fā)WorkFlow組件調(diào)度運行整個流程主要完成如下工作:

1.數(shù)據(jù)文件通過HDFS命令行copyfromlocal進(jìn)行歸檔2.貼源、主題和大數(shù)據(jù)區(qū)通過HDFS命令行distcp或自定義開發(fā)的MR程序執(zhí)行歸檔3.集市數(shù)據(jù)區(qū)通過Sqoop或數(shù)據(jù)庫提供的Hadoop集成技術(shù)(如:外部表)執(zhí)行歸檔Page17電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)存儲層臨時數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)數(shù)據(jù)內(nèi)容主要用途

業(yè)務(wù)系統(tǒng)前日增量數(shù)據(jù)緩存數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理

貼源數(shù)據(jù)模型保存最近7天數(shù)據(jù)

業(yè)務(wù)系統(tǒng)前日快照數(shù)據(jù)和一段時間的流水?dāng)?shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化,為后續(xù)主題模型、集市和沙盤演練提供數(shù)據(jù)數(shù)據(jù)模型保留周期

貼源數(shù)據(jù)模型不保存歷史訪問模式用戶

貼源數(shù)據(jù)區(qū)和主題數(shù)據(jù)區(qū)批量作業(yè)訪問無最終用戶訪問

I/O少量量數(shù)據(jù)使用敏感,連續(xù)小批量的數(shù)據(jù)抽取和加載Hive的Load命令,大量數(shù)據(jù)使用MR程序

與主題區(qū)/貼源區(qū)/集市區(qū)構(gòu)成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機

主題數(shù)據(jù)區(qū)、集市數(shù)據(jù)區(qū)和沙盤演練數(shù)據(jù)區(qū)批量作業(yè)訪問無最終用戶訪問

I/O以ELT敏感,日終批量形式通過HiveSQLETL執(zhí)行工作負(fù)載平臺要求

與主題區(qū)無單點故障,/貼源區(qū)7×/24集市區(qū)構(gòu)成一個小時+非工作日有限停機Hadoop集群(Hive)Page18電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))大數(shù)據(jù)區(qū)歷史歸檔數(shù)據(jù)區(qū)數(shù)據(jù)內(nèi)容主要用途

企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)

采集并存儲數(shù)據(jù),進(jìn)行結(jié)構(gòu)化處理,最終得到結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)按照HDFS文件存儲建議保留1年

其他各數(shù)據(jù)區(qū)歷史數(shù)據(jù)

按數(shù)據(jù)生命周期規(guī)劃歸檔平臺過期數(shù)據(jù),支撐歷史數(shù)據(jù)查詢

數(shù)據(jù)按照HDFS文件存儲數(shù)據(jù)文件按照數(shù)據(jù)區(qū)劃分目錄,建議保留7年數(shù)據(jù)模型保留周期訪問模式用戶

集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/主題區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務(wù)人員進(jìn)行大數(shù)據(jù)分析

集市區(qū)/沙盤區(qū)/業(yè)務(wù)人員執(zhí)行歷史數(shù)據(jù)查詢增值產(chǎn)品區(qū)/主題區(qū)/高時效區(qū)批量作業(yè)訪問

MapReduce分布式計算,HDFS命令實現(xiàn)Hadoop集群內(nèi)歸檔,Sqoop實現(xiàn)數(shù)據(jù)庫歸檔,通過Hive提供歷史查詢工作負(fù)載

MapReduce分布式計算,半/非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理(包括文本檢索、語義分詞、圖像識別、音頻識別等)

無單點故障,與主題區(qū)/貼源區(qū)構(gòu)成一個Hadoop集群(HDFS)7×24小時+非工作日有限停機平臺要求

獨立的無單點故障,Hadoop7×24小時+非工作日有限停機集群(HDFS+Hive)Page19電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))主題數(shù)據(jù)區(qū)—明細(xì)主題數(shù)據(jù)區(qū)—匯總數(shù)據(jù)內(nèi)容主要用途

業(yè)務(wù)系統(tǒng)歷史明細(xì)數(shù)據(jù)打破業(yè)務(wù)條線整合數(shù)據(jù)

對主題數(shù)據(jù)預(yù)加工后的結(jié)果數(shù)據(jù)針對應(yīng)用需求進(jìn)行數(shù)據(jù)預(yù)連接、預(yù)匯總,為集市提供數(shù)據(jù)數(shù)據(jù)模型保留周期

第三范式模型保留長期歷史,需要根據(jù)主題細(xì)化

逆范式寬表依賴于集市數(shù)據(jù)需求訪問模式用戶

主題區(qū)/集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務(wù)人員進(jìn)行靈活查詢、挖掘預(yù)測

以ELT形式通過HiveSQL執(zhí)行,復(fù)雜處理使用MR定制I/O敏感,日終批量ETL(合并、拉鏈、關(guān)聯(lián)、匯總等等)

與大數(shù)據(jù)區(qū)UDF/貼源區(qū)構(gòu)成一個Hadoop集群(Hive)

無單點故障,7×24小時+非工作日有限停機

少量高級業(yè)務(wù)人員進(jìn)行靈活查詢、挖掘預(yù)測集市區(qū)/沙盤區(qū)/增值產(chǎn)品區(qū)/歸檔區(qū)批量作業(yè)訪問

以I/OELT敏感,日終批量形式通過HiveSQLETL(連接、聚合、匯總等等)執(zhí)行,復(fù)雜處理使用MR定制UDF工作負(fù)載

與大數(shù)據(jù)區(qū)/貼源區(qū)構(gòu)成一個Hadoop集群(Hive)

無單點故障,7×24小時+非工作日有限停機可用性要求Page20電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))沙盤演練數(shù)據(jù)區(qū)應(yīng)用集市數(shù)據(jù)區(qū)數(shù)據(jù)內(nèi)容主要用途

按沙盤演練需求,準(zhǔn)備的明細(xì)或匯總業(yè)務(wù)數(shù)據(jù)為數(shù)據(jù)科學(xué)家的挖掘預(yù)測操作提供數(shù)據(jù)服務(wù)

面向企業(yè)內(nèi)部管理分析類應(yīng)用需求的匯總數(shù)據(jù)為客戶、運營等管理分析主題和數(shù)據(jù)增值產(chǎn)品提供數(shù)據(jù)服務(wù)數(shù)據(jù)模型保留周期

模型依賴于沙盤演練需求在整個沙盤演練周期內(nèi)保留

維度數(shù)據(jù)模型依賴業(yè)務(wù)需求訪問模式用戶

集市區(qū)/沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問少量高級業(yè)務(wù)人員進(jìn)行靈活查詢、挖掘預(yù)測

I/O敏感,終批量ETL(合并、拉鏈、關(guān)聯(lián)、匯總等等)以ELT形式通過HiveSQL執(zhí)行,復(fù)雜處理使用MR定制

UDF獨立的Hadoop集群(HDFS)

無單點故障,7×24小時+非工作日有限停機

沙盤區(qū)/歸檔區(qū)批量作業(yè)訪問決策人員、管理人員、業(yè)務(wù)人員訪問

I/O敏感型,BI工具提交的報表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式通過SQL執(zhí)行工作負(fù)載

)基于開放平臺的完全無共享MPP數(shù)據(jù)庫集群+內(nèi)存數(shù)據(jù)庫

無單點故障,7×24小時+非工作日有限停機可用性要求Page21電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)存儲層(續(xù))增值產(chǎn)品數(shù)據(jù)區(qū)實時數(shù)據(jù)區(qū)數(shù)據(jù)內(nèi)容主要用途

根據(jù)外部用戶的數(shù)據(jù)使用需求數(shù)據(jù)平臺加工計算的結(jié)果數(shù)據(jù)

為部署在數(shù)據(jù)平臺上的企業(yè)內(nèi)外部增值產(chǎn)品提供數(shù)據(jù)支持應(yīng)用模型,依賴于用戶業(yè)務(wù)需求

依賴于用戶業(yè)務(wù)需求

面向應(yīng)用的業(yè)務(wù)系統(tǒng)快照數(shù)據(jù)和一段時間的交易流水為實時獲準(zhǔn)實時分析應(yīng)用提供數(shù)據(jù)服務(wù)數(shù)據(jù)模型保留周期

貼源數(shù)據(jù)模型

依賴用戶業(yè)務(wù)需求訪問模式用戶

企業(yè)外部人員,如:京東客戶通過自己部署在Paas平臺上的應(yīng)用訪問

終批量I/O敏感型,ETL(匯總、聚集等操作,以BI工具提交的報表、查詢、分析ELT形式通過SQLSQL命令和日執(zhí)行

)獨立的Paas平臺,部署Hadoop集群

無單點故障,7×24小時+非工作日有限停機

企業(yè)業(yè)務(wù)人員高時效、高并發(fā)、高可靠性的聯(lián)機交易類查詢

實時連續(xù)ETL處理+SQL批量處理CPU敏感,BI工具或業(yè)務(wù)系統(tǒng)高并發(fā)、高時效查詢,以及準(zhǔn)工作負(fù)載

獨立的內(nèi)存數(shù)據(jù)庫集群

無單點故障,365×24小時不停機可用性要求Page22電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)存儲層數(shù)據(jù)流數(shù)據(jù)集成層歸檔數(shù)據(jù)區(qū)實時數(shù)據(jù)區(qū)操作型聚合數(shù)據(jù)操作型明細(xì)據(jù)源系統(tǒng)數(shù)據(jù)文件增值產(chǎn)品數(shù)據(jù)區(qū)主題數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)貼源數(shù)據(jù)集市數(shù)據(jù)區(qū)公共匯總數(shù)據(jù)主題明細(xì)數(shù)據(jù)POP自營數(shù)據(jù)臨時數(shù)據(jù)區(qū)客戶管理集市財務(wù)管理集市運營管理集市風(fēng)險管理集市大物流系統(tǒng)數(shù)據(jù)供應(yīng)鏈系統(tǒng)數(shù)據(jù)主題數(shù)據(jù)財務(wù)審計數(shù)據(jù)財務(wù)研發(fā)數(shù)據(jù)金融業(yè)務(wù)數(shù)據(jù)集市數(shù)據(jù)……集市高時效數(shù)據(jù)沙盤演練數(shù)據(jù)區(qū)實驗室數(shù)據(jù)大數(shù)據(jù)大數(shù)據(jù)區(qū)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化&半結(jié)構(gòu)化數(shù)據(jù)Page23電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)應(yīng)用層5高時效類分析應(yīng)用

客戶經(jīng)理等最終業(yè)務(wù)人員針對當(dāng)前業(yè)務(wù)的發(fā)生(如:用戶交易、

實時分析類應(yīng)用通常使用CEP、ESB等技術(shù)實現(xiàn)用戶訪問日志),進(jìn)行實時查詢、分析的應(yīng)用4歷史查詢類應(yīng)用1管理分析類應(yīng)用

針對公檢法查詢需求、內(nèi)外部審計需求和最終用戶的歷史交易查詢需求,以貼源存儲的歸檔數(shù)據(jù)為基礎(chǔ),實現(xiàn)的查詢類應(yīng)用

歷史查詢類應(yīng)用通常使用BI工具或自主開發(fā)實現(xiàn)

管理分析類應(yīng)用主要實現(xiàn)了集團客戶管理、運營管理、財務(wù)管理、風(fēng)險管理、監(jiān)管信息披露五大分析體系功能

管理分析類應(yīng)用通常采用套裝軟件和BI工具(MicroStrategy等大數(shù)據(jù))實現(xiàn)平臺應(yīng)用3沙盤演練類應(yīng)用2數(shù)據(jù)增值類產(chǎn)品

業(yè)務(wù)人員根據(jù)業(yè)務(wù)需求或自己對業(yè)務(wù)的理解,設(shè)計計算模型,準(zhǔn)備各類明細(xì)或匯總數(shù)據(jù),導(dǎo)入模

沙盤演練類應(yīng)用通常使用R語言在Hadoop分布式體系下實現(xiàn)

電商集團企業(yè)數(shù)據(jù)科學(xué)家根據(jù)自己對業(yè)務(wù)需求的理解或者對市場的判斷,設(shè)計并運行模型,發(fā)掘

數(shù)據(jù)價值,并封裝成商業(yè)產(chǎn)品數(shù)據(jù)增值產(chǎn)品通常采用R語言和型運算,驗證業(yè)務(wù)結(jié)果BI工具實現(xiàn),面向企業(yè)內(nèi)外部用戶Page24電商大數(shù)據(jù)分析平臺總體架構(gòu)——平臺發(fā)展不同階段對應(yīng)應(yīng)用動態(tài)數(shù)據(jù)倉庫階段讓正確的事情發(fā)生!數(shù)據(jù)量增長用戶數(shù)增長查詢復(fù)雜度增長ETL處理復(fù)雜度增長操作為主階段什么正在發(fā)生?預(yù)測為主階段將會發(fā)生什么?分析為主階段為什么會發(fā)生工作負(fù)載復(fù)雜度報表為主階段發(fā)生了什么批量隨機查詢持續(xù)更新加載/短查詢數(shù)據(jù)分析基于事件的動態(tài)觸發(fā)大數(shù)據(jù)平臺發(fā)展階段劃分Page25工品數(shù)據(jù)增值類產(chǎn)類應(yīng)用歷史查詢類電商大數(shù)據(jù)分析平臺總體架構(gòu)——管理分析類應(yīng)用監(jiān)管披露客戶管理風(fēng)險管理運營管理財務(wù)管理

求目前監(jiān)管機構(gòu)沒有明確要

客戶單一視圖

公司客戶信息管理

個人客戶信息管理同業(yè)客戶信息管理

目標(biāo)客戶搜索

風(fēng)險監(jiān)控報表/信息披露

流動性報表

領(lǐng)導(dǎo)管理駕駛艙

機構(gòu)績效考核

客戶經(jīng)理考核

客戶經(jīng)理工作量評估

總敗分析

資產(chǎn)負(fù)債表分析

損益表分析現(xiàn)金流量表分析

利率敏感性報表資本充足率報表

……

財務(wù)指標(biāo)分析

重點客戶關(guān)懷客戶

風(fēng)險客戶異動客戶

市場風(fēng)險

市場風(fēng)險暴露值

客戶經(jīng)理服務(wù)客戶收

盈利分析

機構(gòu)貢獻(xiàn)度

流動性管理、利率管理

產(chǎn)品績效考核益評估

產(chǎn)品貢獻(xiàn)度客戶細(xì)分貢獻(xiàn)度

客戶細(xì)分

個人客戶細(xì)分

客戶行為分析

公司客戶細(xì)分

信用風(fēng)險

信用風(fēng)險暴露值計算

業(yè)務(wù)量考核

資產(chǎn)負(fù)債分析

渠道績效

(貸前控制、貸中監(jiān)控信用風(fēng)險控制

供應(yīng)鏈金融業(yè)務(wù)人人貸業(yè)務(wù)

主要指標(biāo)報告,如:凈利息收入、凈收入凈現(xiàn)值、市場價值等、

頭寸報告現(xiàn)金流報告

風(fēng)險價值(VaR)計算

客戶輪廓分析產(chǎn)品交叉銷售分析

百分比分析

操作風(fēng)險、貸后分析)

異常交易預(yù)警后督差錯檢查

防欺詐/反洗錢

定義欺詐交易模型

保理業(yè)務(wù)

基金業(yè)務(wù)

營銷活動管理

渠道偏好分析

營銷活動規(guī)劃營銷活動定義

……

其它中間業(yè)務(wù)

……

財務(wù)預(yù)算與計劃

財務(wù)預(yù)算

營銷活動執(zhí)行營銷活動蘋果

可能性欺詐交易預(yù)警欺詐交易分布分析

渠道成本與收益

……

財務(wù)計劃執(zhí)行監(jiān)控

執(zhí)行過程分析年末財務(wù)計劃執(zhí)行分

營銷活動自動化

全面風(fēng)險管理

……

渠道接口與集成流程自動化

預(yù)測與場景分析析

……

業(yè)務(wù)規(guī)模預(yù)測收益預(yù)測

……Page26示例電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)訪問層多種展現(xiàn)形式滿足各層級用戶及應(yīng)用系統(tǒng)使用需求即席查詢靜態(tài)報表多維分析儀表盤問題發(fā)現(xiàn)Office集成Web服務(wù)挖掘預(yù)測

儀表盤:通過儀表盤及其它展現(xiàn)方式對企業(yè)關(guān)鍵績效指標(biāo)進(jìn)行展示,為領(lǐng)導(dǎo)層決策提供直觀的數(shù)據(jù)支持決策層

靜態(tài)報表:按照預(yù)先定義格式,批處理報表,在線查詢報表等

Office集成:將分析應(yīng)用嵌入到Office界面中,利用Office的方便、易用特性,降低用管理層戶使用難度

即席查詢:通過即席查詢工具或手工書寫SQL語句,完成業(yè)務(wù)信息的即席查看

多維分析:從多個維度靈活組合對目標(biāo)值進(jìn)行分析,常見功能包括上下鉆取、透明鉆取業(yè)務(wù)人員、旋轉(zhuǎn)、分頁、層鉆、跨維鉆取等

主動問題發(fā)現(xiàn):通過事件觸發(fā)、規(guī)則匹配等方式發(fā)現(xiàn)企業(yè)運營中的問題,通過手機、郵件等方式報警

挖掘預(yù)測:結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)模型去挖掘隱藏在數(shù)據(jù)中的價值使用專業(yè)的軟件工具,通過數(shù)理統(tǒng)計等高級統(tǒng)計分析算法,分析結(jié)構(gòu)化、非

Web服務(wù):系統(tǒng)或分析應(yīng)用調(diào)用,獲取分析結(jié)果將分析應(yīng)用的功能發(fā)布為Web服務(wù),注冊在企業(yè)服務(wù)總線上,供其它業(yè)務(wù)數(shù)據(jù)科學(xué)家業(yè)務(wù)系統(tǒng)Page27電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)管控層金融數(shù)據(jù)管控體系涵蓋組織架構(gòu)、評價與考核、管控流程、管控平臺四個域。數(shù)據(jù)與信息標(biāo)準(zhǔn)化委員會組織流程數(shù)據(jù)管理人數(shù)據(jù)所有人數(shù)據(jù)生產(chǎn)人數(shù)據(jù)使用人IT支持團隊組織建立/維護流程責(zé)任評價標(biāo)準(zhǔn)執(zhí)行評政策執(zhí)行評考核指標(biāo)價價標(biāo)準(zhǔn)建立/維護流程元數(shù)據(jù)數(shù)據(jù)安全數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量評價數(shù)據(jù)全生命周期數(shù)據(jù)創(chuàng)建數(shù)據(jù)存儲數(shù)據(jù)移動數(shù)據(jù)共享數(shù)據(jù)停用與數(shù)據(jù)類型數(shù)據(jù)格式業(yè)務(wù)分類業(yè)務(wù)含義真實性定義及時性定義完整性定義一致性定義技術(shù)元數(shù)據(jù)業(yè)務(wù)元數(shù)據(jù)管理元數(shù)據(jù)安全等級權(quán)限定義審計定義保留策略考核指標(biāo)評價標(biāo)準(zhǔn)建立/維護流程考核………………評價與考核流程數(shù)據(jù)認(rèn)責(zé)數(shù)據(jù)標(biāo)準(zhǔn)管數(shù)據(jù)質(zhì)量管平臺數(shù)據(jù)安全管理理元數(shù)據(jù)管理理工作流管理……Page28電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)管控體系內(nèi)部運轉(zhuǎn)機制組織架構(gòu)、評價與考核、管控流程、管控工具這四個域相互作用、相互支撐,提供對各信息系統(tǒng)數(shù)據(jù)的管控。管控過程中的組明確了數(shù)據(jù)管控組織

數(shù)據(jù)管控委員會

數(shù)據(jù)產(chǎn)生者

數(shù)據(jù)使用者………管控流程

數(shù)據(jù)接入流程

數(shù)據(jù)變更流程數(shù)據(jù)授權(quán)流程

數(shù)據(jù)退役流程

標(biāo)準(zhǔn)/政策制定流程管控過程中,規(guī)范了數(shù)據(jù)各個環(huán)節(jié)日常任務(wù)處理的運作模式,例如數(shù)據(jù)定義如何變更、數(shù)據(jù)沖突如何協(xié)調(diào)等。織結(jié)構(gòu)、角色、職責(zé)等。管控組織除了要負(fù)責(zé)制定數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、安全等要求外,還需要負(fù)責(zé)制定管控的相關(guān)流程和評價考核指標(biāo)等內(nèi)容。

數(shù)據(jù)所有人

數(shù)據(jù)認(rèn)責(zé)人

IT支持……制定流程支撐制定考評評價與考核

標(biāo)準(zhǔn)(數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量要求、安全要求)遵守標(biāo)準(zhǔn)所需要的政策

評價考核流程……采用專門的技術(shù)平臺支撐管控流程的自動化,發(fā)布管控組織制定的一些相關(guān)標(biāo)準(zhǔn)和規(guī)范,及時反映管控過程中存在的一些問題等。通過建立一些定性或定量的數(shù)據(jù)管控評價考核指標(biāo),去評估及考核數(shù)據(jù)相關(guān)責(zé)任人職責(zé)履行情況、數(shù)據(jù)管控標(biāo)準(zhǔn)及數(shù)據(jù)政策的執(zhí)行情況等。

政策與標(biāo)準(zhǔn)遵從考評定義

……流程支撐工具支撐工具支撐管控平臺

標(biāo)準(zhǔn)/規(guī)范管理管控綜合管理

流程管理

考核儀表盤……

業(yè)務(wù)元數(shù)據(jù)管理元數(shù)據(jù)管理

技術(shù)元數(shù)據(jù)管理

管理元數(shù)據(jù)分析……

稽核規(guī)則管理數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)稽核

質(zhì)量報告……Page29電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)管控組織

數(shù)據(jù)管控組織是數(shù)據(jù)管控體系中最重要的因素,它負(fù)責(zé)定義和管理業(yè)務(wù)數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),制定遵尋標(biāo)準(zhǔn)所必須的政策,監(jiān)測正在進(jìn)行的數(shù)據(jù)管控行動。

數(shù)據(jù)管控組織是否有完整與合理的角色定義、是否有高層領(lǐng)導(dǎo)的參與,是整個數(shù)據(jù)管控的成敗的關(guān)鍵。

典型的數(shù)據(jù)管控組織如下所示:信息管理委員會數(shù)據(jù)管控主導(dǎo)方數(shù)據(jù)管控參與方數(shù)據(jù)管控負(fù)責(zé)部門數(shù)據(jù)產(chǎn)生部門數(shù)據(jù)使用部門數(shù)據(jù)擁有部門數(shù)據(jù)管理部門數(shù)據(jù)管控經(jīng)理數(shù)據(jù)主管數(shù)據(jù)主管數(shù)據(jù)主管運維組織數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量元數(shù)數(shù)據(jù)安全管理管理據(jù)管理員管理業(yè)務(wù)協(xié)調(diào)人數(shù)據(jù)分析員業(yè)務(wù)協(xié)調(diào)人數(shù)據(jù)分析員業(yè)務(wù)協(xié)調(diào)人數(shù)據(jù)分析員實施項目組員員員崗位Page角色30電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)標(biāo)準(zhǔn)管理

消除一數(shù)多義,提升數(shù)據(jù)的唯一性、一致性,將逐步形成的數(shù)據(jù)標(biāo)準(zhǔn)納入一個規(guī)范的管理流程中,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的更新、發(fā)布、使用監(jiān)督等工作。

數(shù)據(jù)標(biāo)準(zhǔn)管理工作可以分為以下幾個部分:數(shù)據(jù)標(biāo)準(zhǔn)建立和維護、數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行、數(shù)據(jù)標(biāo)準(zhǔn)管理的考評。數(shù)據(jù)標(biāo)準(zhǔn)建立和維護數(shù)據(jù)標(biāo)準(zhǔn)管理的考評數(shù)據(jù)分類定性考評數(shù)據(jù)結(jié)構(gòu)客戶類數(shù)據(jù)標(biāo)準(zhǔn)分析報告數(shù)據(jù)標(biāo)準(zhǔn)關(guān)鍵業(yè)務(wù)對象定量考評關(guān)鍵代碼數(shù)據(jù)標(biāo)準(zhǔn)產(chǎn)品類數(shù)據(jù)維度。。。類數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行ODS歸檔系統(tǒng)……代碼映射數(shù)據(jù)標(biāo)準(zhǔn)理念推廣Page31電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)質(zhì)量管理框架藍(lán)圖如下,其中數(shù)據(jù)質(zhì)量提升是改進(jìn)數(shù)據(jù)質(zhì)量的手段和質(zhì)量考評的目的:

數(shù)據(jù)質(zhì)量要求確認(rèn),根據(jù)業(yè)務(wù)要求制定和明確數(shù)據(jù)質(zhì)量要求,同時也需要符合數(shù)據(jù)標(biāo)準(zhǔn)的要求;

數(shù)據(jù)質(zhì)量考評,對數(shù)據(jù)質(zhì)量的量化評價

制定數(shù)據(jù)質(zhì)量問題解決方案,根據(jù)數(shù)據(jù)質(zhì)量考評和日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題,實施相應(yīng)的措施,提升數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量要求數(shù)據(jù)質(zhì)量考評業(yè)務(wù)規(guī)則數(shù)據(jù)質(zhì)量監(jiān)控數(shù)據(jù)一致性要求數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量分析報告不定期數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)完整性要求數(shù)據(jù)質(zhì)量驗證規(guī)則數(shù)據(jù)唯一性要求數(shù)據(jù)準(zhǔn)確性要求數(shù)據(jù)質(zhì)量考核指標(biāo)數(shù)據(jù)質(zhì)量提升數(shù)據(jù)及時性要求數(shù)據(jù)補錄手工修正自動修正Page32電商大數(shù)據(jù)分析平臺總體架構(gòu)——元數(shù)據(jù)管理

業(yè)務(wù)元數(shù)據(jù):面向業(yè)務(wù)人員,從業(yè)務(wù)術(shù)語、業(yè)務(wù)描述、業(yè)務(wù)指標(biāo)和業(yè)務(wù)規(guī)則等幾個方面對數(shù)據(jù)進(jìn)行描述

管理元數(shù)據(jù):面向數(shù)據(jù)管理人員,從運維管理的角度描述數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全的狀態(tài)信息

技術(shù)元數(shù)據(jù):面向技術(shù)人員,從數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理細(xì)節(jié)方面對數(shù)據(jù)進(jìn)行技術(shù)化描述Page33電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)安全管理

數(shù)據(jù)安全管理可分為數(shù)據(jù)安全分級管理和數(shù)據(jù)訪問授權(quán)管理兩個部分:

數(shù)據(jù)安全分級:根據(jù)業(yè)務(wù)要求,制定一系列的數(shù)據(jù)安全分級標(biāo)準(zhǔn)和政策,為數(shù)據(jù)應(yīng)用以及數(shù)據(jù)管理中實施數(shù)據(jù)安全保護和訪問提供數(shù)據(jù)安全控制的基礎(chǔ)。

數(shù)據(jù)訪問授權(quán):數(shù)據(jù)訪問授權(quán)的主要工作是根據(jù)數(shù)據(jù)安全分級標(biāo)準(zhǔn),定義數(shù)據(jù)訪問的授權(quán)方法及流程,建立基于數(shù)據(jù)安全分級的數(shù)據(jù)使用授權(quán)機制,實現(xiàn)數(shù)據(jù)訪問和信息披露的安全。數(shù)據(jù)安全分級數(shù)據(jù)訪問授權(quán)數(shù)據(jù)敏感度數(shù)據(jù)使用需求數(shù)據(jù)安全等級定義數(shù)據(jù)訪問授權(quán)規(guī)則數(shù)據(jù)重要性安全技術(shù)數(shù)據(jù)使用者權(quán)責(zé)Page34電商大數(shù)據(jù)分析平臺總體架構(gòu)——高階工作流程

業(yè)務(wù)數(shù)據(jù)規(guī)劃管理高階流程數(shù)據(jù)認(rèn)責(zé)流程員會信息管理委召開數(shù)據(jù)管控協(xié)調(diào)會議數(shù)據(jù)認(rèn)責(zé)關(guān)系簽批

數(shù)據(jù)認(rèn)責(zé)流程門責(zé)負(fù)業(yè)控部管據(jù)部數(shù)務(wù)門技門術(shù)部認(rèn)責(zé)需求收開始集提出初步認(rèn)責(zé)提出數(shù)據(jù)認(rèn)責(zé)范圍方案組織各部門溝通討論是否有爭議是否數(shù)據(jù)認(rèn)責(zé)關(guān)系確認(rèn)或更新組織和職責(zé)數(shù)據(jù)認(rèn)責(zé)表公布控制度數(shù)據(jù)管結(jié)束數(shù)據(jù)管控協(xié)調(diào)會議流程委員信息管授權(quán)召開數(shù)據(jù)

數(shù)據(jù)治理考核體系數(shù)據(jù)認(rèn)責(zé)流程參與討論有所門部者管責(zé)會控?fù)?jù)數(shù)負(fù)據(jù)管數(shù)理用使者產(chǎn)生者理者據(jù)據(jù)據(jù)數(shù)數(shù)數(shù)開始需求收集方案預(yù)審并匯報管控協(xié)調(diào)會議會議準(zhǔn)備會議計劃和議題組織討論參與討論參與討論參與討論參與討論議題討論決議督辦結(jié)束

數(shù)據(jù)治理考核流程提出預(yù)案

數(shù)據(jù)治理考核指標(biāo)體系數(shù)據(jù)標(biāo)準(zhǔn)建立流程員會信息管理有數(shù)據(jù)門管部控責(zé)負(fù)據(jù)委數(shù)理產(chǎn)者用者者者數(shù)管生使據(jù)所數(shù)據(jù)據(jù)數(shù)召開數(shù)據(jù)管控協(xié)調(diào)是存在沖突(數(shù)據(jù)質(zhì)量規(guī)則)業(yè)務(wù)數(shù)據(jù)規(guī)劃策略制定量化數(shù)據(jù)質(zhì)量會議考核規(guī)則否協(xié)調(diào)會議

數(shù)據(jù)標(biāo)準(zhǔn)管理管理高階流程提供數(shù)據(jù)標(biāo)準(zhǔn)需求收集數(shù)據(jù)標(biāo)準(zhǔn)需求開始數(shù)據(jù)質(zhì)量要求確定流程數(shù)據(jù)質(zhì)量要求收集參考型確定數(shù)據(jù)定提供業(yè)務(wù)規(guī)則義和屬性開始SG-CIM解釋模提供數(shù)據(jù)標(biāo)準(zhǔn)提供數(shù)據(jù)標(biāo)準(zhǔn)提供數(shù)據(jù)標(biāo)準(zhǔn)需求需求需求數(shù)據(jù)標(biāo)準(zhǔn)維護流程值維度、類型、長確定數(shù)據(jù)屬性的取確認(rèn)數(shù)據(jù)項的數(shù)據(jù)數(shù)據(jù)度和精度質(zhì)量要求開始有者用管部責(zé)控負(fù)門數(shù)據(jù)所數(shù)據(jù)者者產(chǎn)理者據(jù)使管數(shù)生據(jù)數(shù)數(shù)據(jù)標(biāo)準(zhǔn)文檔生成數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量要求討論與組織實施數(shù)據(jù)質(zhì)量驗證規(guī)則修改數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布數(shù)據(jù)質(zhì)量要求正式下發(fā)數(shù)據(jù)標(biāo)準(zhǔn)文檔結(jié)束

數(shù)據(jù)標(biāo)準(zhǔn)建立流程提供數(shù)據(jù)質(zhì)量要求標(biāo)準(zhǔn)維護請求接收數(shù)據(jù)參與討論參與討論參與討論參與討論參與討論參與討論參與討論參與討論數(shù)據(jù)標(biāo)準(zhǔn)維護溝通討論要修改是否需否是結(jié)束更新數(shù)據(jù)定義、屬性、維度等信息數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布組織實施新的數(shù)據(jù)標(biāo)準(zhǔn)結(jié)束數(shù)據(jù)管控考核流程委員信息管會責(zé)任數(shù)管據(jù)部控門理產(chǎn)理者者據(jù)數(shù)生管據(jù)數(shù)考核報告簽批

數(shù)據(jù)標(biāo)準(zhǔn)維護流程門數(shù)據(jù)生部所有責(zé)負(fù)產(chǎn)者管理使用控匯總管控執(zhí)行情況開始依據(jù)評分辦法根據(jù)執(zhí)行情況進(jìn)行評分評分匯總結(jié)果生成考核報告考核結(jié)果公布結(jié)束

數(shù)據(jù)質(zhì)量管理管理高階流程數(shù)據(jù)安全分級流程會員委管息理信數(shù)開始門部者有所據(jù)數(shù)責(zé)負(fù)控數(shù)據(jù)管者者用理據(jù)管據(jù)數(shù)使數(shù)據(jù)安全審批流程息信管召開數(shù)據(jù)管控協(xié)調(diào)會議采用新的分級是方式否確認(rèn)評分結(jié)果確認(rèn)評分結(jié)果–數(shù)據(jù)質(zhì)量要求確定流程收集數(shù)據(jù)安全需求員門理部任責(zé)控數(shù)委據(jù)數(shù)管會建議安全分級方式接收數(shù)據(jù)訪問請求參加討論數(shù)者理用管使據(jù)據(jù)者者據(jù)數(shù)有所全分級方式組織數(shù)據(jù)責(zé)任方協(xié)商安元數(shù)據(jù)變更流程確認(rèn)指標(biāo)的牽頭部門并轉(zhuǎn)發(fā)請求問題進(jìn)行備案登記接到變更請求,對開始是否存在異是議?管控協(xié)調(diào)召開數(shù)據(jù)會議否是否需要提交審否議?組織部署實施數(shù)據(jù)安全分級要求否是召開審議會議跟蹤安全訪問控制是否批準(zhǔn)變更?實施結(jié)束是設(shè)計元數(shù)據(jù)更新方案通知請求方否/結(jié)束向流程觸發(fā)人反處發(fā)布元數(shù)據(jù)變更說理結(jié)果明結(jié)束考核流程

元數(shù)據(jù)管理高階流程提出數(shù)據(jù)訪問請求參加討論參加討論審核數(shù)據(jù)訪問請求解釋需求提出業(yè)務(wù)元數(shù)據(jù)變更需求存在爭論是參與討論參與討論更新數(shù)據(jù)訪問授權(quán)規(guī)則組織實施元數(shù)據(jù)變更方案

元數(shù)據(jù)變更流程數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、元數(shù)據(jù)、安全管理流程用責(zé)負(fù)控部者門有所使理管產(chǎn)生據(jù)數(shù)提出技術(shù)元數(shù)據(jù)變更需求參與討論參與討論

數(shù)據(jù)安全管理管理高階流程

數(shù)據(jù)安全審批流程Page35電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)管控平臺

數(shù)據(jù)管控平臺從總體上來說分為數(shù)據(jù)層、應(yīng)用層、展現(xiàn)層三個主要層面,以數(shù)據(jù)層的數(shù)據(jù)庫及相關(guān)基礎(chǔ)系統(tǒng)為主要信息來源,通過應(yīng)用層的運算處理,以不同的形式,不同的功能在展現(xiàn)層提供用戶接口展現(xiàn)層數(shù)據(jù)管控平臺統(tǒng)一用戶集成界面首頁工作管理系統(tǒng)管理標(biāo)準(zhǔn)管理元數(shù)據(jù)管理質(zhì)量管理應(yīng)用戶用限權(quán)管管理標(biāo)準(zhǔn)……維護元數(shù)據(jù)采集…………層主菜單指標(biāo)辦待速事遞信息地圖流程管理績效規(guī)范指管標(biāo)標(biāo)準(zhǔn)瀏覽規(guī)則配置項理理數(shù)據(jù)層數(shù)據(jù)管控平臺知識庫數(shù)據(jù)標(biāo)準(zhǔn)知識庫元數(shù)據(jù)知識庫質(zhì)量稽核庫Page36大數(shù)據(jù)分析平臺總體產(chǎn)品框架Sqoop歷Distcp沙盤演練平臺增值產(chǎn)品平臺管理分析平臺Sqoop+Hive(Hadoop史歸(Hadoop集群)(Hadoop集群)(X86MPP集(實內(nèi)存時數(shù)分析庫)臺群)流程調(diào)度平臺檔查詢HQL+LoadDistcpDistcpHQL+LoaDistcpHQL+LoaSqoop)ddMR據(jù)平集群平臺基礎(chǔ)計算平臺(貼源數(shù)據(jù)區(qū)+主題數(shù)據(jù)區(qū)+大數(shù)據(jù)區(qū))數(shù)據(jù)管控平臺(Hadoop集群+Hive)CopyfromloalLoad(Hive)Queue數(shù)據(jù)交換平臺(自主開發(fā)交換組件+NAS存儲)SFTP/HTTP/APIFTP京東云數(shù)據(jù)推送平臺非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)京東業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)Page37Part3電商大數(shù)據(jù)分析平臺演進(jìn)路線電商大數(shù)據(jù)分析平臺演進(jìn)路線一期2013.10當(dāng)前位置未來搭建大數(shù)據(jù)處理平臺和實時分析持續(xù)優(yōu)化提升階段以基礎(chǔ)平臺搭建為主,配合電商集團企業(yè)初期業(yè)務(wù)開展,應(yīng)用建設(shè)從客戶信息管理、風(fēng)險管理和平臺,應(yīng)用方面開展實時分析和數(shù)據(jù)產(chǎn)品封裝應(yīng)

深化分析體系,形成運營管理三方面開展深度智能化業(yè)務(wù)分析對企業(yè)價值的創(chuàng)造

全面開展內(nèi)部管理分析、實時分應(yīng)析和沙盤演練應(yīng)用建設(shè),初步展開增值數(shù)據(jù)產(chǎn)品開發(fā)工作技

性能持續(xù)優(yōu)化、數(shù)據(jù)管

持續(xù)深化數(shù)據(jù)管控體平臺持續(xù)完善、

開展客戶信息管理、信用風(fēng)險評應(yīng)級和業(yè)務(wù)統(tǒng)計分析三類應(yīng)用建設(shè)

全面開展大數(shù)據(jù)分析平臺建設(shè),引入更多數(shù)據(jù)源,豐富并完善平系,形成電商集團企業(yè)企業(yè)級的數(shù)據(jù)管控體系技臺數(shù)據(jù)區(qū)建設(shè)管

隨著應(yīng)用體系的搭建,完善數(shù)據(jù)技

開展貼源數(shù)據(jù)整合,初步建立企業(yè)級數(shù)據(jù)視圖,實現(xiàn)對管理分析類應(yīng)用和實時分析類應(yīng)用的支撐應(yīng)業(yè)務(wù)分析框架技基礎(chǔ)數(shù)據(jù)平臺管數(shù)據(jù)管控體系質(zhì)量和元數(shù)據(jù)建設(shè),開展數(shù)據(jù)標(biāo)準(zhǔn)化工作管

規(guī)劃數(shù)據(jù)管控藍(lán)圖,初步實施數(shù)據(jù)質(zhì)量和技術(shù)元數(shù)據(jù)管理第一階段第二階段第三階段2013年2014年——2015年2015年以后Page39大數(shù)據(jù)分析平臺演進(jìn)說明——基礎(chǔ)數(shù)據(jù)平臺階段劃分建設(shè)內(nèi)容預(yù)期效果

實現(xiàn)了數(shù)據(jù)平臺內(nèi)部個數(shù)據(jù)區(qū)之間、數(shù)據(jù)平臺與外部系統(tǒng)間的雙向數(shù)據(jù)傳輸實現(xiàn)了業(yè)務(wù)數(shù)據(jù)按照貼源數(shù)據(jù)模整合實現(xiàn)了數(shù)據(jù)按照生命周期的歸檔管理實現(xiàn)了內(nèi)部管理分析環(huán)境搭建實現(xiàn)實時分析環(huán)境搭建

搭建數(shù)據(jù)交換平臺,部署NAS存儲集群,設(shè)計并實施數(shù)據(jù)庫交換組件和數(shù)據(jù)區(qū)交換組件搭建基礎(chǔ)計算平臺,設(shè)計并實施貼源數(shù)據(jù)區(qū),以T+1頻率整合信用和金融業(yè)務(wù)數(shù)據(jù)

第一階段

搭建歷史歸檔查詢平臺,歸檔信用和金融業(yè)務(wù)數(shù)據(jù)文件

搭建內(nèi)部管理分析應(yīng)用平臺,部署MPP集群和BI分析應(yīng)用環(huán)境

搭建實時分析平臺,部署內(nèi)存數(shù)據(jù)庫和實時BI分析環(huán)境

數(shù)據(jù)交換平臺增強和優(yōu)化,包括:大數(shù)據(jù)交換組件設(shè)計實施

實現(xiàn)了基礎(chǔ)數(shù)據(jù)一次存儲、一次計算、多次使用建立了數(shù)據(jù)分析人員的實驗環(huán)境,實現(xiàn)了用戶自主用數(shù)為實時、準(zhǔn)實時類分析用提供平臺為封裝、銷售數(shù)據(jù)類產(chǎn)品提供了平臺

基礎(chǔ)計算平臺增強,包括:引入更多的數(shù)據(jù)源,增強貼源數(shù)據(jù)區(qū);設(shè)計并實施主題數(shù)據(jù)區(qū),打破業(yè)務(wù)條線整合數(shù)據(jù);設(shè)計并實施大數(shù)據(jù)區(qū),實現(xiàn)企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)加工、處理

第二階段

搭建沙盤演練平臺

實時分析平臺增強和優(yōu)化,包括:引入更多應(yīng)用及相關(guān)數(shù)據(jù)源

基礎(chǔ)計算平臺持續(xù)增強和優(yōu)化,引入更多的數(shù)據(jù)源、優(yōu)化模型和

數(shù)據(jù)平臺納入盡可能多的企業(yè)內(nèi)外部數(shù)據(jù)Page40第三階段ETL處理大數(shù)據(jù)分析平臺演進(jìn)說明——數(shù)據(jù)管控階段劃分建設(shè)內(nèi)容預(yù)期效果

分析和梳理當(dāng)前數(shù)據(jù)管理方面的成果和現(xiàn)狀,數(shù)據(jù)管控藍(lán)圖和路線圖設(shè)計,數(shù)據(jù)管控工作的組織、技術(shù)和流程高階設(shè)計梳理電商集團企業(yè)大數(shù)據(jù)平臺ETL流程各環(huán)節(jié)的數(shù)據(jù)質(zhì)量要求,指定數(shù)據(jù)質(zhì)量檢查規(guī)則、評價指標(biāo)、管控流程,并落地實施數(shù)據(jù)質(zhì)量管理系統(tǒng)梳理電商集團企業(yè)大數(shù)據(jù)平臺包含的技術(shù)元數(shù)據(jù),如:數(shù)據(jù)字典、ETL任務(wù)、ETL流程、BI語義層等,制定相應(yīng)的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)

同步大數(shù)據(jù)分析平臺ETL建設(shè),實現(xiàn)了數(shù)據(jù)質(zhì)量管理系統(tǒng)收集并整合了電商集團企業(yè)所有技術(shù)元數(shù)據(jù),實現(xiàn)了數(shù)據(jù)生命周管理、血緣分析和影響分析等功能第一階段

完善了數(shù)據(jù)質(zhì)量管理體系,實現(xiàn)了問題及時發(fā)現(xiàn)、及時解決實現(xiàn)了電商集團企業(yè)全方位的元數(shù)據(jù)管理,打通了業(yè)務(wù)和技術(shù)元數(shù)據(jù)關(guān)聯(lián)關(guān)系為電商集團企業(yè)數(shù)據(jù)平臺建設(shè)提供了基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)

隨著更多數(shù)據(jù)源的引入,進(jìn)一步增強數(shù)據(jù)質(zhì)量管理系統(tǒng)隨著更多數(shù)據(jù)源的引入、更多平臺的建立,梳理并整合更多技術(shù)元數(shù)據(jù)梳理電商集團企業(yè)大數(shù)據(jù)平臺包含的業(yè)務(wù)和管理類元數(shù)據(jù),如業(yè)務(wù)術(shù)語、業(yè)務(wù)指標(biāo)、業(yè)務(wù)定義等,制定相應(yīng)的管控流程并落地實施元數(shù)據(jù)管理系統(tǒng)開展基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)建設(shè),基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)、管控流程、評價指標(biāo)、落地策略

第二階段

數(shù)據(jù)質(zhì)量管理持續(xù)優(yōu)化并增強元數(shù)據(jù)管理持續(xù)優(yōu)化并增強基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)逐步落地實施開展指標(biāo)類數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)、管控流程、評價指標(biāo)、落地策略

通過完善的數(shù)據(jù)管控體系,提升數(shù)據(jù)質(zhì)量、避免數(shù)據(jù)二義性、建立數(shù)據(jù)間的血緣關(guān)系,使得業(yè)務(wù)人員可以方便、有效的Page41

第三階段

使用數(shù)據(jù),提高數(shù)據(jù)實用性大數(shù)據(jù)分析平臺演進(jìn)說明——應(yīng)用體系階段劃分建設(shè)內(nèi)容預(yù)期效果

開展客戶信息管理建設(shè),設(shè)計并實施個人客戶和供應(yīng)商360°視圖、客戶目標(biāo)搜索、客戶細(xì)分等功能開展風(fēng)險管理建設(shè),設(shè)計并實施供應(yīng)商和個人客戶風(fēng)險評級模型

開展運營管理建設(shè),設(shè)計并實施供應(yīng)鏈金融、人人貸等業(yè)務(wù)條線業(yè)務(wù)量統(tǒng)計分析初步梳理實時、準(zhǔn)實時分析需求,進(jìn)行高時效分析應(yīng)用試點

可以方便的對個人客戶和供應(yīng)商進(jìn)行分群,以及全方位信息查詢和展示供應(yīng)商和個人客戶風(fēng)險等級評定針對目前開展的業(yè)務(wù)進(jìn)行經(jīng)營情況統(tǒng)計分析搭建并驗證高時效應(yīng)用體系第一階段

通過內(nèi)部管理分析體系的建設(shè)、滿足了電商集團企業(yè)日常經(jīng)營管理、決策分析和進(jìn)一步提高價值創(chuàng)造力的需要實現(xiàn)了業(yè)務(wù)人員自主用數(shù)實現(xiàn)了高時效分析,與業(yè)務(wù)流程的整合實現(xiàn)了數(shù)據(jù)產(chǎn)品的封裝,提升了數(shù)據(jù)價值

隨著電商集團企業(yè)業(yè)務(wù)的展開,逐步開展內(nèi)部管理分析體系的建設(shè),本階段重點為客戶關(guān)系管理、運營管理等高級業(yè)務(wù)人員利用沙盤演練平臺進(jìn)行數(shù)據(jù)挖掘、預(yù)測和科學(xué)試驗

進(jìn)一步樹立實時、準(zhǔn)實時分析需求,深化開展高時效分析應(yīng)用開始梳理市場上的數(shù)據(jù)應(yīng)用需求,嘗試封裝增值數(shù)據(jù)產(chǎn)品第二階段

通過內(nèi)部管理分析應(yīng)用體系建設(shè)進(jìn)一步實現(xiàn)數(shù)據(jù)共享、業(yè)務(wù)協(xié)作與創(chuàng)新通過實時分析應(yīng)用體系建設(shè),實現(xiàn)大數(shù)據(jù)平臺業(yè)務(wù)系統(tǒng)的交互,與業(yè)務(wù)流程的Page42融合增值數(shù)據(jù)產(chǎn)品的開發(fā)進(jìn)一步發(fā)揮的數(shù)據(jù)

隨著電商集團企業(yè)業(yè)務(wù)的展開,進(jìn)一步完善內(nèi)部管理分析體系的建設(shè),包括:市場風(fēng)險管理、操作風(fēng)險管理、財務(wù)管理等收集實時分析需求,進(jìn)一步增強并優(yōu)化實時分析應(yīng)用體系增值數(shù)據(jù)產(chǎn)品設(shè)計逐漸成為重點,數(shù)據(jù)分析師收集企業(yè)內(nèi)外部數(shù)據(jù)需求,設(shè)計更完善的增值數(shù)據(jù)產(chǎn)品

第三階段

Part4電商大數(shù)據(jù)分析平臺實施重點電商大數(shù)據(jù)分析平臺一期架構(gòu)

基礎(chǔ)計算平臺:數(shù)據(jù)交換平臺:基于Hadoop集群構(gòu)建,按照業(yè)務(wù)條線、以貼源數(shù)據(jù)模型存儲了業(yè)務(wù)系統(tǒng)明細(xì)數(shù)據(jù)NAS集群實現(xiàn)了進(jìn)出數(shù)據(jù)平臺數(shù)據(jù)的暫存,業(yè)務(wù)數(shù)據(jù)交換組件實現(xiàn)了業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)加載,數(shù)據(jù)區(qū)數(shù)據(jù)交換組件

實現(xiàn)了基礎(chǔ)計算平臺與管理分析平臺間的數(shù)據(jù)交換流程調(diào)度平臺:自主開發(fā)的流程調(diào)度引擎實現(xiàn)整個數(shù)據(jù)平臺的數(shù)據(jù)處理任務(wù)調(diào)度和運行

管理分析平臺:實時分析平臺:由高檔X86服務(wù)器組成的集群,實現(xiàn)高時效、高并發(fā)的實時、準(zhǔn)實時類管理分析需求由X86分析型數(shù)據(jù)庫集群、BI軟件1J2EE應(yīng)用構(gòu)成,實現(xiàn)了面向應(yīng)用的數(shù)據(jù)加工、管理、分析服務(wù)Page44數(shù)據(jù)交換平臺—平臺邏輯架構(gòu)電商大數(shù)據(jù)分析平臺

數(shù)據(jù)交換平臺由FTP服務(wù)器、加載服務(wù)器和NAS存儲組成,完成業(yè)務(wù)系統(tǒng)數(shù)據(jù)的獲取、加載和歸檔FTP服務(wù)器:利用LVS構(gòu)成的FTP集群,接收云數(shù)據(jù)推送平臺處理后的數(shù)據(jù),存儲在NAS集群的指定目錄加載服務(wù)器:部署ETL任務(wù),實錄的文件到達(dá)監(jiān)控、文件級檢核、數(shù)據(jù)加現(xiàn)指定目載(HiveLoad)到臨時數(shù)據(jù)區(qū),同時歸檔(copyfromlocal)歷史數(shù)據(jù)區(qū)NAS集群:按照日期和源系統(tǒng)劃分目錄,緩存數(shù)據(jù),支持日常數(shù)據(jù)交換和ETL加載服務(wù)器#1加載服務(wù)器#4文件歸檔文件加載文件歸檔文件加載

文件級檢核……文件級檢核文件到達(dá)事件監(jiān)控文件到達(dá)事件監(jiān)控

NAS集群LVS集群:FTP服務(wù)器#1……LVS集群:FTP服務(wù)器#3

LVS集群:負(fù)載均衡服務(wù)器

云數(shù)據(jù)推送平臺實現(xiàn)源系統(tǒng)數(shù)據(jù)一次獲取獲、按需分發(fā)。平臺采用GoldenGate、JBUS、Flume等技術(shù)獲取增量數(shù)據(jù),存儲在MySQL集群平臺按照接口規(guī)范生成文件,LZO壓縮后,通過FTP傳輸?shù)絅AS指定目錄…………云數(shù)據(jù)推送平臺

POP物流財務(wù)供應(yīng)鏈人人貸……

Page45數(shù)據(jù)交換平臺—參與方責(zé)任劃分云計算電商集團企業(yè)1.設(shè)計并實施2.按照電商集團企業(yè)接口定義,抽取業(yè)務(wù)系統(tǒng)數(shù)據(jù);3.按照電商集團企業(yè)接口規(guī)范要求,按時生成數(shù)據(jù)文件、云數(shù)據(jù)推送平臺;1.制定接口規(guī)范,并提交給云數(shù)據(jù)推送項目組;2.梳理業(yè)務(wù)系統(tǒng)數(shù)據(jù)字典,制定接口定義,并提交給云數(shù)據(jù)推送項目組;控制文件和DDL文件,并通過FTP傳輸?shù)絅AS指定目錄;3.開發(fā)數(shù)據(jù)交換組件,從NAS獲取數(shù)據(jù)并處理;4.對接收的數(shù)據(jù)提供驗證功能,并返回驗證結(jié)果到4.若源系統(tǒng)有變更,則要求在變更前提供變更內(nèi)容說明,升級平臺版本,根據(jù)電商集團企業(yè)更新接口規(guī)范提供數(shù)云數(shù)據(jù)推送平臺;5.根據(jù)云數(shù)據(jù)推送平臺提交的變更通知修改接口定據(jù);義和數(shù)據(jù)交換組件;應(yīng)及時解決接口數(shù)據(jù)提供過程中出現(xiàn)的問題;5.運維部門對于未盡事宜,應(yīng)同云計算方協(xié)商解決。6.對于未盡事宜,應(yīng)同電商集團企業(yè)協(xié)商解決。6.安裝部署電商集團企業(yè)大數(shù)據(jù)分析平臺物理環(huán)境、應(yīng)用1.研發(fā)部門軟件,并進(jìn)行基礎(chǔ)設(shè)施運維;針對電商集團企業(yè)需求,指定接口人、提供文檔1.在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫服務(wù)器安裝并部署云數(shù)據(jù)推送平臺客2.;戶端,并提供數(shù)據(jù)庫訪問。2.業(yè)務(wù)系統(tǒng)因版本升級等原因?qū)е聰?shù)據(jù)模型發(fā)生變Page46化,及時通知云數(shù)據(jù)推送平臺接口責(zé)任人。變,提升相關(guān)IT系統(tǒng)的建設(shè)和運行效率數(shù)據(jù)平臺臨時區(qū)Hive連接和預(yù)加工,為應(yīng)用數(shù)據(jù)VMHadoopVMVM采集并存儲數(shù)據(jù),進(jìn)行結(jié)構(gòu)化處理,最終得到結(jié)構(gòu)化數(shù)據(jù)Identifier_1用戶通過B/S方式登錄平臺執(zhí)行配置管理存入NAS平臺到數(shù)據(jù)集表名稱整合區(qū)數(shù)據(jù)質(zhì)量日報日期違反主鍵唯一性的記錄數(shù)執(zhí)行日期開始執(zhí)行時間檢查規(guī)則唯一號電商大數(shù)據(jù)分析平臺總體架構(gòu)——數(shù)據(jù)交換層大數(shù)據(jù)交換數(shù)據(jù)交換平臺—業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取實現(xiàn)方式

每張源系統(tǒng)表都對應(yīng)一個獨立的數(shù)據(jù)接口

數(shù)據(jù)接口由數(shù)據(jù)文件和控制文件構(gòu)成(文件命名和具體內(nèi)容參見接口規(guī)范)

文件統(tǒng)一采用UTF-8編碼,統(tǒng)一存在在JSS指定目錄(參見接口規(guī)范)

如果在抽取周期內(nèi)沒有數(shù)據(jù)變更,云數(shù)據(jù)推送平臺應(yīng)該生成空的數(shù)據(jù)接口

傳輸方式FTP傳輸,利用LVS技術(shù)構(gòu)建FTP集群,接收數(shù)據(jù)

傳輸頻率云數(shù)據(jù)推送平臺通常按照T+1頻率為電商集團企業(yè)提供數(shù)據(jù),具體頻率要求參見接口定義

接口處理模式1.云數(shù)據(jù)推送平臺根據(jù)不同接口單元定義,準(zhǔn)備數(shù)據(jù)、生成接口數(shù)據(jù)文件;2.云數(shù)據(jù)推送平臺根據(jù)接口規(guī)范生成相應(yīng)的接口控制文件;3.云數(shù)據(jù)推送平臺壓縮數(shù)據(jù)(LZO),并通過FTP將數(shù)據(jù)接口存入NAS指定目錄;4.電商大數(shù)據(jù)分析平臺部署在不同加載服務(wù)器上的數(shù)據(jù)交換組件完成:a)定時輪詢NAS指定目錄,獲取接口(包括數(shù)據(jù)文件、控制文件和DDL文件);b)執(zhí)行文件級檢核;c)通過檢核后,將數(shù)據(jù)文件和控制文件移動到NAS集群指定目錄,觸發(fā)后續(xù)ETL處理;Page475.在TaskAutomation調(diào)度下執(zhí)行數(shù)據(jù)加載和數(shù)據(jù)歸檔任務(wù)。數(shù)據(jù)交換平臺—平臺部署架構(gòu)

數(shù)據(jù)交換平臺由8臺X86服務(wù)器和一個NAS集群構(gòu)成

X86服務(wù)器按照功能分為2組,一組實現(xiàn)數(shù)據(jù)獲取,一組實現(xiàn)數(shù)據(jù)加載和歸檔

NAS集群作為公共數(shù)據(jù)區(qū),由8臺服務(wù)器共享訪問(讀寫)

LVS1負(fù)載均LVS服務(wù)器1LVS服務(wù)器4加載服務(wù)器1加載服務(wù)器4

負(fù)責(zé)源系統(tǒng)數(shù)據(jù)文件加載和衡LVSFTP加載任務(wù)歸檔任務(wù)加載任務(wù)歸檔任務(wù)

其它LVS服務(wù)PythonJSSModulePythonJSSModuleHiveHive歸檔器負(fù)責(zé)接收接口文件,寫入NAS集群目錄Pythonruntime……PythonruntimeHDFSClient……HDFSClient

每臺服務(wù)器負(fù)RedhatLinuxRedhatLinuxRedhatLinuxRedhatLinux責(zé)多個源系統(tǒng)

支持按需擴展

支持按需擴展/減少服務(wù)器/減少服務(wù)器LAN

部署數(shù)據(jù)交換平臺和流程調(diào)

按日期和源系統(tǒng)建立數(shù)度平臺程序,各服務(wù)器通過文件鏈接使用據(jù)目錄,緩存每日接口文件,供交NAS集群Page換平臺訪問48流程調(diào)度平臺—平臺邏輯架構(gòu)

TaskAutomation驅(qū)動各個平臺、實現(xiàn)從數(shù)據(jù)存入NAS平臺到數(shù)據(jù)集市生成整個處理過程的工作流管理

數(shù)據(jù)交換平臺負(fù)責(zé)數(shù)據(jù)抽取、文件級質(zhì)量檢核、調(diào)用HiveLoad加載數(shù)據(jù)

基礎(chǔ)計算平臺使用HiveSQL實現(xiàn)貼源數(shù)據(jù)整合、公共匯總數(shù)據(jù)處理

管理分析平臺使用關(guān)系型數(shù)據(jù)庫的SQL實現(xiàn)集市數(shù)據(jù)的處理

歷史歸檔查詢平臺負(fù)責(zé)數(shù)據(jù)文件和Hadoop集群數(shù)據(jù)歸檔Page49流程調(diào)度平臺—流程調(diào)度元數(shù)據(jù)

TaskAutomation的元數(shù)據(jù)統(tǒng)一存儲在MySQL數(shù)據(jù)庫中

任務(wù)定義,包括任務(wù)名稱、描述、運行服務(wù)器、運行狀態(tài)、運行時間、相關(guān)數(shù)據(jù)源等屬性

任務(wù)依賴,任務(wù)的執(zhí)行依賴與其他上游任務(wù)

任務(wù)觸發(fā),任務(wù)成功執(zhí)行后觸發(fā)的下游任務(wù)

任務(wù)組,一組有相互關(guān)系的任務(wù),全部完成后會觸發(fā)頭任務(wù)運行

……

元數(shù)據(jù)由所有流程調(diào)度服務(wù)器共享Page50流程調(diào)度平臺—任務(wù)調(diào)度引擎

通過偵測器偵測事件,按照任務(wù)定義和任務(wù)依賴關(guān)系觸發(fā)任務(wù)運行,觸發(fā)方式把主要包括

自動觸發(fā)

定時觸發(fā),按照預(yù)先定義的時間周期,如每日、每周、每月,或任何有規(guī)律的時間間隔執(zhí)行任務(wù)。目前可明確的任務(wù)主要是每月執(zhí)行的基礎(chǔ)計算平

事件觸發(fā),按照特定的事件觸發(fā)、執(zhí)行任務(wù)。如:數(shù)據(jù)文件到達(dá)指定目錄,會觸發(fā)數(shù)據(jù)加載任務(wù)。同樣,流程失敗也會觸發(fā)新的job,如錯誤處理臺、管理分析平臺數(shù)據(jù)歸檔。、例外處理等。

手動觸發(fā)

系統(tǒng)管理員可以使用TaskAutomation提供的界面或命令接口執(zhí)行一些job。這些job的功能通常包括對特定范圍的數(shù)據(jù)進(jìn)行審計與驗證、對特定范圍的數(shù)據(jù)進(jìn)行針對性很強的數(shù)據(jù)清洗、或者是對某流程失敗后的修復(fù)。

每個要執(zhí)行的任務(wù)均由任務(wù)執(zhí)行代理吭動運行Page51流程調(diào)度平臺—集群可靠性和可擴展性高可用性流程調(diào)度所需的元數(shù)據(jù)信息統(tǒng)一保存在MySQL數(shù)據(jù)庫中,集群中任何服務(wù)器發(fā)生故障不會破壞元數(shù)據(jù)完整性。服務(wù)器故障時,只需要修改ETL任務(wù)屬性,指定其他服務(wù)器執(zhí)行任務(wù)即可,故障不會影響任務(wù)依賴關(guān)系、任務(wù)組關(guān)系。擴展能力流程調(diào)度集群由多臺服務(wù)器構(gòu)成,按工作負(fù)載劃分不同角色,分別實現(xiàn)ETL處理過程中不同類型任務(wù)的調(diào)度。當(dāng)某類調(diào)度工作負(fù)載較大時,可通過增加服務(wù)器的方式,實現(xiàn)集群的橫向擴展Page52流程調(diào)度平臺—平臺部署架構(gòu)

流程調(diào)度平臺由八臺X86服務(wù)器構(gòu)成,服務(wù)器按照功能分為兩類

兩臺X86服務(wù)器部署MySQL數(shù)據(jù)庫集群,存儲流程調(diào)度元數(shù)據(jù)

六臺X86服務(wù)器部署流程調(diào)度引擎,負(fù)責(zé)各數(shù)據(jù)區(qū)數(shù)據(jù)處理流程調(diào)度與運行

按數(shù)據(jù)區(qū)劃分工作流,工作流不跨數(shù)據(jù)區(qū)臨時/歸檔區(qū)調(diào)度服務(wù)器1臨時/歸檔區(qū)調(diào)度服務(wù)器4貼源區(qū)調(diào)度服務(wù)器TaskAutomation匯總區(qū)調(diào)度服務(wù)器TaskAutomation

臨時區(qū)數(shù)據(jù)處理的工作流部署在數(shù)據(jù)交換TaskAutomationTaskAutomationHadoopHivePerlRuntimeMySQLClient……HadoopHivePerlRuntimeMySQLClientHadoopHivePerlRuntimeMySQLClientHadoopHivePerlRuntimeMySQLClient換平臺的加載服務(wù)器

貼園區(qū)和匯總區(qū)工作流分別部署獨立的服RedhatLinuxRedhatLinuxRedhatLinuxRedhatLinux務(wù)器LAN

MySQL主-從MasterNodeMasterNode集群,存儲臨時區(qū)、歸檔區(qū)、貼源區(qū)和匯總區(qū)數(shù)據(jù)處理任務(wù)定義,任務(wù)依賴關(guān)系MySQL主服務(wù)器MySQL從服務(wù)器Page53基礎(chǔ)計算平臺—平臺邏輯架構(gòu)

基礎(chǔ)計算平臺基于Hadoop集群搭建

集群采用標(biāo)準(zhǔn)的X86服務(wù)器

集群彈性架構(gòu),按需分配計算資源,支持添加X86服務(wù)器的方式實現(xiàn)橫向擴展

集群中的數(shù)據(jù)保留三份,保證任何節(jié)點故障,不影響集群對外提供服務(wù)VMVMVMVMVM

基礎(chǔ)計算平臺有三個數(shù)據(jù)區(qū)構(gòu)成

臨時數(shù)據(jù)區(qū),緩存當(dāng)日源系統(tǒng)變化(VMHadoopVMVMVMVMVMVMVMVMVM節(jié)點新增、修改、刪除)數(shù)據(jù),支持后續(xù)ELT數(shù)據(jù)處理VMVMVMVMVM節(jié)點VMVMVMVMVM

貼源數(shù)據(jù)區(qū),按照源系統(tǒng)數(shù)據(jù)模型整合的明細(xì)歷史數(shù)據(jù),作為基礎(chǔ)數(shù)據(jù)層節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點實現(xiàn)數(shù)據(jù)一次整合、多次使用

匯總數(shù)據(jù)區(qū),根據(jù)應(yīng)用需求,對貼源數(shù)據(jù)區(qū)明細(xì)數(shù)據(jù)進(jìn)行預(yù)連接、預(yù)聚合、預(yù)匯總處理的數(shù)據(jù),實現(xiàn)了數(shù)據(jù)的Page54一次計算、多次使用匯總數(shù)據(jù)區(qū)貼源數(shù)據(jù)區(qū)臨時數(shù)據(jù)區(qū)基礎(chǔ)計算平臺—臨時數(shù)據(jù)區(qū)包含內(nèi)容

數(shù)據(jù)庫設(shè)計原則大數(shù)據(jù)分析平臺要整合的源系統(tǒng),包括:POP、財務(wù)審計、財務(wù)研發(fā)、大物流、供應(yīng)鏈、金融、網(wǎng)站交易、數(shù)據(jù)部和移動客戶端等研發(fā)體系的各業(yè)務(wù)系統(tǒng)。

臨時數(shù)據(jù)區(qū)對應(yīng)獨立的Hive數(shù)據(jù)庫

不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限

模型設(shè)計原則

邏輯模型參考源系統(tǒng)和接口規(guī)范定義,為每個接口單元設(shè)計實體、屬性設(shè)計原則

物理模型與邏輯模型保持一致,每個實體對應(yīng)一張Hive表,表采用LZO壓縮存儲

物理模型設(shè)計不建議考慮索引、物化視圖等主要用途技術(shù)特性建立數(shù)據(jù)緩沖區(qū),臨時存放從源系統(tǒng)抽取過來的增量/全量數(shù)據(jù),支撐后續(xù)ELT處理。

以天為單位,按業(yè)務(wù)日期建立分區(qū)

歷史保留原則

緩存當(dāng)日業(yè)務(wù)數(shù)據(jù)、為數(shù)據(jù)重跑方便可保留7天歷史

過期數(shù)據(jù)直接刪除對應(yīng)分區(qū),不需要歸檔Page55基礎(chǔ)計算平臺—貼源數(shù)據(jù)區(qū)包含內(nèi)容

數(shù)據(jù)庫設(shè)計原則與緩沖層相對應(yīng),貼源整合層主要包括:POP、財務(wù)審計、財務(wù)研發(fā)、大物流、供應(yīng)鏈、金融、網(wǎng)站交易、數(shù)據(jù)部和移動客戶端等研發(fā)體系的各業(yè)務(wù)系統(tǒng),所有數(shù)據(jù)保留歷史。

貼源數(shù)據(jù)區(qū)對應(yīng)獨立的Hive數(shù)據(jù)庫

不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限

模型設(shè)計原則

針對不需要記錄變化的實體,其邏輯模型參考緩沖層,按照貼源設(shè)計設(shè)計原則

針對需要記錄變化的數(shù)據(jù),需要增加時間字段,設(shè)計拉鏈數(shù)據(jù)模型,記錄歷史

物理模型考慮分區(qū),流水表按業(yè)務(wù)日期建立主要用途分區(qū),拉鏈表按終止日期建立分區(qū)作為整個數(shù)據(jù)平臺的基礎(chǔ)數(shù)據(jù)層,累計歷史,為主題層、集市層等數(shù)據(jù)區(qū)提供數(shù)據(jù)支撐。

歷史保留原則

拉鏈表數(shù)據(jù)保留最近37個月的歷史

快照表數(shù)據(jù)永久保留

交易流水表數(shù)據(jù)保留最近25個月的歷史

過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時回遷Page56基礎(chǔ)計算平臺—匯總數(shù)據(jù)區(qū)包含內(nèi)容

數(shù)據(jù)庫設(shè)計原則針對客戶管理、風(fēng)險評級和業(yè)務(wù)量統(tǒng)計設(shè)計明細(xì)數(shù)據(jù)進(jìn)行預(yù)匯總、預(yù)連接和預(yù)加工后的結(jié)果數(shù)據(jù)。

匯總數(shù)據(jù)區(qū)對應(yīng)獨立的Hive數(shù)據(jù)庫

不對外提供訪問,ETL用戶對數(shù)據(jù)庫有增、刪、查、改權(quán)限

模型設(shè)計原則

匯總層采用了逆范式寬表設(shè)計,某種程度上采用維度建模的方法設(shè)計原則

模型設(shè)計首先需要根據(jù)業(yè)務(wù)和應(yīng)用的需要盡量包含更多的屬性和指標(biāo),同時兼顧空間

匯總層需要針對維度數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化處理

匯總層模型增加數(shù)據(jù)日期記錄歷史,建議根主要用途進(jìn)行預(yù)匯總、預(yù)對明細(xì)數(shù)據(jù)連接和預(yù)加工,為應(yīng)用數(shù)據(jù)。集市準(zhǔn)備數(shù)據(jù)據(jù)數(shù)據(jù)日期建立分區(qū)

歷史保留原則

不同實體采取不同的歷史保留策略

建議以支持應(yīng)用為輸入,避免永久保留

過期數(shù)據(jù)歸檔到歷史歸檔區(qū),需要時回遷Page57基礎(chǔ)計算平臺—平臺部署架構(gòu)

NN負(fù)責(zé)HDFS元數(shù)據(jù)管理,元數(shù)

SecondaryNN負(fù)責(zé)HDFS元數(shù)

JobTrackerNode負(fù)責(zé)MR任務(wù)據(jù)信息存儲在NAS集群指定目錄據(jù)備份管理,分配

通過硬件冗余、RAID0+1、

SecondaryJobTracker負(fù)責(zé)

通過心跳信號檢測TaskTrackerSlaveNN等技術(shù)實現(xiàn)高可用性MR計算集群JobTracker高可用活動狀態(tài),排除失效節(jié)點NameNode性Name&JobTrackerNode基礎(chǔ)計算平臺由73臺X86服務(wù)器構(gòu)成,3臺服務(wù)器作為NameNode和JobTrackerNode,70臺服務(wù)器作為DataNode和TaskTrackerNodeJobTrackerNode(Secondary)內(nèi)部互聯(lián)

70臺服務(wù)器是DataNodeDataNode

70臺服務(wù)器是HDFS數(shù)據(jù)節(jié)點MR計算節(jié)點,Hive提交的SQL語句,轉(zhuǎn)化成MR任務(wù),由JobTracker分配到每臺服務(wù)器上執(zhí)行TaskTrackerNodeTaskTrackerNode,臨時數(shù)據(jù)區(qū)和貼源整合區(qū)作為獨立的數(shù)據(jù)庫部署在此服務(wù)器上,并按照3份冗余存Page58儲……服務(wù)器1服務(wù)器70基礎(chǔ)計算平臺—平臺網(wǎng)絡(luò)拓?fù)銷odeNodeNodeNodeNodeNodeNodeNodeNodeNodeNodeNodeNode……NodeNodeNode………………NodeNodeNodeNode20NodesRACK120NodesRACK220NodesRACK320NodesRACK3Page59管理分析平臺—平臺邏輯架構(gòu)

客戶信息管理,采用J2EE框架自主開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫集群

運營績效管理,采用MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于分析型數(shù)據(jù)庫集群

零售業(yè)務(wù)靈活分析,采用MicroStrategy開發(fā),數(shù)據(jù)集市構(gòu)建于內(nèi)存數(shù)據(jù)庫集群HANAPage60管理分析平臺—安全管理用戶BI應(yīng)用門戶認(rèn)證管理認(rèn)證管理LDAP安全管理授權(quán)管理授權(quán)管理員平臺安全管理信息庫審計管理審計管理敗戶管理敗戶信息權(quán)限信息日志信息安全管理安全管理身份管理員員個人客戶信企業(yè)客戶信金融業(yè)務(wù)經(jīng)金融業(yè)務(wù)規(guī)息管理息管理營分析模預(yù)測Page61大數(shù)據(jù)分析平臺物理架構(gòu)說明

平臺所有服務(wù)器均采用標(biāo)準(zhǔn)X86PC服務(wù)器系統(tǒng)劃分為三個子網(wǎng)

WEB服務(wù)子網(wǎng),兩臺服務(wù)器構(gòu)成的Tomcat集群

應(yīng)用服務(wù)子網(wǎng),兩臺服務(wù)器構(gòu)成的MicroStrategy集群

數(shù)據(jù)服務(wù)子網(wǎng)

基礎(chǔ)計算平臺,73臺服務(wù)器構(gòu)成的Hadoop集群

數(shù)據(jù)集市平臺,30臺服務(wù)器構(gòu)成的?集群

流程調(diào)度平臺,7臺服務(wù)器構(gòu)成的TaskAutomation集群

數(shù)據(jù)交換平臺,5臺服務(wù)器與云數(shù)據(jù)推送平臺接口,分別實現(xiàn)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)獲取Page62大數(shù)據(jù)分析平臺一期硬件配置

所有服務(wù)器均采用開放的X86架構(gòu),單臺服務(wù)器建議配置如下:服務(wù)器類型服務(wù)器功能數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤DataNode&7032128G2*1GbCentos6.312*2TB7200RPMSATAdisks基礎(chǔ)計算平臺TaskTracker服務(wù)器(Hadoop集NameNode&128G4*600GB15K群)JobTracker服務(wù)器3322*1GbCentos6.3SASdisksRAID0+1歷史歸檔查詢DataNode&301224G2*1GbCentos6.316*3TB7200RPMSATAdisks4*600GB15K平臺TaskTracker服務(wù)器NameNode&(Hadoop集群)JobTracker服務(wù)器31224G2*1GbCentos6.3SASdisksRAID0+112*2TB7200DataNode&30321282*1GbCentos6.3沙盤演練平臺TaskTracker服務(wù)器NameNode&GRPMSATAdisks4*600GB15KSASdisksRAIDPage63(Hadoop集128G群)JobTracker服務(wù)器3322*1GbCentos6.30+1大數(shù)據(jù)分析平臺一期硬件配置(續(xù))

所有服務(wù)器均采用開放的X86架構(gòu),單臺服務(wù)器建議配置如下:服務(wù)器類型服務(wù)器功能數(shù)量CPU內(nèi)存網(wǎng)口操作系統(tǒng)內(nèi)置盤數(shù)據(jù)交換平臺數(shù)據(jù)接口服務(wù)51664G2*10GbCentos6.32*600GB15KSAS器disksRAID0+1流程調(diào)度流程調(diào)度&ETL71664G2*10GbCentos6.32*600GB15KSAS&ETL平臺服務(wù)器disksRAID0+14*600GB15KSAS元數(shù)據(jù)服務(wù)Hive元數(shù)據(jù)庫21664G2*10GbCentos6.3器服務(wù)器disksRAID0+12*300GB15KSAS432128G4*10GbCentos6.3數(shù)據(jù)集市服務(wù)器disksRAID0+114*300GB15KSAS1632128G2*10GbCentos6.3disksRAID0+1管理分析平內(nèi)存數(shù)據(jù)庫服務(wù)器SLESforSAP8*600GB10kSASdisksRAID5臺420256G2*10Gbapplications11SP2BI應(yīng)用服務(wù)器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+12*600GB15KSASPage64disksRAID0+1WEB服務(wù)器21664G2*10GbCentos6.3大數(shù)據(jù)分析平臺一期硬件配置(續(xù))

光前交換機配置要求

千兆端口:278

萬兆端口:100

帶寬:8GB

NAS集群配置如下:

總存儲容量:40TB

磁盤:15000RPMSASDisks

網(wǎng)絡(luò)接口:萬兆

網(wǎng)絡(luò)傳輸協(xié)議:TCP/IP

網(wǎng)絡(luò)文件協(xié)議:CIFS、NFS

單臺Cache:8GBPage65大數(shù)據(jù)分析平臺一期軟件清單類型軟件清單類型軟件清單基礎(chǔ)計算平臺Hadoop0.2Centos6.3管理分析平臺數(shù)據(jù)?Centos6.3集市服務(wù)器歷史歸檔查詢平臺Hadoop0.2Centos6.3Hadoop0.2Centos6.3HadoopClient&HiveCentos6.3實時分析平臺內(nèi)存SAPHanaEnterprise1.0數(shù)據(jù)庫服務(wù)器Centos6.3沙盤演練平臺MicroStrategy9.3管理分析&實時分析HanaClient數(shù)據(jù)交換平臺DBClientCentos6.3平臺BI應(yīng)用服務(wù)器TaskAutomationMySQLClient流程調(diào)度&ETL平臺PerlRuntime&MySQLDBD管理分析&實時分析Tomcat7.0Centos6.3平臺WEB服務(wù)器Centos6.3Page66Part5數(shù)據(jù)質(zhì)量管理平臺數(shù)據(jù)質(zhì)量管理平臺技術(shù)架構(gòu)

數(shù)據(jù)質(zhì)量管理平臺以元數(shù)據(jù)質(zhì)量管理系統(tǒng)元模型包含檢查規(guī)則、檢查執(zhí)行結(jié)果、分析報告,模型作為一個獨立的Schema部署在決策分析報表平臺數(shù)據(jù)質(zhì)量檢查規(guī)則配置模塊作為JavaWeb應(yīng)用部署在金融數(shù)據(jù)平臺Tomcat集群上,數(shù)據(jù)質(zhì)量管理員通過統(tǒng)一的的數(shù)據(jù)庫Web服務(wù)訪問,實現(xiàn)檢查規(guī)則的維護信息模型為核心,由規(guī)則配置管理模塊、檢查執(zhí)行模塊、分析報告生成模塊和分析報告展現(xiàn)模塊四部分構(gòu)成。數(shù)據(jù)質(zhì)量檢查規(guī)則執(zhí)行模塊作為多個ETL任務(wù)部署在金融數(shù)據(jù)平臺ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運行,實現(xiàn)各個數(shù)據(jù)區(qū)技術(shù)和業(yè)務(wù)數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)質(zhì)量分析報告展現(xiàn)模塊作為JavaWeb應(yīng)用部署在金融數(shù)據(jù)平臺Tomcat集群上,用戶通過統(tǒng)一的Web服務(wù)訪問,實現(xiàn)日報、月報的瀏覽、下載等功能數(shù)據(jù)質(zhì)量分析報告生成模塊作為一個ETL任務(wù)部署在決策分析報表平臺ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運行,按照每日、每月生成各數(shù)據(jù)區(qū)數(shù)據(jù)質(zhì)量檢查報告

整個數(shù)據(jù)質(zhì)量檢查過程以ETL任務(wù)的形式統(tǒng)一調(diào)度執(zhí)行。Page68數(shù)據(jù)質(zhì)量檢查執(zhí)行服務(wù)

數(shù)據(jù)質(zhì)量管理的規(guī)則執(zhí)行服務(wù)作為ETL任務(wù)部署在ETL服務(wù)器上1234

在整個數(shù)據(jù)處理過程中,設(shè)置4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論