版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
>>資料轉(zhuǎn)換管理系統(tǒng)(DataManagement,ETL) V4.0集團(tuán)數(shù)字化轉(zhuǎn)型大數(shù)據(jù)平臺(tái)整體方案建議書
目錄1 項(xiàng)目概述 141.1 建設(shè)背景 141.1.1 集團(tuán)已有基礎(chǔ) 141.1.2 痛點(diǎn)及需提升的能力 141.1.3 大數(shù)據(jù)趨勢 151.2 建設(shè)目標(biāo) 151.2.1 總體目標(biāo) 151.2.2 分階段建設(shè)目標(biāo) 161.3 與相關(guān)系統(tǒng)的關(guān)系 161.3.1 數(shù)據(jù)分析綜合服務(wù)平臺(tái) 161.3.2 量收系統(tǒng) 171.3.3 金融大數(shù)據(jù)平臺(tái) 181.3.4 各生產(chǎn)系統(tǒng) 181.3.5 CRM 181.4 公司介紹和優(yōu)勢特點(diǎn) 181.4.1 XXXX 181.4.2 TRANSWARP 201.4.3 我們的優(yōu)勢 212 業(yè)務(wù)需求分析 242.1 總體需求 242.2 數(shù)據(jù)管理 252.2.1 數(shù)據(jù)采集 262.2.2 數(shù)據(jù)交換 262.2.3 數(shù)據(jù)存儲(chǔ)與管理 262.2.4 數(shù)據(jù)加工清洗 272.2.5 數(shù)據(jù)查詢計(jì)算 272.3 數(shù)據(jù)管控 282.4 數(shù)據(jù)分析與挖掘 292.5 數(shù)據(jù)展現(xiàn) 292.6 量收系統(tǒng)功能遷移 303 系統(tǒng)架構(gòu)設(shè)計(jì) 313.1 總體設(shè)計(jì)目標(biāo) 313.2 總體設(shè)計(jì)原則 313.3 案例分析建議 323.3.1 中國聯(lián)通大數(shù)據(jù)平臺(tái) 323.3.2 恒豐銀行大數(shù)據(jù)平臺(tái) 393.3.3 華通CDN運(yùn)營商海量日志采集分析系統(tǒng) 513.3.4 案例總結(jié) 563.4 系統(tǒng)總體架構(gòu)設(shè)計(jì) 573.4.1 總體技術(shù)框架 573.4.2 系統(tǒng)總體邏輯結(jié)構(gòu) 603.4.3 平臺(tái)組件關(guān)系 623.4.4 系統(tǒng)接口設(shè)計(jì) 673.4.5 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu) 714 系統(tǒng)功能設(shè)計(jì) 734.1 概述 734.2 平臺(tái)管理功能 734.2.1 多應(yīng)用管理 734.2.2 多租戶管理 774.2.3 統(tǒng)一運(yùn)維監(jiān)控 784.2.4 作業(yè)調(diào)度管理 974.3 數(shù)據(jù)管理 994.3.1 數(shù)據(jù)管理框架 994.3.2 數(shù)據(jù)采集 1014.3.3 數(shù)據(jù)交換 1044.3.4 數(shù)據(jù)存儲(chǔ)與管理 1054.3.5 數(shù)據(jù)加工清洗 1234.3.6 數(shù)據(jù)計(jì)算 1244.3.7 數(shù)據(jù)查詢 1394.4 數(shù)據(jù)管控 1584.4.1 主數(shù)據(jù)管理 1584.4.2 元數(shù)據(jù)管理技術(shù) 1604.4.3 數(shù)據(jù)質(zhì)量 1634.5 數(shù)據(jù)ETL 1704.6 數(shù)據(jù)分析與挖掘 1724.6.1 數(shù)據(jù)分析流程 1744.6.2 R語言開發(fā)環(huán)境與接口 1754.6.3 并行化R算法支持 1764.6.4 可視化R軟件包 1794.6.5 編程語言支持 1814.6.6 自然語言處理和文本挖掘 1814.6.7 實(shí)時(shí)分析 1824.6.8 分析管理 1824.6.9 分析支持 1864.6.10 指標(biāo)維護(hù) 1864.6.11 分析流程固化 1874.6.12 分析結(jié)果發(fā)布 1874.6.13 環(huán)境支持 1874.7 數(shù)據(jù)展現(xiàn) 1884.7.1 交互式報(bào)表 1904.7.2 儀表盤 1954.7.3 即席查詢 1964.7.4 內(nèi)存分析 1974.7.5 移動(dòng)分析 1984.7.6 電子地圖支持 1985 技術(shù)要求實(shí)現(xiàn) 2005.1 產(chǎn)品架構(gòu) 2005.1.1 基礎(chǔ)構(gòu)建平臺(tái) 2035.1.2 大數(shù)據(jù)平臺(tái)組件功能介紹 2045.1.3 系統(tǒng)分布式架構(gòu) 2425.2 運(yùn)行環(huán)境支持 2445.2.1 系統(tǒng)操作支持以及環(huán)境配置 2445.2.2 與第三方軟件平臺(tái)的兼容說明 2455.3 客戶端支持 2465.3.1 客戶端支持 2465.3.2 移動(dòng)端支持 2465.4 數(shù)據(jù)支持 2465.5 集成實(shí)現(xiàn) 2485.6 運(yùn)維實(shí)現(xiàn) 2505.6.1 運(yùn)維目標(biāo) 2505.6.2 運(yùn)維服務(wù)內(nèi)容 2515.6.3 運(yùn)維服務(wù)流程 2535.6.4 運(yùn)維服務(wù)制度規(guī)范 2555.6.5 應(yīng)急服務(wù)響應(yīng)措施 2565.6.6 平臺(tái)監(jiān)控兼容 2565.6.7 資源管理 2575.6.8 系統(tǒng)升級(jí) 2595.6.9 系統(tǒng)監(jiān)控平臺(tái)功能 2605.7 平臺(tái)性能 2685.7.1 集群切換 2685.7.2 節(jié)點(diǎn)切換 2705.7.3 性能調(diào)優(yōu) 2715.7.4 并行化高性能計(jì)算 2765.7.5 計(jì)算性能線性擴(kuò)展 2795.8 平臺(tái)擴(kuò)展性 2805.9 可靠性和可用性 2825.9.1 單點(diǎn)故障消除 2825.9.2 容災(zāi)備份優(yōu)化 2845.9.3 系統(tǒng)容錯(cuò)性 2885.10 開放性和兼容性 2905.10.1 高度支持開源 2935.10.2 操作系統(tǒng)支持以及軟件環(huán)境配置 3055.10.3 兼容性與集成能力 3065.11 安全性 3075.11.1 身份鑒別 3085.11.2 訪問控制 3085.11.3 安全通訊 3145.12 核心產(chǎn)品優(yōu)勢 3145.12.1 高速運(yùn)算、統(tǒng)計(jì)分析和精確查詢 3145.12.2 有效的資源利用 3165.12.3 高并發(fā)、低延遲性能優(yōu)化 3175.12.4 計(jì)算資源有效管控 3185.12.5 API設(shè)計(jì)和開發(fā)工具支持 3195.12.6 友好的運(yùn)維監(jiān)控界面 3215.12.7 擴(kuò)容、備份、恢復(fù)機(jī)制 3255.12.8 集群自動(dòng)負(fù)載均衡 3275.12.9 計(jì)算能力擴(kuò)展 3275.13 自主研發(fā)技術(shù)優(yōu)勢 3275.13.1 高穩(wěn)定、高效的計(jì)算引擎Inceptor 3285.13.2 完整的SQL編譯引擎 3295.13.3 高性能的SQL分析引擎 3295.13.4 SQL統(tǒng)計(jì)分析能力 3305.13.5 完整的CURD功能 3315.13.6 Hyperbase高效的檢索能力 3325.13.7 基于Hyperbase和SQL引擎的高并發(fā)分布式事務(wù) 3345.13.8 Hyperbase非結(jié)構(gòu)化數(shù)據(jù)的支持 3355.13.9 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘 3355.13.10 TranswarpStream 3395.13.11 內(nèi)存/SSD/磁盤混合存儲(chǔ) 3415.13.12 MR/Spark/流處理統(tǒng)一平臺(tái) 3435.13.13 多租戶支持能力 3445.13.14 多租戶安全功能 3455.13.15 標(biāo)準(zhǔn)JDBC與ODBC接口 3456 系統(tǒng)性能指標(biāo)和測試結(jié)果說明 3476.1 性能測試報(bào)告 3476.1.1 測試目標(biāo) 3476.1.2 測試內(nèi)容 3476.1.3 測試環(huán)境 3476.1.4 測試過程和結(jié)果 3496.2 TPC-DS測試報(bào)告 3526.2.1 測試目標(biāo) 3526.2.2 測試內(nèi)容 3526.2.3 測試環(huán)境 3546.2.4 測試過程和結(jié)果 3556.3 量收遷移驗(yàn)證性測試報(bào)告 3566.3.1 測試目標(biāo) 3566.3.2 測試內(nèi)容 3566.3.3 測試環(huán)境 3576.3.4 串行執(zhí)行情況 3576.3.5 并行執(zhí)行情況 3596.3.6 生產(chǎn)表數(shù)據(jù)規(guī)模 3606.3.7 測試結(jié)果 3626.4 某銀行性能測試報(bào)告 3626.4.1 測試目標(biāo) 3626.4.2 測試內(nèi)容 3626.4.3 測試環(huán)境 3626.4.4 測試過程和結(jié)果 3637 系統(tǒng)配置方案 3757.1 硬件系統(tǒng)配置建議 3757.1.1 基礎(chǔ)Hadoop平臺(tái)集群配置規(guī)劃 3757.1.2 數(shù)據(jù)倉庫集群配置規(guī)劃 3777.1.3 集群規(guī)模綜述 3797.1.4 開發(fā)集群配置建議 3807.1.5 測試集群配置建議 3807.2 軟件配置建議 3817.3 軟硬件配置總表 3827.4 網(wǎng)絡(luò)拓?fù)?3848 系統(tǒng)測試 3858.1 系統(tǒng)測試方法 3858.2 系統(tǒng)測試階段 3868.3 系統(tǒng)測試相關(guān)提交物 3879 項(xiàng)目實(shí)施 3899.1 項(xiàng)目實(shí)施總體目標(biāo) 3899.2 項(xiàng)目管理 3899.3 業(yè)務(wù)確認(rèn) 3909.4 數(shù)據(jù)調(diào)研 3919.5 系統(tǒng)設(shè)計(jì)階段 3929.6 集成部署階段 3939.7 ETL過程設(shè)計(jì) 3939.8 ETL開發(fā)與測試 3949.9 系統(tǒng)開發(fā)階段 3959.10 系統(tǒng)測試階段 3969.11 系統(tǒng)上線及驗(yàn)收 3979.12 提交物 3999.13 系統(tǒng)的交接與知識(shí)轉(zhuǎn)移 40110 項(xiàng)目管理 40310.1 項(xiàng)目總體管理 40310.1.1 項(xiàng)目實(shí)施總流程 40310.1.2 項(xiàng)目實(shí)施中各階段的主要任務(wù) 40310.1.3 項(xiàng)目組織架構(gòu) 40710.1.4 項(xiàng)目負(fù)責(zé)人及主要成員 41210.1.5 項(xiàng)目管理制度 47910.2 項(xiàng)目質(zhì)量管理 48210.2.1 范圍 48310.2.2 過程目標(biāo) 48310.2.3 角色與職責(zé) 48310.2.4 過程活動(dòng) 48510.3 項(xiàng)目計(jì)劃 48811 安全保密 49812 知識(shí)產(chǎn)權(quán) 50013 技術(shù)服務(wù) 50113.1 現(xiàn)場支持服務(wù) 50113.2 標(biāo)準(zhǔn)售后技術(shù)服務(wù) 50213.2.1 提供預(yù)防性維護(hù) 50213.2.2 系統(tǒng)升級(jí)服務(wù) 50313.2.3 系統(tǒng)性能優(yōu)化 50313.2.4 提供系統(tǒng)完整文檔 50313.2.5 定期系統(tǒng)健康檢查服務(wù) 50413.2.6 應(yīng)急預(yù)案 50513.3 承諾 50513.3.1 我方對(duì)集團(tuán)的承諾 50513.3.2 關(guān)于開發(fā)隊(duì)伍的承諾 50513.4 技術(shù)保證 50613.4.1 方案實(shí)用性保證 50613.4.2 應(yīng)用系統(tǒng)的運(yùn)行能力的保證 50613.4.3 預(yù)防性維護(hù)檢修內(nèi)容 50613.4.4 服務(wù)響應(yīng) 50713.4.5 關(guān)于軟件維護(hù)的保證 50713.4.6 專業(yè)服務(wù)保證 50813.4.7 售后服務(wù)流程及時(shí)限 50814 人員培訓(xùn) 50914.1 Hadoop系統(tǒng)培訓(xùn) 51014.2 業(yè)務(wù)使用培訓(xùn) 51114.3 分析挖掘培訓(xùn) 51214.4 運(yùn)行維護(hù)培訓(xùn) 51414.5 開發(fā)培訓(xùn) 51514.5.1 培訓(xùn)目標(biāo) 51814.5.2 培訓(xùn)方式 51914.5.3 培訓(xùn)資源 519項(xiàng)目概述建設(shè)背景集團(tuán)已有基礎(chǔ)經(jīng)過十幾年的信息化建設(shè),集團(tuán)已經(jīng)積累了覆蓋郵務(wù)、速遞物流、金融三大板塊的海量生產(chǎn)和經(jīng)營數(shù)據(jù),這些數(shù)據(jù)分布在集團(tuán)各類應(yīng)用系統(tǒng)和數(shù)據(jù)庫中,支撐著集團(tuán)業(yè)務(wù)的發(fā)展。集團(tuán)初步搭建了由名址系統(tǒng)、量收系統(tǒng)、速遞平臺(tái)系統(tǒng)、數(shù)據(jù)分析平臺(tái)組成的初步的數(shù)據(jù)倉庫,為數(shù)據(jù)分析挖掘工作打下了一定的技術(shù)基礎(chǔ)。組建了專業(yè)的組織架構(gòu)促進(jìn)企業(yè)數(shù)據(jù)管理與應(yīng)用的規(guī)范化與制度化。集團(tuán)已成立數(shù)據(jù)中心,集團(tuán)數(shù)據(jù)中心和各省的數(shù)據(jù)分析團(tuán)隊(duì)已經(jīng)進(jìn)行了多個(gè)專題的數(shù)據(jù)分析與成果應(yīng)用的嘗試。痛點(diǎn)及需提升的能力集團(tuán)擁有豐富的客戶資源,海量的數(shù)據(jù)積累。在大數(shù)據(jù)時(shí)代,要充分挖掘數(shù)據(jù)價(jià)值,跟上時(shí)代的步伐。板塊間數(shù)據(jù)存在壁壘,共享不足,無法實(shí)現(xiàn)集團(tuán)企業(yè)數(shù)據(jù)的充分有效利用。數(shù)據(jù)存在冗余、分散、安全性差、一致性差等問題,應(yīng)建立有效的數(shù)據(jù)管控體系,打破信息孤島、實(shí)現(xiàn)企業(yè)信息數(shù)據(jù)共享、提升數(shù)據(jù)價(jià)值。非/半結(jié)構(gòu)化數(shù)據(jù)利用不足,需利用大數(shù)據(jù)技術(shù)加強(qiáng)應(yīng)用。大數(shù)據(jù)趨勢隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,現(xiàn)代社會(huì)已經(jīng)邁入全新的大數(shù)據(jù)時(shí)代。掌握大數(shù)據(jù)資產(chǎn),進(jìn)行智能化決策,已成為企業(yè)勝出的關(guān)鍵。越來越多的企業(yè)開始重視大數(shù)據(jù)戰(zhàn)略布局,重新定義自己的核心競爭力,從數(shù)據(jù)中揭示規(guī)律,了解過去、知悉現(xiàn)在、洞察未來,數(shù)據(jù)驅(qū)動(dòng)企業(yè)運(yùn)行與決策的科學(xué)性,構(gòu)建智慧企業(yè),打造核心競爭力。數(shù)據(jù)的爆炸式增長以及價(jià)值的擴(kuò)大化,將對(duì)企業(yè)未來的發(fā)展產(chǎn)生深遠(yuǎn)的影響,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。如何應(yīng)對(duì)大數(shù)據(jù),挖掘大數(shù)據(jù)的價(jià)值,讓大數(shù)據(jù)為企業(yè)的發(fā)展保駕護(hù)航,將是未來信息技術(shù)發(fā)展道路上關(guān)注的重點(diǎn)。建設(shè)目標(biāo)總體目標(biāo)根據(jù)集團(tuán)信息化規(guī)劃,遵循“互聯(lián)網(wǎng)+”的理念,建設(shè)集團(tuán)大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的集中及整合,構(gòu)建集團(tuán)統(tǒng)一的數(shù)據(jù)模型,提高企業(yè)數(shù)據(jù)的處理效率與共享程度。實(shí)現(xiàn)對(duì)集團(tuán)企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)的分析挖掘,對(duì)內(nèi)對(duì)外提供數(shù)據(jù)服務(wù)。為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營銷、服務(wù)支撐、風(fēng)險(xiǎn)管控以及流程優(yōu)化等支撐服務(wù)。集團(tuán)大數(shù)據(jù)平臺(tái)將在Hadoop和云計(jì)算等技術(shù)的基礎(chǔ)上,對(duì)現(xiàn)有量收系統(tǒng)、數(shù)據(jù)分析綜合服務(wù)平臺(tái)的歷史數(shù)據(jù)、數(shù)據(jù)模型、報(bào)表應(yīng)用等進(jìn)行移植,全面整合集團(tuán)業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)來源涵蓋集團(tuán)所有的生產(chǎn)和管理系統(tǒng),并可接入同業(yè)及相關(guān)市場甚至互聯(lián)網(wǎng)信息,建立從業(yè)務(wù)層到管理層到?jīng)Q策層的智能分析體系,模擬量化風(fēng)險(xiǎn)和收益,實(shí)現(xiàn)對(duì)集團(tuán)各種業(yè)務(wù)數(shù)據(jù)進(jìn)行分類、管理、統(tǒng)計(jì)和分析等功能,給各級(jí)管理人員提供各類準(zhǔn)確的統(tǒng)計(jì)分析預(yù)測數(shù)據(jù),使其能夠及時(shí)掌握全面的經(jīng)營狀況,為宏觀決策提供支持;為基層業(yè)務(wù)人員提供詳盡的數(shù)據(jù),供其對(duì)各自的工作目標(biāo)、當(dāng)前和歷史狀況進(jìn)行準(zhǔn)確的把握,對(duì)業(yè)務(wù)活動(dòng)進(jìn)行有效支撐;滿足集團(tuán)經(jīng)營管理及決策支持,建設(shè)國內(nèi)一流,世界領(lǐng)先的大數(shù)據(jù)平臺(tái)。分階段建設(shè)目標(biāo)第一階段目標(biāo)利用大數(shù)據(jù)技術(shù),搭建大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)交換、數(shù)據(jù)管控、企業(yè)級(jí)數(shù)據(jù)分析、數(shù)據(jù)可視化展現(xiàn)服務(wù)等功能。完成郵務(wù)和速遞數(shù)據(jù)資源的歸集、加工和整理,取代現(xiàn)有的量收系統(tǒng),集成現(xiàn)有的數(shù)據(jù)分析綜合服務(wù)平臺(tái),搭建高性能、擴(kuò)展性強(qiáng)的數(shù)據(jù)計(jì)算和數(shù)據(jù)分析環(huán)境。建立集團(tuán)統(tǒng)一的數(shù)據(jù)模型,實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化。對(duì)集團(tuán)各板塊及外部的結(jié)構(gòu)化數(shù)據(jù)、半/非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集和存儲(chǔ),圍繞“服務(wù)支撐、風(fēng)險(xiǎn)管控、流程優(yōu)化、交叉營銷、產(chǎn)品創(chuàng)新、決策支持”六個(gè)重點(diǎn)應(yīng)用方向進(jìn)行大數(shù)據(jù)成果應(yīng)用。第二階段目標(biāo)全方位整合集團(tuán)數(shù)據(jù)資源,利用專業(yè)的數(shù)據(jù)分析工具,提升數(shù)據(jù)分析質(zhì)量與效率,完善數(shù)據(jù)分析應(yīng)用模型及相關(guān)指標(biāo),深入推廣六個(gè)重點(diǎn)應(yīng)用方向,逐步提供面向移動(dòng)互聯(lián)網(wǎng)的快速服務(wù),不斷優(yōu)化生產(chǎn)工作流程,實(shí)現(xiàn)降本增效,為科學(xué)運(yùn)營和決策提供支撐。與相關(guān)系統(tǒng)的關(guān)系數(shù)據(jù)分析綜合服務(wù)平臺(tái)數(shù)據(jù)分析綜合服務(wù)平臺(tái)是依托集團(tuán)綜合網(wǎng),實(shí)現(xiàn)郵務(wù)數(shù)據(jù)集中及整合,為集團(tuán)公司和各省分公司提供企業(yè)數(shù)據(jù)分析挖掘服務(wù),對(duì)內(nèi)對(duì)外提供數(shù)據(jù)服務(wù)的信息系統(tǒng)。該系統(tǒng)使用Oracle數(shù)據(jù)庫,目前數(shù)據(jù)量已達(dá)到9TB,平均日增長量約22GB。目前該系統(tǒng)已經(jīng)對(duì)接了13個(gè)業(yè)務(wù)系統(tǒng)(集郵系統(tǒng)、報(bào)刊系統(tǒng)、電商平臺(tái)-機(jī)票、網(wǎng)運(yùn)系統(tǒng)、郵資封片卡系統(tǒng)、短信平臺(tái)、農(nóng)資分銷系統(tǒng)、賀卡兌獎(jiǎng)平臺(tái)、營業(yè)系統(tǒng)、投遞系統(tǒng)、客管系統(tǒng)、訂單系統(tǒng)、國際業(yè)務(wù)平臺(tái)),實(shí)現(xiàn)了31個(gè)省的郵務(wù)類數(shù)據(jù)的上傳及下載。系統(tǒng)實(shí)現(xiàn)將數(shù)據(jù)由全國中心推送至省中心;實(shí)現(xiàn)已有專題分析的固化,包括報(bào)刊、約投掛號(hào)、國內(nèi)國際小包專題分析結(jié)果的固化展現(xiàn);實(shí)現(xiàn)將接入系統(tǒng)的數(shù)據(jù)按照業(yè)務(wù)規(guī)則進(jìn)行后臺(tái)加載、評(píng)估、清洗、重構(gòu),并按照客戶維度進(jìn)行數(shù)據(jù)整合;提供對(duì)內(nèi)對(duì)外數(shù)據(jù)服務(wù),支持客戶數(shù)據(jù)的上傳和結(jié)果下載、郵編匹配、地址清洗匹配等功能。數(shù)據(jù)分析綜合服務(wù)平臺(tái)是大數(shù)據(jù)平臺(tái)的子集,數(shù)據(jù)分析綜合服務(wù)平臺(tái)的數(shù)據(jù)是大數(shù)據(jù)平臺(tái)的數(shù)據(jù)集市之一。量收系統(tǒng)量收系統(tǒng)是通過從集團(tuán)生產(chǎn)經(jīng)營業(yè)務(wù)系統(tǒng)及其他相關(guān)系統(tǒng)中自動(dòng)采集、匯總、上傳業(yè)務(wù)量、業(yè)務(wù)收入信息(簡稱量收信息),進(jìn)行稽核、查詢、分析、預(yù)警等應(yīng)用的信息管理系統(tǒng)。該系統(tǒng)使用Teradata的數(shù)據(jù)倉庫和Oracle的數(shù)據(jù)庫,數(shù)據(jù)使用空間已接近15TB。目前該系統(tǒng)已經(jīng)對(duì)接了8個(gè)業(yè)務(wù)系統(tǒng)(速遞平臺(tái)、集郵系統(tǒng)、營業(yè)系統(tǒng)、訂單系統(tǒng)、報(bào)刊系統(tǒng)、農(nóng)資分銷系統(tǒng)、郵資機(jī)管理系統(tǒng)、電商平臺(tái)),此外,通過營業(yè)系統(tǒng)還接入商函、國際普郵、電子商務(wù)、短信等業(yè)務(wù)數(shù)據(jù)。現(xiàn)有使用用戶2.9萬個(gè),提供近500張報(bào)表的查詢,實(shí)現(xiàn)集團(tuán)業(yè)務(wù)量收入的統(tǒng)計(jì)分析,為企業(yè)的經(jīng)營管理起到了很重要的作用,但隨著管理要求的不斷提高,量收系統(tǒng)的能力已捉襟見肘。集團(tuán)大數(shù)據(jù)平臺(tái)建成后,將替代量收系統(tǒng)。金融大數(shù)據(jù)平臺(tái)大數(shù)據(jù)平臺(tái)從金融大數(shù)據(jù)平臺(tái)獲取金融客戶、市場營銷等數(shù)據(jù)分析結(jié)果以及相關(guān)數(shù)據(jù),與金融大數(shù)據(jù)平臺(tái)互為數(shù)據(jù)源,用于支撐集團(tuán)郵務(wù)、速遞物流和金融板塊對(duì)數(shù)據(jù)分析的需求。各生產(chǎn)系統(tǒng)大數(shù)據(jù)平臺(tái)從各生產(chǎn)系統(tǒng)獲取交易數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)等,對(duì)數(shù)據(jù)進(jìn)行分析挖掘,將分析成果反饋回各生產(chǎn)系統(tǒng)用于支撐生產(chǎn)運(yùn)營。CRMCRM系統(tǒng)實(shí)現(xiàn)以客戶為中心的集團(tuán)與板塊間的協(xié)同管控,以及集團(tuán)各環(huán)節(jié)間客戶營銷及服務(wù)的協(xié)同管理。大數(shù)據(jù)平臺(tái)將實(shí)現(xiàn)CRM系統(tǒng)的部分?jǐn)?shù)據(jù)分析功能。公司介紹和優(yōu)勢特點(diǎn)XXXX北京XXXX信息科技有限公司(XXXX)成立于2011年3月,總部設(shè)在北京,在南京及沈陽等地設(shè)有技術(shù)研發(fā)中心和辦事機(jī)構(gòu)。公司注冊資金2080萬,是北京市高新技術(shù)企業(yè)。公司專注于企業(yè)級(jí)數(shù)據(jù)(倉)庫和大數(shù)據(jù)領(lǐng)域的技術(shù)和應(yīng)用,業(yè)務(wù)和技術(shù)能力發(fā)展迅速,核心和骨干成員均具有領(lǐng)域內(nèi)資深的業(yè)務(wù)經(jīng)驗(yàn)、技術(shù)能力以及落地實(shí)踐,對(duì)基于從集群到云平臺(tái)、從傳統(tǒng)數(shù)據(jù)庫到MPP以及Hadoop的各種數(shù)據(jù)管理和應(yīng)用平臺(tái)架構(gòu)及演進(jìn)路線圖均有深刻的理解和積累。公司通過不斷的實(shí)踐積累,獨(dú)立研發(fā)了包括結(jié)構(gòu)化、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)在內(nèi)的一系列從數(shù)據(jù)獲取(抽?。?shù)據(jù)管理到數(shù)據(jù)應(yīng)用的多項(xiàng)擁有自主知識(shí)產(chǎn)權(quán)的產(chǎn)品和服務(wù),包括數(shù)據(jù)平臺(tái)交互系統(tǒng)、數(shù)據(jù)BI分析系統(tǒng)、智能地址匹配系統(tǒng)、互聯(lián)網(wǎng)信息獲取與分析系統(tǒng)(iRIS)、自然語言處理(iNLP)和機(jī)器學(xué)習(xí)挖掘算法等方面。另外,公司積極與國內(nèi)外大數(shù)據(jù)領(lǐng)域先進(jìn)的解決方案、平臺(tái)和工具廠商包括Teradata、南大通用、IBM、星環(huán)科技(Transwarp)、Trinity和SAS等都有深入和緊密的合作關(guān)系及基礎(chǔ)。在質(zhì)量管理體系上,公司以GB/T19001-2008《質(zhì)量管理體系-要求》為標(biāo)準(zhǔn),進(jìn)行周密的質(zhì)量管理體系策劃,建立了完整的質(zhì)量管理體系,獲得了認(rèn)證中心頒發(fā)的質(zhì)量管理體系認(rèn)證證書。公司在組織結(jié)構(gòu)中設(shè)立了過程管控委員會(huì),專職負(fù)責(zé)貫徹實(shí)施公司質(zhì)量方針、質(zhì)量目標(biāo),維護(hù)ISO9001質(zhì)量管理體系有效運(yùn)行,控制產(chǎn)品質(zhì)量,實(shí)現(xiàn)產(chǎn)品和服務(wù)質(zhì)量的持續(xù)改進(jìn)。公司財(cái)務(wù)及營運(yùn)狀況良好,具有一般納稅人資格,具備獨(dú)立、完整的會(huì)計(jì)核算和內(nèi)部控制體系,配備專業(yè)的會(huì)計(jì)核算與管理人員,財(cái)務(wù)核算制度健全,能夠據(jù)以如實(shí)核算,準(zhǔn)確及時(shí)的反映生產(chǎn)經(jīng)營成果。公司嚴(yán)格執(zhí)行企業(yè)會(huì)計(jì)準(zhǔn)則和《企業(yè)會(huì)計(jì)制度》的有關(guān)規(guī)定,以權(quán)責(zé)發(fā)生制為記賬原則,以實(shí)際成本為計(jì)價(jià)基礎(chǔ),財(cái)務(wù)報(bào)表在所有重大方面均能公允反映公司的財(cái)務(wù)狀況以及經(jīng)營成果和現(xiàn)金流量。公司始終堅(jiān)持“服務(wù)的價(jià)值在于幫助客戶成功”的理念,為客戶提供的產(chǎn)品和服務(wù)追求“專業(yè)、專注、極致、價(jià)值”。TRANSWARP星環(huán)信息科技(上海)有限公司(以下簡稱“星環(huán)公司”)是一家高科技大數(shù)據(jù)公司。公司致力于大數(shù)據(jù)基礎(chǔ)軟件的研發(fā),目前擁有超過300人的Hadoop專業(yè)團(tuán)隊(duì),大部分來自于IBM、Intel、Microsoft、Oracle、EMC等知名企業(yè),其中技術(shù)研發(fā)人員占80%以上。無論是團(tuán)隊(duì)規(guī)模,還是人員的整體能力,在全球大數(shù)據(jù)平臺(tái)領(lǐng)域都處于領(lǐng)先位置。在國際知名咨詢機(jī)構(gòu)Gartner發(fā)布的2016版數(shù)據(jù)倉庫及數(shù)據(jù)管理解決方案市場的魔力象限報(bào)告中,來自中國的公司星環(huán)科技(Transwarp)是唯一一家上榜的中國公司,也是魔力象限遠(yuǎn)見者(Visionaries)領(lǐng)域中全球最具有前瞻性的公司。圖2-1Gartner2016數(shù)據(jù)倉庫魔力象限評(píng)測結(jié)果星環(huán)科技從事大數(shù)據(jù)核心平臺(tái)的研發(fā)與服務(wù),基于TDH大數(shù)據(jù)平臺(tái)軟件全國產(chǎn)化,將大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)倉庫結(jié)合,已經(jīng)為國內(nèi)多家金融銀行機(jī)構(gòu)提供專業(yè)化的數(shù)據(jù)倉庫服務(wù),包括江蘇銀行、恒豐銀行、民生銀行、中泰證券等。星環(huán)公司已經(jīng)在國內(nèi)建立200多個(gè)大數(shù)據(jù)應(yīng)用案例,覆蓋行業(yè)包括金融、運(yùn)營商、互聯(lián)網(wǎng)、政府、能源、制造業(yè)、軍工、教育、交通運(yùn)輸、公安等行業(yè),目前是國內(nèi)市場落地案例最多、應(yīng)用范圍最為廣泛的大數(shù)據(jù)平臺(tái)提供商,星環(huán)公司已經(jīng)成為全球矚目的大數(shù)據(jù)平臺(tái)商。我們的優(yōu)勢北京XXXX信息科技有限公司與星環(huán)信息科技(上海)有限公司緊密協(xié)作,參與集團(tuán)大數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè),與其他友商相比具有以下四方面的優(yōu)勢特點(diǎn):圖2-2公司優(yōu)勢大數(shù)據(jù)平臺(tái)產(chǎn)品技術(shù)優(yōu)勢SQLonHadoop技術(shù)領(lǐng)先國內(nèi)外廠商。SQL99、SQL2003標(biāo)準(zhǔn)的全面兼容性,支持PL/SQL、分布式事務(wù)、分布式內(nèi)存OLAP/Cube等平臺(tái)特性,為企業(yè)級(jí)數(shù)倉建設(shè)奠定堅(jiān)實(shí)的平臺(tái)基礎(chǔ)。國內(nèi)首家實(shí)現(xiàn)并成功運(yùn)用HadooponDocker分布式容器集群管理平臺(tái)技術(shù)。TranswarpOperatingSystem(TOS)是為大數(shù)據(jù)應(yīng)用量身訂做的云操作系統(tǒng),支持一鍵部署TDH,基于優(yōu)先級(jí)的搶占式資源調(diào)度和細(xì)粒度資源分配,讓大數(shù)據(jù)應(yīng)用輕松擁抱云服務(wù)。具有基于Hadoop平臺(tái)成功建設(shè)企業(yè)級(jí)數(shù)倉的豐富經(jīng)驗(yàn) 星環(huán)Hadoop平臺(tái)產(chǎn)品已在國內(nèi)100多個(gè)大數(shù)據(jù)項(xiàng)目建設(shè)中得以應(yīng)用,行業(yè)覆蓋金融、運(yùn)營商、互聯(lián)網(wǎng)、政府、能源等行業(yè),其中有多個(gè)基于Hadoop平臺(tái)完全實(shí)現(xiàn)企業(yè)級(jí)數(shù)倉系統(tǒng)的成功案例,在企業(yè)級(jí)數(shù)倉平滑可靠遷移及替換國外MPP數(shù)倉系統(tǒng)、高性價(jià)比提升企業(yè)數(shù)倉性能方面,積累了豐富的實(shí)踐經(jīng)驗(yàn)。作為Hadoop創(chuàng)新應(yīng)用的開拓者,星環(huán)公司目前已成為在國內(nèi)市場落地案例最多、應(yīng)用范圍最為廣泛的大數(shù)據(jù)平臺(tái)提供商。大數(shù)據(jù)分析挖掘團(tuán)隊(duì)的專業(yè)實(shí)施經(jīng)驗(yàn)優(yōu)勢 XXXX公司在大數(shù)據(jù)可視化交互展現(xiàn)和多維分析查詢、大數(shù)據(jù)分析挖掘、自然語言處理(iNLP)、地址清洗匹配服務(wù)等方面積累了自有的產(chǎn)品技術(shù)并成功運(yùn)用到集團(tuán)、金融保險(xiǎn)、IT等行業(yè)。經(jīng)歷多年大數(shù)據(jù)實(shí)戰(zhàn)項(xiàng)目的鍛煉,培養(yǎng)建立起了一支專業(yè)的大數(shù)據(jù)分析挖掘團(tuán)隊(duì),能夠運(yùn)用多種分析挖掘工具和并行化算法庫,從大數(shù)據(jù)中挖掘客戶價(jià)值,為集團(tuán)、金融、IT等行業(yè)的經(jīng)營分析、決策支持提供專業(yè)的技術(shù)支持服務(wù)。集團(tuán)項(xiàng)目實(shí)施經(jīng)驗(yàn)優(yōu)勢 XXXX公司有多名核心技術(shù)骨干人員參與過集團(tuán)的量收系統(tǒng)、全國名址、EMS平臺(tái)、綜分平臺(tái)等大型項(xiàng)目的總體架構(gòu)設(shè)計(jì)、應(yīng)用系統(tǒng)開發(fā)、數(shù)倉建設(shè)及系統(tǒng)運(yùn)維等工作,熟悉現(xiàn)有數(shù)倉系統(tǒng)的數(shù)據(jù)模型、ETL流程及匯總處理程序、數(shù)據(jù)接口格式及應(yīng)用集成要求等,對(duì)現(xiàn)有數(shù)倉的遷移及大數(shù)據(jù)平臺(tái)應(yīng)用做了充分的PoC實(shí)驗(yàn)驗(yàn)證,明悉遷移工作中的難點(diǎn)及重點(diǎn)問題并有針對(duì)性的風(fēng)險(xiǎn)防范及管控措施加以解決。因而,我方的集團(tuán)項(xiàng)目實(shí)施經(jīng)驗(yàn)結(jié)合極具優(yōu)勢的大數(shù)據(jù)平臺(tái)產(chǎn)品技術(shù),我方有充分的信心,在短時(shí)間內(nèi)高質(zhì)量、高可靠地完成本項(xiàng)目任務(wù)。業(yè)務(wù)需求分析總體需求大數(shù)據(jù)平臺(tái)應(yīng)支持集團(tuán)總部、省和地市三級(jí)使用方式。使用單位還包括下屬單位和控股公司等。大數(shù)據(jù)平臺(tái)要求使用Hadoop系統(tǒng)應(yīng)實(shí)現(xiàn)主流數(shù)據(jù)倉庫的功能,同時(shí)支持與現(xiàn)有系統(tǒng)Oracle數(shù)據(jù)庫及Teradata數(shù)據(jù)倉庫的無縫連接。大數(shù)據(jù)平臺(tái)需支持多應(yīng)用管理,即支持對(duì)應(yīng)用的服務(wù)級(jí)別管理(SLA)。能夠?qū)崿F(xiàn)應(yīng)用的訪問資源控制,支持資源隔離。同時(shí)支持多租戶功能,例如多租戶管理、租戶的操作員管理、租戶的分等分級(jí)分組管理、租戶的度量管理、租戶的角色管理、租戶應(yīng)用授權(quán)、租戶數(shù)據(jù)隔離、租戶的資源隔離等功能。大數(shù)據(jù)平臺(tái)應(yīng)具有統(tǒng)一運(yùn)維監(jiān)控方面,可以圖形化的實(shí)現(xiàn)安全管理、用戶管理、監(jiān)控運(yùn)維、服務(wù)調(diào)度、應(yīng)用部署、資源管理、作業(yè)編排、服務(wù)接口等。大數(shù)據(jù)平臺(tái)應(yīng)同時(shí)支持作業(yè)調(diào)度管理,即實(shí)現(xiàn)統(tǒng)一的作業(yè)調(diào)度與編排管理功能,支持使用工作流的可視化的方式對(duì)工作任務(wù)進(jìn)行統(tǒng)一編排和調(diào)度。同時(shí)支持作業(yè)的資源管理、流程管理、任務(wù)管理、數(shù)據(jù)管理、應(yīng)用管理、租戶管理、多ETL調(diào)度任務(wù)的部署和并行處理等功能。集團(tuán)大數(shù)據(jù)平臺(tái)的建設(shè)內(nèi)容包含:圖3-1大數(shù)據(jù)平臺(tái)建設(shè)內(nèi)容重點(diǎn)建設(shè)內(nèi)容包括:基礎(chǔ)平臺(tái)建設(shè)量收遷移六大重點(diǎn)應(yīng)用與CRM、綜分、MDM等系統(tǒng)的融合基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)應(yīng)用。數(shù)據(jù)管理集團(tuán)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管理,包含數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)存儲(chǔ)與管理(包含結(jié)構(gòu)化數(shù)據(jù)管理、半/非結(jié)構(gòu)化數(shù)據(jù)管理、數(shù)據(jù)存儲(chǔ)等)、數(shù)據(jù)清洗加工、數(shù)據(jù)計(jì)算和查詢等方面的內(nèi)容。數(shù)據(jù)采集大數(shù)據(jù)平臺(tái)需要采集各類內(nèi)外部數(shù)據(jù),形式多樣,需支持不同頻度、不同形態(tài)的數(shù)據(jù)采集。采集方式包含網(wǎng)上數(shù)據(jù)填報(bào)、流方式、批量導(dǎo)入方式、外部數(shù)據(jù)文件導(dǎo)入、異構(gòu)數(shù)據(jù)庫導(dǎo)入、主動(dòng)數(shù)據(jù)抽取、增量追加方式、網(wǎng)上爬蟲方式等,數(shù)據(jù)形態(tài)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)交換與大數(shù)據(jù)平臺(tái)對(duì)接的系統(tǒng)很多,這些系統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)各異。因此,數(shù)據(jù)交換方面,需要考慮各類數(shù)據(jù)格式、各類傳輸頻次的數(shù)據(jù)導(dǎo)入導(dǎo)出。數(shù)據(jù)源包括各業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入、互聯(lián)網(wǎng)數(shù)據(jù)采集、合作伙伴系統(tǒng)數(shù)據(jù)接入、外部臨時(shí)數(shù)據(jù)導(dǎo)入支持等。數(shù)據(jù)格式主要包含文本文件,XML等多種方式,傳輸頻次包含非實(shí)時(shí)、準(zhǔn)實(shí)時(shí)、實(shí)時(shí)形式。同時(shí)支持?jǐn)?shù)據(jù)源管理功能,實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)內(nèi)各存儲(chǔ)區(qū)之間的數(shù)據(jù)交換功能,提供可自定義的對(duì)外數(shù)據(jù)服務(wù)接口能力,同時(shí)支持?jǐn)?shù)據(jù)接口熱擴(kuò)展能力。數(shù)據(jù)存儲(chǔ)與管理結(jié)構(gòu)化數(shù)據(jù)管理包括對(duì)結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲(chǔ)管理、對(duì)外接口、實(shí)時(shí)監(jiān)控、安全管理、數(shù)據(jù)重構(gòu)等功能。半/非結(jié)構(gòu)化數(shù)據(jù)管理包括半/非結(jié)構(gòu)化數(shù)據(jù)的采集管理、數(shù)據(jù)內(nèi)容搜索、數(shù)據(jù)生命周期管理、數(shù)據(jù)加工管理、數(shù)據(jù)存儲(chǔ)管理、對(duì)外接口、混合查詢、實(shí)時(shí)監(jiān)控、自然語言查詢、智能化知識(shí)檢索功能。數(shù)據(jù)存儲(chǔ)管理功能包括數(shù)據(jù)分區(qū)劃分方式、適用場景、對(duì)應(yīng)計(jì)算處理框架、硬件配置推薦等。同時(shí)需要支持多存儲(chǔ)層級(jí),實(shí)現(xiàn)數(shù)據(jù)的多溫度管理,能夠?qū)?shù)據(jù)存儲(chǔ)在不同IO讀寫速度的不同介質(zhì)上。支持對(duì)數(shù)據(jù)生命周期進(jìn)行管理。支持多種索引模式,具有索引分析與選擇功能和工具。支持多數(shù)據(jù)副本管理功能,能夠進(jìn)行數(shù)據(jù)平衡、索引平衡的檢測。支持自動(dòng)平衡功能和數(shù)據(jù)自動(dòng)重分布功能,提供數(shù)據(jù)平衡和索引平衡的工具。支持在線變動(dòng)節(jié)點(diǎn)管理功能,支持在線增加、刪除節(jié)點(diǎn)時(shí),數(shù)據(jù)和索引的傾斜探測和自動(dòng)平衡功能,保證平滑擴(kuò)展和性能的線性增長。支持多種數(shù)據(jù)分區(qū)管理、多數(shù)據(jù)類型管理、多文件格式管理、數(shù)據(jù)自定義標(biāo)簽管理、數(shù)據(jù)塊讀寫鎖處理、數(shù)據(jù)文件元數(shù)據(jù)備份和恢復(fù),支持?jǐn)?shù)據(jù)壓縮、表壓縮功能,節(jié)省數(shù)據(jù)空間。數(shù)據(jù)加工清洗支持?jǐn)?shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目標(biāo)端的過程。支持多數(shù)據(jù)源,包括Teradata、Vertica、DB2、Oracle、Sybase、文本、Excel、Hadoop等數(shù)據(jù)源。實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫與Hadoop以及Hadoop集群之間的數(shù)據(jù)抽取、轉(zhuǎn)換、加載等功能。支持?jǐn)?shù)據(jù)加工功能,提供數(shù)據(jù)加工規(guī)則管理,支持不同形態(tài)數(shù)據(jù)加工管理;支持?jǐn)?shù)據(jù)清洗功能,包括數(shù)據(jù)清洗環(huán)節(jié)管理、數(shù)據(jù)清洗規(guī)則管理、數(shù)據(jù)清洗監(jiān)控、數(shù)據(jù)清洗預(yù)覽、應(yīng)用主數(shù)據(jù)進(jìn)行清洗管理等功能。數(shù)據(jù)查詢計(jì)算支持對(duì)多計(jì)算框架管理,計(jì)算框架包括批處理計(jì)算框架、內(nèi)存計(jì)算框架、流計(jì)算框架等。支持并行計(jì)算及并發(fā)處理功能,支持多服務(wù)器、多CPU、多進(jìn)程并行及并發(fā)處理數(shù)據(jù)的機(jī)制。支持PL/SQL存儲(chǔ)過程、分布式事務(wù)及ACID屬性及自定義函數(shù)功能。能夠?qū)崿F(xiàn)OLAP查詢功能,需要內(nèi)置OLAP函數(shù),支持超大數(shù)據(jù)立方,支持雪花、星型等復(fù)雜模型。支持CUBE,支持國際SQL92、SQL2003標(biāo)準(zhǔn),能夠?qū)崿F(xiàn)數(shù)據(jù)字典、動(dòng)態(tài)SQL執(zhí)行、視圖、子查詢、JOIN查詢功能。支持全文檢索。支持中文字符集,實(shí)現(xiàn)中文分詞功能,支持結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合查詢,支持預(yù)定義維度數(shù)據(jù)查詢,支持簡單查詢、組合查詢、模糊查詢等。數(shù)據(jù)管控?cái)?shù)據(jù)管控主要是對(duì)主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的管控。集團(tuán)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管控組件對(duì)集團(tuán)集團(tuán)現(xiàn)有的產(chǎn)品能夠完善集成,使集團(tuán)元數(shù)據(jù)能夠整體管理。圖3-2大數(shù)據(jù)平臺(tái)數(shù)據(jù)管控?cái)?shù)據(jù)分析與挖掘本方案對(duì)R語言提供支持。支持ANSISQL、Python、R、Java、C/C++等語言的使用。應(yīng)提供圖形化界面操作支持,操作界面要求簡體中文。支持對(duì)TB以上級(jí)別的數(shù)據(jù)進(jìn)行分析挖掘的功能,應(yīng)對(duì)分析挖掘中的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)的靈活存儲(chǔ)提供支持,應(yīng)對(duì)多數(shù)據(jù)來源輸入輸出提供支持。支持處理過程的數(shù)據(jù)預(yù)覽功能。支持?jǐn)?shù)據(jù)分析挖掘算法管理,每個(gè)算法能夠靈活選擇數(shù)據(jù)源。支持對(duì)分析挖掘的腳本和模型的共享,可實(shí)現(xiàn)用戶分析挖掘腳本和模型的發(fā)布與管理。支持?jǐn)?shù)據(jù)的探索和發(fā)現(xiàn),實(shí)現(xiàn)通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)結(jié)構(gòu)和規(guī)律。對(duì)統(tǒng)計(jì)分析方法、數(shù)據(jù)挖掘、模型預(yù)測提供支持,并實(shí)現(xiàn)其分布式并行計(jì)算。對(duì)常用場景實(shí)現(xiàn)提供支持。場景包括客戶畫像、產(chǎn)品推薦、自然語言處理、語義分析、輿情分析、文本挖掘、客戶行為預(yù)測等。對(duì)分析挖掘的腳本和模型的快速應(yīng)用、服務(wù)提供支持,能夠快速生成分析報(bào)告和圖表、發(fā)布實(shí)時(shí)/非實(shí)時(shí)的分析應(yīng)用、使用Web方式訪問分析應(yīng)用成果。實(shí)現(xiàn)對(duì)分析指標(biāo)管理、分析過程的管理以及對(duì)挖掘模型固化的支持。數(shù)據(jù)展現(xiàn)支持多數(shù)據(jù)來源輸入輸出;支持表格、圖形、地圖等可視化元素展示,對(duì)電子地圖、GPS定位的應(yīng)用、服務(wù)提供支持。支持?jǐn)?shù)據(jù)互動(dòng)、過濾、鉆取、刷取、關(guān)聯(lián)、變換等功能。支持多維度多種類的自定義。支持?jǐn)?shù)據(jù)脫敏的展示。支持多種展示端的展示,包括PC端、移動(dòng)端、大屏等。其中移動(dòng)端應(yīng)基于集團(tuán)移動(dòng)應(yīng)用平臺(tái)架構(gòu)建設(shè)。量收系統(tǒng)功能遷移量收系統(tǒng)主要功能有基本業(yè)務(wù)分析、渠道分析、產(chǎn)品分析、大客戶分析、欠費(fèi)分析、流量流向分析、進(jìn)銷存分析、預(yù)警稽核、系統(tǒng)優(yōu)化功能等,需要對(duì)原量收系統(tǒng)全部功能進(jìn)行遷移。系統(tǒng)架構(gòu)設(shè)計(jì)總體設(shè)計(jì)目標(biāo)建立集團(tuán)的企業(yè)級(jí)數(shù)據(jù)中心,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的歸集、整理、加工和分析,并利用大數(shù)據(jù)相關(guān)技術(shù)及數(shù)據(jù)分析挖掘工具,建立數(shù)據(jù)應(yīng)用模型,為全網(wǎng)提供決策支持、產(chǎn)品創(chuàng)新、交叉營銷、流程優(yōu)化、服務(wù)支撐以及風(fēng)險(xiǎn)管控等服務(wù),有效地挖掘數(shù)據(jù)的價(jià)值,實(shí)現(xiàn)集團(tuán)數(shù)據(jù)資源的“共享、共用、共贏”。總體設(shè)計(jì)原則標(biāo)準(zhǔn)化:本系統(tǒng)采用的技術(shù)架構(gòu)均遵循網(wǎng)絡(luò)協(xié)議和傳輸標(biāo)準(zhǔn)的要求,相關(guān)開源及原創(chuàng)技術(shù)均符合國際技術(shù)組織條款規(guī)范。提供文檔標(biāo)準(zhǔn)化,滿足GB8567-1988、GB/T11457-89的行業(yè)標(biāo)準(zhǔn);可擴(kuò)展性:由于用戶以后的需求會(huì)不斷發(fā)展,使用人數(shù)將隨之?dāng)U大,業(yè)務(wù)壓力不斷上升,只要橫向擴(kuò)展增加服務(wù)器臺(tái)數(shù),不用添加其它附加設(shè)備,以保證用戶的原投資被利用。可用性和可靠性:我們的方案在充分考慮用戶實(shí)際情況的基礎(chǔ)上,選用F5作為負(fù)載均衡器,采用了Weblogic作為Web應(yīng)用容器,操作系統(tǒng)采用紅旗版Linux,從而減少了其它因素造成的故障。易用性:該系統(tǒng)使用界面良好,用戶無需安裝客戶端軟件,只需通過IE瀏覽器就可進(jìn)行實(shí)時(shí)操作,同時(shí)系統(tǒng)架構(gòu)設(shè)計(jì)優(yōu)良,可以很方便進(jìn)行系統(tǒng)升級(jí)。開發(fā)式結(jié)構(gòu):該系統(tǒng)內(nèi)置“數(shù)據(jù)交換適配平臺(tái)”可以與第三方系統(tǒng)相融合,可以讀取第三方系統(tǒng)的相關(guān)數(shù)據(jù),可以為第三方系統(tǒng)提供其需要的相關(guān)數(shù)據(jù),提供標(biāo)準(zhǔn)的WebService接口,具有開放式結(jié)構(gòu)。完善和可靠性:具有設(shè)計(jì)獨(dú)到的功能使用及數(shù)據(jù)訪問權(quán)限控制,保證統(tǒng)一、規(guī)范管理,支持3DES和RSA加密技術(shù),使數(shù)據(jù)存儲(chǔ)和傳輸安全牢不可破。系統(tǒng)具有錯(cuò)誤故障日志記錄功能,便于快速診斷定位問題。實(shí)時(shí)性:該系統(tǒng)支持負(fù)載均衡技術(shù),及時(shí)響應(yīng)多人實(shí)時(shí)并發(fā)操作。先進(jìn)性:基于統(tǒng)一的整體架構(gòu),采用先進(jìn)的、成熟的、可靠的技術(shù)與軟硬件平臺(tái),保證數(shù)據(jù)倉庫系統(tǒng)易擴(kuò)展、易升級(jí)、易操作、易維護(hù)等特性。高效性:線性擴(kuò)展的TDH的數(shù)據(jù)倉庫平臺(tái),保證了ETL時(shí)間的窗口以及查詢效率,數(shù)據(jù)抽取的特殊性,通常在夜間業(yè)務(wù)稀少的情況下進(jìn)行數(shù)據(jù)抽取,減少了對(duì)其他系統(tǒng)的影響。正確性:數(shù)據(jù)質(zhì)量貫穿數(shù)據(jù)倉庫系統(tǒng)建設(shè)的每個(gè)環(huán)節(jié),數(shù)據(jù)倉庫系統(tǒng)通過合理的數(shù)據(jù)質(zhì)量管理方法論保證數(shù)據(jù)質(zhì)量。案例分析建議中國聯(lián)通大數(shù)據(jù)平臺(tái)聯(lián)通集團(tuán)公司按照工信部的的要求(見《工業(yè)和信息化部、國務(wù)院國有資產(chǎn)監(jiān)督管理委員會(huì)關(guān)于開展基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全責(zé)任考核有關(guān)工作的指導(dǎo)意見》和《工業(yè)和信息化部辦公廳關(guān)于印發(fā)<2013年省級(jí)基礎(chǔ)電信企業(yè)網(wǎng)絡(luò)與信息安全工作考核要點(diǎn)與評(píng)分標(biāo)準(zhǔn)>的通知》),于2013年啟動(dòng)IDC/ISP日志留存系統(tǒng)的建設(shè),其中集團(tuán)側(cè)的集中留存系統(tǒng)軟件由聯(lián)通研究院負(fù)責(zé)開發(fā)。為了滿足海量數(shù)據(jù)條件下的處理效率的要求,集團(tuán)側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲(chǔ)部分計(jì)劃進(jìn)行外包,通過軟件技術(shù)服務(wù),來進(jìn)行系統(tǒng)優(yōu)化和維護(hù)支撐。項(xiàng)目概述目前,聯(lián)通集團(tuán)公司全國IDC出口的訪問日志預(yù)計(jì)兩個(gè)月產(chǎn)生的數(shù)據(jù)量約20PB至30PB,每秒寫入大概6千萬至7千萬條數(shù)據(jù),在如此巨大的數(shù)據(jù)量下,原有Teradata和Oracle已經(jīng)不能滿足快速讀寫的性能要求了。同時(shí)為了實(shí)現(xiàn)快速檢索以及分析處理的性能要求,需要引入分布式大數(shù)據(jù)平臺(tái),利用分布式文件存儲(chǔ)系統(tǒng),提高數(shù)據(jù)的存儲(chǔ)入庫能力,利用Hadoop/HBase架構(gòu)克服磁盤I/O瓶頸導(dǎo)致的數(shù)據(jù)讀寫延遲;基于聯(lián)通IDC出口流量詳單數(shù)據(jù)進(jìn)行快速存儲(chǔ)和檢索以及分析處理,同樣要求數(shù)據(jù)處理平臺(tái)具備快速讀寫的高性能。中國聯(lián)通公司全國IDC日至留存項(xiàng)目對(duì)分布式集群的要求非常高:日志數(shù)據(jù)量非常大,存儲(chǔ)的總?cè)罩緮?shù)據(jù)量將達(dá)到20PB-30PB。要求集群的數(shù)據(jù)吞吐量非常高,每秒的日志寫入量將達(dá)到6千萬至七千萬條,未來還會(huì)增長更多,每秒的數(shù)據(jù)寫入量為上百GB數(shù)據(jù)訪問的性能要求非常高,對(duì)日志的分析需要分鐘級(jí)、甚至秒級(jí)返回結(jié)果。數(shù)據(jù)計(jì)算量大,日常日志掃描任務(wù)就需要掃描上百TB,甚至上PB的數(shù)據(jù)。集群的擴(kuò)展性要求非常高,能夠靈活擴(kuò)展至上千個(gè)節(jié)點(diǎn)的集群。根據(jù)此次中國聯(lián)通的需求,以及項(xiàng)目的特點(diǎn)和技術(shù)要求,推薦采用商用的、成熟的、基于星環(huán)TranswarpDataHub的企業(yè)級(jí)大數(shù)據(jù)平臺(tái)套件,構(gòu)建中國聯(lián)通IDC日志留存平臺(tái)的基礎(chǔ)大數(shù)據(jù)平臺(tái),用于滿足海量日志的高速存儲(chǔ)、計(jì)算、分析、挖掘的需求。項(xiàng)目實(shí)施情況星環(huán)科技通過協(xié)助聯(lián)通集團(tuán)搭建基于星環(huán)TranswarpDataHub的大數(shù)據(jù)平臺(tái),成功為聯(lián)通集團(tuán)搭建了信息安全管理系統(tǒng)大數(shù)據(jù)存儲(chǔ)處理子系統(tǒng)項(xiàng)目所采用的平臺(tái)系統(tǒng)。分布式大數(shù)據(jù)平臺(tái)采用Hadoop/HBase架構(gòu),能夠支持對(duì)聯(lián)通IDC出口流量詳單的存儲(chǔ)和快速檢索和分析處理。系統(tǒng)拓?fù)洌簣D4-1聯(lián)通大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)整個(gè)集群由FTP集群和Hadoop集群組成,其中:FTP集群:由129臺(tái)服務(wù)器組成,hostname對(duì)應(yīng)為idcisp-ftp-001~idcisp-ftp-129功能:主要存放從各大機(jī)房傳輸過來的數(shù)據(jù),放到對(duì)應(yīng)目錄下由SuperListen進(jìn)程進(jìn)行監(jiān)控,并將數(shù)據(jù)統(tǒng)一傳輸?shù)紿adoop集群的HDFS上Hadoop集群:組成:Zookeeper11臺(tái),NameNode2臺(tái),ResourceManager1臺(tái),hamster5臺(tái),DataNode921臺(tái)功能:安裝了tdh相關(guān)的組件Hadoop、Hyperbase、Inceptor,存儲(chǔ)從ftp服務(wù)器傳輸過來的數(shù)據(jù),并定時(shí)導(dǎo)入到Hyperbase中,供上層應(yīng)用或程序的調(diào)用快速返回查詢結(jié)果,同時(shí)也可以通過inceptor進(jìn)行統(tǒng)計(jì)分析,暫時(shí)保存的數(shù)據(jù)是2+1月每天存儲(chǔ)Hyperbase中的數(shù)據(jù)大概10T左右,存儲(chǔ)的是2+1月,除了存儲(chǔ)在Hyperbase中的數(shù)據(jù),HDFS也會(huì)有原始數(shù)據(jù)的備份,現(xiàn)在空間占用大概在65%左右。TranswarpDataHub平臺(tái)部署拓?fù)鋱D:圖4-2聯(lián)通大數(shù)據(jù)平臺(tái)網(wǎng)絡(luò)拓?fù)鋵?shí)際部署星環(huán)的Hadoop集群,存儲(chǔ)能力達(dá)到全國IDC出口訪問日志兩個(gè)月的存儲(chǔ)能力,約為20PB,總帶寬16764G,每G每秒生成話單4000條計(jì)算,每秒新寫入數(shù)據(jù)為67056000條訪問日志。入庫方式:傳統(tǒng)的APIput方式平均每秒每臺(tái)機(jī)器只能入庫約2萬條數(shù)據(jù),900臺(tái)機(jī)器的極限是1.8千萬條/秒。遠(yuǎn)遠(yuǎn)低于數(shù)據(jù)灌入速度。Bulkload是唯一的選擇:定制化的Bulkload入庫效率約為單節(jié)點(diǎn)每秒12萬,900臺(tái)機(jī)器的入庫能力超過10.8千萬條/秒數(shù)據(jù)通過通過FTP服務(wù)器集群中部署HDFS寫入Agent方式直接由ftp集群直接上傳到HDFS中。注:之前IP溯源Bulkload對(duì)三張表(一張內(nèi)容表+2張索引表)的入庫效率為4萬條/秒/節(jié)點(diǎn)。此次為了最大限度的利用Bulkload的效率,一方面去除了2張索引表,另一方面也優(yōu)化了已有Bulkload代碼。優(yōu)化內(nèi)容:數(shù)據(jù)入庫時(shí)負(fù)載均衡,優(yōu)化rowkey中日期時(shí)間,避免數(shù)據(jù)寫熱點(diǎn)。8位UUID尾綴避免同一時(shí)間點(diǎn)上的數(shù)據(jù)相互覆蓋。Rowkey上優(yōu)化時(shí)間排序,加速讀過程,保證數(shù)據(jù)從最近到最遠(yuǎn)排序。保留60天歷史數(shù)據(jù),每天各建一張表,提升每張表的可管理性建表時(shí)預(yù)設(shè)15000個(gè)Region,提升Bulkload入庫效率。不建索引表,改用定制化的API滿足查詢需求,進(jìn)一步增大入庫帶寬。根據(jù)中國聯(lián)通對(duì)IDC出口的流量詳單的存儲(chǔ)與快速檢索、分析的處理的要求,星環(huán)科技為聯(lián)通集團(tuán)提供了如下技術(shù)組件與模塊:表4-1組件列表組件名稱組件功能支持運(yùn)行的應(yīng)用TranswarpInceptorTDH平臺(tái)組件服務(wù),提供對(duì)SQL99,SQL2003的完整支持,同時(shí)支持OraclePL/SQL,快速開發(fā)日志統(tǒng)計(jì)與分析TranswarpHyperbaseTDH平臺(tái)組件服務(wù),提供對(duì)海量日志數(shù)據(jù)的快速存儲(chǔ)與高并發(fā)訪問,提供高效的索引功能針對(duì)存儲(chǔ)的日志數(shù)據(jù)的快速檢索TranswarpHadoopTDH平臺(tái)組件服務(wù),分布式基礎(chǔ)平臺(tái)對(duì)高吞吐量的日志數(shù)據(jù)進(jìn)行快速的存儲(chǔ)TranswarpManagerTDH平臺(tái)組件服務(wù),TDH管理工具,圖形化、自動(dòng)化安裝、部署、配置、監(jiān)控、報(bào)警管理功能聯(lián)通集團(tuán)搭建的信息安全管理系統(tǒng)大數(shù)據(jù)存儲(chǔ)處理子系統(tǒng),所采用的硬件設(shè)備如下表所示:表4-2節(jié)點(diǎn)配置表服務(wù)器推薦配置及說明節(jié)點(diǎn)數(shù)量目前已經(jīng)超過900個(gè)節(jié)點(diǎn)CPU兩路8核處理器
2*E5-2620內(nèi)存64GBECCDDR3硬盤10個(gè)2TB的SATA硬盤,15000RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,
RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡星環(huán)科技作為大數(shù)據(jù)平臺(tái)技術(shù)提供商,集團(tuán)側(cè)集中留存系統(tǒng)軟件除研究院自主開發(fā)外,基于Hadoop的數(shù)據(jù)存儲(chǔ)部分計(jì)劃進(jìn)行外包,通過軟件技術(shù)服務(wù),來進(jìn)行系統(tǒng)優(yōu)化和維護(hù)支撐。表4-3項(xiàng)目概況所屬公司編號(hào)人員項(xiàng)目各個(gè)階段實(shí)施進(jìn)度以及人員參與情況架設(shè)計(jì)集群部署概要設(shè)計(jì)詳細(xì)設(shè)計(jì)應(yīng)用開發(fā)系統(tǒng)測試試運(yùn)行上線運(yùn)行2014.12~2014.122015.1~2015.12015.1~2015.12015.1~2015.32015.3~2015.62015.62015.82015.8~2015.102015.11聯(lián)通研究院參與人員1系統(tǒng)設(shè)計(jì)師√√√√√√2開發(fā)工程師1√√√√√√√3開發(fā)工程師2√√√√√√√4開發(fā)工程師3√√√√√√√星環(huán)科技人員1架構(gòu)師√√√√2實(shí)施工程師√√√√√√√√3運(yùn)維工程師√√√√√√√√服務(wù)外包公司人員1項(xiàng)目經(jīng)理√√√√√√2開發(fā)工程師1√√√√√√3開發(fā)工程師2√√√√√√4開發(fā)工程師3√√√√√√項(xiàng)目成果項(xiàng)目所搭建的星環(huán)TranswarpDataHub平臺(tái),克服在海量數(shù)據(jù)的條件下,因磁盤I/O性能帶來的數(shù)據(jù)處理瓶頸,分布式大數(shù)據(jù)平臺(tái)采用Hadoop/HBase架構(gòu),項(xiàng)目成果如下:搭建了超過900個(gè)節(jié)點(diǎn)的星環(huán)TranswarpDataHub集群,滿足約20000T(20PB)至30000T(30PB)的數(shù)據(jù)存儲(chǔ)能力以及每秒寫入大概6千萬至7千萬條數(shù)據(jù)的讀寫性能。經(jīng)測算,數(shù)據(jù)平臺(tái)的性能為:高速數(shù)據(jù)插入吞吐量遠(yuǎn)高于單節(jié)點(diǎn)30MB/S;單節(jié)點(diǎn)在索引上檢索性能不低于1W條/秒;提供數(shù)據(jù)據(jù)高并發(fā)查詢,單節(jié)點(diǎn)SQL并發(fā)度不低于3000次/秒;提供SQL對(duì)數(shù)據(jù)的高速統(tǒng)計(jì)分析,線性掃描性能單節(jié)點(diǎn)不低于80MB/S。通過Hyperbase對(duì)外提供的SQL接口,上層應(yīng)用通過SQL進(jìn)行數(shù)據(jù)訪問和查詢,極大的降低了對(duì)開發(fā)人員專業(yè)技能的要求,降低了系統(tǒng)維護(hù)成本,同時(shí)提高了應(yīng)用開發(fā)效率。通過Hyperbase集成的ElasticSearch功能,應(yīng)用層可以通過全文索引進(jìn)行日志數(shù)據(jù)的檢索,根據(jù)關(guān)鍵字的檢索響應(yīng)時(shí)間在20ms以內(nèi),整個(gè)集群可以承載的基于關(guān)鍵詞的檢索并發(fā)度遠(yuǎn)高于100萬/秒。對(duì)海量IDC出口訪問日志的分析性能極為高效,日掃描數(shù)據(jù)量超過100TB。入庫效率單節(jié)點(diǎn)每秒12萬條日志,集群總體入庫能力目前超過10.8千萬條/秒。每天Hyperbase新增存儲(chǔ)日志量超過50TB。項(xiàng)目意義基于星環(huán)TranswarpDataHub搭建的中國聯(lián)通IDC日志留存大數(shù)據(jù)平臺(tái),目前已經(jīng)部署了900多個(gè)x86服務(wù)器節(jié)點(diǎn),是目前國內(nèi)非互聯(lián)網(wǎng)公司范圍內(nèi)規(guī)模最大的單一客戶、單一集群的企業(yè)級(jí)大數(shù)據(jù)平臺(tái),從全球的非互聯(lián)網(wǎng)行業(yè)看,如此大的部署規(guī)模也不常見,是國內(nèi)集團(tuán)級(jí)、總部級(jí)客戶中非常成功的落地項(xiàng)目,充分證明星環(huán)科技TranswarpDataHub大數(shù)據(jù)平臺(tái)可以為企業(yè)級(jí)客戶提供成熟的、穩(wěn)定的的大規(guī)模部署方案,中國聯(lián)通IDC日志留存大數(shù)據(jù)平臺(tái)為集團(tuán)大數(shù)據(jù)平臺(tái)的建設(shè)提供了寶貴的經(jīng)驗(yàn),可以幫助集團(tuán)搭成功建起高效、穩(wěn)定的、充分滿足集團(tuán)需求以及符合集團(tuán)特色的大數(shù)據(jù)平臺(tái)。恒豐銀行大數(shù)據(jù)平臺(tái)恒豐銀行股份有限公司是12家全國性股份制商業(yè)銀行之一,其前身為1987年經(jīng)國務(wù)院同意、中國人民銀行批準(zhǔn)成立的煙臺(tái)住房儲(chǔ)蓄銀行。2003年經(jīng)中國人民銀行批準(zhǔn),正式改制為恒豐銀行股份有限公司,成為全國性股份制商業(yè)銀行。目前,恒豐銀行在全國設(shè)有14家一級(jí)分行,2家總行直管行,共256家分支機(jī)構(gòu);另外還發(fā)起設(shè)立了5家村鎮(zhèn)銀行。截至2015年末,恒豐銀行資產(chǎn)規(guī)模達(dá)到1.05萬億元,全年凈利潤同比增長14%,凈資產(chǎn)收益率ROE超過15%,新增分支機(jī)構(gòu)74家,與上年相比實(shí)現(xiàn)翻番,創(chuàng)歷年新高。在英國《銀行家》雜志發(fā)布的“2015年全球銀行1000強(qiáng)”排名中,恒豐銀行位列第170位。恒豐銀行較好的實(shí)現(xiàn)了盈利與穩(wěn)健發(fā)展的平衡。盈利能力方面,恒豐銀行在香港中文大學(xué)發(fā)布的《亞洲銀行競爭力研究報(bào)告》中位列亞洲銀行業(yè)第5位;穩(wěn)健發(fā)展能力方面,恒豐銀行在中國銀行業(yè)協(xié)會(huì)發(fā)布的“商業(yè)銀行穩(wěn)健發(fā)展能力‘陀螺(GYROSCOPE)評(píng)價(jià)體系’”中,在綜合能力排名中位列全國性商業(yè)銀行第7位,全國性股份制商業(yè)銀行前三。項(xiàng)目概述隨著利率市場化進(jìn)程加快、互聯(lián)網(wǎng)金融業(yè)態(tài)的發(fā)展,傳統(tǒng)銀行與實(shí)體經(jīng)濟(jì)的業(yè)務(wù)橫向聯(lián)系與深度融合進(jìn)展迅速,業(yè)務(wù)數(shù)據(jù)的內(nèi)容不斷豐富,建立在數(shù)據(jù)處理技術(shù)之上業(yè)務(wù)洞察能力也需要不斷提升。恒豐銀行處于業(yè)務(wù)發(fā)展的新階段,新業(yè)務(wù)模式的創(chuàng)新離不開數(shù)據(jù)的支持,也對(duì)數(shù)據(jù)信息服務(wù)的總體能力提出了新的要求?;诖髷?shù)據(jù)平臺(tái)技術(shù),整合現(xiàn)有行內(nèi)數(shù)據(jù),接入行外數(shù)據(jù),搭建處理能力更強(qiáng),更易于擴(kuò)展,性能更高的統(tǒng)一數(shù)據(jù)平臺(tái)。不僅可以很好的滿足高計(jì)算、高存儲(chǔ)、高負(fù)載的要求,更能夠?qū)A康臄?shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ)、清洗、加工、建模等,把先前無法利用的數(shù)據(jù)充分利用,提升對(duì)數(shù)據(jù)的認(rèn)識(shí),抓住機(jī)遇為恒豐銀行數(shù)據(jù)平臺(tái)建設(shè)做好最基礎(chǔ)、最扎實(shí)的工作。根據(jù)恒豐銀行的實(shí)際應(yīng)用需要,分別搭建基于大數(shù)據(jù)平臺(tái)的企業(yè)數(shù)據(jù)倉庫和歷史數(shù)據(jù)分析探索平臺(tái),滿足海量數(shù)據(jù)的低成本高效存儲(chǔ)、加工、使用,完成企業(yè)數(shù)據(jù)倉庫應(yīng)用的遷移和優(yōu)化重構(gòu),滿足移動(dòng)互聯(lián)渠道場景的高并發(fā)低延時(shí)數(shù)據(jù)服務(wù)需求,協(xié)助業(yè)務(wù)數(shù)據(jù)分析團(tuán)隊(duì)自主的數(shù)據(jù)探索和業(yè)務(wù)建模。恒豐銀行傳統(tǒng)數(shù)據(jù)倉庫是建立在IOE體系之下,支持TB級(jí)別數(shù)據(jù)存儲(chǔ)并提供復(fù)雜數(shù)據(jù)查詢功能的數(shù)據(jù)管理體系。傳統(tǒng)數(shù)據(jù)倉庫建設(shè)多年,已接入數(shù)據(jù)源30多個(gè),配套監(jiān)管數(shù)據(jù)集市、數(shù)據(jù)分析集市,風(fēng)險(xiǎn)數(shù)據(jù)集市三個(gè)數(shù)據(jù)集市,負(fù)責(zé)十幾個(gè)管理應(yīng)用和監(jiān)管系統(tǒng)的數(shù)據(jù)需求,下游建有銀行管理類系統(tǒng)如綜合經(jīng)營分析系統(tǒng)(管理駕駛艙)、自定義查詢平臺(tái)等,并為各分行提供數(shù)據(jù)下發(fā)服務(wù)。隨著恒豐銀行業(yè)務(wù)發(fā)展,與外部機(jī)構(gòu)的跨界合作的展開,歷史數(shù)據(jù)越來越多,半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)也越來越多,數(shù)據(jù)的統(tǒng)一存儲(chǔ)和處理已面臨硬件成本壓力。充分發(fā)揮大數(shù)據(jù)平臺(tái)的技術(shù)優(yōu)勢,確保系統(tǒng)平穩(wěn)安全運(yùn)行,恒豐銀行基于星環(huán)科技TranswarpDataHub大數(shù)據(jù)技術(shù)構(gòu)建全新的IT信息系統(tǒng)架構(gòu),為各數(shù)據(jù)應(yīng)用系統(tǒng)提供功能完善、穩(wěn)定可靠的大數(shù)據(jù)應(yīng)用基礎(chǔ)技術(shù)平臺(tái),更好的支持各類型海量業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)、加工、使用和數(shù)據(jù)價(jià)值提煉?;谛黔h(huán)科技TranswarpDataHub平臺(tái),恒豐銀行將原有的基于Oracle的數(shù)據(jù)倉庫平臺(tái)平滑遷移至星環(huán)大數(shù)據(jù)平臺(tái),提升數(shù)據(jù)倉庫的批處理能力,同時(shí)也建設(shè)歷史數(shù)據(jù)探索的能力,基于大數(shù)據(jù)架構(gòu),完成了符合恒豐銀行現(xiàn)狀的開創(chuàng)型應(yīng)用,例如:準(zhǔn)實(shí)時(shí)系統(tǒng)日志分析應(yīng)用、客戶實(shí)時(shí)風(fēng)險(xiǎn)監(jiān)測、基于互聯(lián)網(wǎng)點(diǎn)擊流數(shù)據(jù)的用戶體驗(yàn)優(yōu)化與客戶行為分析、客戶標(biāo)簽化畫像應(yīng)用等。圖4-3恒豐銀行大平臺(tái)架構(gòu)恒豐銀行搭建的基于星環(huán)科技TranswarpDataHub的大數(shù)據(jù)平臺(tái)承載了恒豐銀行分布在全國的數(shù)千萬用戶數(shù)據(jù),服務(wù)于全國用戶與行內(nèi)業(yè)務(wù)人員,數(shù)據(jù)總存儲(chǔ)量達(dá)到幾十TB。根據(jù)恒豐銀行的項(xiàng)目建設(shè)的需求,我們推薦恒豐銀行采用基于星環(huán)TranswarpDataHub大數(shù)據(jù)平臺(tái)來構(gòu)建新一代數(shù)字銀行平臺(tái),滿足恒豐銀行數(shù)據(jù)倉庫的遷移、數(shù)據(jù)集市的搭建,同時(shí)協(xié)助恒豐銀行構(gòu)建客戶360度視圖應(yīng)用,準(zhǔn)實(shí)時(shí)日志和精準(zhǔn)營銷等應(yīng)用。技術(shù)組件和相關(guān)方案如下所示:TranswarpHadoop,完成海量數(shù)據(jù)的存儲(chǔ)。TranswarpInceptor,完成傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫SQL應(yīng)用的語義解析和編譯,使得基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的應(yīng)用可以直接遷移至星環(huán)大數(shù)據(jù)平臺(tái),在TranswarpDataHub平臺(tái)實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)倉庫的核心組件。TranswarpHyperbase,完成銀行海量歷史交易明細(xì)數(shù)據(jù)的存儲(chǔ),支持高并發(fā)的快速查詢。TranswarpDiscover,完成客戶畫像,風(fēng)險(xiǎn)預(yù)警等分析挖掘任務(wù)。TranswarpStream,完成實(shí)時(shí)日志的采集與報(bào)警。項(xiàng)目實(shí)施情況星環(huán)科技協(xié)助恒豐銀行搭建了行內(nèi)統(tǒng)一基于TranswarpDataHub的數(shù)據(jù)平臺(tái),一期工作完成將原有Oracle數(shù)據(jù)倉庫中的全量數(shù)據(jù)進(jìn)行遷移,同時(shí)在大數(shù)據(jù)平臺(tái)完成了數(shù)據(jù)批處理、數(shù)據(jù)建模、數(shù)據(jù)集市等工作。數(shù)據(jù)移植說明:數(shù)據(jù)倉庫原有數(shù)據(jù)全部移植到新的大數(shù)據(jù)平臺(tái)之上,并對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行重構(gòu)。數(shù)據(jù)移植的基本流程如下圖所示:圖4-4恒豐銀行大平臺(tái)數(shù)據(jù)移植流程除Sqoop數(shù)據(jù)抽取階段,剩下的主要的數(shù)據(jù)處理階段放在大數(shù)據(jù)平臺(tái)上實(shí)現(xiàn),避免了對(duì)原數(shù)據(jù)倉庫正常運(yùn)行的影響。數(shù)據(jù)倉庫日終ETL體系流程說明:每日業(yè)務(wù)系統(tǒng)日終完成后會(huì)生成相關(guān)數(shù)據(jù)文件提供給數(shù)據(jù)平臺(tái),數(shù)據(jù)平臺(tái)獲取文件并加載文件數(shù)據(jù)。對(duì)每個(gè)業(yè)務(wù)系統(tǒng)提供的數(shù)據(jù)文件,數(shù)據(jù)平臺(tái)必須對(duì)文件進(jìn)行合法性校驗(yàn)。合法則加載文本,不合法通知業(yè)務(wù)系統(tǒng)人員對(duì)數(shù)據(jù)文本的導(dǎo)出進(jìn)行調(diào)整。ODM構(gòu)建文本的映射外表,通過PL/SQL存儲(chǔ)過程將ODM數(shù)據(jù)備份到HDM層。部分原數(shù)據(jù)倉庫的基礎(chǔ)整合模型保留在FDM層,通過PL/SQL還原原倉庫數(shù)據(jù)處理程序,并逐步將FDM層數(shù)據(jù)轉(zhuǎn)移到CDM層公共模型中。ODM層數(shù)據(jù)每日經(jīng)過清洗、加工、整合后放在CDM層公共數(shù)據(jù)模型層,在公共模型層之上構(gòu)建DSI服務(wù)接口,向外部集市或應(yīng)用提供數(shù)據(jù)服務(wù)。集市回流數(shù)據(jù)依照ODM-->HDM的處理方法進(jìn)行數(shù)據(jù)的備份。如圖所示:圖4-5恒豐銀行大數(shù)據(jù)平臺(tái)數(shù)據(jù)同步流程每日在線數(shù)據(jù)平臺(tái)處理數(shù)據(jù)經(jīng)過處理后,經(jīng)數(shù)據(jù)復(fù)制將數(shù)據(jù)同步到歷史數(shù)據(jù)平臺(tái)。校驗(yàn)成功后的文本同步到歷史數(shù)據(jù)平臺(tái)進(jìn)行歸檔。歷史數(shù)據(jù)平臺(tái)的數(shù)據(jù)與在線數(shù)據(jù)平臺(tái)保持一致,存期延長。歷史數(shù)據(jù)平臺(tái)之上建立歷史數(shù)據(jù)查詢模型,提供歷史數(shù)據(jù)查詢服務(wù)。圖4-6恒豐銀行大數(shù)據(jù)平臺(tái)數(shù)據(jù)模型轉(zhuǎn)換為完整支持恒豐銀行數(shù)據(jù)倉庫項(xiàng)目的建設(shè),星環(huán)科技為恒豐銀行提供了如下技術(shù)組件與模塊:表4-4組件列表組件名稱組件功能支持運(yùn)行的應(yīng)用TranswarpInceptorTDH平臺(tái)組件服務(wù),提供對(duì)SQL99,SQL2003的完整支持,同時(shí)支持OraclePL/SQL,為原有應(yīng)用平滑遷移提供基礎(chǔ)數(shù)據(jù)倉庫、數(shù)據(jù)集市、批處理、ETLTranswarpHyperbaseTDH平臺(tái)組件服務(wù),提供對(duì)海量歷史數(shù)據(jù)的快速存儲(chǔ)與高并發(fā)訪問歷史數(shù)據(jù)存儲(chǔ)與查詢、數(shù)據(jù)集市TranswarpDiscoverTDH平臺(tái)組件服務(wù),對(duì)海量數(shù)據(jù)進(jìn)行快速的分析和挖掘客戶畫像、風(fēng)險(xiǎn)監(jiān)測TranswarpStreamTDH平臺(tái)組件服務(wù),對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算實(shí)時(shí)交易預(yù)警、實(shí)時(shí)點(diǎn)擊流分析TranswarpHadoopTDH平臺(tái)組件服務(wù),分布式基礎(chǔ)平臺(tái)影像存儲(chǔ)、日志存儲(chǔ)、點(diǎn)擊流數(shù)據(jù)存儲(chǔ)TranswarpManagerTDH平臺(tái)組件服務(wù),TDH管理工具,圖形化、自動(dòng)化安裝、部署、配置、監(jiān)控、報(bào)警管理功能經(jīng)過恒豐銀行的測試確認(rèn),從性能的角度出發(fā),恒豐銀行采用如下硬件設(shè)備:表4-5硬件配置列表服務(wù)器推薦配置及說明節(jié)點(diǎn)數(shù)量一期16個(gè)節(jié)點(diǎn),未來規(guī)劃150節(jié)點(diǎn)CPU兩路8核處理器
2*E5-2650v3內(nèi)存256GBECCDDR3硬盤10個(gè)600GB的SAS硬盤,15000RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,
RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡固態(tài)硬盤800GB星環(huán)科技作為大數(shù)據(jù)平臺(tái)技術(shù)提供商,在恒豐銀行大數(shù)據(jù)平臺(tái)建設(shè)項(xiàng)目中,為客戶提供了強(qiáng)大平臺(tái)技術(shù)支持,同時(shí)與應(yīng)用廠商進(jìn)行緊密的配合,確保了項(xiàng)目一期建設(shè)的順利上線。表4-6項(xiàng)目實(shí)施概況編號(hào)角色所屬公司項(xiàng)目各個(gè)階段實(shí)施進(jìn)度以及人員參與情況需求架構(gòu)概要詳細(xì)應(yīng)用開發(fā)/遷移系統(tǒng)測試試運(yùn)行上線分析設(shè)計(jì)設(shè)計(jì)設(shè)計(jì)運(yùn)行2015.7~2015.72015.7~2015.72015.7~2015.82015.7~2015.82015.8~2015.102015.10~2015.112015.11~2015.112015.12~至今1架構(gòu)師星環(huán)科技√√√√2實(shí)施工程師√√√√√√3項(xiàng)目經(jīng)理應(yīng)用廠商√√√√√√√√4實(shí)施工程師1√√√√√√5實(shí)施工程師2√√√√√√6實(shí)施工程師3√√√√√√7實(shí)施工程師4√√√√√√物理拓?fù)鋱D:圖4-7恒豐銀行大數(shù)據(jù)平臺(tái)網(wǎng)絡(luò)拓?fù)湫阅苤笜?biāo):日終批處理時(shí)間數(shù)據(jù)平臺(tái)每日幾千個(gè)數(shù)據(jù)處理作業(yè),日終時(shí)間窗口控制在3個(gè)小時(shí)到4個(gè)小時(shí)之間。日終掃描數(shù)據(jù)量達(dá)10TB,按照業(yè)務(wù)系統(tǒng)供數(shù)最晚時(shí)間1:30計(jì)算,在凌晨5點(diǎn)左右全部完成數(shù)據(jù)處理作業(yè),個(gè)別作業(yè)錯(cuò)誤不影響整體進(jìn)度。最大并發(fā)查詢用戶1000個(gè)用戶同時(shí)使用數(shù)據(jù)平臺(tái)查詢數(shù)據(jù),簡單查詢響應(yīng)時(shí)間在100毫秒以內(nèi),關(guān)聯(lián)統(tǒng)計(jì)查詢在200毫米以內(nèi),復(fù)雜的統(tǒng)計(jì)分析應(yīng)用響應(yīng)時(shí)間在分鐘級(jí)。項(xiàng)目成果恒豐銀行所搭建的基于星環(huán)科技TranswarpDataHub的大數(shù)據(jù)平臺(tái)是國內(nèi)第一個(gè)完全采用Hadoop來搭建金融機(jī)構(gòu)企業(yè)級(jí)數(shù)據(jù)倉庫平臺(tái)的成功案例。在短短半年的時(shí)間內(nèi),就將原有Oracle數(shù)據(jù)倉庫的復(fù)雜數(shù)據(jù)處理過程,以及金融機(jī)構(gòu)的模型,遷移至星環(huán)TranswarpDataHub平臺(tái),同時(shí)在數(shù)據(jù)倉庫上面,建設(shè)了客戶關(guān)系管理集市和審計(jì)集市,同時(shí)存儲(chǔ)了恒豐銀行多年來全部數(shù)據(jù),接入了30幾個(gè)業(yè)務(wù)系統(tǒng),批處理性能比原有Oracle數(shù)據(jù)庫平臺(tái)提升5倍以上,歷史數(shù)據(jù)查詢的性能比原來提升幾十倍,90%的歷史查詢應(yīng)用都可以在200毫秒內(nèi)返回結(jié)果,而總體投資僅占原有平臺(tái)的1/3。圖4-8恒豐銀行大數(shù)據(jù)平臺(tái)數(shù)倉架構(gòu)本項(xiàng)目充分證明,星環(huán)科技TranswarpDataHub大數(shù)據(jù)平臺(tái),能夠全面支撐企業(yè)級(jí)數(shù)據(jù)倉庫的搭建。項(xiàng)目意義恒豐銀行大數(shù)據(jù)平臺(tái)的一期建設(shè)完成了將傳統(tǒng)基于Oracle的數(shù)據(jù)倉庫遷移至星環(huán)大數(shù)據(jù)平臺(tái),并在基于星環(huán)TranswarpDataHub大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉庫上搭建了基于三范式模型的數(shù)據(jù)集市,充分證明了星環(huán)TranswarpDataHub平臺(tái)能夠支持企業(yè)在大數(shù)據(jù)平臺(tái)建設(shè)數(shù)據(jù)倉庫、數(shù)據(jù)集市的應(yīng)用,同時(shí)如果已有數(shù)據(jù)倉庫平臺(tái),也可以短期內(nèi)快速完成數(shù)據(jù)倉庫的遷移。恒豐銀行基于TranswarpDataHub大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉庫項(xiàng)目,是大數(shù)據(jù)技術(shù)在行業(yè)復(fù)雜應(yīng)用落地項(xiàng)目中的重要里程碑,充分證明星環(huán)TranswarpDataHub平臺(tái)能夠支持企業(yè)最重要也最復(fù)雜的數(shù)據(jù)倉庫應(yīng)用。全球著名大數(shù)據(jù)調(diào)研機(jī)構(gòu)Gartner在近期的大數(shù)據(jù)市場調(diào)研報(bào)告中,已經(jīng)將星環(huán)TranswarpDataHub平臺(tái)列入數(shù)據(jù)倉庫魔力象限,并在技術(shù)成熟度,技術(shù)領(lǐng)先度的維度中,排名全球大數(shù)據(jù)廠商第一名。圖4-9Gartner數(shù)據(jù)倉庫魔力象限因此,恒豐銀行基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉庫建設(shè)經(jīng)驗(yàn),可以為此次集團(tuán)大數(shù)據(jù)平臺(tái)建設(shè)提供寶貴的經(jīng)驗(yàn)。目前從全球大數(shù)據(jù)廠商來看,除星環(huán)科技外,還沒有其他廠商能夠在金融、銀行這樣的高端行業(yè),擁有完全通過大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)數(shù)據(jù)倉庫的成功案例。在恒豐銀行項(xiàng)目中,星環(huán)科技已經(jīng)積累了大量的基于大數(shù)據(jù)平臺(tái)建設(shè)傳統(tǒng)數(shù)據(jù)倉庫理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn),同時(shí)在產(chǎn)品的性能和功能上也充分的得到了驗(yàn)證,尤其星環(huán)TranswarpInceptor組件,能夠快速協(xié)助集團(tuán)將傳統(tǒng)基于Teradata數(shù)據(jù)倉庫平臺(tái)的應(yīng)用快速的遷移至星環(huán)大數(shù)據(jù)平臺(tái),從而極大降低了項(xiàng)目風(fēng)險(xiǎn)。采用星環(huán)TranswarpDataHub平臺(tái)構(gòu)建集團(tuán)大數(shù)據(jù)平臺(tái),是集團(tuán)的正確選擇。華通CDN運(yùn)營商海量日志采集分析系統(tǒng)浙江華通云數(shù)據(jù)科技有限公司是一家致力于云基礎(chǔ)設(shè)施、云網(wǎng)絡(luò)(CDN、VPN)以及各類云應(yīng)用建設(shè)和服務(wù)企業(yè)。通過云數(shù)據(jù)中心、覆蓋全國主要城市的CDN網(wǎng)絡(luò),為通信運(yùn)營商、服務(wù)提供商、互聯(lián)網(wǎng)企業(yè)及終端用戶提供云應(yīng)用和服務(wù)。依托豐富的網(wǎng)絡(luò)資源和云資源優(yōu)勢,打造成為全國性的云應(yīng)用服務(wù)中心。項(xiàng)目概述華通CDN運(yùn)營商需要構(gòu)建了全國性的CDN平臺(tái),針對(duì)CDN服務(wù)過程中產(chǎn)生的海量日志數(shù)據(jù)進(jìn)行流式采集和分析,并將海量日志的處理及分析結(jié)果輸出給使用者。華通CDN運(yùn)營商已經(jīng)在全國部署了上千臺(tái)服務(wù)器,日志采集系統(tǒng)需要滿足上數(shù)百個(gè)節(jié)點(diǎn)、每秒上千萬次的日志數(shù)據(jù)實(shí)時(shí)采集能力;日志從采集、分析到提供給第三方的延時(shí)不超過5分鐘;日志存儲(chǔ)集群支持2PB的數(shù)據(jù)存儲(chǔ);支持將采集的數(shù)據(jù)實(shí)時(shí)匯聚并寫入日志管理分析平臺(tái)進(jìn)行后續(xù)的統(tǒng)計(jì)分析;實(shí)現(xiàn)針對(duì)命中率、時(shí)延、可用性、流量等指標(biāo)的統(tǒng)計(jì)功能。項(xiàng)目實(shí)施情況星環(huán)科技根據(jù)華通CDN日志采集和分析系統(tǒng)的需求,在前端600多個(gè)CDN服務(wù)器節(jié)點(diǎn)上,部署了600多個(gè)代理服務(wù)器,用來實(shí)時(shí)采集日志數(shù)據(jù),搭建了100個(gè)節(jié)點(diǎn)的X86服務(wù)器來部署星環(huán)TranswarpDataHub平臺(tái),用TranswarpHadoop來采集日志數(shù)據(jù),并通過TranswarpInceptor進(jìn)行分析,快速得到分析結(jié)果。圖4-10華通CDN日志采集和分析系統(tǒng)架構(gòu)數(shù)據(jù)采集完成緩存服務(wù)器日志數(shù)據(jù)從節(jié)點(diǎn)到中心的數(shù)據(jù)采集匯聚,在每個(gè)節(jié)點(diǎn)內(nèi)部署日志采集Agent,通過UDP方式采集服務(wù)器syslog日志,節(jié)點(diǎn)Agent將采集的數(shù)據(jù)通過流式傳輸?shù)姆绞桨l(fā)送至中心匯聚服務(wù)器,中心匯聚服務(wù)器將匯聚的日志數(shù)據(jù)寫入數(shù)據(jù)存儲(chǔ)分析平臺(tái),系統(tǒng)部署600+Agent,20個(gè)匯聚服務(wù)器,平臺(tái)采用TranswarpDataHub方案構(gòu)建,支持峰值928w/sec的數(shù)據(jù)寫入和分析,將數(shù)據(jù)進(jìn)行清洗整理后,進(jìn)行實(shí)時(shí)壓縮處理,輸出至第三方系統(tǒng)。平臺(tái)依賴于TranswarpInceptor對(duì)采集的日志流數(shù)據(jù)進(jìn)行實(shí)時(shí)的統(tǒng)計(jì)分析,為業(yè)務(wù)質(zhì)量監(jiān)控和后續(xù)服務(wù)的優(yōu)化提供數(shù)據(jù)支撐。圖4-11華通CDN日志采集平臺(tái)物理部署單臺(tái)日志采集服務(wù)器每條處理的日志數(shù)為10萬條,按照服務(wù)器最多的A類節(jié)點(diǎn)其峰值每秒產(chǎn)生4萬條日志計(jì)算一個(gè)拉遠(yuǎn)節(jié)點(diǎn)每天所需存儲(chǔ)的日志數(shù)為,代理服務(wù)器本地配置8T的存儲(chǔ)空間至少可滿足1周的日志存儲(chǔ)。按照流式處理的峰值計(jì)算,1秒內(nèi)完成所有日志的傳輸,單條日志0.2K的情況下單個(gè)拉遠(yuǎn)節(jié)點(diǎn)日志傳輸對(duì)上行帶寬的要求。星環(huán)科技為華通CDN海量日志采集與分析系統(tǒng)提供了如下技術(shù)組件與模塊:表4-7組件列表組件名稱組件功能支持運(yùn)行的應(yīng)用TranswarpInceptorTDH平臺(tái)組件服務(wù),用于對(duì)海量日志數(shù)據(jù)進(jìn)行實(shí)時(shí)、高效的分析,并通過標(biāo)準(zhǔn)的SQL完成各種分析報(bào)告日志分析,點(diǎn)擊命中率報(bào)告TranswarpFlumeTDH平臺(tái)組件服務(wù),對(duì)實(shí)時(shí)日志數(shù)據(jù)進(jìn)行采集,提供分布式的采集方式實(shí)時(shí)日志采集TranswarpHadoopTDH平臺(tái)組件服務(wù),分布式基礎(chǔ)平臺(tái),用于存儲(chǔ)海量的日志數(shù)據(jù),提供極高的吞吐量日志存儲(chǔ)TranswarpManagerTDH平臺(tái)組件服務(wù),TDH管理工具,圖形化、自動(dòng)化安裝、部署、配置、監(jiān)控、報(bào)警管理功能華通CDN海量日志采集與分析系統(tǒng),采用如下硬件設(shè)備:表4-8硬件配置列表服務(wù)器推薦配置及說明節(jié)點(diǎn)數(shù)量100個(gè)節(jié)點(diǎn)CPU兩路6核處理器
2*E5-2620內(nèi)存64GBECCDDR3硬盤10個(gè)2TB的SATA硬盤,7200RPM,不使用RAID;2個(gè)300G的SAS硬盤,15000RPM,
RAID1,作為系統(tǒng)盤網(wǎng)絡(luò)雙電口萬兆(10Gbps)以太網(wǎng)卡星環(huán)科技作為大數(shù)據(jù)平臺(tái)技術(shù)提供商,在華通CDN日志采集和分析系統(tǒng)項(xiàng)目建設(shè)中,為客戶提供了強(qiáng)大平臺(tái)技術(shù)支持,確保了項(xiàng)目一期建設(shè)的順利上線。表4-8項(xiàng)目實(shí)施概況編號(hào)角色所屬公司項(xiàng)目各個(gè)階段實(shí)施進(jìn)度以及人員參與情況需求架構(gòu)概要詳細(xì)應(yīng)用開發(fā)系統(tǒng)測試試運(yùn)行上線分析設(shè)計(jì)設(shè)計(jì)設(shè)計(jì)運(yùn)行2013.10~2013.102013.10~2013.102013.10~2013.112013.11~2013.122013.12~2014.12014.1~2014.22014.2~2014.32014.3~至今1架構(gòu)師星環(huán)科技√√√√2實(shí)施工程師√√√√√√3項(xiàng)目經(jīng)理應(yīng)用廠商√√√√√√√√4開發(fā)工程師1√√√√√√√5開發(fā)工程師2√√√√√√6測試工程師3√√√√√7運(yùn)維工程師4√√√√性能指標(biāo)cacheServer->syslogNG(udp)->FlumeAgent在邊緣節(jié)點(diǎn),采集速度為2萬條/秒(非峰值處理能力,而是日志服務(wù)器峰值為2萬條/秒,在超級(jí)節(jié)點(diǎn),采集速度為14萬條/秒入庫:FlumeAgent->TDHHDFS存儲(chǔ):TDHHDFS->HyperbaseE5-2650雙核,峰值導(dǎo)入速度單機(jī)平均20萬條/秒每間隔5分鐘對(duì)采集日志進(jìn)行實(shí)時(shí)分析。項(xiàng)目成果基于星環(huán)科技TranswarpDataHub大數(shù)據(jù)平臺(tái),完整搭建了一套可以支撐華通數(shù)百臺(tái)服務(wù)器的實(shí)時(shí)日志收集與分析,從日志采集、分析,到提供給第三方準(zhǔn)確的數(shù)據(jù)報(bào)告不超過5分鐘,極大的提高了華通CDN服務(wù)器的的用戶點(diǎn)擊命中率,提高20%以上,為華通每年多帶來數(shù)百萬的利潤。項(xiàng)目意義華通大數(shù)據(jù)平臺(tái)項(xiàng)目,是國內(nèi)比較早大數(shù)據(jù)平臺(tái)項(xiàng)目,平臺(tái)從13年至今一直穩(wěn)定運(yùn)行,數(shù)據(jù)平臺(tái)版本從TranswarpDataHub2.0升級(jí)到3.0、4.0,版本的升級(jí)對(duì)現(xiàn)有數(shù)據(jù)和服務(wù)沒有任何影響,但是功能和性能得到極大的提高,充分證明星環(huán)TranswarpDataHub平臺(tái)是成熟、穩(wěn)定的商業(yè)平臺(tái),能夠長期穩(wěn)定的承載企業(yè)高負(fù)載應(yīng)用,并且版本之間向下兼容。華通大數(shù)據(jù)平臺(tái)長期的管理、運(yùn)維、升級(jí)等經(jīng)驗(yàn),也為集團(tuán)提供了寶貴的經(jīng)驗(yàn),為集團(tuán)建設(shè)穩(wěn)定、統(tǒng)一的大數(shù)據(jù)平臺(tái)提供了保障。案例總結(jié)中國聯(lián)通大數(shù)據(jù)平臺(tái)、恒豐銀行大數(shù)據(jù)平臺(tái)、華通CDN運(yùn)營商日志采集與分析平臺(tái),3個(gè)項(xiàng)目從高并發(fā)、高吞吐、高容量、高復(fù)雜度、高穩(wěn)定性、高擴(kuò)展性、高可維護(hù)性等多個(gè)不同的維度為集團(tuán)建設(shè)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)提供了寶貴的經(jīng)驗(yàn),也充分證明了基于星環(huán)TranswarpDataHub大數(shù)據(jù)平臺(tái)可以幫助集團(tuán)建設(shè)企業(yè)級(jí)大規(guī)模數(shù)據(jù)平臺(tái)提供堅(jiān)實(shí)的技術(shù)基礎(chǔ)。星環(huán)科技全國上百個(gè)成功案例證明:基于星環(huán)TranswarpDataHub大數(shù)據(jù)平臺(tái)構(gòu)建集團(tuán)大數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫平臺(tái)是成熟、可靠的技術(shù)方案,是最正確的選擇。系統(tǒng)總體架構(gòu)設(shè)計(jì)總體技術(shù)框架大數(shù)據(jù)平臺(tái)是一個(gè)可擴(kuò)展的數(shù)據(jù)平臺(tái),全面整合集團(tuán)業(yè)務(wù)數(shù)據(jù),建立從業(yè)務(wù)層到管理層再到?jīng)Q策層的集團(tuán)數(shù)據(jù)智能分析體系,使經(jīng)營者能夠及時(shí)掌握全面的經(jīng)營狀況,迅速做出科學(xué)決策。4-12總體總體結(jié)構(gòu)圖參見上圖,集團(tuán)大數(shù)據(jù)平臺(tái)主要分成六大部分:用新技術(shù)建設(shè)集團(tuán)大數(shù)據(jù)平臺(tái),在平臺(tái)上構(gòu)建集團(tuán)企業(yè)級(jí)的數(shù)據(jù)倉庫;建立統(tǒng)一的數(shù)據(jù)采集加工平臺(tái),供大數(shù)據(jù)平臺(tái)從各業(yè)務(wù)系統(tǒng)及外部環(huán)境采集、加工、清洗、爬取數(shù)據(jù);數(shù)據(jù)管控平臺(tái),為大數(shù)據(jù)平臺(tái)提供主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)安全管理等服務(wù);企業(yè)級(jí)數(shù)據(jù)分析平臺(tái),主要用于經(jīng)營分析和決策支持;數(shù)據(jù)可視化展現(xiàn)平臺(tái),包括:可視化交互查詢、圖表展示、移動(dòng)展示、地圖展示、管理駕駛艙等;數(shù)據(jù)分析與挖掘平臺(tái),包括:并行化算法模型庫、數(shù)據(jù)分析挖掘工具等。4-13總體技術(shù)框架圖參見上圖,集團(tuán)大數(shù)據(jù)平臺(tái)系統(tǒng)總體技術(shù)框架,自下而上主要包含六層:1、硬件設(shè)備層部署于集團(tuán)數(shù)據(jù)中心機(jī)房的服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、負(fù)載均衡器、VPN/防火墻等硬件設(shè)備;2、虛擬化資源層基于分布式容器集群管理系統(tǒng)構(gòu)建的服務(wù)器虛擬化資源池,可為各類應(yīng)用、分布式計(jì)算和存儲(chǔ)服務(wù)組件提供多租戶的容器資源分配及調(diào)度管理、應(yīng)用打包部署及運(yùn)行、服務(wù)注冊和發(fā)現(xiàn)、動(dòng)態(tài)擴(kuò)縮、均衡容災(zāi)等資源管理服務(wù)。3、應(yīng)用平臺(tái)層為大數(shù)據(jù)分析應(yīng)用的開發(fā)、測試和運(yùn)行提供平臺(tái)支撐,主要包括:J2EE應(yīng)用服務(wù)平臺(tái)和Spring框架、報(bào)表和分析展現(xiàn)平臺(tái)、并行化算法模型庫、ESB服務(wù)總線和ETL數(shù)據(jù)集成平臺(tái)、身份認(rèn)證和訪問控制組件、全文檢索組件等。大數(shù)據(jù)分布式計(jì)算和存儲(chǔ)平臺(tái)組件,主要包括:分布式列存儲(chǔ)數(shù)據(jù)庫、分布式文件系統(tǒng)、SQL引擎、實(shí)時(shí)流處理引擎、聯(lián)合查詢引擎、并行化R算法執(zhí)行引擎、全文檢索引擎、分布式批處理計(jì)算引擎(Hadoop/Spark/MapReduce)以及任務(wù)調(diào)度與監(jiān)控等組件。4、應(yīng)用服務(wù)層基于應(yīng)用支撐平臺(tái)及大數(shù)據(jù)分布式計(jì)算和存儲(chǔ)服務(wù)平臺(tái),定制開發(fā)各類應(yīng)用服務(wù),主要包括:經(jīng)營分析和決策支持、數(shù)據(jù)管理、內(nèi)容管理等應(yīng)用。5、通信網(wǎng)絡(luò)層外部用戶可通過Internet互聯(lián)網(wǎng)(含移動(dòng)互聯(lián)網(wǎng))接入訪問已授權(quán)的相關(guān)應(yīng)用服務(wù);集團(tuán)內(nèi)部人員可通過集團(tuán)綜合網(wǎng)接入訪問內(nèi)網(wǎng)應(yīng)用服務(wù)。6、終端接入層系統(tǒng)用戶可通過PCWeb瀏覽器、移動(dòng)終端(智能手機(jī)、平板電腦等)訪問相關(guān)的應(yīng)用服務(wù)。平臺(tái)支持電子郵件、手機(jī)APP、微信和短信等交互。 系統(tǒng)總體技術(shù)框架還包含:大數(shù)據(jù)管理標(biāo)準(zhǔn)規(guī)范制訂、統(tǒng)一安全運(yùn)維管理系統(tǒng)集成及相關(guān)管理規(guī)范制訂等。系統(tǒng)總體邏輯結(jié)構(gòu)4-14系統(tǒng)總體邏輯結(jié)構(gòu)圖參見上圖,基于Hadoop構(gòu)建的企業(yè)級(jí)數(shù)據(jù)倉庫,包含:分布式列式存儲(chǔ)數(shù)據(jù)庫Hyperbase和分布式文件系統(tǒng)HDFS。通過數(shù)據(jù)集成及ETL平臺(tái),采集集團(tuán)現(xiàn)有業(yè)務(wù)系統(tǒng)(CRM、ERP、寄遞平臺(tái)、金融大數(shù)據(jù)平臺(tái)等)數(shù)據(jù),經(jīng)清洗、轉(zhuǎn)換、加工后將數(shù)據(jù)批量加載到數(shù)據(jù)倉庫。通過分布式消息隊(duì)列(Kafka)和流處理引擎(SparkStreaming),可實(shí)時(shí)采集處理流數(shù)據(jù)(如:網(wǎng)站點(diǎn)擊流數(shù)據(jù)、實(shí)時(shí)事件流數(shù)據(jù)等);流處理引擎可通過SQL接口將流數(shù)據(jù)實(shí)時(shí)加載至分布式內(nèi)存或分布式數(shù)據(jù)庫中。通過互聯(lián)網(wǎng)數(shù)據(jù)采集軟件(iRIS)可采集互聯(lián)網(wǎng)數(shù)據(jù)(網(wǎng)站、SNS等),并經(jīng)加工處理后導(dǎo)入數(shù)據(jù)倉庫。本系統(tǒng)還支持在線填報(bào)、報(bào)表文件上傳等數(shù)據(jù)采集方式。結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫后,可通過PL/SQL腳本和Hadoop/Spark批處理引擎進(jìn)行數(shù)據(jù)關(guān)聯(lián)操作和匯總加工處理;半/非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫后,可通過全文檢索引擎ElasticSearch快速創(chuàng)建全文索引。大數(shù)據(jù)平臺(tái)為數(shù)據(jù)分析挖掘應(yīng)用開發(fā),提供可視化的數(shù)據(jù)建模工具、數(shù)據(jù)分析挖掘工具(RStudio)、并行化R算法模型庫及分布式計(jì)算引擎。平臺(tái)還提供分析報(bào)表和儀表盤、OLAP多維查詢、iGIS地圖等可視化數(shù)據(jù)展現(xiàn)組件。大數(shù)據(jù)平臺(tái)為上層的各類應(yīng)用提供數(shù)據(jù)訪問接口服務(wù),包括:SQL引擎(InceptorSQL)、聯(lián)合查詢引擎(InceptorStarGate,支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)聯(lián)合查詢)、全文檢索引擎(ElasticSearch)。本平臺(tái)還支持分布式內(nèi)存OLAPCube功能,多維分析應(yīng)用可通過SQL引擎快速訪問OLAPCube數(shù)據(jù)集?;谥纹脚_(tái)開發(fā)的應(yīng)用系統(tǒng)采用面向服務(wù)架構(gòu)(SOA)設(shè)計(jì)。采用J2EE/Spring、ApacheCXF框架,實(shí)現(xiàn)內(nèi)置的服務(wù)注冊功能,能夠?qū)⒁延械耐獠縒ebService進(jìn)行注冊、調(diào)用,同時(shí)能夠?qū)⒍x的服務(wù)以 方式對(duì)外暴露,供其它應(yīng)用調(diào)用。集團(tuán)已有的ESB服務(wù)總線平臺(tái),可通過JDBC/ODBC接口與SQL引擎對(duì)接,將分布式數(shù)據(jù)庫查詢訪問封裝為WebServices,供相關(guān)應(yīng)用系統(tǒng)調(diào)用;ESB平臺(tái)可通過HTTP/JSON接口與聯(lián)合查詢引擎對(duì)接,將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年閩侯縣曇石山中學(xué)第一期臨聘教師招聘備考題庫及參考答案詳解1套
- 2025年中職歷史學(xué)(中國古代史綱要)試題及答案
- 2025年中職智慧健康養(yǎng)老服務(wù)(養(yǎng)老常識(shí)基礎(chǔ))試題及答案
- 2026年倉儲(chǔ)管理(貨物防護(hù))試題及答案
- 2025年大學(xué)第二學(xué)年(精密儀器制造)技術(shù)應(yīng)用階段測試題及答案
- 2025年高職(電子信息工程技術(shù))單片機(jī)原理及應(yīng)用專項(xiàng)測試試題及答案
- 2025年大學(xué)生態(tài)工程(生態(tài)工程)試題及答案
- 2025年中職(會(huì)計(jì)電算化)電子報(bào)稅綜合技能測試試題及答案
- 2025年中職(會(huì)計(jì)信息化)財(cái)務(wù)軟件操作試題及答案
- 2025年大學(xué)農(nóng)業(yè)機(jī)械化及其自動(dòng)化(農(nóng)機(jī)智能化技術(shù))試題及答案
- 2025年遼鐵單招考試題目及答案
- 醫(yī)療行業(yè)數(shù)據(jù)安全事件典型案例分析
- 2026年生物醫(yī)藥創(chuàng)新金融項(xiàng)目商業(yè)計(jì)劃書
- 湖南名校聯(lián)考聯(lián)合體2026屆高三年級(jí)1月聯(lián)考化學(xué)試卷+答案
- 山東省濰坊市2024-2025學(xué)年二年級(jí)上學(xué)期期末數(shù)學(xué)試題
- 空氣源熱泵供熱工程施工方案
- 資料3b SIG康美包無菌灌裝流程及特征分段介紹
- 鉗工技能訓(xùn)練(第4版)PPT完整全套教學(xué)課件
- 電力工程課程設(shè)計(jì)-某機(jī)床廠變電所設(shè)計(jì)
- Unit 2 Reading and Thinking教學(xué)課件(英語選擇性必修第一冊人教版)
- 兒童常用補(bǔ)液
評(píng)論
0/150
提交評(píng)論