版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2.1規(guī)范定義 62.2投標(biāo)方所提供的所有系統(tǒng)設(shè)備(包括軟、硬件)應(yīng)滿足以下技術(shù)標(biāo)準(zhǔn)要求 72.3對(duì)投標(biāo)方的建議書要求 82.4配置原則 3項(xiàng)目概述 3.1項(xiàng)目背景 3.2項(xiàng)目目標(biāo) 4總體技術(shù)要求 4.1總體要求 4.2.1基本要求 功能性要求 15系統(tǒng)應(yīng)具備高可靠性 系統(tǒng)應(yīng)具備安全性 17開放性要求 系統(tǒng)應(yīng)易于使用 系統(tǒng)可維護(hù)性要求 系統(tǒng)完備性要求 系統(tǒng)可測(cè)試性要求 系統(tǒng)易安裝性要求 210設(shè)備其他要求 21 212設(shè)備安全性要求 223設(shè)備供電及運(yùn)行環(huán)境 5詳細(xì)技術(shù)要求 275.3.1大數(shù)據(jù)處理子平臺(tái)要求 5.3.3外部服務(wù)能力子平臺(tái)要求 55 585.3.5其他要求 675.4集成方案要求 6軟硬件要求 6.1軟件要求 7項(xiàng)目管理要求 7.1項(xiàng)目組織 75 767.3文件文檔 76 8.1安裝和調(diào)試 77 78 9.1技術(shù)服務(wù) 9.2技術(shù)培訓(xùn) 10進(jìn)度安排 11技術(shù)文件 2.2海量數(shù)據(jù)存儲(chǔ) 2.3并行計(jì)算能力 4.1功能模塊總述 4.2大數(shù)據(jù)處理子平臺(tái) 4.2.1多租戶能力 934.2.2標(biāo)簽服務(wù) 4.3數(shù)據(jù)匯聚子平臺(tái) 4.3.1寬帶DP/數(shù)據(jù)采集清洗 4.3.236DP/數(shù)據(jù)采集清洗 4.3.3AAA數(shù)據(jù)采集清洗 4.3.40/DD數(shù)據(jù)采集清洗 4.3.50DS數(shù)據(jù)采集清洗 4.3.6數(shù)據(jù)脫敏 1094.3.7數(shù)據(jù)加密 4.3.8數(shù)據(jù)ETL處理 4.4.1標(biāo)簽查詢服務(wù) 4.4.2DSP廠商程序接入 4.4.3廠商作業(yè)性能優(yōu)化 4.4.4交互式SQL查詢 4.4.5在線報(bào)表 4.1.信息推送子平臺(tái) 4.1.1.流量分發(fā)模塊 1154.1.2.流量分發(fā)規(guī)則 4.1.3.廣告提單管理 4.1.4.廣告引導(dǎo)管理 1214.1.5.廣告計(jì)劃?rùn)z索 4.1.6.內(nèi)部業(yè)務(wù)支撐 1、服務(wù)簡(jiǎn)述 3、服務(wù)原則 139 6、服務(wù)明細(xì) 6.1服務(wù)類型 6.2日常服務(wù) 6.3現(xiàn)場(chǎng)服務(wù) 隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,TB~PB級(jí)別交易數(shù)據(jù)、網(wǎng)絡(luò)流量、運(yùn)營(yíng)日志等海量數(shù)據(jù)已經(jīng)誕生,如何分析海量規(guī)模、結(jié)構(gòu)多樣和流量超大的數(shù)據(jù),電信運(yùn)營(yíng)商面臨巨大的挑戰(zhàn)?!窦夹g(shù)革命勢(shì)在必行C/S以及B/S架構(gòu)的第二代數(shù)據(jù)處理技術(shù),無法勝任大數(shù)據(jù)時(shí)代的要求。C/S以及B/S架構(gòu)的弊端顯而易見,它導(dǎo)致了服務(wù)器數(shù)量大幅增加、資金和運(yùn)營(yíng)成本的急劇攀升。越來越復(fù)雜的數(shù)據(jù)中心很難快速配置和有效管理以滿足不斷變化的需求。而且由于應(yīng)用程序的工作負(fù)載是不斷變化的,專用于單一應(yīng)用程序的服務(wù)器通常得不到充分利用。分布式云計(jì)算第三代數(shù)據(jù)處理技術(shù),采用分散存儲(chǔ)和并行計(jì)算等革命性技術(shù),為海量數(shù)據(jù)處理提供最佳解決方案。云計(jì)算的核心就是數(shù)據(jù)中心,實(shí)現(xiàn)云計(jì)算的硬件設(shè)備主要是成千上萬的工業(yè)標(biāo)準(zhǔn)服務(wù)器,通過這些服務(wù)器之間的協(xié)同工作,提高服務(wù)器的使用效率,并改變傳統(tǒng)的IT交付方式,使客戶可以按需、自助地使用IT資源?!裾憬娦糯髷?shù)據(jù)運(yùn)營(yíng)平臺(tái)中國(guó)電信作為一個(gè)領(lǐng)先的互聯(lián)網(wǎng)運(yùn)營(yíng)商,參與互聯(lián)網(wǎng)廣告行業(yè)的優(yōu)勢(shì)在于:廣告業(yè)需求的用戶全局唯一標(biāo)識(shí)的資源;擁有用戶全局的HTTP訪問請(qǐng)求及返回的最細(xì)數(shù)據(jù)粒度;擁有強(qiáng)大的計(jì)算資源;擁有高速帶寬資源。浙江電信根據(jù)中國(guó)電信市場(chǎng)[2013]86號(hào)文《關(guān)于開展“大數(shù)據(jù)RTB廣告業(yè)務(wù)”試點(diǎn)工作通知》,要求按照RTB試點(diǎn)業(yè)務(wù)要求,完成浙江電信大數(shù)據(jù)運(yùn)營(yíng)平臺(tái)建設(shè),為廣告媒體運(yùn)營(yíng)提供高并發(fā)、快速響應(yīng)的數(shù)據(jù)服務(wù)能力。1技術(shù)規(guī)格偏離表應(yīng)答序號(hào)貨物名稱招標(biāo)文件條目號(hào)投標(biāo)規(guī)格偏離說明無無無 2.2投標(biāo)方所提供的所有系統(tǒng)設(shè)備(包括軟、硬件)應(yīng)滿足以下技術(shù)標(biāo)準(zhǔn)要求2.3對(duì)投標(biāo)方的建議書要求2.4配置原則2.5報(bào)價(jià)要求三方。經(jīng)中國(guó)電信股份有限公司浙江分公司書面許可,應(yīng)標(biāo)商才允3項(xiàng)目概述3.1項(xiàng)目背景3.2項(xiàng)目目標(biāo)8)投標(biāo)人應(yīng)根據(jù)買方的業(yè)務(wù)需求及相關(guān)的技術(shù)規(guī)劃要求,提出完整的項(xiàng)目1)要求采用Hadoop分布式處理架構(gòu),符合未來大數(shù)據(jù)管理技術(shù)的發(fā)展潮2)具有支持結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)處理能力,支持多種多樣3)支持多語(yǔ)種,支持UNICODE標(biāo)準(zhǔn)滿足中文及多字節(jié)編碼需要,支持中文功能性要求5)支持文本分析處理技術(shù),能夠存儲(chǔ)、索引和分析大規(guī)模的非結(jié)構(gòu)化文本6)具有機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的能力。7)支持多種運(yùn)算框架和接口,如MapReduce,支持JDBC,ODBCdriver,能系統(tǒng)應(yīng)具備高可靠性1)投標(biāo)方應(yīng)向需求方提供成熟的、容錯(cuò)性和易恢復(fù)性俱佳的系統(tǒng)。2)具有軟件容錯(cuò)機(jī)制,包括數(shù)據(jù)庫(kù)、日志鏡像、自動(dòng)恢復(fù)和集群機(jī)制,具3)系統(tǒng)必須支持連續(xù)7×24小時(shí)不間斷地工作,不存在單點(diǎn)故障的問題。4)系統(tǒng)應(yīng)具備靜態(tài)過負(fù)荷控制和動(dòng)態(tài)過負(fù)荷控制兩種過負(fù)荷控制的能力,5)軟件故障情況下,系統(tǒng)應(yīng)具備故障守護(hù)恢復(fù)機(jī)制,即當(dāng)發(fā)生一般性軟件6)系統(tǒng)能夠正確識(shí)別外圍系統(tǒng)發(fā)的錯(cuò)誤請(qǐng)求及重復(fù)請(qǐng)求,避免出現(xiàn)一些不1)系統(tǒng)需要?jiǎng)澐职踩虿⑦M(jìn)行隔離,同時(shí)建立完善的網(wǎng)絡(luò)安全機(jī)制,這些2)系統(tǒng)必須采取數(shù)據(jù)訪問控制等措施來保證數(shù)據(jù)的安全。系統(tǒng)對(duì)用戶數(shù)據(jù)3)系統(tǒng)應(yīng)具備訪問權(quán)限的識(shí)別和控制功能,根據(jù)不同的應(yīng)用需求提供多級(jí)4)有良好的錯(cuò)誤處理和恢復(fù)機(jī)制,以保證數(shù)據(jù)的完整性和一致性。5)支持?jǐn)?shù)據(jù)傳輸通道和數(shù)據(jù)加密等保密機(jī)制,企業(yè)級(jí)安全認(rèn)證機(jī)制支持隨6)支持第三方的成熟商業(yè)安全審計(jì)系統(tǒng)集成與監(jiān)管。開放性要求系統(tǒng)應(yīng)易于使用1)系統(tǒng)應(yīng)易于安裝和使用,具備風(fēng)格一致用戶界面,且用戶界面應(yīng)為中文2)系統(tǒng)應(yīng)具備完善的聯(lián)機(jī)幫助功能。3)隨系統(tǒng)提交的產(chǎn)品文件必須包括完善的、針對(duì)不同級(jí)別用戶的應(yīng)用系統(tǒng)4)應(yīng)用系統(tǒng)必須提供一致性的圖形用戶界面風(fēng)格。5)應(yīng)用系統(tǒng)必須支持同時(shí)打開多個(gè)管理窗口以對(duì)不同任務(wù)進(jìn)行并行的操6)應(yīng)用系統(tǒng)應(yīng)該支持通過Tab鍵或回車鍵可以訪問到同一個(gè)窗口的所有控7)應(yīng)用系統(tǒng)應(yīng)該支持對(duì)于常用功能設(shè)置快捷鍵以方便功能間的切換;快捷8)在導(dǎo)致系統(tǒng)數(shù)據(jù)發(fā)生變化的操作執(zhí)行之前,系統(tǒng)應(yīng)該彈出提示窗口供用9)應(yīng)用系統(tǒng)功能菜單必須按照功能域、功能組的分類方法進(jìn)行組織。10)系統(tǒng)必須提供在線幫助功能,對(duì)于每一個(gè)操作功能都能查找到相應(yīng)的詳系統(tǒng)易安裝性要求0設(shè)備其他要求1網(wǎng)管要求2)要求支持分級(jí)網(wǎng)管和虛擬網(wǎng)管,要求支持本地控制口以及遠(yuǎn)程配置和管2設(shè)備安全性要求3設(shè)備供電及運(yùn)行環(huán)境(1)溫度:10~30℃(2)相對(duì)濕度:20%~80%(1)對(duì)于投標(biāo)人提供的落地型設(shè)備,當(dāng)體積較大、重量較大且易滑動(dòng)或易傾倒,設(shè)備應(yīng)具備抗震加固特性。本項(xiàng)目抗震設(shè)防烈度按8度考慮。投標(biāo)人應(yīng)(2)投標(biāo)人須在點(diǎn)對(duì)點(diǎn)應(yīng)答中詳細(xì)說明各種投標(biāo)設(shè)備的尺寸。(3)投標(biāo)人須在點(diǎn)對(duì)點(diǎn)應(yīng)答中詳細(xì)說明各種設(shè)備的重量(Kg)及對(duì)機(jī)房地1)引入實(shí)時(shí)數(shù)據(jù)采集技術(shù)(如Flume等)2)引入實(shí)時(shí)流處理消息中間件(如Kafka等)3)引入實(shí)時(shí)流處理技術(shù)(如Storm等)4)引入實(shí)時(shí)消息(數(shù)據(jù))同步技術(shù)。>支持DSP廠商>10個(gè)數(shù)據(jù)批處理時(shí)間<5小時(shí)>3GDPI數(shù)據(jù)保存6個(gè)月5.2方案要求5.3平臺(tái)要求5.3.1大數(shù)據(jù)處理子平臺(tái)要求多租戶能力要求.1平臺(tái)安全要求數(shù)據(jù)訪問控制(Token)1.系統(tǒng)支持基于多租戶的資源管理,可以為每個(gè)租戶分配獨(dú)立的存儲(chǔ)空間(HDFS)和計(jì)算資源(MRSlot),實(shí)現(xiàn)資源獨(dú)立,如下圖所示:答復(fù):滿足。2.HDFS管理,可以配置用戶的HDFS信息。HDFS信息包括:2)可用文件數(shù)3)空間限額4)可用空間5)用戶目錄7)文件數(shù)8)文件總大小3.MapReduce管理,可以增加、刪除或修改隊(duì)列信息。隊(duì)列信息包括:2)容量設(shè)置3)可用容量4)最大容量5)是否支持job優(yōu)先級(jí)6)用戶資源百分比限制7)用戶可占隊(duì)列容量系數(shù)8)隊(duì)列中并發(fā)task上限值9)每個(gè)用戶并發(fā)task上限值10)每個(gè)隊(duì)列中可容納job總數(shù)的系數(shù)11)初始化后并發(fā)執(zhí)行的job數(shù)4.資源套餐管理,系統(tǒng)可以設(shè)置資源套餐,套餐內(nèi)容包含存儲(chǔ)空間(HDFS)和計(jì)>字段級(jí)訪問權(quán)限答復(fù):滿足。1)表名2)所屬數(shù)據(jù)庫(kù)3)操作權(quán)限,包括八種權(quán)限:—Alter(修改表結(jié)構(gòu))—Update(修改數(shù)據(jù))—Create(創(chuàng)建)—Lock(鎖定或解除表)—Select(訪問數(shù)據(jù))—Drop(刪除)—Index(創(chuàng)建索引)—ShowDataBase(查看可用數(shù)據(jù)庫(kù))答復(fù):滿足。Hbase表權(quán)限管理內(nèi)容包括:用戶不能查看Hbase中非授權(quán)表的內(nèi)容。答復(fù):滿足?!穸鄠€(gè)用戶可以同時(shí)操作同一個(gè)指定的表;答復(fù):滿足。答復(fù):滿足。●用戶可以增加/修改/刪除HBASE表里的字段,也可以增加/修改/刪除HBASE表里字段的內(nèi)容?!馠base表權(quán)限管理內(nèi)容包括:1)表名3)操作權(quán)限,包括四種權(quán)限:—R(只讀)—W(可寫)—C(創(chuàng)建修改刪除)系統(tǒng)通過授權(quán)文件Token可以實(shí)現(xiàn)字段級(jí)控制,如下圖所示:SourceRequestURLDestinationIPhttp:///.4平臺(tái)統(tǒng)一管理要求.4.1集群參數(shù)配置集群參數(shù)包含:—集群名稱—備機(jī)名稱—備機(jī)IP.4.2節(jié)點(diǎn)參數(shù)配置—節(jié)點(diǎn)名稱一節(jié)點(diǎn)地址.4.3組件參數(shù)配置1)用戶名稱2)群組名稱.5集中監(jiān)控告警管理要求.5.1節(jié)點(diǎn)運(yùn)行狀態(tài)監(jiān)控—內(nèi)存使用率—硬盤使用率。1)查看HDFS概況,包括:剩余容量:當(dāng)集群HDFS處于運(yùn)行狀態(tài)時(shí)顯示,記錄當(dāng)前集群的剩余數(shù)據(jù)存數(shù)據(jù)節(jié)點(diǎn):當(dāng)前集群的HDFS配置的總數(shù)據(jù)節(jié)點(diǎn)數(shù)量及當(dāng)前正在運(yùn)顯示HDFS文件系統(tǒng)的文件參數(shù)(名稱/用戶/組/權(quán)限/文件大小/修改日期/1)查看HIVE概況,包括:2)業(yè)務(wù)表瀏覽1)節(jié)點(diǎn)磁盤空間不足:系統(tǒng)在出現(xiàn)某個(gè)節(jié)點(diǎn)磁盤空間不足的情況報(bào)警。2)群集HDFS磁盤不足:群集中單個(gè)節(jié)點(diǎn)空間足夠,但群集HDFS磁盤空間不足時(shí)4)節(jié)點(diǎn)內(nèi)存不足:節(jié)點(diǎn)在內(nèi)存不足情況報(bào)警。5)服務(wù)異常告警:監(jiān)測(cè)HDFS,HIVE,HBASE,Zookeeper等各個(gè)關(guān)鍵服務(wù)的運(yùn)行狀7)網(wǎng)絡(luò)故障告警:當(dāng)發(fā)現(xiàn)某些節(jié)點(diǎn)的網(wǎng)絡(luò)連接異常,將輸出網(wǎng)絡(luò)故障信息。1.數(shù)據(jù)出售類產(chǎn)品通過對(duì)電信數(shù)據(jù)資源進(jìn)行脫敏、加行出售。這類數(shù)據(jù)產(chǎn)品根據(jù)數(shù)據(jù)所涉及的地理屬性,分為全國(guó)性數(shù)據(jù)和2.數(shù)據(jù)咨詢類產(chǎn)品通過對(duì)數(shù)據(jù)的分析、挖掘,面向不同的行業(yè)提供咨詢類4.解決方案產(chǎn)品這類產(chǎn)品只面向合作伙伴,因?yàn)榻鉀Q方案類產(chǎn)品需要結(jié)合.6.4結(jié)算管理結(jié)算管理應(yīng)涵蓋以下功能:1.外部結(jié)算管理對(duì)合作伙伴的結(jié)算管理,根據(jù)合同,收入完成情況等要素對(duì)合作伙伴進(jìn)行費(fèi)用結(jié)算。2.內(nèi)部結(jié)算依據(jù)考核計(jì)劃、考核結(jié)果、關(guān)聯(lián)收入完成情況、數(shù)據(jù)使用情況等進(jìn)行收入結(jié)算。答復(fù):滿足。3.結(jié)算包括現(xiàn)金結(jié)算、轉(zhuǎn)賬結(jié)算、結(jié)算公式管理、結(jié)算期限管理等。答復(fù):滿足。結(jié)算的費(fèi)用種類包括了兩大類:大數(shù)據(jù)平臺(tái)查詢服務(wù)費(fèi)用結(jié)算和大數(shù)據(jù)平臺(tái)資源使用費(fèi)用結(jié)算。>大數(shù)據(jù)平臺(tái)的查詢服務(wù)可按照查詢次數(shù)或者包月服務(wù)來計(jì)費(fèi);答復(fù):滿足。>大數(shù)據(jù)平臺(tái)的資源使用包括了存儲(chǔ)、運(yùn)算和數(shù)據(jù)三類,其中數(shù)據(jù)資源根據(jù)字段和使用記錄數(shù)來計(jì)費(fèi),存儲(chǔ)和運(yùn)算資源則可以采用租費(fèi)的結(jié)算方式。答復(fù):滿足。1.寬帶DPI數(shù)據(jù)流經(jīng)過實(shí)時(shí)數(shù)據(jù)處理后,支持多個(gè)同步標(biāo)簽的服務(wù)程序。3.通過字段級(jí)Token控制,實(shí)現(xiàn)離線標(biāo)簽數(shù)據(jù)處理可以訪問的字段類型,從而廠商3廠商4廠商64、寬帶DPI數(shù)據(jù)流輸出要求:大數(shù)據(jù)平臺(tái)實(shí)時(shí)采集清洗寬帶DPI數(shù)據(jù)流,處理流程如下圖所示:處理流程說明如下:1.Kafka消息系統(tǒng)實(shí)時(shí)接收前端寬帶DPI數(shù)據(jù)流;2.Kafka消息系統(tǒng)將接收到的寬帶DPI數(shù)據(jù)流分發(fā)至同步標(biāo)簽和實(shí)時(shí)入庫(kù)3.同步標(biāo)簽?zāi)K采用Storm組件實(shí)時(shí)處理寬帶DPI數(shù)據(jù)流,為寬帶DPI數(shù)據(jù)流打上標(biāo)簽。4.實(shí)時(shí)入庫(kù)模塊采用Storm組件將寬帶DPI數(shù)據(jù)流以文件形式寫入云平臺(tái)HDFS,后續(xù)可以對(duì)寬帶DPI文件進(jìn)行離線標(biāo)簽處理。1、3GDPI數(shù)據(jù)采集清洗網(wǎng)絡(luò)架構(gòu)如下:3GDPI設(shè)備大數(shù)據(jù)平臺(tái)答復(fù):滿足。2、系統(tǒng)通過FTP方式采集3GDPI文件。AAA數(shù)據(jù)采集清洗IP地址和AD賬號(hào)的數(shù)據(jù)原始信息,完成用戶上網(wǎng)記錄身份的辨識(shí)。PairsUserNameFramedIPAddressAcctStatusTypeOIDD數(shù)據(jù)采集清洗_ _ lnformationdatatypeprodinstnum starttime basestationstringstringstringstringstringstring#DetailedTablelnformationDatabase:oiddODS數(shù)據(jù)采集清洗3、ODS文件通過分布式ETL工具Kettle寫入HDFS答復(fù):滿足。__guangwangflagaconnectcollegeagrmntconstexpdtbalancepisubstattpupdatestatusIstupdatetmplng(帳號(hào)<加密>)(用戶年齡)(用戶性別)(用戶類型)(用戶所屬區(qū)域)(費(fèi)用范圍描述)(寬帶訪問類型)(活躍操作頻度)(套餐類型)(是否光釬標(biāo)記)(協(xié)議有效日期)(是否在用)(更新狀態(tài))(最后更新日期)(經(jīng)度)lnformationdatatype#DetailedTablelnformationDatabase:ods從實(shí)現(xiàn)手段上看,針對(duì)不同的數(shù)據(jù)內(nèi)容Hadoop需脫脫敏后寬帶設(shè)備號(hào)實(shí)際adsha加密結(jié)果(該算法不可反實(shí)際年齡年齡段信息,如5年一段,取起始數(shù)值顯示,如25表示25-29用戶地址實(shí)際地址,精確到戶小區(qū)、樓盤或商圈信息,如大寧商圈位置經(jīng)緯度實(shí)際經(jīng)緯度精確到0.001,約1000平方米,注:Ing*lat=0.001*0.001(度)=約95.18_用戶姓名實(shí)際姓名僅保留用戶姓氏用戶消費(fèi)情況實(shí)際消費(fèi)金額每150元一檔:0(表示0-149),…解密數(shù)據(jù)HDFSHDFSHDFSHDFSHDFS數(shù)據(jù)塊數(shù)據(jù)塊數(shù)據(jù)塊數(shù)據(jù)塊數(shù)據(jù)塊2.數(shù)據(jù)加密不修改HDFS內(nèi)核,不影響將來HDFS的升級(jí)維護(hù)。3.數(shù)據(jù)加密后,保證HDFS數(shù)據(jù)透明SQL8.平臺(tái)提供ETL作業(yè)管理功能,管理操作包括新增、修改、刪除、重命名、發(fā)答復(fù):滿足。1.話單數(shù)據(jù)抽取:保證抽取效率以及穩(wěn)定性,能夠在大數(shù)據(jù)量處理能力的情況下保證系統(tǒng)的連續(xù)性,對(duì)異常進(jìn)行容錯(cuò)性處理,對(duì)處理不了的異常也要有完整的日志記錄以便后續(xù)的查證。答復(fù):滿足。2.非話單數(shù)據(jù)抽?。簼M足多種數(shù)據(jù)類型的處理能力、另外在作業(yè)調(diào)度上也要有完善的調(diào)度機(jī)制、以及一旦發(fā)生問題之后的數(shù)據(jù)隔離能力。答復(fù):滿足。.1.2數(shù)據(jù)清洗1.不完整的數(shù)據(jù):如果缺失的字段是關(guān)鍵字段如設(shè)備標(biāo)示、訪問url等信息,則進(jìn)行過濾并返回給源系統(tǒng);如果是一些非關(guān)鍵字段則直接入庫(kù)。答復(fù):滿足。2.錯(cuò)誤的數(shù)據(jù):如果是類似全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有一個(gè)回車操作、日期格式不正確等可修復(fù)的錯(cuò)誤數(shù)據(jù),直接修復(fù)后入庫(kù);如果是設(shè)備標(biāo)示位數(shù)不夠等不可修復(fù)的錯(cuò)誤數(shù)據(jù),進(jìn)行過濾并記錄錯(cuò)誤日志。答復(fù):滿足。是所有字段重復(fù)的數(shù)據(jù),對(duì)于這兩類數(shù)據(jù)都需要進(jìn)行數(shù)據(jù)過濾,針對(duì)第一類數(shù)據(jù)還需要向源數(shù)據(jù)系統(tǒng)進(jìn)行反復(fù)確認(rèn)后再補(bǔ)數(shù)據(jù)入庫(kù)。答復(fù):滿足。1.需要實(shí)現(xiàn)基于hadoop的數(shù)據(jù)轉(zhuǎn)換和處理,目前的hadoop數(shù)據(jù)倉(cāng)庫(kù)處理手段還是比較豐富的,有pighsqlmapreduce1.將完成轉(zhuǎn)換的偽CDR話單數(shù)據(jù)并發(fā)寫入HIVE/HBASE數(shù)據(jù)庫(kù)。1)基本的數(shù)據(jù)庫(kù)查詢2)判斷表以及列、操作系統(tǒng)文件是否存在3)從URL接收查詢4)使用Web服務(wù)查詢信息5)使用數(shù)據(jù)流中的值作為參數(shù)來執(zhí)行一個(gè)數(shù)據(jù)庫(kù)查詢6)流查詢:從轉(zhuǎn)換中其他流里查詢值1)值映射、分組、去重、拆分字段、行列轉(zhuǎn)換2)復(fù)制行3)正則表達(dá)式2)寫日志3)發(fā)送郵件4)從POPServer獲取郵件并保存在本地5)比較文件夾、文件6)創(chuàng)建、復(fù)制、移動(dòng)、刪除、壓縮文件7)從HTTP獲取或者上傳文件8)操作延遲等待作業(yè)智能排隊(duì)調(diào)度要求.1作業(yè)靈活調(diào)度.2資源智能調(diào)整5.3.3外部服務(wù)能力子平臺(tái)要求總體要求標(biāo)簽查詢服務(wù).1分布式K-V數(shù)據(jù)庫(kù)5.系統(tǒng)管理采用基于Token(令牌)的用戶身份驗(yàn)證機(jī)制,使用戶在訪問受保護(hù)的2)攜帶已獲取的Token查詢有權(quán)限的數(shù)據(jù)標(biāo)簽可以設(shè)置,缺省設(shè)置為30分鐘。5.3.4信息推送子平臺(tái)要求根據(jù)業(yè)務(wù)需要,精確控制將符合業(yè)務(wù)需要的流量轉(zhuǎn)發(fā)到特定服務(wù)器上進(jìn)行處理,同時(shí)可以實(shí)現(xiàn)同一份流量根據(jù)配置轉(zhuǎn)發(fā)多份到不同的服務(wù)器上。具體的流量轉(zhuǎn)發(fā)規(guī)則可以靈活設(shè)置??梢耘渲弥晦D(zhuǎn)發(fā)特定域名或url的報(bào)文,實(shí)現(xiàn)流量的精細(xì)化控制。同時(shí),域名和URL支持加*實(shí)現(xiàn)模糊匹配?!艮D(zhuǎn)發(fā)總流量控制通過設(shè)置預(yù)算的方式,可以控制轉(zhuǎn)發(fā)的總流量大小。例如希望只轉(zhuǎn)發(fā)50CPM的百度搜索流量到server1上,可以設(shè)置預(yù)算為50元,每CPM出價(jià)1元,精確控制只往server1上轉(zhuǎn)發(fā)50個(gè)CPM?!纛l次控制系統(tǒng)支持根據(jù)ADSL或IP進(jìn)行頻次控制,即可以控制每個(gè)ADSL用戶或每個(gè)IP用戶的流量只被轉(zhuǎn)發(fā)1次到特定server上?!舳ㄏ虿呗钥刂葡到y(tǒng)提供了多種定向策略,實(shí)現(xiàn)流量的差異化控制,如地域定向、人群定向。其中地域定向,可以實(shí)現(xiàn)根據(jù)IP判斷網(wǎng)民所在地區(qū),實(shí)現(xiàn)只將特定地區(qū)的用戶流量進(jìn)行分發(fā)。如杭州某企業(yè)用戶可能只希望了解杭州地區(qū)的網(wǎng)民搜索行為,可以通過地域設(shè)置只轉(zhuǎn)發(fā)杭州的流量到該企業(yè)的服務(wù)器上進(jìn)行數(shù)據(jù)分析,一方面減輕了下游企業(yè)的服務(wù)器壓力,另一方面最大限度保護(hù)了其他地區(qū)的用戶隱私,降低運(yùn)營(yíng)商數(shù)據(jù)的流量浪費(fèi)。答復(fù):滿足?!艉诿麊慰刂瓶梢酝ㄟ^配置IP和ADSL黑名單的策略,實(shí)現(xiàn)不轉(zhuǎn)發(fā)特定IP或ADSL用戶的流量,保障這部分用戶的體驗(yàn)和隱私數(shù)據(jù)。答復(fù):滿足。廣告推送模塊是該系統(tǒng)的核心模塊,根據(jù)各種設(shè)置項(xiàng)實(shí)現(xiàn)運(yùn)營(yíng)商流量的廣告營(yíng)銷策略,幫助運(yùn)營(yíng)商實(shí)現(xiàn)流量變現(xiàn)。答復(fù):滿足?!魪V告主賬號(hào)管理管理員賬號(hào)可以管理系統(tǒng)中的所有廣告。同時(shí),為了便于廣告主對(duì)自己的營(yíng)銷策略進(jìn)行控制,通過為廣告主創(chuàng)建私有賬號(hào)。廣告主可以用自己的賬號(hào)提交廣告訂單,并對(duì)廣告的營(yíng)銷效果進(jìn)行跟蹤、調(diào)整等。答復(fù):滿足。廣告主所提交的廣告都需要提交管理員進(jìn)行審核,只有通過審核的廣告才可以進(jìn)入實(shí)際推送系統(tǒng)。這樣做的目的是為了保障系統(tǒng)推送的廣告的合法性,避免非法廣告給網(wǎng)民和廣告平臺(tái)帶來干擾。答復(fù):滿足。3、用戶群(人群定向);4、營(yíng)銷內(nèi)容(廣告素材);5、展現(xiàn)方式(系統(tǒng)支持配置多種展現(xiàn)形式,包括替換、彈窗、嵌入式、無線底通等);6、營(yíng)銷方式;7、系統(tǒng)每10分鐘會(huì)對(duì)推送日志進(jìn)行一次統(tǒng)計(jì),并在業(yè)務(wù)系統(tǒng)中的報(bào)表中顯示廣告引導(dǎo)系統(tǒng)對(duì)用戶上網(wǎng)請(qǐng)求的HTTPGET報(bào)文進(jìn)行分析,符合廣告推送條件的流量會(huì)添加一條廣告引導(dǎo)JS,并連同用戶的請(qǐng)求報(bào)文一起發(fā)送到客戶廣告引導(dǎo)系統(tǒng)只負(fù)責(zé)判斷用戶的Get報(bào)文是否符合推送條件并對(duì)符合條件的告狀態(tài)、廣告形式(嵌入式、浮窗)和廣告尺寸等約束條件的限制。Cookiemapping主要用戶將百川自有cookie與運(yùn)營(yíng)商流量中的其他域名cookie進(jìn)行關(guān)聯(lián)。如taobaocookie、百度cookie等,通過cookiemapping技術(shù)打通用戶在不同域名上的行為,從而更全面刻畫用戶行為。頻次控制用于限制每個(gè)用戶廣告推送的最大次數(shù),及同一廣告兩次推送時(shí)的時(shí)間間隔。其中根據(jù)用戶身份標(biāo)示不同,分為cookie、IP、ADSL頻次控制三種。Cookie頻次控制,是指每個(gè)cookie只推送設(shè)定的次數(shù)(如一次);IP頻次控制指每個(gè)IP只推送預(yù)訂次數(shù),而無論該IP下有多少臺(tái)終端設(shè)備;ADSL頻次是根據(jù)運(yùn)營(yíng)商AD賬號(hào),每個(gè)賬號(hào)僅推送預(yù)訂次數(shù)(每個(gè)ADSL可能會(huì)動(dòng)態(tài)更新多個(gè)◆標(biāo)簽定向基于DPI的數(shù)據(jù),根據(jù)用上網(wǎng)時(shí)間段的習(xí)慣特征,分析每個(gè)用戶上網(wǎng)的主要時(shí)間段,通過自定義標(biāo)簽屬性(例如關(guān)注房產(chǎn)類用戶、母嬰用品類用戶等),定義用戶特征屬性。系統(tǒng)會(huì)定期離線對(duì)DPI數(shù)據(jù)進(jìn)行分析挖掘,分析每個(gè)用戶的興趣標(biāo)簽,并將分析結(jié)果導(dǎo)入標(biāo)簽庫(kù)。也支持第三方自定義標(biāo)簽的離線導(dǎo)入,從而可以利用電信已經(jīng)積累的BI數(shù)據(jù)進(jìn)行廣告投放。由于用戶興趣的多樣性,支持每個(gè)用戶有多個(gè)標(biāo)簽。標(biāo)簽庫(kù)用redis進(jìn)行管理,支持key-value結(jié)構(gòu)數(shù)據(jù)的快速查詢。◆狀態(tài)控制用戶賬號(hào)、廣告計(jì)劃、廣告策略、廣告素材三個(gè)層級(jí)均有自己的狀態(tài),只有每個(gè)層級(jí)的狀態(tài)均有效時(shí),廣告才可以真正能夠推送出去。每天投放的時(shí)段范圍,如限定每天早晨8點(diǎn)到晚上10點(diǎn)投放。啟用狀態(tài)用于手重定向跳轉(zhuǎn)),才可以推送。戶上個(gè)月訪問體育類視頻網(wǎng)站的業(yè)務(wù)流量占了包月套餐數(shù)據(jù)流量的50%(可配置),系統(tǒng)可對(duì)用戶推薦專門的體育視頻套餐包供用戶選購(gòu)。1)內(nèi)存數(shù)據(jù)庫(kù)查詢2.系統(tǒng)提供MapReduce定制服務(wù),當(dāng)SQL語(yǔ)句效率不高時(shí),可以將SQL語(yǔ)2.系統(tǒng)兼容標(biāo)準(zhǔn)的SQL語(yǔ)法,可以通過SQL語(yǔ)句訪問查詢4.系統(tǒng)支持ODBC連接方式,適合WIN應(yīng)用5.系統(tǒng)提供CLI命令接口,適合UNIX應(yīng)用在線報(bào)表要求5.4集成方案要求6.1軟件要求6.1.1軟件總體要求當(dāng)有新軟件版本時(shí),投標(biāo)方應(yīng)承諾免費(fèi)更新軟件版本(軟件終身免費(fèi)升級(jí)),6.1.2軟件詳細(xì)要求10)應(yīng)用軟件系統(tǒng)的各個(gè)軟件功能模塊應(yīng)滿足本規(guī)范書和中國(guó)電信浙江公司12)應(yīng)用軟件應(yīng)采用友好的圖形化窗口的用戶操作界面,可操作性強(qiáng),而且13)應(yīng)用軟件應(yīng)具備一套完備的數(shù)據(jù)管理系統(tǒng)和進(jìn)程調(diào)度系統(tǒng),以保證系統(tǒng)14)應(yīng)用軟件支持分布式數(shù)據(jù)管理,支持多數(shù)據(jù)源間的訪問連接,能方便地15)應(yīng)用程序還應(yīng)采用參數(shù)驅(qū)動(dòng)的設(shè)計(jì)思想,在應(yīng)用程序中,凡是不能確定17)投標(biāo)方在向甲方推薦軟件產(chǎn)品時(shí),必須根據(jù)所提供的軟件產(chǎn)品對(duì)每個(gè)組18)投標(biāo)方提供的軟件在不同時(shí)期軟件版本應(yīng)能向下兼容,軟件版本易于升19)投標(biāo)方應(yīng)說明目前所使用軟件的實(shí)際運(yùn)行時(shí)間以及升級(jí)完善的計(jì)劃進(jìn)度6.2硬件要求型號(hào)(寬×深×重量(KG)(滿配置)電源路數(shù)電壓(V)電流(A)設(shè)備電源線7項(xiàng)目管理要求7.1項(xiàng)目組織1~2名的專家人員(專家不少于3年Hadoop相關(guān)工作經(jīng)驗(yàn),以及不少于一家省的工作方式(現(xiàn)場(chǎng)操作/遠(yuǎn)程技術(shù)支持),及其工作時(shí)長(zhǎng)(按小時(shí)計(jì)算)。在工甲方主要職責(zé)、配合職責(zé)(針對(duì)各環(huán)節(jié))投標(biāo)方主要職責(zé)、配合職責(zé)(針對(duì)各環(huán)節(jié))第三方職責(zé)(如果存在需要)(1)投標(biāo)方提供的書面技術(shù)資料應(yīng)能滿足確保系統(tǒng)正常運(yùn)行所需的管理、(2)在現(xiàn)場(chǎng)調(diào)試和試運(yùn)行過程中投標(biāo)方如果對(duì)軟件、硬件作了改動(dòng),則必(3)要求每個(gè)節(jié)點(diǎn)提供全套技術(shù)文件五份。2)在保修期內(nèi)硬件應(yīng)免費(fèi)更換和維修,投標(biāo)能超過4小時(shí),所有這些都應(yīng)是免費(fèi)的。(2)在現(xiàn)場(chǎng)調(diào)試和試運(yùn)行過程中投標(biāo)方如果對(duì)軟件、硬件作了改動(dòng),大數(shù)據(jù)平臺(tái)是第三代數(shù)據(jù)處理技術(shù)HadoopHadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不對(duì)外部客戶機(jī)而言,HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng)??梢詣?chuàng)建、刪除、移動(dòng)或重命名文件,等等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的,這是由它自身的特點(diǎn)決定的。這些節(jié)點(diǎn)包括:NameNode,它在HDFS內(nèi)部提供元存儲(chǔ)在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode是一個(gè)通常在HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。NameNode決定是否將文件映射到DataNode上的復(fù)制塊上。對(duì)于最常見的3個(gè)復(fù)制塊,第一個(gè)復(fù)制塊存儲(chǔ)在同一機(jī)架的不同節(jié)點(diǎn)上,最后一個(gè)復(fù)制塊存儲(chǔ)在不同機(jī)架的某個(gè)節(jié)點(diǎn)上。實(shí)際的I/0事務(wù)并沒有經(jīng)過NameNode,只有表示DataNode和塊的文件映射的元數(shù)據(jù)經(jīng)過NameNode。當(dāng)外部客戶機(jī)發(fā)送請(qǐng)求要求創(chuàng)建文件時(shí),NameNode會(huì)以塊標(biāo)識(shí)和該塊的第一個(gè)副本的DataNodeIP地址作為響應(yīng)。這個(gè)NameNode還會(huì)通知其他將要接收該塊的副本的DataNode。NameNode在一個(gè)稱為Fslmage的文件中存儲(chǔ)所有關(guān)于文件系統(tǒng)名稱空間的信息。這個(gè)文件和一個(gè)包含所有事務(wù)的記錄文件(這里是EditLog)將存儲(chǔ)在DataNode也是一個(gè)通常在HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。DataNode通常以機(jī)架的形式組織,機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。Hadoop的一個(gè)假設(shè)是:機(jī)架內(nèi)部節(jié)點(diǎn)之間的傳輸速度快于機(jī)架間節(jié)點(diǎn)的傳輸速度。DataNode響應(yīng)來自HDFS客戶機(jī)的讀寫請(qǐng)求。它們還響應(yīng)創(chuàng)建、刪除和復(fù)制將采取修復(fù)措施,重新復(fù)制在該節(jié)點(diǎn)上丟失的塊。HDFS的主要目的是支持以流的形式訪問寫入的大型文件。如果客戶機(jī)想將文件寫到HDFS上,首先需要將該文件緩存到本地的臨時(shí)存儲(chǔ)。如果緩存的數(shù)據(jù)DataNode標(biāo)識(shí)和目標(biāo)塊響應(yīng)客戶機(jī)。同時(shí)也通知將要保存文件塊副本的DataNode。當(dāng)客戶機(jī)開始將臨時(shí)文件發(fā)送給第一個(gè)DataNode時(shí),將立即通過管道方式將塊內(nèi)容轉(zhuǎn)發(fā)給副本DataNode。客戶機(jī)也負(fù)責(zé)創(chuàng)建保存在相同HDFS名稱件創(chuàng)建提交到它的持久化元數(shù)據(jù)存儲(chǔ)(在EditLog和Fslmage文件)。函數(shù)和一個(gè)main函數(shù)。main函數(shù)將作業(yè)控制和文件輸入/輸出結(jié)合起來。在這點(diǎn)上,Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。MapReduce本身就是用于并行處理大數(shù)據(jù)集的軟件框架。MapReduce的根源是函數(shù)性編程中的map和reduce函數(shù)。它由兩個(gè)可能包含有許多實(shí)例(許多Map和Reduce)的操作組成。Map函數(shù)接受一組數(shù)據(jù)并將其轉(zhuǎn)換為一個(gè)鍵/值對(duì)列表,輸入域中的每個(gè)元素對(duì)應(yīng)一個(gè)鍵/值對(duì)。Reduce函數(shù)接受Map函數(shù)生成的列表,然后根據(jù)它們的鍵(為每個(gè)鍵生成一個(gè)鍵/值對(duì))縮小鍵/值對(duì)列表。這里提供一個(gè)示例,幫助您理解它。假設(shè)輸入域是上運(yùn)行Map函數(shù)將得出以下的鍵/值對(duì)列表:浙江電信大數(shù)據(jù)運(yùn)營(yíng)平臺(tái)系統(tǒng)架構(gòu)如下:分析和運(yùn)典分析,云計(jì)算|移動(dòng)應(yīng)用|安全性整個(gè)大數(shù)據(jù)平臺(tái)分為五個(gè)層次:●信息整合與治理主要職能就是完成數(shù)據(jù)的采集和清洗工作包括Hadoop系統(tǒng)以及流式計(jì)算,包括數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)出路組件利用國(guó)際最新的Spark并行處理架構(gòu),通過內(nèi)存緩存的技術(shù),實(shí)現(xiàn)批處理作業(yè)的加速,提高數(shù)據(jù)分析作業(yè)的處理效率。包括數(shù)據(jù)可視化以及應(yīng)用程序開發(fā)與作業(yè)調(diào)度,同時(shí)提供了完備的系統(tǒng)管理功能。支持BI智能分析、行業(yè)分析、DSP廠商等各種大數(shù)據(jù)分析應(yīng)用浙江電信大數(shù)據(jù)運(yùn)營(yíng)平臺(tái)功能模塊如下:AAA數(shù)據(jù)采集清洗OIDD數(shù)據(jù)采集清洗ODS數(shù)據(jù)采集清洗>系統(tǒng)采用文件方式采集清洗3GDPI數(shù)據(jù)>系統(tǒng)采用文件方式采集清洗ODS數(shù)據(jù)>系統(tǒng)可以靈活調(diào)度作業(yè)資源,已保證每個(gè)作業(yè)都能獲得相應(yīng)的系統(tǒng)資>系統(tǒng)采用KDC(KeyDistributionCenter)安全認(rèn)證中心實(shí)現(xiàn)用戶安>系統(tǒng)提供SQL語(yǔ)句優(yōu)化及MapReduce定制服務(wù),優(yōu)化廠商作業(yè)性能。統(tǒng)統(tǒng)一用戶管理系統(tǒng)可以根據(jù)流量分發(fā)規(guī)則,對(duì)數(shù)據(jù)流量進(jìn)行精確控制分發(fā)。系統(tǒng)對(duì)符合廣告推送條件的流量進(jìn)行廣告引導(dǎo)推送。4.2大數(shù)據(jù)處理子平臺(tái)平臺(tái)安全管控系統(tǒng)支持基于多租戶的資源管理,可以為每個(gè)租戶分配獨(dú)立的存儲(chǔ)空間3)空間限額2)容量設(shè)置3)可用容量4)最大容量8)隊(duì)列中并發(fā)task上限值11)初始化后并發(fā)執(zhí)行的job數(shù)●資源套餐管理系統(tǒng)可以設(shè)置資源套餐,套餐內(nèi)容包含存儲(chǔ)空間(HDFS)和計(jì)算資源(MRSlot)。用戶開通業(yè)務(wù)時(shí),只需選擇相應(yīng)的套餐即可。平臺(tái)數(shù)據(jù)授權(quán)系統(tǒng)提供基于多租戶的數(shù)據(jù)授權(quán),可以控制各租戶的數(shù)據(jù)訪問權(quán)限,包括:1.hive表數(shù)據(jù)訪問權(quán)限Hive表權(quán)限管理內(nèi)容包括:●系統(tǒng)可以設(shè)置用戶的HIVE表訪問權(quán)限,并允許用戶訪問授權(quán)的HIVE表,用戶不能使用非授權(quán)的HIVE表?!裼脩魶]有創(chuàng)建/刪除HIVE表的操作權(quán)限。HIVE表只能由系統(tǒng)管理員統(tǒng)一創(chuàng)建/刪除?!裼脩艨梢栽黾?修改/刪除HIVE表里的字段,也可以增加/修改/刪除HIVE表里字段的內(nèi)容。●HIVE表權(quán)限管理內(nèi)容包括:1)表名2)所屬數(shù)據(jù)庫(kù)3)操作權(quán)限,包括八種權(quán)限:2.hbase表數(shù)據(jù)訪問權(quán)限用戶不能查看Hbase中非授權(quán)表的內(nèi)容?!穸鄠€(gè)用戶可以同時(shí)操作同一個(gè)指定的表;●用戶可以增加/修改/刪除HBASE表里的字段,也可以增加/修改/刪除3)操作權(quán)限,包括四種權(quán)限:—R(只讀)—W(可寫)—C(創(chuàng)建修改刪除)—A(控制)3.字段級(jí)訪問權(quán)限系統(tǒng)通過授權(quán)文件Token可以實(shí)現(xiàn)字段級(jí)控制,如下圖所示:UserAgentDestinatio2012080109:13:00/61.152.10866ck1=;tg=0;平臺(tái)統(tǒng)一管理包括集群參數(shù)配置、節(jié)點(diǎn)參數(shù)配置、組件參數(shù)配置和用戶管理。1.集群參數(shù)配置集群參數(shù)包含:一集群名稱一備機(jī)名稱—節(jié)點(diǎn)名稱—節(jié)點(diǎn)地址—網(wǎng)卡設(shè)備—廣播地址Bcast—狀態(tài)等信息。一組件配置類型選擇,提供Hadoop,Hbase,Hive,zookeeper—組件配置文件選擇等信息。平臺(tái)用戶管理包含用戶管理和群組管理,可以增加刪除hadoop用戶群組信1)用戶名稱2)群組名稱1)基本信息2)用戶名3)所在用戶組5)文件數(shù)限額6)空間限額8)所屬隊(duì)列集中監(jiān)控告警管理1.節(jié)點(diǎn)運(yùn)行狀態(tài)監(jiān)控通過圖形化界面直觀顯示節(jié)點(diǎn)運(yùn)行狀態(tài)和性能數(shù)據(jù),包括節(jié)點(diǎn)負(fù)荷、存儲(chǔ)能—1分鐘負(fù)荷—5分鐘負(fù)荷—15分鐘負(fù)荷—CPU使用率—內(nèi)存使用率—硬盤使用率。1)查看HDFS概況,包括:一狀態(tài):當(dāng)前集群的HDFS運(yùn)行狀態(tài)?!?cè)萘浚寒?dāng)前集群的HDFS配置的數(shù)據(jù)存儲(chǔ)空間的總?cè)萘俊!S嗳萘浚寒?dāng)集群HDFS處于運(yùn)行狀態(tài)時(shí)顯示,記錄當(dāng)前集群的剩余數(shù)—數(shù)據(jù)節(jié)點(diǎn):當(dāng)前集群的HDFS配置的總數(shù)據(jù)節(jié)點(diǎn)數(shù)量及當(dāng)前正在運(yùn)行的—顯示HDFS文件系統(tǒng)的文件參數(shù)(名稱/用戶/組/權(quán)限/文件大小/修改一雙擊任務(wù)查看任務(wù)詳細(xì)信息,包括作業(yè)類型、作業(yè)進(jìn)度、作業(yè)數(shù)、待1)查看HIVE概況,包括:2)業(yè)務(wù)表瀏覽3)合同執(zhí)行情況管理:合同執(zhí)行狀態(tài)、合同執(zhí)行進(jìn)度、合同執(zhí)行偏差評(píng)估1)數(shù)據(jù)出售類產(chǎn)品:通過對(duì)電信數(shù)據(jù)資源進(jìn)行脫敏、加工、進(jìn)行出售。這類數(shù)據(jù)產(chǎn)品根據(jù)數(shù)據(jù)所涉及的地理屬性,2)數(shù)據(jù)咨詢類產(chǎn)品:通過對(duì)數(shù)據(jù)的分析、挖掘,面向不同的行業(yè)提供咨詢4)解決方案產(chǎn)品:這類產(chǎn)品只面向合作伙伴,因?yàn)榻鉀Q方合行業(yè)合作伙伴,整合自有數(shù)據(jù)、自有渠道、合作伙伴渠道2)內(nèi)部結(jié)算依據(jù)考核計(jì)劃、考核結(jié)果、關(guān)聯(lián)>大數(shù)據(jù)平臺(tái)的查詢服務(wù)可按照查詢次數(shù)或者包月服務(wù)來計(jì)費(fèi);>大數(shù)據(jù)平臺(tái)的資源使用包括了存儲(chǔ)、運(yùn)算和數(shù)據(jù)三類,其中數(shù)據(jù)資源根據(jù)字離線標(biāo)簽服務(wù)4.3數(shù)據(jù)匯聚子平臺(tái)浙江電信11個(gè)地市的寬帶DPI數(shù)據(jù)通過CN2網(wǎng)絡(luò)匯聚到大數(shù)據(jù)平臺(tái)。如下干兆帶DP接口服務(wù)器5大數(shù)據(jù)平臺(tái)不僅支持寬帶DPI文件匯聚,同時(shí)支持寬帶DPI數(shù)據(jù)流實(shí)時(shí)匯大數(shù)據(jù)平臺(tái)實(shí)時(shí)采集清洗寬帶DPI數(shù)據(jù)流,處理流程如下圖所示:文件1.Kafka消息系統(tǒng)實(shí)時(shí)接收前端寬帶DPI數(shù)據(jù)流;2.Kafka消息系統(tǒng)將接收到的寬帶DPI數(shù)據(jù)流分發(fā)至同步標(biāo)簽和實(shí)時(shí)入庫(kù)兩3.同步標(biāo)簽?zāi)K采用Storm組件實(shí)時(shí)處理寬帶DPI數(shù)據(jù)流,為寬帶DPI數(shù)據(jù)>一類是非瀏覽器發(fā)起的http請(qǐng)求;另一類是瀏覽器發(fā)起的非用戶點(diǎn)擊請(qǐng)求;發(fā)起的任意主動(dòng)點(diǎn)擊行為)。通過清洗規(guī)則的設(shè)定,實(shí)現(xiàn)“用戶有效點(diǎn)擊”的規(guī)則庫(kù)1:根據(jù)后綴過濾圖片、腳本等"js?""jpg""jpegpnggifcssswf規(guī)則庫(kù)2:過濾帶有指定特征字符串的urlallyescomcprobaiducomcachegoogcomadma規(guī)則庫(kù)3:過濾重復(fù)包針對(duì)多條URL請(qǐng)求的規(guī)則規(guī)則庫(kù)4:識(shí)別非頁(yè)面類型請(qǐng)求(包含Js發(fā)出的請(qǐng)求)針對(duì)單條URL的規(guī)則規(guī)則庫(kù)5:保留白名單中的請(qǐng)求針對(duì)單條URL的規(guī)則httpwwwbaiducomhttpcnbingcomsearchhttpw.hk/search系統(tǒng)通過FTP方式采集3GDPIGDPI大數(shù)據(jù)平臺(tái)獲取Radius數(shù)據(jù),將用戶上網(wǎng)撥號(hào)AAA過程中IP和AD信息的導(dǎo)入,匹配用戶實(shí)現(xiàn)獨(dú)立運(yùn)行的AAAradius解報(bào)文模塊,實(shí)時(shí)提取AAA報(bào)文中的AttributeValuePairs中的對(duì)應(yīng)報(bào)文段UserNameFramedIPAddress數(shù)據(jù)采集清洗軟件數(shù)據(jù)采集清洗軟件OIDD文件通過分布式ETL工具Kettle寫入HDFS。碼)__(用戶號(hào)(開始時(shí)間)(基站)(上電標(biāo)記)#DetailedTablelnformationDatabase:oiddprodinstnum_starttime___datelabe|stringstringstringstringstring(用戶號(hào)碼)(開始時(shí)間)(基站)(扇區(qū))(上電標(biāo)記)4.3.50DS數(shù)據(jù)采集清洗系統(tǒng)通過FTP方式采集ODS文件,ODS數(shù)據(jù)采集清洗網(wǎng)絡(luò)架構(gòu)如下:大數(shù)據(jù)平臺(tái)ODS文件通過分布式ETL工具Kettle寫入HDFS_stringstringstringstring(帳號(hào)<加密>)(用戶年齡)(用戶性別)(用戶類型)_guangwangflagaconnectcollegeagrmntconstexpdtstringstringstringstringstringstringstringstringstringstringstringstringstringstring(寬帶訪問類型)(活躍操作頻度)(最后更新日期)lnformationdatatype#DetailedTablelnformationDatabase:ods數(shù)據(jù)脫敏也被稱為數(shù)據(jù)混淆、數(shù)據(jù)保密、數(shù)據(jù)消毒、數(shù)據(jù)擾頻、數(shù)據(jù)匿名化和數(shù)據(jù)認(rèn)證。采用數(shù)據(jù)脫敏技術(shù),可以幫助大數(shù)據(jù)平臺(tái)提高安全性和保密等級(jí),以防止其數(shù)據(jù)被濫用,同時(shí)滿足集團(tuán)對(duì)數(shù)據(jù)安全性的規(guī)范要求,以及由管理/審計(jì)機(jī)關(guān)所要求的隱私標(biāo)準(zhǔn)。從實(shí)現(xiàn)手段上看,針對(duì)不同的數(shù)據(jù)內(nèi)容,會(huì)有多種數(shù)據(jù)脫敏方式。在Hadoop平臺(tái)上,利用采集清洗及流處理的功能,可以實(shí)現(xiàn)對(duì)各個(gè)字段,針對(duì)性的脫敏處理,并且保證在數(shù)據(jù)進(jìn)入hadoop之前已經(jīng)是脫敏之后的數(shù)據(jù)。另外針對(duì)AD的脫敏尤為關(guān)鍵,AD是唯一能將DPI數(shù)據(jù)關(guān)聯(lián)到ODS客戶數(shù)據(jù)的字段,我們對(duì)所有進(jìn)入大數(shù)據(jù)平臺(tái)的AD都統(tǒng)一采用sha-1的加密方式,轉(zhuǎn)換成只有大數(shù)據(jù)平臺(tái)能夠認(rèn)識(shí)的客戶唯一標(biāo)示。需要進(jìn)行脫敏處理的信息如下:脫敏后寬帶設(shè)備號(hào)實(shí)際adsha加密結(jié)果(該算法不可反解)用戶年齡實(shí)際年齡年齡段信息,如5年一段,取起始數(shù)值顯示,如25表示25-29用戶地址實(shí)際地址,精確到戶小區(qū)、樓盤或商圈信息,如武林商圈位置經(jīng)緯度實(shí)際經(jīng)緯度精確到0.001,約1000平方米,注:Ing*lat=0.001*0.001(度)=約95.18米*111.32米 用戶姓名實(shí)際姓名僅保留用戶姓氏用戶消費(fèi)情況實(shí)際消費(fèi)金額每150元一檔:0(表示0-149),大數(shù)據(jù)平臺(tái)以HDFS為基礎(chǔ),利用HDFS驅(qū)動(dòng)提供的Format功能,實(shí)現(xiàn)解密數(shù)據(jù)數(shù)據(jù)加密后,保證HDFS數(shù)據(jù)透明訪問,同時(shí)支持SQL查詢服務(wù)。4.3.8數(shù)據(jù)ETL處理4.3.9作業(yè)智能排隊(duì)調(diào)度4.4外部服務(wù)能力子平臺(tái)4.4.1標(biāo)簽查詢服務(wù)5.系統(tǒng)管理該模塊基于nginx+ApacheMINA的框架開發(fā)。其中nginx提供高并發(fā)的對(duì)外服務(wù),而ApacheMINA是一個(gè)高性能和高可采用基于Token(令牌)的用戶身份驗(yàn)證機(jī)制,使用戶在訪問受保護(hù)的服對(duì)于通過WebApplication訪問查詢服務(wù)的1)用戶憑借自身的賬戶向電信申請(qǐng)和獲取Token。2)攜帶已獲取的Token查詢有權(quán)限的數(shù)據(jù)標(biāo)簽4.4.3廠商作業(yè)性能優(yōu)化系統(tǒng)支持SQL語(yǔ)句優(yōu)化,可以解決數(shù)據(jù)傾斜的問題。系統(tǒng)提供MapReduce定制服務(wù),當(dāng)SQL語(yǔ)句效率不高時(shí),可以將SQL語(yǔ)句轉(zhuǎn)化成高效的MapReduce作業(yè)直接執(zhí)行。我們提供MapReduce定制服務(wù),當(dāng)SQL語(yǔ)句效率不高時(shí),可以將SQL語(yǔ)句轉(zhuǎn)化成高效的MapReduce作業(yè)直接執(zhí)行。SQL語(yǔ)句會(huì)產(chǎn)生大量的中間數(shù)據(jù),從而影響作業(yè)執(zhí)行效率。MapReduce不產(chǎn)生中間數(shù)據(jù)。MapReduce作業(yè)和SQL語(yǔ)句相比較,作業(yè)執(zhí)行效率可以提高3~7倍。4.4.4交互式SQL查詢用戶可以通過圖形化界面定義查詢參數(shù),執(zhí)行自己的查詢?nèi)蝿?wù)。系統(tǒng)接口如下:●系統(tǒng)兼容標(biāo)準(zhǔn)的SQL語(yǔ)法,可以通過SQL語(yǔ)句訪問查詢?!裣到y(tǒng)支持JDBC連接方式,適合JAVA應(yīng)用?!裣到y(tǒng)支持ODBC連接方式,適合WIN應(yīng)用。●系統(tǒng)提供CLI命令接口,適合UNIX應(yīng)用?!裣到y(tǒng)支持Corba協(xié)議,適合IDL服務(wù)對(duì)象接口?!裣到y(tǒng)支持SOAP協(xié)議,適合遠(yuǎn)程RPC調(diào)用。生成的報(bào)表可輸出各種文件格式,如EXCEL、HTMLXMLRTF4.1.3.廣告提單管理首頁(yè)首頁(yè)動(dòng)態(tài)定向洞家產(chǎn)品案例分享數(shù)據(jù)技術(shù)關(guān)于我們開通平臺(tái)登錄新用戶注冊(cè)密碼找回首頁(yè)動(dòng)態(tài)定向洞察產(chǎn)品.廣告提單投放管理包括序號(hào)、創(chuàng)意組名稱、所選模板、尺寸(已上傳尺寸數(shù)和未上傳尺寸數(shù))和審8A已上帶10末上歷21過組的審核狀態(tài)上,顯示該創(chuàng)意組創(chuàng)意審核情況;點(diǎn)擊指定創(chuàng)意組右側(cè)的“設(shè)置”按鈕進(jìn)行創(chuàng)意組設(shè)置;點(diǎn)擊指定創(chuàng)意組右側(cè)的"刪除"按鈕刪除該創(chuàng)意組,如果面對(duì)該創(chuàng)意組新建推廣單元設(shè)置投放策略。投放管理通過投放管理-投放管理,進(jìn)入投放管理頁(yè)面。在投放管理頁(yè)面可按時(shí)間維度查看到推廣單元趨勢(shì)圖和推廣單元列表,時(shí)間維度包括今天、昨天、本周、上周、本月、上月和近30天,也可點(diǎn)擊時(shí)間對(duì)話框通過時(shí)間控件點(diǎn)擊指定日期自定義查看單元列表信息。本周本周日周一周二周三周四周五周六周日周一周二周三周四周五周六推廣單元趨勢(shì)圖可通過下拉框選擇全部推廣計(jì)劃或者指定某個(gè)推廣單元,還可定義趨勢(shì)圖表展示的指標(biāo),包括花費(fèi)、展現(xiàn)數(shù)、點(diǎn)擊數(shù)、平均點(diǎn)擊率和平均點(diǎn)推廣單元列表展示該指定時(shí)間內(nèi)的所有推廣計(jì)劃,包括推廣單元名稱、狀態(tài)、有效期、每日預(yù)算、展現(xiàn)數(shù)、點(diǎn)擊數(shù)、點(diǎn)擊率、總費(fèi)用、平均成本、本頁(yè)總計(jì)和全部總計(jì),可輸入指定推廣計(jì)劃名稱進(jìn)行查詢。鼠標(biāo)放到推廣單元名稱上,點(diǎn)擊出現(xiàn)的“鉛筆”圖標(biāo)可在彈出的對(duì)話框中修改推廣單元名稱和出價(jià);點(diǎn)擊推廣單元名稱可查看該投放單元對(duì)應(yīng)的創(chuàng)意組創(chuàng)意列表,也可對(duì)該創(chuàng)意組進(jìn)行編輯;點(diǎn)2014-12-19-無結(jié)率時(shí)間2014-12.20-無結(jié)束時(shí)間2014-12-20-無結(jié)束時(shí)間000000000000aY2可通過“昨天”、“本周”、"上月"和“本月”按鈕快捷查詢對(duì)應(yīng)時(shí)間范圍內(nèi)11十月2014十月2014→3展示特定指標(biāo)數(shù)據(jù)趨勢(shì);圖形報(bào)表按照指定的查看方式(6種之一)羅列具體數(shù)銀國(guó)國(guó)區(qū)山今日0國(guó)營(yíng)π出率室受保護(hù)的現(xiàn)面MicrosoftExcelF9好借好證二期2(14216412HRS兩擴(kuò)經(jīng)地5207HK0I通過對(duì)接DPI底層數(shù)據(jù),可以獲取用戶上網(wǎng)請(qǐng)求的HTTPGET報(bào)文,對(duì)報(bào)文碼。新的請(qǐng)求會(huì)連同報(bào)文發(fā)送到客戶端,客戶端會(huì)解析執(zhí)行JS代碼,這個(gè)時(shí)候4.1.5.廣告計(jì)劃?rùn)z索人群標(biāo)簽管理支持私有人群(訪客找回)的管理,包括查詢、新建和編輯操內(nèi)訪問過(或未訪問過)模糊匹配(或者完全匹配)某個(gè)url的人群,選擇“或”天內(nèi)訪問過模糊匹配√不含流量套餐用戶提醒大數(shù)據(jù)處理子平臺(tái)產(chǎn)品配置清單如下:產(chǎn)品描述1寬帶DPI數(shù)據(jù)采集清洗支持文件方式和數(shù)據(jù)流實(shí)時(shí)處理方式采集清洗寬帶DPI數(shù)據(jù)23GDPI數(shù)據(jù)采集清洗采用文件方式采集清洗3GDPI數(shù)據(jù)3采用文件方式采集清洗AAA數(shù)據(jù)4采用文件方式采集清洗OIDD數(shù)據(jù)5采用文件方式采集清洗ODS數(shù)據(jù)6采用數(shù)據(jù)脫敏技術(shù),提高大數(shù)據(jù)平臺(tái)安全性和保密等級(jí)7數(shù)據(jù)加密利用HDFS驅(qū)動(dòng)提供的Format功能,實(shí)現(xiàn)hadoop云平臺(tái)系統(tǒng)級(jí)、業(yè)務(wù)級(jí)數(shù)據(jù)加密8采用分布式ETL并行處理架構(gòu),提高數(shù)倍“數(shù)十倍ETL速度9作業(yè)智能排隊(duì)調(diào)度可以靈活調(diào)度作業(yè)資源,已保證每個(gè)作業(yè)都能獲得相應(yīng)的系統(tǒng)資源。產(chǎn)品描述1采用KDC(KeyDistributionCenter)安全認(rèn)證中心實(shí)現(xiàn)用戶安全訪問2可以為每個(gè)租戶分配獨(dú)立的存儲(chǔ)空間(HDFS)和計(jì)算資源(MRSlot),實(shí)現(xiàn)資源獨(dú)立3提供基于多租戶的數(shù)據(jù)授權(quán),可以控制各租戶的數(shù)據(jù)訪問權(quán)限4提供平臺(tái)參數(shù)配置和用戶管理5提供平臺(tái)運(yùn)行狀態(tài)監(jiān)控和告警管理6提供客戶管理、合同管理、基礎(chǔ)產(chǎn)品管理、結(jié)算管理等業(yè)務(wù)管理功能。7標(biāo)簽服務(wù)支持多個(gè)同步標(biāo)簽的服務(wù)程序和多個(gè)離線標(biāo)簽的服務(wù)程序。1標(biāo)簽查詢服務(wù)采用分布式K-V數(shù)據(jù)庫(kù)存放標(biāo)簽結(jié)果數(shù)據(jù)并提供提供高并發(fā)查詢服務(wù)2支持多個(gè)DSP廠商程序算法模型加載和數(shù)據(jù)訪問產(chǎn)品描述3廠商作業(yè)性能優(yōu)化服務(wù)提供SQL語(yǔ)句優(yōu)化及MapReduce定制服務(wù),優(yōu)化廠商作業(yè)性能。4支持交互式SQL查詢,用戶可以通過圖形化界面定義查詢參數(shù),執(zhí)行自己的查詢?nèi)蝿?wù)。5提供在線WEB報(bào)表制作發(fā)布服務(wù)。產(chǎn)品描述1可以根據(jù)流量分發(fā)規(guī)則,對(duì)數(shù)據(jù)流量進(jìn)行精確控制分發(fā)。2可以根據(jù)運(yùn)營(yíng)商流量的廣告營(yíng)銷策略進(jìn)行廣告推送。3提供廣告提單功能。4對(duì)符合廣告推送條件的流量進(jìn)行廣告引導(dǎo)推送。5通過cookie定向、IP分析等用戶分析技術(shù)實(shí)現(xiàn)廣告的精準(zhǔn)推送。6內(nèi)部業(yè)務(wù)支撐提供用戶流量提醒,并通過用戶流量消費(fèi)分析可進(jìn)行流量經(jīng)營(yíng)營(yíng)銷。>系統(tǒng)采用文件方式采集清洗3GDPI數(shù)據(jù)>系統(tǒng)采用文件方式采集清洗AAA數(shù)據(jù)>系統(tǒng)采用文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初級(jí)會(huì)計(jì)職稱考試會(huì)計(jì)實(shí)務(wù)練習(xí)題及答案
- 油氣計(jì)量考試試題及答案
- vivo校招面試題及答案
- 單招畜牧考試題目及答案
- 成都九上語(yǔ)文試題及答案
- 2026黑龍江哈爾濱啟航勞務(wù)派遣有限公司派遣至哈爾濱工業(yè)大學(xué)國(guó)際教育學(xué)院招聘10人備考題庫(kù)附答案
- 中共南部縣委組織部關(guān)于2025年南部縣黨政機(jī)關(guān)公開考調(diào)工作人員的(16人)備考題庫(kù)必考題
- 中國(guó)雄安集團(tuán)有限公司2026校園招聘?jìng)淇碱}庫(kù)附答案
- 北京市大興區(qū)審計(jì)局招聘臨時(shí)輔助用工1人考試備考題庫(kù)附答案
- 南充市司法局2025年下半年公開遴選公務(wù)員(參公人員)公 告(2人)參考題庫(kù)必考題
- 《開學(xué)第一課:龍馬精神·夢(mèng)想起航》課件 2025-2026學(xué)年統(tǒng)編版語(yǔ)文七年級(jí)下冊(cè)
- 2026年洪湖市事業(yè)單位人才引進(jìn)100人參考考試題庫(kù)及答案解析
- 北京市海淀區(qū)2025一2026學(xué)年度第一學(xué)期期末統(tǒng)一檢測(cè)歷史(含答案)
- 小拇指培訓(xùn)課件
- 緊急護(hù)理人力資源應(yīng)急資源儲(chǔ)備
- GB/T 22182-2025油菜籽葉綠素含量的測(cè)定分光光度計(jì)法
- 2026吉林長(zhǎng)春汽車經(jīng)濟(jì)技術(shù)開發(fā)區(qū)招聘編制外輔助崗位人員69人考試備考試題及答案解析
- 2024年基層社會(huì)治理專題黨課
- 消防培訓(xùn)案例課件
- 2026年科研儀器預(yù)約使用平臺(tái)服務(wù)協(xié)議
- 2025年度精神科護(hù)士述職報(bào)告
評(píng)論
0/150
提交評(píng)論