中國移動(深圳)有限公司接管中國移動一級經(jīng)營分析系統(tǒng)-技術(shù)方案建議書_第1頁
中國移動(深圳)有限公司接管中國移動一級經(jīng)營分析系統(tǒng)-技術(shù)方案建議書_第2頁
中國移動(深圳)有限公司接管中國移動一級經(jīng)營分析系統(tǒng)-技術(shù)方案建議書_第3頁
中國移動(深圳)有限公司接管中國移動一級經(jīng)營分析系統(tǒng)-技術(shù)方案建議書_第4頁
中國移動(深圳)有限公司接管中國移動一級經(jīng)營分析系統(tǒng)-技術(shù)方案建議書_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

技術(shù)方案建議書TOC\o"1-2"\h\z\u1. 概述 21.1. 項(xiàng)目概況 21.2. 背景分析 21.3. 建設(shè)范圍 32. 總體解決方案 42.1. 總體研究理念 42.2. O域數(shù)據(jù)的理解 42.3. 總體設(shè)計(jì)架構(gòu) 42.4. O域數(shù)據(jù)融合及應(yīng)用 53. 存儲數(shù)據(jù)架構(gòu)設(shè)計(jì) 63.1. 設(shè)計(jì)要求說明 64. O域數(shù)據(jù)存儲架構(gòu)設(shè)計(jì) 74.1. O域數(shù)據(jù)的底層存儲 74.2. 匯總架構(gòu)設(shè)計(jì) 75. O域數(shù)據(jù)融合及應(yīng)用設(shè)計(jì) 75.1. 應(yīng)用指標(biāo)梳理 75.2. O域數(shù)據(jù)融合設(shè)計(jì) 75.3. 應(yīng)用實(shí)現(xiàn) 7概述項(xiàng)目概況中國移動(深圳)接管中國移動一級經(jīng)營分析系統(tǒng),當(dāng)前中國移動一級經(jīng)營分析系統(tǒng)平臺的主數(shù)據(jù)倉庫就是傳統(tǒng)數(shù)據(jù)平臺和體系架構(gòu),僅存在比較成熟的B域(面向客戶服務(wù)和業(yè)務(wù)管理的業(yè)務(wù)支撐系統(tǒng))數(shù)據(jù)的抽樣建模和專題建模,生成KPI、報表、專題分析等,為公司考核、總部領(lǐng)導(dǎo)的決策、各部門的管理提供了依據(jù)。對于O域數(shù)據(jù),還缺乏足夠的了解以及處理能力。相比于B域數(shù)據(jù),O域數(shù)據(jù)主要為非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)產(chǎn)生的時間、周期、量級都與B域存在巨大差異。與此同時,O域數(shù)據(jù)也存在著巨大的應(yīng)用前景。因此,如果合理、高效的利用O域數(shù)據(jù),就必須做好低層設(shè)計(jì),通過前端快速收斂、后端精準(zhǔn)建模實(shí)現(xiàn)大數(shù)據(jù)的快速精確消噪,得出用戶、業(yè)務(wù)、數(shù)據(jù)的強(qiáng)相關(guān)性,完成對O域應(yīng)用數(shù)據(jù)和支撐數(shù)據(jù)精準(zhǔn)搭建數(shù)據(jù)架構(gòu)、對跨庫(如,與主數(shù)據(jù)倉庫)或跨域(如,與B/O域)數(shù)據(jù)的融合、技術(shù)架構(gòu)對O域不同數(shù)據(jù)特征的存儲、管控及應(yīng)用。背景分析運(yùn)營商網(wǎng)內(nèi)數(shù)據(jù)主要來源于業(yè)務(wù)平臺、基礎(chǔ)網(wǎng)絡(luò)、支撐系統(tǒng),包括O域(面向通信網(wǎng)絡(luò)管理的運(yùn)營支撐系統(tǒng))、B域(面向客戶服務(wù)和業(yè)務(wù)管理的業(yè)務(wù)支撐系統(tǒng))、M域(面向通信網(wǎng)絡(luò)管理的運(yùn)營支撐系統(tǒng))。從數(shù)據(jù)來源及走向可以看出,這些數(shù)據(jù)包羅萬象、體量巨大(可達(dá)幾十個PB),存在各類數(shù)據(jù)內(nèi)在相關(guān)性弱、密度價值低的問題。經(jīng)營分析系統(tǒng)(經(jīng)分)建設(shè)運(yùn)營十多年來,已成為運(yùn)營商中最大的兩級數(shù)據(jù)倉庫系統(tǒng)。面向總部、省公司和地市一線,服務(wù)于市場等多專業(yè)部門,發(fā)揮了“科學(xué)決策之器”、“精細(xì)化管理之器”、“針對性營銷和客戶挽留之器”的重要作用。各省經(jīng)分系統(tǒng)不僅在省內(nèi)集中支撐了各部門、各地市的管理分析需求,還實(shí)現(xiàn)了與生產(chǎn)系統(tǒng)的互動,在客戶細(xì)分的基礎(chǔ)上,將目標(biāo)客戶及其偏好主動推送到前臺營業(yè)廳,支撐了針對性營銷和客戶挽留,提升了一線效率。但隨著移動互聯(lián)的發(fā)展,對用戶的行為分析在經(jīng)營決策中的重要作用逐漸顯現(xiàn),O域數(shù)據(jù)作為運(yùn)營商的數(shù)據(jù)源中與用戶行為最為貼近的部分,應(yīng)該得到應(yīng)有的重視并被充分的利用,因此如何高效、充分的利用O域數(shù)據(jù)這個問題顯得愈加迫切。建設(shè)范圍2、3G網(wǎng)絡(luò)架構(gòu)、網(wǎng)絡(luò)協(xié)議的梳理,及相關(guān)接口信息的理解包括但不限于2G:Gn、Gb、A、Gp、Gc;3G:lub、Uu、UE等數(shù)據(jù),O域數(shù)據(jù)主要來源于用戶行為,其產(chǎn)生的時間、數(shù)量、波動情況受用戶行為及其他因素的影響較大。此外,O域數(shù)據(jù)在內(nèi)容與使用場景上與傳統(tǒng)經(jīng)分所使用的數(shù)據(jù)也存在極大的不同。因此,如果希望更好的使用O域數(shù)據(jù),必須對其內(nèi)容、結(jié)構(gòu)、數(shù)量級等由充分的理解,以支撐后續(xù)應(yīng)用。4G網(wǎng)絡(luò)架構(gòu)、網(wǎng)絡(luò)協(xié)議的梳理,及相關(guān)接口信息的理解包括但不限于LTE-UU、X2、S1-U、S1-MME等數(shù)據(jù),4G網(wǎng)絡(luò)相較于前兩代網(wǎng)絡(luò)有著更加先進(jìn)的網(wǎng)絡(luò)架構(gòu),有著更快的通信速度、更寬的網(wǎng)絡(luò)頻譜、更靈活的通信行為和更好的兼容性,隨之而來的是其更加復(fù)雜的網(wǎng)絡(luò)架構(gòu)和網(wǎng)絡(luò)協(xié)議和更多的信令數(shù)據(jù)。與此同時,隨著移動互聯(lián)的發(fā)展普及4G用戶數(shù)量不斷增多,4G流量也成為現(xiàn)網(wǎng)中的主要流量。因此,對要對4G的網(wǎng)絡(luò)架構(gòu)、網(wǎng)絡(luò)協(xié)議進(jìn)行細(xì)致的梳理,對其接口信息進(jìn)行深入的理解。O域數(shù)據(jù)的存儲、匯總架構(gòu)設(shè)計(jì)梳理目前系統(tǒng)O域數(shù)據(jù)加載、存儲架構(gòu)設(shè)計(jì)、匯總架構(gòu)設(shè)計(jì),及存在的問題,梳理上層應(yīng)用需求指標(biāo)。調(diào)研目前業(yè)界已較成熟穩(wěn)定運(yùn)行在系統(tǒng)O域數(shù)據(jù)的存儲架構(gòu)設(shè)計(jì)、匯總架構(gòu)設(shè)計(jì)、融合架構(gòu)設(shè)計(jì)并形成高效、低成本的數(shù)據(jù)架構(gòu)方案。O域數(shù)據(jù)的應(yīng)用及跨域融合以O(shè)域數(shù)據(jù)為基礎(chǔ),與B域、M域進(jìn)行有機(jī)融合,更大程度的發(fā)揮數(shù)據(jù)價值。主要考慮實(shí)現(xiàn)以位置信息為主的交通類應(yīng)用。系統(tǒng)架構(gòu)系統(tǒng)概述OSS運(yùn)營支撐系統(tǒng)(OperationandSupportSystem)簡稱O域OSS是一個綜合的業(yè)務(wù)運(yùn)營和管理平臺,同時也是真正融合了傳統(tǒng)IP數(shù)據(jù)業(yè)務(wù)與移動增值業(yè)務(wù)的綜合管理平臺。OSS是電信運(yùn)營商的一體化、信息資源共享的支持系統(tǒng),它主要由網(wǎng)絡(luò)管理、系統(tǒng)管理、計(jì)費(fèi)、營業(yè)、賬務(wù)和客戶服務(wù)等部分組成,系統(tǒng)間通過統(tǒng)一的信息總線有機(jī)整合在一起。它不僅能在幫助運(yùn)營商制訂符合自身特點(diǎn)的運(yùn)營支撐系統(tǒng)的同時幫助確定系統(tǒng)的發(fā)展方向,還能幫助用戶制訂系統(tǒng)的整合標(biāo)準(zhǔn),改善和提高用戶的服務(wù)水平。2G、3G、4G網(wǎng)絡(luò)架構(gòu)、網(wǎng)絡(luò)協(xié)議UE(UserEquipment)1.UE是用戶終端設(shè)備,它主要包括射頻處理單元,基帶處理單元,協(xié)議棧模塊以及應(yīng)用層軟件模塊等.2.UE通過Uu接口與網(wǎng)絡(luò)設(shè)備進(jìn)行數(shù)據(jù)交互,為用戶提供電路域和分組域內(nèi)的各種業(yè)務(wù)功能.包括普通話音,數(shù)據(jù)通信,移動多媒體,Internet應(yīng)用,如E-mailWWW瀏覽FTP等.RNC(RadioNetworkController)RNC是無線網(wǎng)絡(luò)控制器主要完成連接建立和斷開切換宏分集合并無線資源管理控制等功能具體如下:(1)執(zhí)行系統(tǒng)信息廣播與系統(tǒng)接入控制功能(2)切換和RNC遷移等移動性管理功能(3)宏分集合并功率控制無線承載分配等無線資源管理和控制功能CN(CoreNetwork)CN即核心網(wǎng)絡(luò)負(fù)責(zé)與其他網(wǎng)絡(luò)的連接和對UE的通信和管理主要功能MSC/VLRMSC/VLR是WCDMA核心網(wǎng)CS域功能節(jié)點(diǎn),它通過Iu_CS接口與UTRAN相連、通過PSTN/ISDN接口與外部網(wǎng)絡(luò)PSTNISDN等相連、通過C/D接口與HLR/AUC相連、通過E接口與其它MSC/VLRGMSC或SMC相連、通過CAP接口與SCP相連、通過Gs接口與SGSN相連。MSC/VLR的主要功能是提供CS域的呼叫控制移動性管理鑒權(quán)和加密等功能SGSNSGSN服務(wù)GPRS支持節(jié)點(diǎn)是WCDMA核心網(wǎng)PS域功能節(jié)點(diǎn),它通過Iu_PS接口與UTRAN相連,通過Gn/Gp接口與GGSN相連,通過Gr接口與HLR/AUC相連,通過Gs接口與MSC/VLR,通過Ge接口與SCP相連,通過Gd接口與SMS-GMSC/SMS-IWMSC相連,通過Ga接口與CG相連,通過Gn/Gp接口與SGSN。SGSN的主要功能是提供PS域的路由轉(zhuǎn)發(fā),移動性管理,會話管理,鑒權(quán)和加密等功能GGSNGGSN提供數(shù)據(jù)包在WCDMA移動網(wǎng)和外部數(shù)據(jù)網(wǎng)之間的路由和封裝GGSN主要功能是同外部IP分組網(wǎng)絡(luò)的接口功能,GGSN需要提供UE接入外部分組網(wǎng)絡(luò)的關(guān)口功能。從外部網(wǎng)的觀點(diǎn)來看,GGSN就好象是可尋址WCDMA移動網(wǎng)絡(luò)中所有用戶IP的路由器,需要同外部網(wǎng)絡(luò)交換路由信息Gi接口Gi接口是GPRS與外部分組數(shù)據(jù)網(wǎng)之間的接口(在GPRS網(wǎng)絡(luò)中GGSN與PDN接口),同時也是終端IP地址在外部數(shù)據(jù)網(wǎng)絡(luò)的呈現(xiàn)點(diǎn)。GPRS通過Gi接口和各種公眾分組網(wǎng)如Internet或ISDN網(wǎng)實(shí)現(xiàn)互聯(lián),所有用戶和控制平面的功能都基于終端IP層之上來處理,所有3GPP范疇的終端移動性能終結(jié)在Gi接口前處理,在Gi接口上需要進(jìn)行協(xié)議的封裝/解封裝、地址轉(zhuǎn)換(如私有網(wǎng)IP地址轉(zhuǎn)換為公有網(wǎng)IP地址)、用戶接入時的鑒權(quán)和認(rèn)證等操作。由于GPRS可以支持各種各樣的數(shù)據(jù)網(wǎng)絡(luò),故Gi不是標(biāo)準(zhǔn)接口,而只是一參考點(diǎn)。Gn接口Gn接口是同一PLMN中SGSN與SGSN間以及SGSN與GGSN間的接口為Gn接口(在GPRS網(wǎng)絡(luò)中SGSN之間的接口)。該接口協(xié)議支持用戶數(shù)據(jù)和有關(guān)信令的傳輸,支持移動性管理(MM),該接口采用的為TCP/IP協(xié)議。Gn提供數(shù)據(jù)和信令接口,在基于IP的骨干網(wǎng)中Gn(及Gp)接口使用GPRS通道協(xié)議(GTP)。GPRS隧道協(xié)議(GTP)在GPRS網(wǎng)絡(luò)中的各GSNs間的Gp和Gn平臺上都有定義。Gb接口SGSN與BBS間的接口為Gb接口(在GPRS網(wǎng)絡(luò)中SGSN與BSS接口)。通過該接口SGSN完成同BSS系統(tǒng)、MS之間的通信,以完成分組數(shù)據(jù)傳送、移動性管理、會話管理方面的功能。該接口是GPRS組網(wǎng)的必選接口。該接口協(xié)議即可用來傳輸信令和話務(wù)信息。通過基于幀中繼(Frame

Relay)的網(wǎng)絡(luò)業(yè)務(wù)提供流量控制,SGSN同BSS之間可以采用幀中繼網(wǎng)進(jìn)行通信,也可以采用點(diǎn)到點(diǎn)的幀中繼連接進(jìn)行通信。支持移動性管理功能和會話功能,如GPRS附著/分離、安全、路由選擇、數(shù)據(jù)連接信息的激活/去活等,同時支持MS經(jīng)BSS到SGSN間分組數(shù)據(jù)的傳輸。A接口是BSC

與MSC

之間的信令接口。A1

接口主要用于傳送

BSC

與MSC

之間的呼叫控制和移動性管理功能的信令消息。它是國際規(guī)范中的一個標(biāo)準(zhǔn)接口。Gp接口Gp接口是GPRS網(wǎng)絡(luò)間接口,是不同PLMN網(wǎng)的SGSN之間采用的接口,在通信協(xié)議上與Gn接口相同,但是增加了邊緣網(wǎng)關(guān)(BG,Border

Gateway)和防火墻,通過BG來提供邊緣網(wǎng)關(guān)路由協(xié)議,以完成歸屬于不同PLMN的GPRS支持節(jié)點(diǎn)之間的通信。Gc接口Gc接口是GGSN與HLR之間的接口,當(dāng)網(wǎng)絡(luò)側(cè)主動發(fā)起對的業(yè)務(wù)請求時,由GGSN用IMSI向HLR請求用戶當(dāng)前SGSN地址信息。由于移動數(shù)據(jù)業(yè)務(wù)中很少會有網(wǎng)絡(luò)側(cè)主動向發(fā)起業(yè)務(wù)請求的情況,因此Gc接口在移動數(shù)據(jù)業(yè)務(wù)中作用不大。Uu口控制面協(xié)議棧從垂直縱向來看,Uu接口分為接入層(AS)和非接入層(NAS)。接入層通過如下業(yè)務(wù)接入點(diǎn)(SAP):通用控制(GC)、通告(Nt)、專用控制(DC)為非接入層提供業(yè)務(wù)。Uu接口分為三個協(xié)議層:物理層(L1)、數(shù)據(jù)鏈路層(L2)和網(wǎng)絡(luò)層(L3)。層2進(jìn)一步分為下述子層:媒體接入(MAC)、無線鏈路控制(RLC)、分組數(shù)據(jù)會聚協(xié)議(PDCP)和廣播/多播控制(BMC)。層3和層2的RLC子層分為控制平面和用戶平面,PDCP和BMC子層僅存在于用戶平面。在控制平面,層3分為不同的子層。最低層為無線資源控制(RRC),它位于接入層,與層2接口,終止于UTRAN。而更高層信令,如移動性管理(MM)和連接管理(CM)屬于非接入層。Iub接口協(xié)議Iub接口協(xié)議棧包含3個協(xié)議平面,分別是無線網(wǎng)絡(luò)控制平面、傳輸網(wǎng)絡(luò)控制平面和用戶平面,分別對應(yīng)3個協(xié)議的信令流程,即NBAP、ALCAP、Iub

FP。FP所承載的協(xié)議包括無線資源控制,包數(shù)據(jù)集中協(xié)議等。這3個協(xié)議有著緊密的聯(lián)系,當(dāng)無線網(wǎng)絡(luò)控制器發(fā)起傳輸信道管理或者無線連接管理相關(guān)過程的時候,是通過NBAP協(xié)議的相關(guān)過程來實(shí)現(xiàn),比如Common

Transport

Channel

Setup,Radio

Link

Setup,Radio

Link

Addition等。但同時需要對用戶平面鏈路進(jìn)行分配或刪除,在Iub接口上,用戶數(shù)據(jù)(FP)通過ATM結(jié)構(gòu)中的AAL2傳送,此時需要建立控制機(jī)制,ALCAP定義了與用戶面建立、釋放傳輸承載的方式,因此需要ALCAP協(xié)議來完成這些操作LTE層結(jié)構(gòu)左邊端口LTE-Uu,右邊端口S1-MME控制平面不包含IP報文壓縮功能,RRC協(xié)議主要起到對底層的控制功能和信令傳輸功能。S1接口1.采用SCTP/IP協(xié)議棧結(jié)構(gòu)2.SCTP協(xié)議延續(xù)了TCP協(xié)議的特點(diǎn),保證所需要的信令安全傳輸,其中多流處理容易實(shí)現(xiàn)網(wǎng)絡(luò)冗余傳輸,避免頭行阻塞、多重尋址。3.相比較UMTS而言,去掉連接管理協(xié)議,使連接在S1-AP協(xié)議中處理。4.S1-U位于eNB與S-GW之間,提供兩個網(wǎng)元之間的不可靠傳輸。在UDP/IP基礎(chǔ)上通過GTP-U協(xié)議傳輸用戶面PDU。系統(tǒng)架構(gòu)設(shè)計(jì)接口層:是指存儲從業(yè)務(wù)系統(tǒng)抽取的接口數(shù)據(jù)的區(qū)域,大多數(shù)接口是文件接口,在實(shí)時性比較強(qiáng)的地方也可能使用到TCP/IP接口等。清洗、轉(zhuǎn)換層:是從源系統(tǒng)的接口數(shù)據(jù)過渡到數(shù)據(jù)倉庫數(shù)據(jù)的中間存儲區(qū)域,其目的是對接口層的數(shù)據(jù)在數(shù)據(jù)倉庫內(nèi)進(jìn)行暫存,并將其在數(shù)據(jù)庫內(nèi)進(jìn)行清洗、轉(zhuǎn)換,然后生成基礎(chǔ)數(shù)據(jù)層。ODS模型的數(shù)據(jù)結(jié)構(gòu)與源系統(tǒng)接口基本保持一致,但不做歷史存儲?;A(chǔ)數(shù)據(jù)層:即明細(xì)數(shù)據(jù)層,是數(shù)據(jù)倉庫核心層數(shù)據(jù)模型之一,用于存放由清洗、轉(zhuǎn)換層來的數(shù)據(jù)或者接口層直接來的數(shù)據(jù),其設(shè)計(jì)目標(biāo)是為后續(xù)的匯總數(shù)據(jù)層提供數(shù)據(jù)基礎(chǔ)?;A(chǔ)數(shù)據(jù)層數(shù)據(jù)不涉及跨主題/跨業(yè)務(wù)系統(tǒng)整合,實(shí)體之間的關(guān)系與業(yè)務(wù)系統(tǒng)接口數(shù)據(jù)之間關(guān)系基本相同。該層數(shù)據(jù)一般需要長期保存,具體保存周期參考移動總的相關(guān)規(guī)范。匯總層:即輕度匯總數(shù)據(jù)層。該層實(shí)現(xiàn)兩個目的:一是數(shù)據(jù)的整合處理,包括主題內(nèi)的數(shù)據(jù)整合處理和跨主題整合處理;二是對數(shù)據(jù)做輕量匯總。目前該層按照混合模式設(shè)計(jì),設(shè)計(jì)目標(biāo)是為應(yīng)用數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層數(shù)據(jù)提供足夠靈活方便和擴(kuò)展性的基礎(chǔ)數(shù)據(jù),并保證從該層獲取數(shù)據(jù)是性能最優(yōu),而不是從基礎(chǔ)數(shù)據(jù)層經(jīng)過復(fù)雜操作獲取數(shù)據(jù)。應(yīng)用層:在匯總數(shù)據(jù)層之上,數(shù)據(jù)按照應(yīng)用需求做數(shù)據(jù)聚合,生成相關(guān)應(yīng)用所需數(shù)據(jù)的數(shù)據(jù)層。應(yīng)用數(shù)據(jù)層按照維度建模理論設(shè)計(jì),目標(biāo)是最大程度的滿足應(yīng)用的靈活擴(kuò)展需求并保證前臺應(yīng)用的數(shù)據(jù)展現(xiàn)性能。應(yīng)用數(shù)據(jù)層是面向應(yīng)用的,但是也不是每個應(yīng)用都在應(yīng)用數(shù)據(jù)層對應(yīng)一個表,對應(yīng)用要在數(shù)據(jù)應(yīng)用層中進(jìn)行整合。應(yīng)用數(shù)據(jù)層的數(shù)據(jù)基于匯總數(shù)據(jù)層,一般不需要基礎(chǔ)數(shù)據(jù)層的支持。該層數(shù)據(jù)一般需要長期保存,具體保存周期參照集團(tuán)公司相關(guān)規(guī)范。數(shù)據(jù)應(yīng)用移動互聯(lián)網(wǎng)時代,如何利用用戶位置數(shù)據(jù)挖掘出用戶空間軌跡、行為軌跡,將以位置數(shù)據(jù)為核心的信息最大限度的發(fā)揮價值,同時優(yōu)化內(nèi)部運(yùn)營分析流程,是運(yùn)營商能力建設(shè)的重要步驟。根據(jù)以上需求,本項(xiàng)目將建立基于用戶位置的商業(yè)選址和精準(zhǔn)營銷系系統(tǒng)項(xiàng)目系統(tǒng)。數(shù)據(jù)采集處理:采集結(jié)構(gòu)化數(shù)據(jù),以及非結(jié)構(gòu)化數(shù)據(jù)、用戶屬性數(shù)據(jù)等導(dǎo)入,可以根據(jù)配置規(guī)則對數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)分析層:接收數(shù)據(jù)接口層的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行挖掘處理。采用分布式實(shí)時流處理框架,實(shí)時處理數(shù)據(jù),輸出結(jié)果。包括數(shù)據(jù)適配模塊、邏輯處理模塊、數(shù)據(jù)輸出模塊和調(diào)度控制模塊。Hadoop:全配置驅(qū)動,可以根據(jù)用戶配置對接入數(shù)據(jù)進(jìn)行清洗、抽取和轉(zhuǎn)換,可以在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上根據(jù)一定規(guī)則疊加維度數(shù)據(jù),如用戶標(biāo)簽疊加,并可以按用戶指定數(shù)據(jù)列對數(shù)據(jù)進(jìn)行分發(fā),如IMSI、LAC、CI等,一個數(shù)據(jù)適配模塊實(shí)例根據(jù)輸入數(shù)據(jù)的大小,可以將數(shù)據(jù)分發(fā)到多個邏輯處理模塊實(shí)例。深度分析云:包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)三大部分。數(shù)據(jù)倉庫:存儲清洗后的輕量匯總數(shù)據(jù)。開放應(yīng)用平臺:對用戶提供自助服務(wù),自主開發(fā)、分析。選擇的區(qū)域、模型等信息,生成數(shù)據(jù)挖掘任務(wù)。并能根據(jù)輸入數(shù)據(jù)的大小自動調(diào)整邏輯處理模塊的線程數(shù)量,提高數(shù)據(jù)挖掘的性能,并可實(shí)現(xiàn)自動負(fù)載均衡。多渠道訪問門戶:通過多種形式、電腦、平板等方式訪問開放平臺,對接開放平臺。存儲數(shù)據(jù)架構(gòu)設(shè)計(jì)相對于業(yè)務(wù)架構(gòu)和應(yīng)用架構(gòu),數(shù)據(jù)架構(gòu)在總體架構(gòu)中處于基礎(chǔ)和核心地位。因?yàn)樾畔⑾到y(tǒng)支撐下的業(yè)務(wù)運(yùn)作狀況,是通過信息系統(tǒng)中的數(shù)據(jù)反映出來的,數(shù)據(jù)信息系統(tǒng)管理的重要資源。因此構(gòu)建海關(guān)的IT總體架構(gòu)時,首先要考慮數(shù)據(jù)架構(gòu)對當(dāng)前業(yè)務(wù)的支持。理想的IT總體架構(gòu)規(guī)劃邏輯上是數(shù)據(jù)驅(qū)動的,即:首先根據(jù)業(yè)務(wù)架構(gòu)分析定義數(shù)據(jù)架構(gòu);然后根據(jù)數(shù)據(jù)架構(gòu)結(jié)合業(yè)務(wù)功能定義應(yīng)用架構(gòu);最后根據(jù)應(yīng)用架構(gòu)與數(shù)據(jù)架構(gòu)的定義,來設(shè)計(jì)技術(shù)架構(gòu)。數(shù)據(jù)的基本結(jié)構(gòu)分三個層次,反映了觀察數(shù)據(jù)的三種不同角度。(1)概念數(shù)據(jù)層。它是數(shù)據(jù)的整體邏輯表示。指出了每個數(shù)據(jù)的邏輯定義及數(shù)據(jù)間的邏輯聯(lián)系,是存貯記錄的集合。它所涉及的是數(shù)據(jù)所有對象的邏輯關(guān)系,而不是它們的物理情況。(2)物理數(shù)據(jù)層。它是物理存貯設(shè)備上實(shí)際存儲的數(shù)據(jù)的集合。這些數(shù)據(jù)是原始數(shù)據(jù),是用戶加工的對象,由內(nèi)部模式描述的指令操作處理的位串、字符和字組成。(3)邏輯數(shù)據(jù)層。它是用戶所看到和使用的數(shù)據(jù),表示了一個或一些特定用戶使用的數(shù)據(jù)集合,即邏輯記錄的集合。批處理滿足非實(shí)時數(shù)據(jù)處理業(yè)務(wù)場景,將批量數(shù)據(jù)以任務(wù)的方式進(jìn)行處理,并以異步方式提交計(jì)算結(jié)果,典型場景包括:數(shù)據(jù)挖掘模型計(jì)算、指標(biāo)引擎計(jì)算、OLAP多維分析計(jì)算、MapReduce批處理等。數(shù)據(jù)挖掘模型計(jì)算,可以依靠傳統(tǒng)的自我編程實(shí)現(xiàn),但受限于開發(fā)水平和開發(fā)時間要求,且性能也常常不如商業(yè)工具強(qiáng)勁和穩(wěn)定。目前在中國市場上最為流行的三大數(shù)據(jù)挖掘軟件(SAS公司的EnterpriseMiner、IBM公司的IntelligentMiner和SPSS公司的Clementine。在選擇合適的數(shù)據(jù)發(fā)掘工具產(chǎn)品時,需要考慮以下幾點(diǎn):數(shù)據(jù)挖掘是短期使用還是長期行為,數(shù)據(jù)挖掘經(jīng)驗(yàn)和水平,數(shù)據(jù)狀態(tài),預(yù)算和性能要求。指標(biāo)引擎計(jì)算與OLAP多維分析計(jì)算,可以通過關(guān)系型數(shù)據(jù)庫計(jì)算引擎,在庫內(nèi)實(shí)現(xiàn)??紤]數(shù)據(jù)量級和計(jì)算性能,建議使用完全并行的MPP+SharedNothing架構(gòu)數(shù)據(jù)庫產(chǎn)品,由許多松耦合的處理單元組成,以保證每一個節(jié)點(diǎn)(node)都是獨(dú)立的、自給的、節(jié)點(diǎn)之間對等,而且整個系統(tǒng)中不存在單點(diǎn)瓶頸,具有非常強(qiáng)的擴(kuò)展性。技術(shù)要求:1、支持X86PCserver以及虛擬化環(huán)境運(yùn)行,具有低成本優(yōu)勢;2、采用列存儲和高效透明壓縮技術(shù),降低I/O,提高存儲能力;3、具有基于全部字段,自動建立粗粒度智能索引,快速過濾數(shù)據(jù)包,提高查詢性能;4、具有多種數(shù)據(jù)分布算法策略,確保數(shù)據(jù)均勻分布在集群節(jié)點(diǎn)上,提高整體批量計(jì)算性能;5、利用多核CPU,多個I/O通道等硬件資源,具有并行加載,并行計(jì)算與并行導(dǎo)出等場景的良好性能;6、具有多種OLAP函數(shù),支持動態(tài)hashjoin,靜態(tài)hashjoin等智能算法適配功能,滿足強(qiáng)一致性關(guān)聯(lián)要求;圖SEQ圖\*ARABIC2靜態(tài)hashjoin技術(shù)圖SEQ圖\*ARABIC3動態(tài)hashjoin技術(shù)具有高并發(fā)特點(diǎn),有效支撐自助查詢等大規(guī)模查詢服務(wù)和批量調(diào)度任務(wù);8、具有線性擴(kuò)展能力,硬件擴(kuò)容與計(jì)算能力近似線性增長關(guān)系。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(規(guī)約)",主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。當(dāng)前的實(shí)現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(規(guī)約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。實(shí)現(xiàn)過程:一個代表客戶機(jī)在單個主系統(tǒng)上啟動的MapReduce應(yīng)用程序稱為JobTracker。類似于NameNode,它是Hadoop集群中惟一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)。在應(yīng)用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTracker使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)。MapReduce應(yīng)用程序被復(fù)制到每個出現(xiàn)輸入文件塊的節(jié)點(diǎn)。將為特定節(jié)點(diǎn)上的每個文件塊創(chuàng)建一個惟一的從屬任務(wù)。每個TaskTracker將狀態(tài)和完成信息報告給JobTracker。流式處理滿足實(shí)時處理業(yè)務(wù)場景,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時,高效處理計(jì)算。典型產(chǎn)品包括:storm,S4,StreamBase等。非實(shí)時計(jì)算幾乎都基于MapReduce計(jì)算框架,但MapReduce并不是萬能的。對于搜索等應(yīng)用環(huán)境中的某些現(xiàn)實(shí)問題,MapReduce并不能很好地解決問題。商用搜索引擎,像Google、Bing和Yahoo!等,通常在用戶查詢響應(yīng)中提供結(jié)構(gòu)化的Web結(jié)果,同時也插入基于流量的點(diǎn)擊付費(fèi)模式的文本廣告。為了在頁面上最佳位置展現(xiàn)最相關(guān)的廣告,通過一些算法來動態(tài)估算給定上下文中一個廣告被點(diǎn)擊的可能性。上下文可能包括用戶偏好、地理位置、歷史查詢、歷史點(diǎn)擊等信息。一個主搜索引擎可能每秒鐘處理成千上萬次查詢,每個頁面都可能會包含多個廣告。為了及時處理用戶反饋,需要一個低延遲、可擴(kuò)展、高可靠的處理引擎。然而,對于這些實(shí)時性要求很高的應(yīng)用,盡管MapReduce作了實(shí)時性改進(jìn),但仍很難穩(wěn)定地滿足應(yīng)用需求。因?yàn)镠adoop為批處理作了高度優(yōu)化,MapReduce系統(tǒng)典型地通過調(diào)度批量任務(wù)來操作靜態(tài)數(shù)據(jù);而流式計(jì)算的典型范式之一是不確定數(shù)據(jù)速率的事件流流入系統(tǒng),系統(tǒng)處理能力必須與事件流量匹配,或者通過近似算法等方法優(yōu)雅降級,通常稱為負(fù)載分流(load-shedding)。當(dāng)然,除了負(fù)載分流,流式計(jì)算的容錯處理等機(jī)制也和批處理計(jì)算不盡相同。最近Facebook在Sigmod11上發(fā)表了利用HBase/Hadoop進(jìn)行實(shí)時數(shù)據(jù)處理的論文,通過一些實(shí)時性改造,讓批處理計(jì)算平臺也具備實(shí)時計(jì)算的能力。這類基于MapReduce進(jìn)行流式處理的方案有三個主要缺點(diǎn)。將輸入數(shù)據(jù)分隔成固定大小的片段,再由MapReduce平臺處理,缺點(diǎn)在于處理延遲與數(shù)據(jù)片段的長度、初始化處理任務(wù)的開銷成正比。小的分段會降低延遲,增加附加開銷,并且分段之間的依賴管理更加復(fù)雜(例如一個分段可能會需要前一個分段的信息);反之,大的分段會增加延遲。最優(yōu)的分段大小取決于具體應(yīng)用。為了支持流式處理,MapReduce需要被改造成Pipeline的模式,而不是Reduce直接輸出;考慮到效率,中間結(jié)果最好只保存在內(nèi)存中等。這些改動使得原有的MapReduce框架的復(fù)雜度大大增加,不利于系統(tǒng)的維護(hù)和擴(kuò)展。用戶被迫使用MapReduce的接口來定義流式作業(yè),這使得用戶程序的可伸縮性降低。綜上所述,流式處理的模式?jīng)Q定了要和批處理使用非常不同的架構(gòu),試圖搭建一個既適合流式計(jì)算又適合批處理計(jì)算的通用平臺,結(jié)果可能會是一個高度復(fù)雜的系統(tǒng),并且最終系統(tǒng)可能對兩種計(jì)算都不理想。數(shù)據(jù)分析系統(tǒng)整體組成示意圖上圖從整個分析系統(tǒng)的架構(gòu)角度,給出了實(shí)時計(jì)算子系統(tǒng)所處的位置。實(shí)時計(jì)算系統(tǒng)和批處理計(jì)算系統(tǒng)同屬于計(jì)算這個大的范疇,批處理計(jì)算可以是MapReduce、MPI、SCOPE等,實(shí)時計(jì)算可以是S4、Storm等,批處理和實(shí)時都可以或不依賴統(tǒng)一的資源調(diào)度系統(tǒng)。另外,計(jì)算系統(tǒng)的輸入、輸出,包括中間過程的輸入、輸出,都與存儲系統(tǒng)交互,可以是塊存儲系統(tǒng)HDFS,也可以是K-V存儲系統(tǒng)Hypertable等。計(jì)算層的上層是數(shù)據(jù)倉庫,或者直接和用戶交互,交互方式可以是SQL-like或者M(jìn)R-like等。安全審計(jì)數(shù)據(jù)安全審計(jì)是對每個用戶在計(jì)算機(jī)系統(tǒng)上的操作做一個完整的記錄,以備用戶違反安全規(guī)則的事件發(fā)生后,有效地追查責(zé)任。安全審計(jì)需要對關(guān)鍵性數(shù)據(jù)的操作訪問進(jìn)行詳細(xì)的記錄,并支持違規(guī)事件的告警通知等服務(wù)。訪問控制訪問控制是信息安全保障機(jī)制的前提和基礎(chǔ),是實(shí)現(xiàn)數(shù)據(jù)保密性和完整性的必要手段。訪問控制通過限制訪問主體(或稱為發(fā)起者,是一個主動的實(shí)體,如用戶,進(jìn)程,服務(wù)等)對訪問客體(需要保護(hù)的資源,如文件,系統(tǒng)等)訪問權(quán)限的方法,是資源在合理范圍內(nèi)使用。數(shù)據(jù)加密加密是一個過程,使數(shù)據(jù)只對正確的接收者可讀,其他用戶看到的是雜亂無序的數(shù)據(jù)。只能使用相應(yīng)的密鑰解密之后才能顯示出數(shù)據(jù)本來內(nèi)容。以此達(dá)到保護(hù)數(shù)據(jù)不被非法人竊取、閱讀的目的。數(shù)據(jù)遷移一方面不再頻繁訪問的歷史數(shù)據(jù)占據(jù)了大量的存儲空間,影響系統(tǒng)的響應(yīng)時間和性能,無形中增加成本。另一方面,這些數(shù)據(jù)對仍具有價值甚至是寶貴資產(chǎn),同時受法律、法規(guī)、規(guī)章要求需要存儲關(guān)鍵數(shù)據(jù)。由于應(yīng)用場景不同,數(shù)據(jù)遷移歸檔策略也不相同。備份恢復(fù)為了很好地保護(hù)重要數(shù)據(jù),除了做好在線數(shù)據(jù)的存儲管理外,還應(yīng)該有一個良好的數(shù)據(jù)備份管理策略。主要包括以下內(nèi)容:備份類型的選擇(全備份、增量備份、差分備份)、備份窗口選擇、確定存儲介質(zhì)保存時間、計(jì)算所需存儲介質(zhì)數(shù)量、備份介質(zhì)的管理等等。數(shù)據(jù)管理元數(shù)據(jù)是指關(guān)于數(shù)據(jù)的數(shù)據(jù),即對數(shù)據(jù)的描述信息。根據(jù)其屬性的不同,元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)管理是元數(shù)據(jù)的定義、收集、管理和發(fā)布的方法、工具及流程的集合,通過完成對相關(guān)業(yè)務(wù)元數(shù)據(jù)及技術(shù)元數(shù)據(jù)的集成及應(yīng)用,提供數(shù)據(jù)路徑、數(shù)據(jù)歸屬信息,并對業(yè)務(wù)術(shù)語、文檔進(jìn)行集中管理,借助變更報告、影響分析以及業(yè)務(wù)術(shù)語管理等應(yīng)用,以此保證數(shù)據(jù)的完整性、控制數(shù)據(jù)質(zhì)量、減少業(yè)務(wù)術(shù)語歧義和建立業(yè)務(wù)人員之間、技術(shù)人員之間,以及雙方的溝通平臺。元數(shù)據(jù)管理包括元數(shù)據(jù)采集、元數(shù)據(jù)維護(hù)、元數(shù)據(jù)變更管理、元數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)版本管理、標(biāo)準(zhǔn)術(shù)語管理、元數(shù)據(jù)查詢、元數(shù)據(jù)統(tǒng)計(jì)、血緣分析、影響分析、差異分析、元數(shù)據(jù)架構(gòu)模型管理和接口服務(wù)等功能。元數(shù)據(jù)驅(qū)動的全生命周期管理是支持業(yè)務(wù)建模、分析、設(shè)計(jì)、開發(fā)、測試、組裝、發(fā)布、部署、運(yùn)行監(jiān)控等應(yīng)用開發(fā)過程的。實(shí)現(xiàn)各種管理工具、設(shè)計(jì)器、監(jiān)控工具,以及軟件配置管理。采用模型驅(qū)動開發(fā)的方式,通過上一階段的輸出與下一階段的輸入結(jié)合起來,通過可視化的設(shè)計(jì)器或工具將開發(fā)過程串接起來,大大降低了開發(fā)的難度,并降低各個階段之間的鴻溝以及不一致性。元數(shù)據(jù)模型描繪出業(yè)務(wù)的原始狀態(tài),業(yè)務(wù)信息的載體就是最基本的數(shù)據(jù)實(shí)體,建立實(shí)體把所有業(yè)務(wù)信息的含義清晰的展現(xiàn)在用戶面前,再通過描述實(shí)體的操作來表達(dá)業(yè)務(wù)功能,靈活的信息描述讓信息可擴(kuò)展可配置,并且實(shí)體間是支持多種聚合的復(fù)雜關(guān)系。業(yè)務(wù)對象元模型按照模塊-組件-實(shí)體三層關(guān)系進(jìn)行組織。圖4-9-4元數(shù)據(jù)框架圖上圖所示實(shí)體模型存儲在元數(shù)據(jù)倉庫中,元數(shù)據(jù)框架支持訪問服務(wù)、開發(fā)服務(wù)、管理服務(wù),支持建模開發(fā)工具整合與適配其它系統(tǒng)模型數(shù)據(jù)。元數(shù)據(jù)提供統(tǒng)一的查詢服務(wù)使所有應(yīng)用清楚的使用統(tǒng)一的實(shí)體,基于元數(shù)據(jù)的訪問及持久化讓信息的保存查詢更加方便透明,通過元數(shù)據(jù)生成相關(guān)代碼及數(shù)據(jù)庫腳本加快了開發(fā),使平臺上的開發(fā)者只需要關(guān)注業(yè)務(wù)邏輯,讓業(yè)務(wù)與技術(shù)分離。生命周期管理在數(shù)據(jù)的整個生命周期中,不同的數(shù)據(jù)需要不同水平的性能、可用性、保護(hù)、遷移、保留和處理。通常情況下,在其生命周期的初期,數(shù)據(jù)的生成和使用都需要利用高速存儲,并相應(yīng)地提供高水平的保護(hù)措施,以達(dá)到高可用性和提供相當(dāng)?shù)燃壍姆?wù)水準(zhǔn)。隨著時間的推移,數(shù)據(jù)的重要性會逐漸降低,使用頻率也會隨之下降。伴隨著這些變化的發(fā)生,我們就可以將數(shù)據(jù)進(jìn)行不同級別的存儲,為其提供適當(dāng)?shù)目捎眯?、存儲空間、成本、性能和保護(hù),并且在整個生命周期的不同階段都能對數(shù)據(jù)保留進(jìn)行管理。隨著海關(guān)科技信息化建設(shè)的深入開展,各種電子信息系統(tǒng)不斷上線運(yùn)行,越來越多的通關(guān)管理、政務(wù)管理通過電子化手段實(shí)現(xiàn),電子數(shù)據(jù)成了最寶貴的財富。伴隨海關(guān)信息化的深入和發(fā)展,信息資源在為提升海關(guān)的服務(wù)能力、管理能力提供強(qiáng)有力支持的同時,其自身也變得越來越龐大,不僅難于管理,而且給系統(tǒng)的穩(wěn)定運(yùn)行帶來了阻礙。為了更好的管理、利用、存放電子數(shù)據(jù),需要對數(shù)據(jù)實(shí)施生命周期管理,依據(jù)數(shù)據(jù)的價值與應(yīng)用的性質(zhì)將數(shù)據(jù)進(jìn)行劃分,分別制定相應(yīng)的管理策略,并建立配套的管理制度,解決目前海關(guān)信息系統(tǒng)數(shù)據(jù)管理策略單一所帶來的各種問題,進(jìn)一步提升系統(tǒng)性能、降低運(yùn)維成本,為保障海關(guān)信息系統(tǒng)的高效、穩(wěn)定運(yùn)行提供數(shù)據(jù)基礎(chǔ)。信息資源規(guī)模龐大、難以管理的現(xiàn)象在金關(guān)一期的通關(guān)管理系統(tǒng)中體現(xiàn)得最為突出,同時在電子口岸也積累大量的海關(guān)預(yù)錄入數(shù)據(jù)以及與各部委的交換數(shù)據(jù)。因此金關(guān)二期建設(shè)中將首先對通關(guān)管理系統(tǒng)的數(shù)據(jù)實(shí)施生命周期管理,將數(shù)據(jù)劃分為在線數(shù)據(jù)、近線數(shù)據(jù)、歷史數(shù)據(jù)、歸檔數(shù)據(jù),依據(jù)數(shù)據(jù)的價值,制定不同的管理策略,更加有效的利用存儲空間,避免由于數(shù)據(jù)量過大引起通關(guān)管理系統(tǒng)的性能問題,提高通關(guān)管理系統(tǒng)的可用性,降低異地容災(zāi)備份的難度,減小高端設(shè)備的不斷增長,解決運(yùn)行管理問題。然后,以此為基礎(chǔ),建立起海關(guān)數(shù)據(jù)生命周期管理框架,推動海關(guān)各信息系統(tǒng)對數(shù)據(jù)進(jìn)行科學(xué)、有效的管理,提高信息管理能力。數(shù)據(jù)生命周期管理主要包括如下功能:對數(shù)據(jù)實(shí)施生命周期管理,將數(shù)據(jù)劃分為在線數(shù)據(jù)、近線數(shù)據(jù)、歷史數(shù)據(jù)、歸檔數(shù)據(jù),并制定配套的管理制度。數(shù)據(jù)質(zhì)量管理數(shù)據(jù)質(zhì)量管理是指對支持業(yè)務(wù)需求的數(shù)據(jù)進(jìn)行全面質(zhì)量管理,通過數(shù)據(jù)質(zhì)量相關(guān)管理辦法、組織、流程、評價考核規(guī)則的制定,及時發(fā)現(xiàn)并解決數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)的完整性、及時性、準(zhǔn)確性及一致性,提升業(yè)務(wù)價值。通過數(shù)據(jù)質(zhì)量管理,保證數(shù)據(jù)的完整、準(zhǔn)確、合法,并能夠和運(yùn)行監(jiān)控平臺結(jié)合,及時發(fā)現(xiàn)異常數(shù)據(jù),及時處理。數(shù)據(jù)質(zhì)量管理主要由數(shù)據(jù)質(zhì)量檢測規(guī)則設(shè)置、異常數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量檢控報告等功能組成。O域數(shù)據(jù)存儲架構(gòu)設(shè)計(jì)O域數(shù)據(jù)的底層存儲數(shù)據(jù)庫區(qū)在物理上和應(yīng)用服務(wù)器在一個位置,但可以通過防火墻的通過邏輯隔離,將應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器分離。實(shí)際上應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器都是通過VMware服務(wù)器虛擬化上創(chuàng)建的虛擬服務(wù)器,但可以通過交換機(jī)策略將兩者邏輯分開。存儲數(shù)據(jù)區(qū)因?yàn)椴恍枰饩W(wǎng)直接訪問,因此可以通過網(wǎng)絡(luò)和地址的規(guī)劃完全與IP網(wǎng)絡(luò)分離。在本區(qū)部署兩臺IP存儲陣列,一臺是高性能的SAS硬盤

FAS2240-2,配置24塊

15K

600G硬盤,總?cè)萘?4.4T,經(jīng)過Raid后還有大約9.6T的實(shí)際存儲容量。此硬盤可以分為兩部分使用,一部分用于虛擬化軟件共享存儲,用于存放各類虛擬機(jī)的數(shù)據(jù)和用戶數(shù)據(jù)庫數(shù)據(jù),大約分配3.6T。另外一部分用于存儲應(yīng)用軟件的存儲的用戶數(shù)據(jù),此類數(shù)據(jù)主要存放活躍數(shù)據(jù),大約6T。另外一臺存儲使用高容量SATA存儲,配置24塊3000G硬盤,總共72T存儲容量,經(jīng)過Raid后,實(shí)際存儲容量為48T。在此處配置一臺F5文件虛擬化管理系統(tǒng)ARX500,用于調(diào)度存儲陣列內(nèi)的文件調(diào)度。當(dāng)目前存儲容量不足之后,可以隨時增加存儲容量,這時的存儲可以采用更為便宜的基于Windows

storage的存儲系統(tǒng)。在整個架構(gòu)中,我們搭建了兩個網(wǎng)絡(luò):一個是作為生產(chǎn)網(wǎng)絡(luò)(根據(jù)實(shí)際應(yīng)用可以劃分多個VLAN),另外一個作為虛擬中心管理網(wǎng)絡(luò)和虛擬機(jī)動態(tài)遷移VMotion網(wǎng)絡(luò)。另外根據(jù)實(shí)際的網(wǎng)絡(luò)環(huán)境,結(jié)合實(shí)際生產(chǎn)環(huán)境中的要求,將網(wǎng)卡分別設(shè)置在不同的網(wǎng)段上。使用新購置服務(wù)器作為ESX虛擬服務(wù)器,另外可以利用舊的1臺服務(wù)器作為VMware

Virtual

Center管理中心。將數(shù)據(jù)庫服務(wù)器和應(yīng)用服務(wù)器部署在三臺ESX虛擬服務(wù)器上,利用VMWareVMotion功能,使得數(shù)據(jù)庫服務(wù)器在ESX虛擬服務(wù)器硬件環(huán)境出現(xiàn)問題的情況下,能夠自動的遷移到另一臺ESX虛擬服務(wù)器上運(yùn)行,不會因?yàn)橛布h(huán)境出現(xiàn)的問題而導(dǎo)致應(yīng)用服務(wù)停止運(yùn)作,保證了業(yè)務(wù)連續(xù)性。再利用VMWare

VCB技術(shù),定時針對應(yīng)用系統(tǒng)做備份,當(dāng)應(yīng)用系統(tǒng)出現(xiàn)損壞的情況下,可以在最短的時間內(nèi),恢復(fù)到健康的應(yīng)用系統(tǒng)生產(chǎn)環(huán)境。使用VMware

High

Availability功能在整個虛擬化

IT

環(huán)境中提供高可用性,而沒有傳統(tǒng)群集解決方案的成本或復(fù)雜性。VMware

HA

可為在虛擬機(jī)中運(yùn)行的任何應(yīng)用程序提供經(jīng)濟(jì)高效的高可用性解決方案,而不需要考慮其應(yīng)用操作系統(tǒng)設(shè)置或應(yīng)用系統(tǒng)基礎(chǔ)硬件配置。VMware

HA

不需要專門的備用硬件和附加軟件支持。同時,VMWare系統(tǒng)提供VMWareHA、VMWareVMotion、VMWareDRS的系統(tǒng)資源高可用與自動資源調(diào)節(jié)能力,可自動平衡應(yīng)用間對CPU、內(nèi)存的資源分配,保證應(yīng)用系統(tǒng)維持在最佳運(yùn)行狀態(tài)。VMWare高可用特性,可徹底保證用戶關(guān)鍵性應(yīng)用系統(tǒng)不間斷運(yùn)行。若實(shí)施VMWare高可用架構(gòu),要求虛擬化應(yīng)用系統(tǒng)必須接入SAN存儲區(qū)域以作數(shù)據(jù)存儲共享設(shè)置。利用原有兩臺服務(wù)器,一臺作為VMware

VirtualCenter服務(wù)器,管理整個虛擬化數(shù)據(jù)中心系統(tǒng)。在存儲方面,采用萬兆以太網(wǎng)接入的IPSAN存儲,具有保障級業(yè)務(wù)持續(xù)性的多種特性,包括熱插拔冗余硬件、熱備份硬盤、多路經(jīng)故障切換、快照、克隆、本地/遠(yuǎn)程鏡像和非破壞性固件升級等。匯總架構(gòu)設(shè)計(jì)數(shù)據(jù)采集(ETL):負(fù)責(zé)源數(shù)據(jù)的采集、清洗、轉(zhuǎn)換和加載包括:1、把原始數(shù)據(jù)加載到Hadoop平臺。2、把加工后的數(shù)據(jù)加載分布式數(shù)據(jù)庫和主數(shù)據(jù)倉庫Hadoop云平臺:負(fù)責(zé)存儲海量的流量話單數(shù)據(jù),提供并行的計(jì)算和非結(jié)構(gòu)化數(shù)據(jù)的處理能力,實(shí)現(xiàn)低成本的存儲和低時延、高并發(fā)的查詢能力。分布式數(shù)據(jù)庫(MPP):存儲加工、關(guān)聯(lián)、匯總后的業(yè)務(wù)數(shù)據(jù),并提供分布式計(jì)算,支撐數(shù)據(jù)深度分析和數(shù)據(jù)挖掘能力,向主數(shù)據(jù)倉庫輸出KPI和高度匯總數(shù)據(jù)。主數(shù)據(jù)倉庫(與MPP合設(shè)):存儲指標(biāo)數(shù)據(jù)、KPI數(shù)據(jù)和高度匯總數(shù)據(jù)。Hadoop主要功能Hadoop平臺提供了海量數(shù)據(jù)的分布式存儲與處理的框架?;诜?wù)器本地的計(jì)算與存儲資源,Hadoop集群可以擴(kuò)展到上千臺服務(wù)器。同時,Hadoop在設(shè)計(jì)時充分考慮了硬件設(shè)備的不可靠因素,在軟件層面提供數(shù)據(jù)和計(jì)算的高可靠保證。HDFS:分布式文件系統(tǒng)有較強(qiáng)的容錯性可在x86平臺上運(yùn)行,減少總體成本可擴(kuò)展,能構(gòu)建大規(guī)模的應(yīng)用HBase:非結(jié)構(gòu)化NoSQl分布式數(shù)據(jù)庫基于分布式文件系統(tǒng)HDFS,保證數(shù)據(jù)安全列式存儲,節(jié)省存儲空間提供大數(shù)據(jù)量的高速讀寫操作Hive:分布式關(guān)系型數(shù)據(jù)庫數(shù)據(jù)可保存在HDFS,可提供海量的數(shù)據(jù)存儲類SQL的查詢語句,提供大數(shù)據(jù)的統(tǒng)計(jì)和分析操作,適合海量數(shù)據(jù)的批處理通過MapReduce實(shí)現(xiàn)大規(guī)劃并行計(jì)算MapReduce:大規(guī)劃并行計(jì)算引擎可將任務(wù)分布并行運(yùn)行在一個集群服務(wù)器中O域數(shù)據(jù)應(yīng)用設(shè)計(jì)從本質(zhì)上來說,大數(shù)據(jù)環(huán)境下交通分析技術(shù)完成的是一種將數(shù)據(jù)組織成為信息,從信息提煉特征,從特征變化中發(fā)現(xiàn)規(guī)律,就對策進(jìn)行追蹤評估的信息處理過程。而模型所處理的問題領(lǐng)域可以劃分為系統(tǒng)狀態(tài)分析和交通行為分析兩個基本板塊。系統(tǒng)架構(gòu)針對現(xiàn)代智能交通的海量數(shù)據(jù)特點(diǎn),結(jié)合與其融合的大數(shù)據(jù)典型平臺架構(gòu),搭建一種智能交通海量數(shù)據(jù)平臺其基本架構(gòu)應(yīng)包含以下三個部分,即數(shù)據(jù)采集層、數(shù)據(jù)架構(gòu)層以及數(shù)據(jù)服務(wù)層。其中數(shù)據(jù)采集層采集的數(shù)據(jù)就是智能交通系統(tǒng)的所有所需處理信息數(shù)據(jù),采集后得到的數(shù)據(jù)通過數(shù)據(jù)傳輸?shù)浇煌ㄔ破脚_,交通云平臺會根據(jù)不同的應(yīng)用需求進(jìn)行分類存儲到相應(yīng)的內(nèi)存數(shù)據(jù)庫中,此后便按照處理的不同需求選用不同的數(shù)據(jù)架構(gòu)層進(jìn)行處理,最終實(shí)現(xiàn)數(shù)據(jù)服務(wù)層對其提供實(shí)時快速高效的服務(wù)。提前配置Apache

Hive、Apache

Pig以及Impala等多種工具進(jìn)而實(shí)現(xiàn)多種數(shù)據(jù)的快速分析、甄別和處理。存儲模塊也會相應(yīng)的啟動數(shù)據(jù)處理和分析Job的任務(wù)。就目前而言數(shù)據(jù)處理和分析的主要任務(wù)類型有:最近數(shù)據(jù)的查閱和數(shù)據(jù)簡單統(tǒng)計(jì)并通過Apache

Hive和ApachePig支持的SQL語句當(dāng)中查詢。然而在這一過程需要注意數(shù)據(jù)采集層在數(shù)據(jù)傳輸系統(tǒng)當(dāng)中,其統(tǒng)計(jì)和分析的數(shù)據(jù)范圍一般為最近的活躍數(shù)據(jù),這樣的設(shè)計(jì)就會受限于網(wǎng)絡(luò)帶寬。這樣就會造成實(shí)時數(shù)據(jù)傳輸系統(tǒng)以外的系統(tǒng)為大數(shù)據(jù)海量數(shù)據(jù)提供訪問接口進(jìn)而實(shí)現(xiàn)批量處理功能。

數(shù)據(jù)倉庫系統(tǒng)

在構(gòu)建智能交通大數(shù)據(jù)系統(tǒng)平臺少不了數(shù)據(jù)倉庫系統(tǒng)。近些年來,數(shù)據(jù)倉庫系統(tǒng)已經(jīng)成為數(shù)據(jù)管理研究領(lǐng)域的熱點(diǎn),而其中的主要原因?yàn)閿?shù)據(jù)倉庫系統(tǒng)在當(dāng)前所面臨在數(shù)據(jù)源的需求以及、所處的硬件環(huán)境加上需提供的數(shù)據(jù)服務(wù)等都發(fā)生了諸多本質(zhì)性的變化,這些本質(zhì)性的變化就必須讓我們重新改進(jìn)和利用數(shù)據(jù)倉庫系統(tǒng)。而對于智能交通海量大數(shù)據(jù),其應(yīng)該在現(xiàn)有數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ)上完成對方案的重新審視,并需要具備以下幾個重要的特性:1、高度的可擴(kuò)展性:面對現(xiàn)代交通的發(fā)展其數(shù)據(jù)呈現(xiàn)幾何增長的趨勢,數(shù)據(jù)庫已經(jīng)不能僅依靠l臺或幾臺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論