數(shù)據(jù)采集處理項目技術方案_第1頁
數(shù)據(jù)采集處理項目技術方案_第2頁
數(shù)據(jù)采集處理項目技術方案_第3頁
數(shù)據(jù)采集處理項目技術方案_第4頁
數(shù)據(jù)采集處理項目技術方案_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

XXX大數(shù)據(jù)庫中心數(shù)據(jù)庫

投資商和企業(yè)數(shù)據(jù)采集處理項目

項目編號:17001206

技術方案

XXX有限企業(yè)

二。一七年六月

目錄

I引言.....................................................................錯誤!未定義書簽。

1.1項目背景.........................................................錯誤!未定義書簽。

1.2項目目"勺.........................................................錯誤!未定義書簽。

1.3建設原則.........................................................錯誤!未定義書簽。

1.4參照規(guī)范.........................................................錯誤!未定義書簽。

1.5名詞解釋.........................................................錯誤!未定義書簽。

2云數(shù)據(jù)采集中心...........................................................錯誤!未定義書簽。

2.1需求概述.........................................................錯誤!未定義書簽。

2.2總體設計.........................................................錯誤!未定義書簽。

2.3關鍵技術及功能...................................................錯誤!未定義書簽。

3大數(shù)據(jù)訂算平臺...........................................................錯誤!未定義書簽。

3.1需求概述........................................................錯誤!未定義書簽。

3.2總體設計........................................................錯誤!未定義書簽。

3.3數(shù)據(jù)模型設計....................................................錯誤!未定義書簽。

4數(shù)據(jù)運行................................................................錯誤!未定義書簽。

4.1數(shù)據(jù)挖掘分析.....................................................錯誤!未定義書簽。

4.2數(shù)據(jù)分析處理H勺重要工作..........................................錯誤!未定義書簽。

4.3數(shù)據(jù)分析團體組織和管理..........................................錯誤!未定義書簽。

5安全設計.................................................................錯誤!未定義書簽。

6風險分析.................................................................錯誤!未定義書簽。

7布署方案錯誤!未定義書簽。

8實行計劃錯誤!未定義書簽。

9技術規(guī)格偏離表錯誤!未定義書簽。

10售后服務承諾錯誤!未定義書簽。

11有關運行維護的承諾錯誤!未定義書簽。

12保密措施及承諾錯誤!未定義書簽。

13培訓計劃錯誤!未定義書簽。

1.3建設原則

基于本項目日勺建設規(guī)定,本項目將遵照如下建設原則:

?前瞻性和高原則整個項目要按照企'也對大數(shù)據(jù)應用的需要的高規(guī)定和高原則建

設,參照行業(yè)標桿應用,建立滿足需求,面向未來的目的,整個項目具有一定

前瞻性。

?經(jīng)濟性和實用性整個項目以既有需求為基礎,充足考慮未來發(fā)展日勺需要來確定

系統(tǒng)的架構,既要減少系統(tǒng)日勺初期投入,又能滿足服務對象H勺需求,同步系統(tǒng)

設計應充足考慮對已經(jīng)有投資的保護,對已建立的數(shù)據(jù)中心、基礎平臺、應用

軟件應提供完備的整合方案。

?先進性和成熟性為了保證項目具有較長日勺生命周期,應充足考慮到管理創(chuàng)新、

技術發(fā)展需要,按照先進的建設理念,選擇先進日勺技術架構和成熟技術,滿足

業(yè)務需求。

?高性能和安全性規(guī)范地進行系統(tǒng)建設和開發(fā),提供合理且經(jīng)濟有效的應急方

案,保證系統(tǒng)的穩(wěn)定,向各類服務對象提供可靠的服務。具有安全性,在系統(tǒng)

遭到襲擊或瓦解時能迅速恢復,保證重要數(shù)據(jù)的機密性和完整性。

1.4參照規(guī)范

GB/T20269-2023信息安全技術一信息系統(tǒng)安全管理規(guī)定

GB/T20984-2023信息安全技術一信息安全風險評估規(guī)范

GB/T22239-2023信息安全技術一信息系統(tǒng)安全等級保護基本規(guī)定

GB/T22240-2023信息安全技術一信息系統(tǒng)安全等級保護定級指南

GA/T388-2023B計算機信息系統(tǒng)安全等級保護管理規(guī)定

GB/T8567-1988計算機軟件產(chǎn)品開發(fā)文獻編制指

GB/T11457-1995軟件工程術語

?GB/T11457-2023信息技術軟件工程術語

GB/T16260.1-2023軟件工程產(chǎn)品質(zhì)量第1部分:質(zhì)量模型

GB/T16260.2-2023軟件工程產(chǎn)品質(zhì)量第2部分:外部度量

GB/T16260.3-2023軟件工程產(chǎn)品質(zhì)量第3部分:內(nèi)部度量

GB/T16260.4-2023軟件工程產(chǎn)品質(zhì)量第4部分:使用質(zhì)量歐|度量

GB/T14394-2023計算機軟件可靠性和可維護性管理

GB/T17544-1998信息技術軟件包質(zhì)量規(guī)定和測試

1.5名詞解釋

?S2DFS:簡樸存儲分布式文獻系統(tǒng)(SimpleStorageDistributedFileSystem)

?D2B:分布式數(shù)據(jù)庫(DistributedDatabase)

?JSS:作業(yè)調(diào)度服務(JobSchedulerService)

?DCS:數(shù)據(jù)計算服務(DataComputerService)

?MPS:消息處理服務(MessageProcessService?

?SDS:流數(shù)據(jù)處理服務(StreamDataService)

?DMQ:分布式消息隊列(DistributedMessageQueue)

?JGS:作業(yè)生成服務(JobGenerationService)

?ACS:自動清理服務進程(AutomaticCleaningServices)

?:超文本傳播協(xié)定(HyperTextTransferPrcxocol)

?SMB:服務器信息塊協(xié)議(SenrerMessageBlock)

2云數(shù)據(jù)采集中心

2.1需求概述

根據(jù)規(guī)劃,云數(shù)據(jù)采集中心的建立至少滿足1至2年內(nèi)的數(shù)據(jù)存儲和計算規(guī)模,

需要滿足:

?數(shù)據(jù)采集范圍包括但不限于世界5()0強、全國500強、行業(yè)20強企業(yè)有關數(shù)據(jù)。

?總數(shù)據(jù)容量至少到達30T。

2.2總體設計

整個云數(shù)據(jù)采集中心分為三部分:硬件資源層、軟件平臺層、軟件應用層。

硬件資源層重要指實體硬件設備,包括用來存儲數(shù)據(jù)的光纖陣列柜和存儲服務器用

來作記錄分析以及搜索用的計算服務器用來布署分布式消息DMQ)/WEB//\PP軟件的

WEB及消息服務器,用來布署用PostgreSQL關系數(shù)據(jù)庫軟件的應用數(shù)據(jù)庫服務器,用

來布署作業(yè)調(diào)度服務進程(JSS)的作業(yè)調(diào)度服務器。蚱為數(shù)據(jù)通信用的全千兆三層互換

機等等淇中光纖陣列柜重要用來存儲記錄分析后的粗顆粒度數(shù)據(jù)。存儲服務器用來布署

分布式文獻系統(tǒng)和分布式數(shù)據(jù)庫,同時存儲非構造化和構造化(臺標圖片,電商圖片等等)

和構造化數(shù)據(jù)行為數(shù)據(jù),索引數(shù)據(jù),log數(shù)據(jù),清理后日勺細顆粒度數(shù)據(jù)等等)計算服務器

重要用來完畢數(shù)據(jù)的清理、記錄、搜索等計算任務。為了節(jié)省成本和減少通信代價,提

議存儲服務器和計算服務器合二為一,因此該服務器同步具有計算和存儲數(shù)據(jù)的功能,前

期也可以考慮把作業(yè)調(diào)度服務進程(JSS)進程布署在存儲/計算服務器上。由于云數(shù)據(jù)

采集中心需要面對多種寬帶顧客(電信、移動、聯(lián)通)因此,數(shù)據(jù)中心的對外日勺網(wǎng)絡需

要直連上電信、移動、聯(lián)通三家企業(yè)的I網(wǎng)絡,保證以上三家企業(yè)間的通信性能高速和可

靠。

軟件平臺層是云數(shù)據(jù)采集中心的關鍵支撐層,也是我們這次方案設計和實行的主體

部分,在關鍵技術章節(jié)會對“分布式文獻系統(tǒng)(S2DFS)”、“分布式數(shù)據(jù)庫(D2B)”、“分

布式消息服務(DMQ)”“作業(yè)調(diào)度服務進程(JSS)、數(shù)據(jù)計算服務進程(DCS)”重要

部分加以詳細的描述。

軟件平臺層日勺所有服務器都統(tǒng)一布署的64位操作系統(tǒng)CentOS6.5(也可以選擇

RHEL6.5x64);其關鍵軟件或者進程有:分布式文獻系統(tǒng)(S2DFS)、分布式數(shù)據(jù)庫

(D2B)、作業(yè)調(diào)度服務進程(JSS)、數(shù)據(jù)計算服務進程(DCS)、作業(yè)生成服務進

程(JGS)、消息處理服務進程(MPS)、流數(shù)據(jù)處理進程(SDS)等等。WEB及應

用服務器軟件Apache&Tomcat,消息隊列軟件分布式消息(DMQ)。還要實現(xiàn)整個云

數(shù)據(jù)采集中心的資源管理及監(jiān)控管理系統(tǒng)。

軟件應用層是云數(shù)據(jù)采集中心日勺功能實現(xiàn)及U1體現(xiàn)層,功能實現(xiàn)需要基于軟件

平臺層日勺支撐,后期設計和實行日勺主體。該層日勺重要功能應用有:數(shù)據(jù)采集應用、數(shù)據(jù)記

錄應用、云數(shù)據(jù)采集中心日勺資源監(jiān)控及調(diào)度。

通過公共數(shù)據(jù)網(wǎng)(電信、聯(lián)通、移動)和協(xié)議,把采集的海量文本圖片數(shù)據(jù)以及顧

客行為數(shù)據(jù)存儲在云數(shù)據(jù)采集中心里以供后期分析計算用。

企業(yè)數(shù)據(jù)采柒■投資商數(shù)據(jù)采集■采柒任務管理I云數(shù)據(jù)管理I云中心監(jiān)控

JSS

PostgreSQLApache開放

NginxTomcat平臺

CentOS6.5x64

存儲設備?網(wǎng)絡設備?服務器設留

云數(shù)據(jù)采集中心整體架構圖

能??1(■?心

云數(shù)據(jù)采集中心網(wǎng)絡構造圖

2.3關鍵技術及功能

分布式文獻存儲技術

(1)老式存儲技術面臨日勺問題:

■構建成本高:大容量及高網(wǎng)絡帶寬的高端存儲系統(tǒng)架構昂貨。

■文獻系統(tǒng)功能和性能差強人意:難以實現(xiàn)全局命名空間的文獻共享、文獻

系統(tǒng)難以擴展,輕易形成瓶頸。

■擴展性困難:技術存在瓶頸(Scalc-up架溝決定日勺)擴展成本無法控制。

■可用性問題:潛在的單點故障,數(shù)據(jù)恢復困難,代價高。

■應用目的差異:重要面臨運行商、金融行業(yè)日勺OLTP應用、很少針對

海量的流數(shù)據(jù),或者非構造化數(shù)據(jù)進行設計和優(yōu)化。

■異構設備繁雜:不一樣步期、不一樣企業(yè)、不一樣操作系統(tǒng)的異構設備

紛繁復雜,無法整合,資源運用率極低。

分布式文獻系統(tǒng)重要為處理以上問題而出現(xiàn)的一種新型大規(guī)模數(shù)據(jù)存儲技術架

構。重要為非構造化數(shù)據(jù)(視頻/文獻/文檔/圖像/音頻等非構造化數(shù)據(jù))提供海量日勺存

儲平臺,以集群的方式提供線性橫向擴展能力。

分布式文獻系統(tǒng)是一種構建于通用x86部件之上口勺高可用、高可靠、高可擴展的

新型分布式文獻系統(tǒng)。應用分布式文獻系統(tǒng),顧客可以采用廉價可靠口勺通用服務器、

SATA/SAS硬盤以及以太網(wǎng)絡來構建媲美企業(yè)級存儲產(chǎn)品日勺存儲系統(tǒng)。

(2)分布式文獻系統(tǒng)應對的數(shù)據(jù)特性和訪問特性:

■數(shù)據(jù)量巨大,數(shù)百TB或PB級,增長迅速;

■類型多樣化,包括圖像、文本、語音、視頻等文獻數(shù)據(jù);

■準時間有序生成,數(shù)據(jù)均帶有時間標志;

■前端數(shù)據(jù)寫入速度很高,每秒鐘寫入數(shù)據(jù)可達幾萬甚至幾十萬條記錄

或者上GB量數(shù)據(jù);

■更新操作很少:追加方式寫入,一旦寫入,幾乎沒有數(shù)據(jù)修改,§詢

波及大量的磁盤讀操作,查詢處理產(chǎn)生大量日勺臨時成果,不一樣類型

的數(shù)據(jù)存在聯(lián)合分析查詢;

分布式文獻系統(tǒng)的基本原理是采用集群方式來整合物理上獨立的多種存儲資源,

以軟件方式提供單一日勺名字空間采用多副本日勺方式保證數(shù)據(jù)的高可用性,任意單一節(jié)

點失效均不會導致數(shù)據(jù)丟失和數(shù)據(jù)服務日勺正常運行;同步,分布式文件系統(tǒng)通過良好設

計的系統(tǒng)構造和數(shù)據(jù)分布方略,可保證系統(tǒng)性能日勺高可擴展性,并支持存儲容量/性能的

在線擴展。

相比較于DAS(直連存儲)SAN(存儲區(qū)域網(wǎng)絡)和NAS(網(wǎng)絡存儲)應用

分布式文獻系統(tǒng)構建H勺網(wǎng)絡存儲系統(tǒng)更像是一種NAS提供類似于老式NASH勺文獻級

訪問接口(SAN和DAS都是塊設備級別H勺訪問接口)

(3)分布.式文獻系統(tǒng)與老式NAS/SAN設備日勺比較:

比較項高端NASFC-SAN分布式文獻系統(tǒng)

性能一般雙端口:性能受機頭一般雙端口,性能受性能隨節(jié)點數(shù)的增長成線

影響,難以獷展,出口帶機頭影響,難以擴展,性增長

寬是瓶頸IOPS很好

擴展能力性能及容量無法擴展,或能很好擴展,但成本性能及容量按需擴展,動

者有限擴展高昂態(tài)均衡

可用性RAID方式保護,雙機保RAID方式保護,雙機基于靈活的多副本機制,

護,停機RAIDRebuid,耗保護,停機自動檢測,自動故障恢復,

時RAIDRcbuid,耗時無需停機

數(shù)據(jù)管理企業(yè)級功能需要單獨購置企業(yè)級功能需要單內(nèi)嵌多種企業(yè)級應用:快

獨照、鏡像、回收站

購置(還需要單獨U勺

文獻系統(tǒng),100多萬一

套)

成本專有口勺硬件平臺,軟件擁專有的硬件平臺,軟開發(fā)通用口勺硬件平臺,一

有成本高,擴展成本高件擁有成本高,擴展體化日勺軟件,成本低,擴

成本高展成本低

可維護性專門的技術支持服務,需構造異常復雜,需要內(nèi)嵌多種自動化口勺故障檢

要培訓大量培訓,廠商服務測和恢復功能,國內(nèi)開發(fā),

昂貴技術支持迅速

顧客使用分布式文獻系統(tǒng)如同使用當?shù)匚墨I系統(tǒng)。所不一樣的是,老式NAS

般以單一節(jié)點的方式實現(xiàn),容量和性能日勺擴展能力有限,易于成為性能瓶頸和單一故障

點而分布式文獻系統(tǒng)則有多種節(jié)點集合地提供服務由于其構造特性,分布式文獻系統(tǒng)

的性能和容量均可在線線性擴展,并且系統(tǒng)內(nèi)不存在單一故障點。對比參看下面兩幅示

意圖:

老式存儲架構圖

分布式文獻系統(tǒng)架構圖

分布式文獻系統(tǒng)的設計應用尤其適合海量非構造化數(shù)據(jù)存儲,大量客戶端并發(fā)的I/O

密集型應用。目前,分布式文獻系統(tǒng)已經(jīng)被應用于政府、醫(yī)療影像、勘查數(shù)據(jù)計算、視

頻服務以及動畫制作等領域。這些領域口勺數(shù)據(jù)訪問特性均為:數(shù)據(jù)量巨大,I/O吞吐率

高,數(shù)據(jù)增長迅速以及數(shù)據(jù)可用性規(guī)定高。通過長時間的實際生產(chǎn)環(huán)境使用,分布式文

獻系統(tǒng)已被證明是該類型應用H勺有效處理方案。

布式文獻系統(tǒng)的服務器端程序運行于Linuxx64系統(tǒng)之上,支持多種Linux64位發(fā)行

版,包括Rcdhat、CentOS等。分布式文獻系統(tǒng)客戶端則支持Linux和Windows,同步

分布式文獻系統(tǒng)還可以通過第三方軟件輸出CIFS和NFS接口,可以兼容大多數(shù)應

用。

(4)分布式文獻系統(tǒng)歐I關鍵技術及特性:

■擴展性和高性能:分布式文獻系統(tǒng)運用雙重特性來提供幾TB至數(shù)PB的

高擴展存儲處理方案。Scale-Out架構容許通過簡樸地增長資源來提高存儲

容量和性能,磁盤、計算和I/O資源都可以獨立增長,支持lOGbE和

InfiniBand等高速網(wǎng)絡互聯(lián)。分布式文獻系統(tǒng)彈性哈希(ElasticHash)解除

了分布式文獻系統(tǒng)對元數(shù)據(jù)服務器日勺需求,消除了單點故障和性能瓶頸,

真正實現(xiàn)了并行化數(shù)據(jù)訪問。

■高可用性:分布式文獻系統(tǒng)可以對文獻進行自動復制,如鏡像或多次復

制,從而保證數(shù)據(jù)總是可以訪問,甚至是在硬件故障的狀況下也能正常

訪問。自我修復功能可以把數(shù)據(jù)恢復到對的的狀態(tài),并且修復是以增量

的方式在后臺執(zhí)行,幾乎不會產(chǎn)生性能負載。分布式文獻系統(tǒng)沒有設計

自己口勺私有數(shù)據(jù)文獻格式,而是采用操作系統(tǒng)中主流原則的磁盤文獻系

統(tǒng)(如XFS/EXT4/ZFS)來存儲文獻,因此數(shù)據(jù)可以使用多種原則工具進

行復制和訪問。

■全局統(tǒng)一命名空間:全局統(tǒng)一命名空間籽磁盤和內(nèi)存資源匯集成一個單

一時虛擬存儲池,對上層顧客和應用屏蔽了底層日勺物理硬件。存儲資源

可以根據(jù)需要在虛擬存儲池中進行彈性擴展,例如擴容或收縮。當存儲

虛擬機映像時,存儲的虛擬映像文獻沒有數(shù)量限制,成千虛擬機均通過

單一掛載點進行數(shù)據(jù)共享。虛擬機I/O可在命名空間內(nèi)日勺所有服務器上

自動進行負載均衡,消除了SAN環(huán)境中常常發(fā)生的訪問熱點和性能瓶頸

問題。

■彈性哈希算法:分布式文獻系統(tǒng)采用彈性哈希算法在存儲池中定位數(shù)

據(jù),而不是采用集中式或分布式元數(shù)據(jù)服務器索引。在其他的

Scale-Out存儲系統(tǒng)中,元數(shù)據(jù)服務器一般會導致I/O性能瓶頸和單點故

障問題。分布式文獻系統(tǒng)中,所有在Scale-Out存儲配置中的存儲系統(tǒng)都

可以智能地定位任意數(shù)據(jù)分片,不需要查看索引或者向其他服務器查

詢。這種設計機制完全并行化了數(shù)據(jù)訪問,實現(xiàn)了真正口勺線性性能擴

展。

■彈性卷管理:數(shù)據(jù)儲存在邏輯卷中,邏輯卷可以從虛擬化的物理存,不會導

致應用中斷。邏輯卷可以在所有配置服務器中增長和縮減,可以在不一樣服

務器遷移進行容量均衡,或者增長和移除系統(tǒng),這些操作都可在線進行。

文獻系統(tǒng)配置更改也可以實時在線進行并應用,從而可以適應工作負載條

件變化或在線性能調(diào)優(yōu)。

■完全軟件實現(xiàn)CSoftwareOnly)分布式文獻系統(tǒng)認為存儲是軟件問題,不

可以把顧客局限于使用特定的供應商或硬件配置來處理。分布式文獻系

統(tǒng)采用開放式設計,廣泛支持工業(yè)原則的存儲、網(wǎng)絡和計算機設備,而

非與定制化的專用硬件設備捆綁。對于商業(yè)客戶,分布式文獻系統(tǒng)可以

以虛擬裝置I向形式交付,也可以與虛擬機容器捫包,或者是公看女中布

署的映像。開源小區(qū)中,分布式文獻系統(tǒng)被大量布署在基于廉價閑置硬

件的多種操作系統(tǒng)上,構成集中統(tǒng)一的虛擬存儲資源池。簡而言之,分

布式文獻系統(tǒng)是開放日勺全軟件實現(xiàn),完全獨立于硬件和操作系統(tǒng)。

■完整H勺存儲操作系統(tǒng)棧(CompleteStorageOperatingSystemStack:分布式文

獻系統(tǒng)不僅提供了一種分布式文獻系統(tǒng),并且還提供了許多其他重要的

分布式功能,例如分布式內(nèi)存管理、I/O調(diào)度、軟RAID和自我修復等。

分布式文獻系統(tǒng)汲取了微內(nèi)核架構H勺經(jīng)驗教訓,借鑒了GNU/Hurd操作

系統(tǒng)的設計思想,在顧客空間實現(xiàn)了完整的存儲操作系統(tǒng)棧。

■顧客空間實現(xiàn)(UserSpace)與老式歐J文獻系統(tǒng)不一樣,分布式文獻系統(tǒng)在顧

客空間實現(xiàn),這使得其安裝和升級尤其簡便。

■模塊化堆棧式架構(ModularStackableArchi二ectureJ分布式文獻系統(tǒng)采用模塊

化、堆棧式的架構,可通過靈活H勺配置支持高度定制化的應用環(huán)境,例

如大文獻存儲、海量小文獻存儲、分布式文獻系統(tǒng)、多傳播協(xié)議應用

等。每個功能以模塊形式實現(xiàn),然后以積木方式進行簡樸的組合,即可

實現(xiàn)復雜的功能。例如,Replicate模塊可實現(xiàn)RAID1,Stripe模塊可實現(xiàn)

RAID0,通過兩者的組合可實現(xiàn)RAID10和RAID01,同步獲得高性能和

高可靠性。

■原始數(shù)據(jù)格式存儲(DataStoredinNativeFormats:)分布式文獻系統(tǒng)以原始數(shù)

據(jù)格式(如EXT3、EXT4.XFS、ZFS)儲存數(shù)據(jù),并實現(xiàn)多種數(shù)據(jù)自動修

復機制。因此,系統(tǒng)極具彈性,雖然離線情形下文件也可以通過其他原

則工具進行訪問。假如顧客需要從分布式文獻系統(tǒng)中遷移數(shù)據(jù),不需要

作任何修改仍然可以完全使用這些數(shù)據(jù)。

■無元數(shù)據(jù)服務設計(NoMetadatawiththeElasticHashzMgorithm)對Scale-Out

存儲系統(tǒng)而言,最大的I挑戰(zhàn)之一就是記錄數(shù)據(jù)邏輯與物理位置的映像關

系,即數(shù)據(jù)元數(shù)據(jù),也許還包括諸如屬性和訪問權限等信息。老式分布

式存儲系統(tǒng)使用集中式或分布式元數(shù)據(jù)服務來維護元數(shù)據(jù),集中式元數(shù)

據(jù)服務會導致單點故障和性能瓶頸問題,而分布式元數(shù)據(jù)服務存在性能

負載和元數(shù)據(jù)同步一致性問題。尤其是對于海量小文獻的應用,元數(shù)據(jù)

問題是個非常大的挑戰(zhàn)。分布式文件系統(tǒng)獨特地采用無元數(shù)據(jù)服務的設

計,取而代之使用算法來定位,服務器都可以智能地對文獻數(shù)據(jù)分片進行

定位,僅僅根據(jù)文獻名和途徑并運用算法即可,而不需耍查詢索引或者

其他服務器。這使得數(shù)據(jù)訪問完全并行化,從而實現(xiàn)真正日勺線性性能擴

展。無元數(shù)據(jù)服務器極大提高了分布式文獻系統(tǒng)的性能、可靠性和穩(wěn)定

性。

■基于原則協(xié)議分布式文獻系統(tǒng)存儲服務支持NFS,CIFS,,FTP以及分布

式文獻系統(tǒng)原生協(xié)議,完全與POSIX原則兼容。

(5)分布式文獻系統(tǒng)技犬及性能指標:

■支持設備數(shù)量:最大百萬臺以上

■支持存儲容量:最大1024PB以上

■客戶端的數(shù)量:最大支持上億并發(fā)

■網(wǎng)絡支持:以太網(wǎng):IGbps、lOGbps/INFINIBAND:10Gbps、40Gbps

■文獻副本數(shù)量:任意(缺省1份)

■協(xié)議:NFS/CIFS//FTP/WEBDAV,及原生協(xié)議,兼容POSIX原則

■支持文獻數(shù)量:最大上億個文獻

■最大單個文獻:16TB

(6)S2DFS與HDFS的比較

對比項HDFS(GFS)S2DFS

架構類型帶元數(shù)據(jù)庫中心架構全分布式去中心架構

(瓶頸及故障易發(fā)生點)

存在方式分布式文獻系統(tǒng)軟件,基于x86平臺

使用方式CLI/RESTAPINATIVECLIENT/CIFS/NFS原則

協(xié)議

(應用代碼與平臺無關性,便于移

植和維護)

系統(tǒng)可用性低高

數(shù)據(jù)可用性復制類RAID

數(shù)據(jù)定位方式INodeHash

同步方式異步同步

負載均衡自動自動

支持網(wǎng)絡千兆以太網(wǎng)千兆/萬兆以太網(wǎng),IB網(wǎng)

網(wǎng)絡寫:讀(萬兆/單流)約100MB/s:160MB/s約8(X)MB/s:lOOOMB/s

讀(l*20GB)(萬兆)約125s約25s

寫(l*20GB)(萬兆)約200s約20s

讀/寫(千兆)差距不大

分布式并行計算技術

(1)概述

并行計算技術真正將老式運算轉化為并行運算,從而愈加充足日勺運用廣泛布署日勺一般

計算資源實現(xiàn)大規(guī)模日勺運算和應用的目日勺,在此基礎上為第三方開發(fā)者提供通用平臺,

為客戶提供并行服務。這里重要為門戶網(wǎng)站提供作業(yè)調(diào)度平臺,實現(xiàn)日志分析,性能

優(yōu)化,全文檢索,視頻處理,用為分析等等的支撐平臺。

顧客通過統(tǒng)一計算平臺把任務分派給系統(tǒng)內(nèi)口勺多種節(jié)點,調(diào)度節(jié)點資源執(zhí)行任務,

發(fā)揮多核并行處理優(yōu)勢,提高運算效率,充足運用網(wǎng)絡內(nèi)的計算資源到達處理大規(guī)模

計算問題口勺目的。

(2)分布式并行計算架構圖

6

資源及計算任務調(diào)度

結構化數(shù)據(jù)/非結構化數(shù)據(jù)

分布式文件系統(tǒng)/分布式數(shù)據(jù)庫

分布式并行計算架構圖

(3)作業(yè)調(diào)度及計算過程

(4)分布式并行計算技犬特點

■池化資源管理運用池化技術,任何一臺聯(lián)在互聯(lián)網(wǎng)上的一般PC機從硬

件到軟件,可通過池化技術加入服務器池中,等待任務分派,系統(tǒng)能充足運用現(xiàn)

有服務器資源,將所有運算子任務分派給節(jié)點服務器,有效防止計算資源閑置

現(xiàn)象口勺發(fā)生。

■無中心系統(tǒng)架構在平臺管理下的單節(jié)點能力一致,使節(jié)點在布署上和使

用上具有無差異性,任一節(jié)點功能可由其他節(jié)點替代或強化,可以最大

程度確保平臺資源使用的靈活性以及在災備環(huán)境下W、J可靠性系統(tǒng)架構。

單節(jié)點能力

同質(zhì)

■通道式工作機制平臺為顧客提供一種并行任務處理通道,處理過程對顧

客來說完全透明,由平臺自動進行負載均衡、資源匹配、任務傳播等,

使顧客專注于自身任務管理,將執(zhí)行過程交由平臺完畢。

平臺

為用戶提供端到端的任務處理能力且對用戶透明,降低使用門檻

尋址-----------------------------1

分布式數(shù)據(jù)庫技術

D2B是一種具有高性能的高性能,可擴展,無模式,面向

文檔(document-oriented)『、J數(shù)據(jù)庫,其內(nèi)存儲的是一種JSON-like構造化數(shù)據(jù)『、J分布式

數(shù)據(jù)庫軟件尤其具有高擴展性和高可靠性支持大表水平折分以及分區(qū)鏡像。提供內(nèi)存

緩存數(shù)據(jù),因此數(shù)據(jù)存取速度非???,重要是由于它處理寫入的方式:它們存儲在內(nèi)

存中,然后通過后臺線程寫入磁盤。

該軟件支持H勺數(shù)據(jù)構造非常松散,是類似json的bjson格式,因此可以存儲比

較復雜H勺數(shù)據(jù)類型。D2B此外H勺最大的特點是他支持眄查詢語言非常強大,其語法有點

類似于面向對象的查詢語言,幾乎可以實現(xiàn)類似關系數(shù)據(jù)庫單表查詢的絕大部分功能,

并且還支持對數(shù)據(jù)建立索引。它的特點是高性能、易布署、易使用,存儲數(shù)據(jù)非常以

便。

重要功能特性:

?面向集合存儲,易存儲對象類型的數(shù)據(jù)

“面向集合“(Collcnction-Oricntcd),意思是數(shù)據(jù)被分組存儲在數(shù)據(jù)集中,被稱

為一種集合(Collection)。每個集合在數(shù)據(jù)庫中均有一種唯一日勺標識名,并且

可以包括無限數(shù)目的文檔。集合的概念類似關系型數(shù)據(jù)庫RDBMS里的表tabic)

不一樣的I是它不需要定義任何模式schema)。

模式自由

模式自由(schema-free),意味著對于存儲在D2B數(shù)據(jù)庫中口勺文獻,我們不需要

懂得它的任何構造定義。假如需要口勺話,你完全可以把不一樣構造的文獻存

儲在同一種數(shù)據(jù)庫里。

?自動分片以支持云級別的伸縮性:自動分片功能支持水平日勺數(shù)據(jù)庫集群,可

動態(tài)添加額外的機器。

?支持動態(tài)查詢

?支持完全索引,包括內(nèi)部對象。

?自動處理碎片,以支持云計算層次日勺擴展性。

?可通過網(wǎng)絡訪問

?可用于Windows?>MacOSX、Linux?和Solaris的J官方二進制版本。

?可用于C、C#、C++、HaskellNJava?sJavaScript^Perl、PHP、Python

Ruby和Scala的官方驅動程序,以及廣泛可用于其他語言H勺小區(qū)支持的驅動程序。

?Ad-hocJavaScript查詢讓您可以使用基于任何文檔屬性的任何條件來查找數(shù)據(jù)。這

些查詢對應于SQL查詢的功能,使SQL開發(fā)人員可以很直觀地編寫D2B查詢。

支持查詢中的正則體現(xiàn)式。

?D2B查詢成果存儲在提供過濾、聚合和排序等一系列功能的I游標中,包括

limit。、skip。、sort。、count。、distinct()和group。等等高級特性。

?高級聚合的map/reduce實現(xiàn)。

?類似于RDBMS的屬性索引支持,可以直接在文檔日勺選定屬性上創(chuàng)立索引。

?使用提醒、解釋計劃和分析的查詢優(yōu)化特性。

?類似于MySQL的主/從復制,支持復制和故障恢復。

?基于集合口勺對象存儲,在需要規(guī)范化數(shù)據(jù)時容許參照查詢。

?通過自動分片功能水平擴展。

?高性能無爭用并發(fā)機制的即時更新。

D2B服務端可運行在Linux、Windows或OSX平臺,支持32位和64位應

用。推薦運行在64位平臺,由于D2B在32位模式運行時支持的最大文獻尺寸

為2GBo

分布式數(shù)據(jù)庫(D2B)集群示例圖D2B

與關系型數(shù)據(jù)庫日勺邏輯構造對比:

D2B關系型數(shù)據(jù)庫

數(shù)據(jù)庫(database)數(shù)據(jù)庫(database)

集合(collection)表(tabic)

文檔(document)行(row)

D2B/、J性能指標:

10億約600GB以上(與每條記錄大小有關系,這

里的數(shù)據(jù):1Kb/條)

寫(1億,無索引)約15000-20230條/s

寫(1億,有索引)約10000條/s

寫(1億:ReplicaSets+Sharding模式)約6000-8000條/s

讀(1億)約80MB-120MB/S

讀(1億)8000-10000個查詢/s

記錄一種值(10億)v3s(復雜查詢)

最大節(jié)點數(shù)量>1024(理論上)

測試環(huán)境的硬件配置:IntelXeonE7-88372路16關鍵,256GB內(nèi)存,15kSAS16*600GB

硬盤,RAID50;總共12臺設備;D2B的架構模式:RepliedSets+Shading°

負載均衡

1)開源負載均衡軟件比較

LVSNginxHAProxy

LVS(LinuxVirtualServer)可以實Nginx是一款輕量級、高可用性的HAPrexy是一款提供高可用性D勺

現(xiàn)Linux平臺下的負載均衡,提供Web服務軟件及反向代理軟件,基基于TCP(第四層)和(第七

了具有三種1P負載均衡技術的1P于(第七層)應用代理服務器。層)應用日勺代理軟件。在國內(nèi)大型

虛擬服務器軟件IPVS基于內(nèi)容請在國內(nèi)大型的互聯(lián)網(wǎng)企業(yè)均有便的互聯(lián)網(wǎng)企業(yè)均有使用。

求分發(fā)時內(nèi)核LayM7互換機用O

KTCPVS和集群等功能

1、抗負載能力強、是工作在網(wǎng)絡41、工作在網(wǎng)絡口勺7層之上,可以針1、可以補充Nginx口勺某些缺陷例如

層之上僅作分發(fā)之用沒有流量的對應用做某些分流口勺方略,比Session的保持,Cookie的引導等工

產(chǎn)生這個特點也決定了它在負載如針對域名、目錄構造,它的正則作;

均衡軟件里的性能最強的;規(guī)則比HAProxy更為強大和靈活;

2、HAProxy對網(wǎng)絡的依賴非常小,

2、配置性比較低,這是一種缺陷2、Nginx對網(wǎng)絡的依賴非常小,理理論上能ping通就就能進行負載

也是一種長處由于沒有可太多配論上能ping通就就能進行負教功功能;

置的東西,因此并不需要太多接能;

觸,大大臧少了人為出錯的幾率;3、它跟LVS同樣,自身僅僅就只

3、Nginx安裝、配置、維護比較簡是一款負載均衡軟件常純從效率

3、工作穩(wěn)定,自身有完整的雙機單;上來講HAPrsy更會比Nginx有更

熱備方案,如LVS+Kccpalivcd和杰出,在并發(fā)處理上也是優(yōu)于

LVS+Heartbeat;4、可以承擔高的負載壓力且穩(wěn)定,Nginx;

一般能支撐超過幾萬次的并發(fā)量;

4、無流量,保證了均衡器K)的4.HAProxy安裝、配置、維護比較

性能不會收到大流量的影響;5、Nginx可以通過端口檢測到服務簡樸;

器內(nèi)部的故障,不支持url來檢測;

5、軟件自身不支持正則處理,不5、可以承擔高的負載壓力且穩(wěn)定,

提議用Nginx(或者HAProxy)作為負載均衡(反向代理)軟件配合硬件負載

均衡使用。究竟選擇Nginx還是HAProxy要看團體對這兩種軟件口勺熟悉程度,越熟

悉,就能輕易掌控,減少風險,我們團體對Nginx豐常熟悉,因此,這里我們推薦用

Nginx作為軟件的反向代理工具。

數(shù)據(jù)采集

1)概述

數(shù)據(jù)采集功能重要完畢海量數(shù)據(jù)采集、上傳。數(shù)據(jù)采集H勺來源有:國家工商局、

企業(yè)網(wǎng)站、百度、google等。根據(jù)特定H勺數(shù)據(jù)源,不一樣應用,不一樣類型的數(shù)據(jù)進行

搜集,并提供統(tǒng)一的數(shù)據(jù)采集方式,以便后臺數(shù)據(jù)臬成、數(shù)據(jù)存儲°數(shù)據(jù)采集構造

圖:

數(shù)據(jù)采集重要是由采集服務器,通過協(xié)議和Restful技術把數(shù)據(jù)上傳并緩

存在WEB及消息服務器上敏EB及消息服務器可以緩存一周日勺數(shù)據(jù)上傳量,數(shù)據(jù)上

傳后,再由消息處理服務進程(MPS)進程完畢數(shù)據(jù)的最終清洗及格式,并最終入庫存

儲。臺標等非構造化數(shù)據(jù)存儲在分布式文獻系統(tǒng)S2DFS)中,log或者行為等構造化數(shù)據(jù)

存儲在分布式數(shù)據(jù)庫(MongonDB)中。參見如下數(shù)據(jù)采集/存儲流程圖:

DMQ是一種分布式的消息服務平臺,提供日勺功能包括:配置維護、名字服務、

分布式同步、組服務等,能提供一種高性能、可靠日勺、可擴展日勺、分布式的、可配置關鍵

特性,DMQ的關鍵技術特點:

?大容量堆內(nèi)存和高可用性:假設你有100臺服務器,并且每個節(jié)點有

2GB的空間用于復制緩存,最終你獲得的總數(shù)據(jù)量的大小為200GB,每臺

服務器僅僅是一種拷貝。相反,借助于分布式復制架構,可獲得1OCGB的

備份虛擬堆內(nèi)存,并且在網(wǎng)格中H勺任何位置都能訪問。假如某臺服務器瓦

解了,網(wǎng)格只需要簡樸地創(chuàng)立一份丟失數(shù)據(jù)H勺新副本,并將它們放到另一

臺服務器上。應用也無需再借助于一種巨大的獨立數(shù)據(jù)庫來獲取數(shù)據(jù)以追

求最大性能H勺-這是80%以上H勺企業(yè)應用中H勺瓶頸所在!

?擴展性:由于數(shù)據(jù)是均勻分布的,因此除了考慮到網(wǎng)絡上的組通訊,主線

就沒有必要來限制網(wǎng)格的大小網(wǎng)絡上日勺組通訊只要可以發(fā)現(xiàn)一種新的節(jié)點即

可.所有日勺數(shù)據(jù)獲取方式都是通過點對點通信,即節(jié)點之間直接進行通信,

非常輕易控制。DMQ的增長或者減少不需要關閉整個服務。簡樸的添

加刪除集群中的I機器不會引起任何服務中斷。

?數(shù)據(jù)分布,>MQ使用一致性哈希算法來決定集群中鍵值的存儲位置。一致

性哈希算法成本低,速度快并且最重要的是不需要額外的元數(shù)據(jù)或者網(wǎng)絡通

信就能確定鍵值的位置。數(shù)據(jù)分布的目的是為了在集群環(huán)境下俁持足夠

的狀態(tài)副本以使其具有可持續(xù)性和容錯性,不過又不會有過多的副本而阻礙

DMQ的可擴展性。

?原子性:種Update操作不是成功就是失敗不會有第三種狀態(tài)出現(xiàn)。

?次序性:在一種DMQ集群中,其中一臺DMQ服務器上的消息a在

消息b之前公布,那么在所有的DMQ服務器上歐I消息a都會在消息b

之前被公布,DMQ會保持一致次序。

?實時性:對于每個Client,DMQ集群中的所有服務器都會保持實時更新制

度,使得所有的服務視圖都會是最新的。

?分布式統(tǒng)一鏡像:Client無論連接到集群中日勺哪一種DMQ集群節(jié)點服

務,都是得到同樣日勺鏡像視圖。

?可靠性:數(shù)據(jù)在內(nèi)存中緩存了2份,任何一臺計算機故障,都不會造成數(shù)

據(jù)日勺丟失。

2)分布式消息管理架構圖:

DMQ有如下幾種關鍵較色,每類較色的職責如下表格描述?

角色名稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論