版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
##x大數(shù)據(jù)庫中心數(shù)據(jù)庫
投資商和企業(yè)數(shù)據(jù)采集處理項(xiàng)目
項(xiàng)目編號(hào):106
技術(shù)方案
##x
二。一七年六月
目錄
I引言2
1.1項(xiàng)目背景2
1.2項(xiàng)目目標(biāo)3
1.3建設(shè)原則3
1.4參考規(guī)4
1.5名詞解釋5
2云數(shù)據(jù)采集中心6
2.1需求概述6
2.2總體設(shè)計(jì)7
2.3核心技術(shù)與功能10
3大數(shù)據(jù)計(jì)算平臺(tái)36
3.1需求概述36
3.2總體設(shè)計(jì)36
3.3數(shù)據(jù)模型設(shè)計(jì)38
4數(shù)據(jù)運(yùn)營41
4.1數(shù)據(jù)挖掘分析41
4.2數(shù)據(jù)分析欠理的主要工作42
4.3數(shù)據(jù)分析團(tuán)隊(duì)組織如管理43
5安全設(shè)計(jì)44
6風(fēng)險(xiǎn)分析48
7部署方案49
8實(shí)施計(jì)劃50
9技術(shù)規(guī)格偏離表50
10售后服務(wù)承諾52
11關(guān)于運(yùn)行維護(hù)的承諾54
12措施與承諾55
13培訓(xùn)計(jì)劃57
1引言
1.1項(xiàng)目背景
##X大數(shù)據(jù)中心建設(shè)出發(fā)點(diǎn)考慮從投資者角度涵蓋招商全流程,盡可能為投資者解決
項(xiàng)目實(shí)施過程中的困難和問題,便于招商部門準(zhǔn)確掌握全省招商數(shù)據(jù),達(dá)到全省招商項(xiàng)
目數(shù)據(jù)共享,形成全省招商工作“一盤棋、一網(wǎng)、一體化”格局。大數(shù)據(jù)中心將充分發(fā)
揮大數(shù)據(jù)優(yōu)勢(shì),加強(qiáng)對(duì)企業(yè)投資項(xiàng)目、投資軌跡分析,評(píng)估出其到時(shí)投資的可行性,為
招商過程留下痕跡、找到規(guī)律、明辨方向、提供“糧食”、提高效率,實(shí)現(xiàn)數(shù)據(jù)尋商、
數(shù)據(jù)引商、數(shù)據(jù)助商,實(shí)現(xiàn)數(shù)據(jù)資源實(shí)時(shí)共享、集中管理、隨時(shí)查詢,實(shí)現(xiàn)項(xiàng)目可統(tǒng)
計(jì)、可監(jiān)管、可協(xié)調(diào)、可管理、可配對(duì)、可跟蹤、可考核。
本次數(shù)據(jù)運(yùn)營服務(wù)主要是為大數(shù)據(jù)平臺(tái)制定數(shù)據(jù)運(yùn)營規(guī)與管理方法,同時(shí)為“企業(yè)
數(shù)據(jù)庫”提供數(shù)據(jù)采集、存儲(chǔ)與分析服務(wù),并根據(jù)運(yùn)營規(guī)要求持續(xù)開展數(shù)據(jù)運(yùn)營服務(wù)。
1.2項(xiàng)目目標(biāo)
制定招商大數(shù)據(jù)運(yùn)營規(guī)與管理方法。
制定招商大數(shù)據(jù)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),完成相關(guān)數(shù)據(jù)的采集、整理與存儲(chǔ)。
根據(jù)業(yè)務(wù)需求,研發(fā)招商大數(shù)據(jù)招商業(yè)務(wù)分析模型,并投入應(yīng)用。
根據(jù)運(yùn)營規(guī)與管理方法的要求持續(xù)開展數(shù)據(jù)運(yùn)營工作。
1.3建設(shè)原則
基于本項(xiàng)目的建設(shè)要求,本項(xiàng)目將遵循以下建設(shè)原則:
前瞻性和高標(biāo)準(zhǔn)整個(gè)項(xiàng)目要按照企業(yè)對(duì)大數(shù)據(jù)應(yīng)用的需要的高要求和高標(biāo)準(zhǔn)建
設(shè),參考行業(yè)標(biāo)桿應(yīng)用,建立滿足需求,面向未來的目標(biāo),整個(gè)項(xiàng)目具有一定
前瞻性。
經(jīng)濟(jì)性和實(shí)用性整個(gè)項(xiàng)目以現(xiàn)有需求為基礎(chǔ),充分考慮未來發(fā)展的需要來確定
GB/T11457-1995軟件工程術(shù)語
GB/TU457-2006信息技術(shù)軟件工程術(shù)語
GB/T16260.1-2006軟件工程產(chǎn)品質(zhì)量第1部分:質(zhì)量模型
GB/T16260.2-2006軟件工程產(chǎn)品質(zhì)量第2部分:外部度量
GB/T16260.3-2006軟件工程產(chǎn)品質(zhì)量第3部分:部度量
GB/T16260.4-2006軟件工程產(chǎn)品質(zhì)量第4部分:使用質(zhì)量的度量
GB/T14394-2008計(jì)算機(jī)軟件可靠性和可維護(hù)性管理
GB/T17544-1998信息技術(shù)軟件包質(zhì)量要求和測試
1.5名詞解釋
?S2DFS:簡單存儲(chǔ)分布式文件系統(tǒng)(SimpleStorageDistributedFileSystem)
?D2B:分布式數(shù)據(jù)庫(DistributedDatabase)
?JSS:作業(yè)調(diào)度服務(wù)(JobSchedu1erService)
?DCS?數(shù)據(jù)計(jì)算服務(wù)(DataConiputerService)
?MPS:消息處理服務(wù)(MessageProcessService)
?SDS:流數(shù)據(jù)處理服務(wù)(StreamDataService)
?DMQ:分布式消息隊(duì)列(DistributedMessageQueue)
?JGS:作業(yè)生成服務(wù)(JobGenerationService)
?ACS:自動(dòng)清理服務(wù)進(jìn)程(AutomaticCleaningServices)
?:超文本傳輸協(xié)定(HyperTextTransferProtocol)
?SMB:服務(wù)器信息塊協(xié)議(ServerMessageBlock)
2云數(shù)據(jù)采集中心
2.1需求概述
根據(jù)規(guī)劃,云數(shù)據(jù)采集中心的建立至少滿足1至2年的數(shù)據(jù)存儲(chǔ)和計(jì)算規(guī)模,需要
滿足:
?數(shù)據(jù)采集國包括但不限于世界500強(qiáng)、全國500強(qiáng)、行業(yè)20強(qiáng)企業(yè)相關(guān)數(shù)據(jù)。
?總數(shù)據(jù)容量至少達(dá)到30T。
2.2總體設(shè)計(jì)
整個(gè)云數(shù)據(jù)采集中心分為三部分:硬件資源層、軟件平臺(tái)層、軟件應(yīng)用層。
硬件資源層主要指實(shí)體硬件設(shè)備包括用來存儲(chǔ)數(shù)據(jù)的光纖陣列柜和存儲(chǔ)服務(wù)器用
來作統(tǒng)計(jì)分析以與搜索用的計(jì)算服務(wù)器用來部署分布式消息DMQ)/WEB/APP軟件的WEB
與消息服務(wù)器,用來部署用PostgreSQL關(guān)系數(shù)據(jù)庫軟件的應(yīng)用數(shù)據(jù)庫服務(wù)器,用來部署
作業(yè)調(diào)度服務(wù)進(jìn)程(JSS)的作業(yè)調(diào)度服務(wù)器。作為數(shù)據(jù)通信用的全千兆三層交換機(jī)等等。
其中光纖陣列柜主要用來存儲(chǔ)統(tǒng)計(jì)分析后的粗顆粒度數(shù)據(jù)。存儲(chǔ)服務(wù)器用來部署分布式
文件系統(tǒng)和分布式數(shù)據(jù)庫,同時(shí)存儲(chǔ)非結(jié)構(gòu)化和結(jié)構(gòu)俎臺(tái)標(biāo)圖片電商圖片等等而結(jié)構(gòu)
化數(shù)撤行為數(shù)據(jù),索引數(shù)據(jù),log數(shù)據(jù),清理后的細(xì)顆粒度數(shù)據(jù)等等〉計(jì)算服務(wù)器主要
用來完成數(shù)據(jù)的清理、統(tǒng)計(jì)、搜索等計(jì)算任務(wù)。為了節(jié)省成本和減少通信代價(jià):建議存
儲(chǔ)服務(wù)器和計(jì)算服務(wù)器合二為一,所以該服務(wù)器同時(shí)具有計(jì)算和存儲(chǔ)數(shù)據(jù)的功能,前期
也可以考慮把作業(yè)調(diào)度服務(wù)進(jìn)程(JSS)進(jìn)程部署在存儲(chǔ)/計(jì)算服務(wù)器上。由于云數(shù)據(jù)采集
中心需要面對(duì)多種寬帶用戶(電信、移動(dòng)、聯(lián)通)所以,數(shù)據(jù)中心的對(duì)外的網(wǎng)絡(luò)需要直
連上電信、移動(dòng)、聯(lián)通三家公司的網(wǎng)絡(luò),保證以上三家公司間的通信性能高速和可靠。
軟件平臺(tái)層是云數(shù)據(jù)采集中心的核心支撐層,也是我們這次方案設(shè)計(jì)和實(shí)施的主體
部分,在核心技術(shù)章節(jié)會(huì)對(duì)“分布式文件系統(tǒng)(S2DFS)”、“分布式數(shù)據(jù)庫(D2B)”、
“分布式消息服務(wù)(DMQ)”“作業(yè)調(diào)度服務(wù)進(jìn)程(JSS)、數(shù)據(jù)計(jì)算服務(wù)還程(DCS)
主要部分加以詳細(xì)的描述。
軟件平臺(tái)層的所有服務(wù)器都統(tǒng)一部署的64位操作系統(tǒng)CentOS6.5(也可以選擇
RHEL6.5x64);其核心軟件或者進(jìn)程有:分布式文件系統(tǒng)(S2DFS)、分布式數(shù)據(jù)庫
(D2B)、作業(yè)調(diào)度服務(wù)進(jìn)程(JSS)、數(shù)據(jù)計(jì)算服務(wù)進(jìn)程(DCS)、作業(yè)生成服務(wù)進(jìn)程
(JGS)、消息處理服務(wù)進(jìn)程(MPS)、流數(shù)據(jù)處理進(jìn)程(SDS)等等。WEB與應(yīng)用服務(wù)
器軟件Apache&Tomcat?消息隊(duì)列軟件分布式消息(DMQ)。還要實(shí)現(xiàn)整個(gè)云數(shù)據(jù)采集中
心的資源管理與監(jiān)控管理系統(tǒng)。
軟件應(yīng)用層是云數(shù)據(jù)采集中心的功能實(shí)現(xiàn)與UI表達(dá)層,功能實(shí)現(xiàn)需要基于軟件平
臺(tái)層的支撐,后期設(shè)計(jì)和實(shí)施的主體。該層的主要功能應(yīng)用有:數(shù)據(jù)采集應(yīng)用、數(shù)據(jù)統(tǒng)計(jì)
應(yīng)用、云數(shù)據(jù)采集中心的資源監(jiān)控與調(diào)度。
通過公共數(shù)據(jù)網(wǎng)(電信、聯(lián)通、移動(dòng))和協(xié)議,把采集的海量文本圖片數(shù)據(jù)以與用戶行
為數(shù)據(jù)存儲(chǔ)在云數(shù)據(jù)采集中心里以供后期分析計(jì)算用。
企業(yè)數(shù)據(jù)采柒■投資商數(shù)據(jù)采集■采柒任務(wù)管理I云數(shù)據(jù)管理I云中心監(jiān)控
JSS
PostgreSQLApache開放
NginxTomcat平臺(tái)
CentOS6.5x64
存儲(chǔ)設(shè)備?網(wǎng)絡(luò)設(shè)備■服務(wù)器設(shè)備
云數(shù)據(jù)采集中心整體架構(gòu)圖
云數(shù)據(jù)采集中心網(wǎng)絡(luò)結(jié)構(gòu)圖
2.3核心技術(shù)與功能
2.3.1分布式文件存儲(chǔ)技術(shù)
(1)傳統(tǒng)存儲(chǔ)技術(shù)面臨的問題:
構(gòu)建成本高:大容量與高網(wǎng)絡(luò)帶寬的高端存儲(chǔ)系統(tǒng)架構(gòu)昂貴。
文件系統(tǒng)功能和性能差強(qiáng)人意:難以實(shí)現(xiàn)全局命名空間的文件共享、文件
系統(tǒng)難以擴(kuò)展,容易形成瓶頸。
擴(kuò)展性困難:技術(shù)存在瓶頸(Scale-up架構(gòu)決定的)擴(kuò)展成本無法控制。
可用性問題:潛在的單點(diǎn)故障,數(shù)據(jù)恢復(fù)困難,代價(jià)高。
應(yīng)用目標(biāo)差異:主要面臨運(yùn)營商、金融行業(yè)的OLTP應(yīng)用、很少針對(duì)海量的
流數(shù)據(jù),或者非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行設(shè)計(jì)和優(yōu)化。
異構(gòu)設(shè)備繁雜:不同時(shí)期、不同公司、不同操作系統(tǒng)的異構(gòu)設(shè)備紛繁復(fù)
雜,無法整合,資源利用率極低。
分布式文件系統(tǒng)主要為解決以上問題而出現(xiàn)的一種新型大規(guī)模數(shù)據(jù)存儲(chǔ)技術(shù)架
構(gòu)。主要為非結(jié)構(gòu)化數(shù)據(jù)(視頻/文件/文檔/圖像/音頻等非結(jié)構(gòu)化數(shù)據(jù))提供海量的存
儲(chǔ)平臺(tái),以集群的方式提供線性橫向擴(kuò)展能力。
分布式文件系統(tǒng)是一種構(gòu)建于通用x86部件之上的高可用、高可靠、高可擴(kuò)展的新
型分布式文件系統(tǒng)。應(yīng)用分布式文件系統(tǒng),用戶可以采用廉價(jià)可靠的通用服務(wù)器、
SATA/SAS硬盤以與以太網(wǎng)絡(luò)來構(gòu)建媲美企業(yè)級(jí)存儲(chǔ)產(chǎn)品的存儲(chǔ)系統(tǒng)。
(2)分布式文件系統(tǒng)應(yīng)對(duì)的數(shù)據(jù)特性和訪問特性:
數(shù)據(jù)量巨大,數(shù)百TB或PB級(jí),增長迅速;
類型多樣化,包括圖像、文本、語音、視頻等文件數(shù)據(jù);
按時(shí)間有序生成,數(shù)據(jù)均帶有時(shí)間標(biāo)志;
前端數(shù)據(jù)寫入速度很高,每秒鐘寫入數(shù)據(jù)可達(dá)幾萬甚至幾十萬條記錄
或者上GB量數(shù)據(jù);
更新操作極少:追加方式寫入,一旦寫入,幾乎沒有數(shù)據(jù)修改,查詢
涉與大量的磁盤讀操作,查詢處理產(chǎn)生大量的臨時(shí)結(jié)果,不同類型的數(shù)
據(jù)存在聯(lián)合分析查詢;
分布式文件系統(tǒng)的基本原理是采用集群方式來整合物理上獨(dú)立的多個(gè)存儲(chǔ)資源以
軟件方式提供單一的名字空間采用多副本的方式保證數(shù)據(jù)的高可用性,任意單一節(jié)點(diǎn)
失效均不會(huì)導(dǎo)致數(shù)據(jù)丟失和數(shù)據(jù)服務(wù)的正常運(yùn)行;同時(shí),分布式文件系統(tǒng)通過良好設(shè)計(jì)
的系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)分布策略可保證系統(tǒng)性能的高可擴(kuò)展性,并支持存儲(chǔ)容量/性能的在
線擴(kuò)展。
相比較于DAS(直連存儲(chǔ))SAN(存儲(chǔ)區(qū)域網(wǎng)絡(luò))和NAS(網(wǎng)絡(luò)存儲(chǔ))應(yīng)用分布式
文件系統(tǒng)構(gòu)建的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)更像是一個(gè)NAS提供類似于傳統(tǒng)NAS的文件級(jí)訪問接口
(SAN和DAS都是塊設(shè)備級(jí)別的訪問接口)
(3)分布式文件系統(tǒng)與傳統(tǒng)NAS/SAN設(shè)備的比較:
比較項(xiàng)高端NASFC-SAN分布式文件系統(tǒng)
性能一般雙端口,性能受機(jī)頭一般雙端口,性能受性能憤節(jié)點(diǎn)數(shù)的增加成線
影響,難以擴(kuò)展,出口帶機(jī)頭影響,難以擴(kuò)展,性增長
寬是瓶頸IOPS較好
擴(kuò)展能力性能與容量無法擴(kuò)展,或能較好擴(kuò)展,但成本性能與容量按需擴(kuò)展,動(dòng)
者有限擴(kuò)展高昂態(tài)均衡
可用性RAID方式保護(hù),雙機(jī)保RAID方式保護(hù)雙機(jī)基于靈活的多副本機(jī)制,
護(hù),停機(jī)RAIDRebuid,耗保護(hù),停機(jī)自動(dòng)檢測自動(dòng)故障恢復(fù),
時(shí)RAIDRebuid,耗時(shí)無需停機(jī)
數(shù)據(jù)管理企業(yè)級(jí)功能需要單獨(dú)購買企業(yè)級(jí)功能需要單嵌多種企業(yè)級(jí)應(yīng)用:快
獨(dú)照、鏡像、回收站
購買(還需要單獨(dú)的
文件系統(tǒng)400多萬一
套)
成本專有的硬件平臺(tái),軟件擁專有的硬件平臺(tái),軟開發(fā)通用的硬件平臺(tái),一
有成本高,擰展成本高件擁有成本高,擴(kuò)展體化的軟件,成本低,擴(kuò)
成本高展成本低
可維護(hù),性專門的技術(shù)支持服務(wù),需結(jié)構(gòu)異常復(fù)雜,需要嵌多種自動(dòng)化的故障檢
要培訓(xùn)大量培訓(xùn),廠商服務(wù)測和恢復(fù)功能國開發(fā),技
昂貴術(shù)支持快速
用戶使用分布式文件系統(tǒng)如同使用本地文件系統(tǒng)。所不同的是,傳統(tǒng)NAS通常以單
一節(jié)點(diǎn)的方式實(shí)現(xiàn),容量和性能的擴(kuò)展能力有限,易于成為性能瓶頸和單一故障點(diǎn)而分
布式文件系統(tǒng)則有多個(gè)節(jié)點(diǎn)集合地提供服務(wù)由于其結(jié)構(gòu)特征,分布式文件系統(tǒng)的性能
和容量均可在線線性擴(kuò)展并且系統(tǒng)不存在單一故障點(diǎn)。對(duì)比參看下面兩幅示意圖:
,¥為內(nèi)
借線存M方式
傳統(tǒng)存儲(chǔ)架構(gòu)圖
分布式文件系統(tǒng)架構(gòu)圖
分布式文件系統(tǒng)的設(shè)計(jì)應(yīng)用特別適合海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)大量客戶端并發(fā)的I/O
密集型應(yīng)用。目前,分布式文件系統(tǒng)已經(jīng)被應(yīng)用于政府、醫(yī)療影像、勘查數(shù)據(jù)計(jì)算、視
頻服務(wù)以與動(dòng)畫制作等領(lǐng)域。這些領(lǐng)域的數(shù)據(jù)訪問特征均為:數(shù)據(jù)量巨大,I/O吞吐率
高,數(shù)據(jù)增長迅速以與數(shù)據(jù)可用性要求高。經(jīng)過長時(shí)間的實(shí)際生產(chǎn)環(huán)境使用,分布式文件
系統(tǒng)已被證明是該類型應(yīng)用的有效解決方案。
布式文件系統(tǒng)的服務(wù)器端程序運(yùn)行于Linuxx64系統(tǒng)之上,支持多種Linux64位發(fā)行版,
包括Redhat、CentOS等。分布式文件系統(tǒng)客戶端則支持Linux和Windows,同時(shí)分布式文
件系統(tǒng)還可以通過第三方軟件輸出CIFS和NFS接口,可以兼容大多數(shù)應(yīng)用。
(4)分布式文件系統(tǒng)的核心技術(shù)與特征:
擴(kuò)展性和高性能:分布式文件系統(tǒng)利用雙重特性來提供幾TB至數(shù)PB的高擴(kuò)
展存儲(chǔ)解決方案。Scale-Out架構(gòu)允許通過簡單地增加資源來提高存儲(chǔ)客
量和性能,磁盤、計(jì)算和I/O資源都可以獨(dú)立增加,支持lOGbE和
InfiniBand等高速網(wǎng)絡(luò)互聯(lián)。分布式文件系統(tǒng)彈性哈希(ElasticHash)解
除了分布式文件系統(tǒng)對(duì)元數(shù)據(jù)服務(wù)器的需求,消除了單點(diǎn)故障和性能瓶
頸,真正實(shí)現(xiàn)了并行化數(shù)據(jù)訪問。
高可用性:分布式文件系統(tǒng)可以對(duì)文件進(jìn)行自動(dòng)復(fù)制,如鏡像或多次復(fù)
制,從而確保數(shù)據(jù)總是可以訪問,甚至是在硬件故障的情況下也能正常訪
問。自我修復(fù)功能能夠把數(shù)據(jù)恢復(fù)到正確的狀態(tài),而且修復(fù)是以增量的方
式在后臺(tái)執(zhí)行,幾乎不會(huì)產(chǎn)生性能負(fù)載。分布式文件系統(tǒng)沒有設(shè)計(jì)自己的
私有數(shù)據(jù)文件珞式,而是采用操作系統(tǒng)中主流標(biāo)準(zhǔn)的磁盤文件系統(tǒng)(如
XFS/EXT4/ZFS)來存儲(chǔ)文件,因此數(shù)據(jù)可以使用各種標(biāo)準(zhǔn)工具進(jìn)行復(fù)制和訪
問。
全局統(tǒng)一命名空間:全局統(tǒng)一命名空間將磁盤和存資源聚集成一個(gè)單一的
虛擬存儲(chǔ)池,對(duì)上層用戶和應(yīng)用屏蔽了底層的物理硬件。存儲(chǔ)資源可以根
據(jù)需要在虛擬存儲(chǔ)池中進(jìn)行彈性擴(kuò)展,比如擴(kuò)容或收縮。當(dāng)存儲(chǔ)虛擬機(jī)映
像時(shí),存儲(chǔ)的虛擬映像文件沒有數(shù)量限制,成千虛擬機(jī)均通過單一掛載點(diǎn)
進(jìn)行數(shù)據(jù)共享c虛擬機(jī)I/O可在命名空間的所有服務(wù)器上自動(dòng)進(jìn)行負(fù)載均
衡,消除了SAN環(huán)境中經(jīng)常發(fā)生的訪問熱點(diǎn)和性能瓶頸問題。
彈性哈希算法:分布式文件系統(tǒng)采用彈性哈希算法在存儲(chǔ)池中定位數(shù)
據(jù),而不是采用集中式或分布式元數(shù)據(jù)服務(wù)器索引。在其他的
Scale-Out存儲(chǔ)系統(tǒng)中,元數(shù)據(jù)服務(wù)器通常會(huì)導(dǎo)致I/O性能瓶頸和單點(diǎn)故障
問題。分布式文件系統(tǒng)中,所有在Scale-Out存儲(chǔ)配置中的存儲(chǔ)系統(tǒng)都可以
智能地定位任意數(shù)據(jù)分片,不需要查看索引或者向其他服務(wù)器查詢。這種
設(shè)計(jì)機(jī)制完全并行化了數(shù)據(jù)訪問,實(shí)現(xiàn)了真正的線性性能擴(kuò)展。
彈性卷管理:數(shù)據(jù)儲(chǔ)存在邏輯卷中,邏輯卷可以從虛擬化的物理存,不會(huì)導(dǎo)
致應(yīng)用中斷。邏輯卷可以在所有配置服務(wù)器中增長和縮減,可以在不同服務(wù)
器遷移進(jìn)行容量均衡,或者增加和移除系統(tǒng),這些操作都可在線進(jìn)行。文
件系統(tǒng)配置更改也可以實(shí)時(shí)在線進(jìn)行并應(yīng)用,從而可以適應(yīng)工作負(fù)載條件
變化或在線性能調(diào)優(yōu)。
完全軟件實(shí)現(xiàn)(SoftwareOnly)分布式文件系統(tǒng)認(rèn)為存儲(chǔ)是軟件問題,不
能夠把用戶局限于使用特定的供應(yīng)商或硬件配置來解決。分布式文件系統(tǒng)
采用開放式設(shè)計(jì),廣泛支持工業(yè)標(biāo)準(zhǔn)的存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算機(jī)設(shè)備,而非與
定制化的專用硬件設(shè)備捆綁。對(duì)于商業(yè)客戶,分布式文件系統(tǒng)可以以虛擬
裝置的形式交付,也可以與虛擬機(jī)容器打包,或者是公有云中部署的映
像。開源社區(qū)中,分布式文件系統(tǒng)被大量部署在基于廉價(jià)閑置硬件的各種
操作系統(tǒng)上,構(gòu)成集中統(tǒng)一的虛擬存儲(chǔ)資源池。簡而言之,分布式文件系
統(tǒng)是開放的全軟件實(shí)現(xiàn),完全獨(dú)立于硬件和操作系統(tǒng)。
■完整的存儲(chǔ)操作系統(tǒng)棧(面叩1。10$1:0「@8。0「6r@1:1咽5丫516111$1@?1;:分布式文
件系統(tǒng)不僅提供了一個(gè)分布式文件系統(tǒng),而且還提供了許多其他重要的分
布式功能,比如分布式存管理、I/O調(diào)度、軟RAID和自我修復(fù)等。分布式文
件系統(tǒng)汲取了微核架構(gòu)的經(jīng)驗(yàn)教訓(xùn),借鑒了GNU/Hurd操作系統(tǒng)的設(shè)計(jì)思
想,在用戶空間實(shí)現(xiàn)了完整的存儲(chǔ)操作系統(tǒng)棧。
用戶空間實(shí)現(xiàn)(Us6rSpace)與傳統(tǒng)的文件系統(tǒng)不同,分布式文件系統(tǒng)在用
戶空間實(shí)現(xiàn),這使得其安裝和升級(jí)特別簡便。
■模塊化堆棧式架構(gòu)(ModularStackableArchitecture)分布式文件系統(tǒng)采
用模塊化、堆棧式的架構(gòu),可通過靈活的配置支持高度定制化的應(yīng)用環(huán)
境,比如大文件存儲(chǔ)、海量小文件存儲(chǔ)、分布式文件系統(tǒng)、多傳輸協(xié)議應(yīng)
用等。每個(gè)功能以模塊形式實(shí)現(xiàn),然后以積木方式進(jìn)行簡單的組合,即可
實(shí)現(xiàn)復(fù)雜的功能。比如'Replicate模塊可實(shí)現(xiàn)RAID1?Stripe模塊可實(shí)現(xiàn)
RAIDO,通過兩者的組合可實(shí)現(xiàn)RAID10和RAID01,同時(shí)獲得高性能和高可
靠性。
■原始數(shù)據(jù)格式存儲(chǔ)(DataStoredinNativeFomiats)分布式文件系統(tǒng)以原
始數(shù)據(jù)格式(如EXT3、EXT4'XFS、ZFS)儲(chǔ)存數(shù)據(jù),并實(shí)現(xiàn)多種數(shù)據(jù)自動(dòng)修
復(fù)機(jī)制v因此,系統(tǒng)極具彈性,即使離線情形下文件也可以通過其他標(biāo)準(zhǔn)
工具進(jìn)行訪問。如果用戶需要從分布式文件系統(tǒng)中遷移數(shù)據(jù),不需要作任
何修改仍然可以完全使用這些數(shù)據(jù)。
■無元數(shù)據(jù)服務(wù)設(shè)計(jì)(NoMetadatawiththeElasticHashAlgorithm>對(duì)
Scale-Out存儲(chǔ)系統(tǒng)而言,最大的挑戰(zhàn)之一就是記錄數(shù)據(jù)邏輯與物理位置
的映像關(guān)系,即數(shù)據(jù)元數(shù)據(jù),可能還包括諸如屬性和訪問權(quán)限等信息。
傳統(tǒng)分布式存滿系統(tǒng)使用集中式或分布式元數(shù)據(jù)服務(wù)來維護(hù)元數(shù)據(jù),集
中式元數(shù)據(jù)服務(wù)會(huì)導(dǎo)致單點(diǎn)故障和性能瓶頸問題,而分布式元數(shù)據(jù)服務(wù)
存在性能負(fù)載和元數(shù)據(jù)同步一致性問題。特別是對(duì)于海量小文件的應(yīng)
用,元數(shù)據(jù)問題是個(gè)非常大的挑戰(zhàn)。分布式文件系統(tǒng)獨(dú)特地采用無元數(shù)
據(jù)服務(wù)的設(shè)計(jì),取而代之使用算法來定位,服務(wù)器都可以智能地對(duì)文件數(shù)
據(jù)分片進(jìn)行定位,僅僅根據(jù)文件名和路徑并運(yùn)用算法即可,而不需要查
詢索引或者其他服務(wù)器。這使得數(shù)據(jù)訪問完全并行化,從而實(shí)現(xiàn)真正的
線性性能擴(kuò)展。無元數(shù)據(jù)服務(wù)器極大提高了分布式文件系統(tǒng)的性能、可
靠性和穩(wěn)定性。
基于標(biāo)準(zhǔn)協(xié)議分布式文件系統(tǒng)存儲(chǔ)服務(wù)支持NFS,CIFS,,FTP以與分布式
文件系統(tǒng)原生協(xié)議,完全與POSIX標(biāo)準(zhǔn)兼容。
(5)分布式文件系統(tǒng)技術(shù)與性能指標(biāo):
支持設(shè)備數(shù)量:最大百萬臺(tái)以上
支持存儲(chǔ)容量:最大1024PB以上
客戶端的數(shù)量:最大支持上億并發(fā)
■網(wǎng)絡(luò)支持:以太網(wǎng):lGbps'lOGbps/INFINIBAND:10Gbps、4OGbps
文件副本數(shù)量:任意(缺省1份)
■協(xié)議:NFS/CIFS//FTP/WEBDAV,與原生協(xié)議,兼容POSIX標(biāo)準(zhǔn)
支持文件數(shù)量:最大上億個(gè)文件
最大單個(gè)文件:16TB
(6)S2DFS與HDFS的比較
對(duì)比項(xiàng)HDFS(GFS)S2DFS
架構(gòu)類型帶元數(shù)據(jù)庫中心架構(gòu)全分布式去中心架構(gòu)
(瓶頸與故障易發(fā)生點(diǎn))
存在方式分布式文件系統(tǒng)軟件,基于x86平臺(tái)
使用方式CLI/RESTAPINATIVECLIENT/CIFS/NFS標(biāo)準(zhǔn)
協(xié)議
(應(yīng)用代碼與平臺(tái)無關(guān)性,便于移
植和維護(hù))
系統(tǒng)可用性低高
數(shù)據(jù)可用性復(fù)制類RAID
數(shù)據(jù)定位方式INodeHash
同步方式異步同步
負(fù)載均衡自動(dòng)自動(dòng)
支持網(wǎng)絡(luò)千兆以太網(wǎng)千兆/萬兆以太網(wǎng),IB網(wǎng)
網(wǎng)絡(luò)寫:讀(萬兆/單流)約100MB/S:160MB/S約800MB/S:1000MB/S
讀(l*20GB)(萬兆)約125s約25s
寫(1*2OGB)(萬兆)約200$約20s
讀/寫(千兆)差距不大
2.3.2分布式并行計(jì)算技術(shù)
(1)概述
并行計(jì)算技術(shù)真正將傳統(tǒng)運(yùn)算轉(zhuǎn)化為并行運(yùn)算從而更加充分的利用廣泛部署的普通
計(jì)算資源實(shí)現(xiàn)大規(guī)模的運(yùn)算和應(yīng)用的目的在此基礎(chǔ)上為第三方開發(fā)者提供通用平臺(tái),
為客戶提供并行服務(wù)。這里主要為門戶提供作業(yè)調(diào)度平臺(tái),實(shí)現(xiàn)日志分析,性能優(yōu)化,
全文檢索,視頻處理,用為分析等等的支撐平臺(tái)。
用戶通過統(tǒng)一計(jì)算平臺(tái)把任務(wù)分派給系統(tǒng)的多個(gè)節(jié)點(diǎn)調(diào)度節(jié)點(diǎn)資源執(zhí)行任務(wù),發(fā)
揮多核并行欠理優(yōu)勢(shì),提升運(yùn)算效率,充分運(yùn)用網(wǎng)絡(luò)的計(jì)算資源達(dá)到解決大規(guī)模計(jì)算
問題的目的。
(2)分布式并行計(jì)算架構(gòu)圖
牛
哥
為
斗
邙
牛
■
書
6
資源及計(jì)算任務(wù)調(diào)度
結(jié)構(gòu)化數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù)
分布式文件系統(tǒng)/分布式數(shù)據(jù)庫
分布式并行計(jì)算架構(gòu)圖
(3)作業(yè)調(diào)度與計(jì)算過程
(4)分布式并行計(jì)算技術(shù)特點(diǎn)
池化資源管理利用池化技術(shù),任何一臺(tái)聯(lián)在互聯(lián)網(wǎng)上的普通PC機(jī)從硬件到軟
件,可通過池化技術(shù)加入服務(wù)器池中,等待任務(wù)分配,系統(tǒng)能充分利用現(xiàn)有服務(wù)
器資源,將所有運(yùn)算子任務(wù)分配給節(jié)點(diǎn)服務(wù)器,有效避免計(jì)算資源閑置現(xiàn)象的
發(fā)生。
降低對(duì)單節(jié)點(diǎn)計(jì)算能力要求,提夭整體資源性能和利用率
?////X\
網(wǎng)絡(luò):[服務(wù)器]k儲(chǔ)設(shè)備I'進(jìn)程[線程[]…
■XX.JX./I
無中心系統(tǒng)架構(gòu)在平臺(tái)管理下的單節(jié)點(diǎn)能力一致,使節(jié)點(diǎn)在部署上和使
用上具備無差別性,任一節(jié)點(diǎn)功能可由其他節(jié)點(diǎn)替代或強(qiáng)化,可以最大程
度確保平臺(tái)資源使用的靈活性以與在災(zāi)備環(huán)境下的可靠性系統(tǒng)架構(gòu)。
單節(jié)點(diǎn)能力網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)具備相同的能力,既可作為客戶端收
發(fā)任務(wù),又可作為服務(wù)器進(jìn)行任務(wù)處理,使整個(gè)
同質(zhì)臥網(wǎng)絡(luò)形成無中心的資源架構(gòu)
通道式工作機(jī)制平臺(tái)為用戶提供一個(gè)并行任務(wù)處理通道,公理過程對(duì)用
戶來說完全透明,由平臺(tái)自動(dòng)進(jìn)行負(fù)載均衡、資源匹配、任務(wù)傳輸?shù)龋?/p>
用戶專注于自身任務(wù)管理,將執(zhí)行過程交由平臺(tái)完成。
平臺(tái)
KZ>為用戶提供端到端的任務(wù)處理能型對(duì)用戶透明、降低使用門檻
I-------------------------------------------負(fù)敢均街------------------------------1
2.3.3分布式數(shù)據(jù)庫技術(shù)
D2B是一個(gè)具有高性能的高性能,可擴(kuò)展,無模式,面向文檔
(document-oriented)的數(shù)據(jù)庫,其存儲(chǔ)的是一種JSON-like結(jié)構(gòu)化數(shù)據(jù)的分布式數(shù)據(jù)庫
軟件尤其具有高擴(kuò)展性和高可靠性支持大表水平折分以與分區(qū)鏡像。提供存緩存數(shù)
據(jù),所以數(shù)據(jù)存取速度非??欤饕怯捎谒防韺懭氲姆绞剑核鼈兇鎯?chǔ)在存中,然后
通過后臺(tái)線程寫入磁盤。
該軟件支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bjson格式,因此可以存儲(chǔ)比較
復(fù)雜的數(shù)據(jù)類型4)2B另外的最大的特點(diǎn)是他支持的查詢語言非常強(qiáng)大嗔語法有點(diǎn)類
似于面向?qū)ο蟮牟樵冋Z言幾乎可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而
且還支持對(duì)數(shù)據(jù)建立索引。它的特點(diǎn)是高性能、易部署、易使用,存儲(chǔ)數(shù)據(jù)非常方便。
主要功能特性:
面向集合存儲(chǔ),易存儲(chǔ)對(duì)象類型的數(shù)據(jù)
“面向集合"(Collenction-Oriented),意思是數(shù)據(jù)被分組存儲(chǔ)在數(shù)據(jù)集中,
被稱為一個(gè)集合(Oollenction)。每個(gè)集合在數(shù)據(jù)庫中都有一個(gè)唯一的標(biāo)識(shí)
名,并且可以也含無限數(shù)目的文檔。集合的概念類似關(guān)系型數(shù)據(jù)康RDBMS跟的表
(table環(huán)同的是它不需要定義任何模式schema)。
模式自由
模式自由($(±011舊-行色),意味著對(duì)于存儲(chǔ)在口21^數(shù)據(jù)庫中的文件,我們不需要
知道它的任何結(jié)構(gòu)定義。如果需要的話,你完全可以把不同結(jié)構(gòu)的文件存儲(chǔ)在
同一個(gè)數(shù)據(jù)庫里。
自動(dòng)分片以支持云級(jí)別的伸縮性:自動(dòng)分片功能支持水平的數(shù)據(jù)庫集群,可
動(dòng)態(tài)添加額外的機(jī)器。
支持動(dòng)態(tài)查詢
支持完全索引,包含部對(duì)象。
自動(dòng)處理碎片,以支持云計(jì)算層次的擴(kuò)展性c
可通過網(wǎng)絡(luò)訪問
?可用于IVindows?、MacOSX、Linux?和Solaris的官方二進(jìn)制版本。
?可用于C、C#、C++、Haskell'Java?、JavaScript、Perl、PHP、Python'Ruby和
Scala的官方驅(qū)動(dòng)程序,以與廣泛可用于其他語言的社區(qū)支持的驅(qū)動(dòng)程序。
?Ad-hocJavaScript查詢讓您能夠使用基于任何文檔屬性的任何條件來查找數(shù)
據(jù)。這些查詢對(duì)應(yīng)于SQL查詢的功能,使SQL開發(fā)人員能夠很直觀地編寫D2B查
詢。
支持查詢中的正則表達(dá)式。
?D2B查詢結(jié)果存儲(chǔ)在提供過濾、聚合和排序等一系列功能的游標(biāo)中,包挺
1imitO、skip()、sort()、count。、distinctO和group。等等高級(jí)特性。
?高級(jí)聚合的map/reduce實(shí)現(xiàn)。
?類似于RDBMS的屬性索引支持,可以直接在文檔的選定屬性上創(chuàng)建索引。
使用提示、解釋計(jì)劃和分析的查詢優(yōu)化特性。
類似于MySQL的主/從復(fù)制,支持復(fù)制和故障恢復(fù)。
基于集合的對(duì)象存儲(chǔ),在需要規(guī)化數(shù)據(jù)時(shí)允許參考查詢。
通過自動(dòng)分片功能水平擴(kuò)展。
高性能無爭用并發(fā)機(jī)制的即時(shí)更新。
D2B服務(wù)端可運(yùn)行在Linux、Windows或OSX平臺(tái),支持32位和64位應(yīng)用。推薦
運(yùn)行在64位平臺(tái),因?yàn)镈2B在32位模式運(yùn)行時(shí)支持的最大文件尺寸為2GB。
分布式數(shù)據(jù)庫(D2B)集群示例圖D2B
與關(guān)系型數(shù)據(jù)庫的邏輯結(jié)構(gòu)對(duì)比:
D2B關(guān)系型數(shù)據(jù)庫
數(shù)據(jù)庫(database)數(shù)據(jù)庫(database)
集合(collection)表(table)
文檔(document)行(row)
D2B的性能指標(biāo):
10億約600GB以上(與每條記錄大小有關(guān)系,這
里的數(shù)據(jù):1Kb/條)
寫(1億,無索引)約15000-20000條/s
寫(1億,有索引)約10000條/s
寫(1億:ReplicaSets+Sharding模式)約6000-8000條/s
橫(1億)約80MBT20MB/S
讀(1億)8000-10000個(gè)查詢/s
統(tǒng)計(jì)一個(gè)值(10億)<3s(復(fù)雜查詢)
最大節(jié)點(diǎn)數(shù)量>1024(理論上)
測試環(huán)境的硬件配置:intelXeonE7-88372路16核心,256GB存>15kSAS16^600GB
硬盤,的/〃5〃;總共/2臺(tái)設(shè)備;加6的架構(gòu)模式:Rep1icaSets+Sharding。
2.3.4負(fù)載均衡
1)開源負(fù)載均衡軟件比較
LVSNginxHAProxy
LVS(LinuxVirtualServer)可以Nginx是一款輕量級(jí)、高可用性的HAProxy是一款提供高可用性的
實(shí)現(xiàn)Linux平臺(tái)下的負(fù)載均衡,提Web服務(wù)軟件與反向代理軟件塞f基于TCP(第四層)和(第七層)
供了含有三種IP負(fù)載均衡技術(shù)的(第七層)應(yīng)用代理服務(wù)器在國應(yīng)用的代理軟件。在國大型的互
IP虛擬服務(wù)器軟件IPVS基于容詩大型的互聯(lián)網(wǎng)公司都有使用。聯(lián)網(wǎng)公司都有使用。
求分發(fā)的核Layer-7交換機(jī)
KTCPVS和集群等功能
1、抗?負(fù)載能力強(qiáng)、是工作在網(wǎng)絡(luò)41、工作在網(wǎng)絡(luò)的7層之上,可以針1能夠補(bǔ)充Nginx的一些缺點(diǎn)比如
層之上僅作分發(fā)之用沒有流量的對(duì)應(yīng)用做一些分流的策略,比如針Session的保持,Cookie的引導(dǎo)等
產(chǎn)生這個(gè)特點(diǎn)也決定了它在負(fù)載對(duì)域名、目錄結(jié)構(gòu),它的正則規(guī)則工作;
均衡軟件里的性能最強(qiáng)的;比HAProxy更為強(qiáng)大和靈活;
2、HAProxy對(duì)網(wǎng)絡(luò)的依賴非常小,
2、配置性比較低,這是一個(gè)缺點(diǎn)也2、Nginx對(duì)網(wǎng)絡(luò)的依賴非常小,理理論上能ping通就就能進(jìn)行負(fù)載
是一個(gè)優(yōu)點(diǎn)因?yàn)闆]有可太多配置論上能ping通就就能進(jìn)行負(fù)載功功能;
的東西,所以并不需要太多接觸,能;
大大減少了人為出錯(cuò)的幾率;3、它跟LVS一樣,本身僅僅就只
3、Nginx安裝、配置、維護(hù)比較簡是一款負(fù)載均衡軟件單純從效率
3、工作備定,自身有完整的雙機(jī)單;上來講HAProxy更會(huì)比Nginx有更
熱備方案?如LVS+Keepalivec和出色,在并發(fā)父理上也是優(yōu)于
4可以承當(dāng)高的負(fù)載壓力且穩(wěn)定,
LVS+Heartbeat;Nginx;
一般能支撐超過幾萬次的并發(fā)量:
4、無流量,保證了均衡器10的4、HAProxy安裝'配置'維護(hù)比較
性能不會(huì)收到大流量的影響;5界ginx可以通過端口檢測到服務(wù)簡單;
器部的故障,不支持url來檢測;
5、軟件本身不支持正則公理,不5可以承當(dāng)高的負(fù)載壓力且穩(wěn)定,
建議用Nginx(或者HAProxy)作為負(fù)載均衡(反向代理)軟件配合硬件負(fù)載均衡使
用。究竟選擇Nginx還是HAProxy要看團(tuán)隊(duì)對(duì)這兩種軟件的熟悉程度,越熟悉,就
能容易掌控,減少風(fēng)險(xiǎn),我們團(tuán)隊(duì)對(duì)Nginx非常熟悉,所以,這里我們推薦用Nginx作
為軟件的反向代理工具。
2.3.5數(shù)據(jù)采集
1)概述
數(shù)據(jù)采集功能主要完成海量數(shù)據(jù)采集、上傳。數(shù)據(jù)采集的來源有:國家工商局、企
業(yè)、百度、谷歌等。根據(jù)特定的數(shù)據(jù)源,不同應(yīng)用,不同類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒科醫(yī)師崗位面試題集
- 華為公司部門經(jīng)理面試題及答案
- 金融行業(yè)面試題集銀行職員面試題及參考答案
- 2025年電子商務(wù)創(chuàng)新中心項(xiàng)目可行性研究報(bào)告
- 2025年智能型洗衣服務(wù)項(xiàng)目可行性研究報(bào)告
- 2025年虛擬貨幣挖礦中心建設(shè)項(xiàng)目可行性研究報(bào)告
- 2025年全周期健康管理服務(wù)項(xiàng)目可行性研究報(bào)告
- 2025年文化旅游項(xiàng)目開發(fā)與推廣策略可行性研究報(bào)告
- 2025年綠色供應(yīng)鏈管理系統(tǒng)建設(shè)項(xiàng)目可行性研究報(bào)告
- 2026年湖南石油化工職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性考試題庫及參考答案詳解一套
- 2025年廣東省公需課《人工智能賦能制造業(yè)高質(zhì)量發(fā)展》試題及答案
- 安全通道防護(hù)棚施工方案
- 有機(jī)肥可行性研究報(bào)告
- 2025年-基于華為IPD與質(zhì)量管理體系融合的研發(fā)質(zhì)量管理方案-新版
- 法律職業(yè)資格考試客觀題(試卷一)試卷與參考答案(2025年)
- 腹壁下動(dòng)穿支課件
- 2025-2030集中式與分散式青年公寓運(yùn)營效率對(duì)比分析
- 廣西協(xié)美化學(xué)品有限公司年產(chǎn)7400噸高純有機(jī)過氧化物項(xiàng)目環(huán)評(píng)報(bào)告
- 智慧樹知道網(wǎng)課《艾滋病、性與健康》課后章節(jié)測試答案
- 配電施工工藝培訓(xùn)
- 2025年全國教師師德網(wǎng)絡(luò)培訓(xùn)考試題庫及答案
評(píng)論
0/150
提交評(píng)論