深度學(xué)習(xí)后端分布式存儲(chǔ)ceph技術(shù)建議書_第1頁(yè)
深度學(xué)習(xí)后端分布式存儲(chǔ)ceph技術(shù)建議書_第2頁(yè)
深度學(xué)習(xí)后端分布式存儲(chǔ)ceph技術(shù)建議書_第3頁(yè)
深度學(xué)習(xí)后端分布式存儲(chǔ)ceph技術(shù)建議書_第4頁(yè)
深度學(xué)習(xí)后端分布式存儲(chǔ)ceph技術(shù)建議書_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI平臺(tái)分布式存儲(chǔ)(ceph)技術(shù)建議書目錄TOC\o"1-5"\h\z\o"CurrentDocument"前言3\o"CurrentDocument"現(xiàn)狀3\o"CurrentDocument"技術(shù)調(diào)研.4\o"CurrentDocument"要求4\o"CurrentDocument"技術(shù)選型4分布式存儲(chǔ)分類4\o"CurrentDocument"特性對(duì)比5\o"CurrentDocument"ceph技術(shù)原理6\o"CurrentDocument"基本組成.6邏輯架構(gòu).7\o"CurrentDocument"數(shù)據(jù)流程8\o"CurrentDocument"資源要求9\o"CurrentDocument"硬件指標(biāo).9cpu9內(nèi)存10硬盤10日志盤10osd節(jié)點(diǎn)密度11分配方式11\o"CurrentDocument"網(wǎng)絡(luò)結(jié)構(gòu)12\o"CurrentDocument"軟件兼容性13\o"CurrentDocument"快速配置參考14\o"CurrentDocument"數(shù)據(jù)安全15\o"CurrentDocument"用戶15\o"CurrentDocument"認(rèn)證機(jī)制15\o"CurrentDocument"用戶分類16\o"CurrentDocument"授權(quán)類型17\o"CurrentDocument"存儲(chǔ)割接17\o"CurrentDocument"其他181.前言目前公司AI平臺(tái)所用后端數(shù)據(jù)存儲(chǔ)包含三種方式,對(duì)象存儲(chǔ)(OSS):冷數(shù)據(jù),備份數(shù)據(jù),共享存儲(chǔ)(NFS):熱數(shù)據(jù),訓(xùn)練任務(wù)用數(shù)據(jù),節(jié)點(diǎn)存儲(chǔ)(DEV):服務(wù)器自身磁盤,除了節(jié)點(diǎn)存儲(chǔ),其他兩類在遷移容器云后依然保留,節(jié)點(diǎn)存儲(chǔ)則不再使用。由于nfs服務(wù)的局限性,建議使用分布式共享存儲(chǔ)替換當(dāng)前的nfs方式,以滿足后續(xù)的因業(yè)務(wù)增長(zhǎng),對(duì)存儲(chǔ)的容量和性能更高要求。2.現(xiàn)狀目前物理服務(wù)器5臺(tái),借用其他業(yè)務(wù)測(cè)試用主機(jī)構(gòu)建NFS高可用,單機(jī)磁盤裸容量36T,為了增加磁盤的讀寫效率,同時(shí)保障數(shù)據(jù)安全性,做了RAID5+RAID0組合方式,該架構(gòu)目前提供共計(jì)20T共享熱數(shù)據(jù)文件存儲(chǔ)。由于nfs容易上手,部署方便且快速,維護(hù)十分簡(jiǎn)單,在項(xiàng)目前期可以作為簡(jiǎn)單的共享存儲(chǔ)使用,伴隨著用戶訓(xùn)練任務(wù)的增長(zhǎng),nfs方式的短板日趨明顯,擴(kuò)容受限,已不能夠支撐后續(xù)多任務(wù),多用戶對(duì)數(shù)據(jù)的大批量、高性能讀寫請(qǐng)求。當(dāng)前存在問(wèn)題:容易發(fā)生單點(diǎn)故障,雖然采用keepalived高可用,但增加了維護(hù)的復(fù)雜度,同時(shí)更拔高了其他短板的表現(xiàn),尤其在連接管理,效率性能方面,并且在兩節(jié)點(diǎn)切換期間不可避免存在數(shù)據(jù)丟失情況;擴(kuò)容受限,在高并發(fā)下NFS效率/性能有限;客戶端沒(méi)用用戶認(rèn)證機(jī)制,且數(shù)據(jù)是通過(guò)明文傳送,無(wú)安全保障;e.多臺(tái)機(jī)器掛載NFS服務(wù)器時(shí),連接管理維護(hù)麻煩;3.技術(shù)調(diào)研要求目前公司提供的存儲(chǔ),能夠和AI當(dāng)前架構(gòu)對(duì)接的僅限于OSS對(duì)象存儲(chǔ),其他的hdfs,hive、hbase均無(wú)法采用,公司的NAS資源有限,目前支撐其他項(xiàng)目,無(wú)擴(kuò)容計(jì)劃,不借用,在無(wú)資源和資金支撐下,分布式存儲(chǔ)選擇需要以下要求:文件存儲(chǔ):支持POSIX接口,可以像普通文件系統(tǒng)(如ext4)那樣訪問(wèn)?開(kāi)源性:不采用第三方公司產(chǎn)品,或二次封裝方式;?安全性:能夠滿足最基本的用戶接入控制,并不限于此;?去中心化:高可用,能夠縱向升級(jí)和橫向擴(kuò)展,即分布式需求;通用性:普通硬件,即能夠正常運(yùn)行Linux服務(wù)器即可;技術(shù)選型分布式存儲(chǔ)已經(jīng)研究很多年,但直到近年來(lái),伴隨著谷歌、亞馬遜和阿里等互聯(lián)網(wǎng)公司云計(jì)算和大數(shù)據(jù)應(yīng)用的興起,它才大規(guī)模應(yīng)用到工程實(shí)踐中。如谷歌的分布式文件系統(tǒng)GFS、分布式表格系統(tǒng)googleBigtable,亞馬遜的對(duì)象存儲(chǔ)AWS,阿里的TFS等都是很好的代表,同時(shí)也催生了一大批優(yōu)秀的開(kāi)源分布式存儲(chǔ)系統(tǒng),包括ceph、swift、Lustre和glusterfs等。3.2.1,分布式存儲(chǔ)分類分布式存儲(chǔ)按其存儲(chǔ)接口分為三種:文件存儲(chǔ)、塊存儲(chǔ)和對(duì)象存儲(chǔ)。在主流的分布式存儲(chǔ)技術(shù)中,HDFS/GPFS/GFS屬于文件存儲(chǔ),Swift屬于對(duì)象存儲(chǔ),而Ceph可支持塊存儲(chǔ)、對(duì)象存儲(chǔ)和文件存儲(chǔ),故稱為統(tǒng)一存儲(chǔ)。文件存儲(chǔ)通常支持POSIX接口(如glusterfs,但GFS、HDFS是非POSIX接口的),可以像普通文件系統(tǒng)(如ext4)那樣訪問(wèn),但又比普通文件系統(tǒng)多了并行化訪問(wèn)的能力和冗余機(jī)制。主要的分布式文件存儲(chǔ)系統(tǒng)有TFS、cephfs、glusterfs和HDFS等。主要存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),如普通文件、圖片、音視頻等??梢圆捎肗FS和CIFS等協(xié)議訪問(wèn),共享方便。塊存儲(chǔ)這種接口通常以QEMUDriver或者KernelModule的方式存在,主要通過(guò)qemu或iscsi協(xié)議訪問(wèn)。主要的塊存儲(chǔ)系統(tǒng)有ceph塊存儲(chǔ)、sheepdog等。主要用來(lái)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)數(shù)據(jù)。數(shù)據(jù)共享不方便。DAS和SAN都是塊存儲(chǔ)類型。對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)系統(tǒng)綜合了NAS和SAN的優(yōu)點(diǎn),同時(shí)具有SAN的高速直接訪問(wèn)和NAS的數(shù)據(jù)共享等優(yōu)勢(shì)。以對(duì)象作為基本的存儲(chǔ)單元,向外提供RESTful數(shù)據(jù)讀寫接口,常以網(wǎng)絡(luò)服務(wù)的形式提供數(shù)據(jù)訪問(wèn)。主要的對(duì)象存儲(chǔ)系統(tǒng)有AWS、swift和ceph對(duì)象存儲(chǔ)。主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)。3.2.2特性對(duì)比按照選型要求和各技術(shù)特性對(duì)比,規(guī)劃采用ceph方式的文件系統(tǒng)。CephGFSHDFSSwiftLustreGlusterfs平臺(tái)屬性開(kāi)源閉源開(kāi)源開(kāi)源開(kāi)源開(kāi)源栗貌架構(gòu)云中心化中心化申心化去中心化口心化去中心化數(shù)據(jù)存陸方式塊、文件、對(duì)象文件文件對(duì)象文件文件、對(duì)象元黝據(jù)節(jié)點(diǎn)數(shù)量多個(gè)1個(gè)1個(gè)(主備)1個(gè)天數(shù)據(jù)冗余條副本條副本警副本泰副本無(wú)鏡僚教據(jù)一致性強(qiáng)一致性最終一致性過(guò)程一致性弱—致性無(wú)弱一致性分塊大小(默認(rèn))64MB120MB現(xiàn)對(duì)象大小1MB■用場(chǎng)晨小文件頻繁讀寫大文件連續(xù)讀與大數(shù)據(jù)場(chǎng)景云對(duì)象存儲(chǔ)大文件連續(xù)讀寫(HPC超算)大女件讀寫4.ceph技術(shù)原理基本組成Ceph支持三種存儲(chǔ)接口:對(duì)象存儲(chǔ)RGW(radosgateway)、塊存儲(chǔ)RBD(radosblockdevice)和文件存儲(chǔ)CephFS,這三個(gè)接口只是在客戶端的封裝庫(kù)不同,到服務(wù)端了都是對(duì)象存儲(chǔ);『應(yīng)用'(1%接訪問(wèn)RAD3}『對(duì)象存佛接口'(S?S'lvifi)塊存儲(chǔ)接口(物'理主機(jī)虛擬機(jī)i文件系統(tǒng)接口](libcephfs厚pcsix接口}1f\U數(shù)據(jù)!元數(shù)據(jù)radosgnlibrlxi元數(shù)據(jù)服務(wù)器(MDS)t訂幣1RADOS時(shí)象存系統(tǒng)的作.更持PyrhMRubyPHP)RADQS對(duì)象存僻系統(tǒng)的.由如織的、時(shí)自動(dòng)修岌.自我竹理構(gòu)分布式對(duì)快春餡系統(tǒng))對(duì)象存儲(chǔ)(RGW:RADOSgateway)Ceph對(duì)象存儲(chǔ)服務(wù)提供了REST風(fēng)格的API,它有與AmazonS3和OpenStackSwift兼容的接口。也就是通常意義的鍵值存儲(chǔ),其接口就是簡(jiǎn)單的GET、PUT、DEL和其他擴(kuò)展;塊存儲(chǔ)(RBD:RADOSblockdevice)RBD是通過(guò)librbd庫(kù)對(duì)應(yīng)用提供塊存儲(chǔ),主要面向云平臺(tái)的虛擬機(jī)提供虛擬磁盤;RBD類似傳統(tǒng)的SAN存儲(chǔ),提供數(shù)據(jù)塊級(jí)別的訪問(wèn);目前RBD提供了兩個(gè)接口,一種是直接在用戶態(tài)實(shí)現(xiàn),通過(guò)QEMUDriver供KVM虛擬機(jī)使用。另一種是在操作系統(tǒng)內(nèi)核態(tài)實(shí)現(xiàn)了一個(gè)內(nèi)核模塊。通過(guò)該模塊可以把塊設(shè)備映射給物理主機(jī),由物理主機(jī)直接訪問(wèn)。文件存儲(chǔ)

Ceph文件系統(tǒng)服務(wù)提供了兼容POSIX的文件系統(tǒng),可以直接掛載為用戶空間文件系統(tǒng)。它跟傳統(tǒng)的文件系統(tǒng)如Ext4是一個(gè)類型,區(qū)別在于分布式存儲(chǔ)提供了并行化的能力;原生接口除了以上3種存儲(chǔ)接口,還可以直接使用librados的原生接口,直接和RADOS通信;原生接口的優(yōu)點(diǎn)是是它直接和和應(yīng)用代碼集成,操作文件很方便;但它的問(wèn)題是它不會(huì)主動(dòng)為上傳的數(shù)據(jù)分片;一個(gè)1G的大對(duì)象上傳,落到Ceph的存儲(chǔ)磁盤上就是1G的文件;邏輯架構(gòu)ceph的組件采用插件的機(jī)制,包括后端存儲(chǔ),KV數(shù)據(jù)庫(kù),磁盤管理等。各組件之間可以靈活的組合。osdosdosdosdCephceph的組件采用插件的機(jī)制,包括后端存儲(chǔ),KV數(shù)據(jù)庫(kù),磁盤管理等。各組件之間可以靈活的組合。osdosdosdosdCephMonitor(ceph-mon)維護(hù)集群狀態(tài)的映射,包括監(jiān)視器映射,管理器映射,OSD映射和CRUSH映射。這些映射是Ceph守護(hù)進(jìn)程相互協(xié)調(diào)所需的關(guān)鍵集群狀態(tài)。監(jiān)視器還負(fù)責(zé)管理守護(hù)進(jìn)程和客戶端之間的身份驗(yàn)證。冗余和高可用性通常至少需要三個(gè)監(jiān)視器。CephManager守護(hù)程序(ceph-mgr)負(fù)責(zé)跟蹤運(yùn)行時(shí)指標(biāo)和Ceph集群的當(dāng)前狀態(tài),包括存儲(chǔ)利用率,當(dāng)前性能指標(biāo)和系統(tǒng)負(fù)載。CephManager守護(hù)進(jìn)程還托管基于python的插件來(lái)管理和公開(kāi)Ceph集群信息,包括基于Web的儀表板和RESTAPI。高可用性通常至少需要兩名經(jīng)理。CephOSD(對(duì)象存儲(chǔ)守護(hù)進(jìn)程ceph-osd)存儲(chǔ)數(shù)據(jù),處理數(shù)據(jù)復(fù)制,恢復(fù),重新平衡,并通過(guò)檢查其他CephOSD守護(hù)進(jìn)程來(lái)獲取心、跳,為Ceph監(jiān)視器和管理器提供一些監(jiān)視信息。冗余和高可用性通常至少需要3個(gè)CephOSD。Ceph元數(shù)據(jù)服務(wù)器(MDSceph-mds)代表Ceph文件系統(tǒng)存儲(chǔ)元數(shù)據(jù)(即,Ceph塊設(shè)備和Ceph對(duì)象存儲(chǔ)不使用MDS)。Ceph的元數(shù)據(jù)服務(wù)器允許POSIX文件系統(tǒng)的用戶來(lái)執(zhí)行基本的命令(如ls,find沒(méi)有放置在一個(gè)Ceph存儲(chǔ)集群的巨大負(fù)擔(dān),等等)。數(shù)據(jù)流程ceph尋址過(guò)程fileobject映射,把file分割成N個(gè)相同的對(duì)象object-PG映射,利用靜態(tài)hash得到objectID的偽隨機(jī)值,在"位與"mask上使得object獲取屬于自己的PGpg--osd映射,將pg映射到實(shí)際的存儲(chǔ)單元osd,RADOS利用crush算法,由pgid得到一組n個(gè)osd,再由osddaemon執(zhí)行映射到本地的object在本地系統(tǒng)中存儲(chǔ),訪問(wèn),數(shù)據(jù)維護(hù),此次映射功能直接受到crushmap以及rule限制,只有clustermap和rule不發(fā)生改變時(shí),pg和osd的映射關(guān)系才固定。資源要求硬件指標(biāo)Ceph可以運(yùn)行在廉價(jià)的普通硬件上,小型生產(chǎn)集群和開(kāi)發(fā)集群可以在一般的硬件上,PB級(jí)生產(chǎn)集群也可以使用普通硬件,但應(yīng)該配備更多內(nèi)存、CPU和數(shù)據(jù)存儲(chǔ)空間來(lái)解決流量壓力。cpu每一個(gè)osd守護(hù)進(jìn)程至少有一個(gè)cpu核,計(jì)算公式如下:((cpusockets*cpucorespersoket*cpuclockspeedinGHZ)/No.OfOSD)>=1例如:一臺(tái)服務(wù)器擁有一個(gè)單插座,6核,2.5Ghz的cpu,就足以支持12個(gè)osd,每個(gè)osd將大致得到1.25FGhz的計(jì)算能力((1*6*2.5)/12)=1.25IterXeonProcessorE5-2620(2.4GHz,6core)1*6*2.40=14.1適合多達(dá)14個(gè)osd的ceph節(jié)點(diǎn)5.1.2.內(nèi)存moniter和metadata的守護(hù)進(jìn)程,一般會(huì)隨著集群的大小而變化,cephmds很大程度上取決于數(shù)據(jù)緩存,需要大量的RAM,RAM越高,cephfs性能越好。osd會(huì)要求數(shù)量客觀的內(nèi)存,一般每個(gè)OSD守護(hù)進(jìn)程1G足以,不過(guò)從性能上講每個(gè)守護(hù)進(jìn)程2G是一個(gè)更好的選擇。硬盤當(dāng)一個(gè)osd接受請(qǐng)求寫一個(gè)object時(shí),它會(huì)首先把object寫到pgactingset中的osd對(duì)應(yīng)的日志盤,然后發(fā)送一個(gè)寫確認(rèn)給客戶端,很快日志數(shù)據(jù)會(huì)同步到數(shù)據(jù)盤,使用ssd做日志盤,可以減少訪問(wèn)時(shí)間,降低寫延遲,大幅提升吞吐量。OSD應(yīng)該有足夠的硬盤空間來(lái)存放對(duì)象數(shù)據(jù)。我們建議硬盤驅(qū)動(dòng)器的最小容量為1T??紤]到較大磁盤的每GB的成本優(yōu)勢(shì)。我們建議將硬盤驅(qū)動(dòng)器的價(jià)格除以千兆字節(jié),得出每千兆字節(jié)的成本,因?yàn)檩^大的驅(qū)動(dòng)器可能會(huì)對(duì)每千兆字節(jié)的成本有很大影響。例如,價(jià)格為75美元的1T硬盤,每千兆字節(jié)的成本為0.07美元。相比之下,價(jià)格為150美元的3T硬盤的成本為每千兆字節(jié)0.05美元。在上述例子中,使用1T硬盤通常會(huì)使每千兆字節(jié)的成本增加40%——使集群的成本效益大大降低。Tips:在一個(gè)磁盤上運(yùn)行多個(gè)OSD,無(wú)論分區(qū)如何,都不是一個(gè)好主意Tips:在單一磁盤上運(yùn)行OSD、寫日志、或者元數(shù)據(jù)服務(wù)器,無(wú)論分區(qū)如何,都不是一個(gè)好主意Ceph最佳實(shí)踐規(guī)定,你應(yīng)該在不同的驅(qū)動(dòng)器上運(yùn)行操作系統(tǒng)、OSD數(shù)據(jù)和OS。日志日志盤在sata/sasssd上獲取高性能,ssd和osd的比例應(yīng)該為1:4,也就是說(shuō)4個(gè)OSD數(shù)據(jù)硬盤可共享一個(gè)ssdPCIe或者NVMe閃存設(shè)備的情況取決也設(shè)備性能,ssd和osd壁壘可以達(dá)到1:12或者1:18osd節(jié)點(diǎn)密度osd數(shù)據(jù)分區(qū)Cephosd節(jié)點(diǎn)的密度也是影響集群性能、可用容量和TCO的一個(gè)重要因素,一般來(lái)說(shuō)大量的小容量量節(jié)點(diǎn)比少量的大容量節(jié)點(diǎn)要好,但這不是定論,應(yīng)該選擇適當(dāng)?shù)腸ephosd節(jié)點(diǎn)的密度,是單個(gè)節(jié)點(diǎn)容量小于總集群容量的10%。例如:在一個(gè)1PB的ceph集群,你應(yīng)該避免使用4個(gè)250Tb的osd節(jié)點(diǎn),因?yàn)槊總€(gè)幾點(diǎn)占用了25%的集群容量,相反,你可以使用13個(gè)80TB的osd節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)容量小于集群容量的10%,但是這回增加你的TCO,具體實(shí)施期間依賴存儲(chǔ)容量需求評(píng)估,依照該評(píng)估規(guī)劃適宜的節(jié)點(diǎn)密度。分配方式按照ceph邏輯組件構(gòu)成,分布式集群需要承載4類進(jìn)程,組網(wǎng)方式有兩種:精簡(jiǎn)型,完全型,為了達(dá)到資源利用最大化,采用精簡(jiǎn)型,即OSD進(jìn)程和其他進(jìn)程合設(shè)。完全型方式:對(duì)于物理資源充裕情況下,采用該模式,管理節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)分開(kāi)部署,架構(gòu)清晰,便于維護(hù)、減少進(jìn)程干擾。節(jié)點(diǎn)節(jié)點(diǎn)類型進(jìn)程備注node01管理節(jié)點(diǎn)mon、mgr、mdsnode02管理節(jié)點(diǎn)mon、mgr、mdsnode03管理節(jié)點(diǎn)mon、mgr、mdsnode04數(shù)據(jù)節(jié)點(diǎn)osd…數(shù)據(jù)節(jié)點(diǎn)osdnode0N數(shù)據(jù)節(jié)點(diǎn)osd精簡(jiǎn)型方式:由于管理進(jìn)程和數(shù)據(jù)進(jìn)程在資源耗用上各有偏重,影響不大,在資源受限情況下可以采用

該模式,所有節(jié)點(diǎn)均為數(shù)據(jù)節(jié)點(diǎn),按照規(guī)劃把管理進(jìn)程合設(shè)到指定數(shù)據(jù)節(jié)點(diǎn)即可。節(jié)點(diǎn)節(jié)點(diǎn)類型進(jìn)程備注node01管理節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)osd、mon、mgr可以合設(shè)其他節(jié)點(diǎn)node02管理節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)osd、mon、mgr可以合設(shè)其他節(jié)點(diǎn)node03管理節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)osd、mon、mgr可以合設(shè)其他節(jié)點(diǎn)node04數(shù)據(jù)節(jié)點(diǎn)osd、mds可以合設(shè)其他節(jié)點(diǎn)…數(shù)據(jù)節(jié)點(diǎn)osd、mds可以合設(shè)其他節(jié)點(diǎn)NodeN數(shù)據(jù)節(jié)點(diǎn)osd、mds可以合設(shè)其他節(jié)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)少量節(jié)點(diǎn)的ceph集群,1Gbps網(wǎng)絡(luò)速率可以滿足正常運(yùn)行,如果是一個(gè)中型或大型的網(wǎng)絡(luò)(數(shù)十個(gè)節(jié)點(diǎn)),應(yīng)該考慮使用萬(wàn)兆甚至更高帶寬的網(wǎng)絡(luò)。數(shù)據(jù)恢復(fù)和重新平衡期間,網(wǎng)絡(luò)很重要,如果有10G的網(wǎng)絡(luò)會(huì)縮短集群恢復(fù)的時(shí)間。比如:在1Gbps網(wǎng)絡(luò)上復(fù)制1TB的數(shù)據(jù)需要3個(gè)小時(shí),而10TB需要30個(gè)小時(shí)!相比之下,使用10Gbps網(wǎng)絡(luò),復(fù)制時(shí)間分別需要20分鐘和1小時(shí)。但每個(gè)流量路徑都代表了潛在的容量、吞吐量和/或性能瓶頸,在部署大規(guī)模數(shù)據(jù)集群之前,您應(yīng)該仔細(xì)考量,建議雙明面,或者三網(wǎng)規(guī)劃。IheclusternetworkIheclusternetworkrelievesOSDreplicationandheartbeattrafficIIomthepublicnetwoi-k.(1)提高性能:消除副本創(chuàng)建、數(shù)據(jù)恢復(fù)和再平衡對(duì)publicnetwork的壓力;增強(qiáng)OSD心、跳網(wǎng)絡(luò)的可靠性。(2)安全性:使用一個(gè)徹底與外網(wǎng)分離的內(nèi)部網(wǎng)絡(luò)作為clusternetwork,可以防止比如DDOS這樣的網(wǎng)絡(luò)攻擊。oad&ngr&non2X1DGE11IlOGE^fetnClusterNetworkbocdg]口是在單個(gè)網(wǎng)口帶寬不能荷足客白業(yè)務(wù)時(shí)使用,將兩個(gè):OC-E^□組成一八2CC-EH匚軟件兼容性oad&ngr&non2X1DGE11IlOGE^fetnClusterNetwork按常規(guī)來(lái)說(shuō),我們建議在較新的Linux發(fā)行版上部署Ceph;同樣,要選擇長(zhǎng)期支持的版本,當(dāng)前我們推薦:4.1.4orlater3.16.3orlater(rbddeadlockregressionin3.16.[0-2])NOTv3.15.*(rbddeadlockregression)3.14.*如果您堅(jiān)持用很舊的,可以考慮這些:3.10.*更詳盡的操作系統(tǒng)版本和內(nèi)核請(qǐng)參考:/start/os-recommendations/5.4.快速配置參考進(jìn)程類型硬件類型建議的量低標(biāo)淮ceph-osdProcessor最低一核200-500MB/S單核心1000-3000IOPS單核心結(jié)果是復(fù)制之前的結(jié)果結(jié)果可能會(huì)因?yàn)椴煌腃PU型號(hào)和Eph功能而不同(糾印碼池、壓鞘)ARM批理器可能會(huì)需蜜免多的核心實(shí)際性能取決于許務(wù)因表r包括磁盤、網(wǎng)絡(luò)、窘戶端吞吐量和延退。我門強(qiáng)烈建議遂行基準(zhǔn)測(cè)試RAM每個(gè)守護(hù)進(jìn)程4GB以上(越務(wù)越好)2-4GB可以正常工作(可能會(huì)很慢)低于2GE是不推薦的VolumeStorage每個(gè)守護(hù)進(jìn)程對(duì)應(yīng)一塊硬盤DB/WAL每個(gè)守護(hù)進(jìn)程對(duì)應(yīng)一個(gè)弟口分區(qū)C可選)hJetwork最少一塊千兆以上的網(wǎng)卡C萬(wàn)兆網(wǎng)卡是被推薦的)ceph-monProcessor最低一核RAM每個(gè)進(jìn)程2GB以上的內(nèi)存DiskSpace每進(jìn)程10GB以上的硬盤空間hJetwork最少一塊千兆以上的網(wǎng)卡ceph-mdsProcessor最低一核RAM每個(gè)進(jìn)程2GE以上的內(nèi)存DiskSpace每個(gè)進(jìn)程IMB以上的硬盤空間hletwork最少一塊千兆以上的網(wǎng)卡數(shù)據(jù)安全6.1.用戶Cephstoragecluster的認(rèn)證和授權(quán)默認(rèn)是啟用的。Ceph的客戶端用戶要么是獨(dú)立的個(gè)體用戶,要么是系統(tǒng)中的一個(gè)應(yīng)用,他們都使用ceph的客戶端與ceph存儲(chǔ)集群交互。Ceph的用戶可以是一個(gè)具體的人或系統(tǒng)角色(e.g.應(yīng)用程序),Ceph管理員通過(guò)創(chuàng)建用戶并設(shè)置權(quán)限來(lái)控制誰(shuí)可以訪問(wèn)、操作CephCluster、Pool或Objects等資源。認(rèn)證機(jī)制Ceph提供了兩種身份認(rèn)證方式:None和CephX。前者表示客戶端不需要通過(guò)密鑰訪問(wèn)即可訪問(wèn)Ceph存儲(chǔ)集群,顯然這種方式是不被推薦的。所以我們一般會(huì)啟用CephX認(rèn)證系統(tǒng),通過(guò)編輯ceph.conf開(kāi)啟采用cephx驗(yàn)證機(jī)制,每個(gè)用戶操作ceph時(shí)均需要一個(gè)表達(dá)身份的Keyring文件。當(dāng)我們?cè)赾eph-deploy節(jié)點(diǎn)上操作ceph命令時(shí),系統(tǒng)隱含的認(rèn)為我們是管理員,意即在/etc/ceph/目錄下有一個(gè)ceph.client.admin.keyring,對(duì)于其他用戶來(lái)說(shuō),若需要通過(guò)cephx驗(yàn)證,必須為每個(gè)用戶創(chuàng)建不同的代表身份的keyring文件,此文件不僅說(shuō)明了用戶名,還標(biāo)記了用戶所具備的權(quán)限。ClientMonitorauthenticatetransmitenciyptedsessionkeygenerateandentryClientMonitorauthenticatetransmitenciyptedsessionkeygenerateandentryptsessionkeydeciyptsessionkeyreq.ticketgenerateandencryptticketdeciyptticket用戶通過(guò)客戶端向MON發(fā)起請(qǐng)求??蛻舳藢⒂脩裘麄鬟f到MON。MON對(duì)用戶名進(jìn)行檢查,若用戶存在,則通過(guò)加密用戶密鑰生成一個(gè)sessionkey并返回客戶端??蛻舳送ㄟ^(guò)共享密鑰解密sessionkey,只有擁有相同用戶密鑰環(huán)文件的客戶端可以完成解密。客戶端得到sessionkey后,客戶端持有sessionkey再次向MON發(fā)起請(qǐng)求MON生成一個(gè)ticket,同樣使用用戶密鑰進(jìn)行加密,然后發(fā)送給客戶端??蛻舳送瑯油ㄟ^(guò)共享密鑰解密得到ticketo往后,客戶端持有ticket向MON、OSD發(fā)起請(qǐng)求。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論