版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
羅韓梅騰訊專家工程師多年分布式系統(tǒng)研發(fā)經(jīng)驗(yàn),對大數(shù)據(jù)、云計(jì)算、容器等有深刻理解。從事過自研容平臺,大數(shù)據(jù)云平臺,以及面向公司內(nèi)外的通用容器云平臺,從無到有,從自研到態(tài),從公司內(nèi)部平臺到同時(shí)面向ToB市場。目前專注于容器云平臺領(lǐng)域,負(fù)責(zé)騰器云平臺。自研容器云平臺騰訊大數(shù)據(jù)云通用云平臺2009年-2013年2014年-今2015年-今?架構(gòu)簡介?企業(yè)級容器云解決方案?Next企業(yè)級容器云架構(gòu)企業(yè)級容器云解決方案?全組件自動化部署、統(tǒng)一配置管理、多策略灰度升級?提供可視化、自動化的運(yùn)維能力,降低使用者的人力成本和學(xué)習(xí)成本?所有組件無單點(diǎn);?平臺本身支持熱升級;?組件自身HA機(jī)制,如docker;?多地域多可用區(qū)的容災(zāi)設(shè)計(jì)?管理機(jī)掛掉:對應(yīng)用無影響?計(jì)算節(jié)點(diǎn)掛掉:跨機(jī)遷移?PodHash發(fā)生變化?Container名稱發(fā)生變化,點(diǎn)分隔改為了下劃線分隔?容器標(biāo)簽發(fā)生變化?健康探針①存活探針②就緒探針?負(fù)載均衡?重啟機(jī)制①區(qū)分異常原因②本地重啟/跨機(jī)重啟?黑名單機(jī)制pause容器的標(biāo)簽=POD改為io.kubernetes.docker.type=podsandboxio.kubernetes.container.restartCount改為annotation.io.kubernetes.container.restartCoun?Cgroup目錄結(jié)構(gòu)發(fā)生變化,新增Pod層級災(zāi)?集群核心數(shù)據(jù)的備份和恢復(fù)①Etcd②核心數(shù)據(jù)庫?云盤機(jī)制保護(hù)應(yīng)用數(shù)據(jù)SSpaceDiskIO(includebufferIO)NetworkTX一次現(xiàn)網(wǎng)事故一次現(xiàn)網(wǎng)事故一個(gè)用戶需求分布在四個(gè)地區(qū):北京、天津、成都、深圳。降低成本。做合并。問題:容器只能管理CPU和內(nèi)存,不能對網(wǎng)絡(luò)和磁盤IO做管理,導(dǎo)致在線應(yīng)用受離線業(yè)務(wù)影響。PUPUMemoryPU資源管理NetNetwork設(shè)計(jì)目標(biāo)設(shè)計(jì)目標(biāo)下圖是兩個(gè)進(jìn)程都拼命爭搶網(wǎng)絡(luò)帶寬時(shí)的效果。兩個(gè)進(jìn)程的?在某個(gè)cgroup網(wǎng)絡(luò)繁忙時(shí),能保證其設(shè)定配額不會被其他cgroup擠占?在某個(gè)cgroup沒有用滿其配額時(shí),其他cgroup可以自動使用其空閑的部分帶寬?在多個(gè)cgroup分享其他cgroup的空閑帶寬時(shí),優(yōu)先級高的優(yōu)先;優(yōu)先級相同?盡量減少為了流控而主動丟包?Cgroup區(qū)分(標(biāo)記):在正常處理流程中,報(bào)文查找到目標(biāo)socket結(jié)構(gòu)之后,根據(jù)socket的ownerprocess來確定cgroup158項(xiàng)告警87項(xiàng)指標(biāo)采集4種告警方式——可隨時(shí)修改短信短信EmaiEmail微微信自研容器網(wǎng)絡(luò)解決方案Galaxy(CNI網(wǎng)絡(luò)插件+調(diào)度器插件+控制器),面向所有場景:務(wù)、公有云…??不同的應(yīng)用可以選擇不同的網(wǎng)絡(luò)模式?同一主機(jī)的不同容器可以選擇不同的網(wǎng)絡(luò)模式2500022190214612000042620072616828554850004861005000025000221902146120000426200726168285548500048610050000Overlay方案性能TCP_RR(r/s)TCP_CRR(r/s)hostvxlanipipgatewayUnderlay方案性能25000235402212721007200000836876757231TCP_RR(64)TCPTCP_RR(64)HostBridgeNATwayOverlay?Bridge方式僅比Host差6%,一般overlay比Host差20~40%?SRIOV方式比BridgeCPU下降38.3%,包量+6%Docker、Docket、GaiastackP2PAgent下載鏡像對比?鏡像下載引入BT協(xié)議?對DockerDaemon零入侵?優(yōu)化blob下載策略發(fā)表論文:《FID:AFasterImageDistributionSystemforDockerPlatform》2017IEEE2ndInternationalWorkshopsonFASWRegistry與P2PAgent流量占比對比?資源閾值?自定義指標(biāo)閾值??資源閾值?自定義指標(biāo)閾值?實(shí)例個(gè)數(shù)范圍?周期性自動伸縮PodPod微服務(wù)/通用服務(wù)AutoscalercontrollerCloudAPI能力擴(kuò)展:彈性伸縮APP彈性伸縮:?主動擴(kuò)縮容?擴(kuò)容可以指定新版本?縮容可以定點(diǎn)裁撤PodprometheusMetrics-server?監(jiān)控節(jié)點(diǎn)資源使用率?自動遷移低負(fù)載Node上的Pod,完成縮容?一定數(shù)量Pod因資源不足pending時(shí),自動擴(kuò)容ApiserverAutoscalercontrollercluster-agent能力擴(kuò)展:灰度升級?在GPU集群中有一個(gè)長時(shí)間服務(wù)應(yīng)用prd-cloud-str-003-p40-cluster1。該應(yīng)用有25個(gè)實(shí)例,每個(gè)實(shí)例需要2個(gè)GPU卡。用?當(dāng)該服務(wù)要升級新的版本時(shí),如果對所有實(shí)例停止,則會造成服務(wù)中斷;如果采用滾動升級,無法保證升級過程是否有異常,以及無法充分驗(yàn)證新版本的可用性(即使經(jīng)過了測試階段的測試)。?通常采用灰度升級的方式:即選擇某一個(gè)或N個(gè)實(shí)例先升級到新版本,在充分穩(wěn)定驗(yàn)證后,再考慮升級其他實(shí)例,而該灰度的過程可以分為任意批次。有時(shí)為了驗(yàn)證多個(gè)版本,一個(gè)應(yīng)用內(nèi)也可以同時(shí)又多個(gè)版本并行存在。充分保證現(xiàn)網(wǎng)的服能力升級:灰度升級如左圖所示,對某一個(gè)實(shí)例從v7升級到v8版本。?2018-02-0611:46:38V7版本開時(shí)候運(yùn)行?2018-02-0909:33:02對該實(shí)例做灰度升級,從V7版本升級到V8版本?2018-02-0909:33:02開始pullV8版本的imagePS:灰度升級屬于原地升級,因此不需要重新過調(diào)度,升級的效率每次升級可以選擇要升級的實(shí)例個(gè)數(shù)以及具體哪些(個(gè))實(shí)例。內(nèi)置云盤本地磁盤container共享云盤container空間上報(bào)quota權(quán)限管理containercontainercontainercontainer內(nèi)置云盤本地磁盤container共享云盤container空間上報(bào)quota權(quán)限管理containercontainercontainercontainer在線擴(kuò)容能力擴(kuò)展:存儲場景本地磁盤?基于本機(jī)磁盤?上報(bào)至調(diào)度器?作為資源進(jìn)行調(diào)度cephcephRBD物理硬盤cephFScephRBD本地磁盤:延時(shí)低,不可遷移共享云盤:云存儲,多容器共享,同時(shí)讀寫?共享云盤基于cephFS?騰訊內(nèi)部ceph版本,微信同款發(fā)表論文:《發(fā)表論文:《GaiaScheduler:AKubernetes-basedSchedulerFramework》TheIEEEISPA2018(16thIEEEInternationalSymposiumonParallelandDistributedProcessingwithApplications)異異構(gòu)GPU統(tǒng)一管理多種調(diào)度策略,多租戶管理GPU卡與CPU核自動綁定支持單機(jī)多卡和多機(jī)多卡分布式存儲Ceph海量小數(shù)據(jù)讀寫優(yōu)化不同用戶配額管理任務(wù)帶盤遷移智能拓?fù)涓兄狦PU卡拓?fù)涓兄Y源訪問代價(jià)樹決策資源調(diào)度算法解決碎片化資源-訪問代價(jià)樹撲節(jié)點(diǎn)中存儲3個(gè)信息:?可用的GPU資源數(shù)(如果下屬n張GPU卡則為n)?節(jié)點(diǎn)通信開銷(非GPU節(jié)點(diǎn)為0)?可用的GPU資源數(shù)(GPU節(jié)點(diǎn)為1)?節(jié)點(diǎn)通信開銷(數(shù)字越小,訪問代價(jià)越低)SingularandlinkFragmentGaiaGPUSharingGPUsinContainerClouds》TheIEEEISPA2018(16thIEEEInternationalSymposiumonParallelandDistributedProcessingwithApplications)GPU使用方式VCUDA在vm中構(gòu)建wrapperlibrary以攔截GPU調(diào)用并將這些調(diào)用重定向到宿主機(jī)執(zhí)行Amazon將設(shè)備直接掛在到vm中在Zen的hypervisor層實(shí)現(xiàn)了全虛擬化。為了隔離運(yùn)行在物理PUvmGPU部分分配給單個(gè)VM。通過將GPU設(shè)備及運(yùn)行時(shí)的庫轉(zhuǎn)為volume掛載到容器中實(shí)現(xiàn)了容器與驅(qū)動的解耦。但是一個(gè)GPU設(shè)備僅能掛載到一個(gè)容器中,不支持容器間共享GPU設(shè)備nvGPU僅支持內(nèi)存資源的共享且僅處理單個(gè)GPUGPU:?需要特定的硬件設(shè)備?不支持容器共享?僅支持內(nèi)存資源虛擬化?僅支持單個(gè)GPU卡采用DevicePlugin:?GPU資源的發(fā)現(xiàn)?為任務(wù)分配相應(yīng)的硬件資源及配置容器運(yùn)行時(shí)環(huán)境transparent.GaiaGPU不應(yīng)修改Kubernetes代碼或容器鏡像以共享GPU。使用共享GPU執(zhí)行應(yīng)用程序應(yīng)該就像在物理GPU上執(zhí)行一樣。Performance.GaiaGPU應(yīng)當(dāng)保證vGPU的性能與原生GPU性能相近。Isolation.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)大三(歷史學(xué))中國近代史試題及答案
- 2025年中職(烹飪工藝與營養(yǎng))烘焙技術(shù)基礎(chǔ)試題及答案
- 2026年紅色文化在開工儀式中的重要性
- 2025年中職休閑農(nóng)業(yè)經(jīng)營與管理(休閑農(nóng)業(yè)基礎(chǔ))試題及答案
- 2025年中職家政服務(wù)(家庭服務(wù)技能)試題及答案
- 2025年大學(xué)草坪(草坪建植養(yǎng)護(hù))試題及答案
- 2025年高職(建筑設(shè)備工程技術(shù))建筑設(shè)備施工試題及答案
- 2025年中職(商務(wù)英語函電綜合實(shí)訓(xùn))撰寫實(shí)操試題及答案
- 2025年中職(畜禽生產(chǎn)技術(shù))家畜養(yǎng)殖技能測試題及答案
- 2026年農(nóng)村通信服務(wù)(服務(wù)模式)試題及答案
- QGDW12505-2025電化學(xué)儲能電站安全風(fēng)險(xiǎn)評估規(guī)范
- 2025四川眉山市國有資本投資運(yùn)營集團(tuán)有限公司招聘50人筆試參考題庫附帶答案詳解
- 2024年山東濟(jì)南中考滿分作文《為了這份繁華》
- 2025年鐵嶺衛(wèi)生職業(yè)學(xué)院單招職業(yè)傾向性測試題庫新版
- 《煤礦安全生產(chǎn)責(zé)任制》培訓(xùn)課件2025
- 項(xiàng)目進(jìn)度跟進(jìn)及完成情況匯報(bào)總結(jié)報(bào)告
- 2025年常州機(jī)電職業(yè)技術(shù)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點(diǎn)含答案解析
- 民間融資居間合同
- 2024-2025學(xué)年冀教版九年級數(shù)學(xué)上冊期末綜合試卷(含答案)
- 《智能網(wǎng)聯(lián)汽車車控操作系統(tǒng)功能安全技術(shù)要求》
- 公司綠色可持續(xù)發(fā)展規(guī)劃報(bào)告
評論
0/150
提交評論