英特爾中國(guó)公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐_第1頁
英特爾中國(guó)公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐_第2頁
英特爾中國(guó)公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐_第3頁
英特爾中國(guó)公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐_第4頁
英特爾中國(guó)公有云和互聯(lián)網(wǎng)創(chuàng)新實(shí)踐_第5頁
已閱讀5頁,還剩320頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇構(gòu)建云創(chuàng)新基石云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇2云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇2071317263035414548525704前言騰訊云依托傲騰?持久內(nèi)存深度優(yōu)化云硬盤CBS產(chǎn)品,打造極速云存儲(chǔ)體驗(yàn)百度智能云基于英特爾?IPU打造全新計(jì)算平臺(tái),提升云平臺(tái)管理能力更兼顧成本效益字節(jié)跳動(dòng)采用英特爾?RDT和英特爾?PRM緩解底層硬件干擾,提升混布集群性能京東利用英特爾MCA+MFP降低內(nèi)存故障下的宕機(jī)率,構(gòu)建穩(wěn)定、高效的云服務(wù)青云科技采用英特爾軟硬件升級(jí)新一代QKCP企業(yè)級(jí)容器平臺(tái),加速企業(yè)云原生落地金山云采用英特爾?To?no?可編程交換芯片實(shí)現(xiàn)高帶寬、低延遲的運(yùn)營(yíng)商線路網(wǎng)絡(luò)轉(zhuǎn)發(fā)快手以英特爾CPU+FPGA+PMEM為底座,基于LaoFeNDP架構(gòu)提供多元算力OPPO基于英特爾?QAT加速云安全網(wǎng)關(guān)HTTP3-QUIC,顯著降低網(wǎng)絡(luò)時(shí)延AI65697276798465697276798488阿里巴巴采用英特爾多樣化硬件,構(gòu)建開源稀疏模型訓(xùn)練和預(yù)測(cè)引擎DeepRec螞蟻集團(tuán)基于英特爾?SGX和英特爾?DLBoost加速端到端PPML解決方案美團(tuán)基于至強(qiáng)?可擴(kuò)展平臺(tái)深度優(yōu)化TensorFlow,提升推薦系統(tǒng)性能壹沓科技基于至強(qiáng)?+OpenVINO?,加速基于RPA+AI的智能平臺(tái)創(chuàng)新搜狐采用至強(qiáng)?可擴(kuò)展處理器提升AI推理58同城使用英特爾?傲騰?持久內(nèi)存打造高經(jīng)濟(jì)性的Redis與云搜系統(tǒng)10693綜述——至強(qiáng)10697騰訊云使用至強(qiáng)?可擴(kuò)展處理器,實(shí)現(xiàn)HTTPS性能優(yōu)化,提升安全服務(wù)OPPO基于英特爾?服務(wù)器GPU打造云游戲平臺(tái),全面提升游戲體驗(yàn)贊奇科技采用英特爾?oneAPI渲染工具包,加速三維視覺計(jì)算效率蔚領(lǐng)時(shí)代、硅基大陸采用英特爾CPU+GPU,提供高密度、流暢的游戲云服務(wù)愛奇藝引入傲騰?+SPDK+OCF深度優(yōu)化MySQL性能,提供優(yōu)質(zhì)客戶體驗(yàn)云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇3Contents目錄124125云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇3Contents目錄124125126126127127128129130132134135136137139139140140142142143143144144145145146146147147148149英特爾?oneAPIDPC++/C++編譯器英特爾?VTune?Ampli?er英特爾?高速緩存加速軟件(英特爾?CAS)存儲(chǔ)性能開發(fā)套件(SPDK)ClearLinuxKataContainerStarlingXKubernetes英特爾?OneAPI工具套件英特爾?DAAL技術(shù)篇以數(shù)據(jù)為中心的技術(shù)篇以數(shù)據(jù)為中心的(英特爾?DLBoost)技術(shù)(英特爾?AVX-512)英特爾?SpeedSelect技術(shù)(英特爾?SST)英特爾?軟件防護(hù)擴(kuò)展(英特爾?SGX)英特爾?數(shù)據(jù)中心GPUFlex系列英特爾?服務(wù)器GPU英特爾?FPGA和SoCFPGA英特爾?傲騰?持久內(nèi)存200系列英特爾?傲騰?固態(tài)盤P5800XPonteVecchio英特爾?基礎(chǔ)設(shè)施處理器(IPU)和SmartNICBigDL英特爾?MKL-DNNOpenVINO?工具套件面向英特爾?架構(gòu)優(yōu)化的Hadoop和Spark英特爾?Crypto-NI英特爾?oneVPLSVT云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇 44云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇當(dāng)今時(shí)代,數(shù)字技術(shù)正作為世界科技革命和產(chǎn)業(yè)變革的先導(dǎo)力量,日益融入經(jīng)濟(jì)社會(huì)發(fā)展各領(lǐng)域的全過程,為生產(chǎn)方式、生活方式和社會(huì)治理方式帶來顛覆性改變。同時(shí),這一輪新的科技革命和產(chǎn)業(yè)變革又推動(dòng)數(shù)字技術(shù)快速發(fā)展,也將見證技術(shù)的真正魔力,讓五大超級(jí)技術(shù)力量,也就是無所不在的計(jì)算、無處不在的連接、從云到端的基礎(chǔ)設(shè)施、人工智能,以及傳感與感知相互增強(qiáng)和賦能,共同驅(qū)動(dòng)線上服務(wù)這樣的新模式、新場(chǎng)景變得普及,一系列面向生產(chǎn)與管理效率提升、商業(yè)與技術(shù)模式創(chuàng)新、用戶與服務(wù)體驗(yàn)優(yōu)化的數(shù)字化、智能化轉(zhuǎn)型新方案,諸如算網(wǎng)融合、綠色節(jié)能、分布式數(shù)據(jù)庫(kù)、分布系統(tǒng)化的基礎(chǔ)設(shè)施以及端到端的技術(shù)能力,從而成為用戶關(guān)鍵業(yè)務(wù)的核心內(nèi)驅(qū)力,也成為各云服務(wù)提供商和各企業(yè)之間贏得競(jìng)爭(zhēng)的關(guān)鍵籌碼。但這顯然需要一系列強(qiáng)勁且可應(yīng)對(duì)多樣化負(fù)載的計(jì)算平臺(tái)和英特爾的產(chǎn)品與技術(shù),無疑是啟動(dòng)并引領(lǐng)這些引擎的可靠選擇。圍繞至強(qiáng)?可擴(kuò)展平臺(tái),英特爾所提供的豐富軟、硬件產(chǎn)品體系及創(chuàng)新技術(shù)實(shí)現(xiàn),不僅涵蓋了云服務(wù)中面向計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的全量基礎(chǔ)這些軟、硬件產(chǎn)品及技術(shù)實(shí)現(xiàn),既包括跨不同架構(gòu)的算力和硬件加速設(shè)備(如CPU、GPU、IPU、FPGA、以太網(wǎng)產(chǎn)品及其它打破封閉式編程模型的限制,也包含加速卓越性能和生產(chǎn)力交付的軟件與框架(如英特爾?oneAPI工具套件、OpenVINO?工具套件、英特爾?MediaSDK及其它)。通過分層的軟件棧構(gòu)建和優(yōu)化來充分發(fā)揮底層硬件技術(shù)的威力,兼具多云環(huán)境的可靠性、靈活性和安本白皮書不僅介紹了英特爾推出的一系列軟硬件產(chǎn)品組合,還展示了與阿里云、騰訊云、百度云、火山引擎、京東云、快手、金山云、青云、OPPO等合作伙伴,面向云數(shù)據(jù)中心基礎(chǔ)設(shè)施、人工智能、互聯(lián)網(wǎng)與媒體服務(wù)等應(yīng)用場(chǎng)景的創(chuàng)新方案與成功案例。通過這些全球領(lǐng)先的技術(shù)合作成果,可以了解展望未來,英特爾將持續(xù)與合作伙伴、開發(fā)者和用戶一起,共同挖掘蘊(yùn)含于方寸之間的無窮硅力量,55云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇66■阿里巴巴■中國(guó)電信■AWS■阿里巴巴■中國(guó)電信■AWS■華為■騰訊■其他9.0%云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇724.6%34.5%8.1%10.3%11.6%11.0%依托于云服務(wù),各種前沿技術(shù)落地到了更多的數(shù)字化場(chǎng)景。在此進(jìn)程中,企業(yè)多種新需求、新機(jī)會(huì)也被激發(fā)。數(shù)據(jù)中心與云服務(wù)提供商必須更加精準(zhǔn)且前瞻性地洞察到當(dāng)前行業(yè)正在發(fā)生的改變,并通過基礎(chǔ)設(shè)施架構(gòu)優(yōu)化、技術(shù)與服務(wù)創(chuàng)新等方了數(shù)據(jù)的海量集聚以及對(duì)于云服務(wù)需求的快速增長(zhǎng)。IDC發(fā)布的《中國(guó)公有云服務(wù)市場(chǎng)(2022上半年)跟蹤》報(bào)告顯示1,2022上半年中國(guó)公有云服務(wù)市場(chǎng)整體規(guī)模達(dá)到165.8億美元,其中IaaS(InfrastructureasaService,基礎(chǔ)設(shè)施即服務(wù))市場(chǎng)同比增長(zhǎng)27.3%,PaaS(PlatformasaService,平臺(tái)即服務(wù))市場(chǎng)同比增速為45.4%;同時(shí)有報(bào)告預(yù)測(cè)未來5年,中國(guó)公有云市場(chǎng)會(huì)以復(fù)合增長(zhǎng)率30.9%繼續(xù)高速增市場(chǎng)規(guī)模將達(dá)到1,057.6億美元,中國(guó)公有云服務(wù)市場(chǎng)的全球占比將從2021年的6.7%提升到9.9%2。圖1中國(guó)TOP5公有云IaaS廠商市場(chǎng)份額占比(2022H1)在云計(jì)算市場(chǎng)快速發(fā)展的同時(shí),云服務(wù)也走向細(xì)分和深化,整個(gè)產(chǎn)業(yè)在技術(shù)、應(yīng)用、管理等方面呈現(xiàn)出新的發(fā)展特點(diǎn)。比如隨著傳統(tǒng)行業(yè)、政企行業(yè)對(duì)云需求的高增長(zhǎng),以及更多的企業(yè)選擇深度用云而不是簡(jiǎn)單遷移上云,其不僅帶來了更多云基礎(chǔ)資源和云平臺(tái)產(chǎn)品的消耗,對(duì)安全、性能以及時(shí)延等提出了更算力服務(wù)等成為目前備受關(guān)注的領(lǐng)域,驅(qū)動(dòng)著云服務(wù)廠商加大對(duì)云產(chǎn)品性價(jià)比、安全、技術(shù)優(yōu)化等的投資,促進(jìn)云服務(wù)進(jìn)入26.3%33.5%■阿里巴巴■騰訊■AWS■華為■中國(guó)電信■其他9.4%10.7%圖2中國(guó)TOP5公有云IaaS+PaaS廠商市場(chǎng)份額占比(2022H1)■云上負(fù)載日趨動(dòng)態(tài)化、多元化數(shù)據(jù)援引自:/s/QFNKwfjzDvknPLahaUZWnw數(shù)據(jù)援引自:/news/d_1o3u5a5gq4rl1.html數(shù)據(jù)援引自/s/QFNKwfjzDvknPLahaUZWnw云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇8元化、更敏捷、更安全的方向發(fā)展5。到2024年將會(huì)有50%的組織采用多云數(shù)據(jù)治理工具,使用統(tǒng)一的數(shù)據(jù)獲取、遷移,安全和保護(hù)策略。隨著到2025年,云計(jì)企業(yè)在全面數(shù)字化轉(zhuǎn)型的過程中,其業(yè)務(wù)創(chuàng)依賴于任何時(shí)間任何地點(diǎn)盡快地開發(fā)和使用創(chuàng)新技術(shù)和服務(wù)8。云服務(wù)正在逐步成為市場(chǎng)“新寵”。據(jù)IDC在2022年7月發(fā)布的市場(chǎng)分析報(bào)告稱6,2021下半年,中國(guó)專有云服務(wù)市場(chǎng)規(guī)模已經(jīng)達(dá)130億元人民幣,同比增長(zhǎng)27.2%;顯示了私有云作為集中公有云彈性擴(kuò)展、配置便利以及私有云安全提供更加安全、合規(guī)、符合行業(yè)屬性的解決方案7。借由能夠?qū)崿F(xiàn)公有云以及企業(yè)自身本地和邊緣計(jì)算存儲(chǔ)資源統(tǒng)■混合云/多云快速增長(zhǎng)業(yè)自身本地和邊緣計(jì)算存儲(chǔ)資源統(tǒng)一管理的新型混合云與多云IT基礎(chǔ)設(shè)施進(jìn)行混合搭建,來滿足企業(yè)在新時(shí)期的IT需求,也■分布式與算力服務(wù)漸露頭角也讓云服務(wù)逐漸向算力服務(wù)演進(jìn)。而算力服務(wù)促進(jìn)算力服務(wù)普惠化9。同時(shí),隨著企業(yè)希望通過邊緣云實(shí)現(xiàn)應(yīng)■云原生推動(dòng)基礎(chǔ)設(shè)施全面升級(jí)服務(wù)器無感知技術(shù)Serverless)、編排及管理技術(shù)(如基礎(chǔ)設(shè)施即代碼IaC)、安全技術(shù)、監(jiān)測(cè)分析技術(shù)(如擴(kuò)展包過濾器能夠有力支撐企業(yè)組織和流程、架構(gòu)和設(shè)計(jì)、技面覆蓋邊緣自治、混合多云、云邊一體的典型資源監(jiān)控、日志、審計(jì)能力延伸至混合多云架構(gòu)。也是如欲了解更多詳情請(qǐng)?jiān)L問:/getdoc.jsp?containerId=prCHC48774222數(shù)據(jù)援引自:/5G/162/726009662.shtml如欲了解更多詳情請(qǐng)?jiān)L問:/getdoc.jsp?containerId=CHC48746022&pageType=PRINTFRIENDLY如欲了解更多詳情請(qǐng)查閱:IDCFutureScape:2022年中國(guó)云計(jì)算市場(chǎng)十大預(yù)測(cè)如欲了解更多詳情請(qǐng)查閱:中國(guó)信通院云計(jì)算白皮書(2022年)云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇9由云原生、分布式、專有云、混合云、云安全、算力服務(wù)等趨勢(shì)驅(qū)動(dòng)的云市場(chǎng)變革,為云與數(shù)據(jù)中心發(fā)展帶來了巨大且全新高度依賴網(wǎng)絡(luò)質(zhì)量,同時(shí)微服務(wù)等云原生技術(shù)架構(gòu)的采用,讓應(yīng)用之間存在錯(cuò)綜復(fù)雜的依賴關(guān)系,加之云上系統(tǒng)的故障率會(huì)隨設(shè)備的增加而呈指數(shù)級(jí)增長(zhǎng),使得單一節(jié)點(diǎn)問題可能會(huì)被無限放大,給日常運(yùn)行過程帶來不可避免的異常狀況。此外,新舊系統(tǒng)的共存和過渡也帶來潛在風(fēng)險(xiǎn),在云遷移過程中如何做好新舊系統(tǒng)共存狀態(tài)下的穩(wěn)定性保障成為重要命題,尤其是用戶核心業(yè)務(wù)系統(tǒng)上云用云,往往對(duì)運(yùn)行連續(xù)性要求高、并發(fā)請(qǐng)求量大,且業(yè)務(wù)激增隨機(jī)性強(qiáng),對(duì)云上系統(tǒng).跨多種平臺(tái)的可擴(kuò)展性與敏捷性:為了進(jìn)一步提升敏捷性,用戶常常希望應(yīng)用負(fù)載能夠跨越多種云平臺(tái)進(jìn)行流動(dòng)、調(diào)度與分配,因此實(shí)現(xiàn)公有云、私有云、混合云等多種平臺(tái)的靈活擴(kuò)展,提供一致的跨云體驗(yàn)就尤為重要。這不僅需要交付具有自動(dòng)化、自主運(yùn)行和管理功能的企業(yè)級(jí)云基礎(chǔ)設(shè)施,還另外,軟件定義基礎(chǔ)設(shè)施(SoftwareDe?nedInfrastructure,現(xiàn)性能、服務(wù)質(zhì)量(QualityofService,QoS)和總擁有成本(TotalCostofOwnership,TCO)的輕松調(diào)配,以滿足基礎(chǔ).支持AI、數(shù)據(jù)分析等新型負(fù)載:IDC在《中國(guó)人工智能與大數(shù)據(jù)技術(shù)現(xiàn)狀及趨勢(shì)分析,2022》研究報(bào)告中指出10,中國(guó)業(yè)實(shí)踐中不斷迭代,服務(wù)商正聚焦于數(shù)據(jù)智能決策、數(shù)據(jù)智能服務(wù)以及AI增強(qiáng)等未來的市場(chǎng)趨勢(shì),幫助用戶構(gòu)建統(tǒng)一的.應(yīng)對(duì)低碳發(fā)展帶來的挑戰(zhàn):2021年,碳達(dá)峰、碳中和被首次寫入中國(guó)政府工作報(bào)告,而數(shù)據(jù)中心作為一個(gè)高耗能且能耗仍在快速增長(zhǎng)的行業(yè),實(shí)現(xiàn)低碳化發(fā)展至關(guān)重要。工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》提出堅(jiān)持綠色發(fā)展理念,全面提高新型數(shù)據(jù)中心能源利用效率;發(fā)改委等部門發(fā)布《深入開展公共機(jī)構(gòu)綠色低碳引領(lǐng)行動(dòng)促進(jìn)碳達(dá)峰實(shí)施方案》,更是明確提出新建大型、超大型數(shù)據(jù)中心能效目標(biāo),驅(qū)動(dòng)數(shù)據(jù)中心行業(yè)加速優(yōu)化算力、存儲(chǔ)景和商業(yè)模式11,幫助企業(yè)管理應(yīng)用、協(xié)作應(yīng)用等工作負(fù)載順利?將芯片解決方案作為跨數(shù)據(jù)中心基礎(chǔ)設(shè)施的控制點(diǎn),變革基支持在單個(gè)計(jì)算實(shí)例中進(jìn)行協(xié)同工作,并通過共享內(nèi)存和存專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能,提供全面的基?部署優(yōu)化的開源軟件框架,采用針對(duì)硬件架構(gòu)和平臺(tái)進(jìn)行優(yōu)化的云平臺(tái)管理和資源編排軟件,并通過軟件對(duì)常見的工作?將安全功能集成到基礎(chǔ)設(shè)計(jì)中,確保無論數(shù)據(jù)駐留在何處,英特爾一直走在超大規(guī)模云服務(wù)前沿,擁有廣泛、優(yōu)化的軟件生態(tài),并兼具跨多云環(huán)境的可靠性、靈活性和安全性。英特爾與全球領(lǐng)先云服務(wù)提供商開展的聯(lián)合研發(fā)及業(yè)務(wù)合作,已經(jīng)交付了數(shù)代專為云規(guī)模打造和優(yōu)化的定制芯片,幫助實(shí)現(xiàn)從邊緣如欲了解更多詳情請(qǐng)?jiān)L問:/getdoc.jsp?containerId=CHC48744522&pageType=PRINTFRIENDLY/news/ziben/chany/79931.html如欲了解更多詳情請(qǐng)?jiān)L問:/cn/media-center/analyst-viewpoint云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇具備多項(xiàng)優(yōu)勢(shì),為各種云上負(fù)載提供一致的、經(jīng)優(yōu)化的性能,包括通過英特爾?深度學(xué)習(xí)加速(英特爾?DLBoost)、面向英特爾?架構(gòu)優(yōu)化的框架等實(shí)現(xiàn)的人工智能就緒;通過英特爾?傲騰?持久內(nèi)存實(shí)現(xiàn)的內(nèi)存計(jì)算;通過英特爾?AVX-512、架構(gòu)與軟件等加速的高性能計(jì)算;由英特爾?以太網(wǎng)、英特爾?QuickAssist技術(shù)(英特爾?QAT)、英特爾?數(shù)據(jù)直接I/O技術(shù)(英特爾?DDIO)等賦能的網(wǎng)絡(luò)能力;由英特爾?QAT、英特爾?傲騰?固態(tài)盤、英特爾?卷管理設(shè)備(器,包括新的指令集架構(gòu)和集成IP,能夠高效應(yīng)對(duì)人工智能、工作負(fù)載進(jìn)行優(yōu)化。同時(shí),通過全新的英特英特爾軟硬件組合構(gòu)建基礎(chǔ)設(shè)施基石英特爾軟硬件組合構(gòu)建基礎(chǔ)設(shè)施基石-多樣化硬件傳輸更快存儲(chǔ)更多混合云軟件和系統(tǒng)級(jí)優(yōu)化軟件和系統(tǒng)級(jí)優(yōu)化應(yīng)用優(yōu)化操作系統(tǒng)和編排層優(yōu)化基礎(chǔ)設(shè)施優(yōu)化AI框架及軟件工具數(shù)據(jù)處理與分析用框架及軟件工具媒體服務(wù)用軟件工具ClearLinuxStarlingXKataContainersKubernetes算力優(yōu)化存儲(chǔ)優(yōu)化網(wǎng)絡(luò)優(yōu)化英特爾通過平臺(tái)創(chuàng)新,為數(shù)據(jù)中心現(xiàn)代化構(gòu)建更新和更全面的架構(gòu)策略,提供新的產(chǎn)品。采用Intel7制程工藝的第四代英特爾?至強(qiáng)?可擴(kuò)展處理器,支持DDR5、PCIe5.0和CXL1.1,內(nèi)置全新的集成加速器,是迄今為止英特爾功能最豐富的至強(qiáng)?處理器,增強(qiáng)了其在人工智能、安全性等幾大關(guān)鍵數(shù)據(jù)中心領(lǐng)域的領(lǐng)導(dǎo)地位。與第三代至強(qiáng)?可擴(kuò)展處理器相比,可以更好地處理數(shù)多代虛擬化技術(shù)優(yōu)化和集成庫(kù),確??缭骗h(huán)境的無縫遷移。例如,配合虛擬化系統(tǒng),英特爾?虛擬化技術(shù)(英特爾?VT)可以提供實(shí)時(shí)遷移功能。ISV和用于測(cè)試、驗(yàn)證和優(yōu)化英特爾?至強(qiáng)?可擴(kuò)展處理器的開源項(xiàng)目可提供跨處理器的兼容性和擴(kuò)展性,針對(duì)常見的工作大量的英特爾?至強(qiáng)?可擴(kuò)展處理器已部署在當(dāng)今的云環(huán)境中,廣泛兼容當(dāng)前和未來的工作負(fù)載,可以實(shí)現(xiàn)出色的性能、可用性和可擴(kuò)展性。英特爾?至強(qiáng)?可擴(kuò)展處理器提供經(jīng)過優(yōu)化的性能和每核虛擬機(jī)密度,是數(shù)據(jù)中心的重要選擇。英特爾?至強(qiáng)?可擴(kuò)展處理器和英特爾?傲騰?持久內(nèi)存可幫助提高每核虛擬機(jī)密度,降低每核平均時(shí)延,打造高效的云和數(shù)據(jù)中心基英特爾與合作伙伴成立了機(jī)密計(jì)算聯(lián)盟,旨在提高在用數(shù)據(jù)的安全性。英特爾投資打造多層保護(hù),提供經(jīng)過驗(yàn)證的技術(shù),在不影響性能的情況下盡可能降低風(fēng)險(xiǎn)。例如,英特爾?SGX提供基于硬件的隔離和內(nèi)存加密,可 騰訊云與英特爾一起,以全新的存儲(chǔ)引擎設(shè)計(jì)和英特爾?傲騰?持久內(nèi)存重構(gòu)和優(yōu)化騰訊云的極速型固態(tài)盤CBS產(chǎn)品,并重構(gòu)數(shù)據(jù)落盤方案。新方案以更佳的帶寬、更低的時(shí)延和更高的每秒讀寫次數(shù),為性能密集型用通過搭載大容量、低延遲的英特爾通過搭載大容量、低延遲的英特爾?傲騰?持久內(nèi)存,百度推出全新一代用戶態(tài)單機(jī)存儲(chǔ)引擎,為百度離線與部分在線業(yè)務(wù)提供高效穩(wěn)定、低延遲、低成本、可擴(kuò)展的存儲(chǔ)服務(wù),挖掘數(shù)據(jù)價(jià)值。借力英特爾?IPU平臺(tái)參考設(shè)計(jì),百度智能云自研百度太行DPU1.0產(chǎn)品,有效提升云數(shù)據(jù)中心管理及虛擬化水平,并通過在裸金屬服字節(jié)跳動(dòng)利用英特爾字節(jié)跳動(dòng)利用英特爾?RDT和英特爾?PlatformResourceManager,緩解底層硬件資源對(duì)其混布集群的干擾云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇 OPPO基于第三代英特爾?至強(qiáng)?可擴(kuò)展處理器,以及通過與英特爾在節(jié)點(diǎn)管理與空閑電源優(yōu)化等方面的技術(shù)合作,京東云面向可持續(xù)數(shù)據(jù)中心,推出冷板液冷參考解決方案。實(shí)際部署表明,該方案可將數(shù)據(jù)中心PUE(PowerUsageE?ectiveness,電能利用效率)從1.3降低到1.1,每個(gè)服務(wù)器節(jié)點(diǎn)可節(jié)電約4%12。京東云在英特爾?C5000X-PL上研發(fā)了自主的智能網(wǎng)卡,并基于英特爾?至強(qiáng)?可擴(kuò)展處理器,推出了最新一代裸金屬云主機(jī)—京剛裸金屬云主機(jī),在提供了出色性能的同時(shí),具備分鐘級(jí)一鍵交付、無縫集成云產(chǎn)品和統(tǒng)一管理等特性,能夠出色支撐性能敏感型以及對(duì)于數(shù)據(jù)安全和隱私要求較高的應(yīng)用。同時(shí)通過引入英特爾?MCARecovery與MemoryFailurePrediction(MFP)技術(shù),結(jié)合京東云的故障恢復(fù)系統(tǒng),降低內(nèi)存錯(cuò)誤對(duì)青云科技攜手英特爾,采用英特爾多項(xiàng)技術(shù)與產(chǎn)品,推出新一代QKCP企業(yè)級(jí)容器平臺(tái)。基于全新升級(jí)的QKCP,英特爾憑借獨(dú)特的硬件黑科技助力青云科技打造更高效的企業(yè)級(jí)云原生容器平臺(tái),雙方攜手搭建測(cè)試環(huán)境,并通過軟硬件調(diào)優(yōu),在產(chǎn)品的硬件性能得到質(zhì)的提升的同時(shí),軟件層面的性能也得到了極大優(yōu)化,特別離解決方案,優(yōu)化KingStorage-BDG大數(shù)據(jù)存儲(chǔ)網(wǎng)關(guān)、KingStorage-OBS對(duì)象存儲(chǔ)性能,同時(shí)提升了平臺(tái)同時(shí)金山云與英特爾合作,在運(yùn)營(yíng)商線路網(wǎng)關(guān)中使用了基于P4可編程技術(shù)的英特爾?To?no?可編程交換芯而且大幅節(jié)省了服務(wù)器的部署規(guī)模需求,顯著降低了TCO。采用第三代英特爾?至強(qiáng)?可擴(kuò)展處理器和傲騰?持久內(nèi)存等產(chǎn)品,實(shí)施混合云平臺(tái)全面升級(jí),實(shí)現(xiàn)能耗、性能、可靠性以及成本等方面的優(yōu)化,為后續(xù)服務(wù)推廣和端到端云原生產(chǎn)品及解決方案等的部署提供了數(shù)據(jù)支持快手推出LaoFeNDP架構(gòu),實(shí)現(xiàn)異構(gòu)計(jì)算,采用英特爾?至強(qiáng)?可擴(kuò)展處理器、英特爾?Agilex?FPGA和為了解決QUIC引入后帶來的加解密性能問題,OPPO采用英特爾?QAT來進(jìn)行加速,使得HTTP3-QUIC的如欲了解更多詳情,請(qǐng)?jiān)L問:/content/www/cn/zh/now/data-centric/jd-cloud-liquid-cooling-solution.html如欲了解更多詳情,請(qǐng)?jiān)L問:/content/www/cn/zh/customer-spotlight/cases/oppo-cloud-security-gateway-http3-quic-based-qat.html儲(chǔ)系統(tǒng)作為業(yè)務(wù)數(shù)據(jù)的重要載體,其性能表現(xiàn)正受到越來越多的關(guān)注。作為全球領(lǐng)先的云服務(wù)提供商之一,騰訊云通過先進(jìn)的云硬盤CBS(CloudBlockStorage儲(chǔ)系統(tǒng)作為業(yè)務(wù)數(shù)據(jù)的重要載體,其性能表現(xiàn)正受到越來越多的關(guān)注。作為全球領(lǐng)先的云服務(wù)提供商之一,騰訊云通過先進(jìn)的云硬盤CBS(CloudBlockStorage)產(chǎn)品為眾多行業(yè)用戶提供高效、可靠的持久性塊存儲(chǔ)服務(wù),并在核心數(shù)據(jù)庫(kù)、內(nèi)容分發(fā)網(wǎng)絡(luò)(ContentDeliveryNetwork,CDN)及電商系統(tǒng)等用戶場(chǎng)景中獲得了廣為向用戶提供性能更為卓越的企業(yè)級(jí)云存儲(chǔ)服務(wù),騰訊云與深度合作伙伴英特爾一起,以全新的存儲(chǔ)引擎設(shè)計(jì)和英特爾?傲騰?持久內(nèi)存來重構(gòu)和優(yōu)化騰訊云的極速型固態(tài)盤CBS產(chǎn)品。驗(yàn)證表明,新的產(chǎn)品方案能以更佳的帶寬、更低的時(shí)延和更高的每秒讀寫次數(shù)(Input/OutputPerSecond,IOPS為性能密集型用戶業(yè)深度優(yōu)化云硬盤CBS產(chǎn)品,無論是正興的互聯(lián)網(wǎng)、大數(shù)據(jù)或人工智能等領(lǐng)域,還是傳統(tǒng)的金融、醫(yī)療和制造等行業(yè),云服務(wù)都已逐漸成為企業(yè)下一代IT基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)之一;而作為企業(yè)未來業(yè)務(wù)數(shù)據(jù)的重要載體,包括云硬盤在內(nèi)的云存儲(chǔ)產(chǎn)作為全球領(lǐng)先的云服務(wù)提供商之一,騰訊云一直以先進(jìn)的云硬盤CBS產(chǎn)品為用戶提供持久性塊存儲(chǔ)服務(wù)。典型的騰訊云CBS產(chǎn)品存儲(chǔ)系統(tǒng)架構(gòu)如圖5所示,由CBS接入、MDS控制集群以及C當(dāng)CBS接入收到CVM云主機(jī)集群的數(shù)據(jù)讀寫請(qǐng)求后,會(huì)根據(jù)MDS提供的集群路由信息,將讀寫請(qǐng)求轉(zhuǎn)發(fā)至對(duì)應(yīng)的CBS存儲(chǔ)節(jié)點(diǎn)中。云主機(jī)(CVM)集群 CBS接入MDS控制集群 CBS存儲(chǔ)集群MDS控制集群圖5騰訊云CBS產(chǎn)品存儲(chǔ)系統(tǒng)架構(gòu)依托于雄厚的技術(shù)積累以及持續(xù)不斷的技術(shù)優(yōu)化與演進(jìn),騰訊云CBS基于英特爾高性能NVMe固態(tài)盤和騰訊云創(chuàng)新自研存儲(chǔ)引擎的有效組合,CBS產(chǎn)品目前已可為用戶業(yè)務(wù)場(chǎng)景提供單盤最大110W的隨機(jī)IOPS性能,以及最高4Gbps每秒的帶寬能力;云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇通過高可用和容災(zāi)設(shè)計(jì),CBS產(chǎn)品能有效降低系統(tǒng)不可防止因篡改和誤刪導(dǎo)致數(shù)據(jù)丟失,保證在業(yè)務(wù)故障時(shí)能99.9999999%的數(shù)據(jù)可靠性;而借助優(yōu)異的數(shù)據(jù)復(fù)制CBS產(chǎn)品允許用戶根據(jù)業(yè)務(wù)需求自由配置存儲(chǔ)容量,按需擴(kuò)容。目前系統(tǒng)單磁盤容量最大可支持32TB,單個(gè)云主機(jī)累計(jì)可掛載640TB,使用戶能夠從容應(yīng)對(duì)TB/憑借以上優(yōu)勢(shì),騰訊云CBS產(chǎn)品在不同用戶業(yè)務(wù)場(chǎng)景,如高負(fù)載OLTP(On-lineTransactionProcessing,聯(lián)機(jī)事務(wù)處理)系統(tǒng),以及高并發(fā)的CDN網(wǎng)絡(luò)等中都具有不俗表現(xiàn),并獲得了從而與本地化存儲(chǔ)產(chǎn)生差異。這也是用戶在核心數(shù)據(jù)庫(kù)、CDN網(wǎng)絡(luò)等性能敏感場(chǎng)景中對(duì)采用CBS產(chǎn)品仍抱有遲疑的原因之一。核心業(yè)務(wù)數(shù)據(jù)讀寫需求正驅(qū)動(dòng)著騰訊云對(duì)極速型CBS產(chǎn)品開展進(jìn)一步深度優(yōu)化以提升性能,消除用戶對(duì)CBS產(chǎn)品的顧慮。針對(duì)CBS產(chǎn)品的架構(gòu)、存儲(chǔ)引擎以及硬件基礎(chǔ)設(shè)施,騰訊云加入了對(duì)遠(yuǎn)程直接數(shù)據(jù)存?。≧emoteDirectMemoryAccess,.加入輪詢、算法優(yōu)化、消除競(jìng)爭(zhēng)以及消除鎖等機(jī)制,優(yōu)化CBS存儲(chǔ)引擎;Kit)開發(fā)套件,優(yōu)化NVMe固態(tài)盤的IOPS和時(shí)延性能。品本身的時(shí)延性能也成為進(jìn)一步提升CBS產(chǎn)品整體性能的障礙?!昂诳萍肌?,以英特爾?傲騰?持久內(nèi)存作為新一代極速型CBS時(shí)延上的更高要求。極速型CBS產(chǎn)品打造更佳性能在騰訊云既有的極速型固態(tài)盤CBS產(chǎn)品設(shè)計(jì)中,數(shù)據(jù)的落盤過程如圖6所示,來自計(jì)算集群的云主機(jī)數(shù)據(jù)首先通過HASH找到或分配到對(duì)應(yīng)的塊節(jié)點(diǎn)(BlockNode)中,然后數(shù)據(jù)會(huì)被緩存到不同的Page。接下來,系統(tǒng)需要執(zhí)行兩次寫操作,一次將業(yè)務(wù)數(shù)據(jù)寫入固態(tài)盤對(duì)應(yīng)的數(shù)據(jù)區(qū);另一次是將元數(shù)據(jù)(Metadata)以LOG方式追加(wAppend)寫入固態(tài)盤中。DRAM內(nèi)存HASHBlockNodePageBlockNodeBlockNodeNode…PagePagePage(SPDK)數(shù)據(jù)區(qū)元數(shù)據(jù)區(qū)數(shù)據(jù)區(qū)圖6騰訊云既有極速型CBS產(chǎn)品數(shù)據(jù)落盤過程可以看到,這一過程需要對(duì)固態(tài)盤執(zhí)行兩次寫操作?;贜AND閃存構(gòu)建的固態(tài)盤寫入時(shí)延通常為數(shù)十微秒,因此兩次寫入過程就會(huì)帶來數(shù)十乃至近百微秒的時(shí)延來很小,但在端到端網(wǎng)絡(luò)時(shí)延可達(dá)1毫秒(1,000微秒)的5G時(shí)代,其顯然還是會(huì)制約CBS產(chǎn)品的整體性能。同時(shí),NAND固態(tài)盤數(shù)據(jù)寫入需要以塊為單位,且寫入前需要大幅降低了其使用壽命(即所謂的“寫入放以幫助CBS產(chǎn)品有效應(yīng)對(duì)以上問題。英特爾?傲騰?技術(shù)通過圖7英特爾?傲騰?持久內(nèi)存200系列與傳統(tǒng)DRAM內(nèi)存相比,由英特爾?傲騰?技術(shù)與其它英特爾其次,AppDirect模式下的英特爾?傲騰?持久內(nèi)存所具備的持久性特性,使之可以有效充當(dāng)CBS產(chǎn)品的數(shù)據(jù)持久化存儲(chǔ)DRAM內(nèi)存HASHBlockNodePageBlockNodeBlockBlockNode…PagePagePage英特爾?傲騰TM持久內(nèi)存元數(shù)據(jù)區(qū)Page數(shù)據(jù)區(qū)元數(shù)據(jù)區(qū)后臺(tái)Page下刷固態(tài)盤(SPDK)數(shù)據(jù)區(qū)圖8優(yōu)化后騰訊云極速型CBS產(chǎn)品數(shù)據(jù)落盤過程得益于英特爾?傲騰?持久內(nèi)存的創(chuàng)新特性,極速型CBS產(chǎn)品的數(shù)據(jù)落盤過程,如圖8所示得以優(yōu)化。首先來自計(jì)算集群的數(shù)據(jù)會(huì)通過HASH分配到對(duì)應(yīng)的塊節(jié)點(diǎn)并緩存到Page中,然時(shí)Page/Block的元數(shù)據(jù)也會(huì)原地更新到對(duì)應(yīng)的數(shù)據(jù)區(qū)中。有效降低CBS產(chǎn)品的TCO。在提供先進(jìn)存儲(chǔ)硬件產(chǎn)品的基礎(chǔ)上,持久內(nèi)存開發(fā)工具包(PersistentMemoryDevelopmentKit,PMDK)為CBS產(chǎn)以其中的libpmem庫(kù)為例,作為PMDK中的底層庫(kù),其支持映射到應(yīng)用程序的虛擬內(nèi)存空間進(jìn)行操作。通過同時(shí),libpmem庫(kù)也可以檢測(cè)處理器的特性而使用最為高效的持久化指令(例如CLWB、CLFHASHOPT等)將數(shù)據(jù)寫入到持久內(nèi)存中。CLWB指令具有并發(fā)能力,同時(shí)可在刷新數(shù)據(jù)后仍然保證處理器緩存有效。除此之外,libpmem還封裝了NTW(NonTemporalWrite)指令,該指令能利用寫合并方式來繞過處理器緩存(Cache),直接將數(shù)據(jù)從StoreBu?er中寫入內(nèi)存控制器的WPQ中,從而提高性能。得益于以上特性,libpmem庫(kù)不僅能以豐富的接口幫助用戶實(shí)現(xiàn)對(duì)整個(gè)寫入流程更加細(xì)致和準(zhǔn)確的控制,也通過使用內(nèi)存映射(MemoryMapping)的訪問方式,并結(jié)合NTW寫入指令提升整個(gè)系統(tǒng)基于持久內(nèi)存訪問的寫入性能,從而讓英特爾?傲騰?持久內(nèi)存的各項(xiàng)特性在CBS新方案設(shè)計(jì)中發(fā)揮效能。效果:創(chuàng)新硬件與優(yōu)化設(shè)計(jì)為CBS與既有方案相比,基于英特爾?傲騰?持久內(nèi)存設(shè)計(jì)的CBS產(chǎn).數(shù)據(jù)讀寫時(shí)延大幅縮短:一方面,相比NAND固態(tài)盤數(shù)十微秒的讀寫時(shí)延,英特爾?傲騰?持久內(nèi)存的讀寫時(shí)延可控制在1微秒以內(nèi);另一方面,借助PMDK提供的函數(shù)庫(kù)與工具,英特爾?傲騰?持久內(nèi)存可對(duì)整個(gè)寫入流程實(shí)現(xiàn)更加細(xì).系統(tǒng)使用壽命有效提升:一方面,英特爾?傲騰?持久內(nèi)存可按字節(jié)尋址的特性有效解決了以往NAND固態(tài)盤的“寫入.增強(qiáng)存儲(chǔ)空間使用效率:英特爾?傲騰?技術(shù)允許單獨(dú)訪問和更新內(nèi)存單元,所以英特爾?傲騰?持久內(nèi)存無需再執(zhí)行垃圾收集,進(jìn)而避免了以往NAND固態(tài)盤面臨的回收毛刺云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇為驗(yàn)證新硬件與優(yōu)化設(shè)計(jì)對(duì)CBS產(chǎn)品產(chǎn)生的效果,騰訊云與英特爾合作開展了多方位的驗(yàn)證測(cè)試。測(cè)試結(jié)果如圖9所示,采用英特爾?傲騰?持久內(nèi)存構(gòu)建的CBS產(chǎn)品方案與優(yōu)化前相比,整體寫時(shí)延從120微秒下降到60微秒,整體讀時(shí)延從130微秒下降到40微秒,同時(shí)IOPS可高達(dá)200W以上,性能獲得了有效提升14?;疌BS等云服務(wù)產(chǎn)品。例如雙方計(jì)劃在基于英特爾?傲騰?持久內(nèi)存的方案設(shè)計(jì)中加入RDMA協(xié)議,從而有效降低處理器和更強(qiáng)性能助力,也能與英特爾?傲騰?持久內(nèi)存200系列形成良好的配合,為用戶數(shù)據(jù)打造更佳云存儲(chǔ)體驗(yàn),使CBS等云存越低越好整體寫時(shí)延60傳統(tǒng)方案優(yōu)化方案越低越好整體讀時(shí)延40傳統(tǒng)方案優(yōu)化方案圖9新方案令CBS產(chǎn)品讀寫時(shí)延顯著下降如欲了解更多詳情,請(qǐng)?jiān)L問:/content/www/cn/zh/cloud-computing/tencent-cloud-cloud-disk-cbs-cloud-storage.html云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇百度智能云基于英特爾?IPU隨著5G、人工智能、邊緣計(jì)算等前沿技術(shù)在更多行業(yè)獲得落地應(yīng)用,.更呈分布式的云服務(wù)部署:云服務(wù)由傳統(tǒng)的中心云逐漸向“云邊端”協(xié)同演進(jìn),更多云服務(wù)被部署在貼近應(yīng)用的邊緣端;.更為廣泛的云服務(wù)應(yīng)用場(chǎng)景:云服務(wù)正成為更多行業(yè)的IT基礎(chǔ)設(shè)施.更復(fù)雜的工作負(fù)載需求:不同場(chǎng)景的工作負(fù)載對(duì)算力、內(nèi)存或加速實(shí)例多樣化以及資源池化驅(qū)動(dòng)向未來數(shù)部署方案與應(yīng)用場(chǎng)景的變化,讓云數(shù)據(jù)中心服務(wù)器在管理與應(yīng)用上面臨更多挑戰(zhàn)。例如,更多虛擬機(jī)(VirtualMachine,VM)的部署使管理任務(wù)變得更加復(fù)雜。同時(shí),其能力輸出也逐漸從傳統(tǒng)單體式應(yīng)用向微服務(wù)化發(fā)展,進(jìn)一步提高了云數(shù)據(jù)中心管理的復(fù)雜度,更多占用既要對(duì)虛擬機(jī)、微服務(wù),甚至裸金屬服務(wù)器等實(shí)例開展高效管理,又要對(duì)相關(guān)的云數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)設(shè)施實(shí)現(xiàn)加速,其中的復(fù)雜性和資源開銷不斷增加,傳統(tǒng)基礎(chǔ)架構(gòu)何以滿足未來數(shù)據(jù)中心要求就成為隨著微服務(wù)模型越來越多地用于云數(shù)據(jù)中心的應(yīng)用,可以預(yù)測(cè)的是,未.云原生應(yīng)用的出現(xiàn)和快速增長(zhǎng)推高了對(duì)專用基礎(chǔ)設(shè)施的需求,并大幅.云服務(wù)的微服務(wù)化,推動(dòng)了分布式異構(gòu)計(jì)算環(huán)境的發(fā).微服務(wù)模型的廣泛采用也催生出數(shù)據(jù)中心編排系統(tǒng),使各異構(gòu)計(jì)算服.使用微服務(wù)、虛擬機(jī)、容器以及容器編排的場(chǎng)景不斷增加,讓服務(wù)網(wǎng)高度智能的基礎(chǔ)設(shè)施加速系統(tǒng)級(jí)安全性、控制和隔離通用軟件框架高度智能的基礎(chǔ)設(shè)施加速系統(tǒng)級(jí)安全性、控制和隔離通用軟件框架硬件和軟件可編輯根據(jù)客戶需求構(gòu)建云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇同時(shí),由于不同工作負(fù)載或者用戶不同時(shí)段對(duì)于資源需求的不同,通過資源池化可以更優(yōu)配置資源以滿足彈性擴(kuò)容的要求。因此,未來數(shù)據(jù)中心的架構(gòu)將更多地面向于服務(wù)不同的實(shí)例且日益資源池化的方向發(fā)展,以便更好利用異構(gòu)計(jì)算帶來的加速處理能力。這一異構(gòu)計(jì)算的核心將由傳統(tǒng)的處理器平臺(tái),以及由英特爾推出的IPU(InfrastructureProcessingUnit)等基礎(chǔ)設(shè)施處理設(shè)備來組成。在基于這種架構(gòu)的數(shù)據(jù)中心內(nèi),服務(wù)器與執(zhí)行網(wǎng)絡(luò)、存儲(chǔ)等加速的IPU設(shè)備互聯(lián)互通,不僅傳統(tǒng)的服務(wù)器節(jié)點(diǎn)處理能力可在專用計(jì)算節(jié)點(diǎn)的支持下得到增強(qiáng),同時(shí)存儲(chǔ)、網(wǎng)絡(luò)服務(wù),以及云服務(wù)管理包括裸金屬服務(wù)器和微服英特爾?IPU助力數(shù)據(jù)中心應(yīng)對(duì)變革隨著多種實(shí)例服務(wù)以及資源池化等越來越普遍地用于云數(shù)據(jù)中心的架構(gòu)中,通常借助傳統(tǒng)的網(wǎng)卡(NetworkInterfaceCard,NIC)產(chǎn)品來負(fù)責(zé)執(zhí)行物理層與數(shù)據(jù)鏈路層的數(shù)據(jù)流量處理,而而在提供云服務(wù)的過程中,這一情況則更為突出。不僅OpenvSwitch(OVS)等虛擬交換技術(shù)、RDMAoverConvergedEthernet(RoCE)等傳輸存儲(chǔ)協(xié)議以及相應(yīng)的數(shù)據(jù)安全技術(shù)被這一趨勢(shì),伴隨著數(shù)據(jù)規(guī)模的不斷增大(端口帶寬正逐步從.數(shù)據(jù)處理的增長(zhǎng)速度始終高于算力增長(zhǎng)速度,對(duì)處理器資源.為保障核心業(yè)務(wù)的高效執(zhí)行,數(shù)據(jù)中心不得不購(gòu)置更多處理器資源,帶來云服務(wù)TCO的增加;.更大的數(shù)據(jù)規(guī)模和處理復(fù)雜度,也對(duì)數(shù)據(jù)中心的各項(xiàng)基礎(chǔ)設(shè)在這一背景下,英特爾通過對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施能力進(jìn)一步分析與整合,推出了英特爾?IPU(Intel?InfrastructureProcessingUnit來全面幫助云數(shù)據(jù)中心構(gòu)建新的基礎(chǔ)設(shè)施.卸載高密集的基礎(chǔ)設(shè)施應(yīng)用任務(wù)到IPU并進(jìn)行加速,如加密.在極端情況下,IPU可以卸載整個(gè)虛擬機(jī)管理程序,釋放處理器所有內(nèi)核為應(yīng)用和微服務(wù)提供支持,這對(duì)于裸金屬服務(wù).減少了主機(jī)側(cè)處理器中虛擬機(jī)管理程序和基礎(chǔ)設(shè)施堆棧的開銷,并可以從主機(jī)側(cè)處理器中卸載存儲(chǔ)堆棧,使更多的處理如圖10所示,英特爾?IPU產(chǎn)品在配置了FPGA芯片或者ASIC控制面功能實(shí)現(xiàn)卸載。這種將專用可編程硬件與通用處理器相((ASIC和/或FPGA)圖10英特爾?IPU架構(gòu)以目前英特爾面向市場(chǎng)的IPU主力產(chǎn)品英特爾?FPGAIPUC5000X-PL(代號(hào)“BigSpringCanyon”)為例,如圖11所示,其具備2個(gè)25G端口(使用SFP28光口可提供50G的網(wǎng)絡(luò)吞吐能力;核心處理能力則由所搭載的英特爾?Stratix?10DXFPGA芯片與英特爾?至強(qiáng)?D處理器擔(dān)綱。DD圖11英特爾?FPGAIPUC5000X-PL云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇核心/管理程序加密安全性vSwitchIPU核心/管理程序加密vSwitch安全性IPU加速安全性核心裸金屬云基施服加密vSwitch安全性IPU基施理多租云其中,英特爾?Stratix?10DXFPGA可編程邏輯芯片能充分發(fā)一代FPGA擁有更多的收發(fā)器并支持硬核PCIeGen4接口從的單核性能來承載控制面的各項(xiàng)功能,支持Hypervisor,還能以良好的x86兼容性以及與其它基于英特爾?架構(gòu)的硬件形成■卸載基礎(chǔ)設(shè)施能力與釋放算力存儲(chǔ)、安全以及基礎(chǔ)設(shè)施管理等多種能力從處理器卸載到IPU,.網(wǎng)絡(luò)加速:將承載網(wǎng)絡(luò)I/O、數(shù)據(jù)轉(zhuǎn)發(fā)等功能的虛擬交換機(jī)軟件,如OVS等從主機(jī)側(cè)處理器卸載到IPU,提升網(wǎng)絡(luò)吞.存儲(chǔ)加速:將virtio-blk、NVMe-oF等存儲(chǔ)接口、協(xié)議棧從主機(jī)側(cè)處理器轉(zhuǎn)移到IPU,提高存儲(chǔ)彈性和靈活性,并降低.安全加速:可以從主機(jī)側(cè)處理器卸載加密/解密、壓縮和其.基礎(chǔ)設(shè)施處理:將云服務(wù)管理功能從主機(jī)側(cè)處理器卸載到此外,英特爾還正以加速開發(fā)平臺(tái)(AccelerationDevelopmentPlatform,ADP)為抓手,優(yōu)化生態(tài)系統(tǒng)。在規(guī)劃中,ADP平臺(tái)將為用戶提供通過英特爾?開放式FPGA堆棧(英特爾?■對(duì)接英特爾?至強(qiáng)?可擴(kuò)展處理器,提升云數(shù)據(jù)通過英特爾?IPU開展能力卸載,對(duì)基礎(chǔ)設(shè)施進(jìn)行性能加速,也可以引入英特爾?至強(qiáng)?可擴(kuò)展處理器來進(jìn)一步加強(qiáng)算力。.更多的內(nèi)核、更優(yōu)的架構(gòu)帶來算力性能的大幅提升,可有效.多項(xiàng)內(nèi)置增強(qiáng)技術(shù),如英特爾?深度學(xué)習(xí)加速(英特爾?DL能夠有效提升卸載能力的效率和平滑性。由于主機(jī)側(cè)和IPU都和英特爾?至強(qiáng)?D處理器這樣將原先主機(jī)側(cè)運(yùn)行的應(yīng)用遷移到IPU上就變的非常方便,甚至無需編譯即可遷移。例如DPDK、SPDK等軟件就可以從主機(jī)側(cè)直接遷移到IPU上運(yùn)行,這一算力架構(gòu)正幫助云數(shù)據(jù)中心形成更高效的能屬服務(wù)器為例,借助英特爾?IPU提供的云管理能力卸載,可以實(shí)現(xiàn)基礎(chǔ)設(shè)施管理面與租戶間的物理隔離,利用VirtIO設(shè)備熱核心/管理程序加密安全性vSwitchIPU圖12英特爾?IPU面向不同基礎(chǔ)功能卸載的場(chǎng)景云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇20云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇20百度太行百度太行DPU太行DPU2.0數(shù)據(jù)路徑硬件加速.BVS:25G->100G,10MPPS->50MPPS.NVME,200k->1MIOPS.RDMA:10usHostVMVMDPUDPUHypervisorBVS硬件化NVMeoFDPUHypervisorHostVMVM.VirtIO-Net/VirtIO-Blk.主機(jī)CPU太行DPU3.0云原生IOEngineBVC太行DPU1.0裸金屬虛機(jī)容器CPUCPUHDDSSD圖13百度太行DPU發(fā)展路徑圖14百度太行DPU圖14百度太行DPU1.0產(chǎn)品圖主機(jī)側(cè)處理器卸載到專門的基礎(chǔ)設(shè)施處理單元上并實(shí)施性能加帶寬接入和更低網(wǎng)絡(luò)時(shí)延的挑戰(zhàn)。以百度智能云獨(dú)具優(yōu)勢(shì)的AI云服務(wù)為例,目前AI算力需求比之前已提升數(shù)個(gè)數(shù)量級(jí),元宇宙的算力需求還要再提升1,000倍15。因此要貫徹上述理念,需為此,百度智能云通過自研的百度太行DPU系列產(chǎn)品,并融合如圖14和表1所示,百度太行DPU1.0產(chǎn)品配備了2個(gè)25G帶寬的光口,并引入英特爾?FPGA與英特爾?至強(qiáng)?D處理器通過將云管控平面卸載到百度太行DPU1.0中,也可以實(shí)現(xiàn)虛度。來自百度智能云的測(cè)試驗(yàn)證表明,百度太行DPU1.0產(chǎn)品能夠?yàn)橛脩籼峁?,000萬PPS的轉(zhuǎn)發(fā)率以及20萬IOPS的存儲(chǔ)性能16。?支持網(wǎng)絡(luò)卸載及加速,實(shí)現(xiàn)裸金屬和虛擬機(jī)物理機(jī)型統(tǒng)一?支持彈性熱插拔,為裸金屬和虛擬機(jī)提供彈性網(wǎng)卡、彈性擴(kuò)?支持熱升級(jí)、熱恢復(fù)、熱遷移(虛擬機(jī))百度太行DPU1.0:虛擬化功能卸載?云管控平面卸載到DPU,虛擬機(jī)和裸金屬共池?2*25G,10MPPS,200KIOPS百度太行DPU產(chǎn)品功能亮點(diǎn)與配置數(shù)據(jù)表1百度太行DPU產(chǎn)品功能亮點(diǎn)與配置數(shù)據(jù)幫助百度智能云保持優(yōu)勢(shì)。在百度智能云的計(jì)劃中,這一DPU產(chǎn)品也將作為其智能云服務(wù)的核心組件,助力其構(gòu)建IaaS資源的統(tǒng)一彈性底座,進(jìn)而為用戶依托百度智能云開展各類業(yè)務(wù)創(chuàng)數(shù)據(jù)援引自公開媒體報(bào)道:https://?/chanjing/cyxw/2022-03-10/doc-imcwiwss5271286.shtml百度太行DPU產(chǎn)品數(shù)據(jù)來源于百度內(nèi)部。百度太行DPU產(chǎn)品數(shù)據(jù)來源于/m/media/pclive/pchome/live.html?room_id=5073343376&source=h5pre云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇字節(jié)跳動(dòng)采用英特爾?RDT和英特爾?PRM緩解底層硬在同一服務(wù)器上混布(co-locate)不同優(yōu)先級(jí)的工作負(fù)載是一種提高服務(wù)器總利用率的新方法。按照傳統(tǒng)方式,一臺(tái)服務(wù)器只運(yùn)行一種時(shí)延關(guān)鍵型工作負(fù)載,但這種方式通常無法做到CPU的全時(shí)段充分利用,因此為安排低優(yōu)先級(jí)工作負(fù)載將這些CPU未用時(shí)間利用起來提供了機(jī)會(huì),但前提是,不違反時(shí)延關(guān)鍵型工作負(fù)載的服務(wù)級(jí)別協(xié)議(ServiceLevelAgreement,SLA)。遵守時(shí)延關(guān)鍵型工作負(fù)載的SLA對(duì)工作負(fù)載混布而言是一個(gè)巨大挑戰(zhàn),隨著SLA定義越來越嚴(yán)格,這一挑戰(zhàn)也變得更加嚴(yán)峻。為了提供更好的用戶體驗(yàn),工作負(fù)載所有者會(huì)將尾時(shí)延作為其關(guān)鍵工作負(fù)載的SLA。實(shí)現(xiàn)這個(gè)目標(biāo)頗有難度,即使在所有計(jì)算資源都指定給一項(xiàng)工作負(fù)載的當(dāng)集群中出現(xiàn)違反工作負(fù)載SLA的情況時(shí),必須排查所有可能造成的影響,從軟件代碼變更到運(yùn)行時(shí)配置,從上層資源管理到底層資源分配逐一進(jìn)行,如果一個(gè)集群中運(yùn)行的工作負(fù)載達(dá)數(shù)十種,要耗時(shí)冗長(zhǎng)逐一云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇22云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇22字節(jié)跳動(dòng)運(yùn)營(yíng)著多個(gè)基于機(jī)器學(xué)習(xí)的內(nèi)容平臺(tái),建立了混布集群,并利用觀察到的某些工作負(fù)載的CPU日常使用模式,通過混布機(jī)器學(xué)習(xí)等低優(yōu)先級(jí)任務(wù)來利用CPU的空閑時(shí)間。在字節(jié)跳動(dòng)混布集群內(nèi)混布的工作負(fù)載有兩種:在線工作負(fù)載。在線工作負(fù)載屬于遠(yuǎn)程過程調(diào)用(RPC)服務(wù),有著嚴(yán)格的SLA要求。而Hadoop任務(wù)和視頻轉(zhuǎn)碼等多數(shù)離線工作負(fù)要維持在線工作負(fù)載的性能,需要將CPU資源妥善分配給離線工作負(fù)載和在線工作負(fù)載:離線工作負(fù)載須在在線工作負(fù)載發(fā)出請(qǐng)求時(shí)盡快歸還CPU時(shí)間。這一過程由cpuset實(shí)施。所有在線工作負(fù)載都在一個(gè)cpuset內(nèi)運(yùn)行,離線工作負(fù)載在另一個(gè)cpuset內(nèi)運(yùn)行。它們并不共用邏輯CPU內(nèi)核或物理CPU內(nèi)核。資源控制器會(huì)根據(jù)所有在線工作負(fù)載的CPU負(fù)載持續(xù)調(diào)整cpuset配置。當(dāng)所有在線工作負(fù)載的CP制器會(huì)將更多CPU分配給在線工作負(fù)載的cpuset。而當(dāng)CPU在在線工作負(fù)載cpuset中的任何CPU上運(yùn)行,離線工作負(fù)載工作負(fù)載性能模型是基于底層性能計(jì)數(shù)器構(gòu)建的。性能計(jì)數(shù)器是平臺(tái)提供的一種記錄特定硬件執(zhí)行行為的硬件功能。我們從CPU角度選擇了三種計(jì)數(shù)器作為工作負(fù)載性能的指標(biāo):unhaltedCPUcycles、retiredinstructions、cachemisses。Cyclesperinstruction(CPI)指執(zhí)行每條指令平均所需的CPU周期數(shù)量。CPI越高意味著完成指令需要的CPU周期越多。當(dāng)CPI高到一定程度時(shí),工作負(fù)載的性能可能會(huì)受到影響。Cachemissesperkilo-instructions(MPKI)指的是工作負(fù)載每千條指令的三級(jí)緩存缺失數(shù),用來確定CPI高于常規(guī)值時(shí)的根本原因。如果CPI和MPKI同時(shí)高于常規(guī)值,則表明工作負(fù)載的性能很可能已經(jīng)受到緩存缺失的影響。只要密切監(jiān)控一種工作負(fù)載在運(yùn)行時(shí)的這些指標(biāo),就能知道底層共享資源對(duì)性能有哪些干擾(如有)。在本文所述的情況中,尾時(shí)延等傳統(tǒng)性能指標(biāo)無法用于性能評(píng)為分析字節(jié)跳動(dòng)混布集群中離線工作負(fù)載的性能,我們每30秒針對(duì)各在線工作負(fù)載收集性能計(jì)數(shù)器、緩存占用大小(cacheoccupancy)和其他輔助指標(biāo)(如CPU利用率和工作負(fù)載強(qiáng)英特爾?資源調(diào)配技術(shù)(英特爾?RDT)把對(duì)應(yīng)用、虛擬機(jī)(VM)和容器使用三級(jí)緩存(LLC)和內(nèi)存帶寬等共享資源的監(jiān)測(cè)和控性的同時(shí),降低TCO。隨著軟件定義基礎(chǔ)設(shè)施和高級(jí)資源感知編排技術(shù)在行業(yè)中影響力的不斷上升,英特爾?RDT已經(jīng)成為英特爾?RDT提供了一個(gè)由多個(gè)組件功能(包括CMT、CAT、MBM和MBA)組成的框架,用于實(shí)現(xiàn)高速緩存和內(nèi)存帶寬監(jiān)控及分配功能。這些技術(shù)可以跟蹤和控制平臺(tái)(CAT)(MBM)CPU核(CMT)(MBA)?圖16英特爾?RDT功能云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇23cpus‘L3’‘L3_MON’‘MB’M2云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇23cpus‘L3’‘L3_MON’‘MB’M2taskstasksmon_datacpusschematatasksmon_datamon_datamon_L3_00mbm_local_bytesllc_occupancy 圖17英特爾?RDT內(nèi)核架構(gòu)如圖17所示,英特爾?RDT內(nèi)核架構(gòu)描述的是英特爾?RDT功能的Linux內(nèi)核框架和實(shí)現(xiàn)。核級(jí)和線程級(jí)MSR寄存器操作,如功能枚舉、監(jiān)控和分配配置、CLOS/RMID與線程關(guān)聯(lián)、讀取監(jiān)控計(jì)數(shù)器,均納入文件系統(tǒng)操作。從最終用戶的角度來看,英特爾?RDT的監(jiān)控和分配功能是通過默認(rèn)裝載在/sys/fs/resctrl下的資源控制文件系統(tǒng)來實(shí)現(xiàn)的。見圖18:英特爾?RDT在resctrl文件系統(tǒng)中的分層結(jié)構(gòu)),為“tasks”:讀取該文件會(huì)顯示該群組所有任務(wù)的列表。將寫入文件會(huì)添加任務(wù)到群組?!癱pus”:讀取該文件組擁有的邏輯CPU的位掩碼。將掩碼寫入文件會(huì)添加CPU到啟用RDT監(jiān)控功能后,根目錄和其他頂層目錄會(huì)包含“mon_見圖18:英特爾?RDT在resctrl文件系統(tǒng)中的分層結(jié)構(gòu)),以監(jiān)控任務(wù)群組?!癕on_data”目錄包含一組按照資源域和RDT文件(“l(fā)lc_occupancy”、“mbm_total_bytes”和“mbm_local_bytes”)。這些文件為群組中的所有任務(wù)提供了事件當(dāng)前值的計(jì)英特爾?RDT在resctrl文件系統(tǒng)中的分層結(jié)構(gòu)類似于控制組(Cgroup)。與Cgroup相比,resctrl文件系統(tǒng)界面有著類似的進(jìn)程管理生命周期和用戶界面。但不同于Cgroup的分層結(jié)構(gòu),resctrl文件系統(tǒng)界面是單層文件系統(tǒng)結(jié)構(gòu)。資源組在resctrl文件系統(tǒng)中表示為目錄。默認(rèn)組為根目錄,在文件系統(tǒng)裝載后即擁有系統(tǒng)中的全部任務(wù)和CPU,可以充分使英特爾?PlatformResourceManager英特爾?PlatformResourceManager(英特爾?PRM)是一套軟件包,可幫用戶將盡力而為型(best-e?orts)任務(wù)和時(shí)延關(guān)?代理(eris代理),可監(jiān)測(cè)和控制各節(jié)點(diǎn)上的平臺(tái)資源(CPU周期、三級(jí)緩存、內(nèi)存帶寬等);?分析工具(分析工具),可建立平臺(tái)資源沖突檢測(cè)模型。CG2CG2mon_groupsCG1mon_dataschematatasksmon_groupsmon_L3_01圖18英特爾?RDT在resctrl文件系統(tǒng)中的監(jiān)測(cè)和控制示意圖高/低離線高/低離線工作負(fù)載CPU利用率CPI估算云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇24回歸模型旨在為在線工作負(fù)載建立CPI和MPKI模型。該模型利用混布離線工作負(fù)載的周期數(shù)和CPU總利用率來為CPI和MPKI建模。CPI=f(CPU_cycles,O?ine_workload_utilization)MPKL=f(CPU_cycles,O?ine_workload_utilization)CPI和MPKI與工作負(fù)載強(qiáng)度有關(guān)。我們將離線工作負(fù)載利用率如果在同等工作負(fù)載強(qiáng)度下,CPI隨著離線工作負(fù)載利用率的提如果MPKI有同樣的相關(guān)性,則影響很可能來自三級(jí)緩存干我們?yōu)槊宽?xiàng)來自相同代碼庫(kù)的在線服務(wù)建立一個(gè)回歸模型。CPI和MPKI模型均基于七天運(yùn)行時(shí)指標(biāo)建立。我們將指標(biāo)拆分20次以進(jìn)行模型篩選,最后隨機(jī)選擇500個(gè)樣本建立模型。我們還設(shè)計(jì)了兩個(gè)測(cè)試集來檢驗(yàn)離線工作負(fù)載利用率與CPI/MPKI之間的相關(guān)性。第一個(gè)測(cè)試集為不同的CPU周期組合,離線工作負(fù)載利用率較低。離線工作負(fù)載低利用率的抽樣范圍是低于總離線工作負(fù)載利用率10%;另一測(cè)試集的樣本來自離線工作負(fù)載利用率較高的不同的CPU周期。離線工作負(fù)載高利用率的抽樣范圍是高于總離線利用率90%。將兩個(gè)測(cè)試集用于CPI/MPKI模型是為了觀察CPI或MPKI是否會(huì)隨著離線工作負(fù)載利我們發(fā)現(xiàn),對(duì)于某些在線工作負(fù)載,CPI/MPKI與離線工作負(fù)載利用率之間存在相關(guān)性。一種在線工作負(fù)載的結(jié)果見圖19:性此外,我們還收集了英特爾?RDT指標(biāo)來驗(yàn)證此評(píng)估結(jié)果。同兩個(gè)NUMA域運(yùn)行。離線工作負(fù)載在其中一個(gè)NUMA域中高強(qiáng)度運(yùn)行,與其他在線工作負(fù)載爭(zhēng)奪該域中的三級(jí)緩存,最終性能造成了影響。為緩解干擾,字節(jié)跳動(dòng)部署了英特爾?RDT來管理離線工作負(fù)載的緩存占用情況。下文所述■RDT配置■評(píng)估范圍擁有超過9,000臺(tái)服務(wù)器且服務(wù)器均已部署RDT配置的混布0.950.90低離線低離線高離線012345周期數(shù)高/低離線工作負(fù)載CPU利用率MPKI估算4.754.504.254.003.753.503.253.00低離線低離線高離線012345周期數(shù)左:CPI模型(離線工作負(fù)載CPU利用率低/高)右:MPKI模型(離線工作負(fù)載CPU利用率低/高)■評(píng)估方法在線工作負(fù)載第99百分位的時(shí)延波動(dòng)用于指示緩存管理配置的波動(dòng)t=|99th_latencyt-99th_latencyt-1|/99th_latencyt首次收集的工作負(fù)載第99百分位的時(shí)延波動(dòng)數(shù)據(jù)來自未啟用緩存管理的混布集群和非混布集群。在混布集群■評(píng)估結(jié)果工作負(fù)載A對(duì)于工作負(fù)載A,混布集群中有超過9,000個(gè)實(shí)例,非混布集群中有超過3,000個(gè)實(shí)例。在不啟用緩存管理的條件下,混布集群中尾時(shí)延的波動(dòng)明顯高于非混布集群中的尾時(shí)延波動(dòng){見圖20:工作負(fù)載A(啟用前)}。若在混布集群中啟用緩存管理,在混布集群中啟用緩存管理后,工作負(fù)載B的結(jié)果同樣表現(xiàn)較好。工作負(fù)載B在混布集群中有超過10,000個(gè)實(shí)例,在非混布集群中有超過5,500個(gè)實(shí)例。圖22:工作負(fù)載B(啟用前)所示為該工作負(fù)載在混布集群中運(yùn)行(未啟用緩存管理)與在非混所示為在混布集群中啟用緩存管理后的對(duì)比。兩圖20工作負(fù)載A(啟用前):工作負(fù)載A在非混布集群和圖21工作負(fù)載A(啟用后):工作負(fù)載A在非混布集群和圖22工作負(fù)載B(啟用前):工作負(fù)載B在非混布集群和圖23工作負(fù)載B(啟用后):工作負(fù)載B在非混布集群和字節(jié)跳動(dòng)利用英特爾?RDT和英特爾?PlatformResourceManager,來緩解底層硬件資源對(duì)混布集群的干擾,驗(yàn)證了英特爾?RDT和英特爾?PRM可以減少工作負(fù)載混布時(shí)底層資源對(duì)時(shí)延關(guān)鍵型工作負(fù)載的干擾,進(jìn)而提云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇25京東云基于至強(qiáng)?處理器打造冷板液冷參考解決方案,有效京東云基于至強(qiáng)?處理器打造冷板液冷參考解決方案,有效蓬勃發(fā)展的數(shù)字化轉(zhuǎn)型使得數(shù)據(jù)中心的能耗處于持續(xù)的增長(zhǎng)中,而在數(shù)據(jù)中心的能源消耗中,加熱、通風(fēng)和空調(diào)(HVAC)系統(tǒng)能耗值得關(guān)注。以京東云數(shù)據(jù)中心為例,有超過70%的數(shù)據(jù)中心能源由信息技術(shù)設(shè)備(ITE)消耗,HVAC系統(tǒng)消耗的能源達(dá)到12%,居第二位18。因此,除了提升數(shù)據(jù)中心IT使得具備動(dòng)態(tài)頻率調(diào)節(jié)能力的XPU等關(guān)鍵組件能夠以較高頻率進(jìn)行穩(wěn)定運(yùn)于工作溫度的降低,IT設(shè)備的運(yùn)行壽命得以提升,在冷卻方面耗費(fèi)的成本也傳統(tǒng)數(shù)據(jù)中心多采用空氣作為冷卻介質(zhì),但其存在無法在垂直機(jī)架陣列的IT設(shè)備入口處提供均勻溫度的空氣,冷卻系統(tǒng)效率也相對(duì)較低等諸多缺陷,讓液.在液冷系統(tǒng)中,熱量能夠在更靠近其來源的地方與液冷介質(zhì)進(jìn)行交換,避.水等液體比空氣具有更高的熱容量和更低的熱阻—一般來說,冷卻液的導(dǎo)熱系數(shù)是空氣的6倍,單位體積的熱容是空氣的1,000倍;.與傳統(tǒng)的冷卻方式相比,冷卻液的傳熱次數(shù)更少,容量衰減更小,冷卻效冷板液冷主要方法是組建冷卻液回路,利用CDU分配冷卻液。在通過冷板收集計(jì)算節(jié)點(diǎn)的熱量后,冷卻液不斷流向另一個(gè)冷的CPU,并通過另一個(gè)連接器離開服務(wù)器冷板管道,實(shí)現(xiàn)液冷計(jì)算節(jié)點(diǎn)的液冷循環(huán)。冷板液冷技術(shù)目前在行業(yè)內(nèi)相對(duì)成熟,在傳統(tǒng)數(shù)據(jù)中心改造、數(shù)據(jù)中心基礎(chǔ)設(shè)施復(fù)用等方面具備一但同時(shí),由于液冷與空氣冷卻系統(tǒng)在設(shè)計(jì)上有較大的差異,很多技術(shù)仍缺乏充26CPUTDPEnvelope,WPower/Core云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇27RackServerManifoldColdPlateTube/PipeCLeakageompatibilityTube/PipeCPUTDPEnvelope,WPower/Core云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇27RackServerManifoldColdPlateTube/PipeCLeakageompatibilityTube/Pipe面向XPU的冷卻系統(tǒng)設(shè)計(jì)挑戰(zhàn)包括CPU在內(nèi)的XPU芯片功耗是服務(wù)器能效的重要考量因素,在很大程度上決定著數(shù)據(jù)中心的總功耗。由于人工智能、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)等工作負(fù)載對(duì)計(jì)算能力的需求不斷增長(zhǎng),以及半導(dǎo)體工藝的巨大改進(jìn),XPU已經(jīng)集成了極多的晶體管。盡管單核功耗因工藝技術(shù)的改進(jìn)而不斷下降,但芯片整體的熱設(shè)計(jì)功率(TDP)卻由于性能大幅增長(zhǎng)而在不斷增加,這將導(dǎo)致芯片的TDP超過空氣冷卻的能力。CoreCountCoreCountYear→YearYear→TDP,W6005004003002001000TodayLiquidTodayLiquid35030020520514514513013013095XeonThermalDesignPower(TDP)以京東云服務(wù)器系統(tǒng)為例,其x86處理器的典型TDP在2013年為105瓦,而在2022年部署時(shí),這個(gè)數(shù)字將提升到350瓦以上19。此外,行業(yè)普遍預(yù)計(jì),XPU的TDP在接下來的幾年中熱量,減少了風(fēng)冷風(fēng)扇,將熱阻顯著降低到典型范圍0.3~0.5。C/W21。如今,處理器制造商允許XPU在受控范圍內(nèi)超出其基本(或標(biāo)稱)頻率運(yùn)行。在大多數(shù)情況下,處理器在最低頻率和基本頻率之間的保證范圍內(nèi)運(yùn)行。只有在熱量和功率預(yù)算允許的情況下,它們才能在更高的頻率運(yùn)行。由于液冷系統(tǒng)具有非常高的冷卻能力,使其能夠支持XPU運(yùn)行在較高的頻率上,從而提升京東云冷板液冷解決方案是從數(shù)據(jù)中心級(jí)到系統(tǒng)級(jí)的整體解決方案,涵蓋了CDU、機(jī)架、服務(wù)器等不同層級(jí)的產(chǎn)品與技術(shù),在CDU、工作液、歧管、服務(wù)器等方面進(jìn)行了針對(duì)性的設(shè)計(jì)。京東云服務(wù)器CPU的TDP處于持續(xù)的上升通道中LiquidCoolingSolutiLiquidCoolingSolution-OpenLoopDataCenterDataCenterCDUCDUHeatExchangerorkingFluidLeakageTube/PipeWPumpReliabilityTestingReliabilityTesting圖25京東云冷板液冷參考解決方案架構(gòu)數(shù)據(jù)援引自京東云內(nèi)部測(cè)試結(jié)果。英特爾并不控制或?qū)徲?jì)第三方數(shù)據(jù)。請(qǐng)您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇28CDU在整體液冷解決方案中,CDU作為服務(wù)器側(cè)二級(jí)回路和數(shù)據(jù)中心側(cè)一級(jí)回路的關(guān)鍵傳熱路徑,必須具有泵、在液體冷卻系統(tǒng)的一次回路側(cè),選擇去離子水+乙二醇作為工作流體。去離子水具有低電阻特性,乙二醇則確保了流體在低環(huán)境溫度下凍結(jié)而導(dǎo)致管道破裂的低風(fēng)安裝在機(jī)架上的歧管將冷流體分配到每個(gè)服務(wù)器節(jié)點(diǎn)。在歧管頂部的快速連接器可方便機(jī)架部署。歧管底端設(shè)服務(wù)器液冷方案主要由冷板、管路、快速接頭和檢漏線組成。其中,數(shù)據(jù)中心單相冷板供液溫度范圍為40~45。C,工作液兼容乙二醇溶液(去離子水)。為了防范液體泄露風(fēng)險(xiǎn),京東云采用檢漏線將液冷系統(tǒng)包裹起來,特別是在冷板和管路接頭處,確保在漏液的情況LeakageSensorTubeColdPlateTubeQuickConnector圖26京東云服務(wù)器液冷方案組成京東云已于2021年第二季度在其數(shù)據(jù)中心部署了冷板液冷解決調(diào)整了核心數(shù)、基礎(chǔ)和Turbo頻率、TDP、RAS特性、T機(jī)箱方案部署后,在相同服務(wù)器節(jié)點(diǎn)配置下,京東云對(duì)比了空氣冷卻與冷板液體冷卻在25。C和35。C環(huán)境溫度下的冷卻效果,數(shù)據(jù)如表2所示。在25。C和35。C環(huán)境溫度下,對(duì)比空氣冷卻,采用冷板液體冷卻的服務(wù)器節(jié)點(diǎn)的風(fēng)扇功率顯著降低18%dBA,對(duì)維護(hù)人員非常友好22。2°52°5CC3°53°5CCCPU機(jī)箱溫度風(fēng)扇負(fù)載降低5%風(fēng)扇功率(節(jié)點(diǎn)級(jí))降低44%服務(wù)器節(jié)點(diǎn)出口溫度噪音降低7.0dBA備注1.具有相同服務(wù)器節(jié)點(diǎn)配置的空氣冷卻是比較的基準(zhǔn)。2.“-”表示低于基線3.用于風(fēng)冷的CPU散熱器高度為64mm,而冷板液冷則為17mm。表2京東云數(shù)據(jù)中心空氣冷卻與冷板液體冷卻的冷卻效果對(duì)比可用性、可維護(hù)性)特性以及內(nèi)存故障預(yù)測(cè)已統(tǒng)服務(wù)器相比,該服務(wù)器計(jì)算節(jié)點(diǎn)主機(jī)的宕機(jī)率降低了40%,保證了云主機(jī)服務(wù)99.99%的可用性SLA24。數(shù)據(jù)援引自京東云內(nèi)部測(cè)試結(jié)果。英特爾并不控制或?qū)徲?jì)第三方數(shù)據(jù)。請(qǐng)您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇29.液體冷卻的傳熱比空氣冷卻的傳熱系數(shù)高數(shù)百倍,冷卻能力.高性能的處理器通常會(huì)具備高頻和多核特性,解決最高性能.通過冷卻高性能的處理器和增加服務(wù)器機(jī)架功率密度來實(shí)現(xiàn).采用冷板液冷解決方案,可以將數(shù)據(jù)中心50%~80%的散熱轉(zhuǎn)移到外部冷卻塔,減少冷卻塔的使用,最終降低PUE和碳.液體冷卻提高了云主機(jī)服務(wù)等級(jí)協(xié)議,以及處理器、服務(wù)器.冷板液冷是一種將傳統(tǒng)風(fēng)冷數(shù)據(jù)中心改造成液冷的循環(huán)經(jīng)濟(jì)數(shù)據(jù)中心的PUE從1.3降低到1.1,每個(gè)14KW機(jī)柜可節(jié)電31,031度,碳減排24.4噸。在服務(wù)器系統(tǒng)方面,每個(gè)服務(wù)器節(jié)點(diǎn)可以節(jié)省大約4%的電量26。機(jī)架電源服務(wù)器節(jié)點(diǎn)省電10.96PUE值1.3總功率比(包括直流)10.813總電力成本10.81321,722節(jié)電(千瓦時(shí)/年)31,031碳排放量(公斤)24,360碳減排量(噸)24.4表3京東云數(shù)據(jù)中心冷板液冷與空氣冷卻節(jié)能減排效果對(duì)比數(shù)據(jù)援引自京東云內(nèi)部測(cè)試結(jié)果。英特爾并不控制或?qū)徲?jì)第三方數(shù)據(jù)。請(qǐng)您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。3030京東利用英特爾MCA+MFP京東云是京東科技集團(tuán)旗下領(lǐng)先的云計(jì)算品牌,依托于京東科技集團(tuán)在人工智正式商用,進(jìn)軍中國(guó)云計(jì)算市場(chǎng);2017年6月,京東業(yè)務(wù)全部上云;2021年4月,京東云IaaS市場(chǎng)占有率升至中國(guó)第五,躋身國(guó)內(nèi)云計(jì)算第一梯隊(duì)28。作為全球容器化最徹底的云平臺(tái)之一,京東云擁有全球最大規(guī)模的Docker集群、全球最大規(guī)模的Kubernetes集群,支撐萬億級(jí)電商交易,實(shí)現(xiàn)京東618購(gòu)物節(jié)訂單100%云上完成、以及京東物流、京東健康全量上云。歷經(jīng)京東育、游戲等客戶,服務(wù)最高可用性保證達(dá)99.995%29。如今京東云覆蓋各個(gè)行業(yè)領(lǐng)域超過2,500家的合作伙伴,隨著用戶規(guī)模不斷增大,特定行業(yè)與云原生類用戶對(duì)應(yīng)用開發(fā)和運(yùn)營(yíng)模式提出許多新的要求,傳統(tǒng)用戶也正在將更多復(fù)雜業(yè)務(wù)遷移上云,這些持續(xù)變化的技術(shù)需求對(duì)京東云服作為云服務(wù)的核心資源云主機(jī),它的可靠性、可用性、可維護(hù)性直接決定了云服務(wù)的質(zhì)量和水平。如今硬件故障的發(fā)生是造成主機(jī)宕機(jī)的重要因素。傳統(tǒng)方式下,一組服務(wù)停止工作只會(huì)影響到自己的業(yè)務(wù)和用戶,但是在云環(huán)境下,服務(wù)終止將會(huì)導(dǎo)致云服務(wù)提供商違反SLA并造成巨大的經(jīng)濟(jì)損失。在眾多的硬件故障中,內(nèi)存錯(cuò)誤是當(dāng)今數(shù)據(jù)中心中所面對(duì)的最嚴(yán)重的故障之一。目前京東云數(shù)據(jù)中心內(nèi)存錯(cuò)誤在整體硬件故障中的占比達(dá)到37%,為此京東云建立了完善的云主機(jī)故障預(yù)測(cè)和恢復(fù)系統(tǒng),希望通過對(duì)內(nèi)存錯(cuò)誤的發(fā)現(xiàn)與預(yù)測(cè),通過在37%Memory32%Disk11%CPU7%Mainboard5%Others4%Power4%Network圖27京東云硬件故障分布如欲了解更多詳情,請(qǐng)?jiān)L問:/content/www/cn/zh/cloud-computing/mca-mfp-jd-stability-cloud.html云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇定性與可靠性,提高終端用戶的SLA,降低京東云數(shù)據(jù)中心的TCO都有極大的幫助。英特爾?MCARecovery+MFP,京東云與英特爾在云計(jì)算領(lǐng)域一直保持著緊密而廣泛的合作,為終端用戶提供專業(yè)且高性價(jià)比的云服務(wù)是了解決內(nèi)存錯(cuò)誤的困擾,雙方再次攜手,通過引入英特爾MCARecovery與MemoryFailurePrediction(MFP)技術(shù),結(jié)合京■內(nèi)存錯(cuò)誤UncorrectedUncorrectedError圖28內(nèi)存錯(cuò)誤分類1目前主機(jī)出現(xiàn)的內(nèi)存錯(cuò)誤主要分為可糾正錯(cuò)誤(CorrectedError,簡(jiǎn)稱CE)和不可糾正錯(cuò)誤(UncorrectedError,簡(jiǎn)稱不可糾正錯(cuò)誤(UE)通常會(huì)造成比較嚴(yán)重的災(zāi)難性后果,如主機(jī)操作系統(tǒng)掛起,系統(tǒng)崩潰、宕機(jī)。UE錯(cuò)誤也可以分為FatalError、SRAR、SRAO以及UCNA。.FatalError:非常嚴(yán)重的UE錯(cuò)誤。此類錯(cuò)誤系統(tǒng)無法對(duì)其只能通過復(fù)位系統(tǒng)進(jìn)行恢復(fù)。出現(xiàn)這種UE錯(cuò)誤目前暫無好.RAR(SoftwareRecoverableActionRequired發(fā)生這種錯(cuò)誤后,操作系統(tǒng)/應(yīng)用程序需要執(zhí)行某種操作(例如隔離/終止失敗線程)來恢復(fù)此無法糾正的錯(cuò)誤。此類錯(cuò)誤是恢復(fù).SRA(SoftwareRecoverableActionO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論