版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
以計算加速邁進智能化未來—I
DC新
一
代云基礎(chǔ)設(shè)施實踐報告解決方案3.1打造極致性能體驗,為傳統(tǒng)計算業(yè)務(wù)打開新空間3.2技術(shù)和架構(gòu)創(chuàng)新,提升AI時代的向量數(shù)據(jù)處理和協(xié)同計算效率3.3強化硬件安全設(shè)計,持續(xù)增強安全保障能力3.4全球一致的云服務(wù)能力體系,全面助力企業(yè)國際化戰(zhàn)略優(yōu)秀實踐分析4.1小鵬汽車4.2微幀科技4.3
嘎嘎射擊4.4螞蟻集團ZOLOZ挑戰(zhàn):企業(yè)多元業(yè)務(wù)需求與海量AI數(shù)據(jù)的沖擊2.1在線業(yè)務(wù)面臨性能與效率的極限挑戰(zhàn)2.2AI數(shù)據(jù)處理與計算協(xié)同的復(fù)雜度激增2.3
國際化進程中的全球布局、合規(guī)與質(zhì)量一致性難題2.4
安全、穩(wěn)定與成本的多元保障要求趨勢:云服務(wù)能力持續(xù)躍升,加速企業(yè)數(shù)智化轉(zhuǎn)型與創(chuàng)新1.1技術(shù)全面升級,為復(fù)雜的企業(yè)在線業(yè)務(wù)提供保障1.2軟硬一體協(xié)同優(yōu)化,應(yīng)對AI時代激增的數(shù)據(jù)沖擊1.3持續(xù)的融合創(chuàng)新,助力企業(yè)的國際化布局01020304目錄前言IDC分析師認(rèn)為:全球AI基礎(chǔ)設(shè)施革新的浪潮中,算力需求的爆發(fā)正在驅(qū)動云計算與邊緣計算深度融合,行業(yè)定制化與智能化服務(wù)加速滲透,成本優(yōu)化與綠色計算將成為競爭的關(guān)鍵。未來,基
礎(chǔ)設(shè)施的核心矛盾將從“資源供給”轉(zhuǎn)向“效率與價值平衡”,技術(shù)迭代將圍繞“彈性算力調(diào)度”“數(shù)據(jù)主權(quán)治理”“垂直場景深度適配”三大主線展開。越來越多的企業(yè)核心數(shù)據(jù)正在向云數(shù)據(jù)中心遷移,計算密集型任務(wù)處理能力與彈性資源供給能力正成為云服務(wù)商的核心競爭力。面對企業(yè)客戶的數(shù)字化轉(zhuǎn)型需求,減少延遲和工作負(fù)載可移植性
將是客戶的關(guān)鍵優(yōu)先事項,為垂直特定數(shù)據(jù)類型提供量身定制的云服務(wù)將創(chuàng)造有利的競爭優(yōu)勢。
云提供商須為跨行業(yè)數(shù)據(jù)采集、存儲和計算需求的大幅增長做好準(zhǔn)備。在AI高速發(fā)展和在線業(yè)務(wù)快速膨脹的時代,企業(yè)用戶對云基礎(chǔ)設(shè)施的性能、成本、穩(wěn)定性、安全性等方面提出了全新的要求。為適應(yīng)企業(yè)創(chuàng)新、降本增效以及業(yè)務(wù)出海等需要,云服務(wù)商不斷通
過協(xié)同創(chuàng)新升級全棧服務(wù)品質(zhì),同時也利用自身融合發(fā)展的經(jīng)驗優(yōu)勢,助力企業(yè)積極開展國際化
布局。
1來源:IDC全球數(shù)據(jù)圈預(yù)測,2025-20291.1
技術(shù)全面升級,為復(fù)雜的企業(yè)在線業(yè)務(wù)提供保障企業(yè)在線業(yè)務(wù)的受眾范圍和功能復(fù)雜度在快速增加,在金融交易、電商直播、實時游戲等場景下,服務(wù)端動輒需要支持百萬級并發(fā)連接和毫秒級響應(yīng)要求,應(yīng)對海量的網(wǎng)絡(luò)協(xié)議處理、頁面加
載、安全等事務(wù)。企業(yè)云計算客戶不僅對算力密度有極致追求,還期望通過連接性能和存儲技術(shù)
等多個方面的協(xié)同進步,
實現(xiàn)數(shù)據(jù)庫、大數(shù)據(jù)等服務(wù)平臺的性能躍升。在IDC面向全球1350家企
業(yè)所做的數(shù)字化進程與業(yè)務(wù)成果調(diào)研中,應(yīng)用的可用性、綜合安全性、應(yīng)用的性能等都成為企業(yè)
核心關(guān)注的目標(biāo)。01
趨勢:云服務(wù)能力持續(xù)躍升
加速企業(yè)數(shù)智化轉(zhuǎn)型與創(chuàng)新IDC預(yù)計,云數(shù)據(jù)中心數(shù)據(jù)增長在2025年為58.1ZB,2029年將翻4倍,達到228.9ZB,2024-2029年復(fù)合年增長率為40.9%。圖1
全球云數(shù)據(jù)中心數(shù)據(jù)增長,2024-202940%2025
2026
2027
2028
2029Capacity(ZB)
Growth
Rate228.942%41%41%41%42%42%41%41%40%40%25020015010050041%41.2202402n
=
1350來源:
Cloud
Pulse
Survey,
IDC
對算力密度的極致追求:
企業(yè)希望利用有限的物理空間輸出更強大的算力。這一方面體現(xiàn)在一些高端的云服務(wù)實例可以提供數(shù)百、數(shù)千甚至數(shù)萬數(shù)量級的CPU、GPU核服務(wù)能力;另一
方面,為滿足大數(shù)據(jù)、數(shù)據(jù)庫、3D視頻處理在內(nèi)的一些單核敏感型業(yè)務(wù)的需要,云服務(wù)仍將持續(xù)提升單核、單實例性能。
多技術(shù)融合提升連接性能:云服務(wù)商綜合利用內(nèi)存/緩存、PCle、RDMA、IP網(wǎng)、EIP、VPC等一系列技術(shù)升級和軟硬件融合優(yōu)化成果,大幅提升云、邊、端不同位置服務(wù)之間的協(xié)同效
率,這對于保障在線業(yè)務(wù)的體驗至關(guān)重要。
存儲方案升級應(yīng)對大數(shù)據(jù)量沖擊:云服務(wù)商通過采用更高性能的存儲設(shè)備和更高效的存儲架構(gòu),結(jié)合對數(shù)據(jù)布局的優(yōu)化,提供貼合不同在線業(yè)務(wù)需求的個性化存儲服務(wù),例如低時延塊
存儲(數(shù)據(jù)庫多副本場景,<0.1ms延遲)、高帶寬彈性盤(大數(shù)據(jù)單副本場景,吞吐量達
40Gbps)、高速臨時存儲等。1.2
軟硬一體協(xié)同優(yōu)化,應(yīng)對Al時代激增的數(shù)據(jù)沖擊AI預(yù)訓(xùn)練和推理過程需要存儲和預(yù)處理海量的多模態(tài)數(shù)據(jù),數(shù)據(jù)向量化趨勢也非常顯著,為保障AI應(yīng)用特別是中小模型推理和傳統(tǒng)AI搜推場景的實時響應(yīng),云基礎(chǔ)設(shè)施也在架構(gòu)層面做出了持續(xù)
的優(yōu)化創(chuàng)新。治理/合規(guī)優(yōu)化人員生產(chǎn)率資源利用/密度最大化圖2
全球企業(yè)認(rèn)為未來2年對業(yè)務(wù)成果最重要的lT事項應(yīng)用性能災(zāi)難恢復(fù)和備份運營及工具一致性成本管理跨數(shù)據(jù)中心整合66%
66%
65%
65%67%
67%
66%應(yīng)用可用性夸云可視性人才/技能64%
64%
63%快速交付整體安全風(fēng)險管理自動化65%65%0369%68%68%
分布式預(yù)處理框架和流程優(yōu)化:通過構(gòu)建分布式的訓(xùn)練數(shù)據(jù)預(yù)處理框架,將IVF、HNSWLib、Faiss/Flat等向量化算法進行分布式改造,使其能夠在多個計算節(jié)點上并行運行。通過數(shù)據(jù)分
片和任務(wù)分配,充分利用集群的計算資源,提高處理大規(guī)模向量數(shù)據(jù)的能力。這需要云計算
基礎(chǔ)設(shè)施提供靈活的適配和資源編排能力,以及嚴(yán)格的資源隔離與共享保障。
利用硬件加速提升數(shù)據(jù)預(yù)處理和Al推理效率:在處理器內(nèi)部增加專用硬件加速單元和專用指令集,提升數(shù)據(jù)清洗、加密與傳輸效率。對于視覺模型、視頻處理、數(shù)據(jù)庫模糊檢查詢等任務(wù),云實例基于新一代處理器的向量指令集、矩陣加速指令集等,能夠直接支持相關(guān)AI算子執(zhí)行,簡化系統(tǒng)架構(gòu),提升響應(yīng)性能與可靠性,持續(xù)改善搜推廣、語音/視頻處理以及中小模
型的推理體驗。
云原生方案形成整體保障:除了算力層面的降本措施,云服務(wù)商還通過持續(xù)增強彈性伸縮、Serverless以及統(tǒng)一運維等云原生解決方案的效能,實現(xiàn)硬件、算法、平臺、服務(wù)的協(xié)同進
化。例如,在強化彈性伸縮能力時,綜合運用編排調(diào)度(例如Kubernetes)、服務(wù)監(jiān)控、服
務(wù)治理以及相關(guān)的配置管理等云原生能力,在提高彈性伸縮的速率的同時,持續(xù)增強自動化
預(yù)測能力以及優(yōu)化自適應(yīng)策略。1.3
持續(xù)的融合創(chuàng)新,助力企業(yè)的國際化布局面對智能化、全球化、融合化的發(fā)展浪潮,國內(nèi)云服務(wù)商憑借自身在互聯(lián)網(wǎng)創(chuàng)新、跨境電商以及AI創(chuàng)新應(yīng)用等領(lǐng)域的創(chuàng)新優(yōu)勢,不僅可以為自身拓展新的廣闊發(fā)展空間,也為全球市場帶來新的
發(fā)展機遇與變革動力。
互聯(lián)網(wǎng)創(chuàng)新推動全球市場繁榮:國內(nèi)云服務(wù)商在互聯(lián)網(wǎng)創(chuàng)新方面的成果優(yōu)勢,一方面體現(xiàn)在業(yè)務(wù)的示范效應(yīng),例如在電商、社交媒體、在線教育、遠程辦公等互聯(lián)網(wǎng)服務(wù)領(lǐng)域,國內(nèi)云服務(wù)商具有豐富的融合開發(fā)和運營經(jīng)驗,可以通過國際合作與交流,輸出到全球市場。另一
方面也體現(xiàn)在豐富的技術(shù)融合經(jīng)驗,即基于自身的互聯(lián)網(wǎng)創(chuàng)新業(yè)務(wù)推動云計算服務(wù)能力的發(fā)
展和進步,例如綜合運用云網(wǎng)絡(luò)、分布式云架構(gòu)、負(fù)載均衡、CDN等技術(shù),保障全球用戶獲
得流暢的訪問體驗。04
跨境電商形成市場綜合服務(wù)優(yōu)勢:一些國內(nèi)大型云服務(wù)商具備豐富的跨境電商業(yè)務(wù)運營經(jīng)驗,可以整合跨境物流、支付等環(huán)節(jié)的資源,為跨境電商企業(yè)提供一站式的解決方案。在信
息服務(wù)方面,具備強大的數(shù)據(jù)分析工具,能夠幫助跨境電商企業(yè)精準(zhǔn)洞察不同地區(qū)消費者的
需求和偏好,優(yōu)化選品和營銷策略,有效保障交易數(shù)據(jù)的安全合規(guī)要求。
AI創(chuàng)新應(yīng)用不斷挖掘新的市場潛力:近年來,國內(nèi)云服務(wù)商在AI創(chuàng)新應(yīng)用方面不斷突破,為挖掘全球市場新潛力提供了強大動力。相關(guān)的基礎(chǔ)AI模型和AI技術(shù)棧都十分強大,特別是能
夠持續(xù)利用云計算的海量數(shù)據(jù)存儲和強大計算能力優(yōu)勢,支撐智能化的云應(yīng)用出海。一大批
AI產(chǎn)品已經(jīng)在市場中發(fā)揮了巨大作用,例如B端市場的國內(nèi)企業(yè)生產(chǎn)、供應(yīng)鏈管理、風(fēng)險控
制,以及C端市場的智能搜推、智能客服等。0502
挑戰(zhàn):企業(yè)多元業(yè)務(wù)需求與海量AI數(shù)據(jù)的沖擊2.1
在線業(yè)務(wù)面臨性能與效率的極限挑戰(zhàn)面對企業(yè)海量在線業(yè)務(wù)以及復(fù)雜的創(chuàng)新場景,現(xiàn)有的云基礎(chǔ)設(shè)施常常難以應(yīng)對用戶在彈性、低時延和高吞吐等方面的基礎(chǔ)性能問題。
復(fù)雜應(yīng)用的復(fù)合性能挑戰(zhàn):以游戲場景為例,其涉及復(fù)雜的圖形渲染,
以及物理環(huán)境模擬、人工智能算法等,既需要高性能單核算力,支撐Unity和Unreal
Engine等3D引擎的運行,也
需要可靠的的多線程并發(fā)能力,支持多玩家同步時的后臺任務(wù)處理和AI推理。游戲業(yè)務(wù)的周
期特性對于資源的彈性伸縮能力要求極高。此外,玩家數(shù)據(jù)的記錄也涉及頻繁的寫操作,需
要保持長連接、低時延的計算、存儲服務(wù)。當(dāng)前的游戲業(yè)務(wù)還廣泛使用到數(shù)智驅(qū)動,利用AI加速對玩家行為進行實時分析并提供個性化推薦。
存算分離架構(gòu)帶來網(wǎng)絡(luò)、存儲性能壓力:在大數(shù)據(jù)、數(shù)據(jù)庫場景中,存算分離架構(gòu)使計算節(jié)點和存儲節(jié)點之間的數(shù)據(jù)傳輸量大幅增加。大數(shù)據(jù)平臺運行時,
CPU負(fù)載普遍在60%以上,內(nèi)存帶寬利用率可高達80%以上。高負(fù)載情況下,保持算力的平穩(wěn)輸出非常重要,包括性能
的線性度指標(biāo)以及資源隔離的力度等。特別在是高密度計算環(huán)境下,單服務(wù)器下的租戶更
多,相關(guān)租戶之間的故障隔離以及緩存、存儲等資源的共享訪問問題會更加突出,既要確保
租戶之間運行不受任何影響,又不能以犧牲用戶訪問性能為代價。此外,多副本存儲策略在
面對存算分離架構(gòu)時也會帶來數(shù)據(jù)一致性的挑戰(zhàn)。
一些分布式事務(wù)處理涉及多個計算節(jié)點和存儲節(jié)點,進一步增加了系統(tǒng)設(shè)計和實現(xiàn)的復(fù)雜度。
云原生架構(gòu)帶來系統(tǒng)架構(gòu)和技術(shù)棧的新問題:例如如何處理微服務(wù)間頻繁的通信、復(fù)雜的拓?fù)?、多樣化存儲以及動態(tài)多變的負(fù)載等,并強化隔離保障安全。云服務(wù)商通過持續(xù)增強彈性
伸縮、Serverless以及統(tǒng)一運維等云原生解決方案的效能,幫助用戶降低成本。例如,在強
化彈性伸縮能力時,綜合運用編排調(diào)度(例如Kubernetes)、服務(wù)監(jiān)控、服務(wù)治理以及相關(guān)
的配置管理等云原生能力。062.2
Al數(shù)據(jù)處理與計算協(xié)同的復(fù)雜度激增傳統(tǒng)的云存儲和處理架構(gòu)難以高效應(yīng)對,存儲和傳輸成本也非常高昂。同時,AI算力需求持續(xù)高速增長,為保障AI系統(tǒng)的實時響應(yīng),云基礎(chǔ)設(shè)施需要在架構(gòu)層面做出創(chuàng)新,以應(yīng)對多種類型的挑戰(zhàn)。
數(shù)據(jù)處理挑戰(zhàn):除AI海量、多模態(tài)特征外,工業(yè)制造、醫(yī)療等領(lǐng)域的AI應(yīng)用所涉及的異構(gòu)數(shù)據(jù)多,格式和標(biāo)準(zhǔn)不統(tǒng)一,進一步導(dǎo)致管理和存儲成本的上升。在海量AI數(shù)據(jù)預(yù)處理過程中,非結(jié)構(gòu)化數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注等工作的效率往往不高,也嚴(yán)重影響了AI應(yīng)用目標(biāo)的達成。
協(xié)同計算挑戰(zhàn):
規(guī)?;腁I訓(xùn)練和推理任務(wù),往往采用分布式架構(gòu)執(zhí)行,參數(shù)同步時的通信需求巨大,傳統(tǒng)云網(wǎng)絡(luò)在高并發(fā)實時通信場景下難以滿足PB級數(shù)據(jù)傳輸?shù)牡脱舆t需求。同
時,很多AI任務(wù)混合使用CPU、GPU、TPU等算力,但一些云平臺對大量的異構(gòu)算力缺乏統(tǒng)
一管理和調(diào)度框架,算力有效利用率長期難以提升。
體驗與效率挑戰(zhàn):大量的AI模型服務(wù)以API形式向外輸出,當(dāng)云架構(gòu)設(shè)計不合理時,用戶端的高并發(fā)請求極易導(dǎo)致服務(wù)崩潰。值得注意的是,AI任務(wù)的多樣化意味著并非所有AI任務(wù)都適
合采用GPU集群方式進行處理。例如一些實時推薦、召回分析、游戲狀態(tài)管理等場景,需要
在數(shù)據(jù)庫的域內(nèi)完成模糊查找、匹配等操作,以滿足實時性和數(shù)據(jù)不出域的要求。2.3
國際化進程中的全球布局、合規(guī)與質(zhì)量一致性難題全球化業(yè)務(wù)對企業(yè)云計算的規(guī)模、彈性以及各項性能指標(biāo)的要求更高,技術(shù)實現(xiàn)相對復(fù)雜且成本高昂。各國家、地區(qū)的政策法規(guī)、基礎(chǔ)設(shè)施差異大,同時還要盡量保障全球服務(wù)質(zhì)量和體驗的一
致性,這無疑增加了企業(yè)全球化發(fā)展的難度。
云服務(wù)與算力網(wǎng)點布局問題:
在本土之外構(gòu)建云基礎(chǔ)設(shè)施,可能涉及土地、供電、人力等多項工作,組織協(xié)調(diào)難度極大。不同國家基礎(chǔ)設(shè)施發(fā)展水平不一,無論是中企出海還是外企入華,都會因不熟悉當(dāng)?shù)丨h(huán)境而困難重重,難以獲得理想的云服務(wù)與算力支持。此外,合規(guī)風(fēng)
險問題不容忽視,各國對數(shù)據(jù)存儲、跨境傳輸?shù)扔袊?yán)格規(guī)定,稍有不慎將面臨巨額罰款和聲
譽損失。
規(guī)模、性能與彈性需求:
不同市場的業(yè)務(wù)規(guī)模差異大,在海外拓展初期,業(yè)務(wù)波動往往較大,各地區(qū)的增長難以預(yù)測,這給云計算的技術(shù)需求規(guī)劃也帶來了難題。企業(yè)既要避免初期
大規(guī)模投入造成資源浪費,又要確保業(yè)務(wù)高峰時有足夠云計算資源支撐。部分地區(qū)的云服務(wù)
性能難以保證,數(shù)據(jù)的傳輸延遲和丟包率高,嚴(yán)重影響用戶端的響應(yīng)速度和綜合體驗。07
服務(wù)質(zhì)量與體驗一致性:很多大型企業(yè),對全球化業(yè)務(wù)的服務(wù)質(zhì)量和體驗一致性要求極高,確保用戶身處任何國家都期望獲得相同體驗、相同水準(zhǔn)的服務(wù)。但不同國家文化背景、使用
習(xí)慣和技術(shù)水平差異性,都會嚴(yán)重對上述目標(biāo)產(chǎn)生嚴(yán)重影響。這需要企業(yè)投入資源,兼顧全
球標(biāo)準(zhǔn)的建立以及本地化適配問題。2.4
安全、穩(wěn)定與成本的多元保障要求云計算的安全性與穩(wěn)定性直接影響用戶信任度,任何數(shù)據(jù)泄露或業(yè)務(wù)中斷均可能導(dǎo)致災(zāi)難性后果。
數(shù)據(jù)安全性—信任與合規(guī)的雙重考驗:
云計算的多租戶架構(gòu)和分布式存儲特性增加了數(shù)據(jù)被跨域非法訪問的風(fēng)險,在金融、醫(yī)療、零售等場景中,數(shù)據(jù)泄露可能引發(fā)災(zāi)難性后果。此
外,跨境數(shù)據(jù)傳輸需滿足各國嚴(yán)格的法規(guī)要求,稍有不慎便可能面臨巨大的風(fēng)險。
應(yīng)用穩(wěn)定性—Al與線上業(yè)務(wù)的雙重沖擊:
AI應(yīng)用的普及加劇了云計算的不確定性。模型訓(xùn)練需要應(yīng)對海量數(shù)據(jù)沖擊,推理服務(wù)對延遲非常敏感。同時,大量的線上業(yè)務(wù)依賴7×24小時高可用性,業(yè)務(wù)中斷或數(shù)據(jù)丟失都可能引發(fā)巨額經(jīng)濟損失。
運維復(fù)雜度—人力與資源的雙重負(fù)擔(dān):云計算的分布式架構(gòu)和動態(tài)資源調(diào)度需求增加了運維難度。大型企業(yè)可能使用跨區(qū)域、跨云環(huán)境下數(shù)以千計的實例,處理自動化擴容、故障轉(zhuǎn)移
等復(fù)雜任務(wù)。企業(yè)需投入大量的云原生開發(fā)和運維人才,采購昂貴的監(jiān)控與自動化工具等。
成本控制—算力性價比難題:企業(yè)多云集群和異構(gòu)計算資源的效率和適配不足,使算力成本長期居高不下,彈性能力的缺失造成的大量云實例閑置,也加劇了浪費現(xiàn)象。在企業(yè)加速
業(yè)務(wù)創(chuàng)新的背景下,大型企業(yè)的多業(yè)務(wù)線體系需要頻繁地應(yīng)付新業(yè)務(wù)上線部署時千奇百怪的需求,進一步產(chǎn)生了額外的高額開支和大量的重復(fù)建設(shè)。0803
解決方案阿里云第九代企業(yè)級ECS實例(ECS
g9i)基于“CIPU+飛天”技術(shù)架構(gòu),搭載英特爾?至強?
6性能核處理器(P-core),為包括數(shù)據(jù)庫、大數(shù)據(jù)、游戲在內(nèi)的多類場景帶來顯著的性能和體驗提升。CIPU作為新一代云計算管控和加速中心,
向下對數(shù)據(jù)中心的計算、存儲、網(wǎng)絡(luò)資源快速云化并進行硬件加速,向上接入飛天云操作系統(tǒng)實現(xiàn)彈性多租戶的安全隔離、性能優(yōu)化和成本控制,全方
位助力企業(yè)應(yīng)對在線業(yè)務(wù)的高并發(fā)、低延遲、高可用挑戰(zhàn)。,作為最新一代的至強?產(chǎn)品,英特爾?至強?
6性能核處理器經(jīng)過精心優(yōu)化,具備更出色的單核性能,更適合公有云工作負(fù)載,能夠為浮點運算、事務(wù)型數(shù)據(jù)庫和科學(xué)計算等工作負(fù)載提供更高的
單個
vCPU
性能。在核心數(shù)量、算力密度、內(nèi)存與
I/O
升級和AI
深度優(yōu)化,以及多場景性能上,
至強?
6性能核處理器均有全面突破。圖3.
英特爾?至強?代際演進最高單路內(nèi)核數(shù)第二代英特爾?至強?可
擴展處理器28
核代際規(guī)格第四代英特爾?至強?可
擴展處理器60
核英特爾?至強?6900性能核處理器128
核內(nèi)存6通道高達2933MT/s(DDR4)8通道高達4800MT/s(DDR5)12通道高達6400MT/s(DDR5)PCIePCIe3.0,48條通道PCIe5.0,
80條通道支持PCIe5.0,多達96條通道AI加速器AVX-512(VNNI)AMX/TMUL(INT8&BFloat16)&AVX-512(VNNI/INT8)AMX/TMUL(INT8&BFloat16,FP16)&AVX-512(VNNI/INT8)來源:
Intel09 至強?
6性能核處理器專為計算密集型工作負(fù)載而設(shè)計,計算單元基于英特爾3
制程工藝,最高配備
128
個性能核,當(dāng)前阿里云
ECS
g9i
采用高性能
120
核定制款。
支持多達
12
個通道
6400MT/s
的
DDR5,擁有高達
504MB
的三級共享緩存,96
條
PCIe5.0及
64
條
CXL2.0
通道。
新增對
FP16
數(shù)據(jù)格式的支持,可為AI
推理和機器學(xué)習(xí)(ML)等計算密集型工作負(fù)載提供優(yōu)于其他通用
CPU
的出色性能。同時,憑借其出色的Al
推理性能,英特爾
?
至強
?
6
性能核處理器也是全球眾多出色AI加速平臺用于支持?jǐn)?shù)據(jù)處理的機頭
CPU
優(yōu)選之一。除了以更多內(nèi)核為
ECSg9i
提供澎湃算力外,英特爾至強?6性能核處理器還能助力主流工作負(fù)載在
ECS
g9i
上實現(xiàn)顯著增益。與基于第五代英特爾
?
至強
?
處理器的
ECS
g8i
相比,ECS
g9i
的在線
游戲性能提升
15%,數(shù)據(jù)庫性能提升
17%,Web
應(yīng)用性能提升
20%。3.1
打造極致性能體驗,為傳統(tǒng)計算業(yè)務(wù)打開新空間1、在線業(yè)務(wù)至強
?
6
性能核處理器采用
Chiplet架構(gòu),處理器擁有
3
個計算芯粒,2
個
IO
單元芯粒,所有芯粒之間通過
EMIB
多芯片互連橋接封裝技術(shù)(Embedded
Multi-die
Interconnect
Bridge)技術(shù)進行高速連接。單個計算芯粒擁有最多43
個內(nèi)核,可以在同一計算芯粒內(nèi)高效地處理在線業(yè)務(wù),對于大規(guī)
模在線業(yè)務(wù)(如
web服務(wù)、緩存層、云原生微服務(wù))可以在一個
Die
內(nèi)分布完成,減少跨
Die
通信延
遲,更適合低延遲、大吞吐云業(yè)務(wù)場景。EMIB
高速封裝橋接技術(shù)使計算單元之間通過高速橋互聯(lián),
同一個計算芯粒內(nèi)無“非一致性內(nèi)存訪問”(NUMA)問題。在
SNC
(Sub
NUMA
Cluster)
模式下,關(guān)
鍵數(shù)據(jù)駐留在同一個芯粒的本地內(nèi)存/
緩存中,避免跨芯粒訪問的內(nèi)存延遲開銷,對高并發(fā)在線負(fù)
載和數(shù)據(jù)庫事務(wù)處理更有優(yōu)勢。(1)典型
Web
業(yè)務(wù)為應(yīng)對
Web
業(yè)務(wù)高并發(fā)、低延遲、動態(tài)流量波動大的特性,
ECSg9i
提供了強大的單核計算性能和彈性伸縮能力,從容應(yīng)對突發(fā)流量。完備的
QoS保障措施,能夠更好地實現(xiàn)多租戶環(huán)境下的性能穩(wěn)
定與資源公平分配。通過在硬件架構(gòu)上的一系列創(chuàng)新,至強
?
6
性能核處理器擁有強大的硬件加速
能力,可為計算、網(wǎng)絡(luò)資源帶來顯著提升。10
彈性伸縮:ECSg9i
對彈性伸縮能力進行了大幅優(yōu)化。單實例創(chuàng)建時間從
10s
縮減至4s,單規(guī)格單可用區(qū)的
1
萬實例交付時間從5
min
降低到
1min,從觸發(fā)彈性開始,30s
即可實現(xiàn)節(jié)點
就緒?;谥翉?/p>
?
6
性能核處理器所提供的英特爾
?SpeedSelect
技術(shù)(
英特爾
?SST),
ECSg9i
允許用戶調(diào)整
CPU
核心數(shù)量與時鐘頻率,以滿足特定計算需求
,例如可以從
120
核改配
到
96
核,以提高單核性能。在線主頻變配+芯?;軜?gòu)緩解資源緊張問題,一臺服務(wù)器可實現(xiàn)
靈活多檔配置,無需重新調(diào)度到其他機器或可用區(qū),用戶無需擔(dān)心可用區(qū)內(nèi)新實例資源不足的
問題。對于運行
7x24
的云原生業(yè)務(wù)和關(guān)鍵服務(wù)系統(tǒng),可持續(xù)提供SLA,業(yè)務(wù)連續(xù)性更強,無需
“停機換車”。
QoS
保障:ECSg9i
通過硬件虛擬化、CPU
的資源調(diào)度管理等多種優(yōu)化手段,實現(xiàn)了對存儲、網(wǎng)絡(luò)、內(nèi)存及計算資源的精細(xì)化隔離與保障,確保了項目租戶間的資源隔離,互不干擾。首先通
過英特爾
?資源調(diào)配技術(shù)
(英特爾?
RDT,
Intel
Resource
Direct
Technology)
的能力,提供了包含豐富組件的框架,可以跟蹤和控制平臺上同時運行的多個應(yīng)用程序、容器或VM使用的
緩存和內(nèi)存帶寬,確保復(fù)雜環(huán)境中關(guān)鍵業(yè)務(wù)負(fù)載的性能。英特爾還提供了基于硬件的動態(tài)內(nèi)存
帶寬控制技術(shù)(HWDRC),相對于靜態(tài)的內(nèi)存帶寬分配,HWDRC
進一步提高了內(nèi)存帶寬利用率。英特爾
?
數(shù)據(jù)直接
I/O
技術(shù)(英特爾
?
Data
Direct
I/O)是英特爾
?
集成
I/O
的關(guān)鍵功能,能
夠使處理器緩存成為
I/O
數(shù)據(jù)的主要目的地和來源,而無需像傳統(tǒng)
DMA
一樣通過主內(nèi)存中轉(zhuǎn),
進一步實現(xiàn)更高的帶寬、更低的延遲和更低的功耗。另外,在系統(tǒng)設(shè)計層面,基于
g9i
的底層硬
件,也實現(xiàn)支持處理器雙單路硬件架構(gòu)通過獨立供電與運行單元設(shè)計,在單路故障時仍可維持
另一單路穩(wěn)定運行,實現(xiàn)功耗隔離與故障隔離,保障系統(tǒng)持續(xù)穩(wěn)定運行。
QAT
硬件加速:英特爾?數(shù)據(jù)保護與壓縮加速技術(shù)(英特爾
?
QAT)專用加速引擎提供了帶外的獨立于
CPU
核心的額外壓縮
/
解壓算力和加解密算力,有效卸載
CPU
負(fù)載。QAT
支持豐富
的壓縮算法,既支持傳統(tǒng)的
de?ate
系列壓縮算法,包括
zlib,gzip
等格式,也支持壓縮速度極
快的
LZ4,以及速度和壓縮率比較均衡的
ZSTD等新型的壓縮算法,能滿足客戶大多數(shù)的算法
需求和多樣化的業(yè)務(wù)場景;QAT
支持主流的對稱加解密和非對稱加解密算法,可廣泛用于加速TLS
協(xié)議的握手階段以及后續(xù)數(shù)據(jù)塊的加解密,提升
Nginx服務(wù)以及其他使用
HTTPS/TLS
協(xié)
議的服務(wù)性能,適用于公司網(wǎng)關(guān)、加解密專用節(jié)點等場景;QAT還采用了
plugin
的方式,靈活
適配OpenSSL,讓眾多使用OpenSSL
的客戶能無縫切換到使用QAT,輕松啟用硬件加速能力。
eRDMA
網(wǎng)絡(luò)技術(shù):通過彈性遠程直接內(nèi)存訪問,端到端網(wǎng)絡(luò)延遲低至
8微秒,較傳統(tǒng)VPC
降低三分之二,有效支持大規(guī)模組網(wǎng)和高彈性需求。依托于
CIPU
架構(gòu),ECSg9i
實現(xiàn)了網(wǎng)絡(luò)資源
的靈活調(diào)配優(yōu)化,滿足各種高并發(fā)、低延遲的網(wǎng)絡(luò)需求。11(2)數(shù)據(jù)庫業(yè)務(wù)當(dāng)前的在線數(shù)據(jù)庫業(yè)務(wù)具有數(shù)據(jù)量大、計算量大、數(shù)據(jù)隨機訪問多、多核并發(fā)等典型特征,從不同類型數(shù)據(jù)庫的性能需求看,MySQL
高并發(fā)場景依賴多核與高主頻平衡;Redis
對單核性能(CPU
主頻)、內(nèi)存帶寬、時延都要求極高;
PostgreSQL
的復(fù)雜查詢依賴多核并行執(zhí)行與高緩存命中率,ClickHouse
分析型數(shù)據(jù)庫則更加需要向量計算加速。
優(yōu)化與性能提升:ECSg9i
針對關(guān)系型數(shù)據(jù)庫、Redis、向量數(shù)據(jù)庫以及壓縮/
解壓縮等數(shù)據(jù)處理與分析場景均具備針對性的優(yōu)化措施,數(shù)據(jù)庫場景的綜合性能較上一代提升
17%。
單核可用更大
L3
緩存:至強?
6性能核處理器的
L3
共享緩存高達504MB,相比前代提升顯著。在現(xiàn)代數(shù)據(jù)庫(如MySQL、PostgreSQL、Redis)中,大量查詢操作涉及對小數(shù)據(jù)塊的隨機訪問。更大的
L3緩存意味著這些熱數(shù)據(jù)可以更大概率“命中”緩存而不用落到主內(nèi)存,減少訪問延
遲。在單核查詢時,可以直接從超大共享
L3
中抓取數(shù)據(jù),避免等待
DRAM,顯著加速
QPS(每秒
查詢數(shù))和響應(yīng)時間,降低訪問延遲。比起“小
L3
+
多核”的設(shè)計,至強
?
6
的“大
L3
+
強核”架
構(gòu),能顯著降低
P99查詢延遲,穩(wěn)定服務(wù)體驗。2、離線數(shù)據(jù)處理業(yè)務(wù)針對離線數(shù)據(jù)處理業(yè)務(wù)的高吞吐計算能力、海量存儲彈性擴展、高效數(shù)據(jù)傳輸、低延遲網(wǎng)絡(luò)以及高容錯與數(shù)據(jù)可靠性保障等要求,ECSg9i
支持彈性臨時盤和高性能存儲解決方案,在本地
Shu?e
測試
場景中,單實例處理性能較上一代提升
12%,整機處理性能提升
10%。在數(shù)據(jù)挖掘、機器學(xué)習(xí)、數(shù)據(jù)
分析等領(lǐng)域中,ECS
g9i
可以為用戶提供更快速、更準(zhǔn)確的數(shù)據(jù)處理能力。
存儲性能升級:ECSg9i
彈性臨時盤單盤最大支持
100
萬
IOPS
和
4GB/s
吞吐。在大數(shù)據(jù)緩存加速場景中,這種高性能的存儲解決方案可以顯著提升系統(tǒng)的處理效率。支持
NVMe
ESSD
云
盤,訪問時延降低
10%。
l/O
帶寬:ECS
g9i
基于“飛天
+CIPU”技術(shù)架構(gòu),全面優(yōu)化升級云上普惠彈性
eRDMA
網(wǎng)絡(luò),依托
CIPU
高速雙上聯(lián)網(wǎng)絡(luò)能力,其時延降為傳統(tǒng)VPC
的三分之一,低至
8微秒,可實現(xiàn)大規(guī)模
組網(wǎng)及高彈性等優(yōu)勢,這有助于提升離線數(shù)據(jù)處理的
I/O
帶寬和效率。
高性能存儲:
ECSg9i支持存算分離架構(gòu),用戶可以根據(jù)業(yè)務(wù)需求靈活配置計算和存儲資源。例如在構(gòu)建數(shù)據(jù)存儲方案時,可以根據(jù)冷熱數(shù)據(jù)的不同需求,將數(shù)據(jù)存儲在
OSS(對象存儲服12務(wù))中,并通過
EED(臨時緩存盤)提供高性能的臨時存儲服務(wù)。這種架構(gòu)有助于提升離線數(shù)據(jù)處理的靈活性和效率。
內(nèi)存通道升級:至強
?6
性能核處理器內(nèi)存通道從
8
通道升級到
12
通道,能夠輸出更大的內(nèi)存帶寬和更高的數(shù)據(jù)傳輸速率,有助于進一步提升數(shù)據(jù)預(yù)處理任務(wù)的效率和體驗,特別是對于
需要處理大量數(shù)據(jù)的離線任務(wù)來說至關(guān)重要。3、游戲
/
量化交易業(yè)務(wù)游戲和量化交易業(yè)務(wù)均對實時性、計算性能與穩(wěn)定性要求嚴(yán)苛。例如游戲后臺必須持續(xù)低時延響應(yīng)玩家操作,以保障足夠流暢的體驗,同時,高幀率渲染和復(fù)雜環(huán)境模擬對后臺的計算資源需求極大。量化交易則依賴毫秒級行情捕捉、高頻策略計算與精準(zhǔn)訂單執(zhí)行,任何延遲或計算錯誤均可能導(dǎo)致
收益損失或風(fēng)險失控。ECS
g9i
除提供高性能、彈性、QoS
以及硬件加速等強大的在線業(yè)務(wù)支撐能力外,還特別具備以下保障優(yōu)勢:
高主頻時的穩(wěn)定性能:至強
?
6
性能核處理器在高主頻(包括睿頻)工作模式下,頻率抖動極其微小,能夠更好地在高主頻下保持持續(xù)穩(wěn)定的性能輸出。
可靠性:高品質(zhì)的硬件組件和先進的散熱技術(shù),確保了服務(wù)器的低故障率和高可靠性,最大程度避免故障導(dǎo)致的業(yè)務(wù)中斷和數(shù)據(jù)丟失。
海量規(guī)格智能篩選:在游戲業(yè)務(wù)高彈性場景下,針對海量規(guī)格實現(xiàn)了智能篩選,動態(tài)規(guī)格供給模式有效減少了資源碎片,降本幅度可達
20%。3.2
技術(shù)和架構(gòu)創(chuàng)新,提升
Al
時代的向量數(shù)據(jù)處理和協(xié)同計算效率1、數(shù)據(jù)預(yù)處理場景阿里云
ECSg9i在硬件層面與
SIMD指令集深度集成,支持英特爾
?
高級矢量擴展512(英特爾
?AVX-512)指令集,每個內(nèi)核擁有兩個512位融合乘加(FMA)單元,顯著加速AI、科學(xué)計算和數(shù)據(jù)庫
等工作負(fù)載中常見的向量運算。ECSg9i標(biāo)配支持處理器內(nèi)置的英特爾?
高級矩陣擴展
(Intel?13Advanced
Matrix
Extensions,
英特爾?AMX
計算加速引擎,并新增支持
FP16指令集,顯著提升AI數(shù)據(jù)預(yù)處理等場景的執(zhí)行效率。同時,基于SIMD指令集開發(fā)的軟件能夠在
ECSg9i
上無縫運行,
無需重寫代碼,方便開發(fā)者利用SIMD指令集的優(yōu)勢進行應(yīng)用優(yōu)化。英特爾在
SIMD指令集方面持續(xù)創(chuàng)新,從AVX
到AMX、VNNI等,在多媒體處理、量化交易、科學(xué)計算和人工智能等廣泛領(lǐng)域被開發(fā)者所使用,推動計算架構(gòu)從“標(biāo)量時代”向“向量時代”躍遷。2、訓(xùn)練場景至強
?6性能核處理器的Chiplet架構(gòu)集成3個計算單元與2個
IO
單元,每個計算單元支持多達43
個核,并利用
EMIB
高帶寬互聯(lián)與統(tǒng)一內(nèi)存一致性機制,帶來類似單芯片大
Die
的計算性能和響
應(yīng)效率。在很多AI
任務(wù)中,處理器可以直接支持對模型參數(shù)的操作,無需對數(shù)據(jù)進行跨
Die傳輸,從
而提升了響應(yīng)效率,增強了數(shù)據(jù)一致性保障。192
條
PCIe5.0
通道(單路
96
條)使
GPU
與
CPU
通
信延遲大大降低,消除
GPU
數(shù)據(jù)吞吐瓶頸。MoE
大模型的專家層參數(shù)可在
CPU
內(nèi)完整駐留,硬件
級內(nèi)存一致性協(xié)議(如
UPI2.0)確保多
GPU
共享參數(shù)時無需冗余同步,減少訓(xùn)練迭代延遲。目前主流的AI
計算架構(gòu)在采用
GPU
集群的同時,均大量使用了至強
?
系列處理器作為機頭
CPU
提供協(xié)
同計算、管理和資源分配等能力來提升系統(tǒng)性能和能效,
使工作負(fù)載的性能和總體擁有成本
(TCO)
之間達到更為理想的平衡點。憑借持續(xù)迭代的x86架構(gòu)技術(shù)優(yōu)勢,覆蓋芯片設(shè)計、軟硬件協(xié)同優(yōu)化的系統(tǒng)級解決方案及全鏈條生態(tài)整合能力,英特爾目前在人工智能服務(wù)器
CPU
的市場占據(jù)
80%
以上的份額
+。3、推理場景推薦系統(tǒng)作為AI在商業(yè)領(lǐng)域的成熟應(yīng)用,是電商、廣告等多行業(yè)的核心技術(shù)支撐。隨著數(shù)據(jù)量的激增,精準(zhǔn)洞察用戶需求、實現(xiàn)高效匹配成為競爭關(guān)鍵?,F(xiàn)代推薦系統(tǒng)融合深度學(xué)習(xí)與大數(shù)據(jù)分析技
術(shù),構(gòu)建起用戶需求與內(nèi)容展示間的精準(zhǔn)連接,既為用戶提供個性化服務(wù),又增強企業(yè)產(chǎn)品曝光、驅(qū)
動業(yè)務(wù)增長。算法的創(chuàng)新帶來模型與特征處理復(fù)雜度提升,對硬件算力提出更高要求。至強
?
6
性能
核處理器內(nèi)置的英特爾?AMX,搭配深度神經(jīng)網(wǎng)絡(luò)庫
(英特爾?oneAPI
Deep
Neural
NetworkLibrary,英特爾?oneDNN)、算子融合等軟件方案,實現(xiàn)對智能推薦系統(tǒng)AI推理的優(yōu)化加速,助力
提升系統(tǒng)準(zhǔn)確性與效率。推薦系統(tǒng)*
注:數(shù)據(jù)來自《IDC
中國加速服務(wù)器市場追蹤》。14隨著
LLM
模型參數(shù)量的逐漸增加,KV
cache
數(shù)據(jù)量也逐漸增加,意味著對
GPU
顯存容量的要求也越來越高。實際推理場景中,對于
KV
cache
的存儲優(yōu)化能大大提升推理系統(tǒng)的性能。為此,英特爾
?
QAT
重構(gòu)了
KV
Cache
存儲范式。結(jié)合至強
?
6
性能核處理器的多層統(tǒng)一內(nèi)存架構(gòu),將高頻訪問的
KV
索引駐留
GPU
顯存,溫數(shù)據(jù)存儲在
CPU
內(nèi)存中,而歷史上下文冷數(shù)據(jù)壓縮后存入本地硬盤或者
遠端對象存儲中,QAT
的超高壓縮解壓性能,使磁盤中的壓縮數(shù)據(jù)解壓縮到內(nèi)存并傳輸?shù)斤@存中的
延遲大大降低,提高用戶體驗的同時,節(jié)約了大量的
GPU
算力,實現(xiàn)了以存代算的總體設(shè)計模式。另外,在很多領(lǐng)域,綜合成本和效果兩方面因素,LLM
常通過參數(shù)壓縮量化、蒸餾等技術(shù)推動模型輕量化部署,尤其是
14B
參數(shù)以下的模型推理速度快,微調(diào)也更加方便,在很多中小企業(yè)或特定垂直
行業(yè)部署廣泛。針對此類需求,英特爾
?AMX
對矩陣計算、卷積、注意力機制等
LLM
核心算子進行
性能優(yōu)化,結(jié)合英特爾
?
oneDNN
和高效的算子融合、緩存分塊等軟件優(yōu)化技術(shù),大幅提升
LLM
推
理性能。內(nèi)部測試數(shù)據(jù)顯示,至強?
6
性能核處理器針對不同
LLM
的推理性能相比上一代處理器均
有革命性提升。圖4
英特爾處理器在中小規(guī)模LLM推理性能的表現(xiàn)受限于算力限制和成本要求等各種原因,NLP、CV
等傳統(tǒng)AI
模型仍占據(jù)重要位置,滿足多種業(yè)務(wù)和場景需求的精度和效果。英特爾?AMX以及英特爾?oneDNN能夠顯著優(yōu)化模型中的矩陣乘法和卷積等計算,并借助算子融合,緩存分塊等軟件優(yōu)化方案,結(jié)合英特爾?AVX-512
等向量加速指令
集,進一步為傳統(tǒng)AI
場景提供優(yōu)化加速。大語言模型(Large
Language
Models,
LLMs)傳統(tǒng)AI7.006.005.004.003.002.001.000.00 Intel
Xeon8592+(64c)Intel
Xeon
69XXPLlama-38BSummarization(1024/128)
int8/BSx*Llama-27BSummarization(1024/128)
int8/BSxGPT-J
6BSummarization(1024/128)
int8/BSx2.291.002.281.002.201.00Intel
GPT-J
6B
Chatbot(128/128)
int8/B
SxLlama-38B
Chatbot(128/128)
int8/BSx*Llama-27B
Chatbot(128/128)
int8/BSx1.741.001.531.00(
higher
is
better)No
rma
l
izedto8592+來源:
Intel152.401.003.3
強化硬件安全設(shè)計,持續(xù)增強安全保障能力ECSg9i
搭載的至強
?6
性能核處理器從架構(gòu)層面強化了內(nèi)部的一系列硬件安全和可靠性設(shè)計,通過與云軟件和虛擬化軟件的深度優(yōu)化,可以為用戶提供豐富的安全增強能力和可靠性保障。端到端安全防護隨著云部署成為主流,企業(yè)和用戶對數(shù)據(jù)安全性的要求不斷提升。英特爾早在第四代至強
?
處理器中就引入了英特爾?信任域擴展技術(shù)(英特爾
?TDX),它基于硬件的可信執(zhí)行環(huán)境,通過創(chuàng)建硬件
隔離的虛擬機(信任域)來保護敏感數(shù)據(jù)和應(yīng)用程序,防止未經(jīng)授權(quán)的訪問。異構(gòu)系統(tǒng)的廣泛應(yīng)用,數(shù)
據(jù)安全需求也延伸至GPU等加速器。為應(yīng)對這一挑戰(zhàn),英特爾在至強?6處理器中推出了
TDXConnect
技術(shù),實現(xiàn)
CPU
與加速器協(xié)同構(gòu)建統(tǒng)一的數(shù)據(jù)安全防護網(wǎng)。無論數(shù)據(jù)位于服務(wù)器
CPU
中
處理,還是在加速器中運行模型與計算任務(wù),TDX
Connect都能提供端到端的保護。它確保用戶數(shù)
據(jù)在云平臺處理的全流程始終受到硬件級防護,兼顧安全性與高效性,有效隔離主機操作系統(tǒng)、虛擬機管理器和底層固件等系統(tǒng)軟件對用戶數(shù)據(jù)的越權(quán)訪問,同時確保數(shù)據(jù)在高速
I/O鏈路中傳輸?shù)陌?/p>
全。ECSg9i
中深度集成了TDX技術(shù),推出了面向機密計算場景的虛擬機產(chǎn)品。這些實例利用TDX
提供的硬件級隔離能力,構(gòu)建了真正意義上的“信任域”,確保客戶在云端運行的應(yīng)用和數(shù)據(jù),即使在
共享的多租戶環(huán)境中,也能獲得媲美物理隔離級別的安全保障。穩(wěn)定增強至強?6性能核處理器支持
ECSg9i
硬件實現(xiàn)雙單路設(shè)計,能夠有效降低故障時的爆炸半徑,并實現(xiàn)故障時自動切換,降低業(yè)務(wù)中斷風(fēng)險。相當(dāng)于為云計算系統(tǒng)安裝了兩個相互獨立的“心臟”,給穩(wěn)定
性上了“雙保險”,推動安全從“事后補救”轉(zhuǎn)向“事前預(yù)防”。此外,至強?
6性能核處理器還進一步強化了
RAS(Reliability,
Availability,Serviceability)特性。通過一系列創(chuàng)新功能顯著提升系統(tǒng)的穩(wěn)定性、可靠性和可維護性,
旨在最大化平均故障間隔時間(MTTF)并最小化平均修復(fù)時間(MTTR),使系統(tǒng)在故障發(fā)生時能夠快速恢復(fù)并繼續(xù)運行:
可靠性:至強?
6性能核處理器具備出色的錯誤檢測與糾正能力,能實時監(jiān)測數(shù)據(jù)傳輸和計算過程,及時糾錯,保障高并發(fā)和大數(shù)據(jù)量時的數(shù)據(jù)準(zhǔn)確性。硬件冗余設(shè)計也確保了關(guān)鍵部件有備
份,故障時備份可迅速接管,提升系統(tǒng)可靠性。
可用性:具備良好溫度適應(yīng)性、電壓穩(wěn)定性與抗干擾能力,能長時間、高負(fù)載完成計算任務(wù)。還支持熱插拔,方便在系統(tǒng)運行時更換故障部件,減少維護時間,提高系統(tǒng)可用性。16可維護性:至強
?
6
性能核處理器提供遠程管理功能,管理員可遠程監(jiān)控、管理處理器狀態(tài),進行故障診斷與修復(fù),提升維護效率。此外,配備專業(yè)診斷工具,能提供詳細(xì)系統(tǒng)信息和故障日志,
助力技術(shù)人員快速定位并解決硬件問題。3.4
全球一致的云服務(wù)能力體系,全面助力企業(yè)國際化戰(zhàn)略阿里云
ECS
已通過全球
29
個數(shù)據(jù)中心、88
個可用區(qū)為用戶提供安全、完整的算力規(guī)格,
支撐廣泛的應(yīng)用負(fù)載運行,ECS
具備一致的、跨區(qū)可用的高可用架構(gòu)自動恢復(fù)能力,
并提供統(tǒng)一的開發(fā)與運
維體驗,相關(guān)產(chǎn)品已通過多方國際安全認(rèn)證。未來,全球各節(jié)點都會全面部署搭載至強
?
6
性能核處理器的
ECSg9i
實例產(chǎn)品,結(jié)合各節(jié)點前期持續(xù)使用的英特爾?至強?
系列處理器,用戶完全無需
擔(dān)心系統(tǒng)和數(shù)據(jù)的平滑遷移問題。阿里云
ECS
g9i
產(chǎn)品及其配套的全球化、體系化服務(wù)能力,將為中
國企業(yè)的國際化戰(zhàn)略提供以下強大保障:
全球部署:除上述全球數(shù)據(jù)中心和可用區(qū)資源外,阿里云還擁有超3200
個邊緣節(jié)點提供本地化就近部署能力,資源可靈活彈性擴展,滿足對網(wǎng)絡(luò)時延要求高的場景,可為中國企業(yè)遍布全球
的分支機構(gòu)或生產(chǎn)基地等提供邊緣計算資源和網(wǎng)絡(luò)接入。2025
年,阿里云已在海外投資新建多
個中心區(qū)域,涉及歐洲、南美、北美、東南亞等地域,這些數(shù)據(jù)中心即將陸續(xù)開服,為中國企業(yè)當(dāng)
地業(yè)務(wù)開展提供更多更優(yōu)質(zhì)的選擇
彈性大規(guī)模:彈性架構(gòu)能夠有效應(yīng)對出海企業(yè)的業(yè)務(wù)流量高峰,確保業(yè)務(wù)的穩(wěn)定性和連續(xù)性。在應(yīng)用層,阿里云推出了ACK
容器集群,基于用戶負(fù)載特征的預(yù)調(diào)度技術(shù),ACS
Pod
每分鐘擴
容速度提升至
10000
個,單集群最大可支持
15000
節(jié)點。
跨區(qū)可用性和一致性:企業(yè)在不同國際化階段的建設(shè)需求和策略有所不同:在起步階段,企業(yè)通常會選擇一個局部地域進行集中化部署,以便快速在全球開展業(yè)務(wù),服務(wù)全球客戶;在擴張
階段,企業(yè)一般采用單元化架構(gòu),按國家或地域維度來建設(shè),從而更好地支持本地業(yè)務(wù)發(fā)展;當(dāng)
企業(yè)進入成熟期后,為了給客戶提供更優(yōu)質(zhì)的服務(wù),會更加注重服務(wù)的穩(wěn)定性和運營的精細(xì)化,
進而更加關(guān)注業(yè)務(wù)數(shù)在全球多活容災(zāi)、成本控制和性能優(yōu)化等能力。阿里云在全球不同地域提供的云產(chǎn)品具有高度一致的服務(wù)體驗和服務(wù)質(zhì)量,有效滿足企業(yè)客戶在全球化不同階段的高標(biāo)
準(zhǔn)服務(wù)需求。例如,阿里云ACK
One
作為面向混合云、多集群、容災(zāi)等場景推出的企業(yè)級云原
生平臺,可以連接和管理任何地域、任何基礎(chǔ)設(shè)施上的
Kubernetes
集群,并提供一致的管理,
支持對應(yīng)用、流量、安全、存儲、可觀測等進行統(tǒng)一管控。17在智能駕駛的競速賽道上,數(shù)據(jù)是驅(qū)動進化的核心燃料。小鵬汽車,作為中國智能電動汽車的先鋒,其海量車機視頻數(shù)據(jù)的實時處理與分析能力,直接決定了算法迭代與用戶體驗優(yōu)化的速度。面對日
均
PB
級數(shù)據(jù)的切分、轉(zhuǎn)碼等預(yù)處理挑戰(zhàn),小鵬汽車選擇與阿里云彈性計算深度合作,基于第九代企
業(yè)級實例
ECS
g9i,構(gòu)建了高效、穩(wěn)定的數(shù)據(jù)處理基座。
業(yè)務(wù)痛點:海量數(shù)據(jù)的預(yù)處理之難原始數(shù)據(jù)體量巨大、格式各異,必須經(jīng)過高效的切分、轉(zhuǎn)碼、標(biāo)注等預(yù)處理,才能“喂食”給后續(xù)的AI模型訓(xùn)練與仿真驗證流程。隨著數(shù)據(jù)的指數(shù)級增加,以往的數(shù)據(jù)處理逐漸面臨性能上的挑戰(zhàn)。同時為
了不影響模型迭代周期,數(shù)據(jù)處理的時效也需要更加快速。
解決方案與客戶價值:第九代企業(yè)級實例
g9i,基于自研“CIPU+
飛天”技術(shù)架構(gòu),搭搭載英特爾
?
至強
?
6處理器,軟硬協(xié)同優(yōu)化,助力小鵬提升數(shù)據(jù)預(yù)處理效率,顯著降低算力成本:
性能與性價比提升:相比第八代實例,ECS
g9i單核算力最大提升
20%,通過
3.6
GHz
全核睿頻,504MB超
大
L3緩
存,可
保障
高
并
發(fā)
場
景
流暢響
應(yīng)。采
用
原
生
硬
件
加
密
QAT技
術(shù),集
成
SSL/TLS
加密、壓縮/
解壓縮加速引擎,可從
CPU
卸載計算密集型對稱和非對稱加密以及數(shù)據(jù)
壓縮/
解壓縮操作,釋放
CPU
資源,使海量自動駕駛數(shù)據(jù)出入數(shù)據(jù)庫時的透明壓縮和解壓等任
務(wù)更高效,顯著降低算力成本。
穩(wěn)定可靠,持續(xù)運行:
ECS
g9i
的雙單路設(shè)計,能夠有效降低故障時的爆炸半徑,并實現(xiàn)故障時自動切換,降低業(yè)務(wù)中斷風(fēng)險,為小鵬
7x24
小時不間斷的數(shù)據(jù)處理業(yè)務(wù)提供了堅實保障,確保
了研發(fā)進程不受中斷。04
優(yōu)秀實踐分析4.1小鵬汽車18微幀科技(Visionular)作為領(lǐng)先的視頻編碼與超高清服務(wù)提供商,深耕視頻編碼、深度學(xué)習(xí)、圖像處理等領(lǐng)域
20
余年。公司擁有自研的核心編碼引擎,為長視頻、短視頻、直播、RTC等全視頻場景提供
智能化解決方案,目前已與國內(nèi)外
100
多家頭部企業(yè)達成合作,每月處理視頻超
15億分鐘,覆蓋從
云端到終端的全鏈路視頻服務(wù)。
業(yè)務(wù)痛點:
高性能算力需求:釋放自研編碼內(nèi)核技術(shù)潛力微幀科技自研的編碼內(nèi)核需要高性能算力平臺,滿足超高清視頻處理的計算強度需求。在視頻編碼前,需要運用降噪、畫質(zhì)增強等AI預(yù)處理技術(shù)對原始視頻進行優(yōu)化,這需要強大的算力支
持,用以在壓縮過程中保障畫質(zhì)。
高彈性資源適配:應(yīng)對算力密集型業(yè)務(wù)潮汐波動作為算力密集型服務(wù),編解碼業(yè)務(wù)面臨顯著的流量潮汐特征,需構(gòu)建可快速擴縮容的海量算力池,實現(xiàn)資源供給與業(yè)務(wù)需求的動態(tài)匹配。
成本優(yōu)化訴求:平衡算法迭代與資源效率的雙重目標(biāo)在支撐算法引擎持續(xù)迭代與應(yīng)對業(yè)務(wù)流量波動的過程中,需通過彈性資源調(diào)度機制優(yōu)化算力成本,避免資源閑置損耗,實現(xiàn)技術(shù)投入與運營效率的平衡。
解決方案:
高性能算力底座:ECSg9i
為視頻編碼前的AI預(yù)處理提供了有力保障,確保降噪、畫質(zhì)增強等操作能夠快速、精準(zhǔn)執(zhí)行,充分釋放解碼引擎的技術(shù)潛能。
全球化算力網(wǎng)絡(luò),多地域部署靈活覆蓋:依托阿里云在國內(nèi)和國際核心地域的完善基礎(chǔ)設(shè)施,微幀科技得以構(gòu)建大規(guī)模算力服務(wù)網(wǎng)絡(luò),支持業(yè)務(wù)就近部署,確保為用戶提供低延遲、高可用的
優(yōu)質(zhì)算力供給。
彈性資源調(diào)度,搶占式實例即開即用:ECSg9i結(jié)合搶占式實例模式,通過智能調(diào)度實現(xiàn)算力資源的“即開即用、動態(tài)彈性”,使業(yè)務(wù)能夠靈活、高性價比地應(yīng)對業(yè)務(wù)潮汐需求。4.2微幀科技19
客戶價值:
編解碼效率提升:ECSggi為微幀科技的WZ264/265及AV1編碼效率帶來了突破性提升。其中,AV1推理耗時優(yōu)化超50%,4K處理效率提升35%,顯著提高了視頻編解碼的處理速度和質(zhì)量。
業(yè)務(wù)全面加速:依托阿里云國內(nèi)核心地域及基礎(chǔ)設(shè)施,構(gòu)建就近接入網(wǎng)絡(luò),為業(yè)務(wù)提供低延遲算力支撐,加速了AI預(yù)處理和編碼全流程。
智能調(diào)度降本增效:通過采用任務(wù)觸發(fā)彈性+Spot
實例策略,微幀科技在非實時任務(wù)處理上成本最多能實現(xiàn)降低
60%,資源利用率可提升至85%。20廈門真有趣信息科技有限公司,專注于移動游戲研發(fā)、全球化發(fā)行及原創(chuàng)
IP孵化,累計服務(wù)超
2億全球玩家。其多人競技射擊手游作品嘎嘎射擊融合了快節(jié)奏動作與視覺,推出即登上熱門游戲榜單。
業(yè)務(wù)痛點:
并發(fā)性能瓶頸:游戲內(nèi)物理引擎計算、實時彈道模擬、百人同屏戰(zhàn)斗等場景對
CPU算力需求極高。原有基于老舊實例的基礎(chǔ)設(shè)施在高峰時段
CPU利用率長期飽和,導(dǎo)致服務(wù)器響應(yīng)延遲顯著
增加,玩家競技體驗受到影響。
穩(wěn)定性危機:DAU快速攀升,尤其在版本更新或大型活動期間,流量洪峰使老舊實例不堪重負(fù),頻繁出現(xiàn)服務(wù)抖動,運維團隊疲于應(yīng)對突發(fā)故障,游戲口碑面臨風(fēng)險。
成本與彈性失衡:傳統(tǒng)服務(wù)器架構(gòu)難以在業(yè)務(wù)高峰(如新賽季開啟)與低谷期之間實現(xiàn)資源的敏捷伸縮,既無法保障高峰體驗,又在低谷期造成資源閑置與成本浪費。
解決方案:為應(yīng)對上述挑戰(zhàn),真有趣采用阿里云基于英特爾?至強?6
處理器的
ECS
g9i
實例構(gòu)建高性能游戲架構(gòu),結(jié)合阿里云全棧云服務(wù)實現(xiàn)端到端優(yōu)化:
高性能計算底座:ECSg9i
單核算力最大提升20%,搭配3.6G
Hz全核睿頻與504MB
超大
L3緩存通過“飛天”云操作系統(tǒng)的智能調(diào)度,實現(xiàn)跨可用區(qū)算力負(fù)載均衡,確保團戰(zhàn)場景下邏輯處
理延遲縮小,消除操作卡頓。
彈性擴展體系:基于阿里云彈性伸縮,實時監(jiān)測
CPU利用率、開服峰值期快速擴展,資源部署效率提升
30%,低谷期自動縮減至基礎(chǔ)集群,顯著降低
IT
成本。
客戶價值:
極致性能支撐爆款落地:ECS
g9i
助力《嘎嘎射擊》開服首周
DAU
突破20
萬,多人團戰(zhàn)場景性能提升30%。
資源效率與成本雙重優(yōu)化:算力成本降低
26%,CPU
資源利用率顯著提升,實現(xiàn)“峰值不卡頓、低谷不浪費”的精細(xì)化運營。4.3嘎嘎射擊21螞蟻數(shù)字科技是螞蟻集團的技術(shù)商業(yè)化業(yè)務(wù)部門,ZOLOZ是螞蟻數(shù)科的身份安全品牌,產(chǎn)品囊括可信身份認(rèn)證、反洗錢、終端安全等,為中國、印尼等
14
個國家和地區(qū)的
70
余家合作伙伴提供技術(shù)服
務(wù)。ZOLOZ
RealId
產(chǎn)品采用深度學(xué)習(xí)模型提供實人認(rèn)證、人臉識別、證件核驗等組合能力,幫助客
戶解決數(shù)字化渠道下實人認(rèn)證相關(guān)的體驗和安全問題,應(yīng)用于金融業(yè)務(wù)核身、人證核驗、人臉登錄等
多種場景。
業(yè)務(wù)痛點:讓金融機構(gòu)能夠快速構(gòu)建專屬的智能體,以“數(shù)字員工”的身份處理客戶咨詢、執(zhí)行交易、分析報告、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 手工制作:石頭畫彩繪教程分享
- 虛擬化技術(shù)應(yīng)用探討
- 起點2025年7月全勤制度
- 財務(wù)付款的制度
- 評估督導(dǎo)聯(lián)席會議制度
- 設(shè)備和搶救物品使用的制度
- 要嚴(yán)格執(zhí)行請休假制度
- 血培養(yǎng)的危急值的報告制度
- 2025年報名入口官網(wǎng) 事業(yè)單位考試及答案
- 2025年環(huán)境監(jiān)測中心事業(yè)編考試及答案
- 破產(chǎn)管理人業(yè)務(wù)培訓(xùn)制度
- 環(huán)境應(yīng)急培訓(xùn)課件
- 2026河南鄭州信息工程職業(yè)學(xué)院招聘67人參考題庫含答案
- 2026年中國煙草招聘筆試綜合知識題庫含答案
- 安排工作的協(xié)議書
- 醫(yī)療機構(gòu)藥品配送服務(wù)評價體系
- 業(yè)務(wù)持續(xù)性與災(zāi)難恢復(fù)模板
- 婦科微創(chuàng)術(shù)后護理新進展
- 工藝類美術(shù)課件
- 2025年小學(xué)蔬菜頒獎典禮
- MFC2000-6微機廠用電快速切換裝置說明書
評論
0/150
提交評論