2025年AI存儲系統(tǒng)需求研究_第1頁
2025年AI存儲系統(tǒng)需求研究_第2頁
2025年AI存儲系統(tǒng)需求研究_第3頁
2025年AI存儲系統(tǒng)需求研究_第4頁
2025年AI存儲系統(tǒng)需求研究_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI存儲系統(tǒng)需求研究系容量與時延的需求呈指數(shù)級增長。本文系統(tǒng)梳理了AI在“訓(xùn)練-推理-新學(xué)術(shù)與產(chǎn)業(yè)數(shù)據(jù),本文定量分析了PCIe4.0/5.0/6.0/7.0在不同模型 2 2 3 3 4 4 7 7 13 15 19 22 26 (六)近存計算(Near-DataProcessin 30 1一、研究有關(guān)的技術(shù)現(xiàn)狀綜述主導(dǎo)”逐步演化為“存儲主導(dǎo)”的新范式。本文立足于訓(xùn)練、推理與本地部署三大階段,將之細(xì)分為8個階段,并據(jù)此系統(tǒng)線帶寬與AI負(fù)載需求之間的結(jié)構(gòu)性錯位,并提出“帶寬赤字指數(shù)的實(shí)證剖析,所得結(jié)論可復(fù)現(xiàn)、可推廣,無需額外虛擬實(shí)驗(yàn)。研究發(fā)現(xiàn),PCIe帶寬的線性演進(jìn)已難以匹配模型規(guī)模的指數(shù)級推理階段則因KV-Cache隨機(jī)讀放大而持續(xù)承壓;邊緣與終端場景雖高帶寬、低延遲的主干通路;UCIe與硅光在封裝與板級實(shí)現(xiàn)“面積換帶寬”;NDP則通過“計算駐留”范式顯著減少PCIe往返次數(shù),從而與PCIe/CXL形成互補(bǔ)緩沖帶。產(chǎn)業(yè)公開時間表表明,CXL3.12基礎(chǔ)設(shè)施有望在2027年前實(shí)現(xiàn)帶寬赤字的最優(yōu)解,為后續(xù)萬億級參二、AI時代的存儲挑戰(zhàn)(一)AI計算范式的轉(zhuǎn)變與存儲需求與傳統(tǒng)計算截然不同的存儲訪問特征?,F(xiàn)代AI模型參數(shù)規(guī)模呈指數(shù)需要約700GB存儲空間,遠(yuǎn)超傳統(tǒng)GPU設(shè)備的板載內(nèi)存容量。帶寬需求:矩陣乘法等核心AI運(yùn)算呈現(xiàn)出高度規(guī)律的內(nèi)存模式,但需要極高的持續(xù)帶寬。研究表明,典型Transformer層的計3(二)存儲墻問題的加劇模型時,計算核心的利用率僅為峰值理論值的35-45%,主要瓶頸在于存儲子系統(tǒng)無法及時供應(yīng)數(shù)據(jù)。這種差距隨著AI模型復(fù)雜度的提(三)存力問題的瓶頸分析與解決策略容量與時延的需求呈指數(shù)增長。本文系統(tǒng)梳理了AI在“訓(xùn)練-推理-本地部署”三大階段的存儲流量特征,指出PCIe總線帶寬已逐漸落最新學(xué)術(shù)與產(chǎn)業(yè)數(shù)據(jù),本文定量分析了PCIe4.0/5.0/6.0/7.0在不同模4三、AI應(yīng)用不同階段對存儲系統(tǒng)的要求分析3-4年僅提升一倍。在千卡/萬卡訓(xùn)練集群里,GPU利用率因數(shù)據(jù)等練的新需求。因此,對AI全生命周期存儲需求的系統(tǒng)性審視已刻不達(dá)80GB×8=640GB;多輪微調(diào)和強(qiáng)化學(xué)習(xí)(RLHF)階段產(chǎn)生的翻倍,但扣除128b/130b編碼、TLP開銷與DMA爭統(tǒng)半導(dǎo)體行業(yè)的演進(jìn)節(jié)奏,形成一條獨(dú)立于摩爾定律的“AIScaling5為了量化這一缺口,我們收集了2018—2024年間公開發(fā)表的在產(chǎn)業(yè)實(shí)踐中,PCIe瓶頸已帶來可量化的經(jīng)濟(jì)損失。MetaGPT-MoE-1.76T,每兩小時需落盤一次Checkpoint。單節(jié)點(diǎn)需寫入6云端推理側(cè)的情況同樣嚴(yán)峻。以某頭部云廠商的千卡H800推理集群為例,70B參數(shù)的FP16模型經(jīng)KV-Cache在序列長度16k、批大小32時高達(dá)9GB。生成一個超移動應(yīng)用“首屏1s”體驗(yàn)紅線。實(shí)測顯示,即使采用4-bit量化7?訓(xùn)練、推理、終端三線同時受壓,PCIe瓶頸從“性能隱患”(二)AI存儲流量的模型經(jīng)過對現(xiàn)有的人工智能系統(tǒng)的公開資料的分析難就,我們對AI(三)AI存儲系統(tǒng)需求研究方案81.宏觀數(shù)據(jù)視角:八階段生命周期劃分(4)Checkpoint:周期性保(5)微調(diào):LoRA/QLoRA/R(7)邊緣服務(wù):城市級CDN節(jié)點(diǎn)緩存權(quán)重切片,提供高并發(fā)據(jù)類型、讀寫比例、隨機(jī)/順序特征六項元數(shù)據(jù),為后續(xù)帶寬建模提2.微觀實(shí)驗(yàn)平臺:四組異構(gòu)集群9),),),所有節(jié)點(diǎn)均通過400GbENDRInfiniBand組成樹狀網(wǎng)絡(luò),使用3.分析模型:BDI與流量公式):4.階段級流量公式),5.數(shù)據(jù)采集與清洗信度,為后續(xù)章節(jié)定量分析PCIe瓶頸提供了堅四、人工智能系統(tǒng)從訓(xùn)練到應(yīng)用的八個階段的存儲需求(一)階段1:數(shù)據(jù)攝取(DataIngestion)數(shù)據(jù)攝取是AI生命周期中首個大規(guī)模暴露PCIe帶寬約束的1.公開語料規(guī)模與攝取窗口ArXiv等主流集合為例,公開解壓后總量已逾十PB級,且仍在以鏈路長期處于飽和邊緣,GPU等待語料加載的空轉(zhuǎn)時間隨之上升,2.瓶頸的系統(tǒng)性成因3.公開緩解策略與范式遷移RDMA-over-Converged-Eth分層糾刪與差分壓縮:通過公開Reed-Solomon庫與Zstandard零拷貝流水線:利用io_uring與DPDK將NICingress直接DMA至NVMe,避免內(nèi)存中轉(zhuǎn)。上述策略均已在HuggingFaceDatasets、Linux主線與主流云SDK中得到合入,4.對后續(xù)階段的啟示主機(jī)仲裁與存儲寫放大的系統(tǒng)性耦合。通過RDMA、糾刪與零拷貝(二)階段2:預(yù)處理(Pre-processing)與Shuffle為主,然而公開的運(yùn)維記錄與社區(qū)實(shí)踐均表明,PCIe鏈1.公開語料特征與處理范式2.鏈路瓶頸的深層機(jī)理隨機(jī)寫卻因pagefault與cac公開社區(qū)已觀察到,當(dāng)并發(fā)進(jìn)程數(shù)超過CPULLC容量時,PCIe通道出現(xiàn)長時間空閑-突發(fā)交替,形成“脈沖式”負(fù)載,進(jìn)一步放大了3.范式遷移:從搬運(yùn)到駐留分區(qū)shuffle:將全局隨機(jī)重排拆分為兩級局部重排,減少隨機(jī)列式編碼:采用公開Parquet/Zstandard組合,把順序掃描與隨4.對后續(xù)階段的連鎖影響率下降約3-4%,呈線性放大關(guān)系。因此,預(yù)處理鏈路優(yōu)化不僅關(guān)(三)階段3:訓(xùn)練(Training)訓(xùn)練階段歷來被視為AI生命周期中算力與存儲交匯最為激烈而是由梯度同步與Checkpoint寫入兩種截然不同的流量形態(tài)交替主1.流量形態(tài)的公開刻畫不約而同地將訓(xùn)練流程拆分為“前向—反向—梯度All-Reduce—2.瓶頸的系統(tǒng)性成因瓶頸并非單一路徑速率不足,而是“突發(fā)洪峰”與“全局同步”練步長可延長至原周期的1.5倍以上,且該放大效應(yīng)隨節(jié)點(diǎn)規(guī)模線性增長。因此,訓(xùn)練階段的瓶頸本質(zhì)上是“全局一致性與局部帶寬”3.范式遷移:從洪峰削峰到一致性解耦異步持久化:利用公開DeepSpeedCheckpointEngine將寫盤與4.對后續(xù)階段的連鎖啟示(四)階段4:Checkpoint節(jié)點(diǎn)達(dá)成全局屏障后瞬時完成,任何局部延遲都會通過N致指出,PCIe鏈路在這一瞬時被推至飽和,且該飽和并非由持續(xù)高1.公開語義的共識Meta、Google、Microsoft在2023-2024年的公開報告中,將效,訓(xùn)練任務(wù)即進(jìn)入“全局停頓”,GPU利用率隨之?dāng)嘌率?.范式遷移:從同步到異步異步持久化:利用公開DeepSpeedCheckpointEngine將寫盤與3.對后續(xù)階段的連鎖影響(五)階段5:微調(diào)(Fine-tuning)1.公開語義的演變微調(diào)腳本,均將流程抽象為“凍結(jié)主干—注入適配器—增量訓(xùn)練”。盤。公開運(yùn)維記錄顯示,該模式使得PCIe峰值需求由“權(quán)重洪峰”2.瓶頸的深層機(jī)理切換時,易觸發(fā)緩存回寫與pagefault,導(dǎo)致尾部延遲放大。公開合3.范式遷移:從全量到增量遠(yuǎn)端內(nèi)存池:通過公開CXLMemoryServer4.對后續(xù)階段的連鎖啟示微調(diào)階段的鏈路優(yōu)化不僅影響本階段效率,更通過Checkpoint(六)階段6:推理(Inference)的“模型加載”,而是KV-Cache的隨機(jī)讀放大與微服務(wù)實(shí)例爆炸1.公開語義的轉(zhuǎn)變2.瓶頸的深層機(jī)理并發(fā)則使得同一權(quán)重被多次復(fù)制,導(dǎo)致鏈路出現(xiàn)“熱點(diǎn)”與“長尾”并存的現(xiàn)象。公開運(yùn)維記錄顯示,當(dāng)并發(fā)實(shí)例超過閾值時,PCIe鏈3.范式遷移:從熱點(diǎn)到冷點(diǎn)4.對后續(xù)階段的連鎖啟示(七)階段7:邊緣服務(wù)(EdgeServing)一階段不再追求千卡級吞吐,而是要在10-100ms延遲SLA下,同時支撐數(shù)萬并發(fā)會話,并把功耗、帶寬、TCO壓到極1.公開部署規(guī)模),25-100Gbps,并發(fā)QPS1k-3k/卡。2.單節(jié)點(diǎn)PCIe需求模型3.權(quán)重分片廣播邊緣節(jié)點(diǎn)無法存放完整70B模型,需從中心拉取LoRA適配);基礎(chǔ)權(quán)重切片8GB(INT4),通過BitTorrent-over-RDMA下4.微服務(wù)實(shí)例爆炸),5.網(wǎng)絡(luò)卸載與PCIe減負(fù)6.功耗與散熱邊界但散熱密度2.4kW/4U需液冷后門熱交換器,PCIeretimer溫7.成本與TCO但通過把20%流量留在邊緣,回傳成本下降25%,三年內(nèi)邊緣節(jié)點(diǎn)上聯(lián)25-100Gbps,單節(jié)點(diǎn)PCIe4.0×16凈權(quán)重分片廣播與微服務(wù)實(shí)例爆炸可把PCIe讀帶寬瞬時提高到70-90GB/s,需通過共享內(nèi)存映射與DPU卸載解決;(八)階段8:終端離線(On-device)1.終端芯片的PCIe通道現(xiàn)狀),),過8-16GB/s。2.模型規(guī)模與存儲需求),3.權(quán)重加載的PCIe瓶頸):4.KV-Cache的內(nèi)存vs.PCIe博弈統(tǒng)一內(nèi)存架構(gòu)下,KV-Cache直接位于GPUHBM,無需PCIe當(dāng)序列>4ktoken時,KV溢出到系統(tǒng)DRAM,通過128-bitLPDDR5-7500(96GB/s)交換,PCIe通道5.分層存儲的官方案例Samsung2024年白皮書《LPDDR5X-該案例證明,端側(cè)大容量HBM可直接消除6.NPU與近存計算QualcommHexagonNPU7.成本與商業(yè)權(quán)衡CounterpointResearch次性加載需4-5s,超出用戶容忍;五、人工智能應(yīng)用對存儲系統(tǒng)的壓力評測方法(一)帶寬赤字指數(shù)(BDI)與展望1.BDI定義與公式其中“單鏈路凈荷帶寬”按照PCI-SIG公開規(guī)范扣除編碼與協(xié)2.公開數(shù)據(jù)計算匯總圖1列出2023-2024年已公開場景的BDI結(jié)果(數(shù)據(jù)來源3.2025-2027預(yù)測2025年預(yù)計出現(xiàn)1T參數(shù)稠密模型(OpenAI公開訪談,圖2公開路線打分情況4.產(chǎn)業(yè)共識2025-2027年1T-10T模型將把BDI推高至3-6,PCIe(二)PCIe6.0/7.0技術(shù)透視1.標(biāo)準(zhǔn)發(fā)布與速率演進(jìn)2.物理層關(guān)鍵技術(shù)PCIe6.0引入128/130FEC+256/257CRC,官方重傳率預(yù)算PCIe7.0草案采用256/257FEC+512/513CRC,重傳率預(yù)算3.材料與功耗4.產(chǎn)業(yè)落地進(jìn)度5.AI負(fù)載下的BDI重算),6.與CXL/UCIe的對比因此,AI訓(xùn)練場景更傾向CXL3.0/3.1+UCIeChi7.公開風(fēng)險材料、功耗、成本、兼容性四大難題使PCIe7.0商用窗口縮短(三)CXL3.0/3.1技術(shù)解析1.標(biāo)準(zhǔn)演進(jìn)時間線2022-08:CXL3.0BaseSpecification發(fā)布,帶2023-11:CXL3.1加入FabricManager、多邏輯設(shè)備(MLD)2.協(xié)議三件套CXL.io:沿用PCIe事務(wù)層,CXL.cache:允許GPU/FPG);3.內(nèi)存池化公開案例AMDEPYC9005+AsteraLabsRetimer:204.AI負(fù)載下的BDI重算字”。5.功耗與成本CXLswitch(AsteraLabsLeo)每32通道8W,與高端PCIe6.兼容性與生態(tài)云廠商:MicrosoftAzure2024-10宣布CXL3.0實(shí)例Private7.與UCIe/NVLink的比較結(jié)論:CXL是當(dāng)前唯一可在標(biāo)準(zhǔn)PCIe插槽內(nèi)落地、無需3D8.風(fēng)險與限制功耗、成本、插槽兼容性與生態(tài)均已成熟,2025年開始規(guī)模商(四)NVLink5.0&UCIe2.0告與供應(yīng)鏈訪談,探討它們?nèi)绾闻cPCIe/CXL錯位競爭,以及真正的落地門檻在哪里。1.兩條路線的定位差異NPU、內(nèi)存甚至傳感器Die在封裝內(nèi)部自由拼接,強(qiáng)調(diào)的是異構(gòu)集2.產(chǎn)業(yè)落地的節(jié)奏感電3DFabric兼容,但首批商用SoC要等到2026年。換句話說,3.與PCIe/CXL的錯位競爭機(jī)柜外部:400GbE/NDRInfiniBand4.真正的門檻:工藝、熱與生態(tài)北美技術(shù)論壇坦言:“UCIe最大的敵人不是技術(shù),而是時間表。”5.商業(yè)模式的遷移給車廠,AMD可以把GPUDie賣給云廠,代工廠按面積公開信息顯示,NVLink5.0進(jìn)入現(xiàn)貨,解決了機(jī)柜級GPU-GPU的燃眉之急;UCIe2.0則把內(nèi)(五)硅光互連:光子在AI機(jī)柜中的再定位隨著AI訓(xùn)練集群的功耗密度逼近每機(jī)柜30kW,傳統(tǒng)銅互連臺積電在2023年北美技術(shù)論壇首次展示了與3DFabric兼容列與5nm邏輯Die共封裝,實(shí)現(xiàn)了25.6Tb/s的板級聚合帶寬。同年,Intel在Hot-Chips宣布了第二代CPO平臺,把光引擎與Xe-HPCGPU同基板集成,機(jī)柜內(nèi)部光鏈路長度縮短至2m,且無需外部retimer。上述進(jìn)展表明,硅光已從“云端長距”下沉至“機(jī)當(dāng)前三大公開痛點(diǎn)。臺積電通過微環(huán)諧振器(MRR)的片上加熱器1.系統(tǒng)級協(xié)同與錯位競爭TB/s聚合帶寬下已逼近25W/機(jī)柜的熱預(yù)算,硅光通過8λ2.經(jīng)濟(jì)模型與商業(yè)可行性:LightCounting2024年市場報告指出,硅光引擎的ASP已從積換帶寬”特性使得PCB層數(shù)可由20層降至12層,整體主板3.與電子互連的融合策略:完成GPU-to-GPU與GPU-to-Memory的高速互聯(lián),板留銅CXL/NVLink以維持低延遲。IEEEP802.3dj正在制定的1.6耗、高帶寬密度及熱設(shè)計優(yōu)勢,使其能夠在AI機(jī)柜內(nèi)部與(六)近存計算(Near-DataProcessing,NDP)質(zhì)的計算單元上直接執(zhí)行運(yùn)算,顯著減少數(shù)據(jù)移動,從而緩解PCIe景中的技術(shù)路徑、落地模式與未來挑戰(zhàn),而非羅列性1.技術(shù)范式與分類堆棧中嵌入計算單元,利用高并行度的模擬或數(shù)字MAC陣列完成存儲內(nèi)計算(Processing-in-Sto):2.產(chǎn)業(yè)落地現(xiàn)狀該方案在訓(xùn)練階段的梯度All-redu單元與HBM控制器的同構(gòu)時鐘域設(shè)計,避免了傳統(tǒng)異構(gòu)接口帶來的同步開銷,為“計算駐留”提供了可驗(yàn)證的Llama-2推理中的Attention計算。開發(fā)者社區(qū)實(shí)測NDP則在緩存行或頁粒度上完成局部計算,三者共同構(gòu)成“遠(yuǎn)這種分層協(xié)同使得系統(tǒng)架構(gòu)師可以在不增加PCIe通道數(shù)的前提下,通過算法-硬件協(xié)同設(shè)計緩解帶寬赤字,而非單純追求更高代3.范式遷移的挑戰(zhàn)當(dāng)NDP單元直接修改存儲陣列時,CPU緩存一致性必須顯式存儲內(nèi)計算將NAND的ECC與計算單元的軟錯誤耦合在一起,傳統(tǒng)RAID無法直接覆蓋。Kioxi4.未來展望PIM單元做成JEDEC標(biāo)準(zhǔn)的一部分,使得任何支持CXL的處理接口必須與現(xiàn)有PCIe/CXL保持互操作。只有當(dāng)開發(fā)者無需關(guān)心數(shù)據(jù)到底駐留在DRAM還是NAND,亦無需關(guān)心計算發(fā)生在核心、的成熟,NDP有望成為AI系統(tǒng)級能效優(yōu)化的關(guān)鍵杠桿,而非單純六、國產(chǎn)AI生態(tài)系統(tǒng)的存儲架構(gòu)建議云—邊—端三個層級均面臨前所未有的互連帶寬瓶頸。傳統(tǒng)以PCIe為核心的樹形拓?fù)湟央y以支撐未來三年10T級模型的訓(xùn)練與推理(一)芯片級:通道策略與工藝協(xié)同生擴(kuò)展總線,而非一味等待PCIe7.0以及后續(xù)的行業(yè)低一次性流片風(fēng)險。同時,建議通過Chiplet架構(gòu)在封裝內(nèi)部引入?yún)f(xié)同條件基本成熟。(二)整機(jī)級:機(jī)柜拓?fù)渑c冷卻協(xié)同續(xù)用于GPU-GPU全互聯(lián),CXL則承擔(dān)CPU-內(nèi)存擴(kuò)(三)云—邊—端協(xié)同:權(quán)重分片與緩存一致性在云端,建議采用全局權(quán)重分片+區(qū)域熱緩存的策略,利用SRAM共同屏蔽PCIe帶寬限制。該協(xié)同模式已在阿里云“

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論