版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
集智專題報(bào)告基于智能IP廣域網(wǎng)云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所華為技術(shù)有限公司2025年9月版權(quán)聲明本報(bào)告版權(quán)屬于中國信息通信研究院、華為技術(shù)有限公司,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來源:中國信息通信研究院、華智能時(shí)代加速到來,企業(yè)模型訓(xùn)練、推理算力需求爆炸式增長。 1 1 2 4 6 6 8 14 17 17 18 19 22 4 6 9 20 20 3 221一、概述高水平賦能需求的標(biāo)準(zhǔn)體系,為技術(shù)落地與產(chǎn)業(yè)廣泛應(yīng)用筑牢根基。化應(yīng)用,促使人工智能在經(jīng)濟(jì)社會發(fā)展各領(lǐng)域加快普及、深度融合,2(二)AI大模型訓(xùn)練與推理技術(shù)應(yīng)用3 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)4在企業(yè)人工智能數(shù)字化轉(zhuǎn)型進(jìn)程中,面對企業(yè)AI模型微調(diào)訓(xùn)練、業(yè)通過自建算力中心的方式解決算力需求;二是企業(yè)通過租賃第三方智算中心的算力服務(wù)器,運(yùn)輸?shù)狡髽I(yè)本地進(jìn)行使用;三是企業(yè)通過網(wǎng)絡(luò)訪問租賃的第三方智算中心的算力資源。如下圖所示:企業(yè)本地機(jī)房企業(yè)本地機(jī)房企業(yè)自建算力中心算力、存儲、互聯(lián)網(wǎng)絡(luò)企業(yè)在本地使用租企業(yè)本地機(jī)房智算中心企業(yè)通過網(wǎng)絡(luò)使用租賃的算力資源廣域網(wǎng)88圖1當(dāng)前企業(yè)大模型微調(diào)訓(xùn)推場景算力解決方案示意圖綜合來看,這些方式都面臨著安全和成本兩重挑戰(zhàn):一是訓(xùn)推過程的數(shù)據(jù)安全難以保障。國家數(shù)據(jù)局等部門提出“原始數(shù)據(jù)不出域、數(shù)據(jù)可用不可見、數(shù)據(jù)可控可計(jì)量”的治理理念,明確數(shù)據(jù)需在原始產(chǎn)生域內(nèi)處理,以規(guī)避跨域流動中網(wǎng)絡(luò)攻擊、惡意篡5 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)6(一)方案總體架構(gòu)政企等行業(yè)用戶在AI算力使用中,面臨著嚴(yán)峻的數(shù)據(jù)安全、用算安全、降低用算成本等挑戰(zhàn)。在此背景下,本報(bào)告提出基于智能IP廣域網(wǎng)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)方案,希望兼顧用算安全與成本,幫助破解行業(yè)痛點(diǎn)問題。練云邊協(xié)同推理業(yè)務(wù)場景存算分離模型微調(diào)訓(xùn)練業(yè)務(wù)場景智算池來源:中國信息通信研究院圖2存算分離與云邊協(xié)同訓(xùn)推技術(shù)方案基于智能IP廣域網(wǎng)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)方案,面向存算分離模型微調(diào)訓(xùn)練與云邊協(xié)同推理兩大場景解決行業(yè)痛點(diǎn)問題。場景一:存算分離模型微調(diào)訓(xùn)練。包含“存、網(wǎng)、算、控”四個(gè)部分,基于SRv6的智能IP廣域網(wǎng)構(gòu)建連接樞紐,采用精準(zhǔn)流控、自動流級調(diào)度技術(shù)實(shí)現(xiàn)用戶私有存儲與遠(yuǎn)端算力中心之間的高效無損傳輸,使用數(shù)據(jù)加密技術(shù)保障數(shù)據(jù)傳輸安全,實(shí)現(xiàn)企業(yè)敏感數(shù)據(jù)園區(qū)外“不落盤”、數(shù)據(jù)樣本面跨智能IP廣域網(wǎng)拉遠(yuǎn)、邊訓(xùn)邊傳,可有效降低企業(yè)本地部署算力成本,同時(shí)可解決企業(yè)用戶安全租用云端算7拆分學(xué)習(xí)技術(shù)、精準(zhǔn)流控和自動流級調(diào)度技術(shù),實(shí)現(xiàn)“算、網(wǎng)、端”存算分離與云邊協(xié)同訓(xùn)推技術(shù)方案在存算分離模型微調(diào)訓(xùn)練與8支撐存算分離與云邊協(xié)同訓(xùn)推技術(shù)方案的核心技術(shù)包括模型拆分學(xué) 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)9(二)模型拆分學(xué)習(xí)技術(shù)1.工作機(jī)制文本1高維向量n③尾層隱變量數(shù)據(jù)RNN,CNN,VIT)②首層隱變量數(shù)據(jù)模型中間層首尾層音頻企業(yè)園區(qū)(邊)智算中心(云)圖3模型拆分學(xué)習(xí)技術(shù)工作機(jī)制1)企業(yè)園區(qū)(邊側(cè)):靠近原始數(shù)據(jù)輸入(如計(jì)算機(jī)視覺領(lǐng)域的2)智算中心(云側(cè)):模型的剩余部分,通常是更深的、計(jì)算量 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)了非線性運(yùn)算變換,僅獲取經(jīng)過非線性運(yùn)算后的輸出結(jié)果,將無法恢復(fù)原始輸入,因此只傳輸中間層輸出便可更大程度的保護(hù)原始數(shù)據(jù)。44A本44本圖4Transformer模型架構(gòu)在企業(yè)大模型訓(xùn)推業(yè)務(wù)場景中,敏感行業(yè)的核心訴求是“數(shù)據(jù)不泄露+模型不暴露”,基本訴求是“平衡算力+成本”。通過將模型與數(shù)據(jù)按安全等級、處理需求拆分部署,從根源上避免了原始數(shù)據(jù)泄露的風(fēng)險(xiǎn)。同時(shí),解決算力獲取、數(shù)據(jù)保護(hù)與成本控制的矛盾。1)數(shù)據(jù)安全:關(guān)鍵數(shù)據(jù)全程閉環(huán)在企業(yè)側(cè),無跨域傳輸環(huán)節(jié),徹底規(guī)避數(shù)據(jù)攔截、竊取風(fēng)險(xiǎn),滿足等保監(jiān)管與行業(yè)合規(guī)要求。2)模型安全:首尾層與中間層物理隔離,遠(yuǎn)端中心無完整模型,訓(xùn)推過程僅傳遞過程向量數(shù)據(jù),無模型文件或核心參數(shù)泄露可能,確3)算力資源優(yōu)化配置:通過“企業(yè)側(cè)保留少量算力(僅支撐首尾層與數(shù)據(jù)處理)+遠(yuǎn)端租用大算力(支撐中間層計(jì)算)”的模式,大幅降低企業(yè)算力投入。因傳輸數(shù)據(jù)量精簡、網(wǎng)絡(luò)傳輸高效,整體算效損失控制在5%以內(nèi),實(shí)現(xiàn)“低成本不降算效”,完美契合企業(yè)對這種“數(shù)據(jù)+模型+資源配置”“安全與效率、成本與性能”的平衡,成為當(dāng)前敏感行 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)(三)精準(zhǔn)流控技術(shù)廣域RDMA技術(shù)雖提供了高吞吐數(shù)據(jù)傳輸能力,但在長距傳輸場景仍受到丟包、時(shí)延、網(wǎng)絡(luò)帶寬穩(wěn)定性等方面制約,易導(dǎo)致遠(yuǎn)端存儲與計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)交互“時(shí)斷時(shí)續(xù)”,AI模型訓(xùn)練樣本數(shù)據(jù)拉取頻繁卡頓,推理任務(wù)響應(yīng)延遲波動大,極大影響用算效率。因此,提出精準(zhǔn)流控技術(shù)以解決上述難題。1.工作機(jī)制整端口擁塞算效下降↓租戶1算效下降↓租戶2整端口擁塞來源:華為技術(shù)有限公司傳統(tǒng)的流量控制技術(shù)是IEEE802.3定義的以太Pause機(jī)制:下游設(shè)備通過發(fā)Pause幀給上游設(shè)備實(shí)現(xiàn)流量降速?;趦?yōu)先級的流量控制技術(shù)(PFC)在此基礎(chǔ)上進(jìn)一步增強(qiáng),基于優(yōu)先級為不同的業(yè)務(wù)來提供不同服務(wù)。通過“接收端主動反饋+發(fā)送端按需暫?!钡拈]具有突發(fā)性質(zhì)的流能夠很快地做出反應(yīng),但是當(dāng)端口下某租戶擁塞,流量會流控反壓,且逐跳擴(kuò)散,引發(fā)全局性災(zāi)難,導(dǎo)致租戶算效無保與帶寬匹配算效不下降算效不下降租戶1租戶2租戶N來源:華為技術(shù)有限公司 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)圖6租戶級擁塞不會導(dǎo)致?lián)砣麛U(kuò)散示意圖為解決租戶級擁塞擴(kuò)散問題,精準(zhǔn)流控技術(shù)被提出。精準(zhǔn)流控結(jié)合SRv6技術(shù),在反壓報(bào)文中除了攜帶需要進(jìn)行流量控制的優(yōu)先級外,還攜帶了用戶流量特征信息。相較于PFC則可做到更精細(xì)化的流量控制,可實(shí)現(xiàn)租戶間擁塞不擴(kuò)散。來源:華為技術(shù)有限公司圖7精準(zhǔn)流控技術(shù)工作機(jī)制在智能IP廣域網(wǎng)中,精準(zhǔn)流控技術(shù)與SRv6切片功能結(jié)合,通過整網(wǎng)路徑部署對應(yīng)的切片,在滿足不同業(yè)務(wù)對網(wǎng)絡(luò)帶寬、時(shí)延、抖動等差異化SLA需求的情況下實(shí)現(xiàn)逐級反壓。在網(wǎng)絡(luò)邊緣,如果連接的設(shè)備不支持精準(zhǔn)流控,可以向上游設(shè)備發(fā)送PFC反壓,協(xié)同租戶感知擁塞變化,實(shí)現(xiàn)端網(wǎng)協(xié)同。針對在大模型訓(xùn)推場景多租戶共享廣域算力的需求,依托智能IP廣域網(wǎng)SRv6切片與租戶級精準(zhǔn)流控技術(shù),可實(shí)現(xiàn)多租戶共享帶寬,解決多租戶帶寬共享中的擁塞擴(kuò)散問題,基于租戶級的精確流控技術(shù)可有效保障企業(yè)用算業(yè)務(wù)無損傳輸,從而保障企業(yè)用算的算效穩(wěn)定性, 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)降低企業(yè)用算成本。同時(shí)為存算分離模型微調(diào)訓(xùn)練提供技術(shù)決企業(yè)安全租用云端算力需求。(四)自動流級調(diào)度技術(shù)現(xiàn)有流級調(diào)度現(xiàn)有流級調(diào)度回接入節(jié)點(diǎn)匯聚節(jié)點(diǎn)核心節(jié)點(diǎn)智算池來源:華為技術(shù)有限公司現(xiàn)有的IP廣域網(wǎng)絡(luò)通過部署SRv6TEPolicy進(jìn)行流量調(diào)度以實(shí)現(xiàn)網(wǎng)絡(luò)負(fù)載均衡,但由于無法實(shí)時(shí)感知和統(tǒng)計(jì)各路徑的流量大小,只能根據(jù)預(yù)定義權(quán)重分配流量,調(diào)優(yōu)效果有限,網(wǎng)絡(luò)負(fù)載不均現(xiàn)象仍然存在。而AI大模型技術(shù)中訓(xùn)推數(shù)據(jù)產(chǎn)生的流量呈現(xiàn)“大大象流的出現(xiàn)會導(dǎo)致網(wǎng)絡(luò)負(fù)載進(jìn)一步不均衡加劇,流量擁塞,網(wǎng)絡(luò)吞吐率大幅下降,無法支撐多租戶并發(fā)的訓(xùn)推任務(wù),用戶等待時(shí)間長,造成算網(wǎng)資源浪費(fèi),顯著增加企業(yè)用算成本。為實(shí)現(xiàn)流量的精細(xì)化自動調(diào)度調(diào)優(yōu),提升整網(wǎng)高吞吐率,保障AI大模型訓(xùn)推效率,降低用算成本,基于大象流識別并實(shí)時(shí)調(diào)優(yōu)的自動流級調(diào)度技術(shù)被提出。 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)自動流級調(diào)度③路徑&流!量信息上送!回.二①整網(wǎng)路徑信息獲取自動調(diào)優(yōu)擁塞消除智算池網(wǎng)來源:華為技術(shù)有限公司基本工作流程:2)大象流精準(zhǔn)識別。通過優(yōu)化算法,設(shè)備完成高性能流量統(tǒng)計(jì)、3)路徑&流量信息上送。將獲取到的整網(wǎng)拓?fù)湫畔?、SRv6-Policy集合、網(wǎng)絡(luò)擁塞度、網(wǎng)絡(luò)擁塞門限、TOP-N大象流等信息上送控制器。4)最優(yōu)路徑計(jì)算&策略下發(fā)??刂破骰讷@取到的信息,通過優(yōu)化算法進(jìn)行實(shí)時(shí)計(jì)算,實(shí)時(shí)獲取整網(wǎng)最大帶寬利用率。當(dāng)鏈路利用率超過設(shè)定閾值,可感知到網(wǎng)絡(luò)擁塞情況,實(shí)時(shí)動態(tài)調(diào)整大象流端到端路徑,確保整網(wǎng)鏈路負(fù)載均勻。2.技術(shù)價(jià)值2)保障智算業(yè)務(wù)質(zhì)量,支撐高效訓(xùn)推。通過精準(zhǔn)識別大象流與 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)為驗(yàn)證存算分離與云邊協(xié)同訓(xùn)推技術(shù)在智能IP廣域網(wǎng)關(guān)鍵設(shè)備上的可行性,在實(shí)驗(yàn)室針對大模型存算分離、云邊協(xié)同訓(xùn)推、訓(xùn)推安全等方面進(jìn)行了系統(tǒng)性研究與多輪次驗(yàn)證。實(shí)驗(yàn)數(shù)據(jù)有效驗(yàn)證了模型拆分學(xué)習(xí)技術(shù)的安全性,同時(shí)驗(yàn)證了精準(zhǔn)流控技術(shù)與自動流級調(diào)度技術(shù)對智能IP廣域網(wǎng)絡(luò)的無損與算效保障,在LLAMA2-13B、Qwen2.5vl-32B、CV類模型RESNET、DeepSeek等大模型100KM和400KM存算拉遠(yuǎn)場景下,算效劣化低于3%,Qwen32B模型在200KM云邊協(xié)同推理場景下,劣化不超過5%。(一)存算分離拉遠(yuǎn)算效為驗(yàn)證各AI大模型在不同拉遠(yuǎn)距離、不同帶寬、是否使能RDMA無損能力、是否使能精準(zhǔn)流控及自動流級調(diào)度能力不同條件下對于拉遠(yuǎn)訓(xùn)練算效的影響,在實(shí)驗(yàn)室中,通過控制變量方式進(jìn)行了系列對比驗(yàn)證。馬馬智算服務(wù)器暫算服務(wù)器智算服務(wù)器交換機(jī)載本地,作為本地訓(xùn)練基線參考。橫向?qū)Ρ冉尤牍?jié)點(diǎn)-匯聚節(jié)點(diǎn)拉遠(yuǎn)廣域網(wǎng)部署基于L3VPN/L3EVPNoverSRv6Policy切片的RDMA專實(shí)測驗(yàn)證表明,在使能RDMA無損能力條件下,100KM和寬共享,單租戶擁塞故障不會導(dǎo)致其他租戶業(yè)務(wù)受損。而未開啟 基于智能IP廣域網(wǎng)(AIWAN)的存算分離與云邊協(xié)同訓(xùn)推技術(shù)研究報(bào)告(2025年)(二)云邊協(xié)同推理安全性“prompt":"Whatisdeep明文岡算池票智來源:中國信息通信研究院池learning?企業(yè)算力⑦尾層計(jì)算+罩來源:中國信息通信研究院圖12云邊協(xié)同推理網(wǎng)絡(luò)抓包示意圖(三)云邊協(xié)同算力資源配置優(yōu)化算力利用率%0NPU芯片算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年哈爾濱南崗區(qū)哈西社區(qū)衛(wèi)生服務(wù)中心招聘3人備考筆試題庫及答案解析
- 2025四川自貢市第一人民醫(yī)院招聘醫(yī)療輔助崗人員11人備考核心試題附答案解析
- 2026年淮北市第一中學(xué)公開引進(jìn)學(xué)科競賽教練員(合肥站)6名考試核心試題及答案解析
- 2025首都醫(yī)科大學(xué)附屬北京同仁醫(yī)院門頭溝醫(yī)院(北京市門頭溝區(qū)醫(yī)院)面向社會引進(jìn)高層次醫(yī)療衛(wèi)生技術(shù)人才4人考試重點(diǎn)試題及答案解析
- 閬中市2025年公開考核招聘大學(xué)生志愿服務(wù)西部計(jì)劃志愿者服務(wù)期滿人員筆試重點(diǎn)題庫及答案解析
- 2025四川雅安市滎經(jīng)縣縣屬國有企業(yè)招聘14人備考核心題庫及答案解析
- 2025年秋季泉州安溪恒興中學(xué)體育教師(棒球方向)招聘備考核心題庫及答案解析
- 2025下半年武警江西總隊(duì)醫(yī)院社會招聘5人考試核心試題及答案解析
- 2025版痔瘡的癥狀揭秘及護(hù)理要點(diǎn)指導(dǎo)
- 2025湖北新能智維技術(shù)有限公司勞務(wù)派遣員工招聘4人筆試參考題庫附帶答案詳解(3卷合一版)
- 江蘇南通市如皋市2026屆高三上學(xué)期教學(xué)質(zhì)量調(diào)研(二)語文試題+答案
- GB/T 46785-2025風(fēng)能發(fā)電系統(tǒng)沙戈荒型風(fēng)力發(fā)電機(jī)組
- 數(shù)據(jù)庫應(yīng)用技術(shù)-004-國開機(jī)考復(fù)習(xí)資料
- 博士論文寫作精解
- 10年寶馬320i使用說明書
- 元旦節(jié)日快樂游戲課件
- NB/T 11431-2023土地整治煤矸石回填技術(shù)規(guī)范
- 演講與口才-形成性考核二-國開(HB)-參考資料
- 水稻種植天氣指數(shù)保險(xiǎn)條款
- FZ∕T 12013-2014 萊賽爾纖維本色紗線
- “超級電容器”混合儲能在火電廠AGC輔助調(diào)頻中的應(yīng)用實(shí)踐分析報(bào)告-培訓(xùn)課件
評論
0/150
提交評論