版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
CAICT中國信通院新型人工智能存儲研究報告(2025年)中國信息通信研究院人工智能研究所中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟2025年4月版權(quán)聲明業(yè)發(fā)展聯(lián)盟,并受法律保護。轉(zhuǎn)載、摘編或利用其它方式使用本報告文字或者觀點的,應(yīng)注明“來源:中國信息通編者將追究其相關(guān)法律責(zé)任。2022年科技部等六部門印發(fā)《關(guān)于加快場景創(chuàng)新以攻關(guān)、產(chǎn)品開發(fā)和產(chǎn)業(yè)培育,探索人工智能發(fā)展新模式新路徑,以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展。2023保障,加速存力技術(shù)研發(fā)應(yīng)用,持續(xù)提升存儲產(chǎn)業(yè)能力,推動存算大模型時代,數(shù)據(jù)決定人工智能的高度,更多的訓(xùn)練數(shù)據(jù)是大當(dāng)前,大模型技術(shù)全面推動底層基礎(chǔ)設(shè)施的發(fā)展,算力需求不斷攀本報告重點對新型人工智能存儲的概念范圍、面臨挑戰(zhàn)、關(guān)鍵技術(shù)和最佳實踐進行了梳理和分析。概念范圍上,梳理了新型人工點明了新型人工智能存儲是發(fā)力大模型的基礎(chǔ),但同時在海量數(shù)據(jù)歸集、訓(xùn)練數(shù)據(jù)訪問效率、推理實時性等方面存在諸多挑戰(zhàn)。關(guān)鍵技術(shù)上,闡明了新型人工智能存儲需要從存儲介質(zhì)、系統(tǒng)、架構(gòu)、數(shù)據(jù)編織、數(shù)據(jù)范式和數(shù)據(jù)安全等方面發(fā)力。最佳實踐上,介紹了最后,本報告針對當(dāng)前人工智能存儲發(fā)展的挑戰(zhàn),提出了未來我國新型人工智能存儲相關(guān)產(chǎn)業(yè)、技術(shù)正處于高速發(fā)展階段,新技 2 4 4 7 9 (五)制造業(yè):一體化集成加速智能客服 2 6 9 圖圖圖 3 41一、新型人工智能存儲概況(一)新型人工智能存儲基本概念頻大模型Sora,大模型由單模態(tài)的NLP領(lǐng)域向文生視頻等多模態(tài)方向迅速演進,標(biāo)志著AI技術(shù)正邁向一個全新的高峰。相較于傳統(tǒng)的發(fā)布,其多模態(tài)能力獲得全球矚目,Grok3所用數(shù)據(jù)量比Grok2增高的挑戰(zhàn)。2開發(fā)平臺RoCE網(wǎng)絡(luò)OPyTorch運營商制造e來源:中國信息通信研究院圖1。作為大模型的數(shù)據(jù)載體,新型AI存儲與大模型數(shù)據(jù)歸集、預(yù)處理、訓(xùn)練、推理等全生命周期流程緊密相關(guān),且逐步成為AI數(shù)據(jù)內(nèi)部具備形成多元化數(shù)據(jù)集的條件下,新型AI存儲正在成為數(shù)據(jù)資源的統(tǒng)一管理平臺,并以此為基礎(chǔ)構(gòu)成跨域跨部門的AI數(shù)據(jù)湖,為國外較早布局人工智能戰(zhàn)略,AI存儲逐步成為戰(zhàn)略關(guān)鍵技術(shù)競理是根本。英國政府在2021年9月發(fā)布《國家人工智能戰(zhàn)略》,AI311月的《數(shù)據(jù)、分析和人工智能采用戰(zhàn)略》中,提出推進數(shù)據(jù)、分2020年7月,國家標(biāo)準(zhǔn)化管理委員會等五部門在《國家新一代人工1月投資可互操作的聯(lián)合基礎(chǔ)設(shè)施;推進數(shù)據(jù)、分析和人工智能生態(tài)系2月通過前沿技術(shù)樞紐,支撐新興技術(shù)的使用和創(chuàng)新,從而支持創(chuàng)建新的英國國防人工智能中43明確了數(shù)據(jù)存儲作為關(guān)鍵技術(shù),為美國技術(shù)競爭力和國家安全的戰(zhàn)略4確保對計算和數(shù)據(jù)基礎(chǔ)提出改善數(shù)據(jù)訪問和管來源:中國信息通信研究院1月《關(guān)于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展的指加強人工智能場景創(chuàng)新要素供給。推動場景算力設(shè)施開放,集聚人工門2月3月《國家新一代人工智能標(biāo)準(zhǔn)在建設(shè)內(nèi)容中提出規(guī)范人工智能研發(fā)及應(yīng)用等過程涉及到的數(shù)據(jù)存儲、處理、分析等大數(shù)據(jù)相關(guān)支撐技術(shù)要素,數(shù)據(jù)共享開放、數(shù)據(jù)管理機制、數(shù)據(jù)治理等標(biāo)來源:中國信息通信研究院二、人工智能存儲重要性(一)人工智能存儲是發(fā)力大模型的基礎(chǔ)5需在較成熟的基礎(chǔ)大模型上融入企業(yè)生產(chǎn)業(yè)務(wù)沉淀而來的私域數(shù)隨著AI技術(shù)快速成熟,各企業(yè)所使用的算力已逐采用的算法也同樣逐漸收斂,大多依托Tran6數(shù)據(jù)是Al大模型的核心要素蓬勃發(fā)展逐漸趨同逐漸收斂MindSpore開發(fā)框架數(shù)據(jù)規(guī)模和質(zhì)量決定AI智能的高度優(yōu)優(yōu)質(zhì)數(shù)據(jù)越多,模型效果越好GPT3大模型得分個+LLaMA大模型個+圖2數(shù)據(jù)是大模型的核心要素7(二)人工智能存儲面臨的挑戰(zhàn)進行歸集匯總。據(jù)統(tǒng)計,PB級數(shù)據(jù)的歸集通常花費3~5周,耗時分析的等待時間,需要AI存儲具備高效匯聚、協(xié)議互通、海量按需擴容的能力。在AI存儲領(lǐng)域,通過簡單收集、爬取的原始數(shù)據(jù)能啟動訓(xùn)練。為了避免GPU等待訓(xùn)練數(shù)據(jù)的加載時間過長,需要上百次的周期性檢查點(checkpoint)操作,保存中間過程數(shù)據(jù),AI存儲能夠提供應(yīng)用推理階段的實時性和精準(zhǔn)性。當(dāng)大模型8AI存儲是提升AI集群可用度的關(guān)鍵。AI集群可用度是指大??ㄓ?xùn)練任務(wù)的集群算力可用度在40%~50%之間。AI集群可用度提資源的巨大浪費。其中,算力等待時間是導(dǎo)致AI集群可用度降低的主要原因,例如,PB級訓(xùn)練數(shù)據(jù)集的加載時間通常在小時級,斷點或故障恢復(fù)所需的時間也會顯著影響可用度。高性能的AI存儲可減1Meta."BuildingMeta’sGenAIInfrastructure"./2024/03building-metas-genai-infrastructure9三、新型人工智能存儲關(guān)鍵技術(shù)以數(shù)據(jù)為中心,統(tǒng)一存儲基座,融合多元異構(gòu)算力的新AI技術(shù)架構(gòu),已逐步成為人工智能計算中心的主流架構(gòu)。多種異構(gòu)算力緊密作模式,朝著“算力圍著數(shù)據(jù)轉(zhuǎn)”的新模式演進,如圖3所示。作為數(shù)據(jù)載體,數(shù)據(jù)存儲已成為構(gòu)建大模型的關(guān)鍵基礎(chǔ)設(shè)施之一。傳統(tǒng)智算:數(shù)據(jù)跟著算力跑傳統(tǒng)智算:數(shù)據(jù)跟著算力跑異構(gòu)融合智算:算力圍著數(shù)據(jù)轉(zhuǎn)異構(gòu)融合智算:算力圍著數(shù)據(jù)轉(zhuǎn)統(tǒng)一存力基座圖3算力中心架構(gòu)到存儲中心架構(gòu)新型人工智能存儲(面向AI的存儲系統(tǒng))具備極致性能、數(shù)據(jù)安全、大模型數(shù)據(jù)范式、高擴展性、數(shù)據(jù)編織和綠色節(jié)能6大關(guān)鍵特征,如圖4所示,極致的性能密度可以加速數(shù)據(jù)供給,縮短訓(xùn)練數(shù)據(jù)的歸集與預(yù)處理、CheckPoint數(shù)據(jù)的保存以及斷點續(xù)訓(xùn)等造成的算力等待,提升AI全流程效率;支持向量、張量、KVCache等大模型數(shù)據(jù)范式,能顯著加速數(shù)據(jù)的融合檢索,更好的支持推理應(yīng)用;AI存儲99.9999%的可靠性提升AI基礎(chǔ)設(shè)施的持續(xù)服務(wù)時間,防勒索和存儲加密進一步保障數(shù)據(jù)安全;跨域跨集群的AI數(shù)據(jù)湖支撐異構(gòu)計算,量不被破壞;綠色的AI存儲,可降低每TB數(shù)據(jù)的能耗和占用空間。數(shù)據(jù)范式等數(shù)據(jù)范式極致性能GPU直通存儲高擴展性跨域跨集群的AI數(shù)據(jù)湖數(shù)據(jù)編織全局數(shù)據(jù)可視可管綠色節(jié)能數(shù)據(jù)安全可靠性>99.9999%防勒索,數(shù)據(jù)加密圖4新型AI存儲特征構(gòu)建先進的AI存儲,要從存儲介質(zhì)、系統(tǒng)、架構(gòu)、數(shù)據(jù)編織、如圖5所示。11存儲內(nèi)生安全存儲內(nèi)生安全來源:中國信息通信研究院長記憶存儲通過多級KVCache助力大模型推理成本降低,用戶讓大模型推理具備慢思考能力,如圖6所示。一方面,大模型推理過存儲技術(shù)構(gòu)建的多級KVCache緩存機制,可以保證KVCache具備KVCache“長記憶”中調(diào)取前期已執(zhí)行過的計算結(jié)果,減少推理過50%,顯著降低推理的端到端成本,提升大模型行業(yè)應(yīng)用的長序列場景體驗。利用存下來的歷史KV記憶,消除重復(fù)計算大庫容知識庫全局分級內(nèi)存池長記憶存儲圖6長記憶存儲架構(gòu)來源:中國信息通信研究院近數(shù)據(jù)向量知識庫提高大模型檢索效率,減少輸出幻覺。近數(shù)據(jù)向量知識庫基于快速知識生成、大庫容高召回率與多模融合檢索關(guān)鍵能力,可實現(xiàn)百億知識庫秒級檢索。通過分布式合并建圖技術(shù),實現(xiàn)近數(shù)建庫,根據(jù)企業(yè)實踐,知識生成從月級降至天級,建庫時長縮短5倍,實現(xiàn)知識實時更新。同時利用存儲側(cè)容災(zāi)備份特性組合,可提供數(shù)據(jù)庫高可用保障,消除單點故障引發(fā)重新建庫的巨大開銷。數(shù)據(jù)編織成為跨域跨集群數(shù)據(jù)歸集、流動和處理的強大助力,通過數(shù)據(jù)版本管理和數(shù)據(jù)血緣管理,保證數(shù)據(jù)質(zhì)量不下降。數(shù)據(jù)編織是流動,使數(shù)據(jù)高效的從源端移動到訓(xùn)練和推理環(huán)境的AI存儲上來,換,實現(xiàn)AI各階段協(xié)同業(yè)務(wù)的無縫對接,減少等數(shù)據(jù)在短時間內(nèi)無需處理的或用來長期歸檔的數(shù)據(jù),則可以直接寫入容量層;其次,可以設(shè)置豐富的數(shù)據(jù)分級流動策略,例如可以設(shè)置訪問頻度與時間相結(jié)合的流動策略,也可以設(shè)置容量水位觸發(fā)的流動策略;再者,根據(jù)用戶制定的分級策略,數(shù)據(jù)能夠在高性能層和大容量層之間自動分級流動,數(shù)據(jù)分級遷移過程對業(yè)務(wù)應(yīng)用完全透明;最后,對于已經(jīng)分級到容量層的數(shù)據(jù),用戶可以通過命令或API對指定的數(shù)據(jù)集配置預(yù)熱策略,來加速任務(wù)的啟動速度。全局統(tǒng)一命名空間性能層性能層圖7統(tǒng)一數(shù)據(jù)底座來源:中國信息通信研究院大模型時代,AI存儲架構(gòu)從傳統(tǒng)的層次化、主從服務(wù)器架構(gòu),向全對等、全直通的超節(jié)點架構(gòu)轉(zhuǎn)變。超節(jié)點存儲能夠構(gòu)建全對等、據(jù)直通,通過開放的協(xié)議標(biāo)準(zhǔn),既支持Scale-up擴展容量,也支持據(jù),實現(xiàn)計算、存儲資源解耦靈活調(diào)度,資源利用率最大化。目前,率。基于超節(jié)點存儲能力,AI存儲能夠支撐超十萬卡算力集群,為(四)高性能并行文件系統(tǒng)以存強算儲并行文件系統(tǒng)需具備以下四大能力,一是高性能,百PB/s級帶寬和億級IOPS支持能力,可實現(xiàn)超萬卡計,確保存儲系統(tǒng)的高可用性達到99.9999%,可以實現(xiàn)軟硬件故障數(shù)增加而線性增加。四是加速卡直通存儲技術(shù),利用基于總線P2P的底層傳輸協(xié)議機制,使數(shù)據(jù)路徑無需再經(jīng)過CPU,實現(xiàn)加速卡的(五)全閃存存儲技術(shù)為數(shù)據(jù)提速降耗(六)存儲內(nèi)生安全保護企業(yè)數(shù)據(jù)資產(chǎn)在大模型的應(yīng)用中,存儲內(nèi)生安全通過將安全功能融入到AI存儲系對勒索病毒攻擊提供網(wǎng)絡(luò)+存儲協(xié)同防勒索的能力,實現(xiàn)事前防御勒攔截90%左右勒索病毒,而AI存儲作為數(shù)四、人工智能存儲建設(shè)最佳實踐(一)醫(yī)療行業(yè):長記憶存儲助力智能輔助診斷大模型(即針對病理學(xué)領(lǐng)域設(shè)計的大型AI模型,如用于病理圖像分析、疾病診斷或預(yù)后預(yù)測的模型)需要具備基于長上下文的"慢思考"(2)解決方案Expert-ParlelLoadBalancer圖8醫(yī)療行業(yè)KVCache長記憶存儲應(yīng)用實踐醫(yī)院選擇了領(lǐng)先的KVCache長記憶存儲方案,如圖8所示,為病理大模型推理系統(tǒng)提供TB級帶寬、EB級容量,大規(guī)模算力共享的全局內(nèi)存擴展池,實現(xiàn)高效的上下文KVCache保存、管理與分割后的數(shù)萬至數(shù)十萬圖像塊(patches形成超長輸入序列,直接對歷史序列的重復(fù)計算,使推理速度提升數(shù)倍,處理10萬patch的(二)金融行業(yè):高性能AI存儲賦能智慧金融原有的對象存儲底座無論可靠性還是性能都不再能滿足大數(shù)據(jù)分析(2)解決方案大數(shù)據(jù)計算集群大數(shù)據(jù)計算集群AI集群-計算實例--一深度學(xué)習(xí)-1NVIDIAGPU+IB訓(xùn)練非結(jié)構(gòu)化圖9金融高性能AI存儲應(yīng)用實踐來源:中國信息通信研究院銀行選擇新型AI存儲來替換原有對象存儲系統(tǒng),提高性能和可用性,如圖9所示。一是提供混合IO的高OPS和高帶寬能力,千億對象的檢索時延從之前的十多秒級別降低至50毫秒級;二是集群內(nèi)TCO降低20%;三是支持最大12站點部署容忍兩個站點故障,為大數(shù)據(jù)和AI平臺提供了99.9999%高可靠性;四是多協(xié)議 (NAS/S3/HDFS)統(tǒng)一(All-in-One),大數(shù)據(jù)處理和AI訓(xùn)推各個階(3)實現(xiàn)價值銀行通過采用高性能、高可靠的AI存儲,通過800個AI模型賦能350個案例,包括客戶體驗、智能客服、反洗錢、風(fēng)險管理、智慧用生成式AI進行呼叫轉(zhuǎn)錄、摘要、服務(wù)、請求生成和知識庫查找,使平均呼叫處理時間減少20%;二是AI驅(qū)動的實時10毫秒內(nèi)即可標(biāo)記潛在的欺詐性交易;三是貸款流程大幅縮短,實(三)AI企業(yè):AI數(shù)據(jù)湖支撐大模型訓(xùn)推平臺某AI企業(yè)專注于智能語音、計算機視覺、自然語言處理、認知驗室。隨著大模型參數(shù)量的增長和數(shù)據(jù)規(guī)模的激增,該AI企業(yè)面臨諸多挑戰(zhàn),一是數(shù)據(jù)準(zhǔn)備時間長,TB級數(shù)據(jù)準(zhǔn)備需要小時級;二是間高達15分鐘以上;三是存儲可靠性不足,RAID機制支持盤級冗(2)解決方案預(yù)處理服務(wù)器預(yù)處理服務(wù)器訓(xùn)練服務(wù)器推理服務(wù)器(原始數(shù)據(jù)、溫數(shù)據(jù))通用多模態(tài)大模型,參數(shù)量:千億-~十萬億圖10外置AI數(shù)據(jù)湖存儲底座應(yīng)用實踐(3)實現(xiàn)價值該AI企業(yè)通過打造存、算、網(wǎng)全棧協(xié)同的大模型解決方案,其實現(xiàn)效果包括以下兩方面,一是斷點續(xù)訓(xùn)恢復(fù)速度提升15倍,集群提供TB級大帶寬,縮短Checkpoint讀寫耗時,斷點續(xù)訓(xùn)恢復(fù)時長從升存儲集群安全可靠,單集群管理面合一,數(shù)據(jù)面分離,通過數(shù)據(jù)面隔離避免AI集群故障擴散,同時通過亞健康管理、大比例EC等進一步提升存儲可靠性,單集群可靠性達99.999%。(1)項目背景某運營商聚焦大模型訓(xùn)練推理場景打造智算平臺,為大模型訓(xùn)練10分鐘,GPU等待導(dǎo)致算力利用率低,亟需提升存儲帶寬能力;二(2)解決方案元宇宙數(shù)字人Al訓(xùn)練智慧語音影視渲染數(shù)據(jù)歸檔NVIDIA圖11某運營商智能存儲盤框應(yīng)用實踐(3)實現(xiàn)價值運營商通過采用自研文件系統(tǒng)和智能盤框方案,其實現(xiàn)效果包括以下兩方面,一是存儲帶寬性能提升6倍,GPU訓(xùn)練效率提升10%,文件存儲性能從50MBps/TiB提升到300MBps/TiB,單次Checkpoint時長從分鐘級縮短到秒級,提升集群可用度;二是訓(xùn)練穩(wěn)定性提升10倍,通過硬盤亞健康管理,硬盤故障提前14天預(yù)測,通過全局數(shù)據(jù)重構(gòu)技術(shù),1TB數(shù)據(jù)重構(gòu)時長由小時級縮短到分鐘級。設(shè)備數(shù)下降75%,從原有的1000多臺服務(wù)器降低到100多臺服務(wù)器+80多臺智能(五)制造業(yè):一體化集成加速智能客服場景創(chuàng)新與實踐一般問題答復(fù)時間15分鐘內(nèi),復(fù)雜問題答復(fù)時間2小時內(nèi)。(2)解決方案池化與調(diào)度能力、AI全流程工具鏈能力(數(shù)據(jù)系統(tǒng)級監(jiān)控硬件級監(jiān)控資源地監(jiān)控預(yù)裝預(yù)調(diào)測180萬高IOPS:50GB/s高帶寬健初始化工具一鍵式微調(diào)企業(yè)專屬知布式訓(xùn)練內(nèi)置大模型圖12制造企業(yè)超融合一體機應(yīng)用實踐(3)實現(xiàn)價值該科技企業(yè)通過采用超融合一體機的一站式解決方案,其實現(xiàn)效“0”學(xué)習(xí)成本,具有智能問答、向量檢索、智能識圖等功能,實現(xiàn)7x24小時值班秒級答
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級上冊數(shù)學(xué)期末考試卷及答案
- 衛(wèi)生法規(guī)試題及答案
- 北京警察學(xué)院《光學(xué)》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 小小動物園寫人的作文
- 2026年手術(shù)室內(nèi)鏡清洗消毒規(guī)范實訓(xùn)
- 鋼結(jié)構(gòu)測量定位技術(shù)方法
- 低碳混凝土生產(chǎn)技術(shù)要點
- 于河池市第三人民醫(yī)院放療中心建設(shè)項目(輻射類)環(huán)境影響報告表
- 難點詳解人教版八年級數(shù)學(xué)上冊第十五章分式專題訓(xùn)練試卷(解析版含答案)
- 2026屆遼寧省協(xié)作校高三上學(xué)期期末考試歷史試題(含答案)
- 2025西南民族大學(xué)輔導(dǎo)員考試試題及答案
- T/CSPSTC 17-2018企業(yè)安全生產(chǎn)雙重預(yù)防機制建設(shè)規(guī)范
- 2025年《三級物業(yè)管理師》考試復(fù)習(xí)題(含答案)
- 四川省融媒體中心歷年招聘考試真題庫
- 股東代為出資協(xié)議書
- 消防管道拆除合同協(xié)議
- 2025屆北京市西城區(qū)北京四中高考英語二模試卷含答案
- 青少年交通安全法規(guī)
- 《數(shù)據(jù)統(tǒng)計分析課件》
- 2024壓力容器設(shè)計審批考試題庫 判斷題
- 客運春運安全培訓(xùn)
評論
0/150
提交評論