《金融業(yè)AI基礎(chǔ)設(shè)施發(fā)展報告(2024-2025年)》_第1頁
《金融業(yè)AI基礎(chǔ)設(shè)施發(fā)展報告(2024-2025年)》_第2頁
《金融業(yè)AI基礎(chǔ)設(shè)施發(fā)展報告(2024-2025年)》_第3頁
《金融業(yè)AI基礎(chǔ)設(shè)施發(fā)展報告(2024-2025年)》_第4頁
《金融業(yè)AI基礎(chǔ)設(shè)施發(fā)展報告(2024-2025年)》_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金融業(yè)AI基礎(chǔ)設(shè)施發(fā)展報告V近年來,人工智能與各行業(yè)各領(lǐng)域廣泛融合,工信部、網(wǎng)信辦等部門陸續(xù)出臺多項關(guān)于算力等信息基礎(chǔ)設(shè)施的文件,提出優(yōu)化算力布局、提升智能算力占比、推動綠色低碳發(fā)展,鼓勵算網(wǎng)協(xié)同與普惠性算力服務(wù)等。2025年,國務(wù)院《關(guān)于深入實施“人工智能+”行動的意見》進一步強調(diào)構(gòu)建全國一體化算力網(wǎng)與智算資源協(xié)同。這些政策共同形成頂層設(shè)計,為金融業(yè)AI基礎(chǔ)設(shè)施建設(shè)指明方向。當前,人工智能技術(shù)與金融業(yè)務(wù)深度融合,金融機構(gòu)已廣泛開展AI基礎(chǔ)設(shè)施建設(shè)。為及時總結(jié)金融業(yè)AI基礎(chǔ)設(shè)施建設(shè)的發(fā)展經(jīng)驗和創(chuàng)新思路,推動AI基礎(chǔ)設(shè)施向高效、綠色、安全、協(xié)同的方向發(fā)展,特編制此報告,以期為金融機構(gòu)AI基礎(chǔ)設(shè)施建設(shè)提供前瞻性、可操作性參考。本報告第一部分從政策、行業(yè)和技術(shù)3方面闡述了金融業(yè)AI基礎(chǔ)設(shè)施的發(fā)展背景,分析了國內(nèi)外AI芯片產(chǎn)業(yè)格局與金融業(yè)應(yīng)用情況,提出“助力綠色數(shù)據(jù)中心建設(shè)”與“優(yōu)化AI算力平臺能系統(tǒng)論述綠色環(huán)保、存網(wǎng)算協(xié)同、云數(shù)智融合及安全可靠4個關(guān)鍵方向,并提供了具體技術(shù)路徑與實施方案。第三部分選取中國工商銀行、中國光大銀行、中國人保三家機構(gòu),展示其在千卡規(guī)模AI算力云、GPU資源池化與彈性調(diào)度、液冷實驗室建設(shè)等方面的創(chuàng)新實踐。第四部分直面當前存在問題,指出AI芯片選型難、VI異構(gòu)芯片兼容性不足、傳統(tǒng)機房改造挑戰(zhàn)等現(xiàn)實困境。第五部分“發(fā)展展望”提出應(yīng)圍繞能效提升、供應(yīng)鏈穩(wěn)定與安全可控持續(xù)發(fā)力,并建議開展量子計算等前沿技術(shù)探索,為行業(yè)長遠發(fā)展儲備能力。關(guān)鍵詞:算力基礎(chǔ)設(shè)施、綠色環(huán)保、存網(wǎng)算協(xié)同、云數(shù)智融合、安全可靠VII 1 7 9 11 17 21 23 1一、總述作為人工智能三大關(guān)鍵要素之一的算力是其中核心要素,是推動人工智能發(fā)展的基石。IDC最新預(yù)測結(jié)果顯示,2025年中國智能2,781.9EFLOPS,2023—2028年中國智能算力規(guī)模五年年復(fù)合增長率達46.2%。中國人工智能算力基礎(chǔ)設(shè)施發(fā)展呈現(xiàn)出多元化、服務(wù)化、場景化、綠色化等特征。如何綠色、便捷、高效地使用智能算力資源,將成為AI基礎(chǔ)設(shè)施建設(shè)的一項重要任務(wù)。1.政策背景2024年8月,工信部等十一部門聯(lián)合印發(fā)《關(guān)于推動新型信息基礎(chǔ)設(shè)施協(xié)調(diào)發(fā)展有關(guān)事項的通知》。其中算力基礎(chǔ)設(shè)施作為新型信息基礎(chǔ)設(shè)施的重要組成部分,被重點提及。文件中具體強調(diào),要優(yōu)化布局算力基礎(chǔ)設(shè)施、鼓勵網(wǎng)絡(luò)與算力設(shè)施協(xié)同發(fā)展、推進數(shù)據(jù)中心等重點設(shè)施綠色低碳發(fā)展等。國家在優(yōu)化算力布局、推動算網(wǎng)融合發(fā)展、構(gòu)建綠色低碳算力基礎(chǔ)設(shè)施等方面進行了充分全面的戰(zhàn)略頂層設(shè)計,以加速我國構(gòu)建覆蓋廣泛、安全可靠、綠色高效的算力基礎(chǔ)設(shè)施體系。從2018年至今,工信部、發(fā)改委、中國科學院等多部門相我國在政策層面對算力基礎(chǔ)設(shè)施的發(fā)展持續(xù)加碼,如2023年102月發(fā)布的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》提出,到2025年,我國智能算力占比達到35%,東西部算力平衡協(xié)調(diào)發(fā)展。密集的政策表明國家層面正在不斷加大投入力度,促進算力基礎(chǔ)設(shè)院《關(guān)于深入實+”行動的意提出強化智能算力統(tǒng)籌基礎(chǔ)支超大規(guī)模智算集群技術(shù)突破和類3關(guān)事項的通括各類算力基礎(chǔ)設(shè)施向樞紐節(jié)點部署、逐步提升智能算力占類門展的實施意網(wǎng)、量子信息等技術(shù)產(chǎn)業(yè)化應(yīng)類4門結(jié)合算力基礎(chǔ)設(shè)施產(chǎn)業(yè)現(xiàn)狀和應(yīng)用、促進綠色低碳算力發(fā)展、加強安全保障能力建設(shè)等六方類院建設(shè)數(shù)字中國是數(shù)字時代推進中華民族偉大復(fù)興具有重要意類部大數(shù)據(jù)等新型基礎(chǔ)設(shè)施建設(shè)力類5門場景創(chuàng)新成為人工智能技術(shù)升類部推動新型數(shù)據(jù)中心與人工智能類部加快我國人工智能產(chǎn)業(yè)與實體類2.行業(yè)背景隨著AI技術(shù)的飛速發(fā)展,AI應(yīng)用已經(jīng)滲透到金融行業(yè)的方方面面。OCR、指紋識別、語音識別等傳統(tǒng)識別類AI技術(shù)早已和金融業(yè)務(wù)深度融合。近幾年,新興的生成式AI技術(shù)也如雨后春筍般在金融行業(yè)落地,廣泛應(yīng)用到營銷、風控、運營等多種關(guān)鍵業(yè)務(wù)中,極大提升了金融行業(yè)的服務(wù)水平。業(yè)界普遍認為,高質(zhì)量的數(shù)據(jù)是AI發(fā)揮6價值的關(guān)鍵,而先進的數(shù)據(jù)基礎(chǔ)設(shè)施則是匯聚高質(zhì)量數(shù)據(jù)的先決條件。因此,構(gòu)建可價值變現(xiàn)、可持續(xù)演進、具有業(yè)務(wù)韌性的金融數(shù)據(jù)基礎(chǔ)設(shè)施,是金融行業(yè)在AI時代的必然選擇,專業(yè)存儲匯聚海量、高質(zhì)量的數(shù)據(jù),助力AI應(yīng)用價值釋放。在AI大模型掀起的浪潮之下,巨大的算力需求應(yīng)運而生。因此,支撐算力能力提升的基礎(chǔ)設(shè)施建設(shè)也備受行業(yè)關(guān)注。2025年,金融應(yīng)用創(chuàng)新工作步入深水區(qū),依托開源技術(shù)展開數(shù)字基礎(chǔ)設(shè)施自主創(chuàng)新為金融行業(yè)新型數(shù)字基礎(chǔ)設(shè)施建設(shè)提供了重要技術(shù)途徑。當前,以芯片、一般業(yè)務(wù)系統(tǒng)和辦公軟件為代表的核心品類正加速釋放,并逐步深入到核心關(guān)鍵業(yè)務(wù)系統(tǒng)。部分金融機構(gòu)也實現(xiàn)了核心系統(tǒng)等關(guān)鍵應(yīng)用從專有機型到通用服務(wù)器集群的遷移,部分大型金融機構(gòu)基于開源技術(shù)開展自主研發(fā),基本實現(xiàn)可以支撐自身要求的新型數(shù)字基礎(chǔ)設(shè)施。但是金融領(lǐng)域AI基礎(chǔ)設(shè)施建設(shè)不是簡單的替換,在打造金融行業(yè)新型數(shù)字基礎(chǔ)設(shè)施的過程中,除了投研及人才不足,還存在技術(shù)路線分散、關(guān)鍵技術(shù)難度大、技術(shù)體系標準缺失和安全基礎(chǔ)不牢靠等缺陷。因此需要積極探索新技術(shù)、新領(lǐng)域,不斷推進金融行業(yè)信息化、數(shù)字化、智能化的改造。通過制定金融業(yè)AI基礎(chǔ)設(shè)施建設(shè)的標準,一方面規(guī)范AI芯片廠商的設(shè)計標準,滿足金融業(yè)對AI芯片的便捷性使用和靈活部署的需求;另一方面為廣大金融企業(yè)提供參考建議,未來的AI基礎(chǔ)設(shè)施建設(shè)既能滿足金融企業(yè)7的實際應(yīng)用需求、又能滿足綠色環(huán)保低碳要求。1.國內(nèi)外發(fā)展現(xiàn)狀英偉達是人工智能主力芯片供應(yīng)商,是GPGPU領(lǐng)域的龍頭企每代產(chǎn)品性能始終能夠保持穩(wěn)定的提升和強大的產(chǎn)品競爭力。目前,英偉達的產(chǎn)品矩陣已覆蓋數(shù)據(jù)中心、專業(yè)圖形圖像、消費級游戲和汽車等多業(yè)務(wù)場景。其中,面向數(shù)據(jù)中心場景,英偉達先后發(fā)布了V100、A100、H100,以及基于最新的Blackwell架構(gòu)的B200和B300芯片,依托成熟的CUDA軟件生態(tài)體系,并結(jié)合持續(xù)迭代升級的NVLink高速互連技術(shù)與NVSwitch高性能交換架構(gòu),英偉達構(gòu)筑了堅實的技術(shù)壁壘,奠定了其在全球市場的領(lǐng)導(dǎo)地位。公司最新推出的基于B300GPU打造的NVL72智算超級節(jié)點,旨在為萬億參數(shù)級超大模型訓(xùn)練提供足夠的算力支撐,其創(chuàng)新的超節(jié)點架構(gòu)已成為引領(lǐng)智能計算領(lǐng)域的行業(yè)標桿。AMD是高性能計算(HighPerformanceComputing,HPC)主力芯片供應(yīng)商,全球領(lǐng)先的半導(dǎo)體技術(shù)提供商,產(chǎn)品覆蓋GPU、APU(AcceleratedProcessingUnit)及FPGA等多個領(lǐng)域。AMDEPYC(霄龍)處理器面向云計算、HPC等高性能計算工作場景,憑借多核優(yōu)勢以及優(yōu)異性能,在服務(wù)器領(lǐng)域始終保持著較高的市場份額。同時,AMD也是少數(shù)可以和英偉達可以在全球范圍內(nèi)8GPGPU領(lǐng)域展開競爭的企業(yè),AMDInstinct系列加速器結(jié)合ROCm生態(tài),可以滿足Exascale級(百億億次級)工作負載需求,加速大規(guī)模HPC和AI訓(xùn)練任務(wù)。目前,國內(nèi)AI加速卡主要采用GPGPU和DSA架構(gòu)路線,國內(nèi)主其中,海光、天數(shù)智芯等采用的是GPGPU技術(shù)架構(gòu),而華為昇騰、昆侖芯、寒武紀等則是采用了DSA類芯片架構(gòu)。GPGPU是通用架構(gòu)設(shè)計,擁有大量的計算核心和并行處理單元,擅長處理大規(guī)模的并行計算。其架構(gòu)相對較為通用,具有較高的可編程性,開發(fā)者可以使用通用的編程語言進行編程,方便將現(xiàn)有的通用計算代碼遷移到GPGPU平臺上。DSA架構(gòu)則通常是針對特定領(lǐng)域的需求進行定制化設(shè)計,其目的是針對特定任務(wù)或領(lǐng)域進行高度優(yōu)化,具有高度的專用性。它可能會采用特定的計算單元、存儲結(jié)構(gòu)和數(shù)據(jù)通路等,以更好地適應(yīng)目標領(lǐng)域的計算特點。作為國內(nèi)AI芯片領(lǐng)域的領(lǐng)軍企業(yè),華為依托自主研發(fā)的昇騰AI處理器及靈衢網(wǎng)絡(luò)高性能互聯(lián)架構(gòu),率先推出業(yè)界領(lǐng)先的384液冷智算超級節(jié)點。該節(jié)點不僅是國內(nèi)首個實現(xiàn)商用的智算超節(jié)點解決方案,其峰值INT8算力性能更超越國際同類標桿產(chǎn)品(如NVL72),為萬億參數(shù)級超大模型的訓(xùn)練任務(wù)提供了堅實的算力底座。2.金融業(yè)應(yīng)用情況9目前,各大金融機構(gòu)主要采用英偉達GPU為主的技術(shù)路線,初步完成AI基礎(chǔ)設(shè)施的建設(shè),為AI服務(wù)提供算力保障,賦能各種業(yè)務(wù)場景,在業(yè)務(wù)上實現(xiàn)降本增效。隨著政策的不斷變化和技術(shù)的不斷迭代更新,目前金融機構(gòu)已建成的AI基礎(chǔ)設(shè)施正不斷地遇到新的挑戰(zhàn):首先,在政策方面要求優(yōu)化布局算力基礎(chǔ)設(shè)施、滿足綠色低碳發(fā)展要求,因此要求機房需支持高密服務(wù)器、液冷服務(wù)器的部署策略,降低基礎(chǔ)設(shè)施的PUE,提升基礎(chǔ)設(shè)施的能效比和能算比。其次,隨著芯片工藝技術(shù)的不斷更迭,未來基礎(chǔ)設(shè)施的發(fā)展將趨向于高密算力的部署方式。由于已建成的AI基礎(chǔ)設(shè)施與傳統(tǒng)的以CPU為主的基礎(chǔ)設(shè)施共用一個機房,因此機房將無法滿足用于AI大模型訓(xùn)練的高密算力基礎(chǔ)設(shè)施的高能耗和高散熱需求。最后,隨著AI芯片技術(shù)的不斷發(fā)展,目前市場上已涌現(xiàn)出不同廠商的AI芯片,未來AI基礎(chǔ)設(shè)施的部署策略將從以英偉達GPU為主的技術(shù)路線向多個AI芯片組合部署的技術(shù)路線轉(zhuǎn)移。如何簡單、高效地完成各種AI芯片的組合部署,也是AI基礎(chǔ)設(shè)施建設(shè)面臨的一大挑戰(zhàn)。智算中心是中國經(jīng)濟發(fā)展的重要新型基礎(chǔ)設(shè)施,是提升國際競爭力的關(guān)鍵基礎(chǔ)設(shè)施,是數(shù)字經(jīng)濟高質(zhì)量發(fā)展的重要支撐。德勤在其《2024AI智算產(chǎn)業(yè)趨勢展望分析報告》中指出“當前中國將采取‘基礎(chǔ)設(shè)施+生態(tài)參與方+應(yīng)用場景’三位一體的智算中心統(tǒng)籌布局思路,引導(dǎo)技術(shù)升級、角色升級和應(yīng)用場景同步升級”,“各行業(yè)數(shù)字化轉(zhuǎn)型升級進度逐步加快,全社會數(shù)據(jù)總量爆發(fā)式增長,進而激發(fā)超大規(guī)模數(shù)據(jù)資源計算,圍繞智算中心建設(shè),將實現(xiàn)AI產(chǎn)業(yè)化發(fā)展,并推動產(chǎn)業(yè)AI化賦能”。算力發(fā)展是技術(shù)變革的關(guān)鍵推動力量,智能算力水平是數(shù)字化應(yīng)用建設(shè)及發(fā)展的底層基礎(chǔ)。1.助力金融業(yè)綠色數(shù)據(jù)中心建設(shè)。在“雙碳”目標全面推進與可持續(xù)發(fā)展迫切需求的雙重驅(qū)動下,建設(shè)綠色數(shù)據(jù)中心已然成為金融業(yè)發(fā)展的重要方向。采用高效節(jié)能的服務(wù)器設(shè)備、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備,降低設(shè)備運行過程中的能耗。采用先進的冷卻技術(shù)和散熱方式,確保設(shè)備在良好的環(huán)境中運行,降低散熱成本。同時,優(yōu)化數(shù)據(jù)中心的結(jié)構(gòu),通過存網(wǎng)算協(xié)同提升資源利用率,加強智能化管理對數(shù)據(jù)中心的設(shè)備運行狀態(tài)、能源消耗情況、業(yè)務(wù)負載等進行實時監(jiān)測和分析,合理調(diào)整資源分配,提高數(shù)據(jù)中心的運行效率和可靠性。2.優(yōu)化金融業(yè)AI算力平臺能力。大力優(yōu)化金融業(yè)人工智能算力平臺的綜合能力,使其在金融領(lǐng)域發(fā)揮出更為強大的作用。通過不斷引入先進的技術(shù)和理念,對金融業(yè)AI算力平臺進行全方位升級與改進。從硬件設(shè)施的更新?lián)Q代到軟件算法的持續(xù)優(yōu)化,確保平臺具備更高效的計算速度、更強大的數(shù)據(jù)處理能力以及更穩(wěn)定的運行性能,為風險評估、投資決策、客戶畫像等關(guān)鍵業(yè)務(wù)提供堅實的技術(shù)支撐。同時,積極探索創(chuàng)新的架構(gòu)設(shè)計和資源分配策略,以提升平臺的可擴展性和靈活性,應(yīng)對金融市場的動態(tài)變化和不斷涌現(xiàn)的新需求。二、推進AI基礎(chǔ)設(shè)施建設(shè)優(yōu)化通過高效利用能源、冷卻技術(shù)優(yōu)化等方式,提升AI基礎(chǔ)設(shè)高密AI服務(wù)器是指單個節(jié)點配置4塊及以上AI芯片的服務(wù)器,相比于普通AI服務(wù)器(單節(jié)點配置1~2塊AI芯片的服務(wù)器高密AI服務(wù)器聚合更多的AI芯片,提供更大的AI算力。高密AI服務(wù)器分為傳統(tǒng)模型高密服務(wù)器和大模型高密服務(wù)器。傳統(tǒng)模型高密AI服務(wù)器通常用于OCR、NLP、衛(wèi)星遙感等模型的訓(xùn)練和推理任務(wù)部署,與普通AI服務(wù)器相比,在提供相同AI算力的情況下,高密AI服務(wù)器使用更少的非AI芯片器件(包括CPU、主板等),減少非AI芯片器件產(chǎn)生的能耗開銷,提升AI服務(wù)器的能算比。大模型高密AI服務(wù)器主要用于大模型的訓(xùn)練和推理任務(wù),與傳統(tǒng)模型高密AI服務(wù)器相比,大模型高密AI服務(wù)器不僅聚合8塊及以上支持大算力、擁有大容量和適配高帶寬的AI芯片,同時采用AI芯片專用的高速總線模組連接AI芯片,減少大模型任務(wù)執(zhí)行過程中大量數(shù)據(jù)交換的時延,提升分布式任務(wù)執(zhí)行過程中的算力資源利用率(即MFU:ModelFLOPSUtilization,MFU=模型實際使用的AI芯片算力/AI芯片的規(guī)格算力),充分發(fā)揮每單位能耗的算力供給,進一步提升能算比。但是,高密AI服務(wù)器尤其是大模型高密AI服務(wù)器,單節(jié)點功耗高達10kW+,為解決散熱問題,該類型服務(wù)器配置更多的散熱設(shè)備,因此產(chǎn)生額外的能耗用于服務(wù)器散熱,導(dǎo)致AI服務(wù)器能效比下降。2.液冷服務(wù)器/機房隨著大模型不斷演進、參數(shù)規(guī)模不斷膨脹,模型對高密AI服務(wù)器的算力規(guī)模不斷增加,因此高密AI服務(wù)器的能耗還會不斷增加。在現(xiàn)有架構(gòu)下,采用風冷方式解決高密AI服務(wù)器的散熱問題已趨于極限,隨著芯片的制程工藝不斷發(fā)展帶來的AI芯片的功耗增加、單節(jié)點支持更多AI芯片數(shù)量帶來的功耗增加,未來高密AI服務(wù)器采用風冷方式進行散熱設(shè)計將面臨巨大挑戰(zhàn)。同時,采用風冷散熱方式導(dǎo)致高密AI服務(wù)器的能效比下降問題,與國家“雙碳”政策下工信部、地方政府、運營商、互聯(lián)網(wǎng)企業(yè)設(shè)定的碳達峰、碳中和的綠色環(huán)保目標不符。若使用液態(tài)冷卻劑來代替空氣,通過循環(huán)流動將服務(wù)器內(nèi)部的熱量帶走,液態(tài)冷卻劑的導(dǎo)熱性能遠高于空氣,因此可以實現(xiàn)更高效的散熱,解決高密AI服務(wù)器的散熱問題。同時,由于液冷可以更有效地移除熱量,因而可以減少冷卻系統(tǒng)的能耗,提升高密AI服務(wù)器的能耗比。此外,液冷還可以利用水的比熱容較大這一特性,實現(xiàn)更穩(wěn)定的溫度控制,提高高密AI服務(wù)器的穩(wěn)定性。液冷散熱技術(shù)主要有間接式(冷板)液冷、浸沒式液冷、噴淋式液冷技術(shù),其技術(shù)特點如圖1所示。經(jīng)過調(diào)研對比,冷板式液冷技術(shù)散熱功率密度高,機房空間利用率提升2~5倍;快接頭實現(xiàn)自動泄壓,雙向密封無泄漏,整體安全可靠;實現(xiàn)超低噪音,噪聲比普通機房至少低6dB。浸沒式液冷也具有長期技術(shù)積累,采用新材料,冷卻工質(zhì)無毒無腐蝕,機箱密封不泄漏,實現(xiàn)安全可靠。現(xiàn)階段冷板式液冷行業(yè)成熟度最高,供應(yīng)鏈最完善,市場應(yīng)用最廣,可延續(xù)當前服務(wù)器架構(gòu),兼容風冷散熱,同時適用于新舊機房,PUE達1.2~1.3。浸沒式液冷采用全新架構(gòu),更適用于新建機房,PUE相對冷板式液冷更低,可達1.01~1.09,是未來很多數(shù)據(jù)中心液冷規(guī)模化部署應(yīng)用中,主要推進冷板式液冷、浸沒式液冷兩大技術(shù)方向。具體方案、建議使用應(yīng)用場景、方案優(yōu)點、存在問題如表2所示。冷1.電子器件不接2.可兼容現(xiàn)有服2.液冷系統(tǒng)設(shè)計需要考慮現(xiàn)冷房PUE相比于冷板2.所有器件均浸液冷結(jié)構(gòu)設(shè)計相1.光纜接口浸入介質(zhì)流體中2.浸入流體時電路或系統(tǒng)的信號完整性、信號耗損等問4.需要配置單獨的專用維護設(shè)備進行單板清洗、廢液處冷1.加強了芯片表面與冷卻液之間2.冷卻液集中收卻液需求量較浸1.光纜接口浸入介質(zhì)流體中2.浸入流體時電路或系統(tǒng)的信號完整性、信號耗損等問4.需要配置單獨的專用維護設(shè)備進行單板清洗、廢液處6.噴淋過程中冷卻液會出現(xiàn)能源供應(yīng)為智算中心基礎(chǔ)設(shè)施提供能源和供配電服務(wù),主要涉及大模型訓(xùn)練、小模型訓(xùn)練、推理、訓(xùn)推合一等4種主要業(yè)務(wù)場景。智算芯片的負載特性和智算模型算法與通算差異很大,其新的動態(tài)特性使訓(xùn)練集群內(nèi)呈現(xiàn)微秒和毫秒級的瞬時功率脈沖、極大功率階躍幅值、功率波動相似性、類周期性。面對智算中心目前出現(xiàn)的上述挑戰(zhàn),萬卡規(guī)模容量對本地電網(wǎng)影響,以及智算芯片后續(xù)產(chǎn)品更嚴苛的動態(tài)特性,目前行業(yè)趨向采取三個階段的優(yōu)化方式應(yīng)對智算訓(xùn)練的挑戰(zhàn),其一為基于通算數(shù)據(jù)中心設(shè)計、產(chǎn)品和方案的智算工程優(yōu)化過渡階段方式,其二為智算數(shù)據(jù)中心打造適配的新設(shè)計、產(chǎn)品和方案的小革新階段方式,其三為智算數(shù)據(jù)中心打造全新的完全革新階段方式,但革新方式也需逐步完從解決方案和建設(shè)難度上看,保障萬卡及以上規(guī)模的大模型訓(xùn)練長期安全運行,是能源供應(yīng)和供配電的最大挑戰(zhàn)?;诎踩煽亢徒?jīng)濟性的全鏈路創(chuàng)新,是目前業(yè)內(nèi)在研究、試驗?zāi)M和優(yōu)化的重點。智算訓(xùn)練下,能源供應(yīng)和供配電的方案,從全鏈路的系統(tǒng)角度看,主要涉及智算服務(wù)器和整機柜PSU電源、不間斷電源UPS/HVDC/電力模塊和電池、油機、配電架構(gòu)、數(shù)據(jù)中心園區(qū)微網(wǎng)和儲能等,以及未來的電壓制式提升、能源路由、長時儲能、小型核電SMR等。具體到三個階段的優(yōu)化方式,簡要優(yōu)劣對比如表3所示。算工程優(yōu)化過渡階段千卡為主,等,機柜功級1.能快速滿足智算基本建設(shè)和訓(xùn)2.工程設(shè)計和設(shè)1.更考驗?zāi)茉垂?yīng)和供配電關(guān)鍵設(shè)備2.供電異常有可能案卡為主,少等,機柜功1.在能平抑一定的智算訓(xùn)練負載特性沖擊下,實現(xiàn)對能源供應(yīng)和供配電長期可靠2.降低運維故障1.可選設(shè)備供應(yīng)商2.工程設(shè)計需要匹3.運維人員需要培全革新階段萬卡為主,少量百萬卡等,機柜功1.數(shù)據(jù)中心微網(wǎng)與本地配電網(wǎng)協(xié)同支撐,微網(wǎng)內(nèi)2.供電容量、性3.支持智算芯片長期演進的可靠智算能源供應(yīng)和供配電整體解決案存網(wǎng)算協(xié)同是指在數(shù)據(jù)處理和分析過程中,存儲、網(wǎng)絡(luò)和計算資源通過高效協(xié)同工作,優(yōu)化數(shù)據(jù)處理流程,提升系統(tǒng)的整體性能,包括存儲協(xié)同、網(wǎng)絡(luò)協(xié)同、計算協(xié)同。1.存儲協(xié)同存儲協(xié)同是指通過多種技術(shù)和策略,將不同存儲資源、存儲系統(tǒng)或存儲設(shè)備進行整合和協(xié)同工作,以提高數(shù)據(jù)存儲的效率、可靠性和可用性,實現(xiàn)數(shù)據(jù)的高效共享、管理和調(diào)度。存儲協(xié)同主要包括分布式存儲協(xié)同、存儲虛擬化協(xié)同、存儲與計算協(xié)同。(a)數(shù)據(jù)冗余與備份:通過在多個節(jié)點上存儲相同的數(shù)據(jù)副本,提高數(shù)據(jù)的可靠性和可用性。(b)負載均衡:根據(jù)節(jié)點的性能和負載情況,合理分配數(shù)據(jù)存儲任務(wù),避免單點過載。(c)故障轉(zhuǎn)移與恢復(fù):在節(jié)點故障時,自動將數(shù)據(jù)請求轉(zhuǎn)移到其他正常節(jié)點,并在故障節(jié)點恢復(fù)后進行數(shù)據(jù)同步。(d)數(shù)據(jù)壓縮與去重:通過數(shù)據(jù)壓縮和去重技術(shù),減少存儲空間需求,提高存儲效率。(a)存儲資源池化:將不同存儲設(shè)備的資源抽象成一個統(tǒng)一的存儲池,實現(xiàn)資源的靈活分配和管理。(b)動態(tài)資源調(diào)度:根據(jù)應(yīng)用需求和存儲資源的使用情況,動態(tài)調(diào)整存儲資源的分配。(a)存算一體:將存儲和計算功能集成在同一芯片或系統(tǒng)中,減少數(shù)據(jù)傳輸延遲,提高系統(tǒng)整體性能。(b)智能緩存與預(yù)取:通過智能緩存和數(shù)據(jù)預(yù)取技術(shù),將熱點數(shù)據(jù)緩存在靠近計算節(jié)點的位置,提高數(shù)據(jù)訪問速度。2.網(wǎng)絡(luò)協(xié)同網(wǎng)絡(luò)協(xié)同是指通過深度融合AI技術(shù)與通信網(wǎng)絡(luò),實現(xiàn)計算資源、通信資源和網(wǎng)絡(luò)資源的高效協(xié)同與優(yōu)化配置,從而提升AI模型的訓(xùn)練和推理效率,同時優(yōu)化通信網(wǎng)絡(luò)的性能和服務(wù)質(zhì)量。通過采用智能網(wǎng)絡(luò)進行調(diào)度,確保關(guān)鍵環(huán)節(jié)獲得足夠的網(wǎng)絡(luò)滿足日益增長的智能化應(yīng)用需求。網(wǎng)絡(luò)協(xié)同主要包括智能網(wǎng)絡(luò)管理、云邊協(xié)同架構(gòu)、模型分割與協(xié)同推理。(a)智能網(wǎng)絡(luò)優(yōu)化:通過機器學習算法實時監(jiān)測網(wǎng)絡(luò)狀態(tài),自動調(diào)整網(wǎng)絡(luò)配置,優(yōu)化流量分配。(b)故障預(yù)測與自愈:利用AI模型預(yù)測網(wǎng)絡(luò)故障,實現(xiàn)自動化的故障檢測和修復(fù),提高網(wǎng)絡(luò)的可靠性和可用性。(a)邊緣端:部署輕量級的AI模型,負責實時數(shù)據(jù)處理和初步推理,滿足低延遲需求。(b)云端:部署完整的AI大模型,處理復(fù)雜的全局任務(wù),提供更強大的計算能力和存儲資源。(c)協(xié)同機制:邊緣端將預(yù)處理后的數(shù)據(jù)或請求發(fā)送到云端,云端返回處理結(jié)果,減少數(shù)據(jù)傳輸量和延遲。(3)模型分割與協(xié)同推理(a)模型分割:根據(jù)設(shè)備的計算能力和網(wǎng)絡(luò)帶寬,動態(tài)劃分神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu),將部分推理任務(wù)分配到邊緣設(shè)備。(b)協(xié)同推理:僅傳輸少量中間結(jié)果,減少帶寬消耗和傳輸時延,同時提高系統(tǒng)的整體吞吐量。通過采用云計算、邊緣計算等技術(shù)為分布式計算提供彈性資20源,以提升計算資源利用效率、加速計算過程。通過采用融合不同類型的計算資源(如CPU、GPGPU、NPU、ASIC等發(fā)揮各自的優(yōu)勢,進一步提升計算資源利用效率、加速計算過程。計算協(xié)同主要包括端邊云計算協(xié)同、計算卸載和資源分配、算法與模型協(xié)同。(a)端邊計算協(xié)同:終端設(shè)備與邊緣服務(wù)器協(xié)同工作,將部分計算任務(wù)從終端設(shè)備遷移到邊緣服務(wù)器,減輕終端設(shè)備的計算負載,提高響應(yīng)速度。(b)云邊計算協(xié)同:邊緣計算與云計算協(xié)同,邊緣設(shè)備處理實時性要求高的任務(wù),云計算處理復(fù)雜或大規(guī)模計算任務(wù)。(c)端邊云計算協(xié)同:結(jié)合終端設(shè)備、邊緣服務(wù)器和云計算中心,實現(xiàn)多層次的計算協(xié)同,滿足不同場景下的需求。(2)計算卸載和資源分配(a)任務(wù)卸載:將計算密集型任務(wù)從資源受限的設(shè)備卸載到計算能力更強的邊緣服務(wù)器或云端。(b)資源動態(tài)分配:根據(jù)任務(wù)需求和設(shè)備狀態(tài),動態(tài)分配計算、存儲和網(wǎng)絡(luò)資源,提高資源利用率。(a)模型拆分與部署:將深度學習模型拆分為邊緣端和云端兩部分,邊緣端負責實時推理,云端負責復(fù)雜計算。(b)算法更新與同步:云端構(gòu)建和優(yōu)化算法模型后,將其21下放到邊緣端,確保邊緣端執(zhí)行計算的準確性。云數(shù)智融合是一種將云計算、大數(shù)據(jù)和AI相結(jié)合的技術(shù)概念,旨在實現(xiàn)數(shù)據(jù)的高效處理、分析和利用,通過充分發(fā)揮云計算的彈性、可擴展性和靈活性,結(jié)合大數(shù)據(jù)的處理、分析能力和人工智能的智能決策、自學習的能力,為企業(yè)提供實時、高效、智能的數(shù)據(jù)服務(wù),包括一云多算、云智融合、云數(shù)融合。由于本報告主要涉及人工智能,因此僅針對一云多算、云智融合開展進一步分析。1.一云多算一云多算是指通過云的彈性按需能力,憑借集約化的服務(wù)模式和基于高性能“裸金屬+容器”算力核心引擎,建設(shè)云原生統(tǒng)一算力調(diào)度層,打造統(tǒng)一調(diào)度、資源池化、異構(gòu)納管能力,將通用的基礎(chǔ)能力下沉到編排引擎,實現(xiàn)通用、大數(shù)據(jù)、機器學習、大模型場景等各類異構(gòu)資源池協(xié)同調(diào)度。為實現(xiàn)通用計算、大數(shù)據(jù)計算、人工智能計算提供統(tǒng)一的資源調(diào)度服務(wù),首先需要將CPU、AI芯片、存儲、網(wǎng)絡(luò)等各種資源池化后進行統(tǒng)一的資源管理,其次在資源調(diào)度時根據(jù)不同的調(diào)度策略實施資源分配,再次在計算服務(wù)結(jié)束后對分配的資源統(tǒng)一進行回收。在服務(wù)過程中,需要對各種資源進行監(jiān)控,根據(jù)監(jiān)控結(jié)果實施資源的彈性伸縮,以確保充分利用各種計算資源。一云多算架構(gòu)如圖2所示。222.云智融合云智融合是指云計算和AI技術(shù)的深度融合,利用云計算的彈性、可伸縮性,結(jié)合人工智能的計算能力和智能決策,以提供更加智能、高效、可靠的服務(wù)和應(yīng)用。云智融合可通過采用AI解決智算領(lǐng)域存在云原生場景下AI算力資源使用粗放、算力資源利用率不高等痛點問題。AI算力資源虛擬化是指通過軟件或硬件的方式,將物理AI芯片的算力資源劃分為多個虛擬的AI算力資源,以供多個虛擬機或容器使用。這種技術(shù)提高了AI芯片的資源利用率,降低了硬件成本,并提供了更加靈活和高效的計算環(huán)境。其主要實現(xiàn)方式包括AI芯片分區(qū)、AI芯片時分復(fù)用,其簡介和特點參見表4。23將AI芯片的計算資源根據(jù)固定的比例劃分為多擬機可以分配到一個或余的AI芯片算力資源未被利用。與直接使用AI芯片相比,將AI芯片的計算資源通可以靈活調(diào)度使用AI芯片資源,充分挖掘AI芯片的資源。與直接使用AI芯片相比,存在自動彈性伸縮是一種云計算服務(wù)特性,可以根據(jù)實際需求自動調(diào)整AI芯片資源的使用量,以最小的AI芯片資源使用開銷,確保應(yīng)用場景性能和穩(wěn)定性。其工作原理如下:當應(yīng)用監(jiān)控發(fā)現(xiàn)應(yīng)用場景的AI算力資源大幅提升或趨于飽和時,系統(tǒng)會自動拉起更多的容器,提供應(yīng)用更充足的AI算力資源;當發(fā)現(xiàn)應(yīng)用場景的AI算力資源使用率嚴重下滑時,系統(tǒng)釋放一定數(shù)量的容器,回收部分AI算力資源。通過動態(tài)調(diào)整AI算力資源,一是確保應(yīng)用始終有足夠數(shù)量的AI算力資源可用;二是提升算力資源的利用率,賦能更多的應(yīng)用場景。1.基礎(chǔ)設(shè)施安全芯片在進行AI計算過程中,若未對數(shù)據(jù)進行有效的保護,24容易造成數(shù)據(jù)泄露或數(shù)據(jù)完整性被破壞,因此對于AI芯片尤為重要。首先,通過采用內(nèi)存加密技術(shù),防止AI芯片的內(nèi)存數(shù)據(jù)因受到物理攻擊,導(dǎo)致數(shù)據(jù)泄露或數(shù)據(jù)完整性被破壞。其次,在分布式計算過程中,除了硬件層面的加密外,通過采用跨節(jié)點數(shù)據(jù)加密和訪問認證機制,防止非授信服務(wù)器對數(shù)據(jù)的非法訪問,增加數(shù)據(jù)安全性。最后,AI芯片可以集成硬件加密加速器,提高加密和解密操作的性能,確保加密處理不顯著影響系統(tǒng)運行的整體效率。為降低AI芯片使用門檻,AI芯片廠商都會提供相應(yīng)的固件和底層硬件庫函數(shù),但是固件或庫函數(shù)可能存在安全風險和漏洞,建議通過引入并及時更新安全掃描軟件,對固件或庫函數(shù)進行安全掃描,防止因固件或第三方庫函數(shù)的漏洞引入安全問題。同時,需要及時更新已修復(fù)漏洞的固件或庫函數(shù),防止因更新不及時引入安全問題。在云計算環(huán)境中,AI模型訓(xùn)練常常使用共享的AI集群資源。使用虛擬化技術(shù),即使不同租戶在共享同一個AI芯片資源,也能保持使用的硬件資源相對獨立性,確保硬件資源相互隔離,防止某個租戶非法獲取或篡改其他租戶的數(shù)據(jù),解決云用戶的數(shù)據(jù)安全問題。同時,硬件支持的AI芯片虛擬化技術(shù)也可將自研各算法庫運行在虛擬化環(huán)境中,確保各個算法庫的運行互不干擾。252.模型安全對于傳統(tǒng)模型,防止數(shù)據(jù)投毒、對抗樣本攻擊、模型竊取,滿足模型可解釋需求;對于生成式人工智能模型,滿足價值對齊的需要,確保AI以對人類和社會有益的方式行事。當前,AI算法模型內(nèi)部邏輯復(fù)雜,而且模型復(fù)雜度越高,越難以實現(xiàn)模型的可解釋性,這會導(dǎo)致推理結(jié)果難以解釋和預(yù)測,用戶難以對AI技術(shù)建立信任,也有可能帶來潛在的安全隱患和倫理、偏見等問題。通過敏感性分析、局部近似、樣本原型的方法可以提高模型的局部可解釋性,即通過分析輸入樣本的每一維特征對模型最終決策結(jié)果的貢獻,來判斷對于一個樣本,哪些部分對決策結(jié)果是重要的。也可以通過特征分析、概念分析、規(guī)則提取的方法,從整體上解釋模型背后的復(fù)雜邏輯以及內(nèi)部的工作機制。此外,通過知識蒸餾的方法,如模型壓縮、樹的正則化或者降維等方式,可以將一個復(fù)雜模型轉(zhuǎn)化為簡單的可解釋性模型,從而提高復(fù)雜模型的可解釋性。攻擊者加入設(shè)計的對抗樣本數(shù)據(jù),或者無意間懷有偏見的樣本數(shù)據(jù)引入,則會擾動、誤導(dǎo)AI模型出錯,輸出置信度很高的錯誤推理結(jié)果,甚至可能造成模型的運行癱瘓。針對帶有擾動設(shè)計的對抗樣本攻擊,采用魯棒訓(xùn)練方法進行26防御最可靠,即通過在訓(xùn)練數(shù)據(jù)中引入對抗樣本,或在訓(xùn)練過程中加入正則化項等方法對模型進行特殊訓(xùn)練,使模型對于對抗樣本的魯棒性得到較大的提升;采用輸入增強方法進行防御最簡單、最通用,即通過對輸入數(shù)據(jù)進行檢測和過濾,排除潛在的對抗樣本,但是檢測規(guī)則對于對抗樣本的識別有效性有較大的影響。此外,還有以下方法可以提升對抗樣本攻擊的防御能力:對輸入數(shù)據(jù)進行隨機化處理;對訓(xùn)練后的模型進行壓縮、微調(diào)等。攻擊者可以通過發(fā)送輪詢數(shù)據(jù)并查看對方的響應(yīng)結(jié)果,來推測AI模型的參數(shù)、結(jié)構(gòu)、功能等算法核心信息,導(dǎo)致模型機密信息泄露,甚至存在被修改、嵌入后門的風險。目前,檢測潛在的攻擊并對其拒絕服務(wù),是一種對目標模型影響最小的防御方式。通過構(gòu)建輸入數(shù)據(jù)的分布、特征、預(yù)測結(jié)果等不同的樣本,并對不同測試數(shù)據(jù)上的行為差異進行建模,識別攻擊者和普通用戶的服務(wù)請求之間存在的數(shù)據(jù)差異、行為差異、目標差異,限制潛在攻擊者周期性地大量查詢請求,防止惡意查詢,阻止其通過多次聯(lián)合查詢來竊取數(shù)據(jù)或隱私信息。AI模型不具備人類的價值判斷能力以及政治意識,僅以完成用戶任務(wù)以及提升效率為導(dǎo)向,因此攻擊者可以通過加入存在倫理等社會公德;攻擊者也可以通過提示詞,誘導(dǎo)LLM大模型泄27露隱私數(shù)據(jù),甚至輸出對社會產(chǎn)生危害的回答,對社會的安全穩(wěn)定帶來不利影響。事后應(yīng)急等措施,將生成式風險的社會影響度降到最低。首先,在模型訓(xùn)練的時候,構(gòu)造正向安全的數(shù)據(jù)集,并通過強化學習、價值對齊器,確保模型輸出與人類價值、真實意圖、倫理原則相一致。其次,在模型服務(wù)階段,需要自動審核提示詞內(nèi)容,識別違規(guī)提示詞,確保輸出內(nèi)容安全合規(guī)。最后,在輸出內(nèi)容已經(jīng)產(chǎn)生社會影響的情況下,及時給出問題解決策略,降低事件對企業(yè)聲譽的影響;同時追溯風險源,避免同類風險事件再次發(fā)生。防止有毒信息和違法不良信息進入模型和個人隱私信息泄攻擊者在訓(xùn)練數(shù)據(jù)中注入特定的“毒化”數(shù)據(jù)以污染訓(xùn)練數(shù)據(jù),影響甚至干預(yù)模型的正常訓(xùn)練結(jié)果,使整個模型或者模型的某個方面失去功能。對于該種類型的攻擊,在模型訓(xùn)練前,應(yīng)對訓(xùn)練數(shù)據(jù)進行檢測、清洗和修復(fù),移除異常或不準確的數(shù)據(jù)點,得到一個減毒,甚至是無毒的訓(xùn)練數(shù)據(jù)集,在這個基礎(chǔ)上訓(xùn)練模型就能有效降低數(shù)據(jù)投毒的不良影響,恢復(fù)模型的正常功能。在訓(xùn)練集不夠的情況下可增加訓(xùn)練數(shù)據(jù)集,可以對原有數(shù)據(jù)集進行一定形式的轉(zhuǎn)變28來擴大數(shù)據(jù)集,在增強的、多樣化的訓(xùn)練集上訓(xùn)練模型,會得到較高的準確率。攻擊者通過與模型交互,依據(jù)模型的預(yù)測結(jié)果嘗試恢復(fù)該預(yù)測結(jié)果對應(yīng)的輸入數(shù)據(jù),數(shù)據(jù)竊取攻擊可能會導(dǎo)致大量用戶隱私信息的泄露。為了防止數(shù)據(jù)在訓(xùn)練過程和訓(xùn)練結(jié)果中被竊取,應(yīng)采取一系列措施確保數(shù)據(jù)在收集和存儲中的安全性,首先,對敏感數(shù)據(jù)進行加密和脫敏處理;其次,使用可靠的數(shù)據(jù)存儲和傳輸方式,如加密存儲和傳輸,以確保數(shù)據(jù)的安全性;最后,建立數(shù)據(jù)訪問控制和審計機制,以監(jiān)測和防止未經(jīng)授權(quán)的訪問和數(shù)據(jù)泄露。大模型訓(xùn)練都需要大量的數(shù)據(jù)作為輸入,在訓(xùn)練過程中,如果未對數(shù)據(jù)進行適當?shù)拿撁籼幚恚蛘呤褂貌豢煽康拇鎯蛡鬏敺绞?,攻擊者從模型的預(yù)測以及計算的中間信息就可以恢復(fù)輸入數(shù)據(jù)的部分敏感屬性,導(dǎo)致關(guān)鍵隱私信息泄露。對于該種類型的攻擊,需要在模型訓(xùn)練過程中,合規(guī)地使用個人隱私數(shù)據(jù),加強隱私保護和數(shù)據(jù)治理、建立數(shù)據(jù)管理制度、提高數(shù)據(jù)處理效率、遵守數(shù)據(jù)透明度義務(wù)等方面的具體要求,嚴格落實關(guān)于用戶控制權(quán)、知情權(quán)、選擇權(quán)等合法權(quán)益,促進數(shù)據(jù)的可管控、可監(jiān)督、可追溯和可信賴。三、金融業(yè)AI基礎(chǔ)設(shè)施建設(shè)優(yōu)秀案例分析29(一)中國工商銀行千卡規(guī)模AI算力云建設(shè)工商銀行在同業(yè)率先建成千卡規(guī)模自主可控AI算力云,算力資源的分配時效、穩(wěn)定性均達國際領(lǐng)先水平,為實現(xiàn)高水平科技自立自強貢獻力量。首先,通過打造智算云原生架構(gòu),實現(xiàn)算力分鐘級彈性分配。在云智融合方面,運用算力池化、虛擬化等技術(shù),整體算力資源使用率提升超50%。針對大模型服務(wù)啟動慢的痛點,大鏡像創(chuàng)新采用p2p鏡像傳輸,大模型文件通過預(yù)熱緩存技術(shù)縮短時長,大模型服務(wù)啟動整體提速一倍以上,分鐘級伸縮。在異構(gòu)管理方面,通過建設(shè)獨立云底座,GPU、NPU、MLU等異構(gòu)千卡規(guī)模算力混合部署,分用戶資源隔離,訓(xùn)練推理集群隔離,資源彈性調(diào)度、統(tǒng)一監(jiān)控、統(tǒng)一運維。其次,AI算力集群規(guī)模最大,30天+連續(xù)訓(xùn)練不中斷。在穩(wěn)定性方面,目前已建成的集群千卡規(guī)模達到總算力1.5EFLOPS,為解決大規(guī)模集群下的計算任務(wù)分發(fā)夯死、卡頓等問題,采用算力多級編組調(diào)度策略,具備TB級數(shù)17天內(nèi)完成千億大模型全參穩(wěn)定訓(xùn)練的能力,同時兼容小模型訓(xùn)練。在高效協(xié)同方面,通過建立流量感知模型,自動修正網(wǎng)絡(luò)偏離參數(shù),控制存儲讀寫速度,優(yōu)化算力資源調(diào)度,實現(xiàn)0丟包、超10000I/O吞吐的算網(wǎng)存高效融合協(xié)同。最后,同業(yè)率先打造綠色低碳基礎(chǔ)設(shè)施,能耗達到綠色數(shù)據(jù)中心領(lǐng)先水平,獲得綠色數(shù)據(jù)中心評定。(二)中國光大銀行云平臺AI算力創(chuàng)新實踐光大銀行2021年啟動全棧云平臺建設(shè),是“123+N”數(shù)字化30銀行發(fā)展體系中的兩大技術(shù)平臺之一,也是業(yè)務(wù)拓展核心生產(chǎn)力的基礎(chǔ)平臺,其中AI算力云是該平臺的一個重要組成部分。該平臺已完成如下建設(shè):一是實現(xiàn)GPU資源池化,支持原生容器、K8S、虛擬機、裸金屬服務(wù)器和物理機等多元化部署場景;二是支持GPU資源聚合(適用于訓(xùn)練場景),即通過將多機多卡快速聚合到一個任務(wù),可免去復(fù)雜的調(diào)度過程與模型拆分過程,實現(xiàn)快速交付;三是支持GPU細粒度切分(適用于推理場景),即通過將GPU按需切分給多個推理任務(wù),實現(xiàn)多個任務(wù)同時并發(fā)、相互隔離,進而提高資源利用率、增加業(yè)務(wù)規(guī)模。四是支持資源動態(tài)伸縮,即所有虛擬GPU資源的分配與回收都保持動態(tài)運轉(zhuǎn),并可以按需調(diào)整、無需重啟。五是支持調(diào)用內(nèi)存補充顯存(適用于長尾應(yīng)用疊加場景),即當GPU面臨顯存不足時,可以調(diào)用系統(tǒng)內(nèi)存補充顯存。六是支持資源動態(tài)分配和釋放(適用于AI算法開發(fā)場景),即僅當有AI編譯程序需要運行時,才會占用物理GPU資源,并在程序執(zhí)行完畢后,執(zhí)行資源動態(tài)釋放,從而實現(xiàn)GPU動態(tài)共享。(三)中國人保大模型智算液冷實驗室建設(shè)2024年5月中旬,中國人保在北方信息中心建立的大模型智算液冷實驗室正式投產(chǎn)。液冷實驗室部署的雙冷源單機柜功率達20kW、峰值測試功率達30KW,是目前行業(yè)內(nèi)標準機柜功率(2.5kW)的8~12倍。采用可動態(tài)調(diào)整、彈性適配業(yè)界主流液冷服務(wù)器的模塊化、松耦合架構(gòu),應(yīng)用最高容錯等級2N架構(gòu)液31冷CDU拓撲,分別從冷卻塔、雙路冷凍水等三路冷源引入冷水,大幅度提升機柜供冷可靠性。智能小母線系統(tǒng)自低壓配電系統(tǒng)引至機柜,有效消除單點故障,保障系統(tǒng)架構(gòu)的業(yè)務(wù)連續(xù)性及穩(wěn)定大幅降低能耗,預(yù)計每年可節(jié)約近百萬KWH用電,向綠色低碳算力基礎(chǔ)設(shè)施建設(shè)邁出堅實的第一步。四、存在問題(一)AI芯片采購選型難度高。AI是人工智能賦能業(yè)務(wù)場景的關(guān)鍵基礎(chǔ)設(shè)施,但是AI芯片選型與傳統(tǒng)的硬件(如CPU和磁盤)選型不盡相同,除了規(guī)格參差不齊之外,AI芯片種類繁多且不同的AI芯片對人工智能模型、算法和框架的兼容性也存在差異,金融機構(gòu)難以直接通過產(chǎn)品的參數(shù)規(guī)格選擇合適的芯片產(chǎn)品,業(yè)界也沒有AI芯片統(tǒng)一的評估標準。因此,大部分金融機構(gòu)在采購前,都會與芯片廠商溝通,協(xié)調(diào)測評樣機進場開展芯片原型驗證工作,開展AI芯片規(guī)格驗證、業(yè)界熱點模型驗證、企業(yè)自身特色模型驗證。由于前兩者是一個重復(fù)工作,并且大部分金融機構(gòu)對AI芯片均會開展業(yè)界熱點模型的驗證工作,目前各家金融機構(gòu)單獨對AI芯片進行選型測評的方式,不僅耗費大量的人力和物力,還增加了不必要的時間成本。同時,由于樣機數(shù)量有限,基本在大型金融機構(gòu)流轉(zhuǎn),中小金融機構(gòu)很難取得實測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論