版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
編制委員會編制委員會COMMITTEE編審組成員徐航DIRECTORYDIRECTORY05-0905-0910-13210-1314-18AI14-18AI-Native存儲19-2319-2324-2824-28839-428629-3468大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集943-469735-38747-54在AI場景中,CPU扮演著指揮統(tǒng)籌與核心控制的角色,GPU/NPU負責核心AI大模型的并行高性能訓練與推理計算。考慮到算力的供應(yīng)多樣性與長期可獲得性,以x86和ARM為代表的通用算力和以GPU和NPU為代表的AI算力,將長期協(xié)同發(fā)展與配合使用,因此需要考慮異構(gòu)算力的資源管理:集群管理的資源從通常的CPU+內(nèi)存,變?yōu)镃PU+內(nèi)存+AI算力卡等多種異構(gòu)硬件管理。除了多種型號的AI算力卡、同型號多代AI算力卡、還有整卡與切分卡的統(tǒng)一管理調(diào)拓撲感知:大模型分布式訓練過程中,AI算力卡之間或AI服務(wù)器之間的帶寬并不完全一致。因此調(diào)度時,必須考慮異構(gòu)資源的拓撲關(guān)系,資源爭奪沖突死鎖:傳統(tǒng)容器調(diào)度邏輯都是按照單個容器依次調(diào)度。而分布式AI訓練容器必須同時運行以進行集合通信,且只能同時調(diào)度成功或調(diào)度失敗。否則,多個分布式作業(yè)在資源調(diào)度層面出現(xiàn)爭搶并導致死鎖,所有訓練06AI資源碎片問題:單個訓練/推理作業(yè)所需要的AI算力卡數(shù)典型值為1、2、4、8、n*8,大于8卡的作業(yè),需運行在完全空閑的節(jié)點上。隨著多個任務(wù)的異步結(jié)束,集群中會出現(xiàn)資源碎片,即便整體上存在足夠的資源,需要多卡AI算力多團隊共享問題:集團內(nèi)部需要考慮不同部門多個彼此隔離的AI小集群可能導致的整體資源利用率較低的問題,資源池化按需調(diào)算力復(fù)用:在推理場景,需要實現(xiàn)推理卡的多路任務(wù)并行復(fù)用,即多個算法共用一張AI卡,以提升算力利用率。071.2多樣性算力調(diào)度:全局統(tǒng)籌,提升算力效率華為云多樣性算力調(diào)度基于云原生集群管理框架,并融入面向AI場景的Volcano調(diào)度框架,實現(xiàn)分布式AI任務(wù)調(diào)度增強。同時還針對算力資源的利用率提升做了系列創(chuàng)新優(yōu)化,包括:邏輯子池、隊列優(yōu)先NPUAI任務(wù)實例CPUNPUAI任務(wù)實例CPUAI任務(wù)實例AI任務(wù)實例CPU資源池NPU資源池GPUCPU資源池NPU資源池AI服務(wù)器AI服務(wù)器AI服務(wù)器AI服務(wù)器AI服務(wù)器節(jié)點2節(jié)點4節(jié)點5節(jié)點3節(jié)點2節(jié)點4節(jié)點5傳統(tǒng)的K8s集群管理系統(tǒng)在啟動容器時,會將負載調(diào)度至合適的節(jié)點。但其調(diào)度的維度僅支持“CPU+內(nèi)存”,無法識別和調(diào)度“GPU/NPU”這種異構(gòu)算力資源。0822圖1.2GPU/NPU異構(gòu)資源識別和調(diào)度因此華為云引入了K8s的Device-plugin調(diào)度插件框架,并開發(fā)了AI異構(gòu)算力插件,實時獲取和上報各異構(gòu)資源池中AI算力的狀態(tài),輔助完成異構(gòu)算力的混合調(diào)度。如常見的推理任務(wù)會包含LB負載均衡(通用算力調(diào)度)、AI推理多實例(AI算力調(diào)度),兩者共同配合完成。分布式AI訓練的組調(diào)度在分布式AI訓練中,需要通過容器組調(diào)度算法,來避免多個分布式任務(wù)因爭搶資源而導致任務(wù)死鎖。華為云設(shè)計了Volcano調(diào)度框架,實現(xiàn)了組統(tǒng)一的作業(yè)管理:提供作業(yè)的全生命周期管理,支持所有主流的計算框架,如Pytorch、MPI、Horovod、Tensorflow、Spark-op-豐富的高階調(diào)度策略:公平調(diào)度、任務(wù)拓撲調(diào)度、基于SLA調(diào)度、作業(yè)搶占、回填、彈性調(diào)細粒度的資源管理:提供作業(yè)隊列、隊列資源預(yù)留、隊列容量管理、多租戶的動態(tài)資源共Master節(jié)點3SchedExtender調(diào)節(jié)-擴展插件容器運行時容器Kubelet異構(gòu)資源-擴展DevicePlugin4分配“異構(gòu)資源”5啟動+配置RunTimeMaster節(jié)點3SchedExtender調(diào)節(jié)-擴展插件容器運行時容器Kubelet異構(gòu)資源-擴展DevicePlugin4分配“異構(gòu)資源”5啟動+配置RunTimeAI作業(yè)調(diào)度vNPU調(diào)度vNPU調(diào)度1/7NPUvNPU算力切分1/2NPU1/4NPU1/7NPUGPUnvlinknv-switchGPUGPUCPU在部分AI推理場景(如視頻推理)中,單NPU卡如果只承載1個AI推理應(yīng)用,會出現(xiàn)富裕算力的空置浪費。可以將一張NPU卡切分為多張vNPU卡,每個vNPU卡運行單獨的AI推理應(yīng)用,才能最大程度利用AI算力。在K8s設(shè)定的AI資源調(diào)度框架中只能為容器綁定整個AI卡資源,無法靈活綁定如1/2、1/4NPU卡資源。因此,華為云開發(fā)了增強調(diào)度邏輯,在同一個集群中,實現(xiàn)了對NPU整卡和更小顆粒度的vNPU卡的靈活調(diào)度,確保為AI任務(wù)匹配顆粒度最合適的NPU資源,大幅提升NPU的算力利用率。AppvNPUNPUNPUAppAppAppAppAppvNPUvNPUvNPUvNPUNPUNPUNPUNPU.........圖1.4NPU算力切分調(diào)度1.3價值收益x86|ARM|GPU|NPU47%092.1業(yè)界難題隨著AI大模型逐步應(yīng)用到煤礦生產(chǎn)、電力巡檢、工業(yè)質(zhì)檢等工業(yè)場景,邊緣實時推理的需求日益凸顯。業(yè)界也在思考如何解決規(guī)?;渴鹋c運維的效率問題,并構(gòu)建異常樣本反饋與模型的快速海量邊緣管理:面向工業(yè)場景的海量邊緣推理部署需求,傳統(tǒng)人工部署管理的方案,工作量大且上線慢。缺乏自動化、可視化的管理技術(shù),將導致每一次后續(xù)模型迭代都需要重復(fù)操。模型持續(xù)迭代:生產(chǎn)工況或者應(yīng)用現(xiàn)場情況復(fù)雜并多變,部分工業(yè)生產(chǎn)環(huán)境中缺少足量的異常樣本進行訓練,所以原始模型精度有限,并且隨著使用環(huán)境的變化,原始模型精度會下降。因此,模型精度需要不斷地通過異?,F(xiàn)場數(shù)據(jù)來進行迭代訓練,不斷地升級模型,實現(xiàn)綜上,需要創(chuàng)新模型訓練、推理部署、長期迭代的辦法,才能幫助政企行業(yè)真正實現(xiàn)AI智能化的2.2云邊協(xié)同:海量邊緣管理,模型邊用邊學華為混合云推出云邊協(xié)同方案,支持中心訓練、邊通過采集原始生產(chǎn)樣本數(shù)據(jù)和模型運行中產(chǎn)生的存疑樣本數(shù)據(jù),使用工作流高效訓練模型AI中心訓練AI中心訓練AI應(yīng)用開發(fā)①AI模型訓練AI基礎(chǔ)設(shè)施中心云邊用邊學邊緣③AI推理AI邊緣③AI推理AI基礎(chǔ)設(shè)施③AI推理AI基礎(chǔ)設(shè)施AI邊緣推理③AI推理AI基礎(chǔ)設(shè)施邊緣推理:模型按需部署到指定邊緣節(jié)點,完成推理識別到告警處置的端到端業(yè)務(wù)閉環(huán),推理和處置結(jié)果同步上報至中心云平臺,實現(xiàn)中邊用邊學:邊緣側(cè)將AI誤報、新增場景樣本數(shù)據(jù)反饋至中心側(cè)統(tǒng)一分析,重新訓練升級模型,從而構(gòu)建高效反饋-迭代升級-部署應(yīng)用設(shè)備接入與資源管理:邊緣節(jié)點以VPN或云專線方式接入邊緣管理平臺,注冊后管理員可以通過可視化界面,統(tǒng)一對資源進行管理,包邊緣節(jié)點的固件版本等。中心云可高效實AI模型部署:中心云將AI場景化工作流訓練好的模型,一鍵式部署到指定邊緣節(jié)點??蓪崿F(xiàn)分鐘級模型持續(xù)更新,大幅降離線可用性:當邊緣節(jié)點與中心的連線中斷后,邊緣業(yè)務(wù)可正常運行;節(jié)點故障或基于云邊協(xié)同架構(gòu),通過持續(xù)異常/錯誤樣快速迭代、持續(xù)升級、能適應(yīng)新的工況和數(shù)中心云中心云AI應(yīng)用平臺(集團端)AI應(yīng)用平臺(集團端)AI模型AI訓練平臺邊緣節(jié)點邊端網(wǎng)邊緣側(cè)AI模型推理rtsp邊緣節(jié)點邊端網(wǎng)邊緣側(cè)AI模型推理rtsp(生產(chǎn)端)攝像機3攝像機3攝像機2攝像機2圖2.2邊用邊學工作流程邊緣回傳:在AI服務(wù)推理過程中,通過回傳接口將推理過程中識別的異常/錯誤樣本回傳到中心側(cè)AI應(yīng)樣本標注:中心AI應(yīng)用平臺對異常/錯誤樣本進行快速復(fù)模型迭代:中心AI訓練平臺的工作流,調(diào)用標注過的異常/錯誤樣本數(shù)據(jù)對模型進行再訓練和評估,以2.3價值收益20%AI-Native存儲3.1業(yè)界難題隨著AI大模型參數(shù)量的增加,訓練集群規(guī)模也不斷擴大,存儲成為制約大模型訓練效率提升的關(guān)海量小文件加載慢:10億訓練原始數(shù)據(jù)加載時故障影響大、恢復(fù)慢,造成算力空轉(zhuǎn):分布式訓練中出現(xiàn)故障時,訓練集群需要從存儲中讀取上一Checkpoint(訓練任務(wù)檢查點)重新執(zhí)行訓練。Checkpoint讀取過程本身會產(chǎn)生大量開銷,當恢復(fù)時所有計算節(jié)點都來讀取Checkpoint文件,保存和恢復(fù)通常會成為瓶頸。目前業(yè)界典型的AI服務(wù)器年故障率10%至17%,大規(guī)模集群訓練單次故障恢復(fù)需數(shù)小時,其中檢查點的加載耗時占65%。傳統(tǒng)存儲從架構(gòu)上就已經(jīng)難以應(yīng)對超大規(guī)模AI集群數(shù)據(jù)快讀、Checkpoint快存、故障快速恢復(fù)的需求,業(yè)界亟需面向AI大模型場景更專業(yè)的存3.2AI-Native存儲:創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢傳統(tǒng)架構(gòu)華為云AI-Native存儲三層架構(gòu)算力層算力層算力層算力層NPUCPUNPUNPUNPUNPUNPUAITurboAITurboAITurboNPUCPUNPUNPUNPUNPUNPUAITurboAITurboAITurboAITurboL3加速SFSTurbo客戶端SFSTurbo客戶端L2緩存NPUCPUNPU主機性能層性能層SFSTurbo服務(wù)端L1緩存容量層容量層容量層容量層分布式HDD存儲圖3.1華為云AI-Native存儲三層架構(gòu)AI原始數(shù)據(jù)集通常存儲在大容量對象存儲上,然后通過單機拷貝到AI服務(wù)器的本地盤,傳統(tǒng)的存億訓練原始數(shù)據(jù)的讀取,無法滿足AI大模型的性華為云AI-Native存儲,基于OBS數(shù)據(jù)湖、SFSTurbo高性能并行文件系統(tǒng)和AITurbo加速的創(chuàng)新三層架構(gòu),系統(tǒng)性地應(yīng)對大模型訓練場oOBS數(shù)據(jù)湖:為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、訓練、推理、模型部署全流程提供海量數(shù)據(jù)的統(tǒng)SFSTurbo高性能并行文件系統(tǒng):作為OBS訪問的加速層,滿足核心訓練環(huán)節(jié)海量小文件高AITurbo加速:將AITurboSDK部署到訓練節(jié)點,與AI框架配合讓存儲主動感知模型的參數(shù)切分、冗余數(shù)據(jù)策略、訓練任務(wù)的故障分類、AI訓練平臺的容器部署與回收等,為大模型訓練和Checkpoint快存快恢加速。SFSTurbo:加速訓練數(shù)據(jù)集訪問AI訓練數(shù)據(jù)集通常以KB級的小文件居多,因此在業(yè)務(wù)訪問數(shù)據(jù)集文件時,SFSTurbo會將NVMeSSD存儲池中的數(shù)據(jù)文件緩存到L1服務(wù)端分布式內(nèi)存緩存中,減少AI訓練訪問數(shù)據(jù)集的通過分布式數(shù)據(jù)節(jié)點的云原生彈性擴縮,將帶寬從GB級提升到TB級,進而充分發(fā)揮L1服務(wù)端TB級的內(nèi)存緩存帶寬優(yōu)勢,實現(xiàn)比NVMeSSD硬盤層更大的吞吐能力。通過分布式元數(shù)據(jù)節(jié)點的云原生彈性擴縮,將IOPS從50萬級提升到千萬級,輕松應(yīng)對海量億級小文件并發(fā)處理。AITurbo:加速訓練檢查點保存和加載AITurboSDK部署到訓練進程中,感知和協(xié)同模型參數(shù)切分與并行策略、故障分類等,最大程度減少Checkpoint保存耗時和故障恢復(fù)加載耗保存階段:如下圖所示,采用兩階段寫的Checkpoint異步持久化方案,最大程度減少耗wrwr階段①寫本地客戶端:各節(jié)點將自己的Checkpoint高速同步寫入SFSTurbo客戶端本地內(nèi)存緩存,階段②Checkpoint去重:將DP(數(shù)據(jù)并行)維度上Checkpoint相同的多個GPU/NPU作為一組,在組內(nèi)推舉1個代表節(jié)點執(zhí)行Checkpoint存儲持久化操作,將DP倍數(shù)寫操作變?yōu)?次,有效降低對存儲數(shù)據(jù)并行組1(Checkpoint相同)數(shù)據(jù)并行組2(Checkpoint相同)算力層算力層NPUAITurboNPUAITurboSDKNPUAITurboSDKNPUAITurboSDK組2代表節(jié)點NPUAITurboSDKNPUAITurboSDKNPUAITurboSDKSFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端性能層性能層SFSSFSTurbo服務(wù)端內(nèi)存緩存容量層容量層分布式HDD存儲圖3.2Checkpoint異步持久化方案在恢復(fù)階段,AITurboSDK可以感知故障分類,進程級故障:硬件仍然健康的故障場景,主機側(cè)客戶端內(nèi)存緩存中的Checkpoint仍可正常訪問,直接加載Checkpoint進行原地秒級快任務(wù)級故障:硬件故障導致個別故障節(jié)點隔離甚至是整個集群機器均發(fā)生崩潰時,此時將回退到使用遠端SFSTurbo服務(wù)端持久化存儲上的Checkpoint。如下圖所示,為避免所有GPU/NPU卡同時加載Checkpoint導致存儲帶寬成為瓶頸,選擇代表節(jié)點替代所有節(jié)點執(zhí)行加載Checkpoint操作,然后再利用空閑的計算集群的參數(shù)網(wǎng)絡(luò)將Checkpoint廣播到組內(nèi)其余節(jié)點上,從而顯著降低大規(guī)模訓練集群故障恢復(fù)過程對遠端SFSTurbo服務(wù)端存儲帶寬的需求,加速Checkpoint恢復(fù)過程。算力層性能層組2代表節(jié)點算力層性能層組2代表節(jié)點NPUAITurboSDKSFSTurbo客戶端SFSTurbo服務(wù)端內(nèi)存緩存SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端SFSTurbo客戶端NPUAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDKNPUNPUNPUNPU圖3.3任務(wù)級故障Checkpoint快速加載與廣播3.3價值收益204.1業(yè)界難題大模型的訓練過程是計算和通信緊密耦合的,在諸如MLPerf、T5、GLaM等常見模型訓練中,通信開銷占比都達到了40%左右!GPT_1TMeena_500BMLPerf_200BT5_300BGLaM_1T22%25%42%39%42%36%0%25%50%75%100%Source:Google《OverlapCommunicationwithDependentComputationviaDecompositioninLargeDeepLearningModels》隨著AI大模型參數(shù)量的增加,參數(shù)同步帶來的網(wǎng)絡(luò)通信開銷也會同步大幅增加。為了降低通信時間,一方面可以優(yōu)化計算平臺,比如通過計算和網(wǎng)絡(luò)通信時間的重疊;另一方面,采用兼容成熟以太網(wǎng)生態(tài)的ROCE(RDMAoverConvergedEthernet)無損網(wǎng)絡(luò),通過單端口200G以上配置但AI大模型訓練的流量特征是流數(shù)量少、周期性、大流為主,并行phase間有強同步性要求,通信效率取決于最慢的流。因此,大模型的高效訓練要求參數(shù)面網(wǎng)絡(luò)無阻塞,保障整網(wǎng)設(shè)備之間通信達到滿吞吐。而傳統(tǒng)的ECMP(EqualCost在“少流”、“大流”的AI場景,容易造成鏈路流量不均而網(wǎng)絡(luò)擁塞,使得“算等網(wǎng)”,拉低整體訓練效率。因此,要實現(xiàn)大模型的高效訓練,4.2增強AI網(wǎng)絡(luò):算網(wǎng)協(xié)同,高吞吐AI智算網(wǎng)絡(luò)涉及參數(shù)面、樣本面、業(yè)務(wù)面和管理面網(wǎng)絡(luò),其中參數(shù)面網(wǎng)絡(luò)要求最高。參數(shù)面網(wǎng)絡(luò)主要用于AI集群分布式訓練時參數(shù)交換,要求網(wǎng)絡(luò)具備高吞吐和無阻塞。網(wǎng)絡(luò)高吞吐體現(xiàn)在端口端口高吞吐從以前10G/25G到現(xiàn)在的200G/400G,并逐步向未來的800G演進。AI訓練與管理平臺1AI大模型訓練1AI大模型訓練2634578634591數(shù)據(jù)集及訓練模型導入存儲系統(tǒng)21數(shù)據(jù)集及訓練模型導入存儲系統(tǒng)2AI平臺下發(fā)訓練任務(wù)3AI計算節(jié)點加載訓練任務(wù)鏡像7AI訓練中的CKPT文件寫入存儲系統(tǒng)8完成AI訓練的模型寫入存儲系統(tǒng)9導出訓練好的模型4AI計算節(jié)點加載AI模型5AI計算節(jié)點讀取訓練數(shù)據(jù)集6AI訓練過程中完成模型的參數(shù)同步圖4.2AI大模型訓練網(wǎng)絡(luò)全網(wǎng)高吞吐是指基于全網(wǎng)進行路徑規(guī)劃,使AI傳統(tǒng)的ECMP是基于五元組的逐流Hash,在流數(shù)少的時候極易出現(xiàn)Hash不均的情況。AI訓練場景特征就是流數(shù)少、單流帶寬大,因此傳統(tǒng)的ECMP基本無法使用。ECMP機制導致的流量不均,業(yè)界廠商主要從通過繪制全局的流量矩陣,計算出最佳的流量分布,然后自動進行導流。也就是擁有縱觀全技術(shù)路線2:包級負載均衡技術(shù)將基于路徑的狀態(tài)信息,針對包進行動態(tài)選路,從而達到流量散列均衡。理論上均衡度最好,但實際在接收端側(cè)存在大量亂序問題,嚴面向AI訓練的2種場景,華為云基于ROCE無損場景1:主要針對單AI訓練任務(wù),網(wǎng)絡(luò)本身即可實現(xiàn)高吞吐,不需要和AI調(diào)度平臺互動。這種場景要求設(shè)備的上下行是1:1無收斂的,如圖中的Leaf1,接入的上行是4個端口,下行22行連接不同Leaf的端口配置到不同組中,這樣交換機在轉(zhuǎn)發(fā)時會AI單任務(wù)網(wǎng)絡(luò)級負載均衡,全網(wǎng)有效吞吐提升到95%以上。Spine1Spine2SpineSpine1Spine2Leaf1Leaf2LeafLeaf1Leaf2AI圖4.3單任務(wù)訓練場景場景2:通過AI調(diào)度平臺、網(wǎng)絡(luò)控制器、設(shè)備的統(tǒng)一協(xié)同,實現(xiàn)全網(wǎng)流量負載均衡。在支持多任務(wù)并行的同時,相比逐流Hash,網(wǎng)絡(luò)性能實現(xiàn)大幅提升。3控制器獲取AI任務(wù)信息租戶、模型、IPModelArtsModelArtsAI調(diào)度平臺2AI任務(wù)調(diào)度4控制器集中算路(核心算法)5控制器下發(fā)路徑1123456123stepstep123圖4.4網(wǎng)絡(luò)負載均衡方案(算網(wǎng)協(xié)同)AI調(diào)度平臺把任務(wù)信息通知給網(wǎng)絡(luò)控制器,網(wǎng)絡(luò)控制器結(jié)合已經(jīng)建立的整網(wǎng)通信關(guān)系與拓撲信息,通過全網(wǎng)負載均衡算法,進行整網(wǎng)路徑計算,得到最優(yōu)路徑并動態(tài)下4.3價值收益30%95%23255.1業(yè)界難題AI大模型訓練效率提升,是一項復(fù)雜的系統(tǒng)工程,最關(guān)鍵的是要充分釋放AI硬件能力。華為云基于CANN異構(gòu)計算框架,讓盤古以及更多第三方大模型也能在華為混合云平臺上高效訓練。但未經(jīng)調(diào)優(yōu)的模型,可能面臨性能差、開發(fā)效率低模型開箱性能差:未經(jīng)過深度優(yōu)化的模型通常存在較多小算子,如果每個算子都在加速器上執(zhí)行輸入-計算-輸出這個過程,會有大量的輸入輸出開銷,造成性能下降。另外,若耗時較高的算子未命中最優(yōu)執(zhí)行策略,也會導致算算子開發(fā)門檻高:算子開發(fā)與傳統(tǒng)應(yīng)用開發(fā)的編程方式存在較大的差異,需要管理多個性質(zhì)差異很大的存儲實體。在實際運算過程是多個部件并行執(zhí)行,在邏輯和時序上也需依賴其他部件一起確定。因此每個微觀細節(jié)的調(diào)整,都會比較明顯影響到算力效率,導致算子開發(fā)門檻高,典型場景算子開發(fā)周期一般長達1~2人因此,需要采用高效工具和方法論來提升模型性5.2算子加速:融合優(yōu)化,實現(xiàn)高效算子供應(yīng)支持業(yè)界主流AI框架Jittor計圖AI框架Jittor計圖異思PYTorch異思PYTorchFlashAttention等Transformer網(wǎng)絡(luò)加速算子,多模型/多尺寸/多shape全面支持,精度、性能持平業(yè)界AscendC支持算子極簡開發(fā)CANN自動流水算子深度融合自動流水算子深度融合···AAscendAAscend···26華為圍繞昇騰AI處理器打造了CANN異構(gòu)計算架構(gòu)。作為基礎(chǔ)使能軟件,CANN提供豐富的算子庫和AscendC算子編程語言,降低算子開發(fā)門檻,幫助開發(fā)者實現(xiàn)自定義算子的快速開發(fā)與算針對大模型關(guān)鍵模塊的算子,設(shè)計出昇騰親和的算子融合算法,最大化利用帶寬、顯存和算力資Attention融合優(yōu)化:Attention是大模型Transformer結(jié)構(gòu)的核心組件,整網(wǎng)耗時占比超過50%,是影響整網(wǎng)性能和資源消耗的關(guān)鍵點。在算子優(yōu)化方面,通過更好的復(fù)用右矩陣,減少Cube和Vector在特定配比下的資源消耗。在流水方面,對消息粒度做進一步的拆分,做到更精細的流水控制,減少其他計算組件的等待時間;在資源開銷方面,通過減少Scalar操作、降低通信開銷來進一步壓縮資源MoE-FFN融合:MoE結(jié)構(gòu)將稠密網(wǎng)絡(luò)的FFN層擴展成具有相同結(jié)構(gòu)的專家網(wǎng)絡(luò),通過路由或門控網(wǎng)絡(luò)決定激活哪些專家進行計算?;谇擅畹臄?shù)學等價實現(xiàn)MoE-FFN融合,更陣運算用Vector單元進行計算,在進行計算單元運算時提前完成數(shù)據(jù)的搬運。合理運用L2Cache,通過提升L2的命中率,提升SOC中的綜合帶寬,減輕訪存耗時以實現(xiàn)Mac利用率提y1yyy1yAdd+NormalizeAdd+NormalizeFFN4FFN2FFN3FFN1FFN3Add+NormalizeFFN4FFN2FFN3FFN1FFN3Add+NormalizeFFN2FFN4FFNFFN2FFN4FFN1SwitchingFFNSwitchingFFNLayerp=0.8p=0.65p=0.8RouterRouterRouterRouterAdd+NormalizeAdd+NormalizeAdd+NormalizeAdd+NormalizeSelf-AttentionSelf-AttentionSelf-AttentionSelf-AttentionPositionalembeddingPositionalembeddingPositionalembeddingxx1xx1MoreParameters圖5.3大模型MoE結(jié)構(gòu)示意圖27實現(xiàn)計算和通信的并行流水,應(yīng)用于模型并行切分場景。將矩陣乘的A和B分別進行切分并分配到不同的NPU上執(zhí)行乘法運算,最后通過求和的AllReduce操作將結(jié)果匯總后再分配到各個節(jié)點上。MatMul·ABA1B1MatMulA2B2MatMulNPU1NPU1NPU1NPU1\AllReduce/NPU2NPU2NPU2NPU2圖5.4MatMul與AllReduce算子融合示意AscendC算子編程語言,降低算子開發(fā)門檻APIAPI算子tiling策略算子tiling策略圖5.5AscendC算子編程語言能力棧AscendC使用C++語法和一組編程API,實現(xiàn)自動流水同步和Buffer地址管理,并提供CPU昇騰接口抽象:通過在類庫中直接封裝intrin-sic方式提供一組編程API解決了內(nèi)存地址管算子tiling策略:簡化Buffer的使用,程序員遞,設(shè)計API進而簡化了難度。。兩級并行調(diào)度:易于理解TPIPE流水編程范式解決流水并行問題,引入Que操作和Buffer操。結(jié)構(gòu)化核函數(shù)編程:提供CPU/NPU孿生調(diào)試5.3價值收益50%50%2人月2人周288大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集306.1業(yè)界難題在AI的數(shù)據(jù)理論中,模型性能是由數(shù)據(jù)質(zhì)量和算法設(shè)計共同決定的。數(shù)據(jù)質(zhì)量直接決定了算法性能的上限,算法本身的設(shè)計僅決定了能多大程度接近這個上限。當前,主要有三方面因素,制約數(shù)據(jù)獲取難:在我國,政府和企業(yè)的數(shù)據(jù)開放率不足7%。行業(yè)大模型需要與場景化的數(shù)據(jù)結(jié)合才能更精準,然而這些數(shù)據(jù)往往散落在企業(yè)生產(chǎn)的各個環(huán)節(jié)中,缺少統(tǒng)一的匯聚和治理;甚至一些關(guān)鍵數(shù)據(jù)還需要從外部獲取,進數(shù)據(jù)質(zhì)量差:AI訓練開始前,需要利用工具將海量、多樣化的數(shù)據(jù)進行集成、清洗、標注,但這個過程往往因為工具零散、人工處理等導致效率和質(zhì)量低下,僅15%的臟數(shù)據(jù)就可能導致模型準確率下降高達50%。結(jié)果不準確:模型訓練通常用到大量公開的數(shù)據(jù)集,這些數(shù)據(jù)集可能存在價值觀問題,需要在訓練時加以校正對齊;針對不同質(zhì)量和相關(guān)度的數(shù)據(jù),建立合理的配比模型,避免過擬合因此,要打造高質(zhì)量的AI大模型,企業(yè)必須面向數(shù)據(jù)量、數(shù)據(jù)質(zhì)量和數(shù)據(jù)價值觀等方向構(gòu)筑核心6.2全鏈路數(shù)據(jù)工程:8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集數(shù)據(jù)獲取數(shù)據(jù)加工科學利用數(shù)據(jù)獲取數(shù)據(jù)加工數(shù)據(jù)安全內(nèi)部數(shù)據(jù)集成數(shù)據(jù)清洗 數(shù)據(jù)安全內(nèi)部數(shù)據(jù)集成數(shù)據(jù)清洗數(shù)據(jù)標注智能配比數(shù)據(jù)標注智能配比質(zhì)量評估標準化檢測數(shù)據(jù)可視質(zhì)量評估標準化檢測數(shù)據(jù)可視華為云從數(shù)據(jù)獲取、加工到利用三個階段開展技術(shù)創(chuàng)新,打造大模型數(shù)據(jù)工程和8大工具,幫助企業(yè)構(gòu)建多維、體系化的語料供給體系,解決數(shù)數(shù)據(jù)獲?。?大工具構(gòu)建全鏈路體系化的數(shù)據(jù)獲取能力,包括內(nèi)部數(shù)據(jù)集成和外部數(shù)據(jù)流通,幫助企業(yè)擴充多維模型訓練數(shù)據(jù)源,提高數(shù)據(jù)加工:通過智能清洗、智能標注和質(zhì)量評估3個工具,構(gòu)建數(shù)據(jù)全流程加工能力,實現(xiàn)圖、文、音、視頻等4類數(shù)據(jù)10大場景的智能科學利用:基于數(shù)據(jù)安全合規(guī)、智能配比、數(shù)據(jù)可視等3大工具,建立全生命周期合規(guī)、合理、可視的優(yōu)質(zhì)數(shù)據(jù)集,保證模型價值觀和數(shù)2大數(shù)據(jù)獲取工具數(shù)據(jù)獲取工具旨在讓企業(yè)具備體系化數(shù)據(jù)獲取能力,包括內(nèi)部數(shù)據(jù)集成和外部數(shù)據(jù)流通,從而形內(nèi)部數(shù)據(jù)全域集成:數(shù)據(jù)集成工具提供IT/OT全域數(shù)據(jù)接入能力,支持結(jié)構(gòu)化、非結(jié)構(gòu)化等各類數(shù)據(jù)的實時或離線接入?;谂窟w移、增量同步的獨創(chuàng)算法設(shè)計,大大簡化數(shù)據(jù)集成流程,減少50%手工操作。同時也支持對數(shù)據(jù)集成鏈路、安全入湖和數(shù)據(jù)同步質(zhì)量進行實外部數(shù)據(jù)可信流通:基于隱私計算和區(qū)塊鏈技術(shù)打造數(shù)據(jù)膠囊,確保數(shù)據(jù)可用不可見。同時提供數(shù)據(jù)訪問日期、訪問次數(shù)、使用方式等20+數(shù)據(jù)訪問策略,過期數(shù)據(jù)文件能夠自動清除;數(shù)據(jù)和訪問控制策略捆綁加密保存、安全策略強制執(zhí)行,并且數(shù)據(jù)使用過程上鏈審計,內(nèi)部數(shù)據(jù)集成外部數(shù)據(jù)流通內(nèi)部數(shù)據(jù)集成策略數(shù)據(jù)ABEsecuritylevel策略數(shù)據(jù)ABEsecuritylevel>4...ABEABE圖6.2內(nèi)外部數(shù)據(jù)高效獲取3大數(shù)據(jù)加工工具傳統(tǒng)大數(shù)據(jù)、數(shù)倉和數(shù)據(jù)庫系統(tǒng)的優(yōu)勢在于處理結(jié)構(gòu)化數(shù)據(jù)處理,但在大模型場景下存在大量的文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù),缺少合適的數(shù)據(jù)清洗、標注和質(zhì)量評估的工具。為此,華為云打造了3大數(shù)據(jù)加工工具,幫助企業(yè)提升數(shù)智能清洗:基于低代碼、可視化能力實現(xiàn)清洗任務(wù)編排,面向特定場景,用戶可以通過拖拉拽特定清洗算子實現(xiàn)數(shù)據(jù)自動化清洗,目前已覆蓋90%以上的企業(yè)數(shù)據(jù)清洗場景。等4大類數(shù)據(jù)進行預(yù)訓練形成智能標注模型算質(zhì)量評估:質(zhì)量評估工具供標準化、自動化的數(shù)據(jù)質(zhì)量評估功能,具有圖文格式、內(nèi)容信息、導向合規(guī)3大類檢測能力,包含15類指標項47個檢測點,讓數(shù)據(jù)質(zhì)量管理前移到數(shù)據(jù)資產(chǎn)管理資產(chǎn)管理分詞模型過濾去重規(guī)則過濾原始語料分詞模型過濾去重規(guī)則過濾原始語料標注交互層標注交互層處理層處理層圖6.3智能數(shù)據(jù)加工333大數(shù)據(jù)利用工具數(shù)據(jù)安全:數(shù)據(jù)安全工具面向事前、事中和事后三階段構(gòu)建核心能力。事前主動構(gòu)建正向價值觀、負向數(shù)據(jù)和全量合規(guī)數(shù)據(jù)集,提供負向數(shù)據(jù)過濾和正向價值觀引導能力;事中通過正負向數(shù)據(jù)可視化配比,使模型知道什么是對的,什么錯的,具備正向價值觀、辨別是非能力;事后通過風險管控能力,主動攔截輸入輸智能配比:提供數(shù)據(jù)質(zhì)量分析、成分分析、場景配比和智能配比能力,能夠自動推薦合適的數(shù)據(jù)版本和模型版本的全流程關(guān)系可視,雙向圖6.4數(shù)據(jù)科學利用6.3價值收益50%95%50%95%34367.1業(yè)界難題業(yè)務(wù)數(shù)據(jù)通常以價值高的結(jié)構(gòu)化數(shù)據(jù)為主,在預(yù)測時主要基于結(jié)構(gòu)化數(shù)據(jù)結(jié)合人工經(jīng)驗和工業(yè)機理,導致預(yù)測大模型技術(shù)的規(guī)模應(yīng)用仍然存在以數(shù)據(jù)種類單一,預(yù)測精度低:業(yè)界通用預(yù)測模型僅支持結(jié)構(gòu)化數(shù)據(jù)結(jié)合工藝去預(yù)測,缺少關(guān)鍵的過程圖文音視頻數(shù)據(jù)參與預(yù)測任務(wù),限制了預(yù)測大模型的應(yīng)用范圍和精度,通常僅能達到60%的精度。數(shù)據(jù)來源多樣,人工適配工作量大:通常智能化場景多,不同領(lǐng)域?qū)λ惴ǖ囊笄Р钊f別,傳統(tǒng)方法不具備根據(jù)場景自動泛化能力,更無法統(tǒng)一建模,需要人工多次建模和調(diào)優(yōu)適配,開發(fā)周期長,導致模型難以批量復(fù)制和大規(guī)模來整合多樣、多源數(shù)據(jù)來提升預(yù)測精度和規(guī)模復(fù)7.2統(tǒng)一數(shù)據(jù)編碼:創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測最優(yōu)解1表格文本數(shù)據(jù)類型1表格文本XXX23N…XXX23N…N…321時間序列時間序列ValueXXValueXXXXRRXXXXXXRXXTimeXX圖文音視頻RXX圖文音視頻RXRXXXXXXXXXXRXXXXXXXXXXXXXXX+X XX X更多類型征與特征之間通過可學習權(quán)重相連構(gòu)成三元征與特征之間通過可學習權(quán)重相連構(gòu)成三元組。由于結(jié)構(gòu)化數(shù)據(jù)拓撲結(jié)構(gòu)的模糊性,這里采用可學習的參數(shù)表征三元組拓撲結(jié)構(gòu)通過自時序數(shù)據(jù):時序數(shù)據(jù)以時間點作為節(jié)點,臨近圖像數(shù)據(jù):圖像數(shù)據(jù)經(jīng)過切分,連接圖塊與其大模型混合云創(chuàng)新統(tǒng)一數(shù)據(jù)編碼技術(shù),將不同來源的數(shù)據(jù)進行統(tǒng)一編碼轉(zhuǎn)換為三元組,使它們成為獨立的節(jié)點,消除不同模態(tài)數(shù)據(jù)之間的差異,再將這些編碼的節(jié)點統(tǒng)一按圖的方式組織,形成一個統(tǒng)一的、多樣化、大規(guī)模的訓練數(shù)據(jù)集,讓模型具備處理不同模態(tài)數(shù)據(jù)的能力,使多維訓推數(shù)據(jù)參與預(yù)測過程,提升模型精準度。常見的數(shù)統(tǒng)一預(yù)訓練大模型架構(gòu)主要由構(gòu)建統(tǒng)一三元組結(jié)構(gòu)、對三元組進行遮罩及添加噪聲、訓練預(yù)訓練模型三個部分組成,通過重建遮罩的部分數(shù)據(jù)完成模型的預(yù)訓練,該方法實現(xiàn)了多種模態(tài)的統(tǒng)一預(yù)訓練,通過遮罩三元組的節(jié)點或者邊使得預(yù)訓練過程同時獲得數(shù)據(jù)的數(shù)值信息和拓撲結(jié)構(gòu),得在提升精度的同時,因為企業(yè)復(fù)雜多樣的生產(chǎn)場景對模型的泛化能力也有著較高要求,盤古預(yù)測大模型提供針對任意下游任務(wù)微調(diào)的能力,支持全量微調(diào)、LoRA和部分參數(shù)的微調(diào),使客戶從傳統(tǒng)AI模型按場景單獨建模,走向通過微調(diào)即可快速完成新場景的訓練,使下游任務(wù)統(tǒng)一建模,表格文本表格文本XX廠XX廠時間序列時間序列L…編碼層Ln解碼層關(guān)系網(wǎng)絡(luò)關(guān)系網(wǎng)絡(luò)圖文音視頻圖文音視頻…………圖7.2統(tǒng)一預(yù)測大模型架構(gòu)7.3價值收益10%10%38408.1業(yè)界難題視覺大模型已廣泛應(yīng)用在城市、政務(wù)、礦山、鐵路等領(lǐng)域,成為當前應(yīng)用最廣泛的AI技術(shù)之一。但它也并不完美,尤其是在一些新的場景下,其泛化能力弱,精度差:傳統(tǒng)視覺模型的主要問題是特征提取的語義粒度不完整和可重復(fù)性差。這主要是因為傳統(tǒng)訓練方法只關(guān)注全局圖像和語義的對齊,而忽略了局部區(qū)域和語義之高分辨率圖像處理效率問題:高分辨率的圖像具有更多細節(jié)特征信息,影響著視覺模型的精度和泛化性。而在視覺模型訓推過程中,需要將圖像切分為圖塊處理,計算量和圖塊數(shù)量平方成正比,考慮到企業(yè)有限的計算資源,亟需傳統(tǒng)全局對齊方案精細視覺神經(jīng)網(wǎng)絡(luò)(全圖重建)(全圖重建)(視覺空間壓縮)(視覺空間壓縮)...針對視覺分析中特征提取粒度不完整導致的模型泛化性弱、精度差以及有限算力資源挑戰(zhàn),大模型混合云創(chuàng)新精細視覺神經(jīng)網(wǎng)絡(luò),能精準、全面、高效地實現(xiàn)視覺任務(wù)的訓練和推理,通過細層級進行對齊預(yù)訓練,解決傳統(tǒng)方案忽視局部區(qū)域和語義之間的重要對齊關(guān)系問題;通過視覺空間壓縮技術(shù),對圖像冗余信息進行壓縮,解決高通過細粒度圖文對齊技術(shù)對訓練的圖像數(shù)據(jù)先進行局部信息提煉,再實現(xiàn)區(qū)域特征與圖像特征的對齊,在計算圖像與文本描述之間的對比損失大幅度提高盤古視覺大模型在不同粒度任務(wù)上的泛化性和準確性,該技術(shù)在圖像分類、檢測、分割等不同粒度視覺任務(wù)上實現(xiàn)了技術(shù)領(lǐng)先,突破了傳統(tǒng)全局圖像表征與文本關(guān)系對齊的局限性,并且有效避免了噪聲的影響,使得80%以上的...ROIAlignROIAlign+tag/labelBbox1tag/labelBbox1Bbox2Image-lossImage-loss...圖8.2細粒度圖文對齊視覺圖像信號通常具有高度的空間冗余信息,通過視覺空間壓縮技術(shù),在保持圖像關(guān)鍵信息的前提下,通過選擇性舍棄不太重要的冗余的圖塊信息,降低計算復(fù)雜度,顯著加快訓推速度。除此之外,通過無需監(jiān)督信號的丟棄策略,直接根據(jù)圖像本身的相似性來選出冗余的圖像信息,這一策略在預(yù)訓練和推理階段均取得了很好的效果,使得采用同一套策略打通了上下游任務(wù)。在實際測試中,通過視覺空間壓縮40%的圖像信息,Stage1Stage3StageStage3Stage2圖8.3視覺空間壓縮8.3價值收益40%429.1業(yè)界難題大模型訓練任務(wù)通常需要連續(xù)執(zhí)行數(shù)天甚至數(shù)月,出現(xiàn)的任何故障都可能造成訓練中斷,導致算力空轉(zhuǎn),需實現(xiàn)故障的快速感知和恢復(fù)還要解故障感知不全且感知慢:當前業(yè)界方案僅能識別大約70%的常見故障,例如HBM多比特ECC故障、磁盤故障、網(wǎng)絡(luò)不通等。然而,對于其他如網(wǎng)絡(luò)靜默丟包、網(wǎng)絡(luò)擁塞等不常見的故障,往往難以及時發(fā)現(xiàn),需數(shù)天時間才能故障恢復(fù)僅支持重調(diào)度,耗時長:傳統(tǒng)故障恢復(fù)方案往往需要通過冷啟動重調(diào)度,對作業(yè)任務(wù)重新調(diào)度。如果資源不足,故障作業(yè)無法及9.2無感斷點續(xù)訓:分鐘級感知恢復(fù),保障長穩(wěn)運行進程級-原地恢復(fù)節(jié)點級-備機恢復(fù)集群級-作業(yè)恢復(fù)●盤古大模型AModelArtsMindSpore(NPU)開源AI框架華為云圖9.1無感斷點續(xù)訓44針對大模型訓練過程中的故障感知和恢復(fù)慢的問題,大模型混合云創(chuàng)新無感斷點續(xù)訓技術(shù),具備全棧故障模式庫和三級自愈架構(gòu),將故障感知和恢復(fù)的時間從小時級降至分鐘級,有效地避免因為故障導致大量算力空置的問題,從而提升大模大模型訓練故障往往涉及服務(wù)器、NPU、存儲、交換機、軟件等多個環(huán)節(jié),橫跨多個領(lǐng)域。業(yè)界通常僅有服務(wù)器和軟件2大類300+故障模式庫,華為提供跨領(lǐng)域的全棧模式庫,覆蓋95%常見故障分鐘級感知:結(jié)合華為長期服務(wù)企業(yè)積累的算力、網(wǎng)絡(luò)、軟件的運維經(jīng)驗,梳理包含服務(wù)器、NPU、存儲、交換機、軟件(包含操作系統(tǒng)、框架、平臺、大模型)的1000多種典型故障模式庫,讓95%以上的常見故復(fù)雜故障跨層跨域聯(lián)合感知:通過統(tǒng)一收集和管理計算、網(wǎng)絡(luò)、AI框架、AI開發(fā)平臺故障,構(gòu)建故障傳播鏈,快速定位故障源頭,具備全??梢暬晥D,實現(xiàn)跨層跨域的故障感知能圖9.2全棧故障模式庫4大類1000+種全棧故障模式庫.盤古大模型ModelArtsMindSpore4大類1000+種全棧故障模式庫.盤古大模型ModelArtsMindSpore開源AI框架….進程級自愈:針對可自修復(fù)的故障,采用進程自愈先掛起作業(yè),修復(fù)故障后再原地拉起進程,覆蓋例如HBM多比特ECC、網(wǎng)絡(luò)閃斷等70%常見故障。.節(jié)點級自愈:針對整機節(jié)點級故障,啟用節(jié)點點的任務(wù),覆蓋例如NPU故障、內(nèi)存故障、.集群級自愈:針對未知的故障,采用集群自愈重新拉起集群作業(yè)恢復(fù),提供圖編譯緩存、CKPT并行加載等加速技術(shù),讓最復(fù)雜的故障Job。正常節(jié)點。進程級故障故障節(jié)點Job隔離維修JobJobJobJob...Job.uuu.Job..uuu.Job..uuu.圖9.3三級自愈架構(gòu)9.3價值收益464810.1業(yè)界難題大模型廣泛進入政企的生產(chǎn)系統(tǒng),在提升生產(chǎn)和Prompt攻擊:大模型通常采用自然語言提供問答對話服務(wù)作為入口,但是惡意用戶通過特定構(gòu)造Prompt提示詞,來欺騙模型使其產(chǎn)生錯誤的結(jié)果,這種開放域?qū)映霾桓F的攻擊手段隱私泄露風險:大模型的訓練和推理過程中,會涉及到大量的隱私數(shù)據(jù)、電子虛擬財產(chǎn)等信息,攻擊者可能會采用各種手段繞過檢測,導致這些數(shù)據(jù)泄露,且在海量數(shù)據(jù)下難以甄別,內(nèi)容合規(guī)風險:在數(shù)據(jù)收集、處理和訓練過程中,存在圖文音多樣性數(shù)據(jù)樣本不均衡、錯誤價值觀等問題,導致大模型輸出帶有偏見或不鑒偽檢測難:大模型如今已經(jīng)可以快速生成海量音視頻,其中不乏錯誤的信息。為保證模型可靠性,需要對信息進行回溯和鑒偽,并及時糾正錯誤。但在信息被修改、裁剪、二次創(chuàng)作因此,建立全鏈路安全可信的大模型安全體系勢在必行,在確保大模型為政企業(yè)務(wù)創(chuàng)造價值的同時,也能夠保障個人隱私、內(nèi)容合規(guī)和信息的本10.2安全護欄:立體檢測,智能攔截90%+30+種95%+90%+30+種95%+毫秒級攔截攻擊隱私數(shù)據(jù)保護不良內(nèi)容攔截第道防線**************第道防線**************檢測分類模型復(fù)雜語義檢測內(nèi)容智能審核49華為云Stack在云平臺層面提供1個安全運營中心和物理安全、身份認證、網(wǎng)絡(luò)、應(yīng)用、主機、數(shù)據(jù)、運維7層安全體系,在此基礎(chǔ)上面向大模型新型攻擊提供安全護欄,是業(yè)界首個在中國信通院安全可信評測中達到5級的大模型安全方案,具有Prompt攻擊檢測、隱私檢測脫敏、內(nèi)容合規(guī)檢測、生成式AI鑒偽的大模型安全防護能Prompt攻擊檢測檢測分類模型:基于數(shù)萬條安全數(shù)據(jù)訓練出針對Prompt攻擊的檢測分類AI模型,讓90%+的Prompt提示詞注入攻擊能夠自動檢測攔截過濾,強大的模型泛化性輕松應(yīng)對開放域中不斷演變的新型Prompt新型攻擊。向量檢索與敏感詞匹配:在大模型運行時,基于檢測分類模型,引入敏感詞匹配與向量檢索能力進行綜合決策。通過向量檢索與敏感詞匹配,快速適配新型攻擊與未知問題,反饋給模通過攻擊檢測防范技術(shù)能夠在事前發(fā)現(xiàn)并阻止目標劫持、反面誘導、初始肯定等攻擊,實現(xiàn)自動化、智能化檢測,顯著降低Pormpt提示詞注入用戶輸入意圖識別正負向判斷
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職會計憑證處理(基礎(chǔ)會計)試題及答案
- 2025年大學本科(學前教育學)幼兒心理學試題及答案
- 2025年中職城市軌道交通運營服務(wù)(地鐵客運服務(wù))試題及答案
- 2025年大學大二(臨床營養(yǎng)學)特殊人群營養(yǎng)方案制定綜合測試題及答案
- 2025年中職藥物分析技術(shù)(藥物分析操作)試題及答案
- 2025年高職統(tǒng)計(數(shù)據(jù)統(tǒng)計分析)試題及答案
- 2025年大學工程造價(工程成本管理)試題及答案
- 2025年大學畜牧學(家畜傳染病學)試題及答案
- 2025年高職(焊接技術(shù)與自動化)工藝優(yōu)化階段測試題及答案
- 2025年大學大二(醫(yī)療美容外科)醫(yī)療美容外科基礎(chǔ)操作階段測試題及答案
- DB31-T 1518-2024 城市軌道交通通信信號數(shù)字化運維系統(tǒng)通.用要求
- 2024年度三人金融投資公司合伙協(xié)議3篇
- 2024-2025學年廣東省實驗中學高一(上)期中語文試卷
- 成都大學《C語言程序設(shè)計》2023-2024學年第一學期期末試卷
- 維修服務(wù)人員培訓
- 滬教版2024九年級上冊化學各章節(jié)必背知識點復(fù)習提綱
- 醫(yī)院物業(yè)保潔服務(wù)方案(技術(shù)方案)
- 《設(shè)備買賣合同模板》
- GB/T 4074.6-2024繞組線試驗方法第6部分:熱性能
- DB32-T 4111-2021 預(yù)應(yīng)力混凝土實心方樁基礎(chǔ)技術(shù)規(guī)程
- 不同時代的流行音樂
評論
0/150
提交評論