版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS35.240CCSL70團體標準中國互聯(lián)網(wǎng)協(xié)會發(fā)布IT/ISC0076—2025 12規(guī)范性引用文件 13術(shù)語和定義 14符號和縮略語 35概述 46大模型系統(tǒng)參考架構(gòu) 46.1參考架構(gòu) 46.2系統(tǒng)角色 57大模型系統(tǒng)技術(shù)要求 57.1基礎(chǔ)設(shè)施層 57.2數(shù)據(jù)層 67.3模型層 77.4應(yīng)用層 87.5系統(tǒng)安全 98大模型能力評估方法 98.1評估框架 98.2評估指標 8.3評估數(shù)據(jù)集要求 8.4評估流程 附錄A(資料性)評估指標 A.1客觀評估指標 A.2主觀評估指標 A.3主觀指標評分方法 附錄B(資料性)評估數(shù)據(jù)集 B.1通用評估數(shù)據(jù)集 B.2行業(yè)評估數(shù)據(jù)集 附錄C(資料性)通信行業(yè)評估示例 22C.1確定評估對象 C.2確定評估能力項、任務(wù)項及評估指標 C.3確定評估數(shù)據(jù)集和評估方式 C.4輸出評估結(jié)果 I本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由中國互聯(lián)網(wǎng)協(xié)會歸口。本文件起草單位:中國移動通信集團有限公司、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會、中國信息通信研究院、北京智源人工智能研究院、中石油(北京)數(shù)智研究院有限公司、中國石油化工集團有限公司、國能數(shù)智科技開發(fā)(北京)有限公司、石化盈科信息技術(shù)有限責(zé)任公司、南方電網(wǎng)人工智能科技有限公司、新華三技術(shù)有限公司、上海燧原科技股份有限公司、北京百度網(wǎng)訊科技有限公司、中移(蘇州)軟件技術(shù)有限公司、海光信息技術(shù)股份有限公司、華為技術(shù)有限公司、浪潮通信技術(shù)有限公司、中科寒武紀科技股份有限公司、摩爾線程智能科技(北京)股份有限公司、廣州趣丸網(wǎng)絡(luò)科技有限公司、上海天數(shù)智芯半導(dǎo)體有限公司、中訊郵電咨詢設(shè)計院有限公司、麒麟合盛網(wǎng)絡(luò)技術(shù)股份有限公司本文件主要起草人:馮俊蘭、鄧超、鄧凱、金鏑、賈云飛、曹汐、秦日臻、張詩雨、聶錦燃、朱妍、燕江依、樊威、劉穎、楊熙、劉速、呂庭龍、趙學(xué)良、官鋒、陳胤、韓嘉航、盧志良、任正國、萬曉蘭、李韜、梅敬青、王思善、高浩、張航、馬德營、張穎、賀群、張其仁、于超、楊恒、尹夢君、高嫻、趙淑靜、王輝、王華、陳志、張順四、張強、胡銘珊余雪松、申佳、張旭T/ISC0076—2025人工智能技術(shù)正以前所未有的速度蓬勃發(fā)展,其中大規(guī)模預(yù)訓(xùn)練模型作為人工智能領(lǐng)域的關(guān)鍵技術(shù)創(chuàng)新,正逐漸成為推動各行業(yè)智能化變革的重要力量。大規(guī)模預(yù)訓(xùn)練模型通過在海量數(shù)據(jù)上進行無監(jiān)督預(yù)訓(xùn)練,能夠?qū)W習(xí)到豐富的通用知識和語言模式,從而在多種下游任務(wù)中展現(xiàn)出卓越的遷移能力。從自然語言處理領(lǐng)域的GPT(GenerativePre-trainedTransformer)系列模型,到計算機視覺領(lǐng)域的CLIP(ContrastiveLanguage-ImagePre-training)模型,大規(guī)模預(yù)訓(xùn)練模型已經(jīng)在文本生成、機器翻譯、圖像識別、智能客服等眾多領(lǐng)域得到了廣泛應(yīng)用,并取得了令人矚目的成果。隨著大規(guī)模預(yù)訓(xùn)練模型應(yīng)用場景的日益廣泛,其面臨的技術(shù)挑戰(zhàn)也逐漸增多。一方面,模型的規(guī)模和復(fù)雜度不斷增加,給模型的開發(fā)、部署和管理帶來了工程化挑戰(zhàn);另一方面,不同行業(yè)和領(lǐng)域?qū)δP偷男阅?、安全性、可靠性等方面也有著不同的要求。因此,為了確保大規(guī)模預(yù)訓(xùn)練模型的質(zhì)量和可靠性,促進其在各行業(yè)的健康、可持續(xù)發(fā)展,制定一套規(guī)范的、科學(xué)合理的模型評估標準具有重要的現(xiàn)實意義和應(yīng)用價值。本標準的制定,一方面有助于規(guī)范大規(guī)模預(yù)訓(xùn)練模型及其系統(tǒng)在軟硬件基礎(chǔ)設(shè)施、數(shù)據(jù)質(zhì)量、模型訓(xùn)練推理流程、應(yīng)用場景與系統(tǒng)安全等方面的技術(shù)要求,引導(dǎo)產(chǎn)業(yè)有序開展大規(guī)模預(yù)訓(xùn)練模型的開發(fā)、部署和管理。另一方面,通過給出體系性的模型評估方法和指標,可以為客觀、全面地評估模型能力和性能提供科學(xué)依據(jù)。從而,促進大規(guī)模預(yù)訓(xùn)練模型在相關(guān)行業(yè)和領(lǐng)域的工程化落地和規(guī)?;瘧?yīng)1T/ISC0076—2024人工智能大規(guī)模預(yù)訓(xùn)練模型總體技術(shù)要求及評估方法本文件規(guī)定了大規(guī)模預(yù)訓(xùn)練模型系統(tǒng)參考架構(gòu)及技術(shù)要求、大規(guī)模預(yù)訓(xùn)練模型系統(tǒng)角色、大規(guī)模預(yù)訓(xùn)練模型能力評估方法。本文件適用于人工智能大規(guī)模預(yù)訓(xùn)練模型的設(shè)計、研發(fā)、評估和應(yīng)用。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T29264-2012信息技術(shù)服務(wù)分類與代碼GB/T41867-2022信息技術(shù)人工智能術(shù)語AIIA/PG0074-2022大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法第4部分:可信要求AIIA/PG0141-2024人工智能開發(fā)平臺通用能力要求第4部分:大模型技術(shù)要求3術(shù)語和定義3.1大規(guī)模預(yù)訓(xùn)練模型large-scalepre-trainedmodel大模型large-model在大量數(shù)據(jù)上訓(xùn)練得到,具有復(fù)雜計算架構(gòu),能處理復(fù)雜任務(wù),且具備一定泛化性的深度學(xué)習(xí)模注1:大模型的計算結(jié)構(gòu)一般以Transformer為主,按需接續(xù)自然語言、圖像、視頻、音頻編解碼模塊。注2:大模型針對的任務(wù)由需求決定,一般包括自然語言、圖像、視頻或音頻的生成或理解。注3:大模型的參數(shù)量由其功能和模態(tài)決定,一般不低于1億。注4:大模型訓(xùn)練使用的數(shù)據(jù)總量受參數(shù)量的影響,達至收斂的大模型的參數(shù)量的對數(shù)與其訓(xùn)練數(shù)據(jù)總量的對數(shù)成正比。3.2大模型系統(tǒng)large-scalepre-trainedmodelsystem圍繞大模型構(gòu)成的整個生態(tài)系統(tǒng),包括基礎(chǔ)設(shè)施、數(shù)據(jù)、模型、行業(yè)應(yīng)用等子系統(tǒng)。3.3大模型服務(wù)largemodelservice2T/ISC0076—2024開發(fā)、應(yīng)用大模型及大模型系統(tǒng)的服務(wù),以及以此為手段提供支持需求方業(yè)務(wù)活動的服務(wù)。[來源于:GB/T29264-2012,2.1,有修改]3.4推理inference從給定的前提進行論證并得出結(jié)論。[來源于:GB/T41867-2022,3.2.30]3.5微調(diào)fine-tuning圍繞大模型構(gòu)成的整個生態(tài)系統(tǒng),包括基礎(chǔ)設(shè)施、數(shù)據(jù)、模型、行業(yè)應(yīng)用等子系統(tǒng)。[來源:GB/T41867-2022,3.2.31]3.6理解能力comprehensioncapability大模型在處理和分析大量數(shù)據(jù)時,對信息的深入洞察和解讀能力。3.7生成能力generativecapability大模型基于已學(xué)習(xí)的知識和模式,自主產(chǎn)生新的內(nèi)容或結(jié)果的能力。3.8推理能力reasoningcapability大模型理解和利用相關(guān)的證據(jù)或邏輯來推導(dǎo)結(jié)論或做出決策的能力。3.9知識集成能力knowledgeintegrationcapability一種基于事實證據(jù)的支撐,完成知識密集型任務(wù)的能力。3.10專業(yè)能力professionalcapability大模型作為領(lǐng)域?qū)<?,用于解決特定領(lǐng)域任務(wù)的能力。如醫(yī)療領(lǐng)域、教育領(lǐng)域、法律領(lǐng)域等。3.11行業(yè)industry大模型被應(yīng)用的特定領(lǐng)域的行業(yè),如通信、醫(yī)療、金融等。3.12場景scenario大模型被應(yīng)用到的具體環(huán)境和上下文,如推薦系統(tǒng)、自動駕駛、問答系統(tǒng)等場景。3.13任務(wù)task3T/ISC0076—2024被調(diào)度的訓(xùn)練或推理對象。3.14模態(tài)modal指一切表達或感知事物的方式,每一種信息的來源或者形式,都可以稱為一種模態(tài),如文本、圖像、音頻、視頻等。3.15多模態(tài)multi-modal多種感官信息在一起協(xié)同作用。3.16自動化評估automatedevaluation指使用計算機算法和預(yù)定義評估指標來自動執(zhí)行模型評估任務(wù),無需或幾乎無需人工干預(yù)。3.17人工評估humanevaluation指由人類評估者(如人類專家)手動執(zhí)行模型評估任務(wù)。4符號和縮略語下列符號和縮略語適用于本文件。AI:人工智能(ArtificialIntelligence)ASR:攻擊成功率(AttackSuccessRate)BLEU:雙語評估替補(BilingualEvaluationUnderstudy)CCL:集合通信庫(CollectiveCommunicationLibrary)CI:清晰度指數(shù)(ClarityIndex)CPU:中央處理器(CentralProcessingUnit)CV:計算機視覺(ComputerVision)EER:等錯誤率(EqualErrorRate)FPGA:可編程門陣列(Field-ProgrammableGateArray)FID:FID分數(shù)/弗雷歇感知距離(FréchetInceptionDistance)GPU:圖形處理器(GraphicsProcessingUnit)HBM:高帶寬內(nèi)存(HighBandwidthMemory)IB:無限帶寬(InfiniBand)IoU:交并比(IntersectionoverUnion)NPU:神經(jīng)網(wǎng)絡(luò)處理器(NeuralProcessingUnit)NLP:自然語言處理(NaturalLanguageProcessing)NI:自然度指數(shù)(NaturalnessIndex)PER:因素識別錯誤率(PhoneErrorRate)RDMA:遠程直連內(nèi)存訪問(RemoteDirectMemoryAccess)RoCE:基于聚合以太網(wǎng)的RDMA(RDMAoverConvergedEthernet)ROUGE:基于召回率的摘要評估方法(Recall-OrientedUnderstudyforGistingEvaluation)4T/ISC0076—2024WER:語音識別錯誤率(WordErrorRate)5概述本文件的標準化對象包括大模型及其系統(tǒng)。其中第6章規(guī)范了大模型系統(tǒng)的參考架構(gòu)和系統(tǒng)角色;第7章在此基礎(chǔ)上規(guī)范了大模型系統(tǒng)的基礎(chǔ)設(shè)施層、數(shù)據(jù)層、模型層、應(yīng)用層、系統(tǒng)安全層的技術(shù)要求;第8章對大模型的能力評估方法進行規(guī)范,包括評估框架、評估指標、評估數(shù)據(jù)集及評估流程,第8章的評估方法僅針對大模型本身,不包含大模型系統(tǒng)的其他組成部分。6大模型系統(tǒng)參考架構(gòu)6.1參考架構(gòu)大模型系統(tǒng)參考架構(gòu)包括基礎(chǔ)設(shè)施層、數(shù)據(jù)層、模型層、應(yīng)用層、系統(tǒng)安全層,如圖1所示。a)基礎(chǔ)設(shè)施層:用于支撐大模型系統(tǒng)運行,包括軟件部分和硬件部分。軟件部分主要包括深度學(xué)習(xí)框架、分布式訓(xùn)練框架、運行加速庫、通信庫等。硬件部分主要包括算力資源、存儲資源、網(wǎng)絡(luò)資源。b)數(shù)據(jù)層:用于實現(xiàn)大模型數(shù)據(jù)接入與處理,包括數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集構(gòu)造及數(shù)據(jù)集管理。c)模型層:用于支撐大模型訓(xùn)練、微調(diào),驗證并進行模型部署、推理和匯聚。包括訓(xùn)練微調(diào)部分、部署推理部分和模型納管部分,訓(xùn)練微調(diào)部分包括模型預(yù)訓(xùn)練、模型微調(diào)、模型測試驗證。部署推理部分包括模型壓縮、模型部署、模型推理。模型納管部分包括集合通用大模型、行業(yè)大模型、專業(yè)大模型。d)應(yīng)用層:用于支撐大模型不同領(lǐng)域的應(yīng)用,包括通用應(yīng)用部分和行業(yè)應(yīng)用部分。通用應(yīng)用部分主要包括NLP、CV、語音、多模態(tài)等通用領(lǐng)域應(yīng)用,行業(yè)應(yīng)用部分主要包括通信、政務(wù)、醫(yī)療、能源等行業(yè)領(lǐng)域應(yīng)用。e)系統(tǒng)安全層:用于支撐大模型系統(tǒng)的安全可信與合規(guī),主要包括基礎(chǔ)設(shè)施安全可信、數(shù)據(jù)安全可信、模型安全可信、服務(wù)安全可信、內(nèi)容安全可信等。5T/ISC0076—2024圖1大模型系統(tǒng)參考架構(gòu)6.2系統(tǒng)角色6.2.1供給者供給大模型系統(tǒng)運行的基本生產(chǎn)要素,包括供給數(shù)據(jù)、供給算力、供給通用和行業(yè)大模型。6.2.2匯聚者匯聚大模型系統(tǒng)中的關(guān)鍵生產(chǎn)要素,包括匯聚國產(chǎn)訓(xùn)練推理芯片、國產(chǎn)訓(xùn)練框架等軟硬件基礎(chǔ)設(shè)施、匯聚大數(shù)據(jù)、匯聚大模型訓(xùn)練、微調(diào)、部署推理、評估等服務(wù)。6.2.3運營者管理和優(yōu)化大模型的運營流程,通過運營管理、服務(wù)優(yōu)化、性能監(jiān)控、資源調(diào)配、風(fēng)險管理等方式確保大模型系統(tǒng)在通用NLP、CV、語音等通用應(yīng)用場景和通信、政務(wù)、醫(yī)療、能源等行業(yè)應(yīng)用場景的高效賦能與持續(xù)創(chuàng)新。7大模型系統(tǒng)技術(shù)要求7.1基礎(chǔ)設(shè)施層7.1.1硬件6T/ISC0076—20247.1.1.1算力資源應(yīng)支持至少二種類型計算芯片作為算力基礎(chǔ)設(shè)施,如CPU、GPGPU、DSA、NPU、TPU、AISC、FPGA等。7.1.1.2存儲資源a)應(yīng)支持至少一種存儲介質(zhì),如SSD、機械硬盤、HBM等;b)應(yīng)支持至少一種存儲接口,如SATA、PCIe等;c)應(yīng)支持至少一種存儲方式,如對象存儲、多級存儲、文件存儲、塊存儲等;d)應(yīng)支持至少一種存儲連接方式,如SAN、NAS、DAS等。7.1.1.3網(wǎng)絡(luò)資源a)應(yīng)支持至少一種網(wǎng)絡(luò)通信標準,如InfiniBand、RoCE等;b)宜支持RDMA網(wǎng)絡(luò)通信技術(shù);c)宜支持至少二種卡間通信協(xié)議,如共享內(nèi)存、PCIe、NVLink、MTLink等。7.1.2軟件7.1.2.1深度學(xué)習(xí)框架a)應(yīng)支持至少一種深度學(xué)習(xí)框架,如PyTorch、TensorFlow、Caffe、MindSpore、PaddlePaddle、MXNet、JAX等;b)宜支持至少一種神經(jīng)網(wǎng)絡(luò)交換格式,如ONNX等。7.1.2.2分布式訓(xùn)練框架a)應(yīng)支持至少一種跨深度學(xué)習(xí)框架通用分布式訓(xùn)練框架,如DeepSpeed、Megatron-LM、Colossal-AI、BMTrain、AscendSpeed等;b)應(yīng)支持至少一種深度學(xué)習(xí)框架內(nèi)嵌式分布式訓(xùn)練框架,如PyTorch、TensorFlow、MindSpore、PaddlePaddle等。7.1.2.3運行加速庫宜支持提供的運行加速庫支持至少一種模型開發(fā)任務(wù),如模型訓(xùn)練、模型微調(diào)、模型壓縮、模型推理等。7.1.2.4通信庫a)宜支持提供的通信庫支持至少一種模型開發(fā)任務(wù),如模型訓(xùn)練、模型微調(diào)、模型壓縮、模型推理等。b)宜支持集合通信能力。7.2數(shù)據(jù)層7.2.1數(shù)據(jù)接入數(shù)據(jù)接入應(yīng)符合AIIA/PG0141-2024中6.1.1節(jié)相關(guān)要求。7.2.2數(shù)據(jù)預(yù)處理7T/ISC0076—2024數(shù)據(jù)預(yù)處理應(yīng)符合AIIA/PG0141-2024中6.1.2節(jié)相關(guān)要求。7.2.3數(shù)據(jù)集構(gòu)造與管理數(shù)據(jù)集構(gòu)造與管理應(yīng)符合AIIA/PG0141-2024中6.1.3節(jié)6.1.4節(jié)相關(guān)要求。7.3模型層7.3.1訓(xùn)練微調(diào)7.3.1.1模型預(yù)訓(xùn)練a)應(yīng)支持至少一種預(yù)訓(xùn)練方法,如從頭預(yù)訓(xùn)練、繼續(xù)預(yù)訓(xùn)練等;b)應(yīng)支持訓(xùn)練中的斷點處理,如斷點保持、斷點續(xù)訓(xùn)、斷點重訓(xùn)等;c)應(yīng)支持至少一種分布式訓(xùn)練方法,如數(shù)據(jù)并行、模型并行(流水線并行,張量并行)、混合并行、MOE并行等;d)應(yīng)支持至少一種訓(xùn)練優(yōu)化技術(shù),如ZeRO、混合精度訓(xùn)練等。7.3.1.2模型微調(diào)應(yīng)支持至少一種模型微調(diào)方法,如全參微調(diào)、低參微調(diào)(Lora)、指令微調(diào)等。7.3.1.3模型測試驗證a)宜支持包含不同數(shù)據(jù)分布、場景和類別的訓(xùn)練數(shù)據(jù)集、微調(diào)數(shù)據(jù)集、評估數(shù)據(jù)集,以驗證模型的泛化能力;b)宜根據(jù)模型的任務(wù)類型選擇合適的評估指標,如準確率、召回率、F1分數(shù)、AUC-ROC、BLEU等中的一項或多項;c)宜支持與相關(guān)領(lǐng)域內(nèi)的基準模型進行對比,以衡量模型性能優(yōu)劣;d)宜支持根據(jù)測試結(jié)果對模型進行調(diào)優(yōu),如調(diào)整超參數(shù)、優(yōu)化模型結(jié)構(gòu)等,以提高模型性能;e)宜支持錯誤分析與診斷,對于測試中出現(xiàn)的錯誤和異常,應(yīng)進行詳細的分析和診斷。7.3.2推理部署7.3.2.1模型壓縮a)應(yīng)支持至少一種模型壓縮方法,如低比特量化、感知量化訓(xùn)練、訓(xùn)練后量化等;b)宜支持至少一種模型壓縮效果顯示,如壓縮比顯示、壓縮前后精度差異顯示、壓縮前后性能差異顯示等。7.3.2.2模型部署a)應(yīng)支持至少一種模型部署格式,如以鏡像方式進行部署等;b)宜支持至少一種模型部署方式,如云端部署、邊端部署等;c)宜支持分布式模型部署。7.3.2.3模型推理a)應(yīng)支持至少一種推理加速框架,如TensorRT-LLM、DeepSpeed-MII、Triton、vLLM等;b)應(yīng)支持至少一種推理優(yōu)化技術(shù),如緩存優(yōu)化、并行化推理、異步化推理等;c)宜支持對推理服務(wù)反饋數(shù)據(jù)的回流,以用于循環(huán)迭代。8T/ISC0076—20247.3.3模型納管a)應(yīng)支持納管至少兩種大模型,包括通用大模型、行業(yè)大模型、專用大模型;b)注:通用大模型可支持語言、視覺、語音等不同模態(tài)通用任務(wù)。行業(yè)大模型,包括例如通信、政務(wù)、醫(yī)療等行業(yè)。專用大模型,包括例如辦公大模型、客服大模型等。c)宜支持匯聚模型的二次開發(fā)需求;d)宜支持對多個模型進行協(xié)同調(diào)度和推理;e)宜支持對模型服務(wù)進行監(jiān)控,如基礎(chǔ)資源監(jiān)控(如計算、存儲、網(wǎng)絡(luò)等)、故障異常監(jiān)控等;f)宜支持至少一種模型服務(wù)監(jiān)控方式,如可視化方式、后臺日志方式等。7.4應(yīng)用層7.4.1通用應(yīng)用7.4.1.1單模態(tài)單模態(tài)大模型應(yīng)具備以下能力之一:a)應(yīng)具備NLP領(lǐng)域能力。如:1)宜支持多種文本理解任務(wù),如文本分類、命名實體識別、信息抽取、文本問答、代碼理解等;2)宜支持多種文本生成任務(wù),如摘要生成、機器翻譯、文本改寫、代碼生成等;3)宜支持多種文本推理任務(wù),如邏輯推理、數(shù)學(xué)推理、任務(wù)分解等。b)應(yīng)具備CV領(lǐng)域能力,宜支持多種圖像理解任務(wù),如圖片分類、圖片分割、目標檢測、視頻分類、行為識別等。c)應(yīng)具備語音理解能力,宜支持多種通用語音理解任務(wù),如聲紋識別、環(huán)境音分類等。7.4.1.2多模態(tài)多模態(tài)大模型應(yīng)具備以下能力:a)應(yīng)具備多模態(tài)理解能力,宜支持多種多模態(tài)理解任務(wù),如圖文檢索、圖片回答、視覺空間關(guān)系、視覺語言推理、視覺蘊含、視頻檢索、視頻問答等圖文理解任務(wù),文音檢索等文音理解任務(wù),以及有聲視頻檢索,有聲視頻問答等圖文音理解任務(wù);b)應(yīng)具備多模態(tài)生成能力,宜支持多種多模態(tài)生成任務(wù),如文本生成圖片、圖片生成文本、文本生成視頻、視頻生成文本等圖文生成任務(wù),文本生成有聲視頻、視頻生成文本等圖文音生成任務(wù),以及語音合成、語音識別、語音翻譯等文音生成任務(wù)。7.4.2行業(yè)應(yīng)用大模型通過微調(diào)或再訓(xùn)練后可應(yīng)用到多個行業(yè),本標準給出以下典型行業(yè)應(yīng)用場景要求作為示例:a)通信行業(yè)應(yīng)用場景宜支持客服場景、運營場景、知識問答場景、數(shù)據(jù)分析場景等通用場景,網(wǎng)絡(luò)規(guī)劃、網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)維護、網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)運營、網(wǎng)絡(luò)資源管理等專業(yè)場景;b)政務(wù)行業(yè)應(yīng)用場景宜支持一網(wǎng)統(tǒng)管、一網(wǎng)通辦、一網(wǎng)協(xié)同等通用場景,行政服務(wù)、公安服務(wù)、人社服務(wù)、財稅服務(wù)、市場監(jiān)管、經(jīng)濟監(jiān)管等專業(yè)場景;c)醫(yī)療行業(yè)應(yīng)用場景宜支持醫(yī)療知識查詢、醫(yī)療文檔理解、健康問答、智能導(dǎo)診、查房問診、醫(yī)生助手等;d)能源行業(yè)應(yīng)用場景宜支持礦山安全生產(chǎn)、發(fā)電廠安全生產(chǎn)、工人排班調(diào)度、煤炭營銷規(guī)劃等;e)金融行業(yè)應(yīng)用場景宜支持營銷場景、風(fēng)控場景、客服場景、投研場景、投顧場景等通用場景,9T/ISC0076—2024銀行業(yè)務(wù)、保險業(yè)務(wù)、證券業(yè)務(wù)、基金業(yè)務(wù)、資管業(yè)務(wù)等專業(yè)場景;f)教育行業(yè)應(yīng)用場景宜支持知識檢索、知識問答、自主學(xué)習(xí)、教學(xué)輔助、測評考試等通用場景,數(shù)學(xué)、語文、英語、物理、歷史等專業(yè)場景;g)工業(yè)行業(yè)應(yīng)用場景宜支持生產(chǎn)優(yōu)化、分類識別、知識管理、生產(chǎn)運營等。7.5系統(tǒng)安全系統(tǒng)安全技術(shù)要求包括基礎(chǔ)設(shè)施安全可信、數(shù)據(jù)安全可信、模型安全可信、服務(wù)安全可信、內(nèi)容安全可信等,應(yīng)支持以下技術(shù)要求:a)基礎(chǔ)設(shè)施安全可信應(yīng)符合AIIA/PG0074-2022第6節(jié)相關(guān)要求;b)數(shù)據(jù)安全可信應(yīng)符合AIIA/PG0074-2022第7節(jié)相關(guān)要求;c)模型安全可信應(yīng)符合AIIA/PG0074-2022第8節(jié)相關(guān)要求;d)服務(wù)安全可信應(yīng)符合AIIA/PG0074-2022第9節(jié)相關(guān)要求。8大模型能力評估方法8.1評估框架大模型能力評估框架主要由評估對象、評估能力和任務(wù)、評估指標3個維度組成,如圖2所示,其中a)評估對象:指評估的大模型類型,如語言大模型、視覺大模型、語音大模型、多模態(tài)大模型等不同模態(tài)模型或通信大模型、政務(wù)大模型等不同行業(yè)模型;b)評估能力和任務(wù):指評估的大模型的能力項及任務(wù)項,能力項主要包括理解能力、生成能力,推理能力等,每個能力項包含多個任務(wù),如理解能力包含文本分類、命名實體識別等任務(wù),生成能力包含機器翻譯、摘要總結(jié)等任務(wù)、推理能力包括邏輯推理、數(shù)學(xué)推理等任務(wù)。每個任務(wù)項由相應(yīng)評估指標進行評估;c)評估指標:指對大模型進行能力評估的關(guān)鍵指標,分為客觀指標和主觀指標。客觀指標指基于模型預(yù)測結(jié)果與實際值之間的量化差異來評估模型性能的指標,不受人的主觀感受或偏見影響,能夠提供客觀、準確的模型性能評估,如準確率、F1值、BLEU、ROUGE等。主觀指標指基于評估者個人感受、評價或?qū)I(yè)判斷來評估模型性能的指標,受到評估者主觀因素(如經(jīng)驗、知識、偏好等)的影響,如相關(guān)性、完整性、有效性、連貫性等。具體指標見8.2節(jié)。T/ISC0076—2024圖2評估框架整體評估范圍是由上述三個維度確定,整體評估結(jié)果是由評估范圍內(nèi)的所有評估元素的評估結(jié)果綜合確定。具體評估方式主要包括利用工具進行自動化評估,基于人類評估者進行人工評估、針對不同版本模型的對比評估以及針對用戶反饋分析(例如點贊、點踩)的用戶反饋評估等。如圖2評估元素A對應(yīng)某行業(yè)大模型將準確率作為評估指標對理解能力的評估結(jié)果。具體行業(yè)大模型的評估案例見附錄C。8.2評估指標大模型能力評估維度主要分為理解能力、生成能力、推理能力及專業(yè)能力,理解能力主要包括文本理解、圖像理解、音頻理解3個單模態(tài)理解能力,以及圖文理解、文音理解2個多模態(tài)理解能力。生成能力主要包括文本生成單模態(tài)生成能力,以及圖文生成、文音生成2個多模態(tài)生成能力。推理能力主要包括文本推理單模態(tài)推理能力。能力評估維度下對應(yīng)具體評估任務(wù)與評估指標,詳細說明見表1:表1評估指標能力項能力子項任務(wù)項任務(wù)項說明評估指標理解能力文本理解文本分類將文本劃分為不同的類別或標簽??梢詰?yīng)用于垃圾郵件過濾、情感分析、新聞分類等應(yīng)用場準確率命名實體識別識別文本中的實體,如人名、地名、組織機構(gòu)、日期等。這對于信息提取和語義分析非常重要。準確率文本問答從給定的文本或知識庫中提取相關(guān)信息,經(jīng)過分析和推理,生成準確、簡潔的答案回答用戶提出的問題。可以應(yīng)用于如智能客服、搜索引擎等應(yīng)用場景。準確率圖像理解圖片分類指模型能夠理解圖片的語義內(nèi)容,并輸出其對應(yīng)的類別標簽。準確率圖片分割把圖片分成若干個特定的、具有獨特性質(zhì)的區(qū)準確率T/ISC0076—2024域并提取感興趣目標的技術(shù)和過程。在圖片中檢測和定位特定的目標物體。IoU音頻理解聲紋識別是把聲信號轉(zhuǎn)換成電信號,再用計算機進行識別,包括說話人辨認和說話人確認。準確率圖文理解圖文檢索指模型能夠根據(jù)給定的圖片/文本檢索到與之最匹配的文本/圖片構(gòu)成配對。準確率圖片問答指模型能夠回答針對圖片的文本問題。準確率視覺空間關(guān)系指模型能夠基于圖片內(nèi)容正確判斷文本中所描述的對象間位置關(guān)系。準確率文音理解文音檢索指模型能夠根據(jù)給定的音頻/文本檢索到與之最匹配的文本/音頻構(gòu)成配對。準確率生成能力文本生成機器翻譯模型能夠理解文本指令,將文本從一種語言翻譯成另一種語言。BLEU、ROUGE、主觀指標等摘要總結(jié)模型能夠理解文本并根據(jù)輸入內(nèi)容生成相應(yīng)摘要總結(jié)。準確率、ROUGE、主觀指標等文本改寫模型將文本從一種表述方式改寫成另一種表述方式。METEOR、主觀指標等代碼生成模型能夠理解文本指令,生成符合其要求的編程代碼。準確率圖文生成文生圖模型能夠理解文本指令,生成符合其要求的圖FID、CLIPScore、AestheticScore、主觀指標等圖生文指模型能夠?qū)D片的內(nèi)容進行概括總結(jié),生成合理的文本描述。BLEU、主觀指標等文視頻生成文生視頻模型能夠理解文本指令,生成符合其要求的視頻。主觀指標視頻生文模型能夠理解視頻內(nèi)容,并生成符合要求的文本形式描述,如視頻摘要等。BLEU、ROUGE、主觀指標等文音生成語音翻譯模型能夠理解輸入語音及其語言,并將其翻譯為指定語言所對應(yīng)的語音。WER、PER語音識別模型能夠理解輸入的語音,并將其轉(zhuǎn)錄為對應(yīng)的文本。WER、EER語音合成模型可以根據(jù)指定文本生成對應(yīng)的語音。CI、NI、SNR、主觀指標等推理能力文本推理邏輯推理指模型根據(jù)已有的事實或知識,如上下文信息、常識、定理等,完成數(shù)學(xué)、符號、邏輯推理過程,并形成合乎邏輯結(jié)果。準確率數(shù)學(xué)推理指把表示關(guān)系的運算方法、邏輯術(shù)語運用于研究對象,得到數(shù)學(xué)的結(jié)論或者驗證數(shù)學(xué)的結(jié)準確率安全能力魯棒性樣本擾動評估模型是否應(yīng)對樣本擾動,如圖像或視頻遮擋、文本字符錯誤、音頻嘈雜等。是否支持分布外泛化評估模型能否應(yīng)對輸入異常離群樣本,如樣本外風(fēng)格點、最新實時數(shù)據(jù)等。是否支持對抗魯棒性評估模型能否應(yīng)對各式攻擊,如后門攻擊、隱私攻擊、對抗樣本攻擊、提示詞攻擊等。是否支持攻擊成功攻擊成功的樣本數(shù)在樣本總數(shù)中的占比。ASRT/ISC0076—2024率穩(wěn)定性輸出穩(wěn)定性評估大模型在推理階段是否具備持續(xù)穩(wěn)定運行并穩(wěn)定輸出結(jié)果的能力,如在不同請求時間或不同參數(shù)條件設(shè)置下結(jié)果輸出表現(xiàn)穩(wěn)定等。是否支持內(nèi)容可靠性評估大模型生成內(nèi)容的真實性與可靠性。FActScore等透明性模型信息披露對大模型的必要解釋信息進行披露,如模型使用數(shù)據(jù)量、模型參數(shù)量、模型基礎(chǔ)功能等。是否支持模型算法解釋對大模型進行局部或全局算法解釋,解釋方法包含局部算法模擬、神經(jīng)元級特征表示等。是否支持推理過程展示對大模型的推理過程進行展示,如輸出用戶所需的解釋性附加信息、展示邏輯推理過程等。是否支持公平性公平保護機制評估大模型在設(shè)計、開發(fā)、訓(xùn)練、推理階段是否具備保障模型公平性的機制,如對生成內(nèi)容進行公平性檢測和調(diào)優(yōu),為模型設(shè)定角色屬性等。是否支持輸出結(jié)果公平性評估模型是否滿足輸出結(jié)果公平性要求,即對不同屬性主體保持輸出結(jié)果一致,主體屬性可包含種族、民族、信仰、國別、地域、性別、年齡等。是否支持可追溯性模型版本追溯評估大模型在研發(fā)和應(yīng)用過程中能否記錄模型版本信息,如版本號、版本說明等。是否支持模型日志管理評估大模型研發(fā)和應(yīng)用過程中能否記錄詳細流程日志,如操作步驟、流轉(zhuǎn)關(guān)系等。是否支持行業(yè)能力根據(jù)行業(yè)應(yīng)用場景并結(jié)合上述通用能力項及評估指標要求確定。本文件不對行業(yè)能力作規(guī)范性要求,附錄C中給出了通信等行業(yè)大模型評估案例。具體客觀和主觀評估指標定義以及主觀指標的評分方法參見附錄A。8.3評估數(shù)據(jù)集要求大模型的能力評估,依托于高質(zhì)量的評估數(shù)據(jù)集。需要從評估數(shù)據(jù)集的全面性、多樣性、均衡性等方面綜合考察以選擇合適的評估數(shù)據(jù)集。a)評估數(shù)據(jù)集的全面性:指數(shù)據(jù)集覆蓋廣泛的主題和領(lǐng)域。其中評估文本理解能力的數(shù)據(jù)集需要包含多領(lǐng)域文本、多語言文本等;評估圖像理解能力的數(shù)據(jù)集需要包含多場景圖像、多風(fēng)格圖像等;評估音頻理解能力的數(shù)據(jù)集需要包含多音色音頻等;評估圖文理解能力的數(shù)據(jù)集需要包含多問題類型等;評估文音生成能力的數(shù)據(jù)集需要包含多領(lǐng)域及語言文本、多音色及音調(diào)音頻等;評估文本推理能力的數(shù)據(jù)集需要包含多推理形式等。b)評估數(shù)據(jù)集的多樣性:指數(shù)據(jù)集具有多種問題形式,包括選擇問答題、開放問答題、半開放問答題、填空題、判斷題等多種形式的題目。c)評估數(shù)據(jù)集的均衡性:指數(shù)據(jù)集中不同難度、不同類別等的數(shù)據(jù)分布均衡,以避免由數(shù)據(jù)分布不均而導(dǎo)致得評估結(jié)果偏差。其中評估文本理解能力的數(shù)據(jù)集需要保持問題難度與類型等的均衡;評估圖像理解能力的數(shù)據(jù)集需要保持不同類型對象、不同信息量圖像等的均衡;評估音頻理解能力的數(shù)據(jù)集需要保持不同質(zhì)量音頻、不同音色音頻等的均衡;評估文本推理能力的數(shù)據(jù)集需要保持推理問題類型等的均衡。d)評估數(shù)據(jù)集的質(zhì)量:指數(shù)據(jù)集需要經(jīng)過清洗和標注。其中數(shù)據(jù)清洗需要針對缺失數(shù)據(jù)、異常T/ISC0076—2024數(shù)據(jù)、重復(fù)數(shù)據(jù)和敏感數(shù)據(jù)進行處理。數(shù)據(jù)標注則需要確保文本類數(shù)據(jù)具有語言、主題、情感傾向、命名實體等準確標注;確保圖像類數(shù)據(jù)具有類別、對象位置、語義分割等準確標注;確保音頻類數(shù)據(jù)具有所屬語言、情感傾向等準確標注。業(yè)界常用評估數(shù)據(jù)集參見附錄B。8.4評估流程針對大模型能力評估,給出統(tǒng)一和規(guī)范的評估流程圖3評估流程a)確定評估對象:確定評估的大模型類型,比如語言大模型、視覺大模型、多模態(tài)大模型等通用大模型以及通信大模型、政務(wù)大模型、客服大模型等行業(yè)大模型。b)確定評估能力項及任務(wù)項:根據(jù)a)中選擇的大模型類型,確定評估的模型能力項以及相應(yīng)的任務(wù)項。比如理解能力以及理解能力包含的文本分類、命名實體識別等任務(wù),生成能力以及生成能力包含的機器翻譯、摘要總結(jié)等任務(wù)、推理能力以及推理能力包含的邏輯推理、數(shù)學(xué)推理等任務(wù)等。c)確定評估指標:根據(jù)b)中確定的評估任務(wù)項,選擇合適的評估指標,比如文本分類、命名實體識別等任務(wù)對應(yīng)的準確率指標,機器翻譯、摘要總結(jié)等任務(wù)對應(yīng)的BLUE、ROUGE等客觀指標以及完整度、連貫性等主觀指標,邏輯推理、數(shù)學(xué)推理等任務(wù)對應(yīng)的準確率指標等。d)確定評估數(shù)據(jù)集和評估方式:根據(jù)b)中確定的評估任務(wù)項,選擇合適的評估數(shù)據(jù)集,比如理解任務(wù)對應(yīng)的CLUE、GLUE、DROP等數(shù)據(jù)集、生成任務(wù)對應(yīng)的APPS、CodeXGLUE等數(shù)據(jù)集、推理能力對應(yīng)的MATH、GSM8K等數(shù)據(jù)集、以及綜合任務(wù)對應(yīng)的MMCU、MMLU等數(shù)據(jù)集。當(dāng)缺少選定任務(wù)的數(shù)據(jù)集時,需專門構(gòu)建相應(yīng)評估數(shù)據(jù)集。根據(jù)c)中確定的評估指標選擇合適的評估方式,包括準確率、F1值、BLUE、ROUGE等客觀評估指標對應(yīng)的自動化評估方式,完整度、有效性、連貫性等主觀評估指標對應(yīng)的人工評估方式,GSB指標對應(yīng)的內(nèi)部對比評估方式,以及用戶點贊點踩指標對應(yīng)的用戶反饋評估方式等。e)輸出評估結(jié)果:根據(jù)d)中確定的評估數(shù)據(jù)集和評估方式,對c)中確定的評估指標進行評估,得到b)中確定的任務(wù)項即評估元素的評估結(jié)果,根據(jù)任務(wù)的不同優(yōu)先級或比重確定任務(wù)評估結(jié)果的權(quán)重,將不同評估元素的評估結(jié)果經(jīng)過加權(quán)平均等方式綜合處理并輸出,得到a)中確定的大模型在b)中確定的能力項上的評估結(jié)果。通過對客觀指標的計算可以直接得到客觀指標評估結(jié)果,主觀指標的評估結(jié)果可以通過主觀指標評分方法得到,具體評估方法參見附錄A.3。如需對主客觀指標評估結(jié)果進行綜合處理,可以將主觀指標評估結(jié)果和客觀指標評估結(jié)果進行加權(quán)求和得到綜合評估結(jié)果。T/ISC0076—2024(資料性)評估指標A.1客觀評估指標A.1.1準確率(Accuracy)指正確分類的樣本數(shù)與樣本總數(shù)之間的比例,計算公式為:其中TP--真正的正樣例數(shù)量;TN--真正的負樣例數(shù)量;FP—錯誤的正樣例數(shù)量;FN—錯誤的負樣例數(shù)量。A.1.2F1值指精確率(precision)和召回率(recall)的調(diào)和平均值,其中,精確率是模型判斷為正樣例中,真正為正樣例的比例,要求模型做出正例判斷時盡可能準確,召回率是所有實際為正樣例的樣本中,被模型正確識別為正樣例的比例,要求模型盡可能找出所有的正例。計算公式為:其中TP--真正的正樣例數(shù)量;TN--真正的負樣例數(shù)量;FP—錯誤的正樣例數(shù)量;FN—錯誤的負樣例數(shù)量。A.1.3BLEU一種衡量機器翻譯任務(wù)中模型生成的譯文(reference)與參考譯文(candidate)之間相似程度的指標。主要基于準確率,其取值范圍為[0,1],若模型生成的譯文和參考譯文完全匹配,BLEU是1;反之若完全不匹配,則為0。計算公式為: T/ISC0076—2024式中BP是“過短懲罰”函數(shù),其取值范圍是(0,1],模型生成內(nèi)容越短,越接近0。c表示模型生成譯文,r表示參考譯文。wn表示權(quán)重,通常取值1/n,Pn表示n-gram精度。1-gram準確率可用于衡量模型生成譯文單詞的準確性,更高階n-gram的準確率可用來衡量模型生成譯文句子的流暢性。A.1.4Rouge一種用于評估文本摘要任務(wù)中模型生成摘要質(zhì)量的指標,主要關(guān)注模型生成譯文是否捕捉到參考譯文的信息。計算方法是評估參考譯文中有多少n-gram出現(xiàn)的模型生成的譯文中。相較BLUE指標更著重信息的完整性,偏向召回率。A.1.5FID一種用于評估生成模型生成圖像質(zhì)量的指標。FID衡量了生成圖像在特征空間中的分布與真實圖像在特征空間中的分布之間的距離。具體來說,F(xiàn)ID通過計算生成圖像和真實圖像在預(yù)訓(xùn)練的深度網(wǎng)絡(luò)的特征表示之間的均值和協(xié)方差差異來得出。FID不需要人工標注的數(shù)據(jù),是一種自動化的評估方法。A.1.6WER是語音識別和自然語言處理中的一個重要評價指標,用于衡量自動語音識別系統(tǒng)生成的轉(zhuǎn)錄文本與參考文本之間的差異。WER衡量的是兩個文本序列中詞錯誤的數(shù)量占參考文本中詞的總數(shù)的比例。計算公式為WER=(插入錯誤的詞數(shù)+刪除錯誤的詞數(shù)+替換錯誤的詞數(shù))/參考文本中的詞數(shù)。WER越低,表示自動語音識別系統(tǒng)的性能越好,轉(zhuǎn)錄文本與參考文本之間的差異越小。A.1.7EER用于聲紋識別任務(wù),表示在一個分類或識別系統(tǒng)中,當(dāng)誤報率和拒真率相等時的錯誤率。誤報率是指系統(tǒng)將非目標對象錯誤地識別為目標對象的比例,而拒真率則是指系統(tǒng)將目標對象錯誤地識別為非目標對象的比例。一種計算機視覺任務(wù)中用于評估目標檢測、圖像分割等任務(wù)性能的常用指標。在目標檢測任務(wù)中,IoU衡量的是預(yù)測邊界框與真實邊界框之間的重疊程度,計算公式為預(yù)測邊界框與真實邊界框的交集面積除以它們的并集面積,IoU的值域為[0,1],其中1表示完全重疊,0表示沒有重疊。在圖像分割任務(wù)中,IoU用于評估預(yù)測分割結(jié)果與真實分割結(jié)果之間的重疊程度。A.1.9CLIPScore評估圖文一致性的指標。將輸入的圖像和Prompts放入到CLIP特征提取器中獲取embedding,然后計算兩者的余弦距離來評估圖像和文字的相似程度。A.1.10AestheticScore基于CLIP模型的線性估計器,旨在預(yù)測圖像的審美質(zhì)量。使用LAIONAI訓(xùn)練的aesthetic-predictor進行圖像美學(xué)質(zhì)量打分,得到分值。A.1.11FactScore旨在解決大語言模型在長文本生成中的事實準確性評估問題,將長篇文本生成分解為多個原子事實,并分別與類似維基百科這樣的知識庫進行驗證。它計算可靠知識源支持的原子事實的百分比,從T/ISC0076—2024而得出一個評分,這個評分反映了模型生成文本的事實準確性,通過對比不同模型的FactScore評分,可以客觀地評價模型在事實性方面的表現(xiàn)。A.2主觀評估指標A.2.1相關(guān)度指回答與對話上下文的關(guān)聯(lián)程度。A.2.2完整度指生成的回答是否有信息缺失遺漏。A.2.3有效性生成回答的有用程度。A.2.4連貫性回答是否符合對話流程。A.2.5圖文一致性是評估圖片在多大程度上與文字描述內(nèi)容一致。A.2.6圖片質(zhì)量是在不考慮圖文一致性的情況下,評估生成圖片的清晰度、色彩、構(gòu)圖等影響主觀感受的因素。A.2.7總體印象評測人員對視頻的直觀感覺和總體印象。A.2.8真實性視頻是否像AI生成的,若像則是不真實。若視頻是展現(xiàn)現(xiàn)實場景,則看是否與真實世界相符合;若是展現(xiàn)超現(xiàn)實場景,則看是否符合對動畫、科幻電影等超現(xiàn)實場景的認知。A.2.9視頻質(zhì)量視頻內(nèi)容在清晰度、流暢度等方面的表現(xiàn)程度。A.2.10美學(xué)質(zhì)量視頻內(nèi)容在布局構(gòu)圖、色彩搭配、藝術(shù)性、和諧性、景深和細節(jié)呈現(xiàn)等方面的綜合表現(xiàn)。A.3主觀指標評分方法根據(jù)人工評估的指標維度,由參與者以分數(shù)的形式來進行評分。評估方法為按照指標維度對數(shù)據(jù)集中每條數(shù)據(jù)分別評分,并計算得到最終平均得分結(jié)果。以A1.2.1~A1.2.4評估指標為例,具體評分方法見表A.1:T/ISC0076—2024表A.1主觀評估指標評分方法分數(shù)總體相關(guān)度完整度有效性連貫性5分回答正確且質(zhì)量高,結(jié)果真實,無冗余,非常符合用戶期望。prompt內(nèi)容高度切合,沒有不相關(guān)內(nèi)容。生成的內(nèi)容完全和用戶的意圖對應(yīng),無任何信息缺失遺漏。生成的內(nèi)容全部有用,不存在重復(fù)冗余等影響有效性的回答對話流程連貫,回答內(nèi)容之間的連接質(zhì)量非常高,完全沒有砌。4分確,結(jié)果真實,存在部分非關(guān)鍵錯誤,正確部分符合用戶期望。prompt內(nèi)容的切上,存在少量不相關(guān)內(nèi)容。生成的內(nèi)容有部分存在信息的缺失遺漏,對整體內(nèi)容理解影響較用,存在少量無用信息?;卮饘υ捔鞒踢B貫性一般,回答內(nèi)容之間的連接質(zhì)量一般,存在部分信息內(nèi)容的堆砌。3分大部分回答不正實,存在部分關(guān)鍵錯誤,只有很少一部分符合用戶期望。prompt內(nèi)容的切上,存在較多的不相關(guān)內(nèi)容。失,對整體內(nèi)容理解影響較大。用,存在較多的無用信息。回答對話流程連貫性較差,回答內(nèi)容之間的連接質(zhì)量較差,存在大部分信息內(nèi)容的堆砌。2分有結(jié)果,但回答基本錯誤或回答相關(guān)度很低。prompt幾乎無關(guān),好像理解用戶意圖又好像不理解,亂說。失,只有少數(shù)部分可以理解。用,存在少量有用信息?;卮饘υ捔鞒滩粋€別部分之間存在連接性,但絕大部分信息內(nèi)容任意堆砌。結(jié)果為空、完全關(guān)。prompt要求完全沒有相關(guān)性,脫離用戶意圖。生成的內(nèi)容信息空,導(dǎo)致無法理解。生成的內(nèi)容無回答內(nèi)容之間完全沒有連接性可言,信息內(nèi)容任意堆砌。T/ISC0076—2024(資料性)評估數(shù)據(jù)集B.1通用評估數(shù)據(jù)集B.1.1綜合能力評估數(shù)據(jù)集B.1.1.1MMCUMMCU是用于衡量中文大模型處理多任務(wù)準確度的數(shù)據(jù)集,包含了來自醫(yī)學(xué)、法律、心理和教育領(lǐng)域的單/多項選擇問題。這些問題是由專業(yè)人員從免費提供的在線資源中手動收集而來,包括大學(xué)醫(yī)學(xué)考試、國家統(tǒng)一法律職業(yè)資格考試、心理咨詢師考試、心理學(xué)專業(yè)研究生入學(xué)考試和中國高考等。MMCU通過計算模型在所有任務(wù)上的zero-shot和few-shot準確率來評估模型性能。B.1.1.2MMLUMMLU是用于衡量模型處理多任務(wù)準確度的數(shù)據(jù)集,與MMCU類似。該數(shù)據(jù)集涵蓋了人文學(xué)科、社會科學(xué)、自然科學(xué)和其他重要領(lǐng)域,工具有57個任務(wù),15908個多選問題。B.1.2理解能力評估數(shù)據(jù)集B.1.2.1CLUECLUE是一個中文語言理解的評估基準,涵蓋了多種不同難度、不同大小形式的句子分類和閱讀理解任務(wù)。其提供了多種任務(wù)下的評估數(shù)據(jù)集,以及一個由語言學(xué)家開發(fā)的評估數(shù)據(jù)集(包含多種語言現(xiàn)象)。B.1.2.2GLUEGLUE類似于CLUE,也是一個語言理解的評估基準。其也提供了一個數(shù)據(jù)集,用于評估模型在各種語言現(xiàn)象方面的表現(xiàn)。在該數(shù)據(jù)集上采用R3(一種Matthews相關(guān)系數(shù)的推廣)進行評估。B.1.2.3DROPDROP是一個復(fù)雜英文閱讀理解基準數(shù)據(jù)集,需要對段落內(nèi)容進行離散推理。B.1.2.4SQuADSQuAD斯坦福問答數(shù)據(jù)集,是一個用于評估模型閱讀理解能力的數(shù)據(jù)集。其包含107785個問題-答案對,涵蓋了536篇文章。B.1.2.5RACERACE是一個用于評估模型閱讀理解能力的數(shù)據(jù)集。該數(shù)據(jù)集從中國初高中學(xué)生的英文考試中收集而來,包含近28000篇文章和近100000個由人類專家(英語教師)生成的問題。特別地,RACE中需要推理的問題的比例要比其他閱讀理解基準數(shù)據(jù)集大得多。B.1.2.6DuoRCT/ISC0076—2024DuoRC是一個評估模型閱讀理解能力的數(shù)據(jù)集。該數(shù)據(jù)集包含186089個問題-答案對,這些問答對是從7680對電影情節(jié)中創(chuàng)建的,每對情節(jié)來自于同一部電影的兩個版本(從一個版本的情節(jié)中創(chuàng)建問題,并從另一個版本中提取或合成答案)。DuoRC從設(shè)計上確保了問題和其對應(yīng)答案在片段之間幾乎沒有詞匯重疊。此外,由于這兩個版本具有不同的情節(jié)細節(jié)、敘述風(fēng)格、詞匯等,因此從第二個版本回答問題需要更深入的語言理解和融入外部背景知識。B.1.2.7WDWWDW是一個評估模型閱讀理解能力的數(shù)據(jù)集,包含超200,000個填空多項選擇問題。WDW是通過LDCEnglishGigaword新聞?wù)Z料庫構(gòu)建的填空式數(shù)據(jù)集,其選擇兩篇描述同一事件的新聞文章,將其中一篇生成段落,另一篇則生成問題。B.1.2.8TriviaQATriviaQA是一個評估模型閱讀理解能力的數(shù)據(jù)集。該數(shù)據(jù)集包含650,000個問題-答案-證據(jù)三元組,其中問題和相應(yīng)答案-證據(jù)句子之間具有相當(dāng)大的語法和詞匯變異性,并且需要更多的跨句子推理來找到答案。B.1.2.9WIKIQAWIKIQA是一個用于開放域問答的數(shù)據(jù)集。該數(shù)據(jù)集是以一種自然而現(xiàn)實的方式構(gòu)建,其包含3,047個問題,最初是從Bing查詢?nèi)罩局胁蓸拥玫降?。B.1.3生成能力評估數(shù)據(jù)集B.1.3.1APPSAPPS是UCB開發(fā)的,用于評估模型代碼生成能力的數(shù)據(jù)集。APPS包含從不同開放訪問編碼網(wǎng)站(如Codeforces、Kattis等)收集的10,000個平均問題長度為293.2個單詞的編程問題,這些問題涵蓋了各個難度級別,包括簡單的入門問題、面試級別的問題和編程競賽。APPS使用“測試用例平均值”和“嚴格準確性”這兩個指標評估模型的表現(xiàn)。B.1.3.2CodeXGLUECodeXGLUE是微軟亞洲研究院開發(fā)的針對代碼理解和生成的基準數(shù)據(jù)集。CodeXGLUE包括14個數(shù)據(jù)集以及10個任務(wù),涵蓋了以下場景1)代碼-代碼:克隆檢測、缺陷檢測、填空測試、代碼補全、代碼修復(fù)和代碼到代碼翻譯2)文本-代碼:自然語言代碼搜索、文本到代碼生成3)代碼-文本:代碼摘要4)文本-文本:文檔翻譯。B.1.4推理能力評估數(shù)據(jù)集B.1.4.1C-EvalC-Eval是一個評估基礎(chǔ)模型高級知識和推理能力的綜合性中文評估數(shù)據(jù)集。它包含13948個具有四個難度級別(初中、高中、大學(xué)和專業(yè))的多項選擇問題,涵蓋了從人文到科學(xué)到工程的52個不同學(xué)科領(lǐng)域。C-Eval通常使用準確率(Accuracy)作為評估模型的指標。B.1.4.2GSM8KT/ISC0076—2024GSM8K是OpenAI開發(fā)的,用于評估模型數(shù)學(xué)推理方面能力的數(shù)據(jù)集。GSM8K包含8.5K個高質(zhì)量、語言多樣的小學(xué)數(shù)學(xué)問題。這些問題通常需要2到8個步驟來解決,主要涉及加減乘除等基本運算來得到最終答案。評估指標通常采用準確率。B.1.4.3MATHMATH是UCB開發(fā)的,用于評估模型解決數(shù)學(xué)問題的能力。MATH包含了125000個具有挑戰(zhàn)性的數(shù)學(xué)問題,這些問題來自MAC、AIME競賽。由于MATH具有較大的調(diào)整性,因此模型可能首先需要在數(shù)學(xué)基礎(chǔ)知識方面進行充分的訓(xùn)練。評估指標通常采用準確率。B.1.4.4HotpotQAHotpotQA是一個大規(guī)模的問答數(shù)據(jù)集,用于評測模型多跳推理及為答案提供解釋的能力。該數(shù)據(jù)集包含113,000個基于Wikipedia的問答對,這些問答對具有以下四個關(guān)鍵特點1)問題需要查找和推理多個支持文檔才能回答2)問題多樣化,不受任何現(xiàn)有知識庫或知識架構(gòu)的約束3)提供句子級的支持性事實以進行推理4)提供一種新型的事實比較問題,用于評測模型提取相關(guān)事實并進行必要比較的能力。B.1.4.5LogiQALogiQA是一個用于評估模型在閱讀理解中邏輯推理能力的數(shù)據(jù)集。LogiQA來自專家撰寫的用于測試人類邏輯推理的問題集合,包括8,678個問答實例,涵蓋了范疇推理、條件推理、析取推理和聯(lián)合推理。B.1.4.6PIQAPIQA是一個用于評測模型物理常識推理能力的數(shù)據(jù)集。該數(shù)據(jù)集包括超過16,000個多項選擇問題,采用準確率指標進行評估。B.1.4.7MuTualMuTual是一個用于評估模型對話推理能力的數(shù)據(jù)集。該數(shù)據(jù)集包括8,860個手動注釋的對話,來源于中國學(xué)生的英語聽力考試。B.1.4.8CMMUCMMU是中文多模態(tài)多題型理解及推理數(shù)據(jù)集,從中國教育體系規(guī)范指導(dǎo)下的全國小學(xué)、初中、高中考試題中抽取并制作了3603道題目,題型包括單選題、多選題、填空題,并采用多重評測手段避免模型“隨機猜對答案”。按照學(xué)段來劃分,小學(xué)題目有250道,初中和高中分別為1697和1656道,其中,小學(xué)只包含了數(shù)學(xué)一門學(xué)科,初中和高中包含了七門學(xué)科。B.1.5其他能力評估數(shù)據(jù)集B.1.5.1HalluDial一個大規(guī)模的對話層級自動幻覺評估基準,旨在評估大語言模型在對話中識別幻覺的能力及其產(chǎn)生幻覺的傾向。為了全面理解大語言模型在面對對話層級幻覺時的表現(xiàn),HalluDial設(shè)計了自發(fā)性幻覺和誘導(dǎo)性幻覺兩類場景,涵蓋了事實性幻覺和忠實性幻覺兩類主要類型。HalluDial數(shù)據(jù)集包含18,357T/ISC0076—2024輪對話,共有146,856條數(shù)據(jù)樣例和相應(yīng)的幻覺評估結(jié)果;評估結(jié)果包含幻覺檢測、幻覺定位以及佐證檢測結(jié)果的解釋說明。B.2行業(yè)評估數(shù)據(jù)集行業(yè)評估數(shù)據(jù)集除了包含行業(yè)知識等公開數(shù)據(jù)外,可能還會包含行業(yè)專有數(shù)據(jù)甚至敏感信息,因此多為閉源或私有數(shù)據(jù)集,較少通過公開渠道開放,一般由行業(yè)企業(yè)或相關(guān)行業(yè)平臺、協(xié)會等組織在有保密協(xié)議等約束條件下對外受限提供或共建共享。例如,依托“智慧網(wǎng)絡(luò)”國家新一代人工智能開放創(chuàng)新平臺,中國移動持續(xù)推進體系化網(wǎng)絡(luò)數(shù)據(jù)集開放,圍繞網(wǎng)元智能、運維智能、服務(wù)智能三大領(lǐng)域,開放31項5億規(guī)模網(wǎng)絡(luò)智能精品數(shù)據(jù)集,包括感知、診斷、預(yù)測、決策、通用AI、網(wǎng)絡(luò)大模型等能力領(lǐng)域,支撐行業(yè)網(wǎng)絡(luò)AI能力研發(fā)。T/ISC0076—2024(資料性)通信行業(yè)評
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 跨境電商獨立站服務(wù)器安裝協(xié)議2025
- 初級應(yīng)急救護考試試題及答案
- 2025-2026人教版小學(xué)三年級音樂上學(xué)期期末測試卷
- 融資融券開戶試題及答案
- 2025-2026人教版二年級語文期末測試卷
- 2025-2026七年級上學(xué)期道德與法治測試
- 面包店衛(wèi)生系統(tǒng)管理制度
- 小學(xué)衛(wèi)生院規(guī)章制度
- 某機關(guān)衛(wèi)生管理制度
- 環(huán)境衛(wèi)生管理制度及流程
- 《筑牢安全防線 歡度平安寒假》2026年寒假安全教育主題班會課件
- 2026國家國防科技工業(yè)局所屬事業(yè)單位第一批招聘62人備考題庫及答案詳解(新)
- 信息技術(shù)應(yīng)用創(chuàng)新軟件適配測評技術(shù)規(guī)范
- 2026版安全隱患排查治理
- 道路施工安全管理課件
- 肉瘤的課件教學(xué)課件
- VTE患者并發(fā)癥預(yù)防與處理
- 車輛救援合同協(xié)議書
- 貴州省遵義市匯川區(qū)2024-2025學(xué)年八年級上學(xué)期12月期末數(shù)學(xué)試題
- UWB定位是什么協(xié)議書
- 第三終端藥品銷售技巧
評論
0/150
提交評論