標(biāo)準解讀
《GB/T 45288.2-2025 人工智能 大模型 第2部分:評測指標(biāo)與方法》是針對人工智能領(lǐng)域中大模型的評估制定的一套標(biāo)準。該標(biāo)準旨在為行業(yè)內(nèi)提供一個統(tǒng)一、科學(xué)且可操作性強的大模型性能評價體系,涵蓋多個維度以全面反映模型的能力與局限性。
在內(nèi)容結(jié)構(gòu)上,首先定義了大模型的基本概念及其應(yīng)用場景范圍,明確了本標(biāo)準適用的對象類型。接著,詳細列出了用于衡量大模型質(zhì)量的關(guān)鍵指標(biāo),這些指標(biāo)可能包括但不限于準確性(Accuracy)、魯棒性(Robustness)、效率(Efficiency)、泛化能力(Generalization Ability)等,并對每一項指標(biāo)給出了具體的描述和計算方式。
此外,《GB/T 45288.2-2025》還提出了一系列標(biāo)準化的測試方法來驗證上述各項指標(biāo)的表現(xiàn)情況,比如通過設(shè)計特定的數(shù)據(jù)集進行基準測試(Benchmarking),利用交叉驗證(Cross-validation)技術(shù)提高結(jié)果可靠性等。同時,對于如何構(gòu)建合適的測試環(huán)境也給出了指導(dǎo)性意見,確保不同機構(gòu)之間能夠基于相同條件開展公平比較。
最后,為了保證評測過程的透明度及結(jié)果的有效性,該文件強調(diào)了文檔記錄的重要性,要求參與評測的所有方需詳細記錄實驗設(shè)置、數(shù)據(jù)來源、處理流程等信息,以便于他人復(fù)現(xiàn)研究或進一步分析。
如需獲取更多詳盡信息,請直接參考下方經(jīng)官方授權(quán)發(fā)布的權(quán)威標(biāo)準文檔。
....
查看全部
- 現(xiàn)行
- 正在執(zhí)行有效
- 2025-02-28 頒布
- 2025-02-28 實施
文檔簡介
ICS35240
CCSL.70
中華人民共和國國家標(biāo)準
GB/T452882—2025
.
人工智能大模型
第2部分評測指標(biāo)與方法
:
Artificialintelligence—Large-scalemodel—
Part2Testinandevaluationformetricsandmethods
:g
2025-02-28發(fā)布2025-02-28實施
國家市場監(jiān)督管理總局發(fā)布
國家標(biāo)準化管理委員會
GB/T452882—2025
.
目次
前言
…………………………Ⅲ
引言
…………………………Ⅴ
范圍
1………………………1
規(guī)范性引用文件
2…………………………1
術(shù)語和定義
3………………1
縮略語
4……………………1
評測指標(biāo)
5…………………1
理解能力評測指標(biāo)
5.1…………………1
生成能力評測指標(biāo)
5.2…………………8
評測方法
6…………………11
概述
6.1…………………11
評測數(shù)據(jù)集
6.2…………………………14
評測環(huán)境
6.3……………14
評測工具
6.4……………14
評測實施
6.5……………14
附錄資料性評測指標(biāo)計算方法
A()……………………17
客觀評測方法
A.1……………………17
主觀評測方法
A.2……………………18
參考文獻
……………………21
Ⅰ
GB/T452882—2025
.
前言
本文件按照標(biāo)準化工作導(dǎo)則第部分標(biāo)準化文件的結(jié)構(gòu)和起草規(guī)則的規(guī)定
GB/T1.1—2020《1:》
起草
。
本文件是人工智能大模型的第部分已經(jīng)發(fā)布了以下部分
GB/T45288《》2。GB/T45288:
第部分通用要求
———1:;
第部分評測指標(biāo)與方法
———2:;
第部分服務(wù)能力成熟度評估
———3:。
請注意本文件的某些內(nèi)容可能涉及專利文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任
。。
本文件由全國信息技術(shù)標(biāo)準化技術(shù)委員會提出并歸口
(SAC/TC28)。
本標(biāo)準起草單位中國電子技術(shù)標(biāo)準化研究院上海人工智能創(chuàng)新中心中國科學(xué)院自動化研究所
:、、、
螞蟻科技集團股份有限公司北京航空航天大學(xué)清華大學(xué)杭州聯(lián)匯科技股份有限公司中國鐵建股份
、、、、
有限公司北京百度網(wǎng)訊科技有限公司中國南方電網(wǎng)有限責(zé)任公司中國移動通信有限公司研究院
、、、、
國家能源投資集團有限責(zé)任公司信息技術(shù)分公司華為云計算技術(shù)有限公司上海商湯智能科技有限公
、、
司阿里云計算有限公司深圳市騰訊計算機系統(tǒng)有限公司北京奇虎科技有限公司北京智源人工智能
、、、、
研究院中鐵第五勘察設(shè)計院集團有限公司北京智譜華章科技有限公司浪潮云信息技術(shù)股份公司科
、、、、
大訊飛股份有限公司中國電力科學(xué)研究院有限公司天津大學(xué)中國電信股份有限公司研究院中央廣
、、、、
播電視總臺北京百川智能科技有限公司同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司北京中關(guān)村實驗室上
、、、、
海市人工智能行業(yè)協(xié)會南方電網(wǎng)科學(xué)研究院有限責(zé)任公司西安電子科技大學(xué)西南科技大學(xué)哈爾濱
、、、、
工業(yè)大學(xué)中國科學(xué)院軟件研究所北京大學(xué)武漢人工智能研究院青島海信電子技術(shù)服務(wù)有限公司
、、、、
北京格靈深瞳信息技術(shù)股份有限公司北京工業(yè)大學(xué)南方電網(wǎng)人工智能科技有限公司中國電信集團
、、、
有限公司天翼云科技有限公司北京軟件產(chǎn)品質(zhì)量檢測檢驗中心有限公司北京世紀好未來教育科技
、、、
有限公司北京小米移動軟件有限公司北京智芯微電子科技有限公司中國移動通信集團有限公司云
、、、、
知聲智能科技股份有限公司北京中關(guān)村科金技術(shù)有限公司青島海爾科技有限公司杭州海康威視數(shù)
、、、
字技術(shù)股份有限公司京東方科技集團股份有限公司昆侖數(shù)智科技有限責(zé)任公司浪潮電子信息產(chǎn)業(yè)
、、、
股份有限公司浪潮軟件科技有限公司馬上消費金融股份有限公司鵬城實驗室平頭哥上海半導(dǎo)體
、、、、()
技術(shù)有限公司麒麟合盛網(wǎng)絡(luò)技術(shù)股份有限公司山東浪潮科學(xué)研究院有限公司山東省人工智能研究
、、、
院上海計算機軟件技術(shù)開發(fā)中心上海人工智能研究院有限公司北京安聲科技有限公司上海燧原科
、、、、
技股份有限公司上海天數(shù)智芯半導(dǎo)體有限公司深圳前海微眾銀行股份有限公司深圳思謀信息科技
、、、
有限公司西北工業(yè)大學(xué)西門子中國有限公司云從科技集團股份有限公司上海文鰩信息科技有限
、、()、、
公司浙江大華技術(shù)股份有限公司萬達信息股份有限公司上海玄武信息科技有限公司中移互聯(lián)網(wǎng)有
、、、、
限公司四川長虹電子控股集團有限公司
、。
本標(biāo)準主要起草人董建徐洋鮑薇陳愷汪群博馬騁昊孫曦宋文林劉祥龍?zhí)战ㄈA趙天成
:、、、、、、、、、、、
黃現(xiàn)翠孫傳興馬珊珊李棟于佃海龍云劉偉東經(jīng)迪春鄭子木蔣慧彭駿濤胡智超張向征
、、、、、、、、、、、、、
楊熙鄭中馮濤鄭佳佳劉聰周飛陳晰李建欣熊德意楊明川王峰梅劍平陳煒鵬張宏偉
、、、、、、、、、、、、、、
張松陽彭晉劉靜劉艾杉王嘉凱高東輝馬同森張?zhí)炝馗哞F柱陳曦梁志宏何剛俞文心
、、、、、、、、、、、、、
楊沐昀孟令中朱貴波王金橋鄭若琳沈芷月聶簡荻任海峰石羨吳璽宏劉尚劉衛(wèi)衛(wèi)石聰聰
、、、、、、、、、、、、、
丁鵬劉小歐項超薛德軍王龍躍劉微胡全一孫浩源孫林趙必美玄日成趙春昊索思亮
、、、、、、、、、、、、、
陳立明蔣屹新武姍姍高鵬軍孔昊薛云志劉子韜于磊鄭哲鄧超梁家恩崔明飛鄂磊任燁
、、、、、、、、、、、、、、
Ⅲ
GB/T452882—2025
.
張志剛陳宏志吳韶華王珂琛馮月李睿李晉偉龍震岳高慧張旭段強單珂陳敏剛宋海濤
、、、、、、、、、、、、、、
劉益帆王思善余雪松李斌張馳張濤生若谷孫進芮子文孔維生童慶楊登峰孫文慶朱林
、、、、、、、、、、、、、、
楊蘭
。
Ⅳ
GB/T452882—2025
.
引言
大模型已成為人工智能發(fā)展的重要技術(shù)手段在引領(lǐng)產(chǎn)業(yè)變革中發(fā)揮重要作用國內(nèi)外人工智能相
,,
關(guān)機構(gòu)相繼研究開發(fā)百余種大模型產(chǎn)品和評測榜單導(dǎo)致用戶難以有效評測人工智能產(chǎn)品的技術(shù)水平
,
和服務(wù)能力人工智能大模型旨在規(guī)定通用大模型的技術(shù)要求評測指標(biāo)和服務(wù)能
。GB/T45288《》、
力擬由五個部分構(gòu)成
,。
第部分通用要求目的在于確立大模型的參考架構(gòu)規(guī)定通用技術(shù)要求
———1:。,。
第部分評測指標(biāo)與方法目的在于確立大模型的評測指標(biāo)描述評測方法
———2:。,。
第部分服務(wù)能力成熟度評估目的在于給出大模型服務(wù)能力成熟度等級及評估方法
———3:。。
第部分計算機視覺大模型目的在于定義計算機視覺大模型的概念和功能規(guī)定技術(shù)要求
———4:。,
和測試方法
。
第部分多模態(tài)大模型目的在于定義多模態(tài)大模型的概念和功能規(guī)定技術(shù)要求和測試
———5:。,
方法
。
Ⅴ
GB/T452882—2025
.
人工智能大模型
第2部分評測指標(biāo)與方法
:
1范圍
本文件確立了人工智能大模型的評測指標(biāo)描述了人工智能大模型的評測方法
,。
本文件適用于模型提供者應(yīng)用服務(wù)者和應(yīng)用消費者等對大模型能力進行評估與測試也適用于指
、,
導(dǎo)大模型的設(shè)計開發(fā)應(yīng)用
、、。
2規(guī)范性引用文件
溫馨提示
- 1. 本站所提供的標(biāo)準文本僅供個人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
- 2. 本站所提供的標(biāo)準均為PDF格式電子版文本(可閱讀打?。驍?shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
- 3. 標(biāo)準文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質(zhì)量問題。
最新文檔
- 村衛(wèi)生檢查評分制度
- 開園前消毒衛(wèi)生管理制度
- 大通衛(wèi)生院請銷假制度
- 讀書協(xié)會財務(wù)制度
- 會計面試財務(wù)制度
- 村周末衛(wèi)生大掃除制度
- 農(nóng)技站財務(wù)制度
- 口腔診所衛(wèi)生規(guī)章制度
- 酒店衛(wèi)生質(zhì)量考核制度
- 公司衛(wèi)生管理制度大全
- GB/T 46559-2025二氧化碳地質(zhì)封存場地評價指標(biāo)體系
- DB11∕T 2490-2025 文物保護單位無障礙設(shè)施設(shè)置規(guī)范
- 2026年數(shù)據(jù)服務(wù)企業(yè)數(shù)據(jù)交易合規(guī)培訓(xùn)課件與數(shù)據(jù)變現(xiàn)風(fēng)控
- 填飼對鵝肝膽固醇合成相關(guān)基因表達的影響:基于分子機制與生理響應(yīng)的研究
- 2025年關(guān)于落實全面從嚴治黨主體責(zé)任情況的自查報告
- 開發(fā)票運輸合同范本
- 臨床正確標(biāo)本采集規(guī)范
- 基金通道業(yè)務(wù)合同協(xié)議
- 交通銀行理財合同范本
- 標(biāo)準化咨詢服務(wù)方案
- 林業(yè)結(jié)構(gòu)化面試題庫及答案
評論
0/150
提交評論