中文大模型基準(zhǔn)測評2025年5月報(bào)告

上傳人：L*** IP屬地：江蘇上傳時間：2025-07-09 格式：PPTX 頁數(shù)：37 大?。?4.47MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中文大模型基準(zhǔn)測評2025年5月報(bào)告—2025中文大模型階段性進(jìn)展5月評估Super

CLUE團(tuán)隊(duì)2025

28精準(zhǔn)量化通用人工智能（AGI）進(jìn)展，定義人類邁向AGI的路線圖Accurately

quantifying

the

progress

AGI,defining

the

roadmap

for

humanity's

journey

towards

AGI.一、2025上半年度關(guān)鍵進(jìn)展及趨勢2025年上半年大模型關(guān)鍵進(jìn)展2025年最值得關(guān)注的中文大模型全景圖2025年國內(nèi)外大模型差距二、5月通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式各維度測評說明及示例測評模型列表三、總體測評結(jié)果與分析SuperCLUE模型象限SuperCLUE通用能力測評榜單SuperCLUE-Agent：智能體測評分析SuperCLUE性價比區(qū)間分布SuperCLUE大模型綜合效能區(qū)間分布國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單報(bào)

告

目

錄報(bào)告摘要（一）o4-mini(high)總分穩(wěn)居第一，綜合能力全面領(lǐng)先o4-mini(high)在本次5月測評中表現(xiàn)優(yōu)異，總分達(dá)到70.51分，超過國內(nèi)最好模型7.35分。該模型在推理、代碼生成、智能體、指令遵循等多個方面表現(xiàn)出卓越的綜合能力，特別是在代碼生成（91.52）、指令遵循（68.07）方面得分較高。國內(nèi)推理模型嶄露頭角，部分領(lǐng)域優(yōu)勢突出Doubao-1.5-thinking-pro-205415

、Sense

Nova

Reasoner等國內(nèi)模型表現(xiàn)亮眼。其中，D

o-1.5-t

g-p

o-2

在文本創(chuàng)作與理解任務(wù)以

81.04的高分領(lǐng)先其他模型。國內(nèi)大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在國內(nèi)模型中指令遵循得分第一，為36.97分，但是與海外模型指令遵循得分第一的o4-mini(high)相比，差距達(dá)到了31.1分，國內(nèi)模型在指令遵循方面表現(xiàn)較弱，還有較大的提升空間。小參數(shù)模型表現(xiàn)超出預(yù)期多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是Qwen3系列，其中4B、8B和14B版本在推理任務(wù)上的分?jǐn)?shù)均超過50分，超越了眾多閉源大模型。3報(bào)告摘要（二）大模型性價比區(qū)間分布大模型推理效能區(qū)間分布4數(shù)據(jù)來源：S

，2

年5

月2

日；推理任務(wù)得分為推理任務(wù)總分：數(shù)學(xué)推理、科學(xué)推理和代碼的平均分。開源模型如Q

3-3

B(T

g)使用方式為A

，價格信息均來自官方信息。注：部分模型A

的價格是分別基于輸入和輸出的t

數(shù)量確定的。這里我們依照輸入t

與輸出t

3:1

的比例來估算其整體價格。價格信息取自官方在5

月的標(biāo)準(zhǔn)價格（非優(yōu)惠價格）。數(shù)據(jù)來源：S

，2

年5

月2

日；模型推理速度選取5

月測評中具有公開A

的模型。平均推理時間為所有測評數(shù)據(jù)推理時間的平均值（秒）。推理任務(wù)得分為推理任務(wù)總分：數(shù)學(xué)推理、科學(xué)推理和代碼生成的平均分。第一部分2025上半年度關(guān)鍵進(jìn)展及趨勢2025年上半年大模型關(guān)鍵進(jìn)展2025年最值得關(guān)注的中文大模型全景圖2025年國內(nèi)外大模型差距時間躍進(jìn)期2025上半年大模型關(guān)鍵進(jìn)展2022.122023.062024.062024.12

2025.062023.12深化期準(zhǔn)備期繁榮期

Chat

GPT發(fā)布，全球范圍內(nèi)迅速形成大模型共識。

GPT

4發(fā)布，進(jìn)一步掀起大模型研發(fā)熱潮。

國內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言1.0、通義千問、訊飛星火、

0智腦、C

M等首批模型相繼發(fā)布。

I發(fā)布S

，極大拓展了AI在視頻領(lǐng)域的想象力。

T-4

o、C

3.5、

1.5、Ll

ama

3發(fā)布，海外進(jìn)入“一超多強(qiáng)”的競爭格局。

國內(nèi)多模態(tài)領(lǐng)域進(jìn)展迅速，在部分領(lǐng)域領(lǐng)先海外。視頻生成模型可靈A

I、海螺視頻、v

u、

e等模型陸續(xù)發(fā)布，并在海外取得較大應(yīng)用進(jìn)展。

國內(nèi)通用模型持續(xù)提升。

Qwen

2.5、文心4.0、GLM

4、商量5.5等通用模型陸續(xù)更新。

I發(fā)布o(jì)

1系列模型、o

3系列模型和G

PT-4.5

，前者推動成本效益推理，后者展現(xiàn)出較高的情感智能。

e發(fā)布G

2.0系列模型，推出De

深度研究功能以及眾多海外推理模型的發(fā)布引發(fā)熱潮，推理性能大幅度提升。

國內(nèi)推理模型持續(xù)跟進(jìn)。K

h、D

k-R

1-L

e、

Q-3

B-P

w、G

M-

o-P

w等推理模型陸續(xù)發(fā)布，繼續(xù)突破推理能力的上限。

2開源，極大助力全球大模型開發(fā)者生態(tài)。

T-4

o、G

等海外大模型發(fā)布，繼續(xù)提升模型性能。

國內(nèi)閉源大模型快速發(fā)展。豆包、混元、商量3.0、盤古3.0、

T、B

M、星火

3.0等陸續(xù)發(fā)布。國內(nèi)開源生態(tài)爆發(fā)。Bai

chuan、Q

n、I

M、

Chat

GLM

3、Yi-34

B等系列模型引領(lǐng)開源熱潮。自2022年11月30日ChatGPT發(fā)布以來，AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)外AI機(jī)構(gòu)在過去2年半有了實(shí)質(zhì)性的突破。具體可分為：準(zhǔn)備期、躍進(jìn)期、繁榮期、深化期和融合期。SuperCLUE：AI大模型2025上半年關(guān)鍵進(jìn)展融合期關(guān)鍵進(jìn)展

頂級大模型能力邊界持續(xù)突破。

3、o

4-m

i、G

2.5系列、C

4系列模型相繼推出。

國內(nèi)外大模型差距顯著縮小，國內(nèi)模型實(shí)現(xiàn)彎道超車。

k-R

1通過開源與性價比優(yōu)勢推動普惠AI時代到來。國內(nèi)廠商普遍加速迭代，開源成為主流策略。在Deep

Seek-R

1、

n系列模型開源后，國內(nèi)眾多廠商加入開源行列。

I智能體潛力被深度挖掘，向通用人工智能（

）愿景邁進(jìn)。

s、A

M沉思、

Gens

par

k、Fel

ou、扣子空間、天工超級智能體等A

t產(chǎn)品紛紛涌現(xiàn)，加速AGI進(jìn)程。6納米AI超級搜索文本文生圖字節(jié)豆包AndesGPT通用閉源通用開源多模態(tài)文生視頻視覺理解行業(yè)醫(yī)療MindGPT螞蟻金融大模型軒轅大模型奇智孔明AInno-15B汽車教育金融工業(yè)妙想金融大模型營銷GLM-4v百川AI全科醫(yī)生醫(yī)聯(lián)M

T百度靈醫(yī)極氪Kr大模型易車大模型華為盤古工業(yè)大模型羚羊工業(yè)大模型其他妙筆大模型法律深勢分子大模型實(shí)時交互智譜清言星火極速通義APPSenseChat-VisionTeleChat2-35B語音合成/聲音復(fù)刻百度T

S訊飛語音合成CosyVoice推理DeepSeek-R1K1.5長思考360gpt2-o1.5SuperCLUE：2025年最值得關(guān)注的中文大模型全景圖Hunyuan-LargeMiniMax-01智能體深度研究Deep

Research通用閉源通用開源文心X1

TurboGLM4

Z1系列H

1隨時問快對得理法搜案牘AI豆包愛學(xué)......沉思深入研究小白研圖生視頻Speech-02天工超級智能體2025年國內(nèi)外大模型差距模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月25年3月25年5月GPT最新模型（GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5、o3、o4-mini）76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.476.0170.51國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.370.3463.16國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.366.3862.96國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.464.6961.94總體趨勢上，國內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在縮小。2023年5月至今，國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GPT3.5、GPT4、GPT4-Turbo、GPT4o、o

1、o

3-mini、GPT-4.5、o

3、o

4-mini的多個版本的迭代升級。國內(nèi)模型也經(jīng)歷了波瀾壯闊的25

個月的迭代周期。但隨著o

4-mini的發(fā)布，差距從7.46%增加至10.42%。SuperCLUE基準(zhǔn)：過去25個月國內(nèi)外TOP大模型對比趨勢國內(nèi)外Top1模型差距分?jǐn)?shù)國內(nèi)外Top1模型差距比例來源：Super

CLUE,2023

年5

月～

2025

年5

月，期間發(fā)布的16

次大模型基準(zhǔn)測評報(bào)告。8第二部分5月通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式各維度測評說明及示例測評模型列表SuperCLUE是大模型時代背景下CLUE基準(zhǔn)的發(fā)展和延續(xù)，是獨(dú)立、領(lǐng)先的通用大模型的綜合性測評基準(zhǔn)。中文語言理解測評基準(zhǔn)C

（

eLanguage

Understanding

Evaluation）

發(fā)起于2019年，陸續(xù)推出過CLUE、Few

CLUE、Zero

CLUE等廣為引用的測評基準(zhǔn)。2019

2020

2021

2022

2023

2024.01-06

2024.07-12

2024.12-2025.03

2025.03-050數(shù)據(jù)污染每2個月題庫100%替換題目100%原創(chuàng)傳統(tǒng)測評SuperCLUE易數(shù)據(jù)污染學(xué)術(shù)視角與應(yīng)用側(cè)較大偏差維度固定陳舊無法與時俱進(jìn)VSSuperCLUE三大特征產(chǎn)業(yè)+用戶視角SuperCLUE與傳統(tǒng)測評的區(qū)別維度Live更新題目固定

過擬合風(fēng)險高010203“Live”更新，0數(shù)據(jù)污染測評方式與用戶交互一致獨(dú)立第三方，無自家模型測評題庫每2個月1

0%替換且全部原創(chuàng)，杜絕過擬合風(fēng)險。體系維度根據(jù)大模型進(jìn)展Live更新。測評方法與用戶交互方式保持一致，測評任務(wù)貼近真實(shí)落地場景，高度還原用戶視角。完全獨(dú)立的第三方評測機(jī)構(gòu)，不研發(fā)自家模型。承諾提供無偏倚的客觀、中立評測結(jié)果。Super

CLUE基準(zhǔn)介紹CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文，并承辦了NLPCC2020開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布

DataCentricAI；發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個通用

大模型測評基準(zhǔn)

SuperCLUE正式發(fā)布發(fā)布首個中文多輪開放式發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn)；發(fā)布文生視頻、文測評基準(zhǔn)SuperCLUE-Open；生圖、視覺理解等發(fā)布行業(yè)測評基準(zhǔn) 多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手等

AI應(yīng)用測評基準(zhǔn)；發(fā)布鏈?zhǔn)酵评淼?/p>

推理測評基準(zhǔn)；發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE開源Math24o高中奧林匹克數(shù)學(xué)競賽測評集；發(fā)布新版文生圖、圖生視頻、視覺推理等中文測評基準(zhǔn)；發(fā)布中文通用AI智能體測評基準(zhǔn)AgentCLUE-General；發(fā)布中文大模型幻覺測評系列基準(zhǔn)發(fā)布數(shù)學(xué)競賽、科學(xué)推理、項(xiàng)目級代碼生成等推理測評基準(zhǔn)；發(fā)布實(shí)時音視頻、視覺語言多模態(tài)測評基準(zhǔn)

發(fā)布DeepSeek第三方平臺性能基準(zhǔn)10基于大模型技術(shù)和應(yīng)用發(fā)展趨勢、以及基準(zhǔn)測評專業(yè)經(jīng)驗(yàn)，Super

CLUE構(gòu)建出多領(lǐng)域、多層次的大模型綜合性測評基準(zhǔn)框架。從基礎(chǔ)到應(yīng)用覆蓋：通用基準(zhǔn)體系、文本專項(xiàng)系列基準(zhǔn)、多模態(tài)系列基準(zhǔn)、推理系列基準(zhǔn)、Agent系列基準(zhǔn)、AI應(yīng)用基準(zhǔn)、性能系列基準(zhǔn)。為產(chǎn)業(yè)、學(xué)術(shù)和研究機(jī)構(gòu)的大模型研發(fā)提供重要參考。S

大模型綜合測評基準(zhǔn)框架已發(fā)布即將發(fā)布Super

CLUE大模型綜合測評體系長文本SuperCLUE-Long超長文本SuperCLUE-200K角色扮演SuperCLUE-Role多輪對抗安全SuperCLUE-Safety視頻文生視頻SuperCLUE-T2V圖像/視覺實(shí)時音視頻交互SuperCLUE-Live文生圖SuperCLUE-Image語音實(shí)時語音交互SuperCLUE-Voice語音合成SuperCLUE-TTS多模態(tài)視覺語言SuperCLUE-VLM通用可執(zhí)行智能體AgentCLUE終端智能體行業(yè)智能體零售教育醫(yī)療...不可執(zhí)行智能體SuperCLUE-Agent手機(jī)PC眼鏡...數(shù)學(xué)推理科學(xué)推理代碼生成智能體Agent精確指令遵循文本理解與創(chuàng)作AI產(chǎn)品AI搜索

SuperCLUE-AISearch代碼助手SuperCLUE-Coder行業(yè)金融SuperCLUE-Fin工業(yè)SuperCLUE-Industry汽車SuperCLUE-Auto智能座艙SuperCLUE-Icabin實(shí)時音視頻SuperCLUE-Live通用基準(zhǔn) 文本專項(xiàng)基準(zhǔn) 多模態(tài)基準(zhǔn) 推理基準(zhǔn)

Agent基準(zhǔn) 應(yīng)用基準(zhǔn)視覺推理SuperCLUE-VLR科學(xué)推理SuperCLUE-Science全國高中數(shù)學(xué)競賽MathCLUE項(xiàng)目級代碼SuperCLUE-Project鏈?zhǔn)酵评鞸uperCLUE-COT小學(xué)奧數(shù)SuperCLUE-Math6o代碼SuperCLUE-Code3數(shù)學(xué)多步推理SuperCLUE-Math6性能基準(zhǔn)深度研究DeepResearchDeepSeek-R1系列DeepSeek-R1第三方聯(lián)網(wǎng)搜索

能力測試（網(wǎng)頁端）DeepSeek-R1第三方穩(wěn)定性測試（App端）DeepSeek-R1第三方穩(wěn)定性測試（API端）DeepSeek-R1第三方穩(wěn)定性測試（網(wǎng)頁端）其余系列注：通用基準(zhǔn)介紹可在報(bào)告中查看，其余基準(zhǔn)可點(diǎn)擊對應(yīng)鏈接跳轉(zhuǎn)至最新的發(fā)布文章。檢索增強(qiáng)SuperCLUE-RAG聲音復(fù)刻SuperCLUE-Cloning中文通用AI智能體AgentCLUE-General幻覺事實(shí)性幻覺SuperCLUE-Fact忠實(shí)性幻覺SuperCLUE-Faith圖生視頻SuperCLUE-I2V開源數(shù)據(jù)集Math24o競賽級別代碼研究生級別數(shù)學(xué)大模型推理速度測評11Super

CLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式1.數(shù)學(xué)推理介紹：主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)等競賽級別數(shù)據(jù)集。評價方式：基于人工校驗(yàn)參考答案的評估（0-1得

分）2.科學(xué)推理介紹：主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。評價方式：基于人工校驗(yàn)參考答案的評估（0-1得

分）3.代碼生成介紹：主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。HumanEval的中文升級版，涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。評價方式：基于代碼單元測試的評估（0-1得分）4.智能體Agent介紹：主要考察在中文場景下基于可執(zhí)行的環(huán)境，

LLM作為執(zhí)行代理，在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型：常規(guī)單輪對話和常規(guī)多輪對話。評價方式：結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評

估（0-1得分）5.精確指令遵循介紹：主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價方式：基于規(guī)則腳本的評估（0-1得分）本次2025年5月報(bào)告聚焦通用能力測評，由六大維度構(gòu)成。題目均為原創(chuàng)新題，總量為1579

道多輪簡答題?！維uper

CLUE通用數(shù)據(jù)集】共有數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創(chuàng)作六大任務(wù)；【Super

CLUE評價方式】分為基于人工校驗(yàn)參考答案的評估（

0-1

得分）、基于代碼單元測試的評估（

0-1

得分）、結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估（

0-1

得分）、基于規(guī)則腳本的評估（

0-1

得分）、人工校驗(yàn)參考答案的、多維度評價標(biāo)準(zhǔn)的評估。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價方式6.文本理解與創(chuàng)作介紹：主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。評價方式：人工校驗(yàn)參考答案的、多維度評價標(biāo)準(zhǔn)

的評估12各維度測評說明及示例——數(shù)學(xué)推理測評說明SuperCLUE-數(shù)學(xué)推理評測數(shù)據(jù)集測評方法評測流程：我們采用模型評價的方式來評估大模型在【數(shù)學(xué)推理】任務(wù)上的表現(xiàn)，使用高級模型（如gpt4o）判斷其回答中的最終答案和參考答案是否相符，以確認(rèn)大模型在一道問題上的正確率（正確或錯誤，即0或1）。以【代數(shù)學(xué)】任務(wù)為例，假設(shè)在一個具體的題目中，模型A的最終答案與參考答案等價，則該題目的具體得分為1分；反之，假設(shè)在另一個具體的題目中，模型A的最終答案與參考答案不等價，則該題目的具體得分為0分。最后，將所有題目的得分進(jìn)行歸一化處理，以確保滿分為100分。這樣最終的得分可以清晰地反映模型在【數(shù)學(xué)推理】任務(wù)中的表現(xiàn)。這一方法實(shí)現(xiàn)了完全的客觀評估性。示例-數(shù)學(xué)推理數(shù)學(xué)推理主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)等競賽級別數(shù)據(jù)集。問題：模型回答：評價打分：綜合以上，AI助手的回答的綜合得分（平均分）為[[1.00]]。13各維度測評說明及示例——科學(xué)推理測評說明SuperCLUE-科學(xué)推理評測數(shù)據(jù)集測評方法評測流程：我們采用模型評價的方式來評估大模型在【科學(xué)推理】任務(wù)上的表現(xiàn)，使用高級模型（如gpt4o）判斷其回答中的最終答案和參考答案是否相符，以確認(rèn)大模型在一道問題上的正確率（正確或錯誤，即0或1）。以【物理】任務(wù)為例，假設(shè)在一個具體的題目中，模型A的最終答案與參考答案等價，則該題目的具體得分為1分；反之，假設(shè)在另一個具體的題目中，模型A的最終答案與參考答案不等價，則該題目的具體得分為0分。最后，將所有題目的得分進(jìn)行歸一化處理，以確保滿分為100分。這樣最終的得分可以清晰地反映模型在【科學(xué)推理】任務(wù)中的表現(xiàn)。這一方法實(shí)現(xiàn)了完全的客觀評估性。示例-科學(xué)推理科學(xué)推理主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。問題：模型回答：評價打分：綜合以上，AI助手的回答的綜合得分（平均分）為[[1.00]]。14各維度測評說明及示例——代碼生成測評說明SuperCLUE-代碼生成評測數(shù)據(jù)集代碼生成主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。Human

Eval的中文升級版，涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。測評方法評測流程：整體測評流程包括：1.獲取模型答案；2.提取功能函數(shù)；3.測試功能函數(shù)；4.計(jì)算模型得分。獲取模型答案：使用特定的prompt要求模型按照特定格式回答，以方便后續(xù)提取。對于一個代碼補(bǔ)全問題，每個模型獲取一次答案。提取功能函數(shù)：獲取到模型回復(fù)之后，結(jié)合prompt要求和模型回答設(shè)定規(guī)則提取函數(shù)代碼。測試功能函數(shù)：對于一個代碼補(bǔ)全問題，將提取得到的代碼和該問題對應(yīng)的N個測試用例組裝成N個可獨(dú)立運(yùn)行的單元測試程序，在沙箱環(huán)境運(yùn)行（沙箱環(huán)境python版本設(shè)置為3.10）。計(jì)算模型得分：對于一個代碼補(bǔ)全問題和1個測試用例，構(gòu)成一個單元測試，通過測試得1分。最終計(jì)算模型在所有單元測試中得分平均分*100作為最終的得分。問題：import

itertoolsfrom

typing

import

List,

Any,Dictdef

candidate(programmers:

List[Dict[str,A

]

[

]

,team_size_k:

int)

List[int]:"""組建一個由恰好`team_size_k`名成員組成的編程競賽團(tuán)隊(duì)。<篇幅有限省略>輸出:-選定團(tuán)隊(duì)成員的'id'列表，按升序排列。如果無解，則為空列表。"""示例-代碼生成模型回答：import

itertoolsfrom

typing

import

List,

Any,Dictdef

candidate(programmers:

List[Dict[str,

Any]],required_skills:

List[str],

team_size_k:

int)

List[int]:n

len(programmers)best_synergy

None

best_ids:

List[int]

[]

required

=set(required_skills)<篇幅有限省略>elif

total

==best_synergy:ids

sorted(programmers[i]['id']

for

comb)if

ids

<best_ids:best_ids

idsreturn

best_ids

best_synergy

not

None

else

[]測試功能函數(shù)：defcheck(candidate):assert

candidate([{'id':

'skills':

['Python',

'AI'],

'synergy_scores':

[0,5,2]},

{'id':

'skills':

['Java','Web'],

'synergy_scores':

[5,0,3]},

{'id':

'skills':

['Python',

'DB'],

'synergy_scores':

[2,3,0]}],

['Python','Web'],

[0,

1]assert

candidate([{'id':0,'skills':['P'],'synergy_scores':[0,10]},{'id':1,'skills':['J'],'synergy_scores':[10,

0]}],['P','J'],2)

[0,1]assert

candidate([{'id':0,'skills':['P'],'synergy_scores':[0]}],['P'],2)

[]assert

candidate([],

['P'],

[]計(jì)算模型得分：測試通過，得1分。15各維度測評說明及示例——智能體Agent測評說明SuperCLUE-智能體Agent數(shù)據(jù)集智能體Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境，LLM作為執(zhí)行代理，在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型：常規(guī)單輪對話和常規(guī)多輪對話。測評方法示例-智能體Agent描述：??次Agent測評共包含10個API，??題用到一個API。車輛控制系統(tǒng)：該工具屬于車輛控制系統(tǒng)，允許用戶控制汽車的各個方面，如發(fā)動機(jī)、車門、空調(diào)、燈光等。prompt：你是一個組合函數(shù)完成任務(wù)的專家。你將會收到一個問題和一些可以調(diào)用的函數(shù)及其描述?；趩栴}，你需要調(diào)用一個或者多個函數(shù)來實(shí)現(xiàn)問題要求。對于問題中的計(jì)算需求，你必須調(diào)用提供的函數(shù)進(jìn)行計(jì)算，否則視為錯誤。如果使用你收到的函數(shù)無法完成問題要求，請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù)<篇幅有限省略>下面提供了一個列表，列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述，使用json格式<篇幅有限省略>【問題】：我想要知道北京和西安之間的距離。【模型回復(fù)1】：【函數(shù)調(diào)用開始】```[get_zipcode_based_on_city(city="北京"),get_zipcode_based_on_city(city="西安")]```

【函數(shù)調(diào)用結(jié)束】【模型得到的反饋1】：下面是根據(jù)你回復(fù)的函數(shù)調(diào)用執(zhí)行得到的結(jié)果,你可以據(jù)此判斷是否完成了用戶的需求。如果已經(jīng)完成，你可以停止回復(fù)函數(shù)調(diào)用，根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任務(wù)，你可以決定給出新的函數(shù)調(diào)用。下面是函數(shù)調(diào)用結(jié)果：第1個函數(shù)調(diào)用：get_zipcode_based_on_city(city='北京'),執(zhí)行返回結(jié)果為：{"zipcode":"352415"}第2個函數(shù)調(diào)用：get_zipcode_based_on_city(city='西安'),執(zhí)行返回結(jié)果為：{"zipcode":"541227"}注意：一旦你決定進(jìn)行函數(shù)調(diào)用，你的回復(fù)中只能包括函數(shù)調(diào)用。你的函數(shù)調(diào)用（functioncalls）必須嚴(yán)格遵循以下格式給出：“【函數(shù)調(diào)用開始】```[func_name1(params_name1=params_value1,params_name2=params_value2...),

func_name2(params)]```【函數(shù)調(diào)用結(jié)束】”，不應(yīng)該包括任何其他文???！灸Ｐ突貜?fù)2】：【函數(shù)調(diào)用開始】```[estimate_distance(cityA="352415",cityB="541227")]```

【函數(shù)調(diào)用結(jié)束】【模型得到的反饋2】：下面是根據(jù)你回復(fù)的函數(shù)調(diào)用執(zhí)行得到的結(jié)果,你可以據(jù)此判斷是否完成了用戶的需求。如果已

經(jīng)完成，你可以停止回復(fù)函數(shù)調(diào)用，根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任務(wù)，你可以決定給出新的函數(shù)調(diào)用。下面是函數(shù)調(diào)用結(jié)果：第1個函數(shù)調(diào)用：estimate_distance(cityA='352415',cityB='541227'),執(zhí)行返回結(jié)果為：{"distance":780.0}注意：一旦你決定進(jìn)行函數(shù)調(diào)用，你的回復(fù)中只能包括函數(shù)調(diào)用。你的函數(shù)調(diào)用（function

calls）必須嚴(yán)格遵循以下格式給出：“【函數(shù)調(diào)用開始】```[func_name1(params_name1=params_value

1,params_name

2=params_value

2...),

func_name2(params)]```【函數(shù)調(diào)用結(jié)束】”，不應(yīng)該包括任何其他文???！灸Ｐ突貜?fù)3】：北京和西安之間的距離約為780公里。??題共1輪問題，解決問題需要調(diào)用3次工具，模型的回答中3次工具調(diào)用均正確，則??輪回答正確，記1分。評測流程：每一題包含N輪對話，每一輪對話為一個記分單元，答對記1分。我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是否回復(fù)正確。評價維度包括：函數(shù)調(diào)用執(zhí)行結(jié)果、執(zhí)行后的系統(tǒng)狀態(tài)。對于每一輪模型回復(fù)的評價方法：獲取模型答案之后，從中提取可執(zhí)行的函數(shù)調(diào)用。執(zhí)行提取的函數(shù)調(diào)用得到執(zhí)行結(jié)果集1，以及執(zhí)行后的系統(tǒng)狀態(tài)1;執(zhí)行人類標(biāo)注的ground

truth(函數(shù)調(diào)用)得到執(zhí)行結(jié)果集2，系統(tǒng)狀態(tài)2；將執(zhí)行結(jié)果集1與執(zhí)行結(jié)果集2進(jìn)行比較，系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2進(jìn)行比較；如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集，系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模型的本輪回復(fù)正確，得1分。最后，計(jì)算答對的記分單元的比例，轉(zhuǎn)化為百分制得到模型的總分。即：模型得分=（答對的記分單元數(shù)量/記分單元總數(shù)量）*10016各維度測評說明及示例——精確指令遵循測評說明評測流程：我們完成了一個針對不同的語言模型的（文本輸出）精確指令遵循表現(xiàn)的測試，根據(jù)設(shè)定的評估標(biāo)準(zhǔn)進(jìn)行評估。評估的結(jié)果為布爾值（True

或False）。以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“二氧化碳”這個詞，字?jǐn)?shù)不少于10個字，以JSON格式返回】任務(wù)為例：設(shè)定的評價標(biāo)準(zhǔn)包括：遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會得到True的返回結(jié)果。例如：模型輸出結(jié)果1：{"response":"可再生能源在減少碳排放和減輕氣候變化方面起著關(guān)鍵作用，未來應(yīng)加快推廣。

"}符合所有要求，返回True。模型輸出結(jié)果2：{"response":"使用可再生能源可以減少二氧化碳排放。"}違背了關(guān)鍵詞限制，返回False。最后，我們將所有題目的評估結(jié)果進(jìn)行匯總，根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率，命中率以百分比為單位。具體來說，命中率計(jì)算公式為：命中率=(模型完全命中的題目數(shù)量÷總題目數(shù)量)*

100%SuperCLUE-精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法示例-精確指令遵循問題：近年來，隨著全球化的加速和國際貿(mào)易的擴(kuò)展，港口物流在現(xiàn)代經(jīng)濟(jì)中的地位日益重要。港口不僅是貨物進(jìn)出口的主要節(jié)點(diǎn)，也是地區(qū)經(jīng)濟(jì)發(fā)展的動力?，F(xiàn)代化港口包含多種設(shè)施，如貨運(yùn)碼頭、倉儲區(qū)域、集裝箱處理設(shè)備等，同時依賴復(fù)雜的信息系統(tǒng)進(jìn)行管理。然而，港口物流也面臨諸多挑戰(zhàn)，包括環(huán)保壓力、交通擁堵和技術(shù)更新需求。為了解這些挑戰(zhàn)并尋找解決方案，我們需要深入研究港口物流的各個方面，包括技術(shù)應(yīng)用、管理模式和未來發(fā)展趨勢。請撰寫一篇關(guān)于“港口物流未來技術(shù)趨勢”的分析文章。在文章中必須出現(xiàn)“自動化”、“綠色能源”和“信息化”這三個關(guān)鍵詞，每個關(guān)鍵詞必須至少出現(xiàn)3次。文章只能有4個段落（不要出現(xiàn)標(biāo)題），每個段落用“～～”符號分隔。第3段必須恰好由5個句子（句子用中文句號或中文問號或中文感嘆號分隔）組成。整篇文章只能有1

2個句子。請確保內(nèi)容結(jié)構(gòu)清晰，并對未來的技術(shù)趨勢進(jìn)行合理推測。模型回答：近年來，港口物流在全球供應(yīng)鏈中扮演著越來越重要的角色，推動了區(qū)域經(jīng)濟(jì)的快速發(fā)展。面對日益嚴(yán)峻的環(huán)保要求，越來越多港口開始引入綠色能源項(xiàng)目以減少碳排放。在此過程中自動化技術(shù)和信息化平臺成為提升作業(yè)效率的關(guān)鍵?！詣踊褕?、智能導(dǎo)航車輛和無人駕駛設(shè)備正在改造傳統(tǒng)碼頭作業(yè)流程，縮短了周轉(zhuǎn)時間并降低人力成??。同時，借助信息化手段實(shí)時監(jiān)控貨物流向，提高了資源利用率。～～智能港口將通過自動化設(shè)備實(shí)現(xiàn)全天候無人值守操作，從而大幅提升生產(chǎn)效率和作業(yè)安全。大規(guī)模部署的綠色能源系統(tǒng)如太陽能光伏和風(fēng)力發(fā)電正在為港口設(shè)施提供可靠的清潔動力，降低對化石燃料的依賴。信息化平臺與人工智能算法深度融合能夠優(yōu)化航線調(diào)度、貨柜追蹤及能耗管理，釋放更多數(shù)據(jù)價值。5G網(wǎng)絡(luò)和物聯(lián)網(wǎng)技術(shù)進(jìn)一步支撐了港口內(nèi)部的實(shí)時數(shù)據(jù)交換和遠(yuǎn)程控制，有助于精準(zhǔn)預(yù)測需求和資源配置。未來幾年，隨著區(qū)塊鏈技術(shù)的引入和大數(shù)據(jù)分析的普及，港口物流的透明度和協(xié)作水平將進(jìn)入新的高度?！嫦蛭磥恚劭趯⒊掷m(xù)融合自動化、信息化與綠色能源解決方案，朝著智能化、低碳和高效的方向邁進(jìn)。各方需加強(qiáng)技術(shù)研發(fā)與跨領(lǐng)域協(xié)同，才能確保港口物流系統(tǒng)的可持續(xù)發(fā)展和競爭優(yōu)勢。評價打分：??題存在三個精確指令考察：1）關(guān)鍵詞出現(xiàn)頻率；2）段落數(shù)量；3）句子數(shù)量。模型的回答符合要求，得一分。17各維度測評說明及示例——文本理解與創(chuàng)作測評說明SuperCLUE-文本理解與創(chuàng)作評測數(shù)據(jù)集測評方法評測流程：我們采用高級AI模型（例如GPT-4o）來評估不同任務(wù)的表現(xiàn)，根據(jù)設(shè)定的評價標(biāo)準(zhǔn)進(jìn)行打分（1-5分）。以【生成與創(chuàng)作】任務(wù)為例，設(shè)定的評價標(biāo)準(zhǔn)包括：符合基本要求、語言與邏輯連貫性、推理鏈條完整度。假設(shè)在一個具體的題目中，模型A的得分如下：符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整度5分。首先，我們計(jì)算這一題目的平均得分：因此，該題目的具體得分為4分。最后，將所有題目的得分進(jìn)行歸一化處理，以確保滿分為100分。這樣，每個任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。示例-文本理解與創(chuàng)作問題：請總結(jié)以下文??，形成摘要：我正經(jīng)過清風(fēng)橋，腳下的石板路面帶著一種古舊的溫潤感，被無數(shù)腳步打磨得光滑，卻又在縫隙里藏著青苔的濕意與歲月的低語。橋身并非全然的平坦，帶著一絲不易察覺的弧度向上微微拱起，仿佛是大地溫和的呼吸，引領(lǐng)著行人走向河流的中央，也走向視野的開闊處。欄桿是鐵藝的，纏繞著復(fù)古的卷草紋飾，油漆早已斑駁，露出底下暗紅色的鐵銹，像是一道道時光刻下的傷痕，卻也平添了幾分滄桑的韻味。我將手輕輕搭在冰涼的欄桿上，指尖能感受到那細(xì)微的震動，或許是橋下水流沖擊橋墩的回響，又或許是遠(yuǎn)處車流駛過橋面時傳遞而來的生命脈動。風(fēng)，確實(shí)如橋名一般，帶著清爽的氣息，從寬闊的江面上吹拂而來，撩動我的發(fā)梢，也試圖吹散心中那一點(diǎn)莫名的滯重感。<篇幅有限省略>模型回答：作者漫步清風(fēng)橋，細(xì)致描繪了橋的古舊韻味（光滑石板、微拱橋身、斑駁鐵藝欄桿）、周邊自然景致（碧綠江水、碎金般的陽光、薄霧中的城市天際線、掠過的水鳥）及兩岸對比（現(xiàn)代濱江公園的生活氣息與古舊民居的煙火味）。橋上行人百態(tài)（下棋老人、嬉鬧孩童、寫生學(xué)生等）與作者的駐足觀察交織，觸發(fā)對時光流轉(zhuǎn)、生活復(fù)雜的感悟——橋不僅是地理連接，更承載著時間的過往與未來、情感的此岸與彼岸。作者由此追憶少年時的憧憬，感慨當(dāng)下心境的平和，在江風(fēng)與流水的陪伴中，獲得心靈的澄明與前行的堅(jiān)定，最終帶著橋上的寧靜思考，重新融入生活。評價打分：打分與評價開始：基于標(biāo)準(zhǔn)1的符合基??要求：AI助手準(zhǔn)確回應(yīng)了用戶的問題，并圍繞文??內(nèi)容進(jìn)行了高度相關(guān)的總結(jié)?？偨Y(jié)結(jié)構(gòu)清晰，滿足用戶的提問意圖與需求。略微可以強(qiáng)化對某些細(xì)節(jié)的表達(dá)與隱含情感的深入梳理。得分：4.5分。基于標(biāo)準(zhǔn)2的事實(shí)正確性：AI助手整體回答的事實(shí)性較強(qiáng)，與原文??內(nèi)容一致，涵蓋了關(guān)鍵部分如橋上的細(xì)節(jié)描寫、兩岸的對比、行人百態(tài)與心靈感悟等。未發(fā)現(xiàn)明顯的事實(shí)錯誤，且表達(dá)符合文??意境要求。得分：5.0分?；跇?biāo)準(zhǔn)3的清晰度：回答語言表達(dá)流暢且清晰，條理明晰，閱讀起來易于理解?；卮痣m簡潔，但對于部分意象的表現(xiàn)力略顯不足，無法完全展現(xiàn)原文??感性的細(xì)膩美。可以補(bǔ)充一些具體的描述增強(qiáng)表現(xiàn)力。得分：4.0分。綜合以上，AI助手的回答的綜合得分（平均分）為[[4.50]]。文本理解與創(chuàng)作主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。18本次測評數(shù)據(jù)選取了Su

UE-5月測評結(jié)果，模型選取了國內(nèi)外有代表性的43個大模型在5月份的版本。測評模型列表模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介1.Qwen3-235B-A22B(Thinking)阿里巴巴官方發(fā)布的MoE推理模型，使用阿里云公開的API：qwen3-235b-a22b。24.Gemma-3-27b-itGoogleGemma3開源系列27B模型，使用官方API：gemma-3-27b-it。2.Qwen3-30B-A3B(Thinking)阿里巴巴官方發(fā)布的MoE推理模型，使用阿里云公開的API：qwen3-30b-a3b。25.Gemma-3-12b-itGoogleGemma3開源系列12B模型，使用官方API：gemma-3-12b-it。3.Qwen3-32B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型，使用阿里云公開的API：qwen3-32b。26.Gemma-3-4b-itGoogleGemma3開源系列4B模型，使用官方API：gemma-3-4b-it。4.Qwen3-14B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型，使用阿里云公開的API：qwen3-14b。27.Llama-4-Maverick-17B-128E-

Instruct-FP8Meta使用together.ai的接口：meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8。5.Qwen3-8B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型，使用阿里云公開的API：qwen3-8b。28.Llama-3.3-70B-InstructMeta使用together.ai的接口：meta-llama/Llama-3.3-70B-Instruct-Turbo。6.Qwen3-4B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型，使用阿里云公開的API：qwen3-4b。29.Llama-3.1-8B-InstructMeta使用together.ai的接口：meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo。7.Step-2-16k階躍星辰官方公開發(fā)布的API版本：step-2-16k。30.ChatGPT-4o-latestOpenAI與ChatGPT上的GPT-4o同版本，對應(yīng)OpenAI官方的API名稱:chatgpt-4o-latest。8.Sky-Chat-3.0昆侖萬維昆侖萬維發(fā)布的千億級別MOE

模型，使用官方的API接口。31.o4-mini(high)OpenAI使用方式為AZURE

OpenAI

Service的API接口，reasoning_effort參數(shù)設(shè)置為：high。9.GLM-4-Air-250414智譜AI官方發(fā)布的全新語言模型，使用官方的API：GLM-4-Air-250414。32.o3OpenAIOpenAI在2025年4月16日發(fā)布的最新推理模型o3，使用方式為POE：o3。10.GLM-Z1-AirX智譜AI官方發(fā)布的GLM-Z1系列推理模型，使用官方的API：GLM-Z1-AirX。33.360zhinao2-o1.5360官方提供的小范圍內(nèi)測版本，使用方式為API。11.GLM4_9B_Chat智譜AI官方開源的GLM-4-9B-Chat，對應(yīng)huggingface

倉庫名稱：THUDM/glm-4-9b-chat。34.grok-3-latestX.AIX.AI在2025年2月19日推出的模型版本，使用官方API，版本名稱為：grok-3-latest。12.DeepSeek-V3-0324深度求索深度求索在2025年3月24日發(fā)布的新版本V3模型，使用官方API：deepseek-chat。35.ERNIE-X1-Turbo-32K百度百度發(fā)布的深度思考模型，使用百度千帆的API，版本名稱為：ernie-x1-turbo-32k。13.DeepSeek-R1深度求索深度求索在2025年1月20日發(fā)布的開源推理模型，使用官方API：deepseek-reasoner。36.Pangu

Pro

MoE-72B-A16B華為官方提供的小范圍內(nèi)測版本，使用方式為API。見技術(shù)報(bào)告：/pdf/2505.21411。14.DeepSeek-R1-Distill-Qwen-32B深度求索基于Qwen2.5-32B的蒸餾模型，使用阿里云API：deepseek-r1-distill-qwen-32b。37.NebulaCoder-V6中興通訊官方提供的小范圍內(nèi)測版本，使用方式為API。15.Spark

X1科大訊飛科大訊飛發(fā)布的API版本：Spark

X1。38.MiniMax-Text-01MiniMax官方發(fā)布的新一代模型，使用方式為API，版本名稱為：MiniMax-Text-01。16.Spark4.0

Ultra科大訊飛科大訊飛發(fā)布的API版本：Spark4.0

Ultra。39.Hunyuan-T1-20250403騰訊官方發(fā)布的深度思考模型，使用方式為API：hunyuan-t1-20250403。17.kimi-latest月之暗面與Kimi智能助手產(chǎn)品使用的大模型同版本，使用API：kimi-latest。40.SenseNova

Reasoner商湯官方提供的小范圍內(nèi)測版本，使用方式為API。18.kimi-K1.5月之暗面月之暗面推出的推理模型，使用官網(wǎng)網(wǎng)頁（開啟“K1.5長思考”模式）。41.Yi-1.5-9B-Chat-16K零一萬物官方開源版本，huggingface

倉庫名稱：01-ai/Yi-1.5-9B-Chat-16K。19.Doubao-1.5-thinking-pro-250415字節(jié)跳動官方發(fā)布的深度思考模型，使用方式為API：doubao-1-5-thinking-pro-250415。42.Mistral-7B-Instruct-v0.3Mistral

AI官方開源版本，對應(yīng)huggingface

倉庫名稱：mistralai/Mistral-7B-Instruct-v0.3。20.Claude-Opus-4-ReasoningAnthropic官方發(fā)布的ClaudeOpus

4，使用方式為POE：Claude-Opus-4-Reasoning。43.MiniCPM3-4B面壁智能官方開源版本。對應(yīng)huggingface倉庫名稱：openbmb/MiniCPM3-4B。21.Gemini

2.5

Pro

Preview

05-06GoogleGemini

2.5

Pro的預(yù)覽版本，使用官方API：gemini-2.5-pro-preview-05-06。///22.Gemini

2.5

Flash

Preview

04-17GoogleGemini

2.5

Flash的預(yù)覽版本，使用官方API：gemini-2.5-flash-preview-04-17。///23.Gemini

2.5

Flash

Preview

05-20GoogleGemini

2.5

Flash的預(yù)覽版本，使用官方API：gemini-2.5-flash-preview-05-20。///第三部分總體測評結(jié)果與分析SuperCLUE模型象限SuperCLUE通用能力測評榜單SuperCLUE-Agent：智能體測評分析SuperCLUE性價比區(qū)間分布SuperCLUE大模型綜合效能區(qū)間分布國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單SuperCLUE模型象限（2025）應(yīng)用能力實(shí)用主義者卓越領(lǐng)導(dǎo)者來源：Super

CLUE,2025

年5

月28

日；注：1.兩個維度的組成。推理能力包含：數(shù)學(xué)推理、科學(xué)推理、代碼；應(yīng)用能力包括：文本理解與創(chuàng)作、指令遵循、Agent能力；2.四個象限的含義。它們代表大模型所處的不同階段與定位，其中【潛力探索者】代表模型正在探索階段未來擁有較大潛力；【技術(shù)領(lǐng)跑者】代表模型在基礎(chǔ)技術(shù)方面具備領(lǐng)先性；【實(shí)用主義者】代表模型在場景應(yīng)用深度上具備領(lǐng)先性；【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置，引領(lǐng)國內(nèi)大模型發(fā)展。Super

CLUE模型象限（

2025）o4-mini(high)(OpenAI)o3(OpenAI)Gemini

2.5

Flash

Preview

05-20(Google)SenseNova

Reasoner(商湯)Doubao-1.5-thinking-pro-250415(字節(jié)跳動)Hunyuan-T1-20250403(騰訊)DeepSeek-V3-0324(深度求索)Qwen3-32B(Thinking)(阿里巴巴)Qwen3-235B-A22B(Thinking)(阿里巴巴)360zhinao2-o1.5(360)GLM-4-Air-250414(智譜AI)Llama-4-Maverick-17B-128E-Instruct(Meta)DeepSeek-R1-Distill-Qwen-32B(深度求索)Qwen3-4B(Thinking)(阿里巴巴)Gemma-2-27b-it(Google)GLM-Z1-AirX(智譜AI)Qwen3-30B-A3B(Thinking)(阿里巴巴)Qwen3-14B(Thinking)(阿里巴巴)grok-3-latest(X.AI)DeepSeek-R1(深度求索)ChatGPT-4o-latest

Gemini

2.5

Flash

Preview

04-17(Google)NebulaCoder-V6（中興通訊)(OpenAI)ERNIE-4.0-Turbo-8K-Latest(百度)Pangu

Pro

MoE-72B-A16B(華為)kimi-K1.5(月之暗面)

Qwen3-8B(Thinking)(阿里巴巴)Spark

X1(科大訊飛)潛力探索者技術(shù)領(lǐng)跑者推理能力Sky-Chat-3.0(昆侖萬維)Step-2-16k(階躍星辰)

Spark4.0

Ultra(科大訊飛)kimi-latest(月之暗面)Llama-3.3-70B-Instruct(Meta)MiniMax-Text-01(MiniMax)Claude-Opus-4-Reasoning(Anthropic)Gemini

2.5

Pro

Preview

05-06(Google)Yi-1.5-9B-Chat-16K(零一萬物)Llama-3.1-8B-Instruct(Meta)Mistral-7B-Instruct-v0.3(Mistral

AI)MiniCPM3-4B(面壁智能

)

Gemma-2-27b-it(Google)GLM-4-9B-Chat(智譜AI)Gemma-3-4b-it(Google)21海外及其他對比模型國內(nèi)模型國內(nèi)外通用大模型SuperCLUE基準(zhǔn)測評總榜Super

CLUE通用能力測評榜單——總榜來源：Super

CLUE,2025

年5

月28

日；注：由于部分模型分?jǐn)?shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1

分區(qū)間的模型定義為并列，報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名。22Super

CLUE通用能力測評榜單——總榜Do

o-1.5-t

g-p

o-2

、S

等國內(nèi)模型表現(xiàn)亮眼。其中，

o-1.5-t

g-p

o-2

在文本創(chuàng)作與理解任務(wù)上以8

1.0

的高分領(lǐng)先其他模型。

Nebula

Coder-V

在數(shù)學(xué)推理得分上比o

4-mini(high)分別高出4.67

。2.國內(nèi)推理模型嶄露頭角，部分領(lǐng)域優(yōu)勢突出。Hunyuan-T

1-20250403

在國內(nèi)模型中指令遵循得分第一，為36.97分，但是與海外模型指令遵循得分第一的o

4-mini(h

gh)相比，差距達(dá)到了31.1分，國內(nèi)模型在指令遵循方面表現(xiàn)較弱，還有較大的提升空間。3.國內(nèi)大模型在指令遵循方面普遍低于海外模型。SuperC

UE-總榜Super

CLUE評測基準(zhǔn)2025

年5

月總體榜單顯示，o

4-mini(h

gh)在Super

CLUE-5

月測評中表現(xiàn)優(yōu)異，總分穩(wěn)居第一，達(dá)到70.51

分。該模型在推理、代碼生成、智能體、指令遵循等多個方面表現(xiàn)出卓越的綜合能力，特別是在代碼生成）、指令遵循方面得分較高，體現(xiàn)了其強(qiáng)大的邏輯推理和問題解決能力。測評分析1.o

4-mini(high)總分穩(wěn)居第一。23Super

CLUE通用能力測評榜單——基礎(chǔ)模型榜單Su

UE-基礎(chǔ)模型總榜測評分析從各模型在不同維度的得分來看，能力發(fā)展不均衡現(xiàn)象明顯。如代碼生成維度，Deep

Seek-V

0324

得分84.81，而部分模型得分較低，差距巨大。在精確指令遵循維度，模型間分?jǐn)?shù)差異也較為顯著。這種不均衡體現(xiàn)了不同模型在能力側(cè)重上的差異，也反映出大模型在追求綜合能力提升時，仍面臨各維度能力協(xié)調(diào)發(fā)展的挑戰(zhàn)。3.各維度能力發(fā)展不均衡。根據(jù)基礎(chǔ)模型榜單可以發(fā)現(xiàn)，Deep

Seek-V

3-0324

以60.10的總分位居榜首，在多個維度展現(xiàn)出強(qiáng)大實(shí)力，在科學(xué)推理、智能體Agent、文本理解與創(chuàng)作這三個類別都取得了基礎(chǔ)模型中的最高分。排名靠前的模型在總分上與靠后模型拉開明顯差距，顯示出頭部模型在綜合能力上的優(yōu)勢地位，也反映出大模型領(lǐng)域強(qiáng)者恒強(qiáng)的態(tài)勢。1.模型競爭激烈，頭部模型優(yōu)勢凸顯。在國內(nèi)模型表現(xiàn)方面，GLM-4-Air-250414

在數(shù)學(xué)推理上取得53.23的高分，僅次于De

3-0324

。這些國內(nèi)模型在細(xì)分領(lǐng)域的出色成績，表明國內(nèi)在大模型技術(shù)研發(fā)上不斷取得突破，在特定能力維度上已具備與國際模型競爭的實(shí)力。2.國內(nèi)模型在部分領(lǐng)域表現(xiàn)亮眼。24開源模型榜單S

開源榜單數(shù)據(jù)來源：SuperCLUE,2025年5月28日；注：由于部分模型分?jǐn)?shù)較為接近，為了減少問題波動對排名的影響，本次測評將相距1分區(qū)間的模型定義為并列。其中模型參數(shù)量數(shù)據(jù)來源于官方披露，若模型為MoE

架構(gòu)，以總參數(shù)量為準(zhǔn)。開源模型分析中文場景下，國內(nèi)開源模型已具備較大優(yōu)勢Deep

Seek系列開源模型、Qwen系列開源模型，在5

月Super

CLUE測評中表現(xiàn)優(yōu)異，均有超過Llama-4-Maverick-17B-128E-Instruct的表現(xiàn)，引領(lǐng)全球開源生態(tài)。排名模型名稱機(jī)構(gòu)參數(shù)量總分1DeepSeek-R1深度求索671B61.942DeepSeek-V3-0324深度求索671B60.102Qwen3-32B(Thinking)阿里巴巴32B59.323Qwen3-235B-A22B(Thinking)阿里巴巴235B59.003Pangu

Pro

MoE-72B-A16B華為72B58.754Qwen3-14B(Thinking)阿里巴巴14B57.125Qwen3-8B(Thinking)阿里巴巴8B53.785Qwen3-30B-A3B(Thinking)阿里巴巴30B53.27-Llama-4-Maverick-17B-128E-InstructMeta400B52.896GLM-Z1-AirX智譜AI32B51.556GLM-4-Air-250414智譜AI32B51.456DeepSeek-R1-Distill-Qwen-32B深度求索32B50.817Qwen3-4B(Thinking)阿里巴巴4B46.048MiniMax-Text-01MiniMax456B43.35-Llama-3.3-70B-InstructMeta70B42.20-Gemma-3-27b-itGoogle27B41.74-Gemma-3-12b-itGoogle12B36.57-Gemma-3-4b-itGoogle4B27.779GLM-4-9B-Chat智譜AI9B27.73-Llama-3.1-8B-InstructMeta8B24.1210MiniCPM3-4B面壁智能4B21.0611Yi-1.5-9B-Chat-16K零一萬物9B19.81-Mistral-7B-Instruct-v0.3Mistral

AI7B12.4725Super

CLUE通用能力測評榜單——推理模型榜單Su

UE-推理模型總榜在代碼生成任務(wù)中，Qwen

3-235

B-A

B(Thinking)以90.53分位居國內(nèi)榜首，不僅在國內(nèi)領(lǐng)先，更與Open

AI的o

4-mini(high)差距微小。測評分析3.代碼生成能力成為競爭新焦點(diǎn)，國內(nèi)模型實(shí)現(xiàn)突破。根據(jù)推理模型榜單可以發(fā)現(xiàn)，國內(nèi)模型成績突出。Nebula

Coder-V

、Doubao-1.5-thinking-

pro-250415

和360

zhinao

2-o

1.5

并列第一，De

k-R

、Q

3-235

B-A

B(Thinking)和

nse

Nova

asone

r并列國內(nèi)推理模型第二。國內(nèi)模型在數(shù)學(xué)推理、科學(xué)推理、代碼生成三大任務(wù)上相互競爭，彰顯出國內(nèi)模型發(fā)展的蓬勃態(tài)勢。1.國內(nèi)模型表現(xiàn)亮眼，競爭激烈。在數(shù)學(xué)推理維度，G

M-Z

1-A

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文大模型基準(zhǔn)測評2025年5月報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

中文大模型基準(zhǔn)測評2025年5月報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔