版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
中文大模型基準(zhǔn)測評2025年5月報(bào)告—2025中文大模型階段性進(jìn)展5月評估Super
CLUE團(tuán)隊(duì)2025
.
05
.
28精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖Accurately
quantifying
the
progress
of
AGI,defining
the
roadmap
for
humanity's
journey
towards
AGI.一、2025上半年度關(guān)鍵進(jìn)展及趨勢2025年上半年大模型關(guān)鍵進(jìn)展2025年最值得關(guān)注的中文大模型全景圖2025年國內(nèi)外大模型差距二、5月通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式各維度測評說明及示例測評模型列表三、總體測評結(jié)果與分析SuperCLUE模型象限SuperCLUE通用能力測評榜單SuperCLUE-Agent:智能體測評分析SuperCLUE性價比區(qū)間分布SuperCLUE大模型綜合效能區(qū)間分布國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單報(bào)
告
目
錄報(bào)告摘要(一)o4-mini(high)總分穩(wěn)居第一,綜合能力全面領(lǐng)先o4-mini(high)在本次5月測評中表現(xiàn)優(yōu)異,總分達(dá)到70.51分,超過國內(nèi)最好模型7.35分。該模型在推理、代碼生成、智能體、指令遵循等多個方面表現(xiàn)出卓越的綜合能力,特別是在代碼生成(91.52)、指令遵循(68.07)方面得分較高。國內(nèi)推理模型嶄露頭角,部分領(lǐng)域優(yōu)勢突出Doubao-1.5-thinking-pro-205415
、Sense
Nova
V
6
Reasoner等國內(nèi)模型表現(xiàn)亮眼。其中,D
o
u
b
a
o-1.5-t
h
i
n
k
i
n
g-p
r
o-2
0
5
4
1
5
在文本創(chuàng)作與理解任務(wù)以
81.04的高分領(lǐng)先其他模型。國內(nèi)大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在國內(nèi)模型中指令遵循得分第一,為36.97分,但是與海外模型指令遵循得分第一的o4-mini(high)相比,差距達(dá)到了31.1分,國內(nèi)模型在指令遵循方面表現(xiàn)較弱,還有較大的提升空間。小參數(shù)模型表現(xiàn)超出預(yù)期多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是Qwen3系列,其中4B、8B和14B版本在推理任務(wù)上的分?jǐn)?shù)均超過50分,超越了眾多閉源大模型。3報(bào)告摘要(二)大模型性價比區(qū)間分布大模型推理效能區(qū)間分布4數(shù)據(jù)來源:S
u
p
e
r
C
L
U
E
,2
0
2
5
年5
月2
8
日;推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼的平均分。開源模型如Q
w
e
n
3-3
2
B(T
h
i
n
k
i
n
g)使用方式為A
P
I
,價格信息均來自官方信息。注:部分模型A
P
I
的價格是分別基于輸入和輸出的t
o
k
e
n
s
數(shù)量確定的。這里我們依照輸入t
o
k
e
n
s
與輸出t
o
k
e
n
s
3:1
的比例來估算其整體價格。價格信息取自官方在5
月的標(biāo)準(zhǔn)價格(非優(yōu)惠價格)。數(shù)據(jù)來源:S
u
p
e
r
C
L
U
E
,2
0
2
5
年5
月2
8
日;模型推理速度選取5
月測評中具有公開A
P
I
的模型。平均推理時間為所有測評數(shù)據(jù)推理時間的平均值(秒)。推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼生成的平均分。第一部分2025上半年度關(guān)鍵進(jìn)展及趨勢2025年上半年大模型關(guān)鍵進(jìn)展2025年最值得關(guān)注的中文大模型全景圖2025年國內(nèi)外大模型差距時間躍進(jìn)期2025上半年大模型關(guān)鍵進(jìn)展2022.122023.062024.062024.12
2025.062023.12深化期準(zhǔn)備期繁榮期
Chat
GPT發(fā)布,全球范圍內(nèi)迅速形成大模型共識。
GPT
4發(fā)布,進(jìn)一步掀起大模型研發(fā)熱潮。
國內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言1.0、通義千問、訊飛星火、
3
6
0智腦、C
h
a
t
G
L
M等首批模型相繼發(fā)布。
O
p
e
n
A
I發(fā)布S
o
r
a
,極大拓展了AI在視頻領(lǐng)域的想象力。
G
P
T-4
o、C
l
a
u
d
e
3.5、
Ge
mi
ni
1.5、Ll
ama
3發(fā)布,海外進(jìn)入“一超多強(qiáng)”的競爭格局。
國內(nèi)多模態(tài)領(lǐng)域進(jìn)展迅速,在部分領(lǐng)域領(lǐng)先海外。視頻生成模型可靈A
I、海螺視頻、v
i
d
u、
P
i
x
V
e
r
s
e等模型陸續(xù)發(fā)布,并在海外取得較大應(yīng)用進(jìn)展。
國內(nèi)通用模型持續(xù)提升。
Qwen
2.5、文心4.0、GLM
4、商量5.5等通用模型陸續(xù)更新。
O
p
e
n
A
I發(fā)布o(jì)
1系列模型、o
3系列模型和G
PT-4.5
,前者推動成本效益推理,后者展現(xiàn)出較高的情感智能。
Go
o
g
l
e發(fā)布G
e
m
i
n
i
2.0系列模型,推出De
e
p
Re
s
e
a
r
c
h
深度研究功能以及眾多海外推理模型的發(fā)布引發(fā)熱潮,推理性能大幅度提升。
國內(nèi)推理模型持續(xù)跟進(jìn)。K
0-
m
a
t
h、D
e
e
p
S
e
e
k-R
1-L
i
t
e、
Q
w
Q-3
2
B-P
r
e
v
i
e
w、G
L
M-
Z
e
r
o-P
r
e
v
i
e
w等推理模型陸續(xù)發(fā)布,繼續(xù)突破推理能力的上限。
L
l
a
m
a
2開源,極大助力全球大模型開發(fā)者生態(tài)。
G
P
T-4
T
u
r
b
o、G
e
m
i
n
i
等海外大模型發(fā)布,繼續(xù)提升模型性能。
國內(nèi)閉源大模型快速發(fā)展。豆包、混元、商量3.0、盤古3.0、
A
n
d
e
s
G
P
T、B
l
u
e
L
M、星火
3.0等陸續(xù)發(fā)布。國內(nèi)開源生態(tài)爆發(fā)。Bai
chuan、Q
w
e
n、I
n
t
e
r
n
L
M、
Chat
GLM
3、Yi-34
B等系列模型引領(lǐng)開源熱潮。自2022年11月30日ChatGPT發(fā)布以來,AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)外AI機(jī)構(gòu)在過去2年半有了實(shí)質(zhì)性的突破。具體可分為:準(zhǔn)備期、躍進(jìn)期、繁榮期、深化期和融合期。SuperCLUE:AI大模型2025上半年關(guān)鍵進(jìn)展融合期關(guān)鍵進(jìn)展
頂級大模型能力邊界持續(xù)突破。
o
3、o
4-m
i
n
i、G
e
m
i
n
i
2.5系列、C
l
a
u
d
e
4系列模型相繼推出。
國內(nèi)外大模型差距顯著縮小,國內(nèi)模型實(shí)現(xiàn)彎道超車。
D
e
e
o
S
e
e
k-R
1通過開源與性價比優(yōu)勢推動普惠AI時代到來。國內(nèi)廠商普遍加速迭代,開源成為主流策略。在Deep
Seek-R
1、
Q
w
e
n系列模型開源后,國內(nèi)眾多廠商加入開源行列。
A
I智能體潛力被深度挖掘,向通用人工智能(
A
G
I
)愿景邁進(jìn)。
M
a
n
u
s、A
u
t
o
G
L
M沉思、
Gens
par
k、Fel
l
ou、扣子空間、天工超級智能體等A
g
e
n
t產(chǎn)品紛紛涌現(xiàn),加速AGI進(jìn)程。6納米AI超級搜索文本文生圖字節(jié)豆包AndesGPT通用閉源通用開源多模態(tài)文生視頻視覺理解行業(yè)醫(yī)療MindGPT螞蟻金融大模型軒轅大模型奇智孔明AInno-15B汽車教育金融工業(yè)妙想金融大模型營銷GLM-4v百川AI全科醫(yī)生醫(yī)聯(lián)M
e
d
G
P
T百度靈醫(yī)極氪Kr大模型易車大模型華為盤古工業(yè)大模型羚羊工業(yè)大模型其他妙筆大模型法律深勢分子大模型實(shí)時交互智譜清言星火極速通義APPSenseChat-VisionTeleChat2-35B語音合成/聲音復(fù)刻百度T
T
S訊飛語音合成CosyVoice推理DeepSeek-R1K1.5長思考360gpt2-o1.5SuperCLUE:2025年最值得關(guān)注的中文大模型全景圖Hunyuan-LargeMiniMax-01智能體深度研究Deep
Research通用閉源通用開源文心X1
TurboGLM4
Z1系列H
u
n
y
u
a
n
T
1隨時問快對得理法搜案牘AI豆包愛學(xué)......沉思深入研究小白研圖生視頻Speech-02天工超級智能體2025年國內(nèi)外大模型差距模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月25年3月25年5月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5、o3、o4-mini)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.476.0170.51國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.370.3463.16國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.366.3862.96國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.464.6961.94總體趨勢上,國內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在縮小。2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GPT3.5、GPT4、GPT4-Turbo、GPT4o、o
1、o
3-mini、GPT-4.5、o
3、o
4-mini的多個版本的迭代升級。國內(nèi)模型也經(jīng)歷了波瀾壯闊的25
個月的迭代周期。但隨著o
4-mini的發(fā)布,差距從7.46%增加至10.42%。SuperCLUE基準(zhǔn):過去25個月國內(nèi)外TOP大模型對比趨勢國內(nèi)外Top1模型差距分?jǐn)?shù)國內(nèi)外Top1模型差距比例來源:Super
CLUE,2023
年5
月~
2025
年5
月,期間發(fā)布的16
次大模型基準(zhǔn)測評報(bào)告。8第二部分5月通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式各維度測評說明及示例測評模型列表SuperCLUE是大模型時代背景下CLUE基準(zhǔn)的發(fā)展和延續(xù),是獨(dú)立、領(lǐng)先的通用大模型的綜合性測評基準(zhǔn)。中文語言理解測評基準(zhǔn)C
L
U
E
(
T
h
e
C
h
i
n
e
s
eLanguage
Understanding
Evaluation)
發(fā)起于2019年,陸續(xù)推出過CLUE、Few
CLUE、Zero
CLUE等廣為引用的測評基準(zhǔn)。2019
2020
2021
2022
2023
2024.01-06
2024.07-12
2024.12-2025.03
2025.03-050數(shù)據(jù)污染每2個月題庫100%替換題目100%原創(chuàng)傳統(tǒng)測評SuperCLUE易數(shù)據(jù)污染學(xué)術(shù)視角與應(yīng)用側(cè)較大偏差維度固定陳舊無法與時俱進(jìn)VSSuperCLUE三大特征產(chǎn)業(yè)+用戶視角SuperCLUE與傳統(tǒng)測評的區(qū)別維度Live更新題目固定
過擬合風(fēng)險高010203“Live”更新,0數(shù)據(jù)污染測評方式與用戶交互一致獨(dú)立第三方,無自家模型測評題庫每2個月1
0
0%替換且全部原創(chuàng),杜絕過擬合風(fēng)險。體系維度根據(jù)大模型進(jìn)展Live更新。測評方法與用戶交互方式保持一致,測評任務(wù)貼近真實(shí)落地場景,高度還原用戶視角。完全獨(dú)立的第三方評測機(jī)構(gòu),不研發(fā)自家模型。承諾提供無偏倚的客觀、中立評測結(jié)果。Super
CLUE基準(zhǔn)介紹CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文,并承辦了NLPCC2020開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布
DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個通用
大模型測評基準(zhǔn)
SuperCLUE正式發(fā)布發(fā)布首個中文多輪開放式發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn);發(fā)布文生視頻、文測評基準(zhǔn)SuperCLUE-Open;生圖、視覺理解等發(fā)布行業(yè)測評基準(zhǔn) 多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手等
AI應(yīng)用測評基準(zhǔn);發(fā)布鏈?zhǔn)酵评淼?/p>
推理測評基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE開源Math24o高中奧林匹克數(shù)學(xué)競賽測評集;發(fā)布新版文生圖、圖生視頻、視覺推理等中文測評基準(zhǔn);發(fā)布中文通用AI智能體測評基準(zhǔn)AgentCLUE-General;發(fā)布中文大模型幻覺測評系列基準(zhǔn)發(fā)布數(shù)學(xué)競賽、科學(xué)推理、項(xiàng)目級代碼生成等推理測評基準(zhǔn);發(fā)布實(shí)時音視頻、視覺語言多模態(tài)測評基準(zhǔn)
發(fā)布DeepSeek第三方平臺性能基準(zhǔn)10基于大模型技術(shù)和應(yīng)用發(fā)展趨勢、以及基準(zhǔn)測評專業(yè)經(jīng)驗(yàn),Super
CLUE構(gòu)建出多領(lǐng)域、多層次的大模型綜合性測評基準(zhǔn)框架。從基礎(chǔ)到應(yīng)用覆蓋:通用基準(zhǔn)體系、文本專項(xiàng)系列基準(zhǔn)、多模態(tài)系列基準(zhǔn)、推理系列基準(zhǔn)、Agent系列基準(zhǔn)、AI應(yīng)用基準(zhǔn)、性能系列基準(zhǔn)。為產(chǎn)業(yè)、學(xué)術(shù)和研究機(jī)構(gòu)的大模型研發(fā)提供重要參考。S
u
p
e
r
C
L
U
E
大模型綜合測評基準(zhǔn)框架已發(fā)布即將發(fā)布Super
CLUE大模型綜合測評體系長文本SuperCLUE-Long超長文本SuperCLUE-200K角色扮演SuperCLUE-Role多輪對抗安全SuperCLUE-Safety視頻文生視頻SuperCLUE-T2V圖像/視覺實(shí)時音視頻交互SuperCLUE-Live文生圖SuperCLUE-Image語音實(shí)時語音交互SuperCLUE-Voice語音合成SuperCLUE-TTS多模態(tài)視覺語言SuperCLUE-VLM通用可執(zhí)行智能體AgentCLUE終端智能體行業(yè)智能體零售教育醫(yī)療...不可執(zhí)行智能體SuperCLUE-Agent手機(jī)PC眼鏡...數(shù)學(xué)推理科學(xué)推理代碼生成智能體Agent精確指令遵循文本理解與創(chuàng)作AI產(chǎn)品AI搜索
SuperCLUE-AISearch代碼助手SuperCLUE-Coder行業(yè)金融SuperCLUE-Fin工業(yè)SuperCLUE-Industry汽車SuperCLUE-Auto智能座艙SuperCLUE-Icabin實(shí)時音視頻SuperCLUE-Live通用基準(zhǔn) 文本專項(xiàng)基準(zhǔn) 多模態(tài)基準(zhǔn) 推理基準(zhǔn)
Agent基準(zhǔn) 應(yīng)用基準(zhǔn)視覺推理SuperCLUE-VLR科學(xué)推理SuperCLUE-Science全國高中數(shù)學(xué)競賽MathCLUE項(xiàng)目級代碼SuperCLUE-Project鏈?zhǔn)酵评鞸uperCLUE-COT小學(xué)奧數(shù)SuperCLUE-Math6o代碼SuperCLUE-Code3數(shù)學(xué)多步推理SuperCLUE-Math6性能基準(zhǔn)深度研究DeepResearchDeepSeek-R1系列DeepSeek-R1第三方聯(lián)網(wǎng)搜索
能力測試(網(wǎng)頁端)DeepSeek-R1第三方穩(wěn)定性測試(App端)DeepSeek-R1第三方穩(wěn)定性測試(API端)DeepSeek-R1第三方穩(wěn)定性測試(網(wǎng)頁端)其余系列注:通用基準(zhǔn)介紹可在報(bào)告中查看,其余基準(zhǔn)可點(diǎn)擊對應(yīng)鏈接跳轉(zhuǎn)至最新的發(fā)布文章。檢索增強(qiáng)SuperCLUE-RAG聲音復(fù)刻SuperCLUE-Cloning中文通用AI智能體AgentCLUE-General幻覺事實(shí)性幻覺SuperCLUE-Fact忠實(shí)性幻覺SuperCLUE-Faith圖生視頻SuperCLUE-I2V開源數(shù)據(jù)集Math24o競賽級別代碼研究生級別數(shù)學(xué)大模型推理速度測評11Super
CLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式1.數(shù)學(xué)推理介紹:主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)等競賽級別數(shù)據(jù)集。評價方式:基于人工校驗(yàn)參考答案的評估(0-1得
分)2.科學(xué)推理介紹:主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。評價方式:基于人工校驗(yàn)參考答案的評估(0-1得
分)3.代碼生成介紹:主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。HumanEval的中文升級版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。評價方式:基于代碼單元測試的評估(0-1得分)4.智能體Agent介紹:主要考察在中文場景下基于可執(zhí)行的環(huán)境,
LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。評價方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評
估(0-1得分)5.精確指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價方式:基于規(guī)則腳本的評估(0-1得分)本次2025年5月報(bào)告聚焦通用能力測評,由六大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1579
道多輪簡答題?!維uper
CLUE通用數(shù)據(jù)集】共有數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創(chuàng)作六大任務(wù);【Super
CLUE評價方式】分為基于人工校驗(yàn)參考答案的評估(
0-1
得分)、基于代碼單元測試的評估(
0-1
得分)、結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估(
0-1
得分)、基于規(guī)則腳本的評估(
0-1
得分)、人工校驗(yàn)參考答案的、多維度評價標(biāo)準(zhǔn)的評估。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價方式6.文本理解與創(chuàng)作介紹:主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。評價方式:人工校驗(yàn)參考答案的、多維度評價標(biāo)準(zhǔn)
的評估12各維度測評說明及示例——數(shù)學(xué)推理測評說明SuperCLUE-數(shù)學(xué)推理評測數(shù)據(jù)集測評方法評測流程:我們采用模型評價的方式來評估大模型在【數(shù)學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯誤,即0或1)。以【代數(shù)學(xué)】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目的具體得分為1分;反之,假設(shè)在另一個具體的題目中,模型A的最終答案與參考答案不等價,則該題目的具體得分為0分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣最終的得分可以清晰地反映模型在【數(shù)學(xué)推理】任務(wù)中的表現(xiàn)。這一方法實(shí)現(xiàn)了完全的客觀評估性。示例-數(shù)學(xué)推理數(shù)學(xué)推理主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)等競賽級別數(shù)據(jù)集。問題:模型回答:評價打分:綜合以上,AI助手的回答的綜合得分(平均分)為[[1.00]]。13各維度測評說明及示例——科學(xué)推理測評說明SuperCLUE-科學(xué)推理評測數(shù)據(jù)集測評方法評測流程:我們采用模型評價的方式來評估大模型在【科學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯誤,即0或1)。以【物理】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目的具體得分為1分;反之,假設(shè)在另一個具體的題目中,模型A的最終答案與參考答案不等價,則該題目的具體得分為0分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣最終的得分可以清晰地反映模型在【科學(xué)推理】任務(wù)中的表現(xiàn)。這一方法實(shí)現(xiàn)了完全的客觀評估性。示例-科學(xué)推理科學(xué)推理主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。問題:模型回答:評價打分:綜合以上,AI助手的回答的綜合得分(平均分)為[[1.00]]。14各維度測評說明及示例——代碼生成測評說明SuperCLUE-代碼生成評測數(shù)據(jù)集代碼生成主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。Human
Eval的中文升級版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。測評方法評測流程:整體測評流程包括:1.獲取模型答案;2.提取功能函數(shù);3.測試功能函數(shù);4.計(jì)算模型得分。獲取模型答案:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對于一個代碼補(bǔ)全問題,每個模型獲取一次答案。提取功能函數(shù):獲取到模型回復(fù)之后,結(jié)合prompt要求和模型回答設(shè)定規(guī)則提取函數(shù)代碼。測試功能函數(shù):對于一個代碼補(bǔ)全問題,將提取得到的代碼和該問題對應(yīng)的N個測試用例組裝成N個可獨(dú)立運(yùn)行的單元測試程序,在沙箱環(huán)境運(yùn)行(沙箱環(huán)境python版本設(shè)置為3.10)。計(jì)算模型得分:對于一個代碼補(bǔ)全問題和1個測試用例,構(gòu)成一個單元測試,通過測試得1分。最終計(jì)算模型在所有單元測試中得分平均分*100作為最終的得分。問題:import
itertoolsfrom
typing
import
List,
Any,Dictdef
candidate(programmers:
List[Dict[str,A
n
y
]
]
,
r
e
q
u
i
r
e
d
_
s
k
i
l
l
s
:
L
i
s
t
[
s
t
r
]
,team_size_k:
int)
->
List[int]:"""組建一個由恰好`team_size_k`名成員組成的編程競賽團(tuán)隊(duì)。<篇幅有限省略>輸出:-選定團(tuán)隊(duì)成員的'id'列表,按升序排列。如果無解,則為空列表。"""示例-代碼生成模型回答:import
itertoolsfrom
typing
import
List,
Any,Dictdef
candidate(programmers:
List[Dict[str,
Any]],required_skills:
List[str],
team_size_k:
int)
->
List[int]:n
=
len(programmers)best_synergy
=
None
best_ids:
List[int]
=
[]
required
=set(required_skills)<篇幅有限省略>elif
total
==best_synergy:ids
=
sorted(programmers[i]['id']
for
i
in
comb)if
ids
<best_ids:best_ids
=
idsreturn
best_ids
if
best_synergy
is
not
None
else
[]測試功能函數(shù):defcheck(candidate):assert
candidate([{'id':
0,
'skills':
['Python',
'AI'],
'synergy_scores':
[0,5,2]},
{'id':
1,
'skills':
['Java','Web'],
'synergy_scores':
[5,0,3]},
{'id':
2,
'skills':
['Python',
'DB'],
'synergy_scores':
[2,3,0]}],
['Python','Web'],
2)
==
[0,
1]assert
candidate([{'id':0,'skills':['P'],'synergy_scores':[0,10]},{'id':1,'skills':['J'],'synergy_scores':[10,
0]}],['P','J'],2)
==
[0,1]assert
candidate([{'id':0,'skills':['P'],'synergy_scores':[0]}],['P'],2)
==
[]assert
candidate([],
['P'],
1)
==
[]計(jì)算模型得分:測試通過,得1分。15各維度測評說明及示例——智能體Agent測評說明SuperCLUE-智能體Agent數(shù)據(jù)集智能體Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。測評方法示例-智能體Agent描述:??次Agent測評共包含10個API,??題用到一個API。車輛控制系統(tǒng):該工具屬于車輛控制系統(tǒng),允許用戶控制汽車的各個方面,如發(fā)動機(jī)、車門、空調(diào)、燈光等。prompt:你是一個組合函數(shù)完成任務(wù)的專家。你將會收到一個問題和一些可以調(diào)用的函數(shù)及其描述?;趩栴},你需要調(diào)用一個或者多個函數(shù)來實(shí)現(xiàn)問題要求。對于問題中的計(jì)算需求,你必須調(diào)用提供的函數(shù)進(jìn)行計(jì)算,否則視為錯誤。如果使用你收到的函數(shù)無法完成問題要求,請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù)<篇幅有限省略>下面提供了一個列表,列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述,使用json格式<篇幅有限省略>【問題】:我想要知道北京和西安之間的距離。【模型回復(fù)1】:【函數(shù)調(diào)用開始】```[get_zipcode_based_on_city(city="北京"),get_zipcode_based_on_city(city="西安")]```
【函數(shù)調(diào)用結(jié)束】【模型得到的反饋1】:下面是根據(jù)你回復(fù)的函數(shù)調(diào)用執(zhí)行得到的結(jié)果,你可以據(jù)此判斷是否完成了用戶的需求。如果已經(jīng)完成,你可以停止回復(fù)函數(shù)調(diào)用,根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任務(wù),你可以決定給出新的函數(shù)調(diào)用。下面是函數(shù)調(diào)用結(jié)果:第1個函數(shù)調(diào)用:get_zipcode_based_on_city(city='北京'),執(zhí)行返回結(jié)果為:{"zipcode":"352415"}第2個函數(shù)調(diào)用:get_zipcode_based_on_city(city='西安'),執(zhí)行返回結(jié)果為:{"zipcode":"541227"}注意:一旦你決定進(jìn)行函數(shù)調(diào)用,你的回復(fù)中只能包括函數(shù)調(diào)用。你的函數(shù)調(diào)用(functioncalls)必須嚴(yán)格遵循以下格式給出:“【函數(shù)調(diào)用開始】```[func_name1(params_name1=params_value1,params_name2=params_value2...),
func_name2(params)]```【函數(shù)調(diào)用結(jié)束】”,不應(yīng)該包括任何其他文???!灸P突貜?fù)2】:【函數(shù)調(diào)用開始】```[estimate_distance(cityA="352415",cityB="541227")]```
【函數(shù)調(diào)用結(jié)束】【模型得到的反饋2】:下面是根據(jù)你回復(fù)的函數(shù)調(diào)用執(zhí)行得到的結(jié)果,你可以據(jù)此判斷是否完成了用戶的需求。如果已
經(jīng)完成,你可以停止回復(fù)函數(shù)調(diào)用,根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任務(wù),你可以決定給出新的函數(shù)調(diào)用。下面是函數(shù)調(diào)用結(jié)果:第1個函數(shù)調(diào)用:estimate_distance(cityA='352415',cityB='541227'),執(zhí)行返回結(jié)果為:{"distance":780.0}注意:一旦你決定進(jìn)行函數(shù)調(diào)用,你的回復(fù)中只能包括函數(shù)調(diào)用。你的函數(shù)調(diào)用(function
calls)必須嚴(yán)格遵循以下格式給出:“【函數(shù)調(diào)用開始】```[func_name1(params_name1=params_value
1,params_name
2=params_value
2...),
func_name2(params)]```【函數(shù)調(diào)用結(jié)束】”,不應(yīng)該包括任何其他文???!灸P突貜?fù)3】:北京和西安之間的距離約為780公里。??題共1輪問題,解決問題需要調(diào)用3次工具,模型的回答中3次工具調(diào)用均正確,則??輪回答正確,記1分。評測流程:每一題包含N輪對話,每一輪對話為一個記分單元,答對記1分。我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是否回復(fù)正確。評價維度包括:函數(shù)調(diào)用執(zhí)行結(jié)果、執(zhí)行后的系統(tǒng)狀態(tài)。對于每一輪模型回復(fù)的評價方法:獲取模型答案之后,從中提取可執(zhí)行的函數(shù)調(diào)用。執(zhí)行提取的函數(shù)調(diào)用得到執(zhí)行結(jié)果集1,以及執(zhí)行后的系統(tǒng)狀態(tài)1;執(zhí)行人類標(biāo)注的ground
truth(函數(shù)調(diào)用)得到執(zhí)行結(jié)果集2,系統(tǒng)狀態(tài)2;將執(zhí)行結(jié)果集1與執(zhí)行結(jié)果集2進(jìn)行比較,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2進(jìn)行比較;如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模型的本輪回復(fù)正確,得1分。最后,計(jì)算答對的記分單元的比例,轉(zhuǎn)化為百分制得到模型的總分。即:模型得分=(答對的記分單元數(shù)量/記分單元總數(shù)量)*10016各維度測評說明及示例——精確指令遵循測評說明評測流程:我們完成了一個針對不同的語言模型的(文本輸出)精確指令遵循表現(xiàn)的測試,根據(jù)設(shè)定的評估標(biāo)準(zhǔn)進(jìn)行評估。評估的結(jié)果為布爾值(True
或False)。以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“二氧化碳”這個詞,字?jǐn)?shù)不少于10個字,以JSON格式返回】任務(wù)為例:設(shè)定的評價標(biāo)準(zhǔn)包括:遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會得到True的返回結(jié)果。例如:模型輸出結(jié)果1:{"response":"可再生能源在減少碳排放和減輕氣候變化方面起著關(guān)鍵作用,未來應(yīng)加快推廣。
"}符合所有要求,返回True。模型輸出結(jié)果2:{"response":"使用可再生能源可以減少二氧化碳排放。"}違背了關(guān)鍵詞限制,返回False。最后,我們將所有題目的評估結(jié)果進(jìn)行匯總,根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率,命中率以百分比為單位。具體來說,命中率計(jì)算公式為:命中率=(模型完全命中的題目數(shù)量÷總題目數(shù)量)*
100%SuperCLUE-精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法示例-精確指令遵循問題:近年來,隨著全球化的加速和國際貿(mào)易的擴(kuò)展,港口物流在現(xiàn)代經(jīng)濟(jì)中的地位日益重要。港口不僅是貨物進(jìn)出口的主要節(jié)點(diǎn),也是地區(qū)經(jīng)濟(jì)發(fā)展的動力?,F(xiàn)代化港口包含多種設(shè)施,如貨運(yùn)碼頭、倉儲區(qū)域、集裝箱處理設(shè)備等,同時依賴復(fù)雜的信息系統(tǒng)進(jìn)行管理。然而,港口物流也面臨諸多挑戰(zhàn),包括環(huán)保壓力、交通擁堵和技術(shù)更新需求。為了解這些挑戰(zhàn)并尋找解決方案,我們需要深入研究港口物流的各個方面,包括技術(shù)應(yīng)用、管理模式和未來發(fā)展趨勢。請撰寫一篇關(guān)于“港口物流未來技術(shù)趨勢”的分析文章。在文章中必須出現(xiàn)“自動化”、“綠色能源”和“信息化”這三個關(guān)鍵詞,每個關(guān)鍵詞必須至少出現(xiàn)3次。文章只能有4個段落(不要出現(xiàn)標(biāo)題),每個段落用“~~”符號分隔。第3段必須恰好由5個句子(句子用中文句號或中文問號或中文感嘆號分隔)組成。整篇文章只能有1
2個句子。請確保內(nèi)容結(jié)構(gòu)清晰,并對未來的技術(shù)趨勢進(jìn)行合理推測。模型回答:近年來,港口物流在全球供應(yīng)鏈中扮演著越來越重要的角色,推動了區(qū)域經(jīng)濟(jì)的快速發(fā)展。面對日益嚴(yán)峻的環(huán)保要求,越來越多港口開始引入綠色能源項(xiàng)目以減少碳排放。在此過程中自動化技術(shù)和信息化平臺成為提升作業(yè)效率的關(guān)鍵?!詣踊褕?、智能導(dǎo)航車輛和無人駕駛設(shè)備正在改造傳統(tǒng)碼頭作業(yè)流程,縮短了周轉(zhuǎn)時間并降低人力成??。同時,借助信息化手段實(shí)時監(jiān)控貨物流向,提高了資源利用率。~~智能港口將通過自動化設(shè)備實(shí)現(xiàn)全天候無人值守操作,從而大幅提升生產(chǎn)效率和作業(yè)安全。大規(guī)模部署的綠色能源系統(tǒng)如太陽能光伏和風(fēng)力發(fā)電正在為港口設(shè)施提供可靠的清潔動力,降低對化石燃料的依賴。信息化平臺與人工智能算法深度融合能夠優(yōu)化航線調(diào)度、貨柜追蹤及能耗管理,釋放更多數(shù)據(jù)價值。5G網(wǎng)絡(luò)和物聯(lián)網(wǎng)技術(shù)進(jìn)一步支撐了港口內(nèi)部的實(shí)時數(shù)據(jù)交換和遠(yuǎn)程控制,有助于精準(zhǔn)預(yù)測需求和資源配置。未來幾年,隨著區(qū)塊鏈技術(shù)的引入和大數(shù)據(jù)分析的普及,港口物流的透明度和協(xié)作水平將進(jìn)入新的高度?!嫦蛭磥恚劭趯⒊掷m(xù)融合自動化、信息化與綠色能源解決方案,朝著智能化、低碳和高效的方向邁進(jìn)。各方需加強(qiáng)技術(shù)研發(fā)與跨領(lǐng)域協(xié)同,才能確保港口物流系統(tǒng)的可持續(xù)發(fā)展和競爭優(yōu)勢。評價打分:??題存在三個精確指令考察:1)關(guān)鍵詞出現(xiàn)頻率;2)段落數(shù)量;3)句子數(shù)量。模型的回答符合要求,得一分。17各維度測評說明及示例——文本理解與創(chuàng)作測評說明SuperCLUE-文本理解與創(chuàng)作評測數(shù)據(jù)集測評方法評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價標(biāo)準(zhǔn)進(jìn)行打分(1-5分)。以【生成與創(chuàng)作】任務(wù)為例,設(shè)定的評價標(biāo)準(zhǔn)包括:符合基本要求、語言與邏輯連貫性、推理鏈條完整度。假設(shè)在一個具體的題目中,模型A的得分如下:符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整度5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。示例-文本理解與創(chuàng)作問題:請總結(jié)以下文??,形成摘要:我正經(jīng)過清風(fēng)橋,腳下的石板路面帶著一種古舊的溫潤感,被無數(shù)腳步打磨得光滑,卻又在縫隙里藏著青苔的濕意與歲月的低語。橋身并非全然的平坦,帶著一絲不易察覺的弧度向上微微拱起,仿佛是大地溫和的呼吸,引領(lǐng)著行人走向河流的中央,也走向視野的開闊處。欄桿是鐵藝的,纏繞著復(fù)古的卷草紋飾,油漆早已斑駁,露出底下暗紅色的鐵銹,像是一道道時光刻下的傷痕,卻也平添了幾分滄桑的韻味。我將手輕輕搭在冰涼的欄桿上,指尖能感受到那細(xì)微的震動,或許是橋下水流沖擊橋墩的回響,又或許是遠(yuǎn)處車流駛過橋面時傳遞而來的生命脈動。風(fēng),確實(shí)如橋名一般,帶著清爽的氣息,從寬闊的江面上吹拂而來,撩動我的發(fā)梢,也試圖吹散心中那一點(diǎn)莫名的滯重感。<篇幅有限省略>模型回答:作者漫步清風(fēng)橋,細(xì)致描繪了橋的古舊韻味(光滑石板、微拱橋身、斑駁鐵藝欄桿)、周邊自然景致(碧綠江水、碎金般的陽光、薄霧中的城市天際線、掠過的水鳥)及兩岸對比(現(xiàn)代濱江公園的生活氣息與古舊民居的煙火味)。橋上行人百態(tài)(下棋老人、嬉鬧孩童、寫生學(xué)生等)與作者的駐足觀察交織,觸發(fā)對時光流轉(zhuǎn)、生活復(fù)雜的感悟——橋不僅是地理連接,更承載著時間的過往與未來、情感的此岸與彼岸。作者由此追憶少年時的憧憬,感慨當(dāng)下心境的平和,在江風(fēng)與流水的陪伴中,獲得心靈的澄明與前行的堅(jiān)定,最終帶著橋上的寧靜思考,重新融入生活。評價打分:打分與評價開始:基于標(biāo)準(zhǔn)1的符合基??要求:AI助手準(zhǔn)確回應(yīng)了用戶的問題,并圍繞文??內(nèi)容進(jìn)行了高度相關(guān)的總結(jié)??偨Y(jié)結(jié)構(gòu)清晰,滿足用戶的提問意圖與需求。略微可以強(qiáng)化對某些細(xì)節(jié)的表達(dá)與隱含情感的深入梳理。得分:4.5分。基于標(biāo)準(zhǔn)2的事實(shí)正確性:AI助手整體回答的事實(shí)性較強(qiáng),與原文??內(nèi)容一致,涵蓋了關(guān)鍵部分如橋上的細(xì)節(jié)描寫、兩岸的對比、行人百態(tài)與心靈感悟等。未發(fā)現(xiàn)明顯的事實(shí)錯誤,且表達(dá)符合文??意境要求。得分:5.0分?;跇?biāo)準(zhǔn)3的清晰度:回答語言表達(dá)流暢且清晰,條理明晰,閱讀起來易于理解?;卮痣m簡潔,但對于部分意象的表現(xiàn)力略顯不足,無法完全展現(xiàn)原文??感性的細(xì)膩美。可以補(bǔ)充一些具體的描述增強(qiáng)表現(xiàn)力。得分:4.0分。綜合以上,AI助手的回答的綜合得分(平均分)為[[4.50]]。文本理解與創(chuàng)作主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。18本次測評數(shù)據(jù)選取了Su
p
er
CL
UE-5月測評結(jié)果,模型選取了國內(nèi)外有代表性的43個大模型在5月份的版本。測評模型列表模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介1.Qwen3-235B-A22B(Thinking)阿里巴巴官方發(fā)布的MoE推理模型,使用阿里云公開的API:qwen3-235b-a22b。24.Gemma-3-27b-itGoogleGemma3開源系列27B模型,使用官方API:gemma-3-27b-it。2.Qwen3-30B-A3B(Thinking)阿里巴巴官方發(fā)布的MoE推理模型,使用阿里云公開的API:qwen3-30b-a3b。25.Gemma-3-12b-itGoogleGemma3開源系列12B模型,使用官方API:gemma-3-12b-it。3.Qwen3-32B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-32b。26.Gemma-3-4b-itGoogleGemma3開源系列4B模型,使用官方API:gemma-3-4b-it。4.Qwen3-14B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-14b。27.Llama-4-Maverick-17B-128E-
Instruct-FP8Meta使用together.ai的接口:meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8。5.Qwen3-8B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-8b。28.Llama-3.3-70B-InstructMeta使用together.ai的接口:meta-llama/Llama-3.3-70B-Instruct-Turbo。6.Qwen3-4B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-4b。29.Llama-3.1-8B-InstructMeta使用together.ai的接口:meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo。7.Step-2-16k階躍星辰官方公開發(fā)布的API版本:step-2-16k。30.ChatGPT-4o-latestOpenAI與ChatGPT上的GPT-4o同版本,對應(yīng)OpenAI官方的API名稱:chatgpt-4o-latest。8.Sky-Chat-3.0昆侖萬維昆侖萬維發(fā)布的千億級別MOE
模型,使用官方的API接口。31.o4-mini(high)OpenAI使用方式為AZURE
OpenAI
Service的API接口,reasoning_effort參數(shù)設(shè)置為:high。9.GLM-4-Air-250414智譜AI官方發(fā)布的全新語言模型,使用官方的API:GLM-4-Air-250414。32.o3OpenAIOpenAI在2025年4月16日發(fā)布的最新推理模型o3,使用方式為POE:o3。10.GLM-Z1-AirX智譜AI官方發(fā)布的GLM-Z1系列推理模型,使用官方的API:GLM-Z1-AirX。33.360zhinao2-o1.5360官方提供的小范圍內(nèi)測版本,使用方式為API。11.GLM4_9B_Chat智譜AI官方開源的GLM-4-9B-Chat,對應(yīng)huggingface
倉庫名稱:THUDM/glm-4-9b-chat。34.grok-3-latestX.AIX.AI在2025年2月19日推出的模型版本,使用官方API,版本名稱為:grok-3-latest。12.DeepSeek-V3-0324深度求索深度求索在2025年3月24日發(fā)布的新版本V3模型,使用官方API:deepseek-chat。35.ERNIE-X1-Turbo-32K百度百度發(fā)布的深度思考模型,使用百度千帆的API,版本名稱為:ernie-x1-turbo-32k。13.DeepSeek-R1深度求索深度求索在2025年1月20日發(fā)布的開源推理模型,使用官方API:deepseek-reasoner。36.Pangu
Pro
MoE-72B-A16B華為官方提供的小范圍內(nèi)測版本,使用方式為API。見技術(shù)報(bào)告:/pdf/2505.21411。14.DeepSeek-R1-Distill-Qwen-32B深度求索基于Qwen2.5-32B的蒸餾模型,使用阿里云API:deepseek-r1-distill-qwen-32b。37.NebulaCoder-V6中興通訊官方提供的小范圍內(nèi)測版本,使用方式為API。15.Spark
X1科大訊飛科大訊飛發(fā)布的API版本:Spark
X1。38.MiniMax-Text-01MiniMax官方發(fā)布的新一代模型,使用方式為API,版本名稱為:MiniMax-Text-01。16.Spark4.0
Ultra科大訊飛科大訊飛發(fā)布的API版本:Spark4.0
Ultra。39.Hunyuan-T1-20250403騰訊官方發(fā)布的深度思考模型,使用方式為API:hunyuan-t1-20250403。17.kimi-latest月之暗面與Kimi智能助手產(chǎn)品使用的大模型同版本,使用API:kimi-latest。40.SenseNova
V6
Reasoner商湯官方提供的小范圍內(nèi)測版本,使用方式為API。18.kimi-K1.5月之暗面月之暗面推出的推理模型,使用官網(wǎng)網(wǎng)頁(開啟“K1.5長思考”模式)。41.Yi-1.5-9B-Chat-16K零一萬物官方開源版本,huggingface
倉庫名稱:01-ai/Yi-1.5-9B-Chat-16K。19.Doubao-1.5-thinking-pro-250415字節(jié)跳動官方發(fā)布的深度思考模型,使用方式為API:doubao-1-5-thinking-pro-250415。42.Mistral-7B-Instruct-v0.3Mistral
AI官方開源版本,對應(yīng)huggingface
倉庫名稱:mistralai/Mistral-7B-Instruct-v0.3。20.Claude-Opus-4-ReasoningAnthropic官方發(fā)布的ClaudeOpus
4,使用方式為POE:Claude-Opus-4-Reasoning。43.MiniCPM3-4B面壁智能官方開源版本。對應(yīng)huggingface倉庫名稱:openbmb/MiniCPM3-4B。21.Gemini
2.5
Pro
Preview
05-06GoogleGemini
2.5
Pro的預(yù)覽版本,使用官方API:gemini-2.5-pro-preview-05-06。///22.Gemini
2.5
Flash
Preview
04-17GoogleGemini
2.5
Flash的預(yù)覽版本,使用官方API:gemini-2.5-flash-preview-04-17。///23.Gemini
2.5
Flash
Preview
05-20GoogleGemini
2.5
Flash的預(yù)覽版本,使用官方API:gemini-2.5-flash-preview-05-20。///第三部分總體測評結(jié)果與分析SuperCLUE模型象限SuperCLUE通用能力測評榜單SuperCLUE-Agent:智能體測評分析SuperCLUE性價比區(qū)間分布SuperCLUE大模型綜合效能區(qū)間分布國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單SuperCLUE模型象限(2025)應(yīng)用能力實(shí)用主義者卓越領(lǐng)導(dǎo)者來源:Super
CLUE,2025
年5
月28
日;注:1.兩個維度的組成。推理能力包含:數(shù)學(xué)推理、科學(xué)推理、代碼;應(yīng)用能力包括:文本理解與創(chuàng)作、指令遵循、Agent能力;2.四個象限的含義。它們代表大模型所處的不同階段與定位,其中【潛力探索者】代表模型正在探索階段未來擁有較大潛力;【技術(shù)領(lǐng)跑者】代表模型在基礎(chǔ)技術(shù)方面具備領(lǐng)先性;【實(shí)用主義者】代表模型在場景應(yīng)用深度上具備領(lǐng)先性;【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置,引領(lǐng)國內(nèi)大模型發(fā)展。Super
CLUE模型象限(
2025)o4-mini(high)(OpenAI)o3(OpenAI)Gemini
2.5
Flash
Preview
05-20(Google)SenseNova
V6
Reasoner(商湯)Doubao-1.5-thinking-pro-250415(字節(jié)跳動)Hunyuan-T1-20250403(騰訊)DeepSeek-V3-0324(深度求索)Qwen3-32B(Thinking)(阿里巴巴)Qwen3-235B-A22B(Thinking)(阿里巴巴)360zhinao2-o1.5(360)GLM-4-Air-250414(智譜AI)Llama-4-Maverick-17B-128E-Instruct(Meta)DeepSeek-R1-Distill-Qwen-32B(深度求索)Qwen3-4B(Thinking)(阿里巴巴)Gemma-2-27b-it(Google)GLM-Z1-AirX(智譜AI)Qwen3-30B-A3B(Thinking)(阿里巴巴)Qwen3-14B(Thinking)(阿里巴巴)grok-3-latest(X.AI)DeepSeek-R1(深度求索)ChatGPT-4o-latest
Gemini
2.5
Flash
Preview
04-17(Google)NebulaCoder-V6(中興通訊)(OpenAI)ERNIE-4.0-Turbo-8K-Latest(百度)Pangu
Pro
MoE-72B-A16B(華為)kimi-K1.5(月之暗面)
Qwen3-8B(Thinking)(阿里巴巴)Spark
X1(科大訊飛)潛力探索者 技術(shù)領(lǐng)跑者推理能力Sky-Chat-3.0(昆侖萬維)Step-2-16k(階躍星辰)
Spark4.0
Ultra(科大訊飛)kimi-latest(月之暗面)Llama-3.3-70B-Instruct(Meta)MiniMax-Text-01(MiniMax)Claude-Opus-4-Reasoning(Anthropic)Gemini
2.5
Pro
Preview
05-06(Google)Yi-1.5-9B-Chat-16K(零一萬物)Llama-3.1-8B-Instruct(Meta)Mistral-7B-Instruct-v0.3(Mistral
AI)MiniCPM3-4B(面壁智能
)
Gemma-2-27b-it(Google)GLM-4-9B-Chat(智譜AI)Gemma-3-4b-it(Google)21海外及其他對比模型國內(nèi)模型國內(nèi)外通用大模型SuperCLUE基準(zhǔn)測評總榜Super
CLUE通用能力測評榜單——總榜來源:Super
CLUE,2025
年5
月28
日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距1
分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名。22Super
CLUE通用能力測評榜單——總榜Do
u
b
a
o-1.5-t
h
i
n
k
i
n
g-p
r
o-2
0
5
4
1
5
、S
e
n
s
e
N
o
v
a
V
6
R
e
a
s
o
n
e
r
等國內(nèi)模型表現(xiàn)亮眼。其中,
D
o
u
b
a
o-1.5-t
h
i
n
k
i
n
g-p
r
o-2
0
5
4
1
5
在文本創(chuàng)作與理解任務(wù)上以8
1.0
4
的高分領(lǐng)先其他模型。
Nebula
Coder-V
6
在數(shù)學(xué)推理得分上比o
4-mini(high)分別高出4.67
。2.國內(nèi)推理模型嶄露頭角,部分領(lǐng)域優(yōu)勢突出。Hunyuan-T
1-20250403
在國內(nèi)模型中指令遵循得分第一,為36.97分,但是與海外模型指令遵循得分第一的o
4-mini(h
i
gh)相比,差距達(dá)到了31.1分,國內(nèi)模型在指令遵循方面表現(xiàn)較弱,還有較大的提升空間。3.國內(nèi)大模型在指令遵循方面普遍低于海外模型。SuperC
L
UE-總榜Super
CLUE評測基準(zhǔn)2025
年5
月總體榜單顯示,o
4-mini(h
i
gh)在Super
CLUE-5
月測評中表現(xiàn)優(yōu)異,總分穩(wěn)居第一,達(dá)到70.51
分。該模型在推理、代碼生成、智能體、指令遵循等多個方面表現(xiàn)出卓越的綜合能力,特別是在代碼生成)、指令遵循方面得分較高,體現(xiàn)了其強(qiáng)大的邏輯推理和問題解決能力。測評分析1.o
4-mini(high)總分穩(wěn)居第一。23Super
CLUE通用能力測評榜單——基礎(chǔ)模型榜單Su
p
e
r
C
L
UE-基礎(chǔ)模型總榜測評分析從各模型在不同維度的得分來看,能力發(fā)展不均衡現(xiàn)象明顯。如代碼生成維度,Deep
Seek-V
3-
0324
得分84.81,而部分模型得分較低,差距巨大。在精確指令遵循維度,模型間分?jǐn)?shù)差異也較為顯著。這種不均衡體現(xiàn)了不同模型在能力側(cè)重上的差異,也反映出大模型在追求綜合能力提升時,仍面臨各維度能力協(xié)調(diào)發(fā)展的挑戰(zhàn)。3.各維度能力發(fā)展不均衡。根據(jù)基礎(chǔ)模型榜單可以發(fā)現(xiàn),Deep
Seek-V
3-0324
以60.10的總分位居榜首,在多個維度展現(xiàn)出強(qiáng)大實(shí)力,在科學(xué)推理、智能體Agent、文本理解與創(chuàng)作這三個類別都取得了基礎(chǔ)模型中的最高分。排名靠前的模型在總分上與靠后模型拉開明顯差距,顯示出頭部模型在綜合能力上的優(yōu)勢地位,也反映出大模型領(lǐng)域強(qiáng)者恒強(qiáng)的態(tài)勢。1.模型競爭激烈,頭部模型優(yōu)勢凸顯。在國內(nèi)模型表現(xiàn)方面,GLM-4-Air-250414
在數(shù)學(xué)推理上取得53.23的高分,僅次于De
e
p
Se
e
k-
V
3-0324
。這些國內(nèi)模型在細(xì)分領(lǐng)域的出色成績,表明國內(nèi)在大模型技術(shù)研發(fā)上不斷取得突破,在特定能力維度上已具備與國際模型競爭的實(shí)力。2.國內(nèi)模型在部分領(lǐng)域表現(xiàn)亮眼。24開源模型榜單S
u
p
e
r
C
L
U
E
開源榜單數(shù)據(jù)來源:SuperCLUE,2025年5月28日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距1分區(qū)間的模型定義為并列。其中模型參數(shù)量數(shù)據(jù)來源于官方披露,若模型為MoE
架構(gòu),以總參數(shù)量為準(zhǔn)。開源模型分析中文場景下,國內(nèi)開源模型已具備較大優(yōu)勢Deep
Seek系列開源模型、Qwen系列開源模型,在5
月Super
CLUE測評中表現(xiàn)優(yōu)異,均有超過Llama-4-Maverick-17B-128E-Instruct的表現(xiàn),引領(lǐng)全球開源生態(tài)。排名模型名稱機(jī)構(gòu)參數(shù)量總分1DeepSeek-R1深度求索671B61.942DeepSeek-V3-0324深度求索671B60.102Qwen3-32B(Thinking)阿里巴巴32B59.323Qwen3-235B-A22B(Thinking)阿里巴巴235B59.003Pangu
Pro
MoE-72B-A16B華為72B58.754Qwen3-14B(Thinking)阿里巴巴14B57.125Qwen3-8B(Thinking)阿里巴巴8B53.785Qwen3-30B-A3B(Thinking)阿里巴巴30B53.27-Llama-4-Maverick-17B-128E-InstructMeta400B52.896GLM-Z1-AirX智譜AI32B51.556GLM-4-Air-250414智譜AI32B51.456DeepSeek-R1-Distill-Qwen-32B深度求索32B50.817Qwen3-4B(Thinking)阿里巴巴4B46.048MiniMax-Text-01MiniMax456B43.35-Llama-3.3-70B-InstructMeta70B42.20-Gemma-3-27b-itGoogle27B41.74-Gemma-3-12b-itGoogle12B36.57-Gemma-3-4b-itGoogle4B27.779GLM-4-9B-Chat智譜AI9B27.73-Llama-3.1-8B-InstructMeta8B24.1210MiniCPM3-4B面壁智能4B21.0611Yi-1.5-9B-Chat-16K零一萬物9B19.81-Mistral-7B-Instruct-v0.3Mistral
AI7B12.4725Super
CLUE通用能力測評榜單——推理模型榜單Su
p
er
C
L
UE-推理模型總榜在代碼生成任務(wù)中,Qwen
3-235
B-A
22
B(Thinking)以90.53分位居國內(nèi)榜首,不僅在國內(nèi)領(lǐng)先,更與Open
AI的o
4-mini(high)差距微小。測評分析3.代碼生成能力成為競爭新焦點(diǎn),國內(nèi)模型實(shí)現(xiàn)突破。根據(jù)推理模型榜單可以發(fā)現(xiàn),國內(nèi)模型成績突出。Nebula
Coder-V
6
、Doubao-1.5-thinking-
pro-250415
和360
zhinao
2-o
1.5
并列第一,De
e
p
Se
e
k-R
1
、Q
we
n
3-235
B-A
22
B(Thinking)和
Se
nse
Nova
V
6
Re
asone
r并列國內(nèi)推理模型第二。國內(nèi)模型在數(shù)學(xué)推理、科學(xué)推理、代碼生成三大任務(wù)上相互競爭,彰顯出國內(nèi)模型發(fā)展的蓬勃態(tài)勢。1.國內(nèi)模型表現(xiàn)亮眼,競爭激烈。在數(shù)學(xué)推理維度,G
L
M-Z
1-A
i
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026云南臨滄市老年大學(xué)招聘手機(jī)常用軟件使用和手機(jī)視頻制作兼職教師備考題庫帶答案詳解(b卷)
- 山西省同煤一中聯(lián)盟校2026屆高三生物第一學(xué)期期末檢測試題含解析
- 可降解材料性能分析-洞察與解讀
- 公眾參與中的藝術(shù)責(zé)任機(jī)制-洞察與解讀
- 冠心病每搏變異分析-洞察與解讀
- MERS防控策略效果-洞察與解讀
- 農(nóng)業(yè)文化景觀與生態(tài)安全-第1篇-洞察與解讀
- 異構(gòu)系統(tǒng)熱管理-洞察與解讀
- 商業(yè)價值鏈重構(gòu)-洞察與解讀
- 手術(shù)部位識別標(biāo)示制度及流程
- 八年級地理上冊《中國的氣候》探究式教學(xué)設(shè)計(jì)
- 重慶市2026年高一(上)期末聯(lián)合檢測(康德卷)化學(xué)+答案
- 2026年湖南郴州市百??毓杉瘓F(tuán)有限公司招聘9人備考考試題庫及答案解析
- 2026貴州黔東南州公安局面向社會招聘警務(wù)輔助人員37人考試備考題庫及答案解析
- 2026年數(shù)字化管理專家認(rèn)證題庫200道及完整答案(全優(yōu))
- 鐵路除草作業(yè)方案范本
- 2026屆江蘇省常州市生物高一第一學(xué)期期末檢測試題含解析
- 2026年及未來5年市場數(shù)據(jù)中國高溫工業(yè)熱泵行業(yè)市場運(yùn)行態(tài)勢與投資戰(zhàn)略咨詢報(bào)告
- 教培機(jī)構(gòu)排課制度規(guī)范
- 2026年檢視問題清單與整改措施(2篇)
- 國家開放大學(xué)《基礎(chǔ)教育課程改革專題》形考任務(wù)(1-3)試題及答案解析
評論
0/150
提交評論