中文大模型基準(zhǔn)測評2025年5月報(bào)告_第1頁
中文大模型基準(zhǔn)測評2025年5月報(bào)告_第2頁
中文大模型基準(zhǔn)測評2025年5月報(bào)告_第3頁
中文大模型基準(zhǔn)測評2025年5月報(bào)告_第4頁
中文大模型基準(zhǔn)測評2025年5月報(bào)告_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中文大模型基準(zhǔn)測評2025年5月報(bào)告—2025中文大模型階段性進(jìn)展5月評估Super

CLUE團(tuán)隊(duì)2025

.

05

.

28精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖Accurately

quantifying

the

progress

of

AGI,defining

the

roadmap

for

humanity's

journey

towards

AGI.一、2025上半年度關(guān)鍵進(jìn)展及趨勢2025年上半年大模型關(guān)鍵進(jìn)展2025年最值得關(guān)注的中文大模型全景圖2025年國內(nèi)外大模型差距二、5月通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式各維度測評說明及示例測評模型列表三、總體測評結(jié)果與分析SuperCLUE模型象限SuperCLUE通用能力測評榜單SuperCLUE-Agent:智能體測評分析SuperCLUE性價比區(qū)間分布SuperCLUE大模型綜合效能區(qū)間分布國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單報(bào)

錄報(bào)告摘要(一)o4-mini(high)總分穩(wěn)居第一,綜合能力全面領(lǐng)先o4-mini(high)在本次5月測評中表現(xiàn)優(yōu)異,總分達(dá)到70.51分,超過國內(nèi)最好模型7.35分。該模型在推理、代碼生成、智能體、指令遵循等多個方面表現(xiàn)出卓越的綜合能力,特別是在代碼生成(91.52)、指令遵循(68.07)方面得分較高。國內(nèi)推理模型嶄露頭角,部分領(lǐng)域優(yōu)勢突出Doubao-1.5-thinking-pro-205415

、Sense

Nova

V

6

Reasoner等國內(nèi)模型表現(xiàn)亮眼。其中,D

o

u

b

a

o-1.5-t

h

i

n

k

i

n

g-p

r

o-2

0

5

4

1

5

在文本創(chuàng)作與理解任務(wù)以

81.04的高分領(lǐng)先其他模型。國內(nèi)大模型在指令遵循方面普遍低于海外模型Hunyuan-T1-20250403在國內(nèi)模型中指令遵循得分第一,為36.97分,但是與海外模型指令遵循得分第一的o4-mini(high)相比,差距達(dá)到了31.1分,國內(nèi)模型在指令遵循方面表現(xiàn)較弱,還有較大的提升空間。小參數(shù)模型表現(xiàn)超出預(yù)期多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是Qwen3系列,其中4B、8B和14B版本在推理任務(wù)上的分?jǐn)?shù)均超過50分,超越了眾多閉源大模型。3報(bào)告摘要(二)大模型性價比區(qū)間分布大模型推理效能區(qū)間分布4數(shù)據(jù)來源:S

u

p

e

r

C

L

U

E

,2

0

2

5

年5

月2

8

日;推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼的平均分。開源模型如Q

w

e

n

3-3

2

B(T

h

i

n

k

i

n

g)使用方式為A

P

I

,價格信息均來自官方信息。注:部分模型A

P

I

的價格是分別基于輸入和輸出的t

o

k

e

n

s

數(shù)量確定的。這里我們依照輸入t

o

k

e

n

s

與輸出t

o

k

e

n

s

3:1

的比例來估算其整體價格。價格信息取自官方在5

月的標(biāo)準(zhǔn)價格(非優(yōu)惠價格)。數(shù)據(jù)來源:S

u

p

e

r

C

L

U

E

,2

0

2

5

年5

月2

8

日;模型推理速度選取5

月測評中具有公開A

P

I

的模型。平均推理時間為所有測評數(shù)據(jù)推理時間的平均值(秒)。推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼生成的平均分。第一部分2025上半年度關(guān)鍵進(jìn)展及趨勢2025年上半年大模型關(guān)鍵進(jìn)展2025年最值得關(guān)注的中文大模型全景圖2025年國內(nèi)外大模型差距時間躍進(jìn)期2025上半年大模型關(guān)鍵進(jìn)展2022.122023.062024.062024.12

2025.062023.12深化期準(zhǔn)備期繁榮期

Chat

GPT發(fā)布,全球范圍內(nèi)迅速形成大模型共識。

GPT

4發(fā)布,進(jìn)一步掀起大模型研發(fā)熱潮。

國內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言1.0、通義千問、訊飛星火、

3

6

0智腦、C

h

a

t

G

L

M等首批模型相繼發(fā)布。

O

p

e

n

A

I發(fā)布S

o

r

a

,極大拓展了AI在視頻領(lǐng)域的想象力。

G

P

T-4

o、C

l

a

u

d

e

3.5、

Ge

mi

ni

1.5、Ll

ama

3發(fā)布,海外進(jìn)入“一超多強(qiáng)”的競爭格局。

國內(nèi)多模態(tài)領(lǐng)域進(jìn)展迅速,在部分領(lǐng)域領(lǐng)先海外。視頻生成模型可靈A

I、海螺視頻、v

i

d

u、

P

i

x

V

e

r

s

e等模型陸續(xù)發(fā)布,并在海外取得較大應(yīng)用進(jìn)展。

國內(nèi)通用模型持續(xù)提升。

Qwen

2.5、文心4.0、GLM

4、商量5.5等通用模型陸續(xù)更新。

O

p

e

n

A

I發(fā)布o(jì)

1系列模型、o

3系列模型和G

PT-4.5

,前者推動成本效益推理,后者展現(xiàn)出較高的情感智能。

Go

o

g

l

e發(fā)布G

e

m

i

n

i

2.0系列模型,推出De

e

p

Re

s

e

a

r

c

h

深度研究功能以及眾多海外推理模型的發(fā)布引發(fā)熱潮,推理性能大幅度提升。

國內(nèi)推理模型持續(xù)跟進(jìn)。K

0-

m

a

t

h、D

e

e

p

S

e

e

k-R

1-L

i

t

e、

Q

w

Q-3

2

B-P

r

e

v

i

e

w、G

L

M-

Z

e

r

o-P

r

e

v

i

e

w等推理模型陸續(xù)發(fā)布,繼續(xù)突破推理能力的上限。

L

l

a

m

a

2開源,極大助力全球大模型開發(fā)者生態(tài)。

G

P

T-4

T

u

r

b

o、G

e

m

i

n

i

等海外大模型發(fā)布,繼續(xù)提升模型性能。

國內(nèi)閉源大模型快速發(fā)展。豆包、混元、商量3.0、盤古3.0、

A

n

d

e

s

G

P

T、B

l

u

e

L

M、星火

3.0等陸續(xù)發(fā)布。國內(nèi)開源生態(tài)爆發(fā)。Bai

chuan、Q

w

e

n、I

n

t

e

r

n

L

M、

Chat

GLM

3、Yi-34

B等系列模型引領(lǐng)開源熱潮。自2022年11月30日ChatGPT發(fā)布以來,AI大模型在全球范圍內(nèi)掀起了有史以來規(guī)模最大的人工智能浪潮。國內(nèi)外AI機(jī)構(gòu)在過去2年半有了實(shí)質(zhì)性的突破。具體可分為:準(zhǔn)備期、躍進(jìn)期、繁榮期、深化期和融合期。SuperCLUE:AI大模型2025上半年關(guān)鍵進(jìn)展融合期關(guān)鍵進(jìn)展

頂級大模型能力邊界持續(xù)突破。

o

3、o

4-m

i

n

i、G

e

m

i

n

i

2.5系列、C

l

a

u

d

e

4系列模型相繼推出。

國內(nèi)外大模型差距顯著縮小,國內(nèi)模型實(shí)現(xiàn)彎道超車。

D

e

e

o

S

e

e

k-R

1通過開源與性價比優(yōu)勢推動普惠AI時代到來。國內(nèi)廠商普遍加速迭代,開源成為主流策略。在Deep

Seek-R

1、

Q

w

e

n系列模型開源后,國內(nèi)眾多廠商加入開源行列。

A

I智能體潛力被深度挖掘,向通用人工智能(

A

G

I

)愿景邁進(jìn)。

M

a

n

u

s、A

u

t

o

G

L

M沉思、

Gens

par

k、Fel

l

ou、扣子空間、天工超級智能體等A

g

e

n

t產(chǎn)品紛紛涌現(xiàn),加速AGI進(jìn)程。6納米AI超級搜索文本文生圖字節(jié)豆包AndesGPT通用閉源通用開源多模態(tài)文生視頻視覺理解行業(yè)醫(yī)療MindGPT螞蟻金融大模型軒轅大模型奇智孔明AInno-15B汽車教育金融工業(yè)妙想金融大模型營銷GLM-4v百川AI全科醫(yī)生醫(yī)聯(lián)M

e

d

G

P

T百度靈醫(yī)極氪Kr大模型易車大模型華為盤古工業(yè)大模型羚羊工業(yè)大模型其他妙筆大模型法律深勢分子大模型實(shí)時交互智譜清言星火極速通義APPSenseChat-VisionTeleChat2-35B語音合成/聲音復(fù)刻百度T

T

S訊飛語音合成CosyVoice推理DeepSeek-R1K1.5長思考360gpt2-o1.5SuperCLUE:2025年最值得關(guān)注的中文大模型全景圖Hunyuan-LargeMiniMax-01智能體深度研究Deep

Research通用閉源通用開源文心X1

TurboGLM4

Z1系列H

u

n

y

u

a

n

T

1隨時問快對得理法搜案牘AI豆包愛學(xué)......沉思深入研究小白研圖生視頻Speech-02天工超級智能體2025年國內(nèi)外大模型差距模型23年5月23年6月23年7月23年8月23年9月23年10月23年11月23年12月24年2月24年4月24年6月24年8月24年10月24年12月25年3月25年5月GPT最新模型(GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5、o3、o4-mini)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.476.0170.51國內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.370.3463.16國內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.366.3862.96國內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.464.6961.94總體趨勢上,國內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在縮小。2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GPT3.5、GPT4、GPT4-Turbo、GPT4o、o

1、o

3-mini、GPT-4.5、o

3、o

4-mini的多個版本的迭代升級。國內(nèi)模型也經(jīng)歷了波瀾壯闊的25

個月的迭代周期。但隨著o

4-mini的發(fā)布,差距從7.46%增加至10.42%。SuperCLUE基準(zhǔn):過去25個月國內(nèi)外TOP大模型對比趨勢國內(nèi)外Top1模型差距分?jǐn)?shù)國內(nèi)外Top1模型差距比例來源:Super

CLUE,2023

年5

月~

2025

年5

月,期間發(fā)布的16

次大模型基準(zhǔn)測評報(bào)告。8第二部分5月通用測評介紹SuperCLUE基準(zhǔn)介紹SuperCLUE大模型綜合測評體系SuperCLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式各維度測評說明及示例測評模型列表SuperCLUE是大模型時代背景下CLUE基準(zhǔn)的發(fā)展和延續(xù),是獨(dú)立、領(lǐng)先的通用大模型的綜合性測評基準(zhǔn)。中文語言理解測評基準(zhǔn)C

L

U

E

T

h

e

C

h

i

n

e

s

eLanguage

Understanding

Evaluation)

發(fā)起于2019年,陸續(xù)推出過CLUE、Few

CLUE、Zero

CLUE等廣為引用的測評基準(zhǔn)。2019

2020

2021

2022

2023

2024.01-06

2024.07-12

2024.12-2025.03

2025.03-050數(shù)據(jù)污染每2個月題庫100%替換題目100%原創(chuàng)傳統(tǒng)測評SuperCLUE易數(shù)據(jù)污染學(xué)術(shù)視角與應(yīng)用側(cè)較大偏差維度固定陳舊無法與時俱進(jìn)VSSuperCLUE三大特征產(chǎn)業(yè)+用戶視角SuperCLUE與傳統(tǒng)測評的區(qū)別維度Live更新題目固定

過擬合風(fēng)險高010203“Live”更新,0數(shù)據(jù)污染測評方式與用戶交互一致獨(dú)立第三方,無自家模型測評題庫每2個月1

0

0%替換且全部原創(chuàng),杜絕過擬合風(fēng)險。體系維度根據(jù)大模型進(jìn)展Live更新。測評方法與用戶交互方式保持一致,測評任務(wù)貼近真實(shí)落地場景,高度還原用戶視角。完全獨(dú)立的第三方評測機(jī)構(gòu),不研發(fā)自家模型。承諾提供無偏倚的客觀、中立評測結(jié)果。Super

CLUE基準(zhǔn)介紹CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會論文,并承辦了NLPCC2020開放測評任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個知名測評基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布

DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語義理解數(shù)據(jù)集中文領(lǐng)域首個通用

大模型測評基準(zhǔn)

SuperCLUE正式發(fā)布發(fā)布首個中文多輪開放式發(fā)布數(shù)學(xué)、代碼、長文本、RAG等測評基準(zhǔn);發(fā)布文生視頻、文測評基準(zhǔn)SuperCLUE-Open;生圖、視覺理解等發(fā)布行業(yè)測評基準(zhǔn) 多模態(tài)測評基準(zhǔn)發(fā)布AI編程助手等

AI應(yīng)用測評基準(zhǔn);發(fā)布鏈?zhǔn)酵评淼?/p>

推理測評基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測評基準(zhǔn)AgentCLUE開源Math24o高中奧林匹克數(shù)學(xué)競賽測評集;發(fā)布新版文生圖、圖生視頻、視覺推理等中文測評基準(zhǔn);發(fā)布中文通用AI智能體測評基準(zhǔn)AgentCLUE-General;發(fā)布中文大模型幻覺測評系列基準(zhǔn)發(fā)布數(shù)學(xué)競賽、科學(xué)推理、項(xiàng)目級代碼生成等推理測評基準(zhǔn);發(fā)布實(shí)時音視頻、視覺語言多模態(tài)測評基準(zhǔn)

發(fā)布DeepSeek第三方平臺性能基準(zhǔn)10基于大模型技術(shù)和應(yīng)用發(fā)展趨勢、以及基準(zhǔn)測評專業(yè)經(jīng)驗(yàn),Super

CLUE構(gòu)建出多領(lǐng)域、多層次的大模型綜合性測評基準(zhǔn)框架。從基礎(chǔ)到應(yīng)用覆蓋:通用基準(zhǔn)體系、文本專項(xiàng)系列基準(zhǔn)、多模態(tài)系列基準(zhǔn)、推理系列基準(zhǔn)、Agent系列基準(zhǔn)、AI應(yīng)用基準(zhǔn)、性能系列基準(zhǔn)。為產(chǎn)業(yè)、學(xué)術(shù)和研究機(jī)構(gòu)的大模型研發(fā)提供重要參考。S

u

p

e

r

C

L

U

E

大模型綜合測評基準(zhǔn)框架已發(fā)布即將發(fā)布Super

CLUE大模型綜合測評體系長文本SuperCLUE-Long超長文本SuperCLUE-200K角色扮演SuperCLUE-Role多輪對抗安全SuperCLUE-Safety視頻文生視頻SuperCLUE-T2V圖像/視覺實(shí)時音視頻交互SuperCLUE-Live文生圖SuperCLUE-Image語音實(shí)時語音交互SuperCLUE-Voice語音合成SuperCLUE-TTS多模態(tài)視覺語言SuperCLUE-VLM通用可執(zhí)行智能體AgentCLUE終端智能體行業(yè)智能體零售教育醫(yī)療...不可執(zhí)行智能體SuperCLUE-Agent手機(jī)PC眼鏡...數(shù)學(xué)推理科學(xué)推理代碼生成智能體Agent精確指令遵循文本理解與創(chuàng)作AI產(chǎn)品AI搜索

SuperCLUE-AISearch代碼助手SuperCLUE-Coder行業(yè)金融SuperCLUE-Fin工業(yè)SuperCLUE-Industry汽車SuperCLUE-Auto智能座艙SuperCLUE-Icabin實(shí)時音視頻SuperCLUE-Live通用基準(zhǔn) 文本專項(xiàng)基準(zhǔn) 多模態(tài)基準(zhǔn) 推理基準(zhǔn)

Agent基準(zhǔn) 應(yīng)用基準(zhǔn)視覺推理SuperCLUE-VLR科學(xué)推理SuperCLUE-Science全國高中數(shù)學(xué)競賽MathCLUE項(xiàng)目級代碼SuperCLUE-Project鏈?zhǔn)酵评鞸uperCLUE-COT小學(xué)奧數(shù)SuperCLUE-Math6o代碼SuperCLUE-Code3數(shù)學(xué)多步推理SuperCLUE-Math6性能基準(zhǔn)深度研究DeepResearchDeepSeek-R1系列DeepSeek-R1第三方聯(lián)網(wǎng)搜索

能力測試(網(wǎng)頁端)DeepSeek-R1第三方穩(wěn)定性測試(App端)DeepSeek-R1第三方穩(wěn)定性測試(API端)DeepSeek-R1第三方穩(wěn)定性測試(網(wǎng)頁端)其余系列注:通用基準(zhǔn)介紹可在報(bào)告中查看,其余基準(zhǔn)可點(diǎn)擊對應(yīng)鏈接跳轉(zhuǎn)至最新的發(fā)布文章。檢索增強(qiáng)SuperCLUE-RAG聲音復(fù)刻SuperCLUE-Cloning中文通用AI智能體AgentCLUE-General幻覺事實(shí)性幻覺SuperCLUE-Fact忠實(shí)性幻覺SuperCLUE-Faith圖生視頻SuperCLUE-I2V開源數(shù)據(jù)集Math24o競賽級別代碼研究生級別數(shù)學(xué)大模型推理速度測評11Super

CLUE通用測評基準(zhǔn)數(shù)據(jù)集及評價方式1.數(shù)學(xué)推理介紹:主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)等競賽級別數(shù)據(jù)集。評價方式:基于人工校驗(yàn)參考答案的評估(0-1得

分)2.科學(xué)推理介紹:主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。評價方式:基于人工校驗(yàn)參考答案的評估(0-1得

分)3.代碼生成介紹:主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。HumanEval的中文升級版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。評價方式:基于代碼單元測試的評估(0-1得分)4.智能體Agent介紹:主要考察在中文場景下基于可執(zhí)行的環(huán)境,

LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。評價方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評

估(0-1得分)5.精確指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評價方式:基于規(guī)則腳本的評估(0-1得分)本次2025年5月報(bào)告聚焦通用能力測評,由六大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1579

道多輪簡答題?!維uper

CLUE通用數(shù)據(jù)集】共有數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創(chuàng)作六大任務(wù);【Super

CLUE評價方式】分為基于人工校驗(yàn)參考答案的評估(

0-1

得分)、基于代碼單元測試的評估(

0-1

得分)、結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對的評估(

0-1

得分)、基于規(guī)則腳本的評估(

0-1

得分)、人工校驗(yàn)參考答案的、多維度評價標(biāo)準(zhǔn)的評估。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評價方式6.文本理解與創(chuàng)作介紹:主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。評價方式:人工校驗(yàn)參考答案的、多維度評價標(biāo)準(zhǔn)

的評估12各維度測評說明及示例——數(shù)學(xué)推理測評說明SuperCLUE-數(shù)學(xué)推理評測數(shù)據(jù)集測評方法評測流程:我們采用模型評價的方式來評估大模型在【數(shù)學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯誤,即0或1)。以【代數(shù)學(xué)】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目的具體得分為1分;反之,假設(shè)在另一個具體的題目中,模型A的最終答案與參考答案不等價,則該題目的具體得分為0分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣最終的得分可以清晰地反映模型在【數(shù)學(xué)推理】任務(wù)中的表現(xiàn)。這一方法實(shí)現(xiàn)了完全的客觀評估性。示例-數(shù)學(xué)推理數(shù)學(xué)推理主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計(jì)等競賽級別數(shù)據(jù)集。問題:模型回答:評價打分:綜合以上,AI助手的回答的綜合得分(平均分)為[[1.00]]。13各維度測評說明及示例——科學(xué)推理測評說明SuperCLUE-科學(xué)推理評測數(shù)據(jù)集測評方法評測流程:我們采用模型評價的方式來評估大模型在【科學(xué)推理】任務(wù)上的表現(xiàn),使用高級模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯誤,即0或1)。以【物理】任務(wù)為例,假設(shè)在一個具體的題目中,模型A的最終答案與參考答案等價,則該題目的具體得分為1分;反之,假設(shè)在另一個具體的題目中,模型A的最終答案與參考答案不等價,則該題目的具體得分為0分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣最終的得分可以清晰地反映模型在【科學(xué)推理】任務(wù)中的表現(xiàn)。這一方法實(shí)現(xiàn)了完全的客觀評估性。示例-科學(xué)推理科學(xué)推理主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。問題:模型回答:評價打分:綜合以上,AI助手的回答的綜合得分(平均分)為[[1.00]]。14各維度測評說明及示例——代碼生成測評說明SuperCLUE-代碼生成評測數(shù)據(jù)集代碼生成主要考察模型在處理編程任務(wù)時理解和生成代碼的能力。Human

Eval的中文升級版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。測評方法評測流程:整體測評流程包括:1.獲取模型答案;2.提取功能函數(shù);3.測試功能函數(shù);4.計(jì)算模型得分。獲取模型答案:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對于一個代碼補(bǔ)全問題,每個模型獲取一次答案。提取功能函數(shù):獲取到模型回復(fù)之后,結(jié)合prompt要求和模型回答設(shè)定規(guī)則提取函數(shù)代碼。測試功能函數(shù):對于一個代碼補(bǔ)全問題,將提取得到的代碼和該問題對應(yīng)的N個測試用例組裝成N個可獨(dú)立運(yùn)行的單元測試程序,在沙箱環(huán)境運(yùn)行(沙箱環(huán)境python版本設(shè)置為3.10)。計(jì)算模型得分:對于一個代碼補(bǔ)全問題和1個測試用例,構(gòu)成一個單元測試,通過測試得1分。最終計(jì)算模型在所有單元測試中得分平均分*100作為最終的得分。問題:import

itertoolsfrom

typing

import

List,

Any,Dictdef

candidate(programmers:

List[Dict[str,A

n

y

]

]

,

r

e

q

u

i

r

e

d

_

s

k

i

l

l

s

:

L

i

s

t

[

s

t

r

]

,team_size_k:

int)

->

List[int]:"""組建一個由恰好`team_size_k`名成員組成的編程競賽團(tuán)隊(duì)。<篇幅有限省略>輸出:-選定團(tuán)隊(duì)成員的'id'列表,按升序排列。如果無解,則為空列表。"""示例-代碼生成模型回答:import

itertoolsfrom

typing

import

List,

Any,Dictdef

candidate(programmers:

List[Dict[str,

Any]],required_skills:

List[str],

team_size_k:

int)

->

List[int]:n

=

len(programmers)best_synergy

=

None

best_ids:

List[int]

=

[]

required

=set(required_skills)<篇幅有限省略>elif

total

==best_synergy:ids

=

sorted(programmers[i]['id']

for

i

in

comb)if

ids

<best_ids:best_ids

=

idsreturn

best_ids

if

best_synergy

is

not

None

else

[]測試功能函數(shù):defcheck(candidate):assert

candidate([{'id':

0,

'skills':

['Python',

'AI'],

'synergy_scores':

[0,5,2]},

{'id':

1,

'skills':

['Java','Web'],

'synergy_scores':

[5,0,3]},

{'id':

2,

'skills':

['Python',

'DB'],

'synergy_scores':

[2,3,0]}],

['Python','Web'],

2)

==

[0,

1]assert

candidate([{'id':0,'skills':['P'],'synergy_scores':[0,10]},{'id':1,'skills':['J'],'synergy_scores':[10,

0]}],['P','J'],2)

==

[0,1]assert

candidate([{'id':0,'skills':['P'],'synergy_scores':[0]}],['P'],2)

==

[]assert

candidate([],

['P'],

1)

==

[]計(jì)算模型得分:測試通過,得1分。15各維度測評說明及示例——智能體Agent測評說明SuperCLUE-智能體Agent數(shù)據(jù)集智能體Agent主要考察在中文場景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對話和常規(guī)多輪對話。測評方法示例-智能體Agent描述:??次Agent測評共包含10個API,??題用到一個API。車輛控制系統(tǒng):該工具屬于車輛控制系統(tǒng),允許用戶控制汽車的各個方面,如發(fā)動機(jī)、車門、空調(diào)、燈光等。prompt:你是一個組合函數(shù)完成任務(wù)的專家。你將會收到一個問題和一些可以調(diào)用的函數(shù)及其描述?;趩栴},你需要調(diào)用一個或者多個函數(shù)來實(shí)現(xiàn)問題要求。對于問題中的計(jì)算需求,你必須調(diào)用提供的函數(shù)進(jìn)行計(jì)算,否則視為錯誤。如果使用你收到的函數(shù)無法完成問題要求,請指出。如果你收到的問題缺乏調(diào)用函數(shù)所必要的參數(shù)<篇幅有限省略>下面提供了一個列表,列表中是一些你可以調(diào)用的函數(shù)以及函數(shù)的功能和參數(shù)描述,使用json格式<篇幅有限省略>【問題】:我想要知道北京和西安之間的距離。【模型回復(fù)1】:【函數(shù)調(diào)用開始】```[get_zipcode_based_on_city(city="北京"),get_zipcode_based_on_city(city="西安")]```

【函數(shù)調(diào)用結(jié)束】【模型得到的反饋1】:下面是根據(jù)你回復(fù)的函數(shù)調(diào)用執(zhí)行得到的結(jié)果,你可以據(jù)此判斷是否完成了用戶的需求。如果已經(jīng)完成,你可以停止回復(fù)函數(shù)調(diào)用,根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任務(wù),你可以決定給出新的函數(shù)調(diào)用。下面是函數(shù)調(diào)用結(jié)果:第1個函數(shù)調(diào)用:get_zipcode_based_on_city(city='北京'),執(zhí)行返回結(jié)果為:{"zipcode":"352415"}第2個函數(shù)調(diào)用:get_zipcode_based_on_city(city='西安'),執(zhí)行返回結(jié)果為:{"zipcode":"541227"}注意:一旦你決定進(jìn)行函數(shù)調(diào)用,你的回復(fù)中只能包括函數(shù)調(diào)用。你的函數(shù)調(diào)用(functioncalls)必須嚴(yán)格遵循以下格式給出:“【函數(shù)調(diào)用開始】```[func_name1(params_name1=params_value1,params_name2=params_value2...),

func_name2(params)]```【函數(shù)調(diào)用結(jié)束】”,不應(yīng)該包括任何其他文???!灸P突貜?fù)2】:【函數(shù)調(diào)用開始】```[estimate_distance(cityA="352415",cityB="541227")]```

【函數(shù)調(diào)用結(jié)束】【模型得到的反饋2】:下面是根據(jù)你回復(fù)的函數(shù)調(diào)用執(zhí)行得到的結(jié)果,你可以據(jù)此判斷是否完成了用戶的需求。如果已

經(jīng)完成,你可以停止回復(fù)函數(shù)調(diào)用,根據(jù)執(zhí)行結(jié)果回答用戶的問題。如果沒有完成任務(wù),你可以決定給出新的函數(shù)調(diào)用。下面是函數(shù)調(diào)用結(jié)果:第1個函數(shù)調(diào)用:estimate_distance(cityA='352415',cityB='541227'),執(zhí)行返回結(jié)果為:{"distance":780.0}注意:一旦你決定進(jìn)行函數(shù)調(diào)用,你的回復(fù)中只能包括函數(shù)調(diào)用。你的函數(shù)調(diào)用(function

calls)必須嚴(yán)格遵循以下格式給出:“【函數(shù)調(diào)用開始】```[func_name1(params_name1=params_value

1,params_name

2=params_value

2...),

func_name2(params)]```【函數(shù)調(diào)用結(jié)束】”,不應(yīng)該包括任何其他文???!灸P突貜?fù)3】:北京和西安之間的距離約為780公里。??題共1輪問題,解決問題需要調(diào)用3次工具,模型的回答中3次工具調(diào)用均正確,則??輪回答正確,記1分。評測流程:每一題包含N輪對話,每一輪對話為一個記分單元,答對記1分。我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是否回復(fù)正確。評價維度包括:函數(shù)調(diào)用執(zhí)行結(jié)果、執(zhí)行后的系統(tǒng)狀態(tài)。對于每一輪模型回復(fù)的評價方法:獲取模型答案之后,從中提取可執(zhí)行的函數(shù)調(diào)用。執(zhí)行提取的函數(shù)調(diào)用得到執(zhí)行結(jié)果集1,以及執(zhí)行后的系統(tǒng)狀態(tài)1;執(zhí)行人類標(biāo)注的ground

truth(函數(shù)調(diào)用)得到執(zhí)行結(jié)果集2,系統(tǒng)狀態(tài)2;將執(zhí)行結(jié)果集1與執(zhí)行結(jié)果集2進(jìn)行比較,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2進(jìn)行比較;如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模型的本輪回復(fù)正確,得1分。最后,計(jì)算答對的記分單元的比例,轉(zhuǎn)化為百分制得到模型的總分。即:模型得分=(答對的記分單元數(shù)量/記分單元總數(shù)量)*10016各維度測評說明及示例——精確指令遵循測評說明評測流程:我們完成了一個針對不同的語言模型的(文本輸出)精確指令遵循表現(xiàn)的測試,根據(jù)設(shè)定的評估標(biāo)準(zhǔn)進(jìn)行評估。評估的結(jié)果為布爾值(True

或False)。以【寫一篇關(guān)于可再生能源對減少碳排放的作用的短文。要求文章不得使用“二氧化碳”這個詞,字?jǐn)?shù)不少于10個字,以JSON格式返回】任務(wù)為例:設(shè)定的評價標(biāo)準(zhǔn)包括:遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會得到True的返回結(jié)果。例如:模型輸出結(jié)果1:{"response":"可再生能源在減少碳排放和減輕氣候變化方面起著關(guān)鍵作用,未來應(yīng)加快推廣。

"}符合所有要求,返回True。模型輸出結(jié)果2:{"response":"使用可再生能源可以減少二氧化碳排放。"}違背了關(guān)鍵詞限制,返回False。最后,我們將所有題目的評估結(jié)果進(jìn)行匯總,根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率,命中率以百分比為單位。具體來說,命中率計(jì)算公式為:命中率=(模型完全命中的題目數(shù)量÷總題目數(shù)量)*

100%SuperCLUE-精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測評方法示例-精確指令遵循問題:近年來,隨著全球化的加速和國際貿(mào)易的擴(kuò)展,港口物流在現(xiàn)代經(jīng)濟(jì)中的地位日益重要。港口不僅是貨物進(jìn)出口的主要節(jié)點(diǎn),也是地區(qū)經(jīng)濟(jì)發(fā)展的動力?,F(xiàn)代化港口包含多種設(shè)施,如貨運(yùn)碼頭、倉儲區(qū)域、集裝箱處理設(shè)備等,同時依賴復(fù)雜的信息系統(tǒng)進(jìn)行管理。然而,港口物流也面臨諸多挑戰(zhàn),包括環(huán)保壓力、交通擁堵和技術(shù)更新需求。為了解這些挑戰(zhàn)并尋找解決方案,我們需要深入研究港口物流的各個方面,包括技術(shù)應(yīng)用、管理模式和未來發(fā)展趨勢。請撰寫一篇關(guān)于“港口物流未來技術(shù)趨勢”的分析文章。在文章中必須出現(xiàn)“自動化”、“綠色能源”和“信息化”這三個關(guān)鍵詞,每個關(guān)鍵詞必須至少出現(xiàn)3次。文章只能有4個段落(不要出現(xiàn)標(biāo)題),每個段落用“~~”符號分隔。第3段必須恰好由5個句子(句子用中文句號或中文問號或中文感嘆號分隔)組成。整篇文章只能有1

2個句子。請確保內(nèi)容結(jié)構(gòu)清晰,并對未來的技術(shù)趨勢進(jìn)行合理推測。模型回答:近年來,港口物流在全球供應(yīng)鏈中扮演著越來越重要的角色,推動了區(qū)域經(jīng)濟(jì)的快速發(fā)展。面對日益嚴(yán)峻的環(huán)保要求,越來越多港口開始引入綠色能源項(xiàng)目以減少碳排放。在此過程中自動化技術(shù)和信息化平臺成為提升作業(yè)效率的關(guān)鍵?!詣踊褕?、智能導(dǎo)航車輛和無人駕駛設(shè)備正在改造傳統(tǒng)碼頭作業(yè)流程,縮短了周轉(zhuǎn)時間并降低人力成??。同時,借助信息化手段實(shí)時監(jiān)控貨物流向,提高了資源利用率。~~智能港口將通過自動化設(shè)備實(shí)現(xiàn)全天候無人值守操作,從而大幅提升生產(chǎn)效率和作業(yè)安全。大規(guī)模部署的綠色能源系統(tǒng)如太陽能光伏和風(fēng)力發(fā)電正在為港口設(shè)施提供可靠的清潔動力,降低對化石燃料的依賴。信息化平臺與人工智能算法深度融合能夠優(yōu)化航線調(diào)度、貨柜追蹤及能耗管理,釋放更多數(shù)據(jù)價值。5G網(wǎng)絡(luò)和物聯(lián)網(wǎng)技術(shù)進(jìn)一步支撐了港口內(nèi)部的實(shí)時數(shù)據(jù)交換和遠(yuǎn)程控制,有助于精準(zhǔn)預(yù)測需求和資源配置。未來幾年,隨著區(qū)塊鏈技術(shù)的引入和大數(shù)據(jù)分析的普及,港口物流的透明度和協(xié)作水平將進(jìn)入新的高度?!嫦蛭磥恚劭趯⒊掷m(xù)融合自動化、信息化與綠色能源解決方案,朝著智能化、低碳和高效的方向邁進(jìn)。各方需加強(qiáng)技術(shù)研發(fā)與跨領(lǐng)域協(xié)同,才能確保港口物流系統(tǒng)的可持續(xù)發(fā)展和競爭優(yōu)勢。評價打分:??題存在三個精確指令考察:1)關(guān)鍵詞出現(xiàn)頻率;2)段落數(shù)量;3)句子數(shù)量。模型的回答符合要求,得一分。17各維度測評說明及示例——文本理解與創(chuàng)作測評說明SuperCLUE-文本理解與創(chuàng)作評測數(shù)據(jù)集測評方法評測流程:我們采用高級AI模型(例如GPT-4o)來評估不同任務(wù)的表現(xiàn),根據(jù)設(shè)定的評價標(biāo)準(zhǔn)進(jìn)行打分(1-5分)。以【生成與創(chuàng)作】任務(wù)為例,設(shè)定的評價標(biāo)準(zhǔn)包括:符合基本要求、語言與邏輯連貫性、推理鏈條完整度。假設(shè)在一個具體的題目中,模型A的得分如下:符合基本要求3分、語言與邏輯連貫性4分、推理鏈條完整度5分。首先,我們計(jì)算這一題目的平均得分:因此,該題目的具體得分為4分。最后,將所有題目的得分進(jìn)行歸一化處理,以確保滿分為100分。這樣,每個任務(wù)的得分都能清晰地反映模型在不同標(biāo)準(zhǔn)下的表現(xiàn)。示例-文本理解與創(chuàng)作問題:請總結(jié)以下文??,形成摘要:我正經(jīng)過清風(fēng)橋,腳下的石板路面帶著一種古舊的溫潤感,被無數(shù)腳步打磨得光滑,卻又在縫隙里藏著青苔的濕意與歲月的低語。橋身并非全然的平坦,帶著一絲不易察覺的弧度向上微微拱起,仿佛是大地溫和的呼吸,引領(lǐng)著行人走向河流的中央,也走向視野的開闊處。欄桿是鐵藝的,纏繞著復(fù)古的卷草紋飾,油漆早已斑駁,露出底下暗紅色的鐵銹,像是一道道時光刻下的傷痕,卻也平添了幾分滄桑的韻味。我將手輕輕搭在冰涼的欄桿上,指尖能感受到那細(xì)微的震動,或許是橋下水流沖擊橋墩的回響,又或許是遠(yuǎn)處車流駛過橋面時傳遞而來的生命脈動。風(fēng),確實(shí)如橋名一般,帶著清爽的氣息,從寬闊的江面上吹拂而來,撩動我的發(fā)梢,也試圖吹散心中那一點(diǎn)莫名的滯重感。<篇幅有限省略>模型回答:作者漫步清風(fēng)橋,細(xì)致描繪了橋的古舊韻味(光滑石板、微拱橋身、斑駁鐵藝欄桿)、周邊自然景致(碧綠江水、碎金般的陽光、薄霧中的城市天際線、掠過的水鳥)及兩岸對比(現(xiàn)代濱江公園的生活氣息與古舊民居的煙火味)。橋上行人百態(tài)(下棋老人、嬉鬧孩童、寫生學(xué)生等)與作者的駐足觀察交織,觸發(fā)對時光流轉(zhuǎn)、生活復(fù)雜的感悟——橋不僅是地理連接,更承載著時間的過往與未來、情感的此岸與彼岸。作者由此追憶少年時的憧憬,感慨當(dāng)下心境的平和,在江風(fēng)與流水的陪伴中,獲得心靈的澄明與前行的堅(jiān)定,最終帶著橋上的寧靜思考,重新融入生活。評價打分:打分與評價開始:基于標(biāo)準(zhǔn)1的符合基??要求:AI助手準(zhǔn)確回應(yīng)了用戶的問題,并圍繞文??內(nèi)容進(jìn)行了高度相關(guān)的總結(jié)??偨Y(jié)結(jié)構(gòu)清晰,滿足用戶的提問意圖與需求。略微可以強(qiáng)化對某些細(xì)節(jié)的表達(dá)與隱含情感的深入梳理。得分:4.5分。基于標(biāo)準(zhǔn)2的事實(shí)正確性:AI助手整體回答的事實(shí)性較強(qiáng),與原文??內(nèi)容一致,涵蓋了關(guān)鍵部分如橋上的細(xì)節(jié)描寫、兩岸的對比、行人百態(tài)與心靈感悟等。未發(fā)現(xiàn)明顯的事實(shí)錯誤,且表達(dá)符合文??意境要求。得分:5.0分?;跇?biāo)準(zhǔn)3的清晰度:回答語言表達(dá)流暢且清晰,條理明晰,閱讀起來易于理解?;卮痣m簡潔,但對于部分意象的表現(xiàn)力略顯不足,無法完全展現(xiàn)原文??感性的細(xì)膩美。可以補(bǔ)充一些具體的描述增強(qiáng)表現(xiàn)力。得分:4.0分。綜合以上,AI助手的回答的綜合得分(平均分)為[[4.50]]。文本理解與創(chuàng)作主要考察模型在處理文本相關(guān)任務(wù)時的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長文本等基礎(chǔ)語義理解和生成創(chuàng)作數(shù)據(jù)集。18本次測評數(shù)據(jù)選取了Su

p

er

CL

UE-5月測評結(jié)果,模型選取了國內(nèi)外有代表性的43個大模型在5月份的版本。測評模型列表模型機(jī)構(gòu)簡介模型機(jī)構(gòu)簡介1.Qwen3-235B-A22B(Thinking)阿里巴巴官方發(fā)布的MoE推理模型,使用阿里云公開的API:qwen3-235b-a22b。24.Gemma-3-27b-itGoogleGemma3開源系列27B模型,使用官方API:gemma-3-27b-it。2.Qwen3-30B-A3B(Thinking)阿里巴巴官方發(fā)布的MoE推理模型,使用阿里云公開的API:qwen3-30b-a3b。25.Gemma-3-12b-itGoogleGemma3開源系列12B模型,使用官方API:gemma-3-12b-it。3.Qwen3-32B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-32b。26.Gemma-3-4b-itGoogleGemma3開源系列4B模型,使用官方API:gemma-3-4b-it。4.Qwen3-14B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-14b。27.Llama-4-Maverick-17B-128E-

Instruct-FP8Meta使用together.ai的接口:meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8。5.Qwen3-8B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-8b。28.Llama-3.3-70B-InstructMeta使用together.ai的接口:meta-llama/Llama-3.3-70B-Instruct-Turbo。6.Qwen3-4B(Thinking)阿里巴巴官方發(fā)布的Dense推理模型,使用阿里云公開的API:qwen3-4b。29.Llama-3.1-8B-InstructMeta使用together.ai的接口:meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo。7.Step-2-16k階躍星辰官方公開發(fā)布的API版本:step-2-16k。30.ChatGPT-4o-latestOpenAI與ChatGPT上的GPT-4o同版本,對應(yīng)OpenAI官方的API名稱:chatgpt-4o-latest。8.Sky-Chat-3.0昆侖萬維昆侖萬維發(fā)布的千億級別MOE

模型,使用官方的API接口。31.o4-mini(high)OpenAI使用方式為AZURE

OpenAI

Service的API接口,reasoning_effort參數(shù)設(shè)置為:high。9.GLM-4-Air-250414智譜AI官方發(fā)布的全新語言模型,使用官方的API:GLM-4-Air-250414。32.o3OpenAIOpenAI在2025年4月16日發(fā)布的最新推理模型o3,使用方式為POE:o3。10.GLM-Z1-AirX智譜AI官方發(fā)布的GLM-Z1系列推理模型,使用官方的API:GLM-Z1-AirX。33.360zhinao2-o1.5360官方提供的小范圍內(nèi)測版本,使用方式為API。11.GLM4_9B_Chat智譜AI官方開源的GLM-4-9B-Chat,對應(yīng)huggingface

倉庫名稱:THUDM/glm-4-9b-chat。34.grok-3-latestX.AIX.AI在2025年2月19日推出的模型版本,使用官方API,版本名稱為:grok-3-latest。12.DeepSeek-V3-0324深度求索深度求索在2025年3月24日發(fā)布的新版本V3模型,使用官方API:deepseek-chat。35.ERNIE-X1-Turbo-32K百度百度發(fā)布的深度思考模型,使用百度千帆的API,版本名稱為:ernie-x1-turbo-32k。13.DeepSeek-R1深度求索深度求索在2025年1月20日發(fā)布的開源推理模型,使用官方API:deepseek-reasoner。36.Pangu

Pro

MoE-72B-A16B華為官方提供的小范圍內(nèi)測版本,使用方式為API。見技術(shù)報(bào)告:/pdf/2505.21411。14.DeepSeek-R1-Distill-Qwen-32B深度求索基于Qwen2.5-32B的蒸餾模型,使用阿里云API:deepseek-r1-distill-qwen-32b。37.NebulaCoder-V6中興通訊官方提供的小范圍內(nèi)測版本,使用方式為API。15.Spark

X1科大訊飛科大訊飛發(fā)布的API版本:Spark

X1。38.MiniMax-Text-01MiniMax官方發(fā)布的新一代模型,使用方式為API,版本名稱為:MiniMax-Text-01。16.Spark4.0

Ultra科大訊飛科大訊飛發(fā)布的API版本:Spark4.0

Ultra。39.Hunyuan-T1-20250403騰訊官方發(fā)布的深度思考模型,使用方式為API:hunyuan-t1-20250403。17.kimi-latest月之暗面與Kimi智能助手產(chǎn)品使用的大模型同版本,使用API:kimi-latest。40.SenseNova

V6

Reasoner商湯官方提供的小范圍內(nèi)測版本,使用方式為API。18.kimi-K1.5月之暗面月之暗面推出的推理模型,使用官網(wǎng)網(wǎng)頁(開啟“K1.5長思考”模式)。41.Yi-1.5-9B-Chat-16K零一萬物官方開源版本,huggingface

倉庫名稱:01-ai/Yi-1.5-9B-Chat-16K。19.Doubao-1.5-thinking-pro-250415字節(jié)跳動官方發(fā)布的深度思考模型,使用方式為API:doubao-1-5-thinking-pro-250415。42.Mistral-7B-Instruct-v0.3Mistral

AI官方開源版本,對應(yīng)huggingface

倉庫名稱:mistralai/Mistral-7B-Instruct-v0.3。20.Claude-Opus-4-ReasoningAnthropic官方發(fā)布的ClaudeOpus

4,使用方式為POE:Claude-Opus-4-Reasoning。43.MiniCPM3-4B面壁智能官方開源版本。對應(yīng)huggingface倉庫名稱:openbmb/MiniCPM3-4B。21.Gemini

2.5

Pro

Preview

05-06GoogleGemini

2.5

Pro的預(yù)覽版本,使用官方API:gemini-2.5-pro-preview-05-06。///22.Gemini

2.5

Flash

Preview

04-17GoogleGemini

2.5

Flash的預(yù)覽版本,使用官方API:gemini-2.5-flash-preview-04-17。///23.Gemini

2.5

Flash

Preview

05-20GoogleGemini

2.5

Flash的預(yù)覽版本,使用官方API:gemini-2.5-flash-preview-05-20。///第三部分總體測評結(jié)果與分析SuperCLUE模型象限SuperCLUE通用能力測評榜單SuperCLUE-Agent:智能體測評分析SuperCLUE性價比區(qū)間分布SuperCLUE大模型綜合效能區(qū)間分布國內(nèi)大模型成熟度-SC成熟度指數(shù)評測與人類一致性驗(yàn)證開源模型榜單10B級別小模型榜單端側(cè)5B級別小模型榜單SuperCLUE模型象限(2025)應(yīng)用能力實(shí)用主義者卓越領(lǐng)導(dǎo)者來源:Super

CLUE,2025

年5

月28

日;注:1.兩個維度的組成。推理能力包含:數(shù)學(xué)推理、科學(xué)推理、代碼;應(yīng)用能力包括:文本理解與創(chuàng)作、指令遵循、Agent能力;2.四個象限的含義。它們代表大模型所處的不同階段與定位,其中【潛力探索者】代表模型正在探索階段未來擁有較大潛力;【技術(shù)領(lǐng)跑者】代表模型在基礎(chǔ)技術(shù)方面具備領(lǐng)先性;【實(shí)用主義者】代表模型在場景應(yīng)用深度上具備領(lǐng)先性;【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場景應(yīng)用上處于領(lǐng)先位置,引領(lǐng)國內(nèi)大模型發(fā)展。Super

CLUE模型象限(

2025)o4-mini(high)(OpenAI)o3(OpenAI)Gemini

2.5

Flash

Preview

05-20(Google)SenseNova

V6

Reasoner(商湯)Doubao-1.5-thinking-pro-250415(字節(jié)跳動)Hunyuan-T1-20250403(騰訊)DeepSeek-V3-0324(深度求索)Qwen3-32B(Thinking)(阿里巴巴)Qwen3-235B-A22B(Thinking)(阿里巴巴)360zhinao2-o1.5(360)GLM-4-Air-250414(智譜AI)Llama-4-Maverick-17B-128E-Instruct(Meta)DeepSeek-R1-Distill-Qwen-32B(深度求索)Qwen3-4B(Thinking)(阿里巴巴)Gemma-2-27b-it(Google)GLM-Z1-AirX(智譜AI)Qwen3-30B-A3B(Thinking)(阿里巴巴)Qwen3-14B(Thinking)(阿里巴巴)grok-3-latest(X.AI)DeepSeek-R1(深度求索)ChatGPT-4o-latest

Gemini

2.5

Flash

Preview

04-17(Google)NebulaCoder-V6(中興通訊)(OpenAI)ERNIE-4.0-Turbo-8K-Latest(百度)Pangu

Pro

MoE-72B-A16B(華為)kimi-K1.5(月之暗面)

Qwen3-8B(Thinking)(阿里巴巴)Spark

X1(科大訊飛)潛力探索者 技術(shù)領(lǐng)跑者推理能力Sky-Chat-3.0(昆侖萬維)Step-2-16k(階躍星辰)

Spark4.0

Ultra(科大訊飛)kimi-latest(月之暗面)Llama-3.3-70B-Instruct(Meta)MiniMax-Text-01(MiniMax)Claude-Opus-4-Reasoning(Anthropic)Gemini

2.5

Pro

Preview

05-06(Google)Yi-1.5-9B-Chat-16K(零一萬物)Llama-3.1-8B-Instruct(Meta)Mistral-7B-Instruct-v0.3(Mistral

AI)MiniCPM3-4B(面壁智能

)

Gemma-2-27b-it(Google)GLM-4-9B-Chat(智譜AI)Gemma-3-4b-it(Google)21海外及其他對比模型國內(nèi)模型國內(nèi)外通用大模型SuperCLUE基準(zhǔn)測評總榜Super

CLUE通用能力測評榜單——總榜來源:Super

CLUE,2025

年5

月28

日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距1

分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對比參考不參與排名。22Super

CLUE通用能力測評榜單——總榜Do

u

b

a

o-1.5-t

h

i

n

k

i

n

g-p

r

o-2

0

5

4

1

5

、S

e

n

s

e

N

o

v

a

V

6

R

e

a

s

o

n

e

r

等國內(nèi)模型表現(xiàn)亮眼。其中,

D

o

u

b

a

o-1.5-t

h

i

n

k

i

n

g-p

r

o-2

0

5

4

1

5

在文本創(chuàng)作與理解任務(wù)上以8

1.0

4

的高分領(lǐng)先其他模型。

Nebula

Coder-V

6

在數(shù)學(xué)推理得分上比o

4-mini(high)分別高出4.67

。2.國內(nèi)推理模型嶄露頭角,部分領(lǐng)域優(yōu)勢突出。Hunyuan-T

1-20250403

在國內(nèi)模型中指令遵循得分第一,為36.97分,但是與海外模型指令遵循得分第一的o

4-mini(h

i

gh)相比,差距達(dá)到了31.1分,國內(nèi)模型在指令遵循方面表現(xiàn)較弱,還有較大的提升空間。3.國內(nèi)大模型在指令遵循方面普遍低于海外模型。SuperC

L

UE-總榜Super

CLUE評測基準(zhǔn)2025

年5

月總體榜單顯示,o

4-mini(h

i

gh)在Super

CLUE-5

月測評中表現(xiàn)優(yōu)異,總分穩(wěn)居第一,達(dá)到70.51

分。該模型在推理、代碼生成、智能體、指令遵循等多個方面表現(xiàn)出卓越的綜合能力,特別是在代碼生成)、指令遵循方面得分較高,體現(xiàn)了其強(qiáng)大的邏輯推理和問題解決能力。測評分析1.o

4-mini(high)總分穩(wěn)居第一。23Super

CLUE通用能力測評榜單——基礎(chǔ)模型榜單Su

p

e

r

C

L

UE-基礎(chǔ)模型總榜測評分析從各模型在不同維度的得分來看,能力發(fā)展不均衡現(xiàn)象明顯。如代碼生成維度,Deep

Seek-V

3-

0324

得分84.81,而部分模型得分較低,差距巨大。在精確指令遵循維度,模型間分?jǐn)?shù)差異也較為顯著。這種不均衡體現(xiàn)了不同模型在能力側(cè)重上的差異,也反映出大模型在追求綜合能力提升時,仍面臨各維度能力協(xié)調(diào)發(fā)展的挑戰(zhàn)。3.各維度能力發(fā)展不均衡。根據(jù)基礎(chǔ)模型榜單可以發(fā)現(xiàn),Deep

Seek-V

3-0324

以60.10的總分位居榜首,在多個維度展現(xiàn)出強(qiáng)大實(shí)力,在科學(xué)推理、智能體Agent、文本理解與創(chuàng)作這三個類別都取得了基礎(chǔ)模型中的最高分。排名靠前的模型在總分上與靠后模型拉開明顯差距,顯示出頭部模型在綜合能力上的優(yōu)勢地位,也反映出大模型領(lǐng)域強(qiáng)者恒強(qiáng)的態(tài)勢。1.模型競爭激烈,頭部模型優(yōu)勢凸顯。在國內(nèi)模型表現(xiàn)方面,GLM-4-Air-250414

在數(shù)學(xué)推理上取得53.23的高分,僅次于De

e

p

Se

e

k-

V

3-0324

。這些國內(nèi)模型在細(xì)分領(lǐng)域的出色成績,表明國內(nèi)在大模型技術(shù)研發(fā)上不斷取得突破,在特定能力維度上已具備與國際模型競爭的實(shí)力。2.國內(nèi)模型在部分領(lǐng)域表現(xiàn)亮眼。24開源模型榜單S

u

p

e

r

C

L

U

E

開源榜單數(shù)據(jù)來源:SuperCLUE,2025年5月28日;注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動對排名的影響,本次測評將相距1分區(qū)間的模型定義為并列。其中模型參數(shù)量數(shù)據(jù)來源于官方披露,若模型為MoE

架構(gòu),以總參數(shù)量為準(zhǔn)。開源模型分析中文場景下,國內(nèi)開源模型已具備較大優(yōu)勢Deep

Seek系列開源模型、Qwen系列開源模型,在5

月Super

CLUE測評中表現(xiàn)優(yōu)異,均有超過Llama-4-Maverick-17B-128E-Instruct的表現(xiàn),引領(lǐng)全球開源生態(tài)。排名模型名稱機(jī)構(gòu)參數(shù)量總分1DeepSeek-R1深度求索671B61.942DeepSeek-V3-0324深度求索671B60.102Qwen3-32B(Thinking)阿里巴巴32B59.323Qwen3-235B-A22B(Thinking)阿里巴巴235B59.003Pangu

Pro

MoE-72B-A16B華為72B58.754Qwen3-14B(Thinking)阿里巴巴14B57.125Qwen3-8B(Thinking)阿里巴巴8B53.785Qwen3-30B-A3B(Thinking)阿里巴巴30B53.27-Llama-4-Maverick-17B-128E-InstructMeta400B52.896GLM-Z1-AirX智譜AI32B51.556GLM-4-Air-250414智譜AI32B51.456DeepSeek-R1-Distill-Qwen-32B深度求索32B50.817Qwen3-4B(Thinking)阿里巴巴4B46.048MiniMax-Text-01MiniMax456B43.35-Llama-3.3-70B-InstructMeta70B42.20-Gemma-3-27b-itGoogle27B41.74-Gemma-3-12b-itGoogle12B36.57-Gemma-3-4b-itGoogle4B27.779GLM-4-9B-Chat智譜AI9B27.73-Llama-3.1-8B-InstructMeta8B24.1210MiniCPM3-4B面壁智能4B21.0611Yi-1.5-9B-Chat-16K零一萬物9B19.81-Mistral-7B-Instruct-v0.3Mistral

AI7B12.4725Super

CLUE通用能力測評榜單——推理模型榜單Su

p

er

C

L

UE-推理模型總榜在代碼生成任務(wù)中,Qwen

3-235

B-A

22

B(Thinking)以90.53分位居國內(nèi)榜首,不僅在國內(nèi)領(lǐng)先,更與Open

AI的o

4-mini(high)差距微小。測評分析3.代碼生成能力成為競爭新焦點(diǎn),國內(nèi)模型實(shí)現(xiàn)突破。根據(jù)推理模型榜單可以發(fā)現(xiàn),國內(nèi)模型成績突出。Nebula

Coder-V

6

、Doubao-1.5-thinking-

pro-250415

和360

zhinao

2-o

1.5

并列第一,De

e

p

Se

e

k-R

1

、Q

we

n

3-235

B-A

22

B(Thinking)和

Se

nse

Nova

V

6

Re

asone

r并列國內(nèi)推理模型第二。國內(nèi)模型在數(shù)學(xué)推理、科學(xué)推理、代碼生成三大任務(wù)上相互競爭,彰顯出國內(nèi)模型發(fā)展的蓬勃態(tài)勢。1.國內(nèi)模型表現(xiàn)亮眼,競爭激烈。在數(shù)學(xué)推理維度,G

L

M-Z

1-A

i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論