中文大模型基準(zhǔn)測評2025年年度報告

上傳人：加*** IP屬地：北京上傳時間：2026-02-06 格式：DOCX 頁數(shù)：72 大?。?.03MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩67頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中文大模型基準(zhǔn)測評2025年年度報告——2026開年特別版：含1月底重磅模型動態(tài)評測2026.02.04精準(zhǔn)量化通用人工智能（AGI）進(jìn)展，定義人類邁向AGI的路線圖報告報告目錄一、2025年關(guān)鍵進(jìn)展1.2025年最值得關(guān)注的中文大模型全景圖2.2025年最值得關(guān)注的智能體產(chǎn)品全景圖3.2025年年度大模型關(guān)鍵進(jìn)展4.2025年全年SuperCLUE通用基準(zhǔn)測評海內(nèi)外大模型Top3二、2025年年度測評結(jié)果與分析1.2025年年度中文大模型基準(zhǔn)測評介紹2.2025年全球大模型中文智能指數(shù)排行榜3.2025年SuperCLUE模型象限4.2025年SuperCLUE模型能力格局5.SuperCLUE2025年年度測評六大任務(wù)國內(nèi)Top36.SuperCLUE2025年年度測評六大任務(wù)國內(nèi)外Top20熱力圖7.2025年年度中文大模型基準(zhǔn)測評——總榜8.2025年年度中文大模型基準(zhǔn)測評——開源模型9.海內(nèi)外大模型對比分析10.開閉源大模型對比分析11.大模型性價比區(qū)間分布12.大模型推理效能區(qū)間分布13.代表性模型分析：Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.評測與人類一致性驗證：對比LMArena三、SuperCLUE中文競技場介紹1.SuperCLUE大模型中文競技場介紹2.板塊一：編程競技場3.板塊二：圖像競技場4.板塊三：視頻競技場5.板塊四：音頻競技場四、SuperCLUE專項測評基準(zhǔn)介紹1.Agent系列基準(zhǔn)介紹2.Coding系列基準(zhǔn)介紹3.多模態(tài)系列基準(zhǔn)介紹4.文本系列基準(zhǔn)介紹5.推理系列基準(zhǔn)介紹6.性能系列基準(zhǔn)介紹第一部分2025年關(guān)鍵進(jìn)展1.2025年最值得關(guān)注的中文大模型全景圖2.2025年最值得關(guān)注的智能體產(chǎn)品全景圖3.2025年年度大模型關(guān)鍵進(jìn)展4.2025年全年SuperCLUE通用基準(zhǔn)測評海內(nèi)外大模型Top3SuperCLUE：2025年最值得關(guān)注的中文大模型全景圖通用閉源Qwen3-Max盤通用閉源Qwen3-Max盤古大模型KIMIllKIMIllERNIE-4.5系列Kimi-K2.5-ThinkingQwen3-Max-ThDeepSeek-V3.2Doubao-Seed-1.8推理GLM-4.7ERNIE-5.0TencentHY2.0ThinkKimi-K2.5-ThinkingQwen3-Max-ThDeepSeek-V3.2Doubao-Seed-1.8推理GLM-4.7K2.5視覺理解K2.5視覺理解文生圖你通義萬相c圖片編輯文生視頻圖生視頻實時交互字節(jié)豆包百度TTSDoubaoSeedTTS2.0語音合成Speech-2.6-HD百度靈醫(yī)醫(yī)療教育金融螞蟻金融大模型妙想金融大模型豆包愛學(xué)訊飛語音合成Qwen3-百度TTSDoubaoSeedTTS2.0語音合成Speech-2.6-HD百度靈醫(yī)醫(yī)療教育金融螞蟻金融大模型妙想金融大模型豆包愛學(xué)汽車汽車工業(yè)羚羊工業(yè)大模型法律工業(yè)羚羊工業(yè)大模型法律深度研究深入研究深入研究DeepResearch旅行搜索旅行搜索桌面編程桌面MiniMiniMax營銷法律辦公營銷法律金融設(shè)計教育金融設(shè)計562025年年度大模型關(guān)鍵進(jìn)展突破。具體可分為三個時期：百模大戰(zhàn)與多模態(tài)萌芽、多模態(tài)爆發(fā)與推理突破、智能體崛起與生態(tài)重構(gòu)。關(guān)鍵進(jìn)展·OpenAI發(fā)布ChatGPT及GPT-4，迅速點燃全球?qū)Υ竽Ｐ偷年P(guān)注并成為現(xiàn)象級應(yīng)用；·Meta開源Llama2，激活開發(fā)者生態(tài)，降低技術(shù)門檻，推動全球長尾創(chuàng)新；·GPT-4V支持圖像理解，Google發(fā)布多模態(tài)大模型Gemini，國內(nèi)開始探索文生圖、文生視頻能力；·中國首批大模型集中亮相。百度、阿里、訊飛、360等快速響應(yīng)，標(biāo)志著中國進(jìn)入核心競爭梯隊；·中國開源模型爆發(fā)。百川Baichuan-7B、智譜ChatGLM2、通義千問Qwen等形成“模型矩陣”，加速技術(shù)民主化。·OpenAI發(fā)布Sora，實現(xiàn)高質(zhì)量時序連貫視頻生成，引發(fā)全球視頻AIGC創(chuàng)業(yè)潮；·GPT-4o發(fā)布，首次實現(xiàn)文本+圖像+語音的實時交互，·OpenAIo1系列引入“CoT”機(jī)制，AI大模型的發(fā)展重心進(jìn)一步深化，開始攻克更復(fù)雜的推理和邏輯思考難題；·國內(nèi)多模態(tài)領(lǐng)域快速跟進(jìn)與創(chuàng)新，并在部分領(lǐng)域領(lǐng)先海外。可靈AI、Vidu、Pixverse、海螺視頻等視頻生成模型陸續(xù)發(fā)布，并在海外取得較大的應(yīng)用進(jìn)展；·國內(nèi)推理模型集中涌現(xiàn)。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等在推理場景取得突破。一、低成本顛覆與開源生態(tài)崛起·2025年1月20日深度求索發(fā)布DeepSeek-R1開源推理大模型，首次躋身全球前五，超高性價比引爆全球；·中國開源模型（Qwen3、DeepSeek、GLM、MiniMax、Kimi等）在全球開源社區(qū)占據(jù)半壁江山，中國大模型主導(dǎo)開源生態(tài)。二、架構(gòu)創(chuàng)新與智能體落地·混合專家（MoE）架構(gòu)成為2025年大模型的主流架構(gòu)選擇；·多模態(tài)融合技術(shù)取得突破，模型通過處理文本、圖像、視頻、語音等多種形式的數(shù)據(jù)，實現(xiàn)更自然全面的交互；·Manus爆火出圈，國內(nèi)大量AIAgent產(chǎn)品涌現(xiàn)：AutoGLM、扣子空間、天工Agent、MiniMaxAgent、KimiOKComputer等；·AIAgent從概念走向?qū)嵱茫貏e是在編程領(lǐng)域。ClaudeCode、Codex等工具的出現(xiàn)標(biāo)志著AIAgent在實際應(yīng)用中的重大突破。2022.122023.122024.122025.1272025年全年SuperCLUE通用基準(zhǔn)測評海內(nèi)外大模型Top3測評時間國內(nèi)第一海外Top32026年1月Kimi-K2.5-Thinking、Qwen3-Max-ThinkingDoubao-Seed-1.8-251228(Thinking)、DeepSeek-V3.2-ThinkingGLM-4.7、ERNIE-5.0Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview、GPT-5.2(high)2025年11月2025年9月openPangu-Ultra-MoE-718B2025年7月2025年5月2025年3月第二部分2025年年度測評結(jié)果與分析1.2025年年度中文大模型基準(zhǔn)測評介紹21.2025年年度中文大模型基準(zhǔn)測評介紹2.2025年全球大模型中文智能指數(shù)排行榜3.2025年SuperCLUE模型象限9.海內(nèi)外大模型對比分析10.開閉源大模型對比分析4.2025年SuperCLUE模型能力格局11.大模型性價比區(qū)間分布5.SuperCLUE2025年年度測評六大任務(wù)國內(nèi)Top312.大模型推理效能區(qū)間分布6.SuperCLUE2025年年度測評六大任務(wù)國內(nèi)外Top20熱力圖13.代表性模型分析：Kimi-K2.5-Thinking&Qwen3-Max-Thinking7.2025年年度中文大模型基準(zhǔn)測評——總榜14.評測與人類一致性驗證：對比LMArena1.海外閉源模型仍占據(jù)榜單頭部位置。在本次2025年年度中文大模型基準(zhǔn)測評中，Anthropic旗下的Claude-Opus-4.5-Reasoning以68.25分的總分位居榜首，Google的Gemini-3-Pro-Preview（65.59分）和OpenAI的GPT-5.2(high)（64.32分）緊隨其后。國內(nèi)開源最佳模型Kimi-K2.5-Thinking（61.50分）和閉源最佳模型Qwen3-Max-Thinking（60.61分）分列全球第四和第六。2.國產(chǎn)大模型正從"跟跑"向"并跑"階段加速演進(jìn)。年度測評三大要點從2025年年初DeepSeek-R1發(fā)布，以對標(biāo)OpenAIo1的性能極大地縮小了海內(nèi)外模型的差距，到Kimi-K2.5-Thinking和Qwen3-Max-Thinking的發(fā)布分別在代碼生成任務(wù)和數(shù)學(xué)推理任務(wù)上領(lǐng)跑全球，越來越多的國產(chǎn)大模型開始加速追趕上國際頂尖大模型的步伐，甚至在部年度測評三大要點3.海內(nèi)外開閉源模型結(jié)構(gòu)性差異顯著。Seed-1.8-251228(Thinking)、ERNIE-5.0為代表，雖然與海外頭部仍有差距，但已形成有效的競爭態(tài)勢。開源陣營則呈現(xiàn)出"國產(chǎn)主導(dǎo)、海外式微"的格局。國產(chǎn)開源模型以Kimi-K2.5-Thinking、DeepSeek-V3.2-Thinking、GLM-4.7為代表，構(gòu)成了國產(chǎn)開源模型的第一梯隊，媲美海外頂尖閉源模型。海外開源模型的表現(xiàn)相對平淡，gpt-oss-120b、Mistral2025年年度中文大模型基準(zhǔn)測評介紹中文語言理解測評基準(zhǔn)CLUE（TheChineseLanguageUnderstandingEvaluation）是致力于科學(xué)、客觀、中立的語言模型評測基準(zhǔn)，發(fā)起于2019年。SuperCLUE是大模型時代CLUE基準(zhǔn)的發(fā)展和延續(xù)，聚焦于通用大模型的綜合性測評。本次2025年年度中文大模型基準(zhǔn)測評聚焦通用能力測評，測評集由六大任務(wù)構(gòu)成，總量為998道簡答題，測評集的介紹如下：SuperCLUE-2025年年度通用基準(zhǔn)數(shù)據(jù)集及評價方式介紹：主要考察模型運用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、概率論與數(shù)理統(tǒng)計等競賽級別數(shù)據(jù)集。評價方式：基于參考答案的0/1評估，模型答案與參考答案一致得1分，反之得0分，不對回答過程進(jìn)行評價。2.科學(xué)推理介紹：主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級別科學(xué)數(shù)據(jù)集。評價方式：基于參考答案的0/1評估，模型答案與參考答案一致得1分，反之得0分，不對回答過程進(jìn)行評價。3.代碼生成介紹：該任務(wù)分為兩大類型：一是獨立功能函數(shù)生成，生成覆蓋數(shù)據(jù)結(jié)構(gòu)、算法等領(lǐng)域的獨立函數(shù)。二是Web應(yīng)用生成，要求模型構(gòu)建旅游訂票、電商、社交媒體等完整的交互式網(wǎng)站。評價方式：通過單元測試進(jìn)行0/1評分（獨立功能函數(shù)生成)；通過模擬用戶交互的功能測試進(jìn)行0/1評分（Web應(yīng)用生成)。4.智能體(任務(wù)規(guī)劃)介紹：主要考察模型在復(fù)雜任務(wù)場景中制定結(jié)構(gòu)化行動方案的能力，包括且不限于生活服務(wù)、工作協(xié)作、學(xué)習(xí)成長、健康醫(yī)療等。要求模型基于給定目標(biāo)和約束條件，生成邏輯連貫、步驟清晰、可執(zhí)行的行動計劃。評價方式：利用裁判模型根據(jù)行動方案對預(yù)設(shè)檢查點的完成情況進(jìn)行離散判定（0/1），或?qū)Ψ桨刚w質(zhì)量進(jìn)行連續(xù)評分（0-100）。5.精確指令遵循介紹：主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。涉及的中文場景包括但不限于結(jié)構(gòu)約束、量化約束、語義約束、復(fù)合約束等不少于4個場景。評價方式：基于規(guī)則腳本的0/1評估。6.幻覺控制介紹：主要考察模型在執(zhí)行中文生成任務(wù)時應(yīng)對忠實性幻覺的能力。包括但不限于文本摘要、閱讀理解、多文本問答和對話補(bǔ)全等基礎(chǔ)語義理解與生成創(chuàng)作數(shù)據(jù)集。評價方式：基于人工校驗參考答案的、對每個句子是否存在幻覺進(jìn)行0/1評估。2025年全球大模型中文智能指數(shù)排行榜本次測評包括六大任務(wù)：數(shù)學(xué)推理、科學(xué)推理、代碼生成（含web開發(fā)）、智能體（任務(wù)規(guī)劃）、幻覺控制、精確指令遵循。測評集共998道題，共測評23個國內(nèi)外大模型，最終得分取各任務(wù)平均分。SuperCLUE官網(wǎng)地址：SuperCLUE.ai2025年SuperCLUE模型象限2025年SuperCLUE模型能力格局）：）：-綜合能力待提升區(qū)（左側(cè)）：整體各項能力仍有較大提升空間。SuperCLUE2025年年度測評六大任務(wù)國內(nèi)Top3Qwen3-Max-ThinkingDeepSeek-V3.2-ThinkingDeepSeek-V3.2-ThinkingQwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)GLM-4.7、TencentHY2.0ThinkGrok-4Qwen3-Max-2025-09-23ERNIE-5.0Qwen3-Max-ThinkingQwen3-Max-Preview-ThinkingClaude-Opus-4.5-ReasoningERNIE-5.0Doubao-Seed-1.8-251228(Thinking)DeepSeek-V3.2-ThinkingGLM-4.7Doubao-Seed-1.8-251228(Thinking)SuperCLUE2025年年度測評六大任務(wù)國內(nèi)外Top20熱力圖2025年年度中文大模型基準(zhǔn)測評——總榜2025年年度中文大模型基準(zhǔn)測評——開源模型測評分析國內(nèi)開源模型全面領(lǐng)先海外開源模型。其中Kimi-K2.5-Thinking以61.50分DeepSeek-V3.2-Thinking和GLM-4.7躋身開源Top3，大幅領(lǐng)先海外最佳開源模型gpt-oss-120b(high)。海內(nèi)外大模型對比分析測評分析海內(nèi)外整體的平均分差距不大，整內(nèi)模型在數(shù)學(xué)推理有微弱領(lǐng)先，海外模型在科學(xué)推理領(lǐng)先較多，主要務(wù)上整體表現(xiàn)更佳。在代碼生成和智能體(任務(wù)規(guī)劃)兩的位置，更有國內(nèi)頂尖模型摘得桂體表現(xiàn)不俗，但國內(nèi)頭部模型與海國內(nèi)模型的短板。令遵循是二者相差最大的維度，平均分差超過7分，幻覺控制平均分海內(nèi)外大模型對比分析——數(shù)學(xué)推理任務(wù)測評分析國內(nèi)Qwen3-Max-Thinking在數(shù)學(xué)推理任務(wù)上與Gemini-3-Pro-Preview均Kimi-K2.5-Thinking也以77.39分位近的后半段，與國際頂尖模型差距海內(nèi)外大模型對比分析——科學(xué)推理任務(wù)測評分析在科學(xué)推理任務(wù)中，海外模型包攬了前四席，分別是GPT-5.2(high)(75.21分)、Gemini-3-Flash-PreviewReasoning(73.77分)和Gemini-3-Pro-Preview(73.77分)，國內(nèi)僅有DeepSeek-V3.2-Thinking進(jìn)入前五名，Qwen3-Max-Thinking和Doubao-Seed-1.8-251228(Thinking)緊隨其后。相較于在數(shù)學(xué)推理任務(wù)上國內(nèi)模型海內(nèi)外大模型對比分析——代碼生成任務(wù)測評分析國產(chǎn)開源模型Kimi-K2.5-ThinkingReasoning等一眾海外頂尖模型，Qwen3-Max-2025-09-23也以47.23分躋身Top5。說明國產(chǎn)頭部模型已經(jīng)在代碼生成（獨立功能函數(shù)生成和WebCoding）領(lǐng)域?qū)崿F(xiàn)了從追趕到齊平甚至微弱領(lǐng)先的跨越。GPT-5.2(high)在代碼生成任務(wù)中僅們的測評機(jī)制有關(guān)，我們每題設(shè)置該時長還會有兩次重試機(jī)會。如果三次機(jī)會全部超時未獲取到答案，那么該題將被記0分。GPT-5.2(high)由于推理時間過長，存在許多超時海內(nèi)外大模型對比分析——代碼生成任務(wù)測評分析Kimi-K2.5-Thinking在WebCoding子任務(wù)上3.2分，是其總分躍居榜首的關(guān)鍵因素，這ERNIE-5.0在WebCoding子任務(wù)上與國際頂Reasoning）分差均在3分左右，差距較小。高。所有模型在獨立函數(shù)生成子任務(wù)上的差距并不顯著，標(biāo)準(zhǔn)差僅有0.66，但在WebCoding子任務(wù)上的標(biāo)準(zhǔn)差達(dá)到了8.23，是拉開模型海內(nèi)外大模型對比分析——智能體(任務(wù)規(guī)劃)測評分析海外頭部模型GPT-5.2(high)以81.39Reasoning以74.87分緊隨其后。國內(nèi)Qwen3-Max-Thinking（70.13分）和Kimi-K2.5-Thinking（68.06分）分居第三和第四，海內(nèi)外頭部模型的差距超過10分，國產(chǎn)模型在任務(wù)尾效應(yīng)明顯。當(dāng)前大模型在智能體(任務(wù)規(guī)劃)方面的發(fā)展極不平衡，整體水平跨度和最低分相差了4倍之多。此外，該任務(wù)的標(biāo)準(zhǔn)差是六大任務(wù)中最大當(dāng)前大模型依然是極具挑戰(zhàn)性的，海內(nèi)外大模型對比分析——精確指令遵循任務(wù)介紹：主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。涉及的中文場景包括但不限于結(jié)構(gòu)約束、量測評分析先顯著。前四名均為海外模型且分差較大，Claude-Opus-4.5-Reasoning以51.10分位居榜首，與第二名拉開了近8分的差距。國產(chǎn)模型ERNIE-5.0、Doubao-Seed-1.8-251228(Thinking)等緊隨其后，與第一名差距超過13為19.97分，海外模型的平均分為27.02分，相差近7分，還有一定的化嚴(yán)重。精確指令遵循任務(wù)涵蓋8個難度等級，難度從等級2到等級9（等級2整體題目難度較大，所有模型在該海內(nèi)外大模型對比分析——精確指令遵循任務(wù)測評分析從難度等級2到等級9，海內(nèi)外模型整體上的得（L2-L6）上，海內(nèi)外模型的差距整體上比較穩(wěn)定，差距均在25%以內(nèi)。但從等級7開始，海內(nèi)外模型的差距隨著指令的增加，差距顯著指令越多，難度越高，海外模型的魯棒性就越海內(nèi)外大模型對比分析——幻覺控制任務(wù)測評分析國內(nèi)頭部模型已有突破。GPT-5.2(high)（88.56分）和Claude-Opus-4.5-Reasoning（88.31分）以17分以上的優(yōu)勢領(lǐng)先平均水平，展現(xiàn)出海外第一梯隊模型在幻覺控制上的統(tǒng)治力。值得關(guān)注的是，GLM-4.7以83.85分躋身榜單Top3，與海外第一梯隊差距縮小至5分以251228(Thinking)也有超過80分的不尖模型Gemini-3-Flash-Preview。海內(nèi)外大模型對比分析——幻覺控制任務(wù)測評分析隨著任務(wù)從“信息整合”向“開放生成”過渡，國內(nèi)外大模型在幻覺控制上的得分都呈現(xiàn)出明顯的下降趨勢。開閉源大模型對比分析測評分析總體來看，在本次測評的六大任務(wù)中閉源模型的平均分均高于開源模頂尖性能和特定復(fù)雜任務(wù)上，閉源模型依然保持著明顯的領(lǐng)先優(yōu)勢。如智能體(任務(wù)規(guī)劃)、精確指令遵循、幻覺控制三大維度均有超過10開源模型在數(shù)學(xué)推理和科學(xué)推理兩大任務(wù)上繼續(xù)追趕閉源模型；在代碼生成任務(wù)上的表現(xiàn)與閉源模型的多開源模型針對代碼領(lǐng)域進(jìn)行重點開閉源大模型對比分析——數(shù)學(xué)推理任務(wù)測評分析數(shù)學(xué)推理任務(wù)的Top3由閉源模型Gemini-3-Pro-Preview、Qwen3-Max-Thinking和Gemini-3-Flash-Preview占據(jù)，Top10中也僅有3個開源模型整體上趕超閉源模型還存趕超頂尖閉源模型的趨勢。國產(chǎn)開源模型Kimi-K2.5-ThinkingReasoning、GPT-5.2(high)等頂尖閉開閉源大模型對比分析——科學(xué)推理任務(wù)測評分析閉源模型優(yōu)勢顯著。前四名GPT-5.2(high)、Gemini-3-Flash-Preview、Claude-Opus-4.5-Reasoning和Gemini-3-Pro-Preview均為閉源模型，僅有國產(chǎn)開源模型DeepSeek-V3.2-Thinking進(jìn)入Top5。開源模型平均分為59.26分，閉源模型則達(dá)到了68.05分，分差近9分，說明在科學(xué)推理任務(wù)上，開閉源還型處于榜單的中后部，大部分開源開閉源大模型對比分析——幻覺控制任務(wù)測評分析閉源模型展現(xiàn)出更強(qiáng)的可靠性。榜單前兩名均由閉源模型（GPT-閉源模型幾乎占據(jù)了整個榜單的頭躋身Top3，表明閉源模型在事實準(zhǔn)確性和上下文一致性方面具有更大開閉源大模型對比分析——精確指令遵循任務(wù)介紹：主要考察模型的指令遵循能力，包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng)，精確地呈現(xiàn)要求的數(shù)據(jù)和信息。涉及的中文場景包括但不限于結(jié)構(gòu)約束、量測評分析閉源以絕對優(yōu)勢領(lǐng)先開源。精確指令遵循是開閉源模型之間代差最明顯的領(lǐng)域，閉源陣營展現(xiàn)了前六名，開源模型DeepSeek-V3.2-Thinking取得第七，但與第一名相差超過21分，開源第二由gpt-oss-120b(high)取得，但得分幾乎只有殊。開閉源大模型對比分析——代碼生成任務(wù)測評分析開源模型實現(xiàn)頭部突破。開源模型Kimi-K2.5-Thinking以于平均水平，還超出第二名閉源模型Grok-4達(dá)3.82分，是本次代碼生成任務(wù)中唯一突破50分的模型。此GLM-4.7（41.26分）、MiniMax-示出開源陣營在特定垂直領(lǐng)域（如開閉源大模型對比分析——智能體(任務(wù)規(guī)劃)任務(wù)測評分析第一梯隊。Qwen3-Max-Thinking均有超過70分部開源已接近中上水平。頭部開源模型Kimi-K2.5-Thinking、Kimi-K2-Thinking得分已突破59分，3-Max-Thinking、Gemini-3-Pro-劃能力上具備追趕潛力，但整體與2025年年度中文大模型基準(zhǔn)測評——大模型性價比區(qū)間分布測評分析部分布在中低性價比區(qū)間。具體而言，國內(nèi)的Kimi-K2.5-Thinking、Qwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)、DeepSeek-V3.2-Thinking、GLM-4.7均位于高性價比區(qū)間，而海外僅有Gemini-3-百萬Tokens的價格實現(xiàn)了接近國際頂尖模型的性能，相比之下，海外同等性能的模型價格普遍是國內(nèi)模型2.海外模型整體上呈現(xiàn)“高質(zhì)高價、低質(zhì)低價”的趨勢。圖中左上角有4個海外頭部模型（Claude-Opus-4.5-Reasoning、Grok-4、Gemini-3-Pro-Preview、GPT-5.2在測評中均有不錯的表現(xiàn)，但其API價格均在），右下角的Llama-4-Maverick-17B-128E-Instruct和MistralLarge3雖然價格較低，但表現(xiàn)不佳，得分均在40分以下。這說明單純追求價格下探而不匹配相應(yīng)2025年年度中文大模型基準(zhǔn)測評——大模型推理效能區(qū)間分布測評分析1.海外推理模型推理效能整體上顯著領(lǐng)先于國高效能區(qū)均為海外模型（Claude-Opus-4.5-Reasoning、Gemini-3系列），沒有國內(nèi)模型，這3個海外模型在保持頂尖推理質(zhì)量的同時能夠兼顧推理效率，實現(xiàn)了質(zhì)251228(Thinking)和Qwen3-Max-Preview-Thinking，其他國內(nèi)模型均位于低效能區(qū)，反映出國內(nèi)模型在推理現(xiàn)。以Kimi系列模型為例，從Kimi-K2-Thin701.09秒/題）到Kimi-K2.5-Thinking（61.50分，224秒/代表性模型分析——Kimi-K2.5-ThinkingSuperCLUE2025年年度基準(zhǔn)測評Kimi-K2.5-Thinking六大任務(wù)得分測評分析Kimi-K2.5-Thinking是月之暗面在2026年1月27日發(fā)布并開源的最（1）代碼。與官方宣傳一致，Kimi-K2.5-Thinking在本次通用測評中最亮眼的表現(xiàn)是在代碼生成任務(wù)上（包括獨立函數(shù)生成子任務(wù)和WebCoding子任務(wù)），其以53.33分領(lǐng)跑全球。其中，獨立函數(shù)生成子任務(wù)得分全球第二，WebCoding子任務(wù)的得分（2）智能體-任務(wù)規(guī)劃。Kimi-K2.5-Thinking在智能體任務(wù)上取得68.06分，媲美國際頂尖模型GPT-5.2(high)和Claude-Opus-4.5-Reasoning。（3）復(fù)雜推理。Kimi-K2.5-Thinking在數(shù)學(xué)推理任務(wù)上取得77.39分，位居全球第四，與Gemini-3-Pro-Preview（80.87分）相差僅3分左右；在科學(xué)推理任務(wù)上取得67.21分，位于（1）精確指令遵循。Kimi-K2.5-Thinking在該任務(wù)上僅取得24.45分，整體排名居中，與海外最佳模型差距超過26分，（2）幻覺控制。Kimi-K2.5-Thinking在該任務(wù)上取得78.54分，相較于上個版本Kimi-K2-Thinking，有9分左右的提升，整體處代表性模型分析——Qwen3-Max-ThinkingSuperCLUE2025年年度基準(zhǔn)測評Qwen3-Max-Thinking六大任務(wù)得分測評分析Qwen3-Max-Thinking是阿里巴巴在2026年1月26日發(fā)布的最新旗艦推理模型，在事實知識、復(fù)雜推理、智能體等任務(wù)上媲美GPT-5.2(high)、Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview等國際頂尖模型。（1）復(fù)雜推理。Qwen3-Max-Think務(wù)上取得非常優(yōu)秀的成績，具體而言，在數(shù)學(xué)推理任務(wù)中以80.87分與Gemini-3-Pro-Preview并列全球第一，超越GPT-5.2(high)、Claude-Opus-4.5-Reasoning等一眾國際頂尖模型。在科學(xué)推理任務(wù)中也以68.85分取得全球第六的成績，整體的推理（2）智能體-任務(wù)規(guī)劃。Qwen3-Max-Thinking在智能體任務(wù)上取得70.13分，躋身全球Top3，超越Gemini-3-Pro-Preview，媲美Claude-Opus-4.5-Reasoning。相較于Preview版本，有12分左右的提升，但整體處于中游，與（2）精確指令遵循。Qwen3-Max-Thinking在該任務(wù)上取得（3）代碼。Qwen3-Max-Thinking在代碼生成任務(wù)上取得41.56分，超越Gemini-3-Flash-Preview，但較最佳模型還有12分左右評測與人類一致性驗證：對比LMArenaLMArena是當(dāng)前英文領(lǐng)域較為權(quán)威的大模型排行榜，它以公眾匿名投票的方式，對各種大型語言模型進(jìn)行對抗評測。將SuperCLUE得分與LMArena得分進(jìn)行相關(guān)性計算，得到:0.8239，P值：1.5932e-04；數(shù)：0.8321，P值：1.1903e-04。說明SuperCLUE基準(zhǔn)測評的成績，與人類對模型的評估（以大眾匿名投票的LMArena為典型代表具有較高的一致性第三部分SuperCLUE大模型中文競技場1.SuperCLUE大模型中文競技場介紹2.板塊一：編程競技場3.板塊二：圖像競技場4.板塊三：視頻競技場5.板塊四：音頻競技場SuperCLUE大模型中文競技場介紹大模型中文競技場是SuperCLUE在2025年10月9日推出的全新交互式評測模式，本競技場是一個大眾投票的匿名評測平臺。系統(tǒng)會使用中文提示詞發(fā)布任務(wù)，并隱藏模型信息，由用戶直接選擇效果更優(yōu)的結(jié)果。最終排名基于大量用戶投票，采用Bradley-Terry模型進(jìn)行能力分計算，并通過Bootstrap重采樣生成穩(wěn)健排位分與置信區(qū)間，確保結(jié)果真實反映大眾偏好。訪問地址：。像編輯競技場和文生圖競技場，視頻板塊包括文生視頻競技場、圖生視頻競技場和參考生視頻競技場，音頻板塊包括語音合成競技場，編程板塊包括前端網(wǎng)頁競技場。每一個競技場都有其對應(yīng)的排行榜，排行榜我們將定期更新并發(fā)布。后續(xù)我們也將上線更多版本競技場，如文本競技場、多模態(tài)理解競技場等，敬請期待。功能介紹：由不同模型生成的匿名結(jié)果；·用戶只需投票選擇更符合要求的結(jié)果；的名稱，并自動進(jìn)入下一組對比；的競技場排行榜。SuperCLUE大模型編程中文競技場包括前端網(wǎng)頁競技場，每個競技場右邊有其對應(yīng)的排行榜，每個競技場的排名我們將定期更新并發(fā)布相關(guān)公眾號文章，最近的文章發(fā)布可見：/s/xVICVZNOJmCO7np8ulh_-g。SuperCLUE大模型圖像中文競技場包括圖相關(guān)公眾號文章，最近的文章發(fā)布可見：/s/gPGDxf9lFhOROPT42rhKaQ。板塊三：視頻競技場SuperCLUE大模型視頻中文競技場包括文生視頻競技場、圖生視頻競技場和參考生視頻競技場，每個競技場右邊有其對應(yīng)的排行榜，每個競技場的排名我們將定期更新并發(fā)布相關(guān)公眾號文章，最近的文章發(fā)布可見：/s/vcUBl3RwbGTG9-SFLmci2Q。SuperCLUE大模型語音中文競技場包括語音合成競技場，每個競技場右邊有其對應(yīng)的排行榜，每個競技場的排名我們將定期更新并發(fā)布相關(guān)公眾號文章，最近的文章發(fā)布可見：/s/IGdFJkcKDOwRJWIdcP6C1w。第四部分SuperCLUE專項測評基準(zhǔn)介紹1.Agent系列基準(zhǔn)介紹2.Coding系列基準(zhǔn)介紹3.多模態(tài)系列基準(zhǔn)介紹4.推理系列基準(zhǔn)介紹5.文本系列基準(zhǔn)介紹6.性能系列基準(zhǔn)介紹Agent系列基準(zhǔn)介紹：EmbodiedCLUE-VLAEmbodiedCLUE-VLA：具身智能大腦測評基準(zhǔn)EmbodiedCLUE-VLA(Vision-Language-Action：視覺-語言-行動)具身智能測評基準(zhǔn)專注于評估大語言模型本身在處理具身任務(wù)時的各項關(guān)鍵能力，如物理世界的常識推理、復(fù)雜指令的分解規(guī)劃等，以此客觀、全面地衡量不同大模型賦能具身智能的真實水平。評分方法：本次EmbodiedCLUE-VLA具身智能大腦測評所有題目均提供參考進(jìn)行嚴(yán)格的0/1評分，模型的答案與參考答案一致則該題得1分，反之，該題得0分。測評結(jié)果分析1.Gemini-3-Pro-Preview以79.61分領(lǐng)跑榜單，Doubao-Seed-1.8-251228以75.24分取得國內(nèi)第一。Gemini-3-Pro-Previe跑榜單，Gemini-3-Flash-Preview以模型、ERNIE5.0ThinkingPreview2.模型在不同任務(wù)上的表現(xiàn)差異顯著。交互與規(guī)劃任務(wù)和具身安全任務(wù)的標(biāo)的標(biāo)準(zhǔn)差意味著目前大模型在復(fù)雜任務(wù)、多步規(guī)劃和交互、安全方面的能力參差不齊，而在基礎(chǔ)感知和推理任務(wù)上表現(xiàn)相對穩(wěn)健和成熟。測評詳情可訪問下方鏈接：Agent系列基準(zhǔn)介紹：SuperCLUE-DeepSearchSuperCLUE-DeepSearch：中文深度搜索測評基準(zhǔn)測評結(jié)果分析SuperCLUE-DeepSearch中文深度搜索測評基準(zhǔn)圍繞三大領(lǐng)域展開測評：察模型在自然科學(xué)各學(xué)科知識深度搜索與理解的表現(xiàn)，檢驗對基信息技術(shù)，聚焦工程技術(shù)相關(guān)知識與應(yīng)用，考察模型對工程技術(shù)測評詳情可訪問下方鏈接：Agent系列基準(zhǔn)介紹：AgentCLUE-MobileAgentCLUE-Mobile：手機(jī)GUIAgent測評測評結(jié)果分析AgentCLUE-Mobile二期測評聚焦中文原生場景，任務(wù)基于國內(nèi)習(xí)慣，聚焦手機(jī)GUIAgent的UI元素定位與指令執(zhí)行兩大核心能力展開全面考察智能體在九大核心場景及新增智慧辦公、生活健康等拓展場景的表現(xiàn)，通過跨應(yīng)用難題與優(yōu)化評分體系，精準(zhǔn)衡量其手機(jī)端離線智能交互的實際水平與綜合應(yīng)用潛力。測評詳情可訪問下方鏈接：/s/8dR7ioETwjLAjlI3mOSIqA1.國產(chǎn)大模型能力梯度清晰，頭部陣營以技術(shù)突破領(lǐng)跑行業(yè)，表現(xiàn)亮眼。令執(zhí)行能力均衡。2.兩大核心能力的關(guān)聯(lián)性兼具規(guī)律性特征與個體差異化表現(xiàn)。UI元素定位是手機(jī)GUIAgent的基礎(chǔ)能力，通常UI元素定位得分越高，指令執(zhí)行得分也越高。3.各產(chǎn)品綜合指令執(zhí)行質(zhì)量分化顯著，頭部與尾部差距懸殊。頭部產(chǎn)品如Nebula-GUI-V2、MiMo-VL-7B-RL-2508等，任務(wù)完成度、平均動作類型準(zhǔn)確率和平均動作細(xì)節(jié)準(zhǔn)確匹配率均較高；而尾Gemma3-4B-it、MiniCPM-V4.5-8B等，任務(wù)完成度極低，部分甚至為0，整體綜合指令執(zhí)行質(zhì)量亟待提升Agent系列基準(zhǔn)介紹：AgentCLUE-CUAAgentCLUE-CUA：ComputerUseAgent測評測評結(jié)果分析AgentCLUE-CUA是Computer案，旨在構(gòu)建科學(xué)、全面的測評體系，精準(zhǔn)評估力，明確技術(shù)發(fā)展方向，為用戶選擇產(chǎn)品提供可靠依據(jù)，同時推動該領(lǐng)域技術(shù)的規(guī)范化、高質(zhì)量發(fā)展。1.Grounding是CUA基礎(chǔ)能力，通常與智能體任務(wù)得分正相關(guān)。a22b-thinking總分達(dá)87.37分，而尾部如ui-tars-1.5-7b等模型，總分型已具備較強(qiáng)的智能交互能力，但仍有大量尾部模型需在相關(guān)核心能力上進(jìn)一步優(yōu)化。2.不同模型在綜合指令執(zhí)行質(zhì)量上分化顯著，頭部與尾部差距巨大。thinking、GLM-4.5v等，任務(wù)完成度、平均動作類型準(zhǔn)確率和平均動作細(xì)節(jié)準(zhǔn)確匹配率均較高；而尾部模型像GUI-Owl-7B、ui-tars-1.5-7b等，任務(wù)完成度均為0，整體綜合指令執(zhí)行質(zhì)量亟待提升。測評詳情可訪問下方鏈接：Agent系列基準(zhǔn)介紹：SuperCLUE-DeepResearchSuperCLUE-DeepResearch：中文深度研究測評基準(zhǔn)SuperCLUE-DeepResearch是一個專為深度研究產(chǎn)品設(shè)計的評測基準(zhǔn)，旨在為深度研究領(lǐng)域提供全面且多維的能力評估參考。DeepResearch代表了AI從簡單的信息檢索向更高級的自主研究代理邁進(jìn)的趨勢，越來越多的DeepResearch產(chǎn)品出現(xiàn)在我們的視野中。為了全面客觀地衡量各個深度研究產(chǎn)品的能力，我們推出了SuperCLUE-DeepResearch測評基準(zhǔn)。評分方法：本次SuperCLUE-DeepResearch深度研究測評基準(zhǔn)針對不同任務(wù)設(shè)置了不同的評價標(biāo)準(zhǔn)，以便更加客觀公正地對產(chǎn)品的能力進(jìn)行評價。由于評價標(biāo)準(zhǔn)的篇幅過長，不便展示，如需進(jìn)一步了解可點擊右方鏈接跳轉(zhuǎn)至詳細(xì)的測評文章。測評結(jié)果分析1.各深度研究產(chǎn)品表現(xiàn)存在顯著差異。居榜首，與排名末位的產(chǎn)品分差達(dá)34分之多。KimiResearcher以58.65分研究分析任務(wù)表現(xiàn)十分亮眼，與排名末位的產(chǎn)品差距也接近17分。2.國內(nèi)外產(chǎn)品性能差距明顯。能差距。3.產(chǎn)品在不同任務(wù)類型表現(xiàn)分化顯著。而言，當(dāng)前深度研究產(chǎn)品在內(nèi)容創(chuàng)作、報告輸出等生成類主觀任務(wù)上表現(xiàn)優(yōu)異；但在需要深度搜索、大數(shù)據(jù)整合等復(fù)雜客觀任務(wù)方面，仍存在較大提升空間。測評詳情可訪問下方鏈接：Agent系列基準(zhǔn)介紹：AgentCLUE-General系列 AgentCLUE-General：中文通用AI智能體基準(zhǔn)AgentCLUE-General是專注于中文通用AI智能體的測評基準(zhǔn)。該基準(zhǔn)立足中文應(yīng)用場景，聚焦現(xiàn)實世界中可借助工具解決的實際問題，全面評估智能體在聯(lián)網(wǎng)檢索、數(shù)據(jù)分析、多模態(tài)理解和多場景組合四個核心應(yīng)用場景的表現(xiàn)，并對任務(wù)根據(jù)難度進(jìn)行了三個等級劃分。評分方法：AgentCLUE-General為每個測試題目給出一個唯一的正確答案，通過人工對比Agent的答案和正確答案是否一致，來否正確，回答正確得1分，錯誤得0分。對于因為智能體產(chǎn)品本身不支持上傳文件而導(dǎo)致無法獲取答案，也計0分。總分計算：重為1；Level2的權(quán)重為2；Level3的權(quán)重為3，模型的總分和每個應(yīng)用場景下的總分都通過加權(quán)計算得到。具體計分規(guī)則如下：測評結(jié)果分析測評詳情可訪問下方鏈接：1.整體能力仍處基礎(chǔ)階段，頭部產(chǎn)品表現(xiàn)相對領(lǐng)先。當(dāng)前參評的通用AI智能體在現(xiàn)實世界任務(wù)上的整體能力普遍偏弱，最高得分產(chǎn)品Manus(Starter)總Agent技術(shù)仍處于比較基礎(chǔ)的發(fā)展階段，與理想狀態(tài)差距較大。2.不同難度任務(wù)能力差異顯著，復(fù)雜多步驟任務(wù)是主要瓶頸。提升至Level2（最高分35分）和Level3（涉及的得分率普遍大幅下降，處理復(fù)雜現(xiàn)實世界任務(wù)的能力是當(dāng)前面臨的主要挑戰(zhàn)。3.能力分布不均，結(jié)構(gòu)化數(shù)據(jù)分析和通用聯(lián)網(wǎng)檢索相對突出，多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)及多場景組合是顯著短板。智能體擅長處理Excel等結(jié)構(gòu)化數(shù)據(jù)和進(jìn)行日常且在涉及圖片、音頻、視頻等多模態(tài)任務(wù)及能力組合的多場景任務(wù)上表現(xiàn)尤為薄弱（多模態(tài)理解Agent系列基準(zhǔn)介紹：AgentCLUE-General系列AgentCLUE-tGeneral：中文通用AI智能體基準(zhǔn)測評方案要點1.中文原生場景構(gòu)建。本測評采用全中文數(shù)據(jù)集，所有生成創(chuàng)作任務(wù)均基于典型中文使用場景設(shè)計，充分貼合國內(nèi)用戶的實際需求和使用習(xí)慣1.中文原生場景構(gòu)建。本測評采用全中文數(shù)據(jù)集，所有生成創(chuàng)作任務(wù)均基于典型中文使用場景設(shè)計，充分貼合國內(nèi)用戶的實際需求和使用習(xí)慣。2.兼顧通用與垂直場景的多維任務(wù)體系設(shè)計。測評不僅涵蓋聯(lián)網(wǎng)檢索、數(shù)據(jù)分析、深度研究、醫(yī)療、法律四個垂直場景，通過多維度評估全面考察智能體產(chǎn)品的能力。3.純文本輸入，測評產(chǎn)品更全面廣泛。所有輸入問題僅包含純文本，不涉及文件上傳，只要支持文本輸入即可參與測評，避免部分智能體產(chǎn)品因不支持上傳文件、或文件上傳的格式、大小限制而導(dǎo)致無法測評。在AgentCLUE-General的測評中，我們注意到部分智能體產(chǎn)品不支持上傳文件或者上傳文件有格式、文件大小的限制，同時考慮到智能體產(chǎn)品的不斷涌現(xiàn)，以及能力不斷進(jìn)化，我們計劃啟動新的中文通用智能體測評AgentCLUE-tGeneral。AgentCLUE-tGeneral測評基準(zhǔn)定位為純文本輸入(名稱中的t，代表文本輸入)，無文件上傳，輸入方式更加純粹，預(yù)期可以測評更廣泛的智能體。測評方法：1.評估流程：腳本等）和標(biāo)準(zhǔn)參考答案-->依據(jù)評分標(biāo)準(zhǔn)評價每一題的分?jǐn)?shù)-->計算模型最終得分我們采用超級大模型進(jìn)行評價。結(jié)合評估流程、評估標(biāo)準(zhǔn)、評分規(guī)則，進(jìn)行細(xì)粒度評估。針對pdf報告，代碼腳本文件等，均直接使用原始文件直接發(fā)送給超級模型做評價。應(yīng)用這種方式，減少人素的干預(yù)，確保評分結(jié)果的客觀性和一致性。3.總分計算：最終的總分計算：計算所有題目的平均分作為最終總分。對每個場景的總分計算：測評詳情可訪問下方鏈接：Coding系列基準(zhǔn)介紹：SuperCLUE-SWESuperCLUE-SWE項目構(gòu)建了一個面向中文開發(fā)環(huán)境的軟件工程評測基準(zhǔn)，借鑒SWE-bench的構(gòu)建理念，收集了來自中文開源項目的真實GitHub問題及其對應(yīng)的修復(fù)方案，確保任務(wù)實例既測評結(jié)果分析1.國際頭部模型仍占優(yōu)，但領(lǐng)先優(yōu)勢在收在復(fù)雜、多文件的真實Issue修復(fù)任務(wù)上表現(xiàn)最穩(wěn)定、成功率最高。不過，相比早期英文基準(zhǔn)上的“斷層式”優(yōu)勢，這次在中文軟件工程場景下，頭部國際模型與國內(nèi)強(qiáng)勢模型之間的分差已經(jīng)明顯縮小。2.國內(nèi)代表性模型整體跟上車隊，個別模型開始逼近國際第一梯隊，值得重點跟蹤。測評詳情可訪問下方鏈接：測評詳情可訪問下方鏈接：Coding系列基準(zhǔn)介紹：AgenticCodingAgenticCoding：Agent版SC-SWE（SC-Agent）測評結(jié)果分析Agent版SC-SWE（SC-Agent）測評是一種面向AgenticCoding場景的代碼能力評估方案，用于評估大語言模型在真實軟件工程評測以SC-SWE軟件工程問題集為基礎(chǔ)，該數(shù)據(jù)集由真實代碼倉Agent將模型視為具備感知、決策與執(zhí)行能力的行動體，使其能夠在完整代碼倉庫內(nèi)開展多輪迭代，包括代碼檢索、文件編輯與str_replace_editor與submit等工具以支持命令執(zhí)行、代碼修改和補(bǔ)丁提交；最終以各題目對應(yīng)工程的單元測試是否全部通過作為成功判據(jù)，從而衡量模型在真實工程任務(wù)中的解決能力與工程行為質(zhì)量（兼顧正確性與效率）。測評詳情可訪問下方鏈接：本文章通過答題的正確率和效率兩個維度對三個模型進(jìn)行了全面評估。在SC-SWE數(shù)據(jù)集上的測試結(jié)果如下：地應(yīng)對多種類型的題目，尤其是在題目多樣化的情境下，長，但在任務(wù)量上具有較明顯的優(yōu)勢。Kimi：在效率上表現(xiàn)最為突出，平均步數(shù)僅為21，顯著低于其他模型。這表明Kimi能夠在較少的步驟內(nèi)快速完成任務(wù)，具有極高的處理效率。其優(yōu)勢在于能夠迅速收斂到正確答案，適合在對時間和計算資源要求較高的場景下使用，能有效節(jié)省時間和計算成本Coding系列基準(zhǔn)介紹：SuperCLUE-WebCodingSuperCLUE-WebCoding：中文前端開發(fā)測評基準(zhǔn)中文WebCoding測評基準(zhǔn)（SuperCLUE-WebCoding旨在分性能，為模型編程能力開發(fā)提供精準(zhǔn)指引。測評結(jié)果分析文「前端開發(fā)」基準(zhǔn)測評中以高分差超越原第一梯隊諸模型斬獲頭名。一流模型行列。評分方法：瀏覽器進(jìn)行自動化功能測試，對每個測試通過則記為1分，不通過則記為0分。測評詳情可訪問下方鏈接：uJrtniG3C-Q多模態(tài)系列基準(zhǔn)介紹：SuperCLUE-VLMSuperCLUE-VLM：中文多模態(tài)視覺語言測評基準(zhǔn)測評結(jié)果分析中文多模態(tài)視覺語言模型測評基準(zhǔn)（SuperCLUE-VLM）基于中文場景特點，圍繞基礎(chǔ)視覺認(rèn)知、視覺推理和視覺應(yīng)用三大核心維度構(gòu)建評測體系，力求為多模態(tài)視覺語言模型的發(fā)展提供客觀、公正的評估標(biāo)準(zhǔn)。評分方法：參考答案。為了確保評估的科學(xué)性和公正性，我們采用評價模型（Gemini-2.5-Flash將模型的回答與參考答案進(jìn)行對比，從而判斷其正確性。應(yīng)用這種方式，盡量減少人為因素的干預(yù)，確保評分結(jié)果的客觀性和一致性。測評詳情可訪問下方鏈接：1.Gemini-3-pro領(lǐng)跑全球，國產(chǎn)模型緊隨其后！seed-1-6-vision、百度ERNIE-5.0-Preview等也緊隨其后。2.二級任務(wù)能力：基礎(chǔ)感知成熟，復(fù)雜領(lǐng)域待突破。多模態(tài)模型在環(huán)境辨識等基礎(chǔ)感知任務(wù)中表現(xiàn)優(yōu)異，基礎(chǔ)認(rèn)知已趨成熟；但空間推理、醫(yī)療影像分析等復(fù)雜/專業(yè)任務(wù)得分極低，深度推理與垂直場景能力仍是短板，呈現(xiàn)“基礎(chǔ)強(qiáng)、復(fù)雜弱”的不均衡態(tài)勢。3.閉源模型整體上顯著領(lǐng)先開源模型。源模型得分更是突破80，整體實力領(lǐng)跑；開源模部開源模型表現(xiàn)不錯，但多數(shù)開源模型（如MiniCPM-V4.5、InternVL3.5-8B）總分不足50，與閉源模型仍存在明顯差距多模態(tài)系列基準(zhǔn)介紹：SuperCLUE-ImageSuperCLUE-Image：中文文生圖測評基準(zhǔn)中文原生文生圖模型測評基準(zhǔn)（SuperCLUE-Image）錨定中文場維框架，覆蓋圖像質(zhì)量、現(xiàn)實復(fù)現(xiàn)、創(chuàng)作與推理等關(guān)鍵維度，同時啟用全新測試數(shù)據(jù)集與測評方式。測評結(jié)果分析1.差距與突破并存！NanoBananaPro一騎絕塵，國內(nèi)頭部模型緊追不舍。2.漢字生成維度，國產(chǎn)模型展現(xiàn)明顯優(yōu)勢。文適配性成為國產(chǎn)模型的突出長板。3.文生圖模型基礎(chǔ)與推理能力上國產(chǎn)圖像質(zhì)量突圍，國際模型邏輯領(lǐng)跑。基礎(chǔ)能力維度中，國產(chǎn)模型在“圖像質(zhì)量” 度超過OpenAI的GPT-image-1，但“圖文一致性”是明顯短板。而“創(chuàng)作與推理”維 GPT-image-1的邏輯連貫性更強(qiáng)，國產(chǎn)模型雖測評詳情可訪問下方鏈接：70，在復(fù)雜場景的創(chuàng)作邏輯上仍需提升多模態(tài)系列基準(zhǔn)介紹：SuperCLUE-T2VSuperCLUE-T2V：中文文生視頻測評基準(zhǔn)SuperCLUE-T2V新版文生視頻測評方案通過提升題目的難度和精確度增加了本次測評的挑戰(zhàn)性，從通用能力和場景應(yīng)用能力兩個方面對17個國內(nèi)外文生視頻產(chǎn)品進(jìn)行了嚴(yán)格的測試與評估，并通過三次測評求平均值的方式提升測評的穩(wěn)定性和可靠性，現(xiàn)將評估結(jié)果與分析報告公布。測評結(jié)果分析測評詳情可訪問下方鏈接：1.在綜合實力方面，國內(nèi)頭部模型均不輸國外模型，呈追平或趕超趨勢。谷歌的veo-3.0-generate于總榜榜首，國內(nèi)頭部模型與之差距較小，追趕之起之秀Pangu-T2V超越Sora，與排名第四的分差較小。2.國內(nèi)外模型的視頻畫質(zhì)與要素搭建水平有所提升，動態(tài)塑造依舊是有待突破的課題。內(nèi)外模型在視頻畫質(zhì)渲染和要素搭建能力方面的水準(zhǔn)有所提升，動態(tài)塑造能力依舊是表現(xiàn)較差的環(huán)節(jié)。3.國內(nèi)外模型普遍存在基礎(chǔ)能力優(yōu)于應(yīng)用能力的發(fā)展現(xiàn)狀，產(chǎn)品實用性相對不足。在場景應(yīng)用能力方面，除少數(shù)的國內(nèi)外頭部模型可以做到基礎(chǔ)與應(yīng)用的并行發(fā)展外，絕大多數(shù)的模型普遍出現(xiàn)基礎(chǔ)能力優(yōu)于應(yīng)用能力的現(xiàn)象，產(chǎn)品的實用性相對不足。同時，場景應(yīng)用能力中，頭部模型的表現(xiàn)跨越式領(lǐng)先其他模型。多模態(tài)系列基準(zhǔn)介紹：SuperCLUE-I2VSuperCLUE-I2V：中文圖生視頻測評基準(zhǔn)中文原生圖生視頻模型測評基準(zhǔn)（SuperCLUE-I2V）立足于中文語境，圍繞運動流暢性、內(nèi)容一致性、物理真實性、動漫風(fēng)格、寫實風(fēng)格和奇幻風(fēng)格六大任務(wù)構(gòu)建評測體系，旨在為圖生視頻模型的發(fā)展提供客觀、公正且具有針對性的評估標(biāo)準(zhǔn)。評價方法：嚴(yán)格按照評分細(xì)則，綜合判斷模型對指令的遵循情況，并結(jié)合多項預(yù)設(shè)評價維度，對生成視頻的整體效果進(jìn)行全面評估。每道題目采用5分制，其中1分為極差，2分為較差，3分為一般，4分為良好，5分為優(yōu)秀。為了更公平地反映模型的實際表現(xiàn)，我們引入回答率加權(quán)機(jī)制，將各任務(wù)的原始得分乘以模型在該任務(wù)的回答率，以得到該任務(wù)的最終得分。具體計分方式如下：其中：原始得分是模型對已答題目的平均得分；N_total表示該任務(wù)下的總題目數(shù)；N_answered表示模型成功生成視頻的題目數(shù)。測評結(jié)果分析測評詳情可訪問下方鏈接：1.國內(nèi)頭部模型持續(xù)展現(xiàn)領(lǐng)先優(yōu)勢。差，在綜合能力方面展現(xiàn)出領(lǐng)先優(yōu)勢。2.各模型在物理真實性任務(wù)中表現(xiàn)優(yōu)異，但在場景應(yīng)用能力中表現(xiàn)不佳。多個模型突破了75分；在物理真實性方面，相比于上一次測評各模型的進(jìn)步顯著。但是，各模型在場景應(yīng)用能力方面表現(xiàn)平平，尤其是在動漫風(fēng)格與奇幻風(fēng)格方面的表現(xiàn)尤為明顯。3.視頻主體運動遲緩，視頻生成失敗以及圖像分辨率低等情況時有發(fā)生且影響得分。模型對于圖片的理解和執(zhí)行能力的不足依舊是模的大多數(shù)主體部分運動緩慢，與現(xiàn)實場景嚴(yán)重不務(wù)上未能成功通過圖片加載出視頻結(jié)果，尤其是部分模型生成的視頻存在分辨率較低的情況，也會影響最終得分。推理系列基準(zhǔn)介紹：SuperCLUE-VLR中文視覺推理模型測評基準(zhǔn)（SuperCLUE-VLR）聚焦于評估視覺語言模型的推理能力，圍繞數(shù)學(xué)、科學(xué)、代碼、邏輯、空間、時間六大核心維度構(gòu)建測評體系，旨在為視覺語言模型推理能力的發(fā)展提供客觀、公正的參考標(biāo)準(zhǔn)。測評結(jié)果分析評分方法：每道題目都配有標(biāo)準(zhǔn)參考答案。Gemini2.5FlashPreview04-17（Thinking模式將模型的回答與參考答案進(jìn)行對比，從而判斷其正確性。應(yīng)用這種方式，盡量減少人為因素的干預(yù)，確保評分結(jié)果的客觀性和一致性。1.模型間的視覺推理能力分化顯著，頭部與末位模型分差超32分。模型間視覺推理表現(xiàn)差異巨Gemini-2.5-Pro72.12分）與末位（如InternVL3-領(lǐng)域的顯著優(yōu)勢。2.模型在數(shù)學(xué)和代碼任務(wù)上表現(xiàn)優(yōu)異，但在空間和邏輯任務(wù)上普遍較弱。（滿分）推理上表現(xiàn)出色，但在空間推理（最高表現(xiàn)不佳。3.o3表現(xiàn)未達(dá)預(yù)期，部分模型推理耗時過長影響效率。o3在復(fù)雜推理任務(wù)中表現(xiàn)低于預(yù)期，綜合評分模式下仍嘗試檢索網(wǎng)頁，答案完整但準(zhǔn)確性不足。測評詳情可訪問下方鏈接：文本系列基準(zhǔn)介紹：SuperCLUE-MktSuperCLUE-Mkt是一個聚焦廣告營銷專業(yè)領(lǐng)域的文本生成能力基準(zhǔn)，旨在評估大模型在真實營銷場景下的專業(yè)表現(xiàn)與應(yīng)用價值。該基準(zhǔn)覆蓋市場洞察、投放策略、創(chuàng)意生產(chǎn)、合規(guī)評估四大核心能力，涵蓋了11個具體的細(xì)分任務(wù)。測評方案要點本期測評中，鈦動科技推出的Tec-Chi-Think-1.0-32B摘要2：洞察與生產(chǎn)能力分化顯著，專業(yè)模型更懂業(yè)務(wù)落地。在“創(chuàng)意生產(chǎn)”與“市場洞察”分榜中，Tec-Chi-Think-1.0-32B均斬獲第一。在創(chuàng)意生成任務(wù)上，它以摘要3：策略與風(fēng)控能力分?jǐn)?shù)膠著，專業(yè)模型邏輯底座比肩通用頂流。v3.2-Thinking拔得頭籌，Tec-Chi-Think-1.0-32B與Spark-X1.5緊隨其后。通用模型極具競爭力，專業(yè)模型也已具備高水準(zhǔn)。摘要4：國產(chǎn)模型包攬頭部梯隊，本土營銷語境優(yōu)勢顯著。測評詳情可訪問下方鏈接：CbA文本系列基準(zhǔn)介紹：SuperCLUE-CPIFSuperCLUE-CPIF（ChinesePreciseInstructionFollowing）是一個專為評估大型語言模型在中文環(huán)境下精確遵循復(fù)雜、多約束指令能力的評測基準(zhǔn)。該基準(zhǔn)通過構(gòu)建一個包含多樣化場景和多維度約束的高質(zhì)量數(shù)據(jù)集，旨在精確度量模型將自然語言指令轉(zhuǎn)化為符合所有要求的具體輸出的能力。測評方案要點1.GPT-5.1(high)、Gemini-3-Pro-Preview、GPT-5(high)強(qiáng)勢領(lǐng)跑。Gemini-3-Pro-Preview以83.08分位第三。2.國內(nèi)模型表現(xiàn)亮眼，領(lǐng)先海外頂尖模型Claude-Sonnet-4.5-Reasoning。DeepSeek-V3.2-Exp-Thinking分別Claude-Sonnet-4.5-Reasoning。3.海外模型在中文精確指令遵循任務(wù)上要領(lǐng)先于國內(nèi)模型。分，海外模型在該任務(wù)上的整體表現(xiàn)測評詳情可訪問下方鏈接：dfWA5WSqj1jw文本系列基準(zhǔn)介紹：SuperCLUE-FaithSuperCLUE-Faith是一個專注于評估大語言模型在中文領(lǐng)域忠實性幻覺表現(xiàn)的基準(zhǔn)測試，該基準(zhǔn)涵蓋四大核心任務(wù)：文本摘要、閱讀理解、多文本問答以及對話補(bǔ)全，通過多維度評測，為大語言模型的忠實性幻覺研究提供全面、客觀的能力評估依據(jù)。評分方法：本次SuperCLUE-Faith中文忠實性幻覺測評采用大模型三階段自動化評估方法，以下是具體評估流程介紹：分句處理；b）幻覺判定階段：基于任務(wù)特異性評價標(biāo)準(zhǔn)，對每個分句進(jìn)行二元判定：無幻覺得1分；存在幻覺得0分；該評估機(jī)制通過標(biāo)準(zhǔn)化計分流程，確保結(jié)果的公平性和客觀性。測評結(jié)果分析2.GPT-5.2(high)以93.19分領(lǐng)跑榜單，Gemini-3-Pro-Preview以90.96分緊隨其后，兩大頂尖海外模型在幻覺控制上表現(xiàn)突出。3.Doubao-Seed-1.6-251015(Thinking)以86測評詳情可訪問下方鏈接：文本系列基準(zhǔn)介紹：SuperCLUE-FactSuperCLUE-Fact：中文事實性幻覺測評基準(zhǔn)SuperCLUE-Fact是一個專注于評估大語言模型在中文領(lǐng)域事實性幻覺（FactualHallucination）表現(xiàn)的基準(zhǔn)測試。該基準(zhǔn)涵蓋四大核心任務(wù)：知識幻覺、常識幻覺、對抗性幻覺和上下文幻覺，事實性幻覺的能力。通過多維度評測，SuperCLUE-Fact旨在為大語言模型的事實性幻覺研究提供全面、客觀的能力評估依據(jù)。評分方法：評分方法：為了確保評估的科學(xué)性和公正性，我們采用超級大模型進(jìn)行評價。結(jié)合評估流程、評估標(biāo)準(zhǔn)、評分規(guī)則，進(jìn)行細(xì)粒度評估，采用0/1評分標(biāo)準(zhǔn)，對于存在事實幻覺（答案錯誤）的題目評分為0，對于不存在事實幻覺（答案正確）的題目評分為1。應(yīng)用這種方式，盡量減少人為因素的干預(yù)，確保評分結(jié)果的客觀性和一致性。測評結(jié)果分析測評詳情可訪問下方鏈接：1.DeepSeek-R1當(dāng)前領(lǐng)先，但頭部模型差距微小。Claude3.7Sonnet(Extended)和ChatGPT-4o-latest也表現(xiàn)優(yōu)異，位列前五。整個榜單的分?jǐn)?shù)相對集中，尤其是在頂部梯隊，顯示出領(lǐng)先模型在事實性幻覺能力上的激烈競爭。2.模型在不同類型的任務(wù)上表現(xiàn)差異顯著。本次測評的12個模型在處理知識幻覺和對抗性幻覺方面表現(xiàn)相對穩(wěn)健，平均得分有85分左右。然而，在常識幻覺和上下文幻覺這兩類任務(wù)上，模型表現(xiàn)普遍較弱，平均分不足75分，差距明顯。3.海外與國內(nèi)模型各有優(yōu)劣，海外模型總體稍領(lǐng)先。分）和對抗性幻覺；而海外模型則在知識幻覺和上下文幻覺方面更具優(yōu)勢，特別是在上下文幻覺性能系列基準(zhǔn)介紹：DeepSeek-R1系列第三方平臺DeepSeek-R1聯(lián)網(wǎng)搜索能力測評為了解各第三方平臺接入DeepSeek-R1的聯(lián)網(wǎng)搜索能力，本次我評，測評內(nèi)容包括基礎(chǔ)檢索能力如文化生活、經(jīng)濟(jì)生活、實時新聞等，以及分析推理能力如推理計算、分析排序、數(shù)據(jù)檢索與分析等。測評集構(gòu)建：來源；2.多方核查每條原始信息的正確性，剔除錯誤的、存在爭議的信息，然后篩選出正確的、符合客觀事實的信息；3.使用這些原始信息按照預(yù)先規(guī)定的維度構(gòu)4.最后對所有題目進(jìn)行復(fù)查，確定最終的測評集。答案獲?。?.每道題目在獲取答案前均會清除上下文信息，避免對測評產(chǎn)生影響。評分方法：取0/1的評分模式，即模型的答案與參考答案一致則記1分，模型的答案與參考答案不一致則記0分；需求，該題記0分；測評結(jié)果分析1.各平臺整體表現(xiàn)差異較大，騰訊元寶綜合實力領(lǐng)總分相差最大的兩個平臺分差接近20分，聯(lián)網(wǎng)搜索搜索測評榜單，展現(xiàn)出不俗的實力。2.基礎(chǔ)檢索能力普遍優(yōu)秀，分析推理能力是不同平臺之間的關(guān)鍵差異點。檢索能力維度上，騰訊元寶、階躍AI和百度AI搜索達(dá)到了100%的準(zhǔn)確率，表現(xiàn)優(yōu)異；但在分析推理能力維度上，僅有騰訊元寶、天工AI、支付寶3.各平臺的回復(fù)率普遍較高，穩(wěn)定性較強(qiáng)。箱在聯(lián)網(wǎng)搜索回復(fù)率方面十分優(yōu)秀，完整回復(fù)率搜索和天工AI緊隨其后，構(gòu)成第二梯隊；其他平臺也均有超過85%的完整回復(fù)率表現(xiàn)。測評詳情可訪問下方鏈接：性能系列基準(zhǔn)介紹：DeepSeek-R1系列第三方平臺DeepS

人人文庫> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文大模型基準(zhǔn)測評2025年年度報告

文檔簡介

溫馨提示

最新文檔

評論

中文大模型基準(zhǔn)測評2025年年度報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔