中文大模型基準測評2025年年度報告-superclue-202602_第1頁
中文大模型基準測評2025年年度報告-superclue-202602_第2頁
中文大模型基準測評2025年年度報告-superclue-202602_第3頁
中文大模型基準測評2025年年度報告-superclue-202602_第4頁
中文大模型基準測評2025年年度報告-superclue-202602_第5頁
已閱讀5頁,還剩132頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

——2026開年特別版:含1月底重磅模型動態(tài)評測SuperCLUE團隊——2026開年特別版:含1月底重磅模型動態(tài)評測SuperCLUE團隊2026.02.04精準量化通用人工智能(AGI)進展,定義人類邁向AGI的路線圖報告報告目錄一、2025年關鍵進展1.2025年最值得關注的中文大模型全景圖2.2025年最值得關注的智能體產品全景圖3.2025年年度大模型關鍵進展4.2025年全年SuperCLUE通用基準測評海內外大模型Top3二、2025年年度測評結果與分析1.2025年年度中文大模型基準測評介紹2.2025年全球大模型中文智能指數排行榜3.2025年SuperCLUE模型象限4.2025年SuperCLUE模型能力格局5.SuperCLUE2025年年度測評六大任務國內Top36.SuperCLUE2025年年度測評六大任務國內外Top20熱力圖7.2025年年度中文大模型基準測評——總榜8.2025年年度中文大模型基準測評——開源模型9.海內外大模型對比分析10.開閉源大模型對比分析11.大模型性價比區(qū)間分布12.大模型推理效能區(qū)間分布13.代表性模型分析:Kimi-K2.5-Thinking&Qwen3-Max-Thinking14.評測與人類一致性驗證:對比LMArena三、SuperCLUE中文競技場介紹1.SuperCLUE大模型中文競技場介紹2.板塊一:編程競技場3.板塊二:圖像競技場4.板塊三:視頻競技場5.板塊四:音頻競技場四、SuperCLUE專項測評基準介紹1.Agent系列基準介紹2.Coding系列基準介紹3.多模態(tài)系列基準介紹4.文本系列基準介紹5.推理系列基準介紹6.性能系列基準介紹第一部分2025年關鍵進展1.2025年最值得關注的中文大模型全景圖2.2025年最值得關注的智能體產品全景圖3.2025年年度大模型關鍵進展4.2025年全年SuperCLUE通用基準測評海內外大模型Top3SuperCLUE:2025年最值得關注的中文大模型全景圖通用閉源Qwen3-Max通用閉源Qwen3-Max盤古大模型KIMIllERNIEKIMIllERNIE-4.5系列Kimi-K2.5-ThinkingQwen3-Max-ThDeepSeek-V3.2Doubao-Seed-1.8推理GLM-4.7ERNIE-5.0TencentHY2.0ThinkKimi-K2.5-ThinkingQwen3-Max-ThDeepSeek-V3.2Doubao-Seed-1.8推理GLM-4.7GLM-4.6VK2.5視覺理解GLM-4.6VK2.5視覺理解文生圖你通義萬相c圖片編輯文生視頻圖生視頻實時交互字節(jié)豆包百度TTSDoubaoSeedTTS2.0語音合成Speech-2.6-HD百度靈醫(yī)醫(yī)療教育金融螞蟻金融大模型妙想金融大模型豆包愛學訊飛語音合成Qwen3-百度TTSDoubaoSeedTTS2.0語音合成Speech-2.6-HD百度靈醫(yī)醫(yī)療教育金融螞蟻金融大模型妙想金融大模型豆包愛學汽車汽車工業(yè)羚羊工業(yè)大模型法律工業(yè)羚羊工業(yè)大模型法律深度研究深入研究深入研究DeepResearch旅行搜索旅行搜索桌面編程桌面MiniMiniMax營銷法律辦公營銷法律金融設計教育金融設計562025年年度大模型關鍵進展突破。具體可分為三個時期:百模大戰(zhàn)與多模態(tài)萌芽、多模態(tài)爆發(fā)與推理突破、智能體崛起與生態(tài)重構。關鍵進展·OpenAI發(fā)布ChatGPT及GPT-4,迅速點燃全球對大模型的關注并成為現象級應用;·Meta開源Llama2,激活開發(fā)者生態(tài),降低技術門檻,推動全球長尾創(chuàng)新;·GPT-4V支持圖像理解,Google發(fā)布多模態(tài)大模型Gemini,國內開始探索文生圖、文生視頻能力;·中國首批大模型集中亮相。百度、阿里、訊飛、360等快速響應,標志著中國進入核心競爭梯隊;·中國開源模型爆發(fā)。百川Baichuan-7B、智譜ChatGLM2、通義千問Qwen等形成“模型矩陣”,加速技術民主化?!penAI發(fā)布Sora,實現高質量時序連貫視頻生成,引發(fā)全球視頻AIGC創(chuàng)業(yè)潮;·GPT-4o發(fā)布,首次實現文本+圖像+語音的實時交互,·OpenAIo1系列引入“CoT”機制,AI大模型的發(fā)展重心進一步深化,開始攻克更復雜的推理和邏輯思考難題;·國內多模態(tài)領域快速跟進與創(chuàng)新,并在部分領域領先海外。可靈AI、Vidu、Pixverse、海螺視頻等視頻生成模型陸續(xù)發(fā)布,并在海外取得較大的應用進展;·國內推理模型集中涌現。k0-math、DeepSeek-R1-Lite、QwQ-32B-Preview、GLM-Zero-Preview等在推理場景取得突破。一、低成本顛覆與開源生態(tài)崛起·2025年1月20日深度求索發(fā)布DeepSeek-R1開源推理大模型,首次躋身全球前五,超高性價比引爆全球;·中國開源模型(Qwen3、DeepSeek、GLM、MiniMax、Kimi等)在全球開源社區(qū)占據半壁江山,中國大模型主導開源生態(tài)。二、架構創(chuàng)新與智能體落地·混合專家(MoE)架構成為2025年大模型的主流架構選擇;·多模態(tài)融合技術取得突破,模型通過處理文本、圖像、視頻、語音等多種形式的數據,實現更自然全面的交互;·Manus爆火出圈,國內大量AIAgent產品涌現:AutoGLM、扣子空間、天工Agent、MiniMaxAgent、KimiOKComputer等;·AIAgent從概念走向實用,特別是在編程領域。ClaudeCode、Codex等工具的出現標志著AIAgent在實際應用中的重大突破。2022.122023.122024.122025.1272025年全年SuperCLUE通用基準測評海內外大模型Top3測評時間國內第一海外Top32026年1月Kimi-K2.5-Thinking、Qwen3-Max-ThinkingDoubao-Seed-1.8-251228(Thinking)、DeepSeek-V3.2-ThinkingGLM-4.7、ERNIE-5.0Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview、GPT-5.2(high)2025年11月2025年9月openPangu-Ultra-MoE-718B2025年7月2025年5月2025年3月第二部分2025年年度測評結果與分析第二部分2025年年度測評結果與分析8.8.2025年年度中文大模型基準測評——開源模型9.海內外大模型對比分析10.開閉源大模型對比分析1.2025年年度中文大模型基準測評介紹2.2025年全球大模型中文智能指數排行榜3.2025年SuperCLUE模型象限4.2025年SuperCLUE模型能力格局11.大模型性價比區(qū)間分布5.SuperCLUE2025年年度測評六大任務國內Top312.大模型推理效能區(qū)間分布6.SuperCLUE2025年年度測評六大任務國內外Top20熱力圖13.代表性模型分析:Kimi-K2.5-Thinking&Qwen3-Max-Thinking7.2025年年度中文大模型基準測評——總榜14.評測與人類一致性驗證:對比LMArena1.海外閉源模型仍占據榜單頭部位置。年度測評三大要點在本次2025年年度中文大模型基準測評中,Anthropic旗下的Claude-Opus-4.5-Reasoning以68.25分的總分位居榜首,Google的Gemini-3-Pro-Preview(65.59分)和OpenAI的GPT-5.2(high)(64.32分)緊隨其后。國內開源最佳模型Kimi-K2.5-Thinking(61.50分)和閉源最佳模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六年度測評三大要點2.國產大模型正從"跟跑"向"并跑"階段加速演進。從2025年年初DeepSeek-R1發(fā)布,以對標OpenAIo1的性能極大地縮小了海內外模型的差距,到Kimi-K2.5-Thinking和Qwen3-Max-Thinking的發(fā)布分別在代碼生成任務和數學推理任務上領跑全球,越來越多的國產大模型開始加速追趕上國際頂尖大模型的步伐,甚至在部3.海內外開閉源模型結構性差異顯著。Seed-1.8-251228(Thinking)、ERNIE-5.0為代表,雖然與海外頭部仍有差距,但已形成有效的競爭態(tài)勢。開源陣營則呈現出"國產主導、海外式微"的格局。國產開源模型以Kimi-K2.5-Thinking、DeepSeek-V3.2-Thinking、GLM-4.7為代表,構成了國產開源模型的第一梯隊,媲美海外頂尖閉源模型。海外開源模型的表現相對平淡,gpt-oss-120b、Mistral2025年年度中文大模型基準測評介紹中文語言理解測評基準CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科學、客觀、中立的語言模型評測基準,發(fā)起于2019年。SuperCLUE是大模型時代CLUE基準的發(fā)展和延續(xù),聚焦于通用大模型的綜合性測評。本次2025年年度中文大模型基準測評聚焦通用能力測評,測評集由六大任務構成,總量為998道簡答題,測評集的介紹如下:SuperCLUE-2025年年度通用基準數據集及評價方式介紹:主要考察模型運用數學概念和邏輯進行多步推理和問題解答的能力。包括但不限于幾何學、代數學、概率論與數理統(tǒng)計等競賽級別數據集。評價方式:基于參考答案的0/1評估,模型答案與參考答案一致得1分,反之得0分,不對回答過程進行評價。2.科學推理介紹:主要考察模型在跨學科背景下理解和推導因果關系的能力。包括物理、化學、生物等在內的研究生級別科學數據集。評價方式:基于參考答案的0/1評估,模型答案與參考答案一致得1分,反之得0分,不對回答過程進行評價。3.代碼生成介紹:該任務分為兩大類型:一是獨立功能函數生成,生成覆蓋數據結構、算法等領域的獨立函數。二是Web應用生成,要求模型構建旅游訂票、電商、社交媒體等完整的交互式網站。評價方式:通過單元測試進行0/1評分(獨立功能函數生成);通過模擬用戶交互的功能測試進行0/1評分(Web應用生成)。4.智能體(任務規(guī)劃)介紹:主要考察模型在復雜任務場景中制定結構化行動方案的能力,包括且不限于生活服務、工作協作、學習成長、健康醫(yī)療等。要求模型基于給定目標和約束條件,生成邏輯連貫、步驟清晰、可執(zhí)行的行動計劃。評價方式:利用裁判模型根據行動方案對預設檢查點的完成情況進行離散判定(0/1),或對方案整體質量進行連續(xù)評分(0-100)。5.精確指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標準來生成響應,精確地呈現要求的數據和信息。涉及的中文場景包括但不限于結構約束、量化約束、語義約束、復合約束等不少于4個場景。評價方式:基于規(guī)則腳本的0/1評估。6.幻覺控制介紹:主要考察模型在執(zhí)行中文生成任務時應對忠實性幻覺的能力。包括但不限于文本摘要、閱讀理解、多文本問答和對話補全等基礎語義理解與生成創(chuàng)作數據集。評價方式:基于人工校驗參考答案的、對每個句子是否存在幻覺進行0/1評估。2025年全球大模型中文智能指數排行榜本次測評包括六大任務:數學推理、科學推理、代碼生成(含web開發(fā))、智能體(任務規(guī)劃)、幻覺控制、精確指令遵循。測評集共998道題,共測評23個國內外大模型,最終得分取各任務平均分。SuperCLUE官網地址:SuperCLUE.ai2025年SuperCLUE模型象限2025年SuperCLUE模型能力格局):):-綜合能力待提升區(qū)(左側):整體各項能力仍有較大提升空間。SuperCLUE2025年年度測評六大任務國內Top3Qwen3-Max-ThinkingDeepSeek-V3.2-ThinkingDeepSeek-V3.2-ThinkingQwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)GLM-4.7、TencentHY2.0ThinkGrok-4Qwen3-Max-2025-09-23ERNIE-5.0Qwen3-Max-ThinkingQwen3-Max-Preview-ThinkingClaude-Opus-4.5-ReasoningERNIE-5.0Doubao-Seed-1.8-251228(Thinking)DeepSeek-V3.2-ThinkingGLM-4.7Doubao-Seed-1.8-251228(Thinking)SuperCLUE2025年年度測評六大任務國內外Top20熱力圖2025年年度中文大模型基準測評——總榜2025年年度中文大模型基準測評——開源模型測評分析國內開源模型全面領先海外開源模型。其中Kimi-K2.5-Thinking以61.50分DeepSeek-V3.2-Thinking和GLM-4.7躋身開源Top3,大幅領先海外最佳開源模型gpt-oss-120b(high)。海內外大模型對比分析測評分析海內外整體的平均分差距不大,整內模型在數學推理有微弱領先,海外模型在科學推理領先較多,主要務上整體表現更佳。在代碼生成和智能體(任務規(guī)劃)兩的位置,更有國內頂尖模型摘得桂體表現不俗,但國內頭部模型與海國內模型的短板。令遵循是二者相差最大的維度,平均分差超過7分,幻覺控制平均分海內外大模型對比分析——數學推理任務測評分析國內Qwen3-Max-Thinking在數學推理任務上與Gemini-3-Pro-Preview均Kimi-K2.5-Thinking也以77.39分位近的后半段,與國際頂尖模型差距海內外大模型對比分析——科學推理任務測評分析在科學推理任務中,海外模型包攬了前四席,分別是GPT-5.2(high)(75.21分)、Gemini-3-Flash-PreviewReasoning(73.77分)和Gemini-3-Pro-Preview(73.77分),國內僅有DeepSeek-V3.2-Thinking進入前五名,Qwen3-Max-Thinking和Doubao-Seed-1.8-251228(Thinking)緊隨其后。相較于在數學推理任務上國內模型海內外大模型對比分析——代碼生成任務測評分析國產開源模型Kimi-K2.5-ThinkingReasoning等一眾海外頂尖模型,Qwen3-Max-2025-09-23也以47.23分躋身Top5。說明國產頭部模型已經在代碼生成(獨立功能函數生成和WebCoding)領域實現了從追趕到齊平甚至微弱領先的跨越。GPT-5.2(high)在代碼生成任務中僅們的測評機制有關,我們每題設置該時長還會有兩次重試機會。如果三次機會全部超時未獲取到答案,那么該題將被記0分。GPT-5.2(high)由于推理時間過長,存在許多超時海內外大模型對比分析——代碼生成任務測評分析Kimi-K2.5-Thinking在WebCoding子任務上3.2分,是其總分躍居榜首的關鍵因素,這ERNIE-5.0在WebCoding子任務上與國際頂Reasoning)分差均在3分左右,差距較小。高。所有模型在獨立函數生成子任務上的差距并不顯著,標準差僅有0.66,但在WebCoding子任務上的標準差達到了8.23,是拉開模型海內外大模型對比分析——智能體(任務規(guī)劃)測評分析海外頭部模型GPT-5.2(high)以81.39Reasoning以74.87分緊隨其后。國內Qwen3-Max-Thinking(70.13分)和Kimi-K2.5-Thinking(68.06分)分居第三和第四,海內外頭部模型的差距超過10分,國產模型在任務尾效應明顯。當前大模型在智能體(任務規(guī)劃)方面的發(fā)展極不平衡,整體水平跨度和最低分相差了4倍之多。此外,該任務的標準差是六大任務中最大當前大模型依然是極具挑戰(zhàn)性的,海內外大模型對比分析——精確指令遵循任務介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標準來生成響應,精確地呈現要求的數據和信息。涉及的中文場景包括但不限于結構約束、量測評分析先顯著。前四名均為海外模型且分差較大,Claude-Opus-4.5-Reasoning以51.10分位居榜首,與第二名拉開了近8分的差距。國產模型ERNIE-5.0、Doubao-Seed-1.8-251228(Thinking)等緊隨其后,與第一名差距超過13為19.97分,海外模型的平均分為27.02分,相差近7分,還有一定的化嚴重。精確指令遵循任務涵蓋8個難度等級,難度從等級2到等級9(等級2整體題目難度較大,所有模型在該海內外大模型對比分析——精確指令遵循任務測評分析從難度等級2到等級9,海內外模型整體上的得(L2-L6)上,海內外模型的差距整體上比較穩(wěn)定,差距均在25%以內。但從等級7開始,海內外模型的差距隨著指令的增加,差距顯著指令越多,難度越高,海外模型的魯棒性就越海內外大模型對比分析——幻覺控制任務測評分析國內頭部模型已有突破。GPT-5.2(high)(88.56分)和Claude-Opus-4.5-Reasoning(88.31分)以17分以上的優(yōu)勢領先平均水平,展現出海外第一梯隊模型在幻覺控制上的統(tǒng)治力。值得關注的是,GLM-4.7以83.85分躋身榜單Top3,與海外第一梯隊差距縮小至5分以251228(Thinking)也有超過80分的不尖模型Gemini-3-Flash-Preview。海內外大模型對比分析——幻覺控制任務測評分析隨著任務從“信息整合”向“開放生成”過渡,國內外大模型在幻覺控制上的得分都呈現出明顯的下降趨勢。開閉源大模型對比分析測評分析總體來看,在本次測評的六大任務中閉源模型的平均分均高于開源模頂尖性能和特定復雜任務上,閉源模型依然保持著明顯的領先優(yōu)勢。如智能體(任務規(guī)劃)、精確指令遵循、幻覺控制三大維度均有超過10開源模型在數學推理和科學推理兩大任務上繼續(xù)追趕閉源模型;在代碼生成任務上的表現與閉源模型的多開源模型針對代碼領域進行重點開閉源大模型對比分析——數學推理任務測評分析數學推理任務的Top3由閉源模型Gemini-3-Pro-Preview、Qwen3-Max-Thinking和Gemini-3-Flash-Preview占據,Top10中也僅有3個開源模型整體上趕超閉源模型還存趕超頂尖閉源模型的趨勢。國產開源模型Kimi-K2.5-ThinkingReasoning、GPT-5.2(high)等頂尖閉開閉源大模型對比分析——科學推理任務測評分析閉源模型優(yōu)勢顯著。前四名GPT-5.2(high)、Gemini-3-Flash-Preview、Claude-Opus-4.5-Reasoning和Gemini-3-Pro-Preview均為閉源模型,僅有國產開源模型DeepSeek-V3.2-Thinking進入Top5。開源模型平均分為59.26分,閉源模型則達到了68.05分,分差近9分,說明在科學推理任務上,開閉源還型處于榜單的中后部,大部分開源開閉源大模型對比分析——幻覺控制任務測評分析閉源模型展現出更強的可靠性。榜單前兩名均由閉源模型(GPT-閉源模型幾乎占據了整個榜單的頭躋身Top3,表明閉源模型在事實準確性和上下文一致性方面具有更大開閉源大模型對比分析——精確指令遵循任務介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標準來生成響應,精確地呈現要求的數據和信息。涉及的中文場景包括但不限于結構約束、量測評分析閉源以絕對優(yōu)勢領先開源。精確指令遵循是開閉源模型之間代差最明顯的領域,閉源陣營展現了前六名,開源模型DeepSeek-V3.2-Thinking取得第七,但與第一名相差超過21分,開源第二由gpt-oss-120b(high)取得,但得分幾乎只有殊。開閉源大模型對比分析——代碼生成任務測評分析開源模型實現頭部突破。開源模型Kimi-K2.5-Thinking以于平均水平,還超出第二名閉源模型Grok-4達3.82分,是本次代碼生成任務中唯一突破50分的模型。此GLM-4.7(41.26分)、MiniMax-示出開源陣營在特定垂直領域(如開閉源大模型對比分析——智能體(任務規(guī)劃)任務測評分析第一梯隊。Qwen3-Max-Thinking均有超過70分部開源已接近中上水平。頭部開源模型Kimi-K2.5-Thinking、Kimi-K2-Thinking得分已突破59分,3-Max-Thinking、Gemini-3-Pro-劃能力上具備追趕潛力,但整體與2025年年度中文大模型基準測評——大模型性價比區(qū)間分布測評分析部分布在中低性價比區(qū)間。具體而言,國內的Kimi-K2.5-Thinking、Qwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)、DeepSeek-V3.2-Thinking、GLM-4.7均位于高性價比區(qū)間,而海外僅有Gemini-3-百萬Tokens的價格實現了接近國際頂尖模型的性能,相比之下,海外同等性能的模型價格普遍是國內模型2.海外模型整體上呈現“高質高價、低質低價”的趨勢。圖中左上角有4個海外頭部模型(Claude-Opus-4.5-Reasoning、Grok-4、Gemini-3-Pro-Preview、GPT-5.2在測評中均有不錯的表現,但其API價格均在),右下角的Llama-4-Maverick-17B-128E-Instruct和MistralLarge3雖然價格較低,但表現不佳,得分均在40分以下。這說明單純追求價格下探而不匹配相應2025年年度中文大模型基準測評——大模型推理效能區(qū)間分布測評分析1.海外推理模型推理效能整體上顯著領先于國高效能區(qū)均為海外模型(Claude-Opus-4.5-Reasoning、Gemini-3系列),沒有國內模型,這3個海外模型在保持頂尖推理質量的同時能夠兼顧推理效率,實現了質251228(Thinking)和Qwen3-Max-Preview-Thinking,其他國內模型均位于低效能區(qū),反映出國內模型在推理現。以Kimi系列模型為例,從Kimi-K2-Thin701.09秒/題)到Kimi-K2.5-Thinking(61.50分,224秒/代表性模型分析——Kimi-K2.5-ThinkingSuperCLUE2025年年度基準測評Kimi-K2.5-Thinking六大任務得分測評分析Kimi-K2.5-Thinking是月之暗面在2026年1月27日發(fā)布并開源的最(1)代碼。與官方宣傳一致,Kimi-K2.5-Thinking在本次通用測評中最亮眼的表現是在代碼生成任務上(包括獨立函數生成子任務和WebCoding子任務),其以53.33分領跑全球。其中,獨立函數生成子任務得分全球第二,WebCoding子任務的得分(2)智能體-任務規(guī)劃。Kimi-K2.5-Thinking在智能體任務上取得68.06分,媲美國際頂尖模型GPT-5.2(high)和Claude-Opus-4.5-Reasoning。(3)復雜推理。Kimi-K2.5-Thinking在數學推理任務上取得77.39分,位居全球第四,與Gemini-3-Pro-Preview(80.87分)相差僅3分左右;在科學推理任務上取得67.21分,位于(1)精確指令遵循。Kimi-K2.5-Thinking在該任務上僅取得24.45分,整體排名居中,與海外最佳模型差距超過26分,(2)幻覺控制。Kimi-K2.5-Thinking在該任務上取得78.54分,相較于上個版本Kimi-K2-Thinking,有9分左右的提升,整體處代表性模型分析——Qwen3-Max-ThinkingSuperCLUE2025年年度基準測評Qwen3-Max-Thinking六大任務得分測評分析Qwen3-Max-Thinking是阿里巴巴在2026年1月26日發(fā)布的最新旗艦推理模型,在事實知識、復雜推理、智能體等任務上媲美GPT-5.2(high)、Claude-Opus-4.5-Reasoning、Gemini-3-Pro-Preview等國際頂尖模型。(1)復雜推理。Qwen3-Max-Think務上取得非常優(yōu)秀的成績,具體而言,在數學推理任務中以80.87分與Gemini-3-Pro-Preview并列全球第一,超越GPT-5.2(high)、Claude-Opus-4.5-Reasoning等一眾國際頂尖模型。在科學推理任務中也以68.85分取得全球第六的成績,整體的推理(2)智能體-任務規(guī)劃。Qwen3-Max-Thinking在智能體任務上取得70.13分,躋身全球Top3,超越Gemini-3-Pro-Preview,媲美Claude-Opus-4.5-Reasoning。相較于Preview版本,有12分左右的提升,但整體處于中游,與(2)精確指令遵循。Qwen3-Max-Thinking在該任務上取得(3)代碼。Qwen3-Max-Thinking在代碼生成任務上取得41.56分,超越Gemini-3-Flash-Preview,但較最佳模型還有12分左右評測與人類一致性驗證:對比LMArenaLMArena是當前英文領域較為權威的大模型排行榜,它以公眾匿名投票的方式,對各種大型語言模型進行對抗評測。將SuperCLUE得分與LMArena得分進行相關性計算,得到:0.8239,P值:1.5932e-04;數:0.8321,P值:1.1903e-04。說明SuperCLUE基準測評的成績,與人類對模型的評估(以大眾匿名投票的LMArena為典型代表具有較高的一致性第三部分SuperCLUE大模型中文競技場1.SuperCLUE大模型中文競技場介紹2.板塊一:編程競技場3.板塊二:圖像競技場4.板塊三:視頻競技場5.板塊四:音頻競技場SuperCLUE大模型中文競技場介紹大模型中文競技場是SuperCLUE在2025年10月9日推出的全新交互式評測模式,本競技場是一個大眾投票的匿名評測平臺。系統(tǒng)會使用中文提示詞發(fā)布任務,并隱藏模型信息,由用戶直接選擇效果更優(yōu)的結果。最終排名基于大量用戶投票,采用Bradley-Terry模型進行能力分計算,并通過Bootstrap重采樣生成穩(wěn)健排位分與置信區(qū)間,確保結果真實反映大眾偏好。訪問地址:。像編輯競技場和文生圖競技場,視頻板塊包括文生視頻競技場、圖生視頻競技場和參考生視頻競技場,音頻板塊包括語音合成競技場,編程板塊包括前端網頁競技場。每一個競技場都有其對應的排行榜,排行榜我們將定期更新并發(fā)布。后續(xù)我們也將上線更多版本競技場,如文本競技場、多模態(tài)理解競技場等,敬請期待。功能介紹:由不同模型生成的匿名結果;·用戶只需投票選擇更符合要求的結果;的名稱,并自動進入下一組對比;的競技場排行榜。SuperCLUE大模型編程中文競技場包括前端網頁競技場,每個競技場右邊有其對應的排行榜,每個競技場的排名我們將定期更新并發(fā)布相關公眾號文章,最近的文章發(fā)布可見:/s/xVICVZNOJmCO7np8ulh_-g。SuperCLUE大模型圖像中文競技場包括圖相關公眾號文章,最近的文章發(fā)布可見:/s/gPGDxf9lFhOROPT42rhKaQ。板塊三:視頻競技場SuperCLUE大模型視頻中文競技場包括文生視頻競技場、圖生視頻競技場和參考生視頻競技場,每個競技場右邊有其對應的排行榜,每個競技場的排名我們將定期更新并發(fā)布相關公眾號文章,最近的文章發(fā)布可見:/s/vcUBl3RwbGTG9-SFLmci2Q。SuperCLUE大模型語音中文競技場包括語音合成競技場,每個競技場右邊有其對應的排行榜,每個競技場的排名我們將定期更新并發(fā)布相關公眾號文章,最近的文章發(fā)布可見:/s/IGdFJkcKDOwRJWIdcP6C1w。第四部分SuperCLUE專項測評基準介紹第四部分SuperCLUE專項測評基準介紹1.Agent系列基準介紹2.Coding系列基準介紹3.多模態(tài)系列基準介紹4.推理系列基準介紹5.文本系列基準介紹6.性能系列基準介紹Agent系列基準介紹:EmbodiedCLUE-VLAEmbodiedCLUE-VLA:具身智能大腦測評基準EmbodiedCLUE-VLA(Vision-Language-Action:視覺-語言-行動)具身智能測評基準專注于評估大語言模型本身在處理具身任務時的各項關鍵能力,如物理世界的常識推理、復雜指令的分解規(guī)劃等,以此客觀、全面地衡量不同大模型賦能具身智能的真實水平。評分方法:本次EmbodiedCLUE-VLA具身智能大腦測評所有題目均提供參考進行嚴格的0/1評分,模型的答案與參考答案一致則該題得1分,反之,該題得0分。測評結果分析1.Gemini-3-Pro-Preview以79.61分領跑榜單,Doubao-Seed-1.8-251228以75.24分取得國內第一。Gemini-3-Pro-Previe跑榜單,Gemini-3-Flash-Preview以模型、ERNIE5.0ThinkingPreview2.模型在不同任務上的表現差異顯著。交互與規(guī)劃任務和具身安全任務的標的標準差意味著目前大模型在復雜任務、多步規(guī)劃和交互、安全方面的能力參差不齊,而在基礎感知和推理任務上表現相對穩(wěn)健和成熟。測評詳情可訪問下方鏈接:Agent系列基準介紹:SuperCLUE-DeepSearchSuperCLUE-DeepSearch:中文深度搜索測評基準測評結果分析SuperCLUE-DeepSearch中文深度搜索測評基準圍繞三大領域展開測評:察模型在自然科學各學科知識深度搜索與理解的表現,檢驗對基信息技術,聚焦工程技術相關知識與應用,考察模型對工程技術測評詳情可訪問下方鏈接:Agent系列基準介紹:AgentCLUE-MobileAgentCLUE-Mobile:手機GUIAgent測評測評結果分析AgentCLUE-Mobile二期測評聚焦中文原生場景,任務基于國內習慣,聚焦手機GUIAgent的UI元素定位與指令執(zhí)行兩大核心能力展開全面考察智能體在九大核心場景及新增智慧辦公、生活健康等拓展場景的表現,通過跨應用難題與優(yōu)化評分體系,精準衡量其手機端離線智能交互的實際水平與綜合應用潛力。測評詳情可訪問下方鏈接:/s/8dR7ioETwjLAjlI3mOSIqA1.國產大模型能力梯度清晰,頭部陣營以技術突破領跑行業(yè),表現亮眼。令執(zhí)行能力均衡。2.兩大核心能力的關聯性兼具規(guī)律性特征與個體差異化表現。UI元素定位是手機GUIAgent的基礎能力,通常UI元素定位得分越高,指令執(zhí)行得分也越高。3.各產品綜合指令執(zhí)行質量分化顯著,頭部與尾部差距懸殊。頭部產品如Nebula-GUI-V2、MiMo-VL-7B-RL-2508等,任務完成度、平均動作類型準確率和平均動作細節(jié)準確匹配率均較高;而尾Gemma3-4B-it、MiniCPM-V4.5-8B等,任務完成度極低,部分甚至為0,整體綜合指令執(zhí)行質量亟待提升Agent系列基準介紹:AgentCLUE-CUAAgentCLUE-CUA:ComputerUseAgent測評測評結果分析AgentCLUE-CUA是Computer案,旨在構建科學、全面的測評體系,精準評估力,明確技術發(fā)展方向,為用戶選擇產品提供可靠依據,同時推動該領域技術的規(guī)范化、高質量發(fā)展。1.Grounding是CUA基礎能力,通常與智能體任務得分正相關。a22b-thinking總分達87.37分,而尾部如ui-tars-1.5-7b等模型,總分型已具備較強的智能交互能力,但仍有大量尾部模型需在相關核心能力上進一步優(yōu)化。2.不同模型在綜合指令執(zhí)行質量上分化顯著,頭部與尾部差距巨大。thinking、GLM-4.5v等,任務完成度、平均動作類型準確率和平均動作細節(jié)準確匹配率均較高;而尾部模型像GUI-Owl-7B、ui-tars-1.5-7b等,任務完成度均為0,整體綜合指令執(zhí)行質量亟待提升。測評詳情可訪問下方鏈接:Agent系列基準介紹:SuperCLUE-DeepResearchSuperCLUE-DeepResearch:中文深度研究測評基準SuperCLUE-DeepResearch是一個專為深度研究產品設計的評測基準,旨在為深度研究領域提供全面且多維的能力評估參考。DeepResearch代表了AI從簡單的信息檢索向更高級的自主研究代理邁進的趨勢,越來越多的DeepResearch產品出現在我們的視野中。為了全面客觀地衡量各個深度研究產品的能力,我們推出了SuperCLUE-DeepResearch測評基準。評分方法:本次SuperCLUE-DeepResearch深度研究測評基準針對不同任務設置了不同的評價標準,以便更加客觀公正地對產品的能力進行評價。由于評價標準的篇幅過長,不便展示,如需進一步了解可點擊右方鏈接跳轉至詳細的測評文章。測評結果分析1.各深度研究產品表現存在顯著差異。居榜首,與排名末位的產品分差達34分之多。KimiResearcher以58.65分研究分析任務表現十分亮眼,與排名末位的產品差距也接近17分。2.國內外產品性能差距明顯。能差距。3.產品在不同任務類型表現分化顯著。而言,當前深度研究產品在內容創(chuàng)作、報告輸出等生成類主觀任務上表現優(yōu)異;但在需要深度搜索、大數據整合等復雜客觀任務方面,仍存在較大提升空間。測評詳情可訪問下方鏈接:Agent系列基準介紹:AgentCLUE-General系列 AgentCLUE-General:中文通用AI智能體基準AgentCLUE-General是專注于中文通用AI智能體的測評基準。該基準立足中文應用場景,聚焦現實世界中可借助工具解決的實際問題,全面評估智能體在聯網檢索、數據分析、多模態(tài)理解和多場景組合四個核心應用場景的表現,并對任務根據難度進行了三個等級劃分。評分方法:AgentCLUE-General為每個測試題目給出一個唯一的正確答案,通過人工對比Agent的答案和正確答案是否一致,來否正確,回答正確得1分,錯誤得0分。對于因為智能體產品本身不支持上傳文件而導致無法獲取答案,也計0分??偡钟嬎悖褐貫?;Level2的權重為2;Level3的權重為3,模型的總分和每個應用場景下的總分都通過加權計算得到。具體計分規(guī)則如下:測評結果分析測評詳情可訪問下方鏈接:1.整體能力仍處基礎階段,頭部產品表現相對領先。當前參評的通用AI智能體在現實世界任務上的整體能力普遍偏弱,最高得分產品Manus(Starter)總Agent技術仍處于比較基礎的發(fā)展階段,與理想狀態(tài)差距較大。2.不同難度任務能力差異顯著,復雜多步驟任務是主要瓶頸。提升至Level2(最高分35分)和Level3(涉及的得分率普遍大幅下降,處理復雜現實世界任務的能力是當前面臨的主要挑戰(zhàn)。3.能力分布不均,結構化數據分析和通用聯網檢索相對突出,多模態(tài)、非結構化數據及多場景組合是顯著短板。智能體擅長處理Excel等結構化數據和進行日常且在涉及圖片、音頻、視頻等多模態(tài)任務及能力組合的多場景任務上表現尤為薄弱(多模態(tài)理解Agent系列基準介紹:AgentCLUE-General系列AgentCLUE-tGeneral:中文通用AI智能體基準測評方案要點1.中文原生場景構建。本測評采用全中文數據集,所有生成創(chuàng)作任務均基于典型中文使用場景設計,充分貼合國內用戶的實際需求和使用習慣1.中文原生場景構建。本測評采用全中文數據集,所有生成創(chuàng)作任務均基于典型中文使用場景設計,充分貼合國內用戶的實際需求和使用習慣。2.兼顧通用與垂直場景的多維任務體系設計。測評不僅涵蓋聯網檢索、數據分析、深度研究、醫(yī)療、法律四個垂直場景,通過多維度評估全面考察智能體產品的能力。3.純文本輸入,測評產品更全面廣泛。所有輸入問題僅包含純文本,不涉及文件上傳,只要支持文本輸入即可參與測評,避免部分智能體產品因不支持上傳文件、或文件上傳的格式、大小限制而導致無法測評。在AgentCLUE-General的測評中,我們注意到部分智能體產品不支持上傳文件或者上傳文件有格式、文件大小的限制,同時考慮到智能體產品的不斷涌現,以及能力不斷進化,我們計劃啟動新的中文通用智能體測評AgentCLUE-tGeneral。AgentCLUE-tGeneral測評基準定位為純文本輸入(名稱中的t,代表文本輸入),無文件上傳,輸入方式更加純粹,預期可以測評更廣泛的智能體。測評方法:1.評估流程:腳本等)和標準參考答案-->依據評分標準評價每一題的分數-->計算模型最終得分我們采用超級大模型進行評價。結合評估流程、評估標準、評分規(guī)則,進行細粒度評估。針對pdf報告,代碼腳本文件等,均直接使用原始文件直接發(fā)送給超級模型做評價。應用這種方式,減少人素的干預,確保評分結果的客觀性和一致性。3.總分計算:最終的總分計算:計算所有題目的平均分作為最終總分。對每個場景的總分計算:測評詳情可訪問下方鏈接:Coding系列基準介紹:SuperCLUE-SWESuperCLUE-SWE項目構建了一個面向中文開發(fā)環(huán)境的軟件工程評測基準,借鑒SWE-bench的構建理念,收集了來自中文開源項目的真實GitHub問題及其對應的修復方案,確保任務實例既測評結果分析1.國際頭部模型仍占優(yōu),但領先優(yōu)勢在收在復雜、多文件的真實Issue修復任務上表現最穩(wěn)定、成功率最高。不過,相比早期英文基準上的“斷層式”優(yōu)勢,這次在中文軟件工程場景下,頭部國際模型與國內強勢模型之間的分差已經明顯縮小。2.國內代表性模型整體跟上車隊,個別模型開始逼近國際第一梯隊,值得重點跟蹤。測評詳情可訪問下方鏈接:測評詳情可訪問下方鏈接:Coding系列基準介紹:AgenticCodingAgenticCoding:Agent版SC-SWE(SC-Agent)測評結果分析Agent版SC-SWE(SC-Agent)測評是一種面向AgenticCoding場景的代碼能力評估方案,用于評估大語言模型在真實軟件工程評測以SC-SWE軟件工程問題集為基礎,該數據集由真實代碼倉Agent將模型視為具備感知、決策與執(zhí)行能力的行動體,使其能夠在完整代碼倉庫內開展多輪迭代,包括代碼檢索、文件編輯與str_replace_editor與submit等工具以支持命令執(zhí)行、代碼修改和補丁提交;最終以各題目對應工程的單元測試是否全部通過作為成功判據,從而衡量模型在真實工程任務中的解決能力與工程行為質量(兼顧正確性與效率)。測評詳情可訪問下方鏈接:本文章通過答題的正確率和效率兩個維度對三個模型進行了全面評估。在SC-SWE數據集上的測試結果如下:地應對多種類型的題目,尤其是在題目多樣化的情境下,長,但在任務量上具有較明顯的優(yōu)勢。Kimi:在效率上表現最為突出,平均步數僅為21,顯著低于其他模型。這表明Kimi能夠在較少的步驟內快速完成任務,具有極高的處理效率。其優(yōu)勢在于能夠迅速收斂到正確答案,適合在對時間和計算資源要求較高的場景下使用,能有效節(jié)省時間和計算成本Coding系列基準介紹:SuperCLUE-WebCodingSuperCLUE-WebCoding:中文前端開發(fā)測評基準中文WebCoding測評基準(SuperCLUE-WebCoding旨在分性能,為模型編程能力開發(fā)提供精準指引。測評結果分析文「前端開發(fā)」基準測評中以高分差超越原第一梯隊諸模型斬獲頭名。一流模型行列。評分方法:瀏覽器進行自動化功能測試,對每個測試通過則記為1分,不通過則記為0分。測評詳情可訪問下方鏈接:uJrtniG3C-Q多模態(tài)系列基準介紹:SuperCLUE-VLMSuperCLUE-VLM:中文多模態(tài)視覺語言測評基準測評結果分析中文多模態(tài)視覺語言模型測評基準(SuperCLUE-VLM)基于中文場景特點,圍繞基礎視覺認知、視覺推理和視覺應用三大核心維度構建評測體系,力求為多模態(tài)視覺語言模型的發(fā)展提供客觀、公正的評估標準。評分方法:參考答案。為了確保評估的科學性和公正性,我們采用評價模型(Gemini-2.5-Flash將模型的回答與參考答案進行對比,從而判斷其正確性。應用這種方式,盡量減少人為因素的干預,確保評分結果的客觀性和一致性。測評詳情可訪問下方鏈接:1.Gemini-3-pro領跑全球,國產模型緊隨其后!seed-1-6-vision、百度ERNIE-5.0-Preview等也緊隨其后。2.二級任務能力:基礎感知成熟,復雜領域待突破。多模態(tài)模型在環(huán)境辨識等基礎感知任務中表現優(yōu)異,基礎認知已趨成熟;但空間推理、醫(yī)療影像分析等復雜/專業(yè)任務得分極低,深度推理與垂直場景能力仍是短板,呈現“基礎強、復雜弱”的不均衡態(tài)勢。3.閉源模型整體上顯著領先開源模型。源模型得分更是突破80,整體實力領跑;開源模部開源模型表現不錯,但多數開源模型(如MiniCPM-V4.5、InternVL3.5-8B)總分不足50,與閉源模型仍存在明顯差距多模態(tài)系列基準介紹:SuperCLUE-ImageSuperCLUE-Image:中文文生圖測評基準中文原生文生圖模型測評基準(SuperCLUE-Image)錨定中文場維框架,覆蓋圖像質量、現實復現、創(chuàng)作與推理等關鍵維度,同時啟用全新測試數據集與測評方式。測評結果分析1.差距與突破并存!NanoBananaPro一騎絕塵,國內頭部模型緊追不舍。2.漢字生成維度,國產模型展現明顯優(yōu)勢。文適配性成為國產模型的突出長板。3.文生圖模型基礎與推理能力上國產圖像質量突圍,國際模型邏輯領跑?;A能力維度中,國產模型在“圖像質量” 度超過OpenAI的GPT-image-1,但“圖文 一致性”是明顯短板。而“創(chuàng)作與推理”維 GPT-image-1的邏輯連貫性更強,國產模型雖 測評詳情可訪問下方鏈接:70,在復雜場景的創(chuàng)作邏輯上仍需提升多模態(tài)系列基準介紹:SuperCLUE-T2VSuperCLUE-T2V:中文文生視頻測評基準SuperCLUE-T2V新版文生視頻測評方案通過提升題目的難度和精確度增加了本次測評的挑戰(zhàn)性,從通用能力和場景應用能力兩個方面對17個國內外文生視頻產品進行了嚴格的測試與評估,并通過三次測評求平均值的方式提升測評的穩(wěn)定性和可靠性,現將評估結果與分析報告公布。測評結果分析測評詳情可訪問下方鏈接:1.在綜合實力方面,國內頭部模型均不輸國外模型,呈追平或趕超趨勢。谷歌的veo-3.0-generate于總榜榜首,國內頭部模型與之差距較小,追趕之起之秀Pangu-T2V超越Sora,與排名第四的分差較小。2.國內外模型的視頻畫質與要素搭建水平有所提升,動態(tài)塑造依舊是有待突破的課題。內外模型在視頻畫質渲染和要素搭建能力方面的水準有所提升,動態(tài)塑造能力依舊是表現較差的環(huán)節(jié)。3.國內外模型普遍存在基礎能力優(yōu)于應用能力的發(fā)展現狀,產品實用性相對不足。在場景應用能力方面,除少數的國內外頭部模型可以做到基礎與應用的并行發(fā)展外,絕大多數的模型普遍出現基礎能力優(yōu)于應用能力的現象,產品的實用性相對不足。同時,場景應用能力中,頭部模型的表現跨越式領先其他模型。多模態(tài)系列基準介紹:SuperCLUE-I2VSuperCLUE-I2V:中文圖生視頻測評基準中文原生圖生視頻模型測評基準(SuperCLUE-I2V)立足于中文語境,圍繞運動流暢性、內容一致性、物理真實性、動漫風格、寫實風格和奇幻風格六大任務構建評測體系,旨在為圖生視頻模型的發(fā)展提供客觀、公正且具有針對性的評估標準。評價方法:嚴格按照評分細則,綜合判斷模型對指令的遵循情況,并結合多項預設評價維度,對生成視頻的整體效果進行全面評估。每道題目采用5分制,其中1分為極差,2分為較差,3分為一般,4分為良好,5分為優(yōu)秀。為了更公平地反映模型的實際表現,我們引入回答率加權機制,將各任務的原始得分乘以模型在該任務的回答率,以得到該任務的最終得分。具體計分方式如下:其中:原始得分是模型對已答題目的平均得分;N_total表示該任務下的總題目數;N_answered表示模型成功生成視頻的題目數。測評結果分析測評詳情可訪問下方鏈接:1.國內頭部模型持續(xù)展現領先優(yōu)勢。差,在綜合能力方面展現出領先優(yōu)勢。2.各模型在物理真實性任務中表現優(yōu)異,但在場景應用能力中表現不佳。多個模型突破了75分;在物理真實性方面,相比于上一次測評各模型的進步顯著。但是,各模型在場景應用能力方面表現平平,尤其是在動漫風格與奇幻風格方面的表現尤為明顯。3.視頻主體運動遲緩,視頻生成失敗以及圖像分辨率低等情況時有發(fā)生且影響得分。模型對于圖片的理解和執(zhí)行能力的不足依舊是模的大多數主體部分運動緩慢,與現實場景嚴重不務上未能成功通過圖片加載出視頻結果,尤其是部分模型生成的視頻存在分辨率較低的情況,也會影響最終得分。推理系列基準介紹:SuperCLUE-VLR中文視覺推理模型測評基準(SuperCLUE-VLR)聚焦于評估視覺語言模型的推理能力,圍繞數學、科學、代碼、邏輯、空間、時間六大核心維度構建測評體系,旨在為視覺語言模型推理能力的發(fā)展提供客觀、公正的參考標準。測評結果分析評分方法:每道題目都配有標準參考答案。Gemini2.5FlashPreview04-17(Thinking模式將模型的回答與參考答案進行對比,從而判斷其正確性。應用這種方式,盡量減少人為因素的干預,確保評分結果的客觀性和一致性。1.模型間的視覺推理能力分化顯著,頭部與末位模型分差超32分。模型間視覺推理表現差異巨Gemini-2.5-Pro72.12分)與末位(如InternVL3-領域的顯著優(yōu)勢。2.模型在數學和代碼任務上表現優(yōu)異,但在空間和邏輯任務上普遍較弱。(滿分)推理上表現出色,但在空間推理(最高表現不佳。3.o3表現未達預期,部分模型推理耗時過長影響效率。o3在復雜推理任務中表現低于預期,綜合評分模式下仍嘗試檢索網頁,答案完整但準確性不足。測評詳情可訪問下方鏈接:文本系列基準介紹:SuperCLUE-MktSuperCLUE-Mkt是一個聚焦廣告營銷專業(yè)領域的文本生成能力基準,旨在評估大模型在真實營銷場景下的專業(yè)表現與應用價值。該基準覆蓋市場洞察、投放策略、創(chuàng)意生產、合規(guī)評估四大核心能力,涵蓋了11個具體的細分任務。測評方案要點本期測評中,鈦動科技推出的Tec-Chi-Think-1.0-32B摘要2:洞察與生產能力分化顯著,專業(yè)模型更懂業(yè)務落地。在“創(chuàng)意生產”與“市場洞察”分榜中,Tec-Chi-Think-1.0-32B均斬獲第一。在創(chuàng)意生成任務上,它以摘要3:策略與風控能力分數膠著,專業(yè)模型邏輯底座比肩通用頂流。v3.2-Thinking拔得頭籌,Tec-Chi-Think-1.0-32B與Spark-X1.5緊隨其后。通用模型極具競爭力,專業(yè)模型也已具備高水準。摘要4:國產模型包攬頭部梯隊,本土營銷語境優(yōu)勢顯著。測評詳情可訪問下方鏈接:CbA文本系列基準介紹:SuperCLUE-CPIFSuperCLUE-CPIF(ChinesePreciseInstructionFollowing)是一個專為評估大型語言模型在中文環(huán)境下精確遵循復雜、多約束指令能力的評測基準。該基準通過構建一個包含多樣化場景和多維度約束的高質量數據集,旨在精確度量模型將自然語言指令轉化為符合所有要求的具體輸出的能力。測評方案要點1.GPT-5.1(high)、Gemini-3-Pro-Preview、GPT-5(high)強勢領跑。Gemini-3-Pro-Preview以83.08分位第三。2.國內模型表現亮眼,領先海外頂尖模型Claude-Sonnet-4.5-Reasoning。DeepSeek-V3.2-Exp-Thinking分別Claude-Sonnet-4.5-Reasoning。3.海外模型在中文精確指令遵循任務上要領先于國內模型。分,海外模型在該任務上的整體表現測評詳情可訪問下方鏈接:dfWA5WSqj1jw文本系列基準介紹:SuperCLUE-FaithSuperCLUE-Faith是一個專注于評估大語言模型在中文領域忠實性幻覺表現的基準測試,該基準涵蓋四大核心任務:文本摘要、閱讀理解、多文本問答以及對話補全,通過多維度評測,為大語言模型的忠實性幻覺研究提供全面、客觀的能力評估依據。評分方法:本次SuperCLUE-Faith中文忠實性幻覺測評采用大模型三階段自動化評估方法,以下是具體評估流程介紹:分句處理;b)幻覺判定階段:基于任務特異性評價標準,對每個分句進行二元判定:無幻覺得1分;存在幻覺得0分;該評估機制通過標準化計分流程,確保結果的公平性和客觀性。測評結果分析2.GPT-5.2(high)以93.19分領跑榜單,Gemini-3-Pro-Preview以90.96分緊隨其后,兩大頂尖海外模型在幻覺控制上表現突出。3.Doubao-Seed-1.6-251015(Thinking)以86測評詳情可訪問下方鏈接:文本系列基準介紹:SuperCLUE-FactSuperCLUE-Fact:中文事實性幻覺測評基準SuperCLUE-Fact是一個專注于評估大語言模型在中文領域事實性幻覺(FactualHallucination)表現的基準測試。該基準涵蓋四大核心任務:知識幻覺、常識幻覺、對抗性幻覺和上下文幻覺,事實性幻覺的能力。通過多維度評測,SuperCLUE-Fact旨在為大語言模型的事實性幻覺研究提供全面、客觀的能力評估依據。評分方法:評分方法:為了確保評估的科學性和公正性,我們采用超級大模型進行評價。結合評估流程、評估標準、評分規(guī)則,進行細粒度評估,采用0/1評分標準,對于存在事實幻覺(答案錯誤)的題目評分為0,對于不存在事實幻覺(答案正確)的題目評分為1。應用這種方式,盡量減少人為因素的干預,確保評分結果的客觀性和一致性。測評結果分析測評詳情可訪問下方鏈接:1.DeepSeek-R1當前領先,但頭部模型差距微小。Claude3.7Sonnet(Extended)和ChatGPT-4o-latest也表現優(yōu)異,位列前五。整個榜單的分數相對集中,尤其是在頂部梯隊,顯示出領先模型在事實性幻覺能力上的激烈競爭。2.模型在不同類型的任務上表現差異顯著。本次測評的12個模型在處理知識幻覺和對抗性幻覺方面表現相對穩(wěn)健,平均得分有85分左右。然而,在常識幻覺和上下文幻覺這兩類任務上,模型表現普遍較弱,平均分不足75分,差距明顯。3.海外與國內模型各有優(yōu)劣,海外模型總體稍領先。分)和對抗性幻覺;而海外模型則在知識幻覺和上下文幻覺方面更具優(yōu)勢,特別是在上下文幻覺性能系列基準介紹:DeepSeek-R1系列第三方平臺DeepSeek-R1聯網搜索能力測評為了解各第三方平臺接入DeepSeek-R1的聯網搜索能力,本次我評,測評內容包括基礎檢索能力如文化生活、經濟生活、實時新聞等,以及分析推理能力如推理計算、分析排序、數據檢索與分析等。測評集構建:來源;2.多方核查每條原始信息的正確性,剔除錯誤的、存在爭議的信息,然后篩選出正確的、符合客觀事實的信息;3.使用這些原始信息按照預先規(guī)定的維度構4.最后對所有題目進行復查,確定最終的測評集。答案獲?。?.每道題目在獲取答案前均會清除上下文信息,避免對測評產生影響。評分方法:取0/1的評分模式,即模型的答案與參考答案一致則記1分,模型的答案與參考答案不一致則記0分;需求,該題記0分;測評結果分析1.各平臺整體表現差異較大,騰訊元寶綜合實力領總分相差最大的兩個平臺分差接近20分,聯網搜索搜索測評榜單,展現出不俗的實力。2.基礎檢索能力普遍優(yōu)秀,分析推理能力是不同平臺之間的關鍵差異點。檢索能力維度上,騰訊元寶、階躍AI和百度AI搜索達到了100%的準確率,表現優(yōu)異;但在分析推理能力維度上,僅有騰訊元寶、天工AI、支付寶3.各平臺的回復率普遍較高,穩(wěn)定性較強。箱在聯網搜索回復率方面十分優(yōu)秀,完整回復率搜索和天工AI緊隨其后,構成第二梯隊;其他平臺也均有超過85%的完整回復率表現。測評詳情可訪問下方鏈接:性能系列基準介紹:DeepSeek-R1系列第三方平臺DeepSeek-R1API調用穩(wěn)定性測評為了給用戶提供更全面、客觀的參考,并幫助他們選擇合適的服務平臺,我們在7個服務平臺上進行了DeepSeek-R1的API穩(wěn)定性測評,從回復率、準確率和推理耗時等方面評估其表現。本次測評在同一機器上對第三方平臺發(fā)送請求,使用20道小學奧數推理題測試,temperature為0.6,max_token設為平臺最大值或三次避免網絡影響,三次失敗視為獲取失敗。本次測評的報告僅代表測評時點的穩(wěn)定性。測評方法:本次測評在同一機器上對第三方平臺發(fā)送請求,使用20道小學奧三次避免網絡影響,三次失敗視為獲取失敗。具體實現說明:了避免網絡波動造成的影響,每個模型對每個問題會嘗試三次,如果三次嘗試都未獲取到答案,才視為獲取失敗。并且將測試時2.由于測評集為推理題,輸出較長,對于max_token的設置遵循以下原則:如果平臺文檔說明了支持的最大輸出的token,我們將DeepSeek的推薦參數值:0.6,其他參數保持各第三方平臺默認不做配置。3.關于推理耗時的統(tǒng)計方法,API的調用統(tǒng)一采用流式輸出(調用start_time,請求開始返回數據時,記錄時間chunk_time1;返回數據結束后,記錄時間chunk_time2。每道題目的輸出token數量記錄為:completion_tokens。測評結果分析1.各個第三方平臺使用DeepSeek-R1的完整回復率表現差異不大。除微軟云的DeepSeek-R1API外,其他的完整回復率都在95%以上。火山引擎、商湯大裝置、阿里云2.各第三方API接口輸出效率差距明顯,平均每秒輸出token數量最低6.9個,最高55.86個。測評顯示,第三方API每秒輸出token數量差異大。token;阿里云百煉和微軟云API則僅為每秒6.90個token。高并發(fā)或快速響應應用,宜選高生成效率平臺。3.各個第三方平臺準確率上略有差異。準確率上,字節(jié)火山引擎、硅基流動,準確率為95%左

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論