大模型后訓練:中美路徑與商業(yè)閉環(huán)-_第1頁
大模型后訓練:中美路徑與商業(yè)閉環(huán)-_第2頁
大模型后訓練:中美路徑與商業(yè)閉環(huán)-_第3頁
大模型后訓練:中美路徑與商業(yè)閉環(huán)-_第4頁
大模型后訓練:中美路徑與商業(yè)閉環(huán)-_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀??萍既A泰研究全球主流大模型集中于中美。據(jù)ArtificialAnalysis數(shù)據(jù),美國頭部模型廠商包括OpenAI、xAI、Anthropic與Google;國內(nèi)DeepSeek、阿里、智譜、Kimi與MiniMax較為領先。由于國內(nèi)高性能算力受限,在同樣強化學習+后訓練范式下,海外模型偏向規(guī)模擴展,而國內(nèi)擅長架構優(yōu)化。投資建議上,把握算力、存儲、電力、應用四個方向,我們認為:1)大模型產(chǎn)業(yè)的基座是算力。2)隨著多模態(tài)模型的普及,存儲需求同步提升。3)電力是算力的配套,是大規(guī)模集群上線的前提之一。4)AI應用是商業(yè)化落地的關鍵。1)中美大模型差異并非技術強弱,而是算力結構決定路線:海外依托高密度集群深化后訓練與推理擴展,國內(nèi)在算力約束下以Attention優(yōu)化、MoE稀疏化和長上下文重構追求單位算力效率,因此跑分不構成統(tǒng)一比較錨。2)AI應用落地并非遙遠,OpenAI提出統(tǒng)一模型、Pulse主動Agent與ACP對話內(nèi)結賬已使應用從“能用”進入“可經(jīng)營”,電商等高頻閉環(huán)場景率先具備規(guī)?;瘲l件。3)市場普遍低估數(shù)據(jù)標注的價值,ScaleAI、SurgeAI等高收入與高客單價顯示標注是模型能力上限的關鍵投入;需求擴張疊加客戶對獨立供應鏈偏好提升,行業(yè)定價權仍在抬升。大模型能力演進呈預訓練、后訓練與推理全鏈路擴展范式。早期ScalingLaw聚焦預訓練(參數(shù)/數(shù)據(jù)/算力同步放大2024年9月OpenAI發(fā)布o系列后,強化學習系統(tǒng)性并入后訓練,推理端以思維鏈延長思考時間、生成更多token釋放能力。海外以xAI為代表,依托約20萬卡級集群,持續(xù)在推理端擴算力;國內(nèi)在算力受限下更側重架構與算法精修,Qwen、DeepSeek、Kimi等以注意力優(yōu)化、稀疏化與MoE等提升訓練推理效率與性價比。我們認為,兩條路徑將沿各自要素稟賦持續(xù)演進。OpenAI提出GPT-5統(tǒng)一模型后,后續(xù)的模型迭代更多屬工程整合、價值再提效,研發(fā)重心上移至應用與變現(xiàn)。OpenAI以ACP(與Stripe)實現(xiàn)對話內(nèi)購買,首批接入Shopify、Etsy,并與Salesforce、Walmart協(xié)作,打通“發(fā)現(xiàn)-支付”閉環(huán)。國內(nèi)側阿里Qwen以多模態(tài)與場景推動token上量;據(jù)云棲大會2025主題演講,近2-3個月Token消耗倍增、百煉平臺過去一年日均調(diào)用量增約15倍、FY26Q1云業(yè)務收入同比增速25.8%。我們認為,支付閉環(huán)疊加生態(tài)擴展將主導下一階段商業(yè)化。1)算力:預/后訓練迭代推高算力需求,OpenAI規(guī)劃算力中心合計超36GW;據(jù)SCMP,出口限制后NVIDIA在華先進芯片份額95%→0,國產(chǎn)供給接棒。利好海外/國產(chǎn)算力鏈,如翱捷科技、滬電股份、芯原股份。2)存儲:多模態(tài)/長視頻抬升容量與帶寬(圖片1MB、音頻5MB、視頻≈50MB/分)。3)電力:美國新建大型數(shù)據(jù)中心并網(wǎng)申請到商運的中位時長繼續(xù)增加,而礦場改造成本約500-800萬美元/兆瓦、落地更快。4)應用:OpenAIACP實現(xiàn)對話內(nèi)結賬貫通“觸達-體驗-支付”;國內(nèi)入口卡位者更易受益:2C領域,福昕軟件、金山辦公、奧多比有豐富的C端用戶積累;2B領域,用友網(wǎng)絡、泛微網(wǎng)絡、鼎捷數(shù)智、虹軟科技、微軟有多樣化的企業(yè)客戶。風險提示:宏觀經(jīng)濟波動,技術進步不及預期,中美競爭加劇。研報中涉及到未上市公司或未覆蓋個股內(nèi)容,均系對其客觀公開信息的整理,并不代表本研究團隊對該公司、該股票的推薦或覆蓋??萍加嬎銠C行業(yè)走勢圖計算機科技計算機滬深300(%)滬深3004731(3)(19)Dec-24Apr-25Aug-25Nov-25資料來源:Wind,華泰研究重點推薦股票名稱股票代碼(當?shù)貛欧N)投資評級用友網(wǎng)絡600588CH22.57買入鼎捷數(shù)智300378CH68.07買入奧多比(Adobe)ADBEUS474.87買入虹軟科技688088CH73.47買入泛微網(wǎng)絡603039CH75.60買入翱捷科技688220CH130.00買入芯原股份688521CH207.43買入微軟MSFTUS648.00買入(Microsoft)福昕軟件688095CH119.23買入金山辦公688111CH380.80買入滬電股份002463CH84.40買入資料來源:華泰研究預測免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。與市場不同的觀點 5#1:中美大模型走出了差異化的發(fā)展路線 5#2:AI應用的轉(zhuǎn)折點或?qū)⒌絹?5#3:數(shù)據(jù)標注的重要性被低估 5投資建議 6中美兩國持續(xù)引領大模型迭代 8Transformer架構依然主流,Diffusion值得關注 12ScalingLaw2.0下,中美模型迭代的差異化路徑 14ScalingLaw2.0含義更加豐富,數(shù)據(jù)、算力持續(xù)攀升 14MoE之后,推理模型成為主流選擇 14大模型訓練數(shù)據(jù)量持續(xù)提升 15訓練算力與訓練成本保持快速增長 16模型性價比提升的趨勢不變 17ScalingLaw2.0下,中美模型迭代的差異化路徑 18海外:xAI持續(xù)踐行“大力出奇跡”,緊抓后訓練和強化學習 18國內(nèi):阿里、DeepSeek創(chuàng)新性架構優(yōu)化,抓住Attention本質(zhì) 20推理/非推理模型統(tǒng)一后,模型應用轉(zhuǎn)折點或?qū)⒌絹?24GPT-5確立了行業(yè)內(nèi)模型“統(tǒng)一系統(tǒng)”的方向 24頭部廠商重心開始向應用和商業(yè)化生態(tài)轉(zhuǎn)移 25模型Agent能力:海外注重基模,國內(nèi)偏向應用 32海外:旗艦模型執(zhí)行復雜任務的時長持續(xù)Scaling 32國內(nèi):智譜AutoGLM應用開始占領用戶心智 33多模態(tài)領域國內(nèi)領先,Sora2有望再次引發(fā)熱潮 35國內(nèi)模型廠商在多模態(tài)生成領域全球領先 35Sora2和相應社交App的發(fā)布,掀起多模態(tài)+社交的熱潮 37標注/合成數(shù)據(jù)都是后訓練時代重要的數(shù)據(jù)來源 39海外:專業(yè)化的數(shù)據(jù)標注公司是海外大廠首選 39國內(nèi):DeepSeek、Kimi在最新的模型中均系統(tǒng)性使用了合成數(shù)據(jù) 43投資建議 44算力 44存儲 45 46應用 49風險提示 53免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。圖表1:推薦標的與產(chǎn)業(yè)鏈標的一覽 7圖表2:全球主流大模型智能性概覽:中美大模型之爭 8圖表3:全球大模型主要玩家的能力矩陣 9圖表4:Google2025年以來的模型更新情況 10圖表5:Gemini3在多項測評集領先 圖表6:當前全球大模型仍以Transformer的decoder-only架構為核心主流 12圖表7:GoogleGeminiDiffusion 13圖表8:字節(jié)SeedDiffusionPreview 13圖表9:字節(jié)SeedDiffusionPreview性能超過GoogleGeminiDiffusion 13圖表10:OpenAIo系列模型帶來ScalingLaw2.0 14圖表11:ScalingLaw的三層遞進 14圖表12:主流頭部模型幾乎全部是推理模型 15圖表13:MoE(混合專家架構)是頭部模型主要采用的技術架構 15圖表14:大模型訓練數(shù)據(jù)量從15Ttokens提升到30T以上 15圖表15:前沿人工智能模型的訓練計算量大約每六個月翻一番 16圖表16:前沿AI模型訓練的攤銷硬件和能源成本隨時間變化 17圖表17:大模型API調(diào)用價格持續(xù)下降趨勢不變 17圖表18:Grok模型的演進對應了ScalingLaw的1.0到2.0階段 18圖表19:xAI訓練團隊在X平臺指出Grok-4.1后訓練算力有數(shù)量級的提升 19圖表20:OpenAI的算力擴張之路 20圖表21:Qwen3-Next通過Attention優(yōu)化提升長文本與大參數(shù)效率 21圖表22:DeepSeek-V3.2-Exp相比V3.1-Terminus在不同長度位置Token的推理成本顯著降低 22圖表23:DeepSeek-V3.2-ExpNSA注意力架構 22圖表24:KimiK2vsDeepSeek-V3:架構變化 23圖表25:GPT-5統(tǒng)一系統(tǒng)架構 24圖表26:Grok4Fast在保持高性能的前提下輸出更少的token 25圖表27:ChatGPT周活用戶變化 26圖表28:OpenAIPulse的使用情境#1 26圖表29:OpenAIPulse的使用情境#2 26圖表30:Agent商業(yè)協(xié)議(ACP)為ChatGPT提供即時結賬功能 27圖表31:OpenAI2025開發(fā)者大會展示的開發(fā)者生態(tài)進展(2023vs2025) 28圖表32:OpenAI2025開發(fā)者大會展示的ChatGPT與外部Zillow應用集成 28圖表33:OpenAI打造的軟硬件朋友圈將持續(xù)豐富 29圖表34:OpenAI收入預測變化情況 29圖表35:阿里Qwen系列2025年以來的模型更新情況 30圖表36:主要云廠商收入云業(yè)務收入增速對比 31圖表37:不同大型語言模型能夠50%概率完成軟件工程任務的時間跨度 32圖表38:GenSpark使用Claude模型構建智能體 33圖表39:Manus支持OpenAI的API 33圖表40:AutoGLM2.0自動操作云端手機 34免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。圖表41:AutoGLM2.0自動操作云端電腦 34圖表42:騰訊混元系列2025年以來的模型更新情況 35圖表43:文生圖像排行榜-ArtificialAnalysis 36圖表44:文生圖像排行榜-LMArena 36圖表45:文生視頻排行榜 37圖表46:圖生視頻排行榜 37圖表47:文字轉(zhuǎn)語音排行榜 37圖表48:SoraApp發(fā)布后迅速登上ios美國區(qū)免費第一 38圖表49:Sora主頁的網(wǎng)站訪問量隨著Sora2發(fā)布而提升 38圖表50:海外數(shù)據(jù)標注初創(chuàng)公司對比:ScaleAI、SurgeAI、Mercor 40圖表51:KimiK2的大規(guī)模Agent數(shù)據(jù)合成流程 43圖表52:算力推薦標的與產(chǎn)業(yè)鏈標的 45圖表53:多模態(tài)AI帶來存儲需求數(shù)量級的提升 46圖表54:存儲產(chǎn)業(yè)鏈標的 46圖表55:海外大廠與SMR廠商簽訂了相關協(xié)議或PPA 47圖表56:礦場改造數(shù)據(jù)中心相關產(chǎn)業(yè)鏈標的及簡況 48圖表57:電力產(chǎn)業(yè)鏈標的 49圖表58:應用推薦標的與產(chǎn)業(yè)鏈標的 50圖表59:重點公司推薦一覽表 50圖表60:重點推薦公司最新觀點 51免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。我們認為,市場以模型跑分來衡量國內(nèi)外大模型技術孰優(yōu)孰劣,是對國內(nèi)算力供給約束的誤讀。海外依托高密度算力把后訓練與強化學習做大做深,更易拔高長尾任務基準分;國內(nèi)面臨算力供給不足,并非技術不行,而是主動轉(zhuǎn)向差異化路線:以Attention本質(zhì)優(yōu)化、MoE稀疏化、長上下文工程重構,追求單位算力的有效產(chǎn)出。因此,跑分并不構成統(tǒng)一錨;決定路徑的變量是算力結構而非研究能力,分化由此形成并將延續(xù)。海外路徑正將算力重心移向后訓練與推理,國內(nèi)路徑在算力約束下押注架構與算法精修。xAI以ScalingLaw2.0為綱,圍繞后訓練+強化學習+算力擴張迭代Grok。而在算力供給差距下,國內(nèi)頭部廠商聚焦Attention本質(zhì)優(yōu)化與MoE稀疏化以換取訓練推理效率:Qwen3-Next在Transformer+MoE框架內(nèi)引入“75%線性注意力+25%傳統(tǒng)注意力”的混合注意力機制,顯著提高長上下文與大參數(shù)場景的效率。DeepSeekV3.2以DSA(動態(tài)稀疏注意力)重構算子與內(nèi)核,API輸入/輸出成本相比上一代模型約-50%/-75%。市場多認為AI應用大規(guī)模落地仍遠;我們認為時間點正在接近,電商等高頻垂類具備先行條件。OpenAI為代表的頭部廠商研發(fā)重心由底層能力轉(zhuǎn)向應用與商業(yè)化:統(tǒng)一模型提供一致能力底座,Pulse把模型從被動問答推進為主動智能體,ACP對話內(nèi)結賬打通“推薦-下單-履約”,疊加AppsSDK與MCP的標準化接入與分發(fā),以及與Shopify、Etsy等合作擴展生態(tài),“對話即入口、即時結賬”的工程與流量前提已具備。商業(yè)化抓手成形、需求側啟動。OpenAIPulse引入異步推理,使Agent在用戶離線時持續(xù)分析與生成,算力需求由“交互次數(shù)”轉(zhuǎn)向“在線Agent數(shù)量”。在2025年10月OpenAI開發(fā)者大會上,官方把ACP對話內(nèi)即時結賬確認為生態(tài)核心,AppsSDK與MCP提供接入、控制與富交互能力;其后宣布與Salesforce、Walmart合作擴展生態(tài)。據(jù)TheInformation數(shù)據(jù),OpenAI2030年營收預期上調(diào)至約2,000億美元,結構從訂閱/API拓展至Agent與新產(chǎn)品。國內(nèi)側,阿里Qwen推進多模態(tài)與2B落地;據(jù)云棲大會2025主題演講,百煉平臺模型日均調(diào)用量一年增約15倍,阿里云FY26Q1云業(yè)務收入增速25.8%。我們認為,“統(tǒng)一模型+Pulse+ACP”已將應用從“能用”推進到“可經(jīng)營”,電商垂類具備流量、閉環(huán)與支付三要素,轉(zhuǎn)折點正在逼近。市場低估標注價值,海外龍頭營收與客單價已給出明確反證與強力證據(jù)。市場認為“數(shù)據(jù)Digital數(shù)據(jù),ScaleAI收入由2022年2.5億美元升至2023年7.6億美元、2024年8.7億美元;據(jù)路透社信息,SurgeAI在2024年營收超過10億美元并實現(xiàn)盈利,單筆合同與客單價多在八位數(shù)至九位數(shù)美元區(qū)間;據(jù)TechCrunch信息與Forbes數(shù)據(jù)、Sacra數(shù)據(jù),2025年9月,Mercor年化收入快速逼近4.5億美元,2025年上半年錄得凈利潤約600萬美元。高收入與高客單價共同說明標注價值被系統(tǒng)性低估。需求擴張疊加供給演變,行業(yè)空間與議價能力同步抬升。據(jù)MordorIntelligence數(shù)據(jù),全球AI數(shù)據(jù)標注市場規(guī)模預計自2025年約19億美元增至2030年近55億美元,年復合增長率超過20%。驅(qū)動來自更高LLM性能需求、基于LLM的Agent數(shù)據(jù)、機器人與自動駕駛感知數(shù)據(jù)、以及醫(yī)療保健與金融科技等垂直場景。供給側出現(xiàn)結構變化:客戶對數(shù)據(jù)隔離與供應鏈獨立性的偏好增強。2025年6月,Meta以戰(zhàn)略入股方式取得ScaleAI49%股權后,部分大型實驗室為降低信息外泄風險傾向選擇與大型互聯(lián)網(wǎng)公司股權關系更疏的獨立標注方,SurgeAI承接相關遷移并實現(xiàn)業(yè)務躍升。我們認為,高質(zhì)量標注決定模型能力上限與商業(yè)化效率,在需求與結構性變化共同作用下,行業(yè)滲透率與定價權仍有提升空間。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。算力投資主線延續(xù),訓練與推理共振抬升需求。據(jù)OpenAI現(xiàn)在的算力規(guī)劃,截至25年10月,成體系大型算力中心已超30GW,奠定大模型容量基礎;頭部廠商在預訓練與后訓練持續(xù)迭代,訓練端擴容保持韌性,硬件投入與軟件優(yōu)化圍繞版本與架構升級推進。Google在多國擴展AIOverview、AIMode,25年10月AIMode引入36種新語言/40多個新國家和地區(qū),覆蓋逾200個國家和地區(qū);OpenAI在2025年開發(fā)者大會宣布打造應用生態(tài),周活用戶達8億(圖表29)。隨用戶與場景擴大,推理端對吞吐與響應要求提升,算力需求走強。我們認為,推理側邊際增量更為突出,對上游提出更高并發(fā)與更低時延的配置要求。國產(chǎn)算力接棒推進,供給體系趨于多元穩(wěn)健。據(jù)SouthChinaMorningPost于2025年10月信息,黃仁勛指出受美國出口限制影響,NVIDIA不被允許向中國大陸公司出售先進產(chǎn)品,其在中國先進芯片市場份額由95%降至0。疊加國內(nèi)互聯(lián)網(wǎng)廠商采購國產(chǎn)化趨勢增強,外采第三方與自研并行,有助縮短迭代、優(yōu)化成本并強化自主可控,帶動本土生態(tài)協(xié)同升級。我們認為,并行策略將提升國產(chǎn)芯片規(guī)?;涞匦逝c韌性。2)存儲AI存儲需兼顧容量、吞吐與可靠性。訓練側重穩(wěn)定寫入與快速恢復檢查點,推理側重高效查詢與即時響應,對系統(tǒng)擴展性與可用性提出更高門檻。硬盤用于保留模型產(chǎn)出、檢查點與查詢數(shù)據(jù);SSD與內(nèi)存承擔高并發(fā)低時延通路。隨模型參數(shù)與能力擴張,訓練對數(shù)據(jù)規(guī)模、豐富度與標注質(zhì)量要求提升,多模態(tài)樣本需持續(xù)匯聚與留存,催生原始與清洗多副本管理與分層留存。我們認為,大容量HDD與高性能SSD協(xié)同、以容量擴充與分層優(yōu)化為主,將與算力投入并行成為中長期建設重點。視頻多模態(tài)推理驅(qū)動容量與帶寬上行。多模態(tài)成熟后,線上推理對素材、緩存與生成成品留存擴大,并發(fā)訪問與調(diào)用頻率提升。據(jù)希捷科技數(shù)據(jù):單圖約1MB、音頻約5MB、視頻按分鐘計約50MB;隨生成視頻分辨率與時長上行,單體內(nèi)容容量繼續(xù)抬升。SoraApp等應用病毒式傳播提升創(chuàng)作者滲透率與產(chǎn)量,視頻生成分發(fā)依托邊緣低時延內(nèi)存與SSD快速檢索與回源,推動本地緩存與中心存儲協(xié)同調(diào)度與分層管理細化。我們認為,推理端需前瞻規(guī)劃容量與帶寬冗余,邊緣存儲與SSD加速將獲增量。電力約束抬升算力門檻,能源成為AI時代稀缺要素。AI訓練與推理持續(xù)推高用電負荷,據(jù)彭博新能源財經(jīng)(BNEF)預測,至2035年美國數(shù)據(jù)中心電力需求將由2024年的近35吉瓦增至78吉瓦,平均每小時用電由16吉瓦時升至49吉瓦時。AI與能源已“合二為一”,有效算力的度量正轉(zhuǎn)向以吉瓦為單位的供電能力。我們認為,能獲得穩(wěn)定低價電力者,將在算力競爭中占據(jù)結構性優(yōu)勢。核能被視為穩(wěn)定低碳的中長期解法,海外頭部云廠商等已簽訂多個電力購買協(xié)議(PPA)。美國電網(wǎng)當前面臨需求激增與多年投資滯后疊加,SMR(小型模塊化反應堆)有望成為新增負荷的重要抓手。海外頭部廠商,包括微軟、Gogole、亞馬遜、Meta均與SMR廠商簽訂了相關協(xié)議或PPA。AI應用是后續(xù)AI商業(yè)化落地的核心戰(zhàn)場與抓手。在OpenAI加速擴展數(shù)據(jù)中心的同時,2025年9月OpenAI與Stripe合作推出ACP支付協(xié)議,打通ChatGPT內(nèi)的即時支付功能,形成商業(yè)化變現(xiàn)閉環(huán)。首批接入ChatGPT應用生態(tài)的廠商包括Etsy、Shopify兩家電商,以及Figma、Zillow、Expedia、Instacart、Salesforce、Spotify、Duolingo等各垂類應用。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。國內(nèi)入口卡位稀缺、覆蓋較多2B/2C客戶的標的更易受益于AI應用商業(yè)化浪潮。面向國內(nèi)AI應用標的,我們延續(xù)“生態(tài)優(yōu)先”的判斷框架:以平臺級入口為抓手、具備服務企業(yè)(2B)或消費者(2C)的用戶結構,并能與模型、支付與分發(fā)渠道形成閉環(huán)者,更有望在應用商業(yè)化范式變化中率先兌現(xiàn)。此類公司通常兼具穩(wěn)定的終端觸達與企業(yè)服務能力,能通過API、插件或原生場景快速嵌入,放大用戶黏性與付費轉(zhuǎn)化。我們認為,入口卡位、用戶結構齊備與生態(tài)協(xié)同將構成篩選受益標的的關鍵標準。最新收盤價市值(百萬)最新收盤價市值(百萬)股票名稱股票代碼(當?shù)貛欧N)(當?shù)貛欧N)股票名稱股票代碼(當?shù)貛欧N)(當?shù)貛欧N)算力存儲滬電股份002463CH72.09138,727兆易創(chuàng)新603986CH212.82135,573翱捷科技688220CH92.1838,559德明利001309CH214.1249,892芯原股份688521CH153.3580,640佰維存儲688525CH112.250,895工業(yè)富聯(lián)601138CH59.811,205,789SNDKUS223.2831,515勝宏科技300476CH268.82235,604西部數(shù)據(jù)WDCUS163.3353,931生益電子688183CH98.0276,977希捷科技STXUS276.6958,148源杰科技688498CH535.146,318燦芯股份688691CH112.4514,304應用NVIDIANVDAUS4,380,318奧多比(Adobe)ADBEUS320.13134,006AMDAMDUS217.53348,792金山辦公688111CH317.08146,865GoogleGOOGLUS320.183,864,036福昕軟件688095CH95.688,741OracleORCLUS201.95584,298多鄰國DUOLUS191.418,711CoreWaveCRWVUS73.1237,020REDDITRDDTUS216.4739,332NebiusNBISUS94.8722,547三六零合合信息601360CH688615CH13.26210.9995,33428,993萬興科技300624CH75.6614,618IRISENERGYIRENUS47.8113,734微軟(Microsoft)MSFTUS492.013,656,804APPLIEDDIGITALAPLDUS27.16,975泛微網(wǎng)絡603039CH53.4013,916TERAWULFWULFUS15.516,213鼎捷數(shù)智300378CH43.6611,856CIPHERMININGCIFRUS20.357,566用友網(wǎng)絡600588CH14.2248,590CLEANSPARKCLSKUS15.13,438虹軟科技688088CH50.7020,339CORESCIENTIFICCORZUS16.895,017賽富時CRMUS230.54218,111RIOTPLATFORMSRIOTUS16.135,562DATADOGDDOGUS160.0155,546HUT8HUTUS454,578漢得信息300170CH19.819,343MARAMARAUS11.814,202賽意信息300687CH23.319,451GALAXYDIGITALGLXYUS26.5910,250卓易信息688258CH71.888,207HIVEDIGITALTECHNOLOGIESHIVEUS3.36530SNOWFLAKESNOWUS251.2484,246比特小鹿BTDRUS13.412,945MONGODB星環(huán)科技-U普元信息海天瑞聲MDBUS688031CH688118CH688787CH332.3765.7226.36114.6926,5447,9362,5056,814注:截至2025年12月1日。資料來源:Wind、VisibleAlpha、華泰研究預測免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。全球主流大模型集中于中美,兩國頭部廠商或長期占據(jù)主導優(yōu)勢?;贏rtificialAnalysis的數(shù)據(jù)與模型智能指標觀察,當前頭部模型整體由美國陣營領跑,海外最具代表性者為OpenAI、xAI、Anthropic與Google;曾在開源方向表現(xiàn)突出的Meta,受Llama4系列推進不順等因素影響,模型性能階段性落后。國內(nèi)方面,從模型性能維度評估,DeepSeek、Qwen(阿里系)、智譜模型位居前列,Kimi與MiniMax等亦處于國內(nèi)較為領先的行列。騰訊、百度的模型沒有被納入排行榜單,但其模型依然各有特色。我們認為,上述格局反映了中美在基礎模型與工程化推進上的綜合優(yōu)勢??陀^看待大模型幻覺與排行榜結果。OpenAI論文《WhyLanguageModelsHallucinate》指出,模型幻覺源于訓練與評估目標錯位,反映當前“刷分”現(xiàn)象背后的機制。論文顯示,現(xiàn)有訓練體系往往獎勵模型在不確定時仍作出回答,而非承認“不知道”,導致模型更傾向“猜測”而非求真?;糜X因此并非偶發(fā)性錯誤,而是統(tǒng)計學習以語言分布為目標的自然產(chǎn)物,與事實正確性并不等價。要減少幻覺,需要在評估機制上轉(zhuǎn)向激勵模型表達不確定性、懲罰誤導性回答,而非單純追求更高得分率。我們認為,這一機制偏差解釋了部分模型評測得分高但實際體驗不佳的原因,反映了模型能力與真實可用性間的結構性落差。不過,當前階段,大模型排行榜依然是直觀對比不同模型性能的較好選擇。注:ArtificialAnalysisIntelligenceIndexv3.0包含10種評估:MMLU-Pro、GPQADiamond、Humanity'sLastExam、LiveCodeBench、SciCode、AIME2025、IFBench、AA-MCR、Terminal-BenchHard、τ2-BenchTelecom。截至25年11月資料來源:ArtificialAnalysis、華泰研究Google當前擁有較為全面的全棧模型軟硬件能力,其他玩家強化補短。據(jù)ArtificialAnalysis數(shù)據(jù),以四維能力矩陣系統(tǒng)評估全球大模型主要競爭者的能力與定位現(xiàn)狀,框架涵蓋最底層的硬件支撐、其上的云服務能力、進一步的技術模型能力以及面向終端的頂層應用四個維度。從現(xiàn)階段表現(xiàn)看,Google在上述各維度的能力布局相對均衡且覆蓋面廣,體現(xiàn)為底層自研硬件(TPU系列)到應用的端到端一體化優(yōu)勢。相對而言,其他玩家也在逐步補齊短板,如OpenAI在底層定制化硬件方面暫處于落后位置,但是據(jù)路透社信息,OpenAI已宣布與博通合作開發(fā)新一代ASIC芯片,以期強化算力與成本控制的基礎能力;國內(nèi)DeepSeekV3.1及之后系列、智譜GLM4.6在Day0即適配了國產(chǎn)芯片。我們認為,當前大模型玩家格局呈現(xiàn)“Google更全面、其他廠商強化補短”的階段性特征。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。資料來源:ArtificialAnalysis、華泰研究Google在多模態(tài)模型領域的綜合實力突出,技術積累構筑長期競爭壁壘,實現(xiàn)多點開花。對比海外主要廠商,OpenAI以文本生成和圖片生成為核心,并拓展至實時語音及視頻生成(Sora系列但產(chǎn)品迭代節(jié)奏相對分散,如Sora于24年2月發(fā)布,直到12月才上線,25年10月更新Sora2;Anthropic聚焦純文本及部分視覺理解,多模態(tài)生成能力有限;xAI同樣以文本生成為主,尚未正式發(fā)布視頻生成模型。相比之下,Google依托多模態(tài)融合及跨領域研究的深厚儲備,具備系統(tǒng)化的模型開發(fā)與算力調(diào)度能力,圖像(GeminiImage系列)、視頻(Veo系列)、機器人(PaLM-E、GeminiRobotics系列)多點開花。我們認為,Google的多模態(tài)布局覆蓋面廣,技術底座穩(wěn)健,為后續(xù)模型代際躍遷奠定基礎。Gemini3作為Google多代技術積累的集中釋放,驗證預訓練與后訓練仍具顯著提升空間?;仡櫟?jié)奏,Gemini1以原生多模態(tài)與長上下文能力擴大模型可處理的信息類型與規(guī)模;Gemini2進一步奠定面向復雜任務的Agent能力框架,帶來更高質(zhì)量的推理與任務分解。在此前提下,Gemini3實現(xiàn)多模態(tài)理解、Agent能力與Coding能力的全面釋放,構成更成熟的能力體系。據(jù)Google官網(wǎng)信息,Gemini團隊在預訓練階段取得階段性躍升,未呈現(xiàn)外界擔憂的規(guī)模化受限跡象。與此同時,包括強化學習在內(nèi)的后訓練仍具進步和改進空間。兩條路徑共同塑造了Gemini3的綜合性能進展。Gemini3Pro在多模態(tài)理解和生產(chǎn)力應用場景表現(xiàn)突出,其中Vending-Bench2基準顯示,其在長時序運營模擬中能夠保持穩(wěn)定的工具調(diào)用與決策節(jié)奏,實現(xiàn)更高回報且未偏離任務目標。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。模型發(fā)布日期模型路線特點是否開源Gemini2.0FlashThinking2025.02強化學習CoT模型,當時的性能強于o1否Gemini2.0Flash-Lite2025.02否Gemma32025.03與Gemini相同開源小模型,支持端側是GeminiRobotics2025.03VLA(Vision-Language-Action)面向多步任務;“邊思考邊行動”與自然語言解釋;從ALOHA-2到Franka再到ApptronikApollo的跨機體遷移否Gemini2.5Pro2025.03與Gemini相同在LMArena排行榜(衡量人類偏好)上遙遙領先,表明該模型具有出色的性能和高品質(zhì)的風格。2.5Pro還表現(xiàn)出強大的推理和編碼能力,在常見的編碼、數(shù)學和科學基準測試中處于領先地位。否Gemini2.5Flash預覽版2025.04與Gemini相同,是混合推理模型Google首個完全混合推理模型,讓開發(fā)者能夠開啟或關閉“思考”。該模型還允許開發(fā)者設定“思考預算”。5月21日的I/O大會上,發(fā)布了2.5Flash更新版否Gemini2.5Pro2025.05與Gemini相同,是混合推理模型預覽了實時語音輸出功能。支持推理成本控制,即控制思考時間來控制成本。推出DeepThink功能否GeminiDiffusion2025.05Diffusion主流大廠第一次用Diffusion做文本生成,輸出速度遠快于Transformer架構。值得持續(xù)關注。否Veo32025.05內(nèi)置音效/對白生成、更強的一致性與控制;模型頁標注4K輸出、現(xiàn)實物理、更強提示對齊否GeminiRoboticsOn-Device2025.06本地部署優(yōu)化的VLA通用靈巧操控(如開拉鏈、疊衣等)、任務泛化與低時延推理;面向雙臂平臺起步否Gemini2.5Pro/Flash穩(wěn)定版2025.06MoE,原生多模態(tài)Gemini2.5設計成一個混合推理模型系列。將2.5Pro和Flash模型發(fā)布為穩(wěn)定版和正式版否Gemini2.5Flash-Lite預覽版2025.06MoE,原生多模態(tài)Gemini2.5設計成一個混合推理模型系列,2.5Flash-Lite預覽版——這是我們迄今為止最具成本效益和速度最快的2.5模型。否Gemma3n2025.06MatFormer(套娃式Transformer)設備端人工智能的重大進步,將強大的多模態(tài)能力帶到邊緣設備是Genie32025.08自回歸視頻世界模型可實時交互、數(shù)分鐘級一致性;支持在生成世界里設定目標并用SIMA等智能體驗證;強調(diào)物理與環(huán)境一致性否Gemma3270M2025.08Transformer緊湊模型,從零開始設計用于任務特定的微調(diào),且已在訓練中具備了強大的遵循指令和文本結構化能力。關鍵優(yōu)勢是其低功耗是Gemini2.5FlashImage(banana)2025.08NA先進的圖像生成和編輯模型否GeminiRobotics1.52025.09升級版VLA更強多步任務與跨機體學習,可與工具調(diào)用(如Search或自定義函數(shù))聯(lián)動完成復雜鏈路。否GeminiRobotics-ER1.52025.09EmbodiedReasoning,具身推理。不直接控肢體,負責空間理解/規(guī)劃/決策與工具調(diào)用,向VLA下達高層指令理解環(huán)境-制定計劃-估計進度與成功率;可原生調(diào)用工具,支撐長鏈路任務;與VLA協(xié)同提升泛化否Gemini2.5Flash/LiteGemini3Pro2025.092025.11NANA更新版本,有更好的指令遵循能力,更簡潔的輸出和更強大的多模態(tài)和翻譯能力,更好的智能體工具使用。Gemini3Pro的亮點:1)多模態(tài)理解能力。目前視頻生成還沒有和LLM有機統(tǒng)一,但是多模態(tài)理解已經(jīng)成為Gemini的強項。2)生產(chǎn)力落地能力(也是Agent能力)。Gemini3Pro在整個模擬的一年運營中保持了一致的工具使用和決策制定,推動了更高的回報而不偏離任務。否否資料來源:Google官網(wǎng)、華泰研究資料來源:Google官網(wǎng)、華泰研究Google前期在模型發(fā)布節(jié)奏上較慢,主要源于大型企業(yè)內(nèi)部的結構特征,目前陣痛期已過。過去兩年,Google模型迭代速度不及OpenAI(2024年9月員工3000人以上)/Anthropic(2025年5月員工1300人左右)等初創(chuàng)公司,原因在于其公司人員規(guī)模大(截至25Q3共有190,167名員工)、內(nèi)部多條業(yè)務線并行、決策鏈條較長,導致產(chǎn)品落地周期相對延后。然而,這種節(jié)奏背后體現(xiàn)出研發(fā)體系的系統(tǒng)化與安全審慎。一旦內(nèi)部多項目成果集中兌現(xiàn),往往能形成“多點開花”的局面,帶來技術與產(chǎn)品層面的顯著突破。我們認為,Google在大模型迭代上的滯后并非能力不足,而是戰(zhàn)略穩(wěn)健與組織復雜性使然,后續(xù)一旦節(jié)奏提速,其潛在創(chuàng)新爆發(fā)力值得關注。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。當前全球大模型仍以Transformer的decoder-only架構為核心主流。盡管近年來陸續(xù)出現(xiàn)如Mamba、KAN等新型網(wǎng)絡結構,但尚未在工程實踐中形成主導地位,Transformer體系依舊占據(jù)核心位置。我們認為,在可預見階段內(nèi),Transformer仍將是大模型研發(fā)與優(yōu)化的基礎框架,其生態(tài)與工具鏈優(yōu)勢將繼續(xù)鞏固主導地位。資料來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,Yang(2023)、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。我們認為,未來仍可能出現(xiàn)替代Transformer的新型架構。盡管Transformer自2017年提出以來已成為主導范式,但其真正獲得全球關注與驗證是在2023年底ChatGPT問世之后?;仡欉@一歷程可以發(fā)現(xiàn),技術范式的更替往往具有滯后性,新的架構或已在研究階段出現(xiàn),只是尚未進入廣泛應用周期。我們認為,隨著模型規(guī)模、算力利用和推理方式的進一步演進,未來在特定時間點上,或?qū)⒊霈F(xiàn)性能與效率兼?zhèn)?、并能超越Transformer的新一代主流架構。Diffusion架構正被重新審視,其在生成領域的應用邊界正逐步擴展到文本領域。Diffusion架構本身并非全新技術,主要用于圖像與視頻生成。2024年初Sora的發(fā)布,展現(xiàn)了Diffusion與Transformer結合的潛力,顯著提升了視頻生成的一致性、分辨率及時長表現(xiàn)。25年5月,Google首次嘗試將Diffusion算法用于文本生成,發(fā)布GeminiDiffusion預覽版,字節(jié)隨后也推出SeedDiffusion以跟進相關方向。Diffusion的優(yōu)勢在于Token生成速度快(字節(jié)SeedDiffusion專門用于代碼生成,其推理速度達到2,146token/s,比同等規(guī)模的自回歸模型快5.4倍且生成后可進行精細化修改,而Transformer基于NextTokenPrediction的生成方式則缺乏這種可回溯調(diào)整能力。我們認為,盡管Diffusion能否取代Transformer成為主流尚待驗證,但其在頭部廠商中的探索已具前瞻意義,值得持續(xù)關注。資料來源:Google官網(wǎng)、華泰研究資料來源:字節(jié)官網(wǎng)、華泰研究資料來源:字節(jié)官微、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。“ScalingLaw”作為Transformer體系的核心邏輯,正從單一階段演進至多階段范式。早期的ScalingLaw主要聚焦于預訓練階段,通過擴大模型參數(shù)、數(shù)據(jù)規(guī)模、算力規(guī)模實現(xiàn)性能提升,可稱為1.0階段;而自2024年9月OpenAI發(fā)布o系列模型以來,強化學習被系統(tǒng)性引入后訓練流程,標志著ScalingLaw進入2.0階段,即在后訓練環(huán)節(jié)繼續(xù)擴大算力與數(shù)據(jù)投入,使模型在強化學習中形成可擴展的能力增益。進一步地,在推理階段,模型通過思維鏈(ChainofThought)方式開展推理,用戶可在實際使用中使用更多算力以延長思考時間、生成更多token,在推理中充分釋放已習得的強化學習能力。我們認為,這種從預訓練到后訓練再到推理端的全鏈路擴展邏輯,構成了當前大模型性能演進的主線框架,也是2025年黃仁勛在GTC大會上所強調(diào)的關鍵趨勢。資料來源:OpenAI官網(wǎng)、華泰研究資料來源:GTC2025、華泰研究MoE之后,推理模型成為主流選擇頭部大模型整體呈現(xiàn)推理強化與MoE并行的雙特征趨勢。具體看,在混合專家(MoE)架構,便于沿參數(shù)規(guī)模規(guī)律擴展(ScalingLaw)潛力,同時推理時按路由僅激活部分專家,降低單位開銷,兼顧效率與性價比,由此成為頭部模型實踐的優(yōu)先選項。2024年下半年,隨著OpenAI的o系列“推理模型”在預訓練后引入強化學習等后訓練以糾偏優(yōu)化,推理階段進一步給予更高算力與更長思考時間,以換取復雜任務上的性能改進。我們認為,推理階段的資源調(diào)度與MoE的擴展效率將繼續(xù)支撐性能提升。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。注:紫色為推理模型,藍色為非推理模型。截至25年11月資料來源:ArtificialAnalysis、華泰研究注:藍色代表MoE架構,黑色代表稠密架構。坐標軸縱軸為模型智能程度,越大越好。截至25年11月資料來源:ArtificialAnalysis、華泰研究大模型訓練數(shù)據(jù)量持續(xù)提升訓練數(shù)據(jù)Token規(guī)模持續(xù)走高。據(jù)ArtificialAnalysis統(tǒng)計,典型開源模型的訓練數(shù)據(jù)常見在10-15萬億tokens,被視為可免費獲取并高質(zhì)量清洗后的網(wǎng)絡數(shù)據(jù)量級。頭部廠商通過新增標注與合成數(shù)據(jù)等方法持續(xù)擴容訓練數(shù)據(jù)tokens,新近模型的訓練tokens繼續(xù)上行:例如阿里Qwen系列由18萬億(24年9月Qwen2.5)提升至36萬億(25年4月Qwen3Meta在訓練Llama4Scout時引入部分社交數(shù)據(jù),使總體訓練數(shù)據(jù)約達40萬億。我們認為,隨“垂類”數(shù)據(jù)與新標注數(shù)據(jù)的不斷累積,訓練tokens仍將增加,且從模型泛化性和性能表現(xiàn)來看,OpenAI、Google等頭部模型的訓練規(guī)模或高于公開口徑。資料來源:ArtificialAnalysis、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。訓練算力與訓練成本保持快速增長從全球前沿模型的訓練趨勢來看,算力投入的增長仍是推動大模型性能演進的核心動力。根據(jù)EpochAI在《TrainingComputeofFrontierAIModelsGrowsby4-5xperYear》中的測算,2010年至2024年間,具代表性的前沿模型訓練所需算力的年均增長倍數(shù)約為4-5倍。這一趨勢在主要科技企業(yè)的旗艦模型中表現(xiàn)一致,顯示出業(yè)界對算力擴展的持續(xù)依賴。值得注意的是,最頭部的語言模型的增長趨勢更快,在2017年6月至2024年5月期間,其增長速度高達每年9倍。從2025年發(fā)布的新前沿模型來看,仍然沒有放緩??傮w判斷,在當前階段,算力仍是大模型能力演進的底層約束與增長引擎,其年均4-5倍的擴張速度構成了行業(yè)發(fā)展的核心節(jié)奏。資料來源:EpochAI、華泰研究從訓練成本趨勢來看,前沿模型的資金投入正快速攀升。根據(jù)EpochAI的研究《HowMuchDoesItCosttoTrainFrontierAIModels》,2016-2024年中具有代表性的前沿模型訓練成本年均增長約2.4倍(區(qū)間為2.0-3.1倍若按云端算力租用價格計算,增速約為2.6倍。當前訓練成本結構中,AI加速器硬件與研發(fā)人力支出占比最高,分別約為47-67%與29-49%。若這一增長趨勢延續(xù),預計至2027年前沿模型的單次完整訓練成本或?qū)⑦_到十億美元量級。我們認為,訓練成本的持續(xù)攀升將進一步抬高進入壁壘,強化頭部廠商的領先優(yōu)勢,同時促使行業(yè)在硬件能效、算法效率及架構創(chuàng)新方向加速突破,以在性能與成本間尋求平衡。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。資料來源:EpochAI、華泰研究模型性價比提升的趨勢不變大模型API價格延續(xù)下降,但未發(fā)生“智能性-價格”倒掛現(xiàn)象。當前看,各家在新模型發(fā)布后通常同步下調(diào)API費用,整體價格呈持續(xù)下行態(tài)勢;從“智能性-價格”關系看,智能性更強的模型定價仍更高,尚未出現(xiàn)高智能卻更低價的倒掛情形。我們認為,隨著模型效率迭代與供給增加,價格下行趨勢仍將持續(xù)。注:截至25年9月。不同顏色線代表不同智能程度的模型資料來源:ArtificialAnalysis、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。海外:xAI持續(xù)踐行“大力出奇跡”,緊抓后訓練和強化學習ScalingLaw2.0以“后訓練+強化學習”為核心路徑,Grok迭代驗證該方向。圍繞xAI的發(fā)布節(jié)奏可見ScalingLaw側重的遷移:ScalingLaw1.0階段,對應xAI自Grok2到Grok3的迭代,主要通過將預訓練算力擴大約10倍帶來性能躍升;Grok3的推理模型標志著Grok模型進入后訓練階段;至Grok4發(fā)布,其后訓練(Reasoning)相較Grok3再度將算力放大約10倍,使得后訓練算力需求接近預訓練。從目前頭部模型迭代進度看,后訓練的算力需求還有可能繼續(xù)增加。據(jù)xAI官網(wǎng),Grok4依托20萬卡級別的Colossus大規(guī)模集群進行訓練,因此,持續(xù)擴大后訓練的模式與海外更高密度算力核集群稟賦相匹配。我們認為,ScalingLaw2.0體現(xiàn)出算力重心由預訓練向后訓練與推理環(huán)節(jié)遷移,并對高密度集群供給提出更高要求。Grok4.1在強化學習獎勵范式上引入Agent模型獎勵,并繼續(xù)在后訓練算力上有數(shù)量級提升。Grok4.1延續(xù)“預訓練+強化學習”的總體路徑,但在后訓練環(huán)節(jié)進行了關鍵范式調(diào)整。據(jù)xAI官網(wǎng)信息,本次迭代沿用了Grok4的大規(guī)模強化學習基礎設施,并針對強化學習中不可直接驗證的獎勵信號進行了優(yōu)化,采用具備Agent推理能力的模型作為獎勵模型,使系統(tǒng)能夠?qū)崿F(xiàn)自動化評估與響應迭代。Grok4.1在偏好度測試中達到64.78%,呈現(xiàn)出更符合用戶交互偏好的輸出特征。xAI訓練團隊在X平臺亦指出,其后訓練強化學習規(guī)模相較Grok4擴大了一個數(shù)量級,結合更強推理能力的獎勵模型,使模型在真實對話偏好學習、自主評分與反饋循環(huán)中持續(xù)改進。資料來源:xAI官網(wǎng)、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。資料來源:X平臺官網(wǎng)、華泰研究OpenAI在后訓練Scaling領域或也進入重投入階段。盡管OpenAI未公開其在后訓練階段的具體Scaling進展,但從“Stargate(星際之門)”項目的規(guī)劃細節(jié)與算力布局來看,其在后訓練方向的資源投入已具備顯著規(guī)模。Stargate項目的算力規(guī)劃高度完善,體現(xiàn)出OpenAI對后訓練階段的重視程度,以及為實現(xiàn)ScalingLaw2.0提出的“后訓練-強化學習”體系所需的基礎設施支撐。我們認為,作為后訓練ScalingLaw2.0理念的提出者,OpenAI當前的研發(fā)重點同樣正在從模型規(guī)模擴展轉(zhuǎn)向后訓練與推理環(huán)節(jié)的算力優(yōu)化與結構化部署,進入了重投入階段。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。資料來源:OpenAI官網(wǎng)、CNBC、華泰研究國內(nèi):阿里、DeepSeek創(chuàng)新性架構優(yōu)化,抓住Attention本質(zhì)國內(nèi)算力受限背景下,模型迭代更依賴架構層創(chuàng)新。相較于海外依托NVIDIA最新GPU構建10萬至20萬卡級超大集群的條件,國內(nèi)在算力基礎設施上仍存在差距。在此約束下,基礎模型的發(fā)展更需通過架構優(yōu)化提升效率。從當前技術演進看,Transformer架構在中短期內(nèi)仍將是主流,其核心算法Attention機制(通過計算Tokens間相關性以預測最優(yōu)輸出構成了模型性能的關鍵環(huán)節(jié)。因此,國內(nèi)頭部廠商普遍聚焦于Attention層面的優(yōu)化與創(chuàng)新,其中以阿里的Qwen系列與DeepSeek的模型為典型代表。我們認為,在算力約束難以短期突破的情況下,架構創(chuàng)新與算法精煉將成為國內(nèi)基礎模型競爭的主要方向。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。Qwen3-Next延續(xù)Scaling大方向,通過Attention優(yōu)化提升長文本與大參數(shù)效率。阿里為進一步增強模型在長上下文與大規(guī)模參數(shù)條件下的訓練及推理效率,其Qwen3-Next在保持Transformer與MoE總體框架不變的前提下,主要改進了:1)引入“75%線性注意力+25%傳統(tǒng)注意力”的混合機制,在兼顧長文本效率與記憶精度間取得平衡;2)顯著提升稀疏化程度,80B總參數(shù)僅激活約3B,激活率約3.7%,推理效率明顯改善;3)擴大MoE專家數(shù)量至512個,為前代的兩倍;4)采用多Token預測機制,提高訓練與推理并行度。我們認為,Qwen3-Next的創(chuàng)新體現(xiàn)出在Scaling框架下通過細粒度結構優(yōu)化實現(xiàn)性能與成本的再平衡,這類“細節(jié)創(chuàng)新”或?qū)⒊蔀楹罄m(xù)國內(nèi)大模型迭代的主要演進路徑。資料來源:Qwen官網(wǎng)、華泰研究DeepSeekV3.2引入DynamicSparseAttention,訓推效率再次有了大幅提升。DeepSeekV3.2-Exp在性能上與上一版V3.1-Terminus差距不大,并將V3.2定位為“邁向新一代架構”的中間步驟。V3.2最大的進步體現(xiàn)在DSA(DynamicSparseAttention)的引入,模型訓練與推理效率顯著提升,相比上一代模型API輸入與輸出成本分別下降約50%與75%以上(推理成本)。DSA的核心優(yōu)化集中在Attention機制層,通過算子級與內(nèi)核級的工程化重構,在長上下文任務中顯著壓縮訓練與推理開銷,同時盡量保持模型性能穩(wěn)定,延續(xù)了以架構精修換取綜合效率提升的技術路線。我們認為,該版本體現(xiàn)出在算力約束下的務實取舍,既為后續(xù)架構演進奠定技術基礎,也展示出國產(chǎn)模型在底層優(yōu)化方面的持續(xù)積累。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。資料來源:DeepSeek官網(wǎng)、華泰研究DSA實現(xiàn)長上下文推理的高效稀疏化。V3.2-Exp在原V3.1架構基礎上新增的結構改動為DSA,旨在顯著提升長上下文的訓練與推理效率。其基本思路是采用“先粗篩、后精算”的雙階段注意力機制:通過一個輕量索引器(Indexer)先對歷史tokens進行快速篩選,選出最可能相關的Top-k候選,再由主注意力模塊進行精細計算,從而將復雜度由O(L2)降至O(Lk)(k?L文本越長節(jié)省越顯著。索引器雖維持O(L2)復雜度,但因采用更少注意力頭、輕量化FP8計算及優(yōu)化實現(xiàn),使端到端推理顯著加速。我們認為,DSA標志著國內(nèi)Attention機制從全密集計算向動態(tài)稀疏推理的轉(zhuǎn)折,是長上下文方向的重要突破。資料來源:DeepSeek官網(wǎng)、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。KimiK2模型在整體架構上延續(xù)DeepSeekV3框架,并引入了針對性架構優(yōu)化。K2主要改進包括:1)驗證在激活參數(shù)不變的條件下,單純提升MoE總參數(shù)量依然符合Scaling規(guī)律,訓練與驗證loss持續(xù)下降且無過擬合跡象;2)適度減少Attentionhead數(shù)量,在保持性能穩(wěn)定的同時顯著降低算力開銷;3)僅保留首層dense層,其余全部采用MoE結構,以改善首層router負載不均并提升專家利用效率;4)引入無分組的簡化router,優(yōu)化計算路徑與參數(shù)調(diào)度;5)將模型參數(shù)從V3的671B提升到1T;6)引入MuonClip優(yōu)化器,顯著提升訓練穩(wěn)定性與收斂一致性。得益于上述改進,K2在維持與DeepSeekv3相當?shù)挠柧毰c推理成本下,實現(xiàn)了更低loss與更高參數(shù)效率。我們認為,K2的路徑體現(xiàn)了國內(nèi)團隊在算力約束下通過結構精修延展Scaling規(guī)律、提升模型性價比的工程化思路。注:其中粗線方框為架構上顯著改變的部分資料來源:Kimi官網(wǎng)、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。GPT-5以統(tǒng)一架構實現(xiàn)快思與深思的自適應協(xié)同,并以路由器按任務動態(tài)分配資源。具體而言,體系由基礎模型(Mainmodel)承擔多數(shù)日常問答,深度推理模型(GPT-5Thinking)處理復雜任務中的長期思考,實時路由器(Real-timeRouter)依據(jù)對話類型、問題復雜度、工具調(diào)用與用戶意圖(如“認真思考”提示)在兩類模型間動態(tài)選擇與切換。路由器持續(xù)學習用戶信號(如模型切換行為、回答偏好、正確率等)以優(yōu)化決策,并規(guī)劃在后續(xù)將三者進一步融合為單一模型,以在優(yōu)化速度的同時提升思考深度與一致性。我們認為,該架構有利于在不同使用場景下兼顧響應效率與推理質(zhì)量。GPT-5.1以自適應推理與細化模型分工提升智能表現(xiàn)與交互體驗。GPT-5.1在延續(xù)GPT-5統(tǒng)一架構的基礎上強化產(chǎn)品化能力,通過Instant與Thinking雙模型分工使日常交互與復雜推理各得其所。Instant聚焦指令遵循與語境貼合,提升對話自然度;Thinking通過動態(tài)調(diào)整思考時間,在深度推理與響應速度間取得更穩(wěn)妥平衡。據(jù)OpenAI官網(wǎng),模型在AIME2025、Codeforces等數(shù)學與編程類任務中表現(xiàn)更強,邏輯嚴謹度提升明顯。自適應思考機制使模型可自主判斷是否深入推理,使速度與質(zhì)量兼顧。語言表達趨向簡潔清晰,減少技術術語堆疊。個性化調(diào)節(jié)亦得到增強,新引入Professional、Candid、Quirky等語氣,并支持對簡潔度與情感溫度的細粒度控制。生態(tài)上,GPT-5.1將逐步替代GPT-5,舊版本保留三個月以便用戶平滑遷移,API同步更新至gpt-5.1-chat-latest與gpt-5.1。資料來源:OpenAI官網(wǎng)、華泰研究GPT-5提出統(tǒng)一模型架構后,行業(yè)迅速跟進,并正成為新一代大模型演進的重要方向。其核心在于將推理模型與非推理模型整合到單一系統(tǒng)中,通過動態(tài)調(diào)度實現(xiàn)“快思-深思”的連續(xù)切換,從而在響應速度與推理深度間取得較優(yōu)平衡。我們認為,這種統(tǒng)一思路正在改變模型設計邏輯,使“思考層級”成為可調(diào)系統(tǒng)參數(shù),而非外部模式選擇,并且更加節(jié)省模型輸出的token數(shù)。此外,統(tǒng)一模型的一個重要優(yōu)勢在于部署與運維效率顯著提升。過去需要分別部署推理模型和非推理模型,而現(xiàn)在只需部署一個統(tǒng)一模型即可覆蓋不同任務場景,不僅降低系統(tǒng)復雜度和算力成本,也提升推理過程的連續(xù)性與資源利用率。DeepSeekV3.1以混合推理架構落地統(tǒng)一模型,實現(xiàn)單體兼容快思與深思。V3.1版本在一個模型內(nèi)同時支持思考模式與非思考模式,使“是否推理、推理到何種程度”由系統(tǒng)自動判定;在思維鏈壓縮訓練的配合下,V3.1-Think能以更少的輸出Token在更短時間內(nèi)完成復雜任務,同時保持與既有基線相近的性能表現(xiàn)。我們認為,該架構通過內(nèi)部機制而非多模型切換,在性能與能效間取得更穩(wěn)定的折中。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。Grok4Fast同樣以統(tǒng)一模型架構為核心,將推理與非推理模式融合于同一體系內(nèi)。Grok4Fast依據(jù)任務復雜度自動調(diào)節(jié)思考深度與計算資源,實現(xiàn)響應速度與推理能力的動態(tài)平衡,通過強化學習優(yōu)化智能密度(intelligencedensity在保持Grok4同等性能的同時平均減少40%推理Token消耗(圖表24)。統(tǒng)一體系下模型可在實時搜索、代碼執(zhí)行、復雜推理與普通對話間自適應切換,使“快思-深思”形成連續(xù)可調(diào)的譜系結構。注:AIME來自美國高中數(shù)學奧賽,HMMT2025常用于檢驗模型在多步數(shù)學推理與抽象推導中的一致性和“鏈式思維”(Chain-of-Thought)質(zhì)量,GPQA用于測試模型在物理學、數(shù)學推理與概念遷移方面的理解能力資料來源:xAI官網(wǎng)、華泰研究統(tǒng)一模型屬于系統(tǒng)層面的重要創(chuàng)新,但并未改變大模型的底層理論架構。其核心價值更多體現(xiàn)在工程與產(chǎn)品層面,通過體系整合提升推理效率與部署便捷性。我們觀察到,在統(tǒng)一系統(tǒng)落地之后,頭部大模型廠商的研發(fā)重心正逐步由底層模型優(yōu)化轉(zhuǎn)向上層應用與商業(yè)化探索,技術競爭正從模型理論創(chuàng)新轉(zhuǎn)向產(chǎn)品體驗與生態(tài)建設。OpenAI的Pulse和購物功能是典型的應用和商業(yè)化生態(tài)新模式探索,也是OpenAI利用其日益增長的周活用戶”變現(xiàn)的“第一步”。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。(百萬)9008007006005004003002001000周活用戶月活用戶周活用戶80070060050040030020012022-112023-12024-82024-122025-22025-32025-62025-82025-10資料來源:OpenAI官網(wǎng)、TheInformation、CNBC、華泰研究Pulse解決了“模型如何主動地行動”的問題,屬于計算密集型服務(compute-intensiveservice)。Pulse讓大模型從被動響應的工具,演化為能主動理解與推理的智能體(Agent真正邁向“自驅(qū)動”的應用形態(tài)。傳統(tǒng)ChatGPT依賴用戶輸入觸發(fā)推理,而Pulse引入異步推理機制,能在用戶離線時自動執(zhí)行分析、生成更新與個性化內(nèi)容。這意味著算力需求不再由“交互次數(shù)”驅(qū)動,而轉(zhuǎn)向“持續(xù)在線的智能體數(shù)量”驅(qū)動,推理任務的觸發(fā)頻率與時間跨度均被極大延展。結合此前DeepResearch的經(jīng)驗,這類Agent的Token消耗較傳統(tǒng)模型高出15-50倍(參見報告《科技/計算機:Token推動計算Compute需求:非線形增長》,2025年7月17日而Pulse的主動推理模式將進一步放大這種差距。從應用與商業(yè)邏輯上看,Pulse的推出意味著OpenAI的重心正在由底層架構轉(zhuǎn)向上層生態(tài)與商業(yè)化探索。一方面,Pulse通過長期積累的用戶上下文,具備構建個性化推薦與廣告體系的潛力,使大模型商業(yè)化路徑從“賣API”擴展至“用戶數(shù)據(jù)驅(qū)動的服務經(jīng)濟”;另一方面,端側硬件的引入讓模型能更深入地嵌入用戶日常生活場景,形成“端側收集+云端推理”的雙層閉環(huán),從而進一步擴大算力需求與數(shù)據(jù)邊界。我們認為,統(tǒng)一模型奠定了底層能力的集約化基礎,而Pulse則代表了從統(tǒng)一模型走向統(tǒng)一智能體生態(tài)的關鍵一步。它使算力的消耗從“響應一次對話”變?yōu)椤俺掷m(xù)感知與主動決策”,為AI在個性化推薦、數(shù)字助理及端云協(xié)同場景中的商業(yè)化落地打開了新的空間。資料來源:OpenAI官網(wǎng)、華泰研究資料來源:GTC2025、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。OpenAI首推“對話內(nèi)購買”,以協(xié)議驅(qū)動交易閉環(huán)。OpenAI在統(tǒng)一模型與Pulse之后,又推出了AgenticCommerceProtocol(代理商務協(xié)議,ACP標志其正式將智能體(Agent)能力延伸至商業(yè)交易場景。該協(xié)議由OpenAI與Stripe聯(lián)合開發(fā),旨在讓AIAgent具備直接執(zhí)行購買行為的能力,實現(xiàn)從“推薦商品”到“完成交易”的全流程自動化。第一批電商合作伙伴主要為Shopify(SHOPUS)和Etsy(ETSYUS)。OpenAI對商戶收取少量服務費,但對用戶完全免費,且不影響商品價格或搜索結果排序。“對話內(nèi)購買”使ChatGPT從信息服務工具進一步演化為具備交易執(zhí)行能力的主動型Agent平臺。用戶可在對話中完成即時結賬(instantcheckout無需跳轉(zhuǎn)頁面或輸入額外信息;而商家則可通過接入該協(xié)議直接觸達ChatGPT的數(shù)億級用戶群,在保持自身支付體系與客戶關系的前提下參與交易。從系統(tǒng)演進的角度看,AgenticCommerceProtocol是繼統(tǒng)一模型→Pulse(主動推理)→Agentic生態(tài)之后的又一次關鍵商業(yè)化延伸。統(tǒng)一模型提供了智能體的計算基礎,Pulse讓智能體具備主動性,而該協(xié)議則賦予智能體實際執(zhí)行力,使AI從“會思考”邁向“能行動”。我們認為,這一進展代表OpenAI正在把智能體從生產(chǎn)力工具推進為商業(yè)行為主體,AI產(chǎn)業(yè)的價值鏈由算力與模型競爭,進一步拓展至支付、交易與用戶生態(tài)層面。資料來源:OpenAI官網(wǎng)、華泰研究OpenAI開發(fā)者大會再次強調(diào)以ACP對話內(nèi)即時結賬為核心,貫通需求發(fā)現(xiàn)到用戶支付的商業(yè)閉環(huán)生態(tài)。10月6日2025年OpenAI開發(fā)者大會上,OpenAI再次明確在支付側引入AgenticCommerceProtocol的“對話內(nèi)即時結賬”,并強調(diào)不止電商,后續(xù)各類接入ChatGPT的App均可能通過ACP實現(xiàn)變現(xiàn)。對話即入口、結賬不外跳,已訂閱用戶可在對話直接登錄,未來支持多種變現(xiàn),使交易鏈路由“觸達-體驗-轉(zhuǎn)化”在同一會話內(nèi)閉合,顯著降低流失點并便于歸因與運營。我們認為,ACP將會話從信息交互延伸為交易承載,提升單位會話的轉(zhuǎn)化效率與可運營性,成為商業(yè)化的關鍵抓手。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。圖表31:OpenAI2025開發(fā)者大會展示的開發(fā)者生態(tài)進資料來源:OpenAI官網(wǎng)、華泰研究AppsSDK與MCP提供商業(yè)化所需的接入、控制與富交互能力。AppsSDK(預覽)基于MCP,前后端完全可控,支持數(shù)據(jù)接入、動作觸發(fā)與富UI(內(nèi)聯(lián)/畫中畫/全屏/Widget“TalkingtoApps”使應用可反向暴露交互上下文給模型,強化對話-UI-動作閉環(huán)。據(jù)發(fā)布會信息,年內(nèi)將開放提交審核與目錄,開發(fā)者指南草案已發(fā),達標上架、優(yōu)秀者可獲更多推薦位。我們認為,標準化接入與目錄化分發(fā)共同構成商業(yè)化基礎設施,幫助開發(fā)者更好的接入到ACP環(huán)境中。示例場景在多類應用中展示從體驗到交易的閉環(huán)可行性。開發(fā)者大會上展示了ChatGPT和多個公司/產(chǎn)品的集成用例,如Coursera可在對話中承載“視頻+講解”,Canva支持從命名到海報/一鍵轉(zhuǎn)PitchDeck并繼續(xù)在對話中編輯,Zillow完成地圖檢索/篩選及跨工具回答。上述體驗均可與ACP銜接,在同一對話內(nèi)完成從功能試用到下單/訂閱的轉(zhuǎn)化。我們認為,內(nèi)容、設計與本地生活等高頻場景更易率先跑通閉環(huán)路徑。資料來源:OpenAI官網(wǎng)、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。開發(fā)者大會之后,OpenAI顯著加速軟件生態(tài)的構建步伐。除了在10月6日開發(fā)者大會上宣布的Coursera、Zillow、Figma、Spotify等一系列軟件合作伙伴外,OpenAI加緊與其他軟件應用廠商的合作,10月14日,宣布與Salesforce合作,實現(xiàn)在ChatGPT里使用Salesforce產(chǎn)品,并能夠使用ACP支付協(xié)議完成支付;同日宣布與Walmart達成合作,共同打造新型購物體驗,通過Chatgpt實現(xiàn)購物并即時結賬。OpenAI的戰(zhàn)略中心已經(jīng)逐步向應用和生態(tài)轉(zhuǎn)移,后續(xù)或會有更多的軟件應用廠商加入。資料來源:OpenAI官網(wǎng)、華泰研究OpenAI收入預期顯著上修,驅(qū)動來自ChatGPT、API、Agent與新產(chǎn)品,Pusle/ACP是重要一環(huán)。據(jù)TheInformation數(shù)據(jù),25Q3OpenAI將2030年營收由年初預測的約1,740億美元上調(diào)至約2,000億美元,2029年由約1,250億提升至約1,450億;2025年仍以約130億為基準。結構上,收入來源由ChatGPT訂閱與API擴展至Agent與“新產(chǎn)品(含免費用戶變現(xiàn))”。結合ACP(AgenticCommerceProtocol平臺可在對話內(nèi)直連交易與支付,形成“推薦-下單-履約”的閉環(huán),一方面OpenAI能夠有一定takerate,另一方面有望提升免費用戶變現(xiàn)與商戶轉(zhuǎn)化。此外,配合通用代理能力、企業(yè)級集成與潛在硬件終端等產(chǎn)品形態(tài),OpenAI收入曲線呈現(xiàn)由單點訂閱向多元生態(tài)的過渡。Pulse/ACP或?qū)⒊蔀锳gent化商業(yè)閉環(huán)的重要抓手,與企業(yè)付費、API用量增長及硬件載體共同構成中期營收彈性的關鍵來源(參見圖表34)。資料來源:TheInformation、華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。阿里的Qwen模型或是國內(nèi)大模型中全領域布局最為齊全的。Qwen系列旗艦模型Qwen3-Max在綜合性能上超越GPT-5、ClaudeOpus-4,Coding與Agent兩項關鍵指標進入全球第一梯隊;Qwen形成大規(guī)模衍生家族,Qwen3-VL、Qwen3-Omni與通義萬相2.5覆蓋視覺、音視頻與內(nèi)容生成,百聆語音面向客服、電商等剛需付費場景;與Nvidia在PhysicalAI的合作或拓展至機器人模型。國內(nèi)C端商業(yè)化稍慢于海外,阿里通過模型布局推動2Btoken上量和商業(yè)化加速。在研報《科技/計算機:多模態(tài)大模型和應用奇點將至》中,我們得出了國內(nèi)2C商業(yè)化(尤其是AI原生應用)稍慢于海外的結論。因此,國內(nèi)商業(yè)化方面,2B是大廠的主要選擇。據(jù)云棲大會2025主題演講,近2-3個月需求端Token消耗實現(xiàn)倍增,伴隨模型能力提升與Agent類應用出現(xiàn),阿里云百煉平臺過去一年模型日均調(diào)用量增長約15倍,反映開發(fā)者與企業(yè)側的活躍度提升。從阿里云業(yè)務來看,自2024年底以來,一直呈現(xiàn)較快的收入增速,最新的FY26Q1云業(yè)務收入增速達到了25.8%。后續(xù)隨著Qwen多模態(tài)模型持續(xù)擴展,阿里token調(diào)用量有望持續(xù)增長,最終有望帶來商業(yè)化加速。千問APP以All-in-One形態(tài)強化阿里進軍C端AI入口的戰(zhàn)略定位。25年11月,千問APP正式公測上線,依托Qwen3模型作為能力底座,為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論