版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1校閱:周辰、張曄、竇玉梅、孫崇理、劉香港整合排版:劉香港引言:全球化視野看人工智能(史占中、王計(jì)登、竇民)第1章AI大模型:實(shí)現(xiàn)通用智能的重要橋梁(竇民)第2章AI數(shù)據(jù):驅(qū)動(dòng)智能時(shí)代的核心引擎(李薇、商富凱、管航)第3章AI算力:支撐智能進(jìn)化的底座(王計(jì)登、竇玉梅、劉香港)第4章AI賦能相關(guān)產(chǎn)業(yè)領(lǐng)域的典型應(yīng)用場(chǎng)景4.1AI賦能未來(lái)制造業(yè)的應(yīng)用場(chǎng)景(章明根)4.2AI賦能未來(lái)信息產(chǎn)業(yè)應(yīng)用場(chǎng)景(竇玉梅、王計(jì)登)4.3AI賦能未來(lái)材料產(chǎn)業(yè)應(yīng)用場(chǎng)景(張弛、劉香港)4.4AI賦能未來(lái)能源產(chǎn)業(yè)應(yīng)用場(chǎng)景(董密爾)4.5AI賦能未來(lái)健康產(chǎn)業(yè)應(yīng)用場(chǎng)景(許蕾、竇玉梅)4.6AI賦能未來(lái)空間產(chǎn)業(yè)應(yīng)用場(chǎng)景(張曄、劉香港)4.7AI賦能未來(lái)金融服務(wù)業(yè)創(chuàng)新實(shí)踐(黃志鋒)4.8本章結(jié)語(yǔ)(劉香港、張曄)第5章AI賦能行業(yè)應(yīng)用案例5.1AI賦能制造行業(yè)應(yīng)用案例(章明根、劉子昱)5.2AI賦能信息科技行業(yè)應(yīng)用案例(王計(jì)登、竇玉梅、劉香港)5.3AI賦能材料行業(yè)應(yīng)用案例(劉香港)5.4AI賦能能源行業(yè)應(yīng)用案例(董密爾)5.5AI賦能健康醫(yī)療行業(yè)應(yīng)用案例(許蕾、竇玉梅)5.6AI賦能空間行業(yè)應(yīng)用案例(劉香港、張曄)5.7AI賦能金融行業(yè)應(yīng)用案例(黃志鋒)第6章國(guó)內(nèi)外人工智能產(chǎn)業(yè)政策及趨勢(shì)分析(孫玉貝、肖耀、丁紫玉、孫崇理、周辰)第7章人工智能發(fā)展倫理和治理框架7.1人機(jī)關(guān)系和倫理問題(屈杰)7.2AI數(shù)據(jù)和隱私保護(hù)(林玉嵐)7.3AI內(nèi)容安全和虛假信息(辛詠琪)7.4AI知識(shí)產(chǎn)權(quán)和責(zé)任歸屬(周辰)為擁有自我進(jìn)化能力的通用賦能技術(shù),正以指數(shù)級(jí)創(chuàng)新速度突破“技術(shù)-經(jīng)濟(jì)-社會(huì)”的三重邊界,其影響力已超越傳統(tǒng)ICT技術(shù)的歷史坐標(biāo)系,I引言:全球化視野看人工智能 1一、人工智能的起源與范式演進(jìn) 1二、技術(shù)突破與全球競(jìng)爭(zhēng)格局 2三、國(guó)際合作與治理框架 2四、社會(huì)影響與倫理挑戰(zhàn) 2五、未來(lái)方向:可持續(xù)與普惠發(fā)展 3本章參考文獻(xiàn) 3第1章AI大模型:實(shí)現(xiàn)通用智能的重要橋梁 41.1國(guó)內(nèi)外大模型技術(shù)發(fā)展態(tài)勢(shì) 41.2淺析大模型的核心技術(shù) 51.3大模型技術(shù)發(fā)展趨勢(shì)展望 101.4結(jié)語(yǔ) 11本章參考文獻(xiàn) 第2章AI數(shù)據(jù):驅(qū)動(dòng)智能時(shí)代的核心引擎 152.1模型突破推動(dòng)數(shù)據(jù)需求升級(jí) 2.2驅(qū)動(dòng)因素推動(dòng)數(shù)據(jù)生產(chǎn)革新 2.3技術(shù)演進(jìn)推動(dòng)數(shù)據(jù)生態(tài)重構(gòu) 2.4全球競(jìng)爭(zhēng)推動(dòng)數(shù)據(jù)戰(zhàn)略迭代 2.5結(jié)語(yǔ) 22本章參考文獻(xiàn) 第3章AI算力:支撐智能進(jìn)化的底座 3.1上游:AI算力硬件基礎(chǔ)層 3.2中游:算力軟件服務(wù)層 3.3下游:算力應(yīng)用場(chǎng)景層 303.4算力發(fā)展現(xiàn)狀與挑戰(zhàn)分析 323.5算力發(fā)展趨勢(shì)與方向 353.6結(jié)語(yǔ) 37本章參考文獻(xiàn) 38第4章AI賦能相關(guān)產(chǎn)業(yè)領(lǐng)域的典型應(yīng)用場(chǎng)景 404.1AI賦能未來(lái)制造業(yè)的應(yīng)用場(chǎng)景 404.2AI賦能未來(lái)信息產(chǎn)業(yè)應(yīng)用場(chǎng)景 434.3AI賦能未來(lái)材料產(chǎn)業(yè)應(yīng)用場(chǎng)景 464.4AI賦能未來(lái)能源產(chǎn)業(yè)應(yīng)用場(chǎng)景 4.5AI賦能未來(lái)健康產(chǎn)業(yè)應(yīng)用場(chǎng)景 4.6AI賦能未來(lái)空間產(chǎn)業(yè)應(yīng)用場(chǎng)景 4.7AI賦能未來(lái)金融服務(wù)業(yè)創(chuàng)新實(shí)踐 4.8結(jié)語(yǔ) 74本章參考文獻(xiàn) 第5章AI賦能行業(yè)應(yīng)用案例 805.1AI賦能制造業(yè)應(yīng)用案例 5.2AI賦能信息科技行業(yè)應(yīng)用案例 5.3AI賦能材料行業(yè)應(yīng)用案例 5.4AI賦能能源行業(yè)應(yīng)用案例 5.5AI賦能健康醫(yī)療行業(yè)應(yīng)用案例 5.6AI賦能空間行業(yè)應(yīng)用案例 5.7AI賦能金融行業(yè)應(yīng)用案例 本章參考文獻(xiàn) 100第6章國(guó)內(nèi)外人工智能產(chǎn)業(yè)政策及趨勢(shì)分析 6.1人工智能治理困境與監(jiān)管沙盒 1036.2國(guó)內(nèi)人工智能產(chǎn)業(yè)政策及環(huán)境分析 1056.3國(guó)際人工智能整體產(chǎn)業(yè)政策 1086.4未來(lái)政策趨勢(shì) 1096.5結(jié)語(yǔ) 本章參考文獻(xiàn) 111第7章人工智能治理與倫理 1127.1人機(jī)關(guān)系和倫理問題 1127.2AI數(shù)據(jù)和隱私保護(hù) 1177.3AI內(nèi)容安全和虛假信息 1227.4AI知識(shí)產(chǎn)權(quán)和責(zé)任歸屬 1267.5結(jié)語(yǔ) 本章參考文獻(xiàn) 131 1人工智能(AI)的全球化發(fā)展正以前所未有的速度重塑技術(shù)、經(jīng)濟(jì)與社會(huì)結(jié)構(gòu)。這一進(jìn)程不僅體現(xiàn)為技術(shù)突破的加速、AI+產(chǎn)業(yè)變革,更涉及國(guó)際合作、治理框架的構(gòu)建以及倫理風(fēng)險(xiǎn)的平衡。以下從多維度解析AI全球化發(fā)展的關(guān)鍵趨勢(shì)與挑戰(zhàn)。一、人工智能的起源與范式演進(jìn)人工智能的學(xué)科起源可追溯至1956年的達(dá)特茅斯會(huì)議[1],約翰·麥卡錫(JohnMcCarthy)、克勞德·香農(nóng)(ClaudeShannon)、馬文·明斯基(MarvinMinsky)等著名學(xué)者首次明確提出了“人工智能”的概念,通過計(jì)算機(jī)模擬人類智能,實(shí)現(xiàn)語(yǔ)言理解、抽象推理和自主問題解決。隨后,人工智能的技術(shù)范式先后歷經(jīng)了從規(guī)則、統(tǒng)計(jì)再到深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的三個(gè)階段發(fā)展歷程。20世紀(jì)60至80年代,規(guī)則驅(qū)動(dòng)范式主導(dǎo)了AI發(fā)展,“符號(hào)主義”主張根據(jù)人類專家知識(shí)的規(guī)則庫(kù)進(jìn)行推理和決策。90年代后,統(tǒng)計(jì)學(xué)習(xí)范式崛起,貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等算法通過數(shù)據(jù)驅(qū)動(dòng)模式優(yōu)化參數(shù),推動(dòng)垃圾郵件過濾、搜索引擎排序等應(yīng)用落地,標(biāo)志著AI從“人工定義規(guī)則”向“基于數(shù)據(jù)進(jìn)行學(xué)習(xí)和推理”的范式轉(zhuǎn)移。公眾廣為熟知的是現(xiàn)在所處的AI發(fā)展第三階段——深度神經(jīng)網(wǎng)絡(luò)。2012年成為AI發(fā)展的重要分水嶺。杰弗里·辛頓(GeoffreyHinton)憑借深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet[2]在李飛飛組織的ImageNet競(jìng)賽中以壓倒性優(yōu)勢(shì)擊敗傳統(tǒng)方法,標(biāo)志著人工智能進(jìn)入了深度學(xué)習(xí)時(shí)代。這一突破背后是神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)和算力三大要素的融合,卷積神經(jīng)網(wǎng)絡(luò)通過自動(dòng)學(xué)習(xí)特征,其效果超越了手工設(shè)計(jì)的特征,海量數(shù)據(jù)為算法提供了文本、圖像、語(yǔ)音等多模態(tài)燃料,大規(guī)模并行計(jì)算使得訓(xùn)練數(shù)十億參數(shù)模型成為可能,重塑了AI研究的范式。2017年Transformer架構(gòu)[3]的提出更是革命性里程碑——自注意力機(jī)制不僅解決了長(zhǎng)序列建模難題,還催生了GPT、BERT等大語(yǔ)言模型,使自然語(yǔ)言理解的準(zhǔn)確率超越人類基線。至此,深度學(xué)習(xí)完成了從實(shí)驗(yàn)室理論到產(chǎn)業(yè)基石的華麗轉(zhuǎn)身,驅(qū)動(dòng)聊天機(jī)器人、智能客服、醫(yī)療影像分析、自動(dòng)駕駛、具身智能等場(chǎng)景的規(guī)模化落地??v覽過去七十年間人工智能的發(fā)展歷程,技術(shù)演進(jìn)始終貫穿著符號(hào)主義、連接主義與行為主義[4]的哲學(xué)張力。符號(hào)主義追求具備可解釋性的規(guī)則推理;連接主義主張通過模擬人腦神經(jīng)元的連接方式來(lái)實(shí)現(xiàn)人工智能;行為主義則強(qiáng)調(diào)通過試錯(cuò)與交互來(lái)優(yōu)化行為。與此同時(shí),我們可以清晰地看到,人工智能的重大突破往往源于未知前沿的探索精神、基礎(chǔ)理論(如Transformer的數(shù)學(xué)建模)與工程實(shí)踐(如分布式訓(xùn)練框架)的協(xié)同共振,眾多胸懷大志之人正在通往人工智能的道路上全力書寫下一個(gè)輝煌篇章。全球人工智能產(chǎn)業(yè)發(fā)展歷程如下圖: 2二、技術(shù)突破與全球競(jìng)爭(zhēng)格局全球AI技術(shù)呈現(xiàn)多極化競(jìng)爭(zhēng)態(tài)勢(shì),美國(guó)、中國(guó)、歐洲等國(guó)家和地區(qū)通過大型模型研發(fā)與政策扶持爭(zhēng)奪主導(dǎo)權(quán)。如,美國(guó)企業(yè)OpenAI、谷歌和xAI公司持續(xù)推出GPT、Gemini及Grok等系列模型,提升多模態(tài)能力與計(jì)算效率;中國(guó)企業(yè)月之暗面的Kimi、字節(jié)的豆包、騰訊的混元以及阿里的通義系列等模型表現(xiàn)出顯著競(jìng)爭(zhēng)力,尤其是深度求索公司DeepSeek發(fā)布的開源模型以高性價(jià)比引發(fā)關(guān)注;法國(guó)Mistral公司推出高速生成的開源助手LeChat成為“歐洲之光”。與此同時(shí),各國(guó)政策支持力度持續(xù)加大,如美國(guó)“星際之門”項(xiàng)目計(jì)劃投資5000億美元建設(shè)AI基礎(chǔ)設(shè)施,歐盟則通過“投資人工智能”倡議調(diào)動(dòng)2000億歐元推動(dòng)超級(jí)工廠建設(shè)。三、國(guó)際合作與治理框架技術(shù)發(fā)展的全球化特征要求超越地緣政治的合作。2025年巴黎人工智能行動(dòng)峰會(huì)簽署《關(guān)于發(fā)展包容、可持續(xù)的人工智能造福人類與地球的聲明》,強(qiáng)調(diào)開放、透明、安全等原則,呼吁建立全球治理體系[5]。中國(guó)積極參與國(guó)際對(duì)話,推動(dòng)《全球人工智能治理倡議》和聯(lián)合國(guó)相關(guān)決議,倡導(dǎo)技術(shù)普惠與風(fēng)險(xiǎn)共擔(dān)。如清華大學(xué)人工智能國(guó)際治理研究院提出,需通過國(guó)際標(biāo)準(zhǔn)制定、數(shù)據(jù)共享和技術(shù)轉(zhuǎn)移縮小“AI鴻溝”,避免技術(shù)壟斷加劇全球不平等。四、社會(huì)影響與倫理挑戰(zhàn)AI的普及在提升生產(chǎn)效率(如醫(yī)療診斷、農(nóng)業(yè)管理)的同時(shí),也會(huì)引發(fā)結(jié)構(gòu)性風(fēng)險(xiǎn)。如,生成式AI可能加劇就業(yè)市場(chǎng)的兩極分化,高收入國(guó)家更易受益于技術(shù)紅利,而發(fā)展中國(guó)家因基礎(chǔ)設(shè)施滯后面臨邊緣化風(fēng)險(xiǎn)。倫理問題同樣突出,包括算法偏見、隱私侵犯及超級(jí)智能失控的可能性。國(guó)際學(xué)界呼吁加強(qiáng)AI倫理研究,將人類價(jià)值觀嵌入技術(shù)設(shè)計(jì),并通過跨學(xué)科合作(如法律、社會(huì)學(xué))構(gòu)建適應(yīng)性治理框架。 3五、未來(lái)方向:可持續(xù)與普惠發(fā)展AI的可持續(xù)發(fā)展需兼顧能源效率與社會(huì)公平。當(dāng)前大模型訓(xùn)練的高能耗問題(如ChatGPT單次訓(xùn)練耗電量達(dá)家庭數(shù)月用量)促使業(yè)界探索綠色計(jì)算與低資源算法。此外,普惠應(yīng)用成為關(guān)鍵議題,如中國(guó)通過AI賦能基層醫(yī)療和傳統(tǒng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,展示了技術(shù)下沉的潛力。WTO報(bào)告預(yù)測(cè),若全球均衡應(yīng)用AI,2040年前貿(mào)易增速可翻倍,但需通過國(guó)際合作消除數(shù)據(jù)流動(dòng)壁壘與本地化政策限制。本章參考文獻(xiàn)[1]國(guó)務(wù)院發(fā)展研究中心國(guó)際技術(shù)經(jīng)濟(jì)研究所,中國(guó)電子學(xué)會(huì),智慧芽.人工智能全球格局:未來(lái)趨勢(shì)與中國(guó)位勢(shì)[M].北京:中國(guó)人民大學(xué)出版社,2019.[2]KrizhevskyA,SutskeverI,HintonGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[J].Advancesinneuralinformationprocessingsystems,2012,25.[3]VaswaniA,ShazierN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.[4]YannLeCun.科學(xué)之路:人,機(jī)器與未來(lái)[M]李皓,馬躍,譯.北京:中信出版集團(tuán),2021.[5]中國(guó)、法國(guó)、印度、歐盟在內(nèi)的60個(gè)國(guó)家和組織,《關(guān)于發(fā)展包容、可持續(xù)的人工智能造福人類與地球的聲明》[EB/OL]./Statement-on-inclusive-and-sustainable-artificial-intelligence-for-people-and 41.1國(guó)內(nèi)外大模型技術(shù)發(fā)展態(tài)勢(shì)當(dāng)前大模型開辟了通用人工智能技術(shù)演進(jìn)的新路線,正在深刻改變?nèi)祟惿鐣?huì)生產(chǎn)生活。大模型是當(dāng)前科技發(fā)展的制高點(diǎn),也是中美科技競(jìng)爭(zhēng)的焦點(diǎn)。OpenAI公司作為本輪人工智能革命的領(lǐng)軍者,其早期研發(fā)團(tuán)隊(duì)是Transformer[1]架構(gòu)首創(chuàng)者和ScalingLaw[2]的堅(jiān)定信奉者及實(shí)踐先驅(qū)。自2022年11月推出現(xiàn)象級(jí)產(chǎn)品ChatGPT[3]以來(lái),該企業(yè)通過持續(xù)突破不斷重塑行業(yè)認(rèn)知,產(chǎn)品上線兩個(gè)月用戶破億,展現(xiàn)通用人工智能的早期雛形;次年4月問世的GPT-4[4]在律師資格統(tǒng)考等專業(yè)測(cè)試中超越90%人類考生,9月系統(tǒng)升級(jí)實(shí)現(xiàn)視覺與語(yǔ)音交互[5],奠定多模態(tài)認(rèn)知基座,推動(dòng)教育個(gè)性化與客服智能化深度變革。OpenAI技術(shù)迭代在2024年迎來(lái)爆發(fā)期,2月視頻生成模型Sora突破動(dòng)態(tài)語(yǔ)義理解瓶頸[6],開啟AI內(nèi)容創(chuàng)作新紀(jì)元;下半年連續(xù)推出o系列推理模型[7],通過分層認(rèn)知架構(gòu)實(shí)現(xiàn)復(fù)雜決策推理;2025年初推出支持復(fù)雜研究任務(wù)的DeepResearch功能,發(fā)布的GPT-4.5[8]更號(hào)稱在認(rèn)知維度實(shí)現(xiàn)飛躍,其萬(wàn)億級(jí)參數(shù)模型不僅構(gòu)建起迄今為止人類知識(shí)最完整的數(shù)字鏡像,更在情感計(jì)算與共情交互領(lǐng)域取得突破。除了OpenAI,美國(guó)的Anthropic、Google、Meta以及xAI等企業(yè)都在大模型領(lǐng)域持續(xù)發(fā)力,逐漸形成了“OpenAI領(lǐng)跑,Anthropic、Google和xAI追趕,Meta開源"的競(jìng)爭(zhēng)態(tài)勢(shì)。Anthropic初創(chuàng)團(tuán)隊(duì)出自原OpenAI,專注于安全和倫理。2023年3月,Anthropic發(fā)布第一版Claude[9],宣布與ChatGPT展開直接競(jìng)爭(zhēng)。2024年3月,發(fā)布Claude3[10]增強(qiáng)數(shù)學(xué)和編程能力。6月推出Claude3.5Sonnet[11]平衡性能和能力,提升用戶體驗(yàn)。2025年2月推出Claude3.7Sonnet[12],首度引入混合推理模型,用戶可選擇快速響應(yīng)或逐步推理。Google一直致力于AI領(lǐng)域的創(chuàng)新,2023年2月發(fā)布Bard[13]作為ChatGPT的競(jìng)爭(zhēng)者。2023年11月,Gemini1.0[14]正式發(fā)布,接棒Bard成為繼任者。2024年2月推出Gemini1.5Pro[15],采用多模態(tài)能力進(jìn)一步強(qiáng)化。xAI由ElonMusk創(chuàng)立,迅速成為AI領(lǐng)域的后起之秀。2024年2月開源Grok-1[17],促進(jìn)社區(qū)合作和提高透明度。2024年8月發(fā)布Grok2[18],提高模型性能。2025年2月向大眾免費(fèi)提供Grok3[19],在思維推理上提升顯著,并推出DeepSearch功能。在大模型方面,Meta扮演的角色專注于開源AI模型,推動(dòng)社區(qū)合作和創(chuàng)新。2023年2月,開源Llama[20],成為很多大模型研究的基座。2024年7月,發(fā)布的Llama3.1405B[21]是當(dāng)時(shí)最大開源AI模型,能力媲美商業(yè)模型。12月又開源Llama3.3[22],以70B參數(shù)量媲美405B性能。中國(guó)AI大模型的發(fā)展也受到全球AI熱潮的推動(dòng),2023年是關(guān)鍵轉(zhuǎn)折點(diǎn),各大科技公司和初創(chuàng)企業(yè)開始推出自己的大語(yǔ)言模型,號(hào)稱“百模大戰(zhàn)”,主要參與者包括百度、阿里、字節(jié)、騰訊、商湯、華為,以及“AI大模型六小虎”(零一萬(wàn)物、稀宇科技、月之暗面、階躍星辰、百川智能、智譜華章)。2023年3月,百度發(fā)布文心一言[23],成為中國(guó)首個(gè)AI聊天5機(jī)器人。8月阿里開源發(fā)布Qwen系列[24],成為早期開發(fā)者社區(qū)的重要資源,8月發(fā)布Qwen-VL[25],可以感知文本圖像。12月,百川開源Baichuan2[26],數(shù)學(xué)和邏輯推理、復(fù)雜指令跟隨能力提升顯著。2024年競(jìng)爭(zhēng)加速,3月月之暗面宣布Kimi支持200萬(wàn)token上下文[27],4月商湯發(fā)布日日新5.0[28],9月阿里開源Qwen2.5[29],支持多模態(tài),最大模型參數(shù)量72B。10月,智譜發(fā)布智能體AutoGLM[30],支持手機(jī)、網(wǎng)頁(yè)和電腦端操作。2025年1月稀宇科技-Minimax開源發(fā)布MiniMax-Text-01和MiniMaxVL-01[31],支持400萬(wàn)token上下文窗口和多模態(tài)功能。隨后,阿里發(fā)布Qwen2.5-Max[32]和Qwen2.5VL[33],在語(yǔ)言和多模態(tài)上體現(xiàn)了對(duì)標(biāo)國(guó)外頂尖模型的能力。與此同時(shí),以上海人工智能實(shí)驗(yàn)室為代表的中國(guó)科研機(jī)構(gòu)也在大模型領(lǐng)域展現(xiàn)了自己的優(yōu)勢(shì)。該實(shí)驗(yàn)室構(gòu)建了書生通用大模型體系,涵蓋多模態(tài)、語(yǔ)言和視頻生成能力。2021年發(fā)布國(guó)內(nèi)首個(gè)通用視覺大模型書生1.0[34],2023年推出語(yǔ)言大模型浦語(yǔ)InternLM[35],并率先實(shí)現(xiàn)開源和免費(fèi)商用。2024年,開源浦語(yǔ)2[36]在200K長(zhǎng)上下文中大海撈針表現(xiàn)卓越;圖文大模型InternVL[37]以1/3參數(shù)量實(shí)現(xiàn)ViT-22B性能,升級(jí)版的InternVL1.5[38]表現(xiàn)接近GPT-4Vision水平。進(jìn)一步,多模態(tài)大模型書生·萬(wàn)象2.0[39]首創(chuàng)漸進(jìn)式對(duì)齊訓(xùn)練,實(shí)現(xiàn)與GPT-4o和Gemini1.5Pro媲美的性能。浦語(yǔ)3.0[40]以4T數(shù)據(jù)訓(xùn)練出高性能模型,萬(wàn)象2.5成為首個(gè)MMMU得分超70%的開源模型[41]。在視頻生成方面,2023年全球首發(fā)開源文生視頻DiT模型Latte[42],2024年推出筑夢(mèng)2.0實(shí)現(xiàn)分鐘級(jí)4K視頻生成[43]。2025年初,AI領(lǐng)域最炙手可熱的現(xiàn)象級(jí)公司莫過于深度求索(DeepSeek)。它發(fā)布了兩款具有里程碑意義的模型:DeepSeek-V3混合專家(MoE)大語(yǔ)言模型[44]和DeepSeek-R1推理模型[45]。這一模型組合通過系統(tǒng)性的工程創(chuàng)新,顯著提升了全球大模型研發(fā)的效能基準(zhǔn)。據(jù)業(yè)界有關(guān)團(tuán)隊(duì)估計(jì)DeepSeek-V3在訓(xùn)練階段僅消耗278.8萬(wàn)H800GPU小時(shí)(折合557.6萬(wàn)美元采用2048卡集群配置實(shí)現(xiàn)行業(yè)領(lǐng)先性能,該訓(xùn)練成本可能約為行業(yè)平均水平的1/20~1/15,顯示出DeepSeek在計(jì)算資源利用率上的重大突破。DeepSeek-R1作為首個(gè)開源推理模型(ReasoningModel,即以邏輯和系統(tǒng)的方式進(jìn)行思考,利用證據(jù)和過往經(jīng)驗(yàn)來(lái)得出結(jié)論或作出抉擇),通過強(qiáng)化學(xué)習(xí)在復(fù)雜推理任務(wù)上達(dá)到了與OpenAIo1模型相當(dāng)?shù)男阅?,形成了“?xùn)練-推理”雙引擎驅(qū)動(dòng)的技術(shù)架構(gòu)。DeepSeek的技術(shù)演進(jìn)成功突破了傳統(tǒng)的“算力軍備競(jìng)賽”模式,通過開源模型架構(gòu)和高效訓(xùn)練方法,推動(dòng)了AI技術(shù)的普惠化,打破了大模型僅被OpenAI、Meta和Google等巨頭壟斷的“神話”,降低了行業(yè)準(zhǔn)入門檻,對(duì)硅谷和華爾街,乃至全世界AI產(chǎn)業(yè)產(chǎn)生了顯著沖擊。隨著國(guó)內(nèi)科研團(tuán)隊(duì)在大模型領(lǐng)域的不斷創(chuàng)新,全球AI競(jìng)爭(zhēng)格局正在重構(gòu)。1.2大模型的核心技術(shù)近年來(lái),以Transformer架構(gòu)為代表的生成式預(yù)訓(xùn)練大模型正在重塑人工智能的技術(shù)版圖。這些具備千億級(jí)參數(shù)以上的智能系統(tǒng)不僅展現(xiàn)出驚人的語(yǔ)言理解與生成能力,更在跨模態(tài)交互、復(fù)雜推理等維度持續(xù)突破認(rèn)知邊界。大模型的技術(shù)體系龐大,發(fā)展更是日新月異,6本節(jié)將試圖用比較通俗的語(yǔ)言來(lái)解構(gòu)支撐大模型發(fā)展的核心技術(shù)體系:首先剖析Transformer架構(gòu)的自注意力機(jī)制如何突破傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的序列建模瓶頸,奠定大模型的基礎(chǔ)骨架;繼而揭示"預(yù)訓(xùn)練-微調(diào)"范式與強(qiáng)化學(xué)習(xí)的協(xié)同作用,解讀模型如何通過海量數(shù)據(jù)預(yù)訓(xùn)練獲得通識(shí)能力,再經(jīng)由領(lǐng)域適配實(shí)現(xiàn)專業(yè)化轉(zhuǎn)型;重點(diǎn)探討交互提示工程對(duì)模型認(rèn)知對(duì)齊的關(guān)鍵價(jià)值,以及推理時(shí)間擴(kuò)展技術(shù)如何突破模型固有思維框架;最后聚焦擴(kuò)散模型等新興技術(shù)如何推動(dòng)生成質(zhì)量躍升。這些技術(shù)模塊共同構(gòu)建起大模型的進(jìn)化階梯,使其逐步實(shí)現(xiàn)從數(shù)據(jù)驅(qū)動(dòng)到知識(shí)內(nèi)化、從通用應(yīng)答到專業(yè)賦能的范式轉(zhuǎn)變,正在重塑人機(jī)協(xié)作的智能新紀(jì)元。1.2.1大模型的基石:Transformer架構(gòu)人工智能研究者的一個(gè)理想,就是想讓機(jī)器像人一樣理解語(yǔ)言、看懂圖片。Transformer架構(gòu)是實(shí)現(xiàn)這個(gè)目標(biāo)的關(guān)鍵技術(shù)之一。Transformer架構(gòu)是現(xiàn)代大模型的核心,首次由Vaswani等人在2017年提出[1]。它通過多頭注意力機(jī)制和位置編碼處理序列數(shù)據(jù),解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在并行處理和長(zhǎng)距離依賴上的局限性。當(dāng)前,Transformer已經(jīng)成為大模型的首選架構(gòu)。Transformer架構(gòu)的優(yōu)點(diǎn)來(lái)自:(1)并行處理能力:傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(比如RNN)像一條流水線,必須按順序處理數(shù)據(jù),速度很慢。而Transformer可以同時(shí)處理所有數(shù)據(jù),就像多條流水線一起工作,大大提高了效率。(2)長(zhǎng)距離依賴:在一句話中,后面的詞可能受到前面很遠(yuǎn)處的詞的影響。Transformer能很好地捕捉這種長(zhǎng)距離的依賴關(guān)系,讓模型更好地理解上下文。(3)多頭注意力機(jī)制:想象一下,你在閱讀一篇文章,有些詞語(yǔ)會(huì)特別吸引你的注意力。Transformer的“多頭注意力機(jī)制”就像多個(gè)“注意力過濾器”,讓模型能夠同時(shí)關(guān)注輸入數(shù)據(jù)的不同部分,從而更好地理解其含義。Transformer目前在大模型中得到了非常廣泛的應(yīng)用。在語(yǔ)言模型上,Transformer是構(gòu)建大語(yǔ)言模型(LLM)的基礎(chǔ),比如GPT系列。這些模型可以生成文本、翻譯語(yǔ)言、回答問題等等。而在多模態(tài)大模型中Transformer不僅能處理文字,還能處理圖像、音頻等多種類型的數(shù)據(jù)。如,視覺Transformer(ViT)將圖像分割成小塊,然后像處理文字一樣處理這些小塊,從而實(shí)現(xiàn)圖像分類、目標(biāo)檢測(cè)等任務(wù)。1.2.2模型的成長(zhǎng)之路:預(yù)訓(xùn)練、微調(diào)和強(qiáng)化學(xué)習(xí)訓(xùn)練大模型就像培養(yǎng)一個(gè)孩子,需要經(jīng)歷不同的階段,學(xué)習(xí)各種知識(shí)和技能。通常情況下,訓(xùn)練分為三個(gè)主要階段:預(yù)訓(xùn)練(Pre-training)、微調(diào)(Fine-tuning,F(xiàn)T)和強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL后兩者也常常被稱為后訓(xùn)練階段。(1)預(yù)訓(xùn)練:打好基礎(chǔ)預(yù)訓(xùn)練是模型的初始階段,目標(biāo)是在大規(guī)模文本、圖像等語(yǔ)料庫(kù)上訓(xùn)練模型。預(yù)訓(xùn)練就7像讓孩子讀中小學(xué),學(xué)習(xí)通用的知識(shí)和技能。在這個(gè)階段,模型會(huì)在海量的數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)語(yǔ)言、圖像的模式、知識(shí)的結(jié)構(gòu)等等。主要的預(yù)訓(xùn)練任務(wù)包括:掩碼語(yǔ)言建模(MaskedLanguageModeling,MLM就像做完形填空,模型需要預(yù)測(cè)被遮蓋的詞語(yǔ),從而學(xué)習(xí)上下文關(guān)系。因果語(yǔ)言建模:讓模型續(xù)寫故事,模型需要預(yù)測(cè)下一個(gè)詞語(yǔ),從而學(xué)習(xí)生成文本。下一句預(yù)測(cè)(NextSentencePrediction,NSP):就像成語(yǔ)接龍,模型判斷兩個(gè)句子是否連續(xù),增強(qiáng)句子關(guān)系理解。在多模態(tài)模型預(yù)訓(xùn)練中,主流的預(yù)訓(xùn)練任務(wù)還包括圖像-文本匹配、掩碼多模態(tài)建模等。圖像-文本匹配:模型需要判斷給定的圖像和文字描述是否匹配,從而學(xué)習(xí)跨模態(tài)的關(guān)聯(lián)。掩碼多模態(tài)建模:類似于掩碼語(yǔ)言建模(MLM但應(yīng)用于不同模態(tài),模型必須預(yù)測(cè)序列中缺失的部分,如文本、圖像補(bǔ)丁或其他數(shù)據(jù)類型,類似看圖說話或者根據(jù)文本畫圖的游戲。(2)微調(diào):培養(yǎng)特長(zhǎng)微調(diào)是將預(yù)訓(xùn)練模型適配到特定任務(wù)的過程,通常使用較小、任務(wù)特定的數(shù)據(jù)集,可以顯著提升模型在下游任務(wù)如文本分類、問答和翻譯上的表現(xiàn)。微調(diào)就像讓孩子上大學(xué),通過專業(yè)課學(xué)習(xí)特定的專業(yè)知識(shí)和技能。在這個(gè)階段,模型會(huì)在特定的數(shù)據(jù)集上進(jìn)行訓(xùn)練,以適應(yīng)特定的任務(wù)。通常情況下使用的技術(shù)是監(jiān)督微調(diào)(SupervisedFine-tuning,SFT)。就像做練習(xí)題,模型會(huì)學(xué)習(xí)輸入和輸出之間的對(duì)應(yīng)關(guān)系,從而學(xué)會(huì)生成特定的輸出。如在聊天機(jī)器人開發(fā)中,SFT可以幫助模型生成符合用戶期望的回復(fù)。另一個(gè)技術(shù)是領(lǐng)域適配,為了讓“通才”的大模型,成為某一個(gè)細(xì)分領(lǐng)域的專家,需要用專業(yè)數(shù)據(jù)改造通用模型,賦予他這個(gè)領(lǐng)域的特色能力。(3)強(qiáng)化學(xué)習(xí):從做題家到解題高手就像學(xué)生通過大量做題積累經(jīng)驗(yàn),強(qiáng)化學(xué)習(xí)讓大模型在模擬環(huán)境中不斷嘗試不同解題思路。每次嘗試后,系統(tǒng)會(huì)給出評(píng)分(比如答案是否正確、解題步驟是否合理模型根據(jù)這些反饋調(diào)整自己的思考方式。強(qiáng)化學(xué)習(xí)還可以通過“思維鏈”技術(shù)(ChainofThought,CoT讓AI學(xué)會(huì)像人類一樣拆解難題:先列已知條件,再分步驟推導(dǎo),最后驗(yàn)證結(jié)果。這種訓(xùn)練讓OpenAI的o1模型在國(guó)際數(shù)學(xué)競(jìng)賽中正確率從13%飆升至83%。強(qiáng)化學(xué)習(xí)也可以讓輸出更符合人類偏好,基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)是模型輸出與人類偏好對(duì)齊的重要方法,讓人類評(píng)價(jià)模型的輸出,然后用這些反饋來(lái)改進(jìn)模型。這就像讓老師給學(xué)生打分,從而幫助學(xué)生進(jìn)步。RLHF解決了模型輸出安全性和實(shí)用性的挑戰(zhàn),特別是在對(duì)話系統(tǒng)和內(nèi)容生成中,顯著提升了用戶體驗(yàn)。8當(dāng)預(yù)訓(xùn)練數(shù)據(jù)不夠時(shí),強(qiáng)化學(xué)習(xí)能讓AI自己創(chuàng)造訓(xùn)練場(chǎng)景。如AlphaGo一般,AI可以通過自我對(duì)弈生成新題目,像棋手“左右互搏”一樣持續(xù)提升。在自動(dòng)駕駛等實(shí)時(shí)場(chǎng)景中,強(qiáng)化學(xué)習(xí)讓模型像老司機(jī)一樣,根據(jù)路況動(dòng)態(tài)調(diào)整策略,在動(dòng)態(tài)、實(shí)時(shí)、交互中不斷學(xué)習(xí)和進(jìn)步。1.2.3讓AI更懂人類:交互與提示技術(shù)訓(xùn)練好的大語(yǔ)言模型就像一個(gè)剛?cè)肼毜穆斆鲗?shí)習(xí)生,雖然知識(shí)淵博但缺乏工作經(jīng)驗(yàn),需要通過清晰的“工作指導(dǎo)書”——提示詞(Prompt)[2]——才能高效完成任務(wù)。這種指導(dǎo)方式主要有三大模式:零樣本學(xué)習(xí):好比直接問實(shí)習(xí)生"用小學(xué)生能聽懂的話解釋萬(wàn)有引力定律",無(wú)需提供任何案例,模型僅憑對(duì)任務(wù)的理解就能生成答案。這種方式適用于常識(shí)類任務(wù),類似人類基于已有知識(shí)快速響應(yīng)新問題。少樣本學(xué)習(xí):好比案例教學(xué),就像給實(shí)習(xí)生看幾個(gè)優(yōu)秀方案模板,模型通過2-5個(gè)示例就能掌握任務(wù)規(guī)律。這種技術(shù)特別擅長(zhǎng)處理格式固定的任務(wù)(如郵件撰寫、數(shù)據(jù)表格生成、客服回復(fù)等)思維鏈提示:面對(duì)數(shù)學(xué)、代碼這類復(fù)雜問題,讓模型像學(xué)生寫草稿紙那樣逐步推理,改善復(fù)雜任務(wù)表現(xiàn),避免直接跳轉(zhuǎn)到錯(cuò)誤結(jié)論。提示工程的核心技巧在于“結(jié)構(gòu)化表達(dá)”,通常包括角色設(shè)定、任務(wù)分解、格式規(guī)范、糾錯(cuò)機(jī)制等幾個(gè)要素。提示詞技術(shù)靈活性高,特別在資源有限的場(chǎng)景中表現(xiàn)優(yōu)異,可以通過精心設(shè)計(jì)提示詞最大化模型性能。當(dāng)前提示工程師已經(jīng)成為AI時(shí)代的熱門職業(yè)之一。1.2.4突破思維局限:推理時(shí)間擴(kuò)展諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼在著作《思考快與慢》[3]中提出人腦有兩個(gè)思維模型:其中系統(tǒng)一基于直覺和本能,無(wú)需刻意思考,就能快速做出正確的決定;而系統(tǒng)二則基于理性思考,當(dāng)遇到復(fù)雜問題的時(shí)候會(huì)理性地分析問題,花費(fèi)更多的時(shí)間和努力再來(lái)做出決傳統(tǒng)的AI大模型(如GPT-4)的推理過程更接近系統(tǒng)一——根據(jù)nexttokenprediction,依賴預(yù)訓(xùn)練形成的知識(shí)直覺快速生成答案,但隨著任務(wù)復(fù)雜度提升(如數(shù)學(xué)證明、代碼優(yōu)化缺乏對(duì)復(fù)雜問題的分步驗(yàn)證和糾錯(cuò)機(jī)制,導(dǎo)致邏輯斷層和事實(shí)幻覺,而且單純擴(kuò)大模型參數(shù)規(guī)模的邊際收益也在下降,這個(gè)背景下推理時(shí)間擴(kuò)展(test-timescaling,TTS)[4]通過賦予模型動(dòng)態(tài)分配計(jì)算資源的能力,實(shí)現(xiàn)了從“直覺反應(yīng)”到“深思熟慮”的范式轉(zhuǎn)變。該技術(shù)的核心在于推理階段的動(dòng)態(tài)計(jì)算優(yōu)化,包含三大創(chuàng)新方向:(1)多步推理迭代,多動(dòng)腦多想幾遍鏈?zhǔn)剿伎迹–hain-of-Thought):就好像寫草稿分步驟,做數(shù)學(xué)題時(shí)先假設(shè)條件再推導(dǎo)結(jié)論,模型就像用“<假設(shè)><結(jié)論>”的標(biāo)簽分步驟寫草稿,邊想邊檢查。共識(shí)生成(Consensus遇到難題時(shí),讓模型像小組討論一樣提出多個(gè)答案,然后投9票選最好的(比如5個(gè)答案里選出現(xiàn)次數(shù)最多的或者用“評(píng)分老師”(獎(jiǎng)勵(lì)模型)挑出最優(yōu)解。搜索優(yōu)化(Search就像程序員寫代碼時(shí),寫完先運(yùn)行看報(bào)錯(cuò),再根據(jù)錯(cuò)誤提示修改,反復(fù)改錯(cuò)直到做對(duì)。(2)計(jì)算資源動(dòng)態(tài)調(diào)控,靈活控制思考時(shí)間預(yù)算強(qiáng)制(BudgetForcing類似考試時(shí)間分配,給模型設(shè)置“最長(zhǎng)思考時(shí)間”,簡(jiǎn)單的題快速答完(用<final_answer>提前交卷難題多想想(用<wait>標(biāo)簽繼續(xù)思考)。就像考試時(shí)先做簡(jiǎn)單題,留更多時(shí)間給大題。潛在空間推理(LatentReasoning心算代替筆算,有些思考不需要寫出來(lái),像數(shù)學(xué)高手在心里快速推算。某些模型用這種方法,1秒鐘能處理近4000個(gè)詞,比邊寫邊想快3倍。(3)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)優(yōu)化,學(xué)練測(cè)閉環(huán)迭代兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練:第一階段重點(diǎn)訓(xùn)練“解題步驟規(guī)范”(比如數(shù)學(xué)符號(hào)不能寫錯(cuò)像老師盯著你改作業(yè)。第二階段還要兼顧“回答是否有用”、“是否安全”,就像學(xué)霸不僅會(huì)解題,還要學(xué)會(huì)把知識(shí)講明白。過程獎(jiǎng)勵(lì)模型(ProcessRewardModel,PRM):大模型每想一步就有個(gè)“老師”打分,告訴它這一步對(duì)不對(duì)。就像做題時(shí),每寫一步就有人用紅筆批改,及時(shí)糾正錯(cuò)誤。1.2.5從通才到專家:專業(yè)能力增強(qiáng)訓(xùn)練好的大模型盡管已經(jīng)有了很強(qiáng)的世界知識(shí),但是這些知識(shí)的實(shí)時(shí)性以及某個(gè)特定領(lǐng)域的專業(yè)度還存在欠缺,需要通過其他技術(shù)手段,進(jìn)一步增強(qiáng)模型的知識(shí)和能力。(1)知識(shí)檢索增強(qiáng):給模型裝上“實(shí)時(shí)搜索引擎”大模型訓(xùn)練數(shù)據(jù)截止后,知識(shí)會(huì)“凍結(jié)”(如不知道2025年的新政策)。通過實(shí)時(shí)網(wǎng)絡(luò)搜索,在遇到問題時(shí),模型會(huì)自動(dòng)搜索最新資料。針對(duì)專業(yè)領(lǐng)域或私域數(shù)據(jù),可以通過檢索增強(qiáng)生成(Retrieval-AugmentedGeneration,RAG)[5]技術(shù),通過向量匹配和語(yǔ)義理解,從專業(yè)數(shù)據(jù)庫(kù)中精準(zhǔn)提取信息。(2)工具調(diào)用能力:讓模型學(xué)會(huì)“用外掛”盡管大模型的通用能力在不斷提升,但在專業(yè)領(lǐng)域通常有很多專用工具,因此模型的工具調(diào)用能力就顯得尤為重要。模型能夠像指揮官一樣,分解任務(wù),選擇合適的工具(如計(jì)算器、編譯器、專業(yè)工具鏈并整合輸出準(zhǔn)確的結(jié)果。2024年11月由Anthropic推出的開源協(xié)議MCP(ModelContextProtocol,模型上下文協(xié)議使AI應(yīng)用能夠安全訪問和操作本地及遠(yuǎn)程數(shù)據(jù),讓AI模型與外部工具和數(shù)據(jù)連接,為AI應(yīng)用提供了連接萬(wàn)物的接口。(3)多專家協(xié)同:組建“AI專家會(huì)診團(tuán)”當(dāng)存在多個(gè)領(lǐng)域模型的時(shí)候,可以讓多個(gè)領(lǐng)域模型組合,形成“multi-agent”系統(tǒng),完成復(fù)雜任務(wù)。就像在醫(yī)療咨詢時(shí),先由分診模型判斷科室,再轉(zhuǎn)接??颇P瓦M(jìn)行專業(yè)診斷。2025年4月,Google開源首個(gè)標(biāo)準(zhǔn)智能體協(xié)議Agent-to-Agent(A2A詳細(xì)定義了一組標(biāo)準(zhǔn)端點(diǎn)和響應(yīng)模型,使得任何智能體Agent都可以采用此協(xié)議進(jìn)行通信,聚焦于Agent之間的協(xié)作,消除技術(shù)棧之間的障礙。通過類似MCP、A2A這些圍繞AI系統(tǒng)構(gòu)建的新技術(shù)的誕生,AI產(chǎn)業(yè)朝著協(xié)作而非對(duì)抗的方向進(jìn)化。模型的專業(yè)性和實(shí)時(shí)性得到了顯著提升,能夠在各個(gè)領(lǐng)域提供更精準(zhǔn)、實(shí)時(shí)和高效的支持。1.2.6從混沌到清晰:擴(kuò)散模型講到人工智能生成內(nèi)容(AIGC,即AIGeneratedContent;或國(guó)外亦稱為GenAI,GenerativeAI),一個(gè)繞不開的話題就是擴(kuò)散模型(DiffusionModel)[6]。擴(kuò)散模型的核心思想是通過逐步添加噪聲來(lái)破壞數(shù)據(jù)(如圖像然后再通過一個(gè)學(xué)習(xí)模型逐步去噪,恢復(fù)出原始數(shù)據(jù)。想象一下,你有一張清晰的照片,然后你開始不斷地往照片上撒細(xì)沙(噪聲越撒越多,照片就越來(lái)越模糊,最終完全變成了一堆隨機(jī)的噪點(diǎn)。這就是正向擴(kuò)散過程。擴(kuò)散模型的目標(biāo)就是學(xué)習(xí)如何逆轉(zhuǎn)這個(gè)過程。也就是說,它要學(xué)會(huì)如何從一堆隨機(jī)的噪點(diǎn)中,一步一步地把沙子(噪聲)去掉,最終還原成一張清晰的照片。這就是逆向擴(kuò)散過程,也叫去噪過程。擴(kuò)散模型在AIGC多個(gè)領(lǐng)域已經(jīng)有了廣泛的應(yīng)用,大家最常見到的文生圖模型,可以根據(jù)文字描述生成逼真的圖像,比如Midjourney,DALL-E2,StableDiffusion等,還有視頻生成模型,比如Sora、Pika、Runway、可靈等。此外還有音頻/音樂生成、3D生成、圖像修復(fù)和圖像超分辨率等,擴(kuò)散模型憑借高質(zhì)量、多樣性、可控性的生成能力,在各個(gè)領(lǐng)域都有著廣泛的應(yīng)用前景。1.3大模型技術(shù)發(fā)展趨勢(shì)展望首先是多模態(tài)融合和多模態(tài)涌現(xiàn)。自然界本身就是多模態(tài)世界,人類通過“眼耳鼻舌身意”來(lái)感知和認(rèn)知世界,并且與這個(gè)世界交互。同樣的,大模型正在從語(yǔ)言這一單一模態(tài)處理向深度融合的跨模態(tài)交互演進(jìn),實(shí)現(xiàn)文本、圖像、音頻、視頻,乃至觸覺、味覺、嗅覺等多維信息的聯(lián)合理解與生成。多模態(tài)涌現(xiàn),指的是當(dāng)多模態(tài)大模型的規(guī)模(包括模型參數(shù)、數(shù)據(jù)量)以及多模態(tài)交互復(fù)雜度達(dá)到一定的臨界點(diǎn)之后,會(huì)突然展現(xiàn)出跨模態(tài)的推理、泛化、生成甚至創(chuàng)造的能力。在大語(yǔ)言模型中,已經(jīng)很好展示出了語(yǔ)言的智能涌現(xiàn)。而多模態(tài)涌現(xiàn)能力的實(shí)現(xiàn),還有包括跨模態(tài)對(duì)齊、原生多模態(tài)模型架構(gòu)、參數(shù)和數(shù)據(jù)的規(guī)模效應(yīng)、跨模態(tài)信息的互補(bǔ)和增強(qiáng)在內(nèi)等的技術(shù)難關(guān)等待攻克,值得人們繼續(xù)發(fā)掘和探索。其次,是高階的推理能力,解決真實(shí)復(fù)雜任務(wù)。主流的大模型已經(jīng)幾乎窮盡了互聯(lián)網(wǎng)上的文本知識(shí),稱其為“上知天文,下知地理,中曉人和,明陰陽(yáng),懂八卦,曉奇門,知遁甲”可能也不為過。最新的模型在代碼、數(shù)學(xué)等推理任務(wù)上也展示了強(qiáng)大的性能,但是面對(duì)真實(shí)世界的復(fù)雜任務(wù)時(shí)候,還不能很好地“運(yùn)籌帷幄之中,決勝千里之外”。除了進(jìn)一步擴(kuò)充高階數(shù)據(jù)的規(guī)模、質(zhì)量和多樣性,還需要突破“思維鏈推理-強(qiáng)化學(xué)習(xí)”的技術(shù)難點(diǎn)和規(guī)?;款i,讓模型自我學(xué)習(xí)和自我迭代,真正讓推理能力具備泛化性,結(jié)合領(lǐng)域適配和垂直場(chǎng)景強(qiáng)化,做好安全對(duì)齊和幻覺抑制,這樣大模型才能在更多的場(chǎng)景落地開花。在科學(xué)智能上,大模型正在成為科學(xué)智能的底座,賦能科學(xué)家加快實(shí)現(xiàn)科學(xué)發(fā)現(xiàn)。在工業(yè)智能領(lǐng)域,大模型可以深入?yún)⑴c工業(yè)生產(chǎn)的“設(shè)計(jì)開發(fā)-生產(chǎn)制造-銷售服務(wù)”的全流程,為新質(zhì)生產(chǎn)力發(fā)展提供新動(dòng)能。最后,我們也應(yīng)該看到,除了大模型,還有諸如世界模型、空間智能、具身智能、群體智能、神經(jīng)符號(hào)結(jié)合等多種新技術(shù)和觀點(diǎn)在科學(xué)界涌現(xiàn),實(shí)現(xiàn)通用人工智能(AGI)的技術(shù)路徑可能并不是單一的,我們也期待有更多更新的技術(shù)范式出現(xiàn)加速通用人工智能時(shí)代的到來(lái),并且可能比我們?cè)瓉?lái)預(yù)料的更快。1.4結(jié)語(yǔ)大模型技術(shù)作為當(dāng)前實(shí)現(xiàn)通用人工智能的主流技術(shù)路線,已成為全球科技領(lǐng)域最具前沿性和戰(zhàn)略意義的賽道之一。從國(guó)際到國(guó)內(nèi),參與者眾多,競(jìng)爭(zhēng)異常激烈。美國(guó)的科技巨頭如OpenAI、Google、Meta等憑借強(qiáng)大的算力基礎(chǔ)、數(shù)據(jù)資源和算法創(chuàng)新,持續(xù)引領(lǐng)著大模型的發(fā)展潮流。令人欣喜的是,中國(guó)的科研創(chuàng)新力量在大模型技術(shù)的發(fā)展中正扮演著越來(lái)越重要的角色,以DeepSeek等為代表,中國(guó)眾多的科技公司、初創(chuàng)企業(yè)以及學(xué)術(shù)機(jī)構(gòu)正加速追趕,用原始創(chuàng)新和開源模式打破歐美的技術(shù)壟斷,并在部分領(lǐng)域?qū)崿F(xiàn)超越。這種全球范圍內(nèi)的技術(shù)角逐不僅推動(dòng)了大模型性能的快速提升,也使得相關(guān)技術(shù)迭代空前發(fā)展。然而,我們也必須清醒地認(rèn)識(shí)到,通用人工智能的技術(shù)路徑尚未完全收斂,大模型雖是當(dāng)前的主流方向,但未必是唯一解法。大模型技術(shù)本身也在快速演進(jìn)之中,正在從堆砌算力和數(shù)據(jù)的競(jìng)賽轉(zhuǎn)向更高效、更靈活的架構(gòu)設(shè)計(jì)。大模型面臨的諸多核心挑戰(zhàn),如模型的可解釋性、能耗效率、倫理風(fēng)險(xiǎn)等,仍需持續(xù)攻關(guān)。此外,諸如神經(jīng)符號(hào)AI、量子計(jì)算與AI的結(jié)合、生物啟發(fā)式計(jì)算等新興技術(shù)路徑,也提供了多樣化通用人工智能技術(shù)探索可能。這種未收斂的狀態(tài)既是挑戰(zhàn),也是機(jī)遇,它鼓勵(lì)全球科研人員和產(chǎn)業(yè)界不斷嘗試新的思路和方法。展望未來(lái),中國(guó)人工智能發(fā)展不僅需要技術(shù)層面的持續(xù)突破,還需在國(guó)際合作與競(jìng)爭(zhēng)中找到平衡點(diǎn)。對(duì)于中國(guó)而言,抓住這一歷史性機(jī)遇,如持續(xù)加強(qiáng)國(guó)家政策支持、加大基礎(chǔ)研究投入、培養(yǎng)跨學(xué)科人才、推動(dòng)開源生態(tài)建設(shè)、完善產(chǎn)學(xué)研協(xié)同機(jī)制,將是實(shí)現(xiàn)持續(xù)不掉隊(duì)甚至彎道超車的關(guān)鍵。對(duì)于全球人工智能發(fā)展來(lái)說,唯有通過開放協(xié)作、成果共享,才能加速通用人工智能實(shí)現(xiàn),造福人類社會(huì)。本章參考文獻(xiàn)1.1國(guó)內(nèi)外大模型技術(shù)發(fā)展態(tài)勢(shì)[1]VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.[2]KaplanJ,McCandlishS,HenighanT,etal.Scalinglawsforneurallanguagemodels[J].arXivpreprintarXiv:2001.08361,2020.[3]OpenAI.ChatGPT[EB/OL].OpenAI,(2022-11-30)[2025-03-06]./index/chatgpt/.[4]AchiamJ,AdlerS,AgarwalS,etal.Gpt-4technicalreport[J].arXivpreprintarXiv:2303.08774,2023.[5]OpenAI.GPT-4V[EB/OL].OpenAI,(2023-09-25)[2025-03-06]./contributions/gpt-4v/[6]OpenAI.Sora[EB/OL].OpenAI,(2024-02-15)[2025-03-06]./sora/[7]OpenAI.O3Mini[EB/OL].OpenAI,(2025-01-31)[2025-03-06]./index/openai-o3-mini/[8]OpenAI.GPT-4.5[EB/OL].OpenAI,(2025-02-27)[2025-03-06]./index/introducing-gpt-4-5/[9]Anthropic.Claude[EB/OL].Anthropic,(2023-03-14)[2025-03-06]/news/introducing-claude[10]Anthropic.Claude3[EB/OL].Anthropic,(2024-03-04)[2025-03-06]/news/claude-3-family[11]Anthropic.Claude3.5Sonnet[EB/OL].Anthropic,(2024-06-21)[2025-03-06]/news/claude-3-5-sonnet[12]Anthropic.Claude3.7Sonnet[EB/OL].Anthropic,(2025-02-25)[2025-03-06]./news/claude-3-7-sonnet[13]Google.Bard:Google’sAISearchUpdates[EB/OL].GoogleBlog,2023-02-07[2025-03-06].https://blog.google/technology/ai/bard-google-ai-search-updates/.[14]TeamG,AnilR,BorgeaudS,etal.Gemini:afamilyofhighlycapablemultimodalmodels[J].arXivpreprintarXiv:2312.11805,2023.[15]Google.GoogleGeminiNextGenerationModel:February2024Update[EB/OL].GoogleBlog,(2024-02-15)[2024-05-06].https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/[16]Google.GoogleGeminiAIUpdate:December2024[EB/OL].GoogleBlog,(2024-12-03)[2024-05-06].https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/[17]xAI.OpenReleaseofGrok-1[EB/OL].xAI,(2024-03-17)[2025-03-06].https://x.ai/blog/grok-os[18]xAI.Grok-2BetaRelease[EB/OL].xAI,(2024-08-13)[2025-03-06].https://x.ai/blog/grok-2.[19]xAI.Grok-3Beta[EB/OL].xAI,(2025-02-19)[2025-03-06].https://x.ai/blog/grok-3.[20]TouvronH,LavrilT,IzacardG,etal.Llama:Openandefficientfoundationlanguagemodels[J].arXivpreprintarXiv:2302.13971,2023.[21]DubeyA,JauhriA,PandeyA,etal.Thellama3herdofmodels[J].arXivpreprintarXiv:2407.21783,2024.[22]Meta.ModelCardsandPromptFormatsforLlama3[EB/OL].Meta,(2024-12-06)[2025-05-06]/docs/model-cards-and-prompt-formats/llama3_3/.[23]百度云.文心智能體平臺(tái)-文檔中心[EB/OL].(2023-11-15)[2025-03-06]./docs/develop/model/ERNIE_bot_introduce/[24]BaiJ,BaiS,ChuY,etal.Qwentechnicalreport[J].arXivpreprintarXiv:2309.16609,2023.[25]BaiJ,BaiS,YangS,etal.Qwen-vl:Afrontierlargevision-languagemodelwithversatileabilities[J].arXivpreprintarXiv:2308.12966,2023,1(2):3.[26]YangA,XiaoB,WangB,etal.Baichuan2:Openlarge-scalelanguagemodels[J].arXivpreprintarXiv:2309.10305,2023.[27]極客公園.Kimi智能助手支持200萬(wàn)字無(wú)損上下文,月之暗面大模型長(zhǎng)文本新突破[EB/OL].(2024-03-20)[2025-03-07]./view/35888.[28]商湯科技.率先完成"云、端、邊"全棧布局!大模型性能對(duì)標(biāo)GPT-4Turbo,商湯日日新SenseNova5.0全面升級(jí)[EB/OL].(2024-04-23)[2025-03-06]./cn/news-detail/51167729?categoryId=72.[29]YangA,YangB,ZhangB,etal.Qwen2.5technicalreport[J].arXivpreprintarXiv:2412.15115,2024.[30]LiuX,QinB,LiangD,etal.Autoglm:Autonomousfoundationagentsforguis[J].arXivpreprintarXiv:2411.00820,2024.[31]Minimax.MiniMax-01開源[EB/OL].Minimax,(2025-01-25)[2025-03-06]./news/minimax-01-%E7%B3%BB%E5%88%97[32]Qwen.Qwen2.5Max[EB/OL].Qwen,(2025-01-28)[2025-03-06]./2-5-max/[33]BaiS,ChenK,LiuX,etal.Qwen2.5-VLTechnicalReport[J].arXivpreprintarXiv:2502.13923,2025.[34]ShaoJ,ChenS,LiY,etal.Intern:Anewlearningparadigmtowardsgeneralvision[J].arXivpreprintarXiv:2111.08687,2021.[35]TeamInternLM.Internlm:Amultilinguallanguagemodelwithprogressivelyenhancedcapabilities[EB/OL].(2023-9-27)[2025-03-06]./InternLM/InternLM-techreport/blob/main/InternLM.pdf[36]浦語(yǔ)團(tuán)隊(duì).書生·浦語(yǔ)2.0正式開源[EB/OL].(2024-1-17)[2025-03-06]./news/5443847[37]ChenZ,WuJ,WangW,etal.Internvl:Scalingupvisionfoundationmodelsandaligningforgenericvisual-linguistictasks[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2024:24185-24198.[38]ChenZ,WangW,TianH,etal.Howfararewetogpt-4v?closingthegaptocommercialmultimodalmodelswithopen-sourcesuites[J].ScienceChinaInformationSciences,2024,67(12):220101.[39]InternVL.InternVL2.0[EB/OL].(2024-07-02)[2025-03-06].https://internvl.github.io/blog/2024-07-02-InternVL-2.0/[40]INTERNLM.InternLM[EB/OL].(2025-03-01)[2025-03-06]./InternLM/InternLM?tab=readme-ov-file#model-zoo.[41]ChenZ,WangW,CaoY,etal.Expandingperformanceboundariesofopen-sourcemultimodalmodelswithmodel,data,andtest-timescaling[J].arXivpreprintarXiv:2412.05271,2024.[42]MaX,WangY,JiaG,etal.Latte:Latentdiffusiontransformerforvideogeneration[J].arXivpreprintarXiv:2401.03048,2024.[43]FanW,SiC,SongJ,etal.Vchitect-2.0:Paralleltransformerforscalingupvideodiffusionmodels[J].arXivpreprintarXiv:2501.08453,2025.[44]LiuA,F(xiàn)engB,XueB,etal.Deepseek-v3technicalreport[J].arXivpreprintarXiv:2412.19437,2024.[45]GuoD,YangD,ZhangH,etal.Deepseek-r1:Incentivizingreasoningcapabilityinllmsviareinforcementlearning[J].arXivpreprintarXiv:2501.12948,2025.1.2淺析大模型的核心技術(shù)[1]VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.[2]SahooP,SinghAK,SahaS,etal.Asystematicsurveyofpromptengineeringinlargelanguagemodels:Techniquesandapplications[J].arXivpreprintarXiv:2402.07927,2024.[3]卡尼曼D.思考,快與慢[M].胡曉姣,李愛民,何夢(mèng)瑩,譯.北京:中信出版社,2012:20-25.[4]MuennighoffN,YangZ,ShiW,etal.s1:Simpletest-timescaling[J].arXivpreprintarXiv:2501.19393,2025.[5]LewisP,PerezE,PiktusA,etal.Retrieval-augmentedgenerationforknowledge-intensivenlptasks[J].Advancesinneuralinformationprocessingsystems,2020,33:9459-9474.[6]RombachR,BlattmannA,LorenzD,etal.High-resolutionimagesynthesiswithlatentdiffusionmodels[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2022:10684-10695. 2.1模型突破推動(dòng)數(shù)據(jù)需求升級(jí)2.1.1驅(qū)動(dòng)人工智能進(jìn)化的“燃料”人工智能模型的發(fā)展史,本質(zhì)上是一部“數(shù)據(jù)需求進(jìn)化史”。從早期人工輸入規(guī)則和知識(shí)圖譜的符號(hào)主義(SymbolicAI到深度學(xué)習(xí)時(shí)代讓機(jī)器從海量數(shù)據(jù)中挖掘數(shù)據(jù)特征和規(guī)律,再到如今的大語(yǔ)言模型和多模態(tài)模型對(duì)數(shù)據(jù)規(guī)模、類型和質(zhì)量的系統(tǒng)性重構(gòu),每一次模型的技術(shù)突破都伴隨著對(duì)數(shù)據(jù)需求的重新定義。一方面,是對(duì)數(shù)據(jù)數(shù)量的需求變化。以Transformer架構(gòu)為例,其自注意力機(jī)制在理論上突破了傳統(tǒng)RNN/CNN局部感知的局限[1],隨之而來(lái)的就是對(duì)數(shù)據(jù)需求的指數(shù)級(jí)增長(zhǎng)。比如GPT-3的訓(xùn)練數(shù)據(jù)量約45TB[2],相當(dāng)于數(shù)個(gè)國(guó)家級(jí)圖書館的藏書量;多模態(tài)模型CLIP則需處理4億對(duì)圖文數(shù)據(jù)[3],相當(dāng)于200萬(wàn)本圖畫書。這種“模型越復(fù)雜,數(shù)據(jù)越要吃撐”的強(qiáng)耦合關(guān)系,被Hoffmann等人[4]稱為“ChinchillaScalingLaw”——模型參數(shù)和數(shù)據(jù)量應(yīng)以相同比例增長(zhǎng)的規(guī)律(佳數(shù)據(jù)量(Token數(shù))約為模型參數(shù)量的20倍),才能實(shí)現(xiàn)最佳性能。另一方面,是對(duì)數(shù)據(jù)質(zhì)量的需求變化。隨著大模型在語(yǔ)言理解和多模態(tài)領(lǐng)域的深入應(yīng)用,高質(zhì)量訓(xùn)練語(yǔ)料的重要性愈發(fā)凸顯。除國(guó)外研究機(jī)構(gòu)積極開源的訓(xùn)練數(shù)據(jù)集(如ThePile、C4、LAION-5B、ImageNet-21k等)外,國(guó)內(nèi)研究機(jī)構(gòu)也在積極打造面向大模型訓(xùn)練的大規(guī)模語(yǔ)料庫(kù)。如,ThePile(EleutherAI包含網(wǎng)絡(luò)文本、學(xué)術(shù)論文、圖書合集等,廣泛用于GPT-NeoX等開源大模型的預(yù)訓(xùn)練,是開源社區(qū)中的高知識(shí)密度語(yǔ)料標(biāo)桿;又比如,萬(wàn)卷語(yǔ)料庫(kù)(WanJuan):由OpenDataLab聯(lián)合多家機(jī)構(gòu)推出的高質(zhì)量訓(xùn)練語(yǔ)料系列,包括覆蓋文本、圖文和視頻的萬(wàn)卷·多模態(tài),以及面向通用基礎(chǔ)能力的萬(wàn)卷·CC以及面向多語(yǔ)言的萬(wàn)卷·絲路系列;除此之外,谷歌團(tuán)隊(duì)提出的C4(ColossalCleanCrawledCorpus)和北京智源研究院發(fā)布的悟道語(yǔ)料庫(kù)(WudaoCorpora)都為高質(zhì)量訓(xùn)練語(yǔ)料奠定了重要基礎(chǔ)。龐大的規(guī)模和高維的質(zhì)量,正在推動(dòng)數(shù)據(jù)這個(gè)人工智能的“燃料”不斷釋放強(qiáng)勁動(dòng)能。2.1.2從規(guī)模到價(jià)值的數(shù)據(jù)需求重構(gòu)當(dāng)前大模型技術(shù)突破對(duì)數(shù)據(jù)需求的重構(gòu),可以從以下關(guān)鍵維度進(jìn)行剖析:(1)數(shù)據(jù)質(zhì)量的顆粒度從粗到細(xì)傳統(tǒng)監(jiān)督學(xué)習(xí)模型(如ResNet)依賴人工標(biāo)注的“靜態(tài)標(biāo)簽”(如ImageNet的類別標(biāo)簽但大模型對(duì)數(shù)據(jù)的語(yǔ)義理解需求已從“類別判別”升級(jí)為“跨模態(tài)語(yǔ)義對(duì)齊”。如,多模態(tài)模型PaLI要求圖文數(shù)據(jù)在像素、物體、場(chǎng)景、語(yǔ)義四個(gè)層級(jí)實(shí)現(xiàn)嚴(yán)格對(duì)齊[5]。同時(shí),自監(jiān)督學(xué)習(xí)的興起使得數(shù)據(jù)必須包含足夠的“隱式信息”——如,對(duì)比學(xué)習(xí)模型SimCLR要求原始單張圖像可通過數(shù)據(jù)增強(qiáng)而生成多視角的圖像[6],這些多視角的數(shù)據(jù)則是原始圖像的“隱式信息”。因此模型技術(shù)的迭代發(fā)展對(duì)原始數(shù)據(jù)的豐富性提出了更高要求。(2)數(shù)據(jù)模態(tài)的演變由單到多大模型的數(shù)據(jù)需求正從單模態(tài)向多模態(tài)加速演進(jìn)。早期模型(如BERT、GPT)僅依賴文本數(shù)據(jù),通過語(yǔ)言模式學(xué)習(xí)語(yǔ)義,使用單一模態(tài)的數(shù)據(jù)會(huì)缺乏對(duì)現(xiàn)實(shí)世界的具象認(rèn)知。多模態(tài)大模型(如GPT-4[7]、Flamingo)通過融合文本、圖像、音頻、視頻等多模態(tài)的數(shù)據(jù),構(gòu)建不同模態(tài)之間的關(guān)聯(lián),模擬人類多感官協(xié)同的認(rèn)知方式。因此模型技術(shù)的突破對(duì)原始數(shù)據(jù)的多樣性提出了更高要求。(3)訓(xùn)練數(shù)據(jù)的依賴由靜到動(dòng)大模型落地面臨的核心瓶頸之一是“知識(shí)凍結(jié)”——傳統(tǒng)模型訓(xùn)練依賴離線靜態(tài)數(shù)據(jù),難以適應(yīng)現(xiàn)實(shí)世界的動(dòng)態(tài)變化。Meta開源的LLaMA采用了分階段訓(xùn)練的方案,這為模型的應(yīng)用落地產(chǎn)生更多靈活性,但是也要求數(shù)據(jù)的工程能力具備實(shí)時(shí)采集、清洗、去重能力。以金融領(lǐng)域?yàn)槔?,高頻交易模型的訓(xùn)練數(shù)據(jù)需實(shí)現(xiàn)分鐘級(jí)甚至更高頻更新,并需要包括事件性的標(biāo)簽標(biāo)記(如財(cái)報(bào)發(fā)布、政策變動(dòng)的時(shí)間標(biāo)記)。2.1.3數(shù)據(jù)需求變化牽引技術(shù)升級(jí)模型突破引發(fā)的數(shù)據(jù)需求升級(jí),正在倒逼數(shù)據(jù)生產(chǎn)鏈的技術(shù)重構(gòu)。(1)合成數(shù)據(jù)(SyntheticData)的崛起當(dāng)真實(shí)數(shù)據(jù)難以滿足模型需求時(shí),合成數(shù)據(jù)則成為關(guān)鍵補(bǔ)充。NVIDIA的Omniverse平臺(tái)通過物理仿真生成模擬的自動(dòng)駕駛訓(xùn)練數(shù)據(jù),其研究表明合成數(shù)據(jù)可將標(biāo)注成本降低90%[8]。然而,合成數(shù)據(jù)的“真實(shí)性鴻溝”(RealityGap)問題仍未完全解決——?jiǎng)虼髮W(xué)團(tuán)隊(duì)發(fā)現(xiàn),過度依賴合成數(shù)據(jù)會(huì)導(dǎo)致模型在一些特殊場(chǎng)景下的邊緣案例上性能下降[9]。(2)數(shù)據(jù)價(jià)值鏈的重構(gòu)傳統(tǒng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)(如通過人工對(duì)圖像中物體進(jìn)行邊界框的標(biāo)注)正被自動(dòng)化工具取代。Google提出的“AutoML-Zero”方案可實(shí)現(xiàn)數(shù)據(jù)預(yù)處理流程的自動(dòng)優(yōu)化[10],而ScaleAI等企業(yè)則通過“人機(jī)協(xié)同標(biāo)注”將標(biāo)注效率提升3倍。這一變革的本質(zhì)是數(shù)據(jù)的產(chǎn)生方式正從“勞動(dòng)密集型”向“技術(shù)密集型”遷移。(3)隱私與合規(guī)的技術(shù)平衡GDPR(歐盟《通用數(shù)據(jù)保護(hù)條例》)、CCPA(美國(guó)加利福尼亞州《消費(fèi)者隱私法案》)等法規(guī)對(duì)數(shù)據(jù)使用的限制,迫使企業(yè)探索隱私計(jì)算落地新場(chǎng)景。聯(lián)邦學(xué)習(xí)允許模型在非共享的數(shù)據(jù)上進(jìn)行訓(xùn)練,但是其數(shù)據(jù)交互的通信成本高與異構(gòu)數(shù)據(jù)處理困難的問題仍待突破。最新研究顯示,差分隱私與聯(lián)邦學(xué)習(xí)的結(jié)合可在保護(hù)數(shù)據(jù)隱私性和保障模型效果之間找到更佳的平衡。(4)大模型中規(guī)?;▌t(ScalingLaw)的爭(zhēng)議與現(xiàn)狀2020年,OpenAI在論文《ScalingLawsforNeuralLanguageModels》[11]中提出,模型性能與計(jì)算量、數(shù)據(jù)量和參數(shù)量呈指數(shù)關(guān)系,即“大力出奇跡”的邏輯一度主導(dǎo)了大模型發(fā)展。過去十年,該定律支撐了以GPT系列為代表的模型技術(shù)突破。然而,隨著性能提升放緩,學(xué)術(shù)界對(duì)其有效性產(chǎn)生分歧。爭(zhēng)議本質(zhì)指向數(shù)據(jù)瓶頸:互聯(lián)網(wǎng)公開數(shù)據(jù)耗盡將導(dǎo)致傳統(tǒng)預(yù)訓(xùn)練受限,但垂直領(lǐng)域的高質(zhì)量數(shù)據(jù)與合成數(shù)據(jù)可能成為數(shù)據(jù)規(guī)模新的增長(zhǎng)點(diǎn)。AI模型的技術(shù)突破絕非孤立事件,其背后是數(shù)據(jù)需求從“量變”到“質(zhì)變”的系統(tǒng)性升級(jí)。未來(lái),數(shù)據(jù)將不再只是模型的“燃料”,而是驅(qū)動(dòng)技術(shù)創(chuàng)新的“戰(zhàn)略資產(chǎn)”。這一趨勢(shì)對(duì)行業(yè)的核心啟示在于:數(shù)據(jù)能力的構(gòu)建必須與模型演進(jìn)同步規(guī)劃,任何脫離數(shù)據(jù)戰(zhàn)略的技術(shù)路線圖都將面臨天花板效應(yīng)。正如紐約大學(xué)教授GaryMarcus所指出的:“深度學(xué)習(xí)的天花板不是算力,而是高質(zhì)量數(shù)據(jù)的可獲得性?!?.2驅(qū)動(dòng)因素推動(dòng)數(shù)據(jù)生產(chǎn)革新2.2.1核心技術(shù)突破大模型對(duì)數(shù)據(jù)規(guī)模、質(zhì)量及多樣性的需求升級(jí)正在倒逼數(shù)據(jù)生產(chǎn)技術(shù)的系統(tǒng)性革新。主要的數(shù)據(jù)生產(chǎn)技術(shù)體現(xiàn)在自動(dòng)化、合成化與隱私化三個(gè)方面:自動(dòng)化標(biāo)注技術(shù)通過模型進(jìn)行輔助標(biāo)注,進(jìn)而反哺數(shù)據(jù)生產(chǎn),形成“模型-數(shù)據(jù)”閉環(huán)。例如,Google提出的SimCLR框架[1]利用對(duì)比學(xué)習(xí)自動(dòng)生成標(biāo)簽,顯著降低人工標(biāo)注成本,ScaleAI的“人機(jī)協(xié)同標(biāo)注”系統(tǒng)通過不確定性估計(jì)動(dòng)態(tài)分配任務(wù),效率提升300%;合成數(shù)據(jù)生成技術(shù)則在真實(shí)數(shù)據(jù)缺口場(chǎng)景下發(fā)揮重要作用,NVIDIAOmniverse通過物理仿真生成自動(dòng)駕駛場(chǎng)景數(shù)據(jù),而StyleGAN3生成的合成人臉在視覺真實(shí)性測(cè)試中表現(xiàn)優(yōu)異[2];在隱私保護(hù)領(lǐng)域,聯(lián)邦學(xué)習(xí)與差分隱私成為合規(guī)“標(biāo)配”,螞蟻鏈提出的“區(qū)塊鏈+聯(lián)邦學(xué)習(xí)”架構(gòu)實(shí)現(xiàn)了跨境數(shù)據(jù)安全流轉(zhuǎn)與可追溯。這些技術(shù)突破將數(shù)據(jù)生產(chǎn)從勞動(dòng)密集型轉(zhuǎn)向技術(shù)密集型,推動(dòng)數(shù)據(jù)從采集到應(yīng)用的全鏈條生產(chǎn)方式的革新,最終為大模型提供更可靠、更豐富的訓(xùn)練數(shù)據(jù)支撐。2.2.2大模型數(shù)據(jù)處理流程優(yōu)化大模型的高效訓(xùn)練離不開超大規(guī)模數(shù)據(jù)的高質(zhì)量處理。從數(shù)據(jù)獲取到標(biāo)注,全流程均需要在規(guī)模、精細(xì)度與合規(guī)性之間取得平衡。以下四個(gè)階段相輔相成,形成“大模型訓(xùn)練數(shù)據(jù)”的核心處理流程。(1)數(shù)據(jù)去重在大模型語(yǔ)料構(gòu)建的初期,開發(fā)者往往會(huì)從網(wǎng)絡(luò)爬取海量原始開放數(shù)據(jù),或整合已有大規(guī)模數(shù)據(jù)集進(jìn)行二次加工。在獲取數(shù)據(jù)的基礎(chǔ)上,要對(duì)重復(fù)數(shù)據(jù)進(jìn)行去除,防止重復(fù)數(shù)據(jù)浪費(fèi)存儲(chǔ)和算力,或因模型過度擬合影響泛化性能。對(duì)多模態(tài)數(shù)據(jù)而言,還需結(jié)合特定的去重算法防止數(shù)據(jù)視覺角度的重復(fù)。常見的去重方法如CommonCrawl采用算法過濾來(lái)快速判斷網(wǎng)頁(yè)是否已抓取[3],PaLM-2則結(jié)合語(yǔ)義相似度聚類來(lái)精確剔除重復(fù)文本[4]。(2)數(shù)據(jù)提取數(shù)據(jù)提取包括網(wǎng)頁(yè)類HTML數(shù)據(jù)的提取、文檔類如PDF數(shù)據(jù)的提取等,目的是得到可被機(jī)器理解的自然語(yǔ)言,這一環(huán)節(jié)也是大模型數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)。在大模型場(chǎng)景下,“數(shù)據(jù)提取”不僅關(guān)乎文本可讀性,更是對(duì)隱含結(jié)構(gòu)、元數(shù)據(jù)以及多模態(tài)信息的深度挖掘。特別是PDF與HTML兩種主流格式,對(duì)后續(xù)數(shù)據(jù)清洗、語(yǔ)義理解及模型訓(xùn)練有重大影響。目前先進(jìn)的文檔布局理解與結(jié)構(gòu)化建模通過視覺-文本多模態(tài)預(yù)訓(xùn)練,將版面信息(段落位置、字體、表格網(wǎng)格等)與文字內(nèi)容共同編碼,顯著提升對(duì)段落合并、表格檢測(cè)、公式識(shí)別等任務(wù)的抽取準(zhǔn)確率。MinerU、Marker、Nougat等常用工具在復(fù)雜排版的文檔、數(shù)學(xué)公式、表格內(nèi)容識(shí)別和提取上為面向大模型的文檔數(shù)據(jù)提供了高質(zhì)量的語(yǔ)料基礎(chǔ)。在HTML網(wǎng)頁(yè)格式數(shù)據(jù)的抽取深度和動(dòng)態(tài)性方面,較多前沿性研究在網(wǎng)頁(yè)正文提取、噪聲剔除、DOM樹和與語(yǔ)義標(biāo)記、跨頁(yè)面整合等方面多有探索。無(wú)論是PDF還是HTML,數(shù)據(jù)提取過程都直接影響訓(xùn)練語(yǔ)料的完整性、準(zhǔn)確性與適用性。先進(jìn)的文檔理解模型、多模態(tài)預(yù)訓(xùn)練算法以及高可擴(kuò)展的分布式數(shù)據(jù)管道,正在為大規(guī)模數(shù)據(jù)抽取提供新的路徑。從全局來(lái)看,若在抽取階段就能高效識(shí)別并剔除噪聲、正確保留關(guān)鍵結(jié)構(gòu)信息,將顯著提升后續(xù)清洗、過濾與標(biāo)注階段的效率與質(zhì)量。(3)清洗過濾在獲取并提取了海量文本或圖像后,清洗與過濾是不可或缺的步驟。首先在不良內(nèi)容過濾的方法上,GPT-4采用RoBERTa分類器過濾低質(zhì)量文本[5],Google通過PerspectiveAPI基于BERT檢測(cè)有害言論,準(zhǔn)確率高達(dá)92%[6]。其次,在內(nèi)容主題與語(yǔ)言檢測(cè)的方法上,針對(duì)多語(yǔ)言數(shù)據(jù)集(如CommonVoice、WikipediaDump等),需要自動(dòng)化檢測(cè)并分割不同語(yǔ)言文本,以進(jìn)行后續(xù)的分語(yǔ)種處理或多語(yǔ)種對(duì)齊。另外在數(shù)據(jù)分布一致性的檢測(cè)上,當(dāng)抽取到的數(shù)據(jù)分布與任務(wù)目標(biāo)領(lǐng)域明顯不符時(shí),應(yīng)及時(shí)進(jìn)行抽樣審查或統(tǒng)計(jì)分析,避免將不相關(guān)或噪聲過多的數(shù)據(jù)注入訓(xùn)練集。(4)標(biāo)注增強(qiáng)為了進(jìn)一步提升模型在特定任務(wù)中的性能,往往需要進(jìn)行額外的標(biāo)注與數(shù)據(jù)增強(qiáng)。這包括自動(dòng)標(biāo)注,即Meta的LLaMA通過掩碼語(yǔ)言建模自動(dòng)生成部分標(biāo)簽[7],T5模型利用知識(shí)蒸餾生成軟標(biāo)簽[8];人機(jī)協(xié)同,即對(duì)于難度較高或模糊的樣本,可通過不確定性估計(jì)將任務(wù)分配給人工標(biāo)注員精修,提升整體標(biāo)注質(zhì)量;對(duì)比學(xué)習(xí)與數(shù)據(jù)增強(qiáng),即在圖像領(lǐng)域,SimCLR等對(duì)比學(xué)習(xí)框架能自動(dòng)生成多視角圖像;而在文本領(lǐng)域,可利用同義替換、反向翻譯等技術(shù)增強(qiáng)樣本多樣性。2.2.3數(shù)據(jù)共享與協(xié)同基于當(dāng)前仍舊存在的合成數(shù)據(jù)的真實(shí)性鴻溝、隱私-效用平衡難題、多模態(tài)對(duì)齊成本高企等問題,未來(lái)可能的突破包括:高保真合成數(shù)據(jù)生成,即基于擴(kuò)散模型的高保真圖像/視頻合成[9]有望彌補(bǔ)真實(shí)數(shù)據(jù)短板;零樣本標(biāo)注與提示詞(Prompt)工程,即通過少樣本或零樣本的Prompt設(shè)計(jì)自動(dòng)引導(dǎo)模型生成高質(zhì)量標(biāo)注[10],大幅減少人工參與;去中心化DataDAO生態(tài),即利用區(qū)塊鏈與加密技術(shù)構(gòu)建分布式數(shù)據(jù)自治組織(如OceanProtocol促進(jìn)跨地區(qū)、跨機(jī)構(gòu)的數(shù)據(jù)共享與交易;全球治理與標(biāo)準(zhǔn)化,即在國(guó)際層面需建立跨域數(shù)據(jù)流通標(biāo)準(zhǔn)(如ITUAI數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)并推進(jìn)類似“一帶一路”數(shù)據(jù)走廊的合作機(jī)制;在產(chǎn)業(yè)層面鼓勵(lì)開源社區(qū)(OpenDataLab、ModelScope等)共建新的數(shù)據(jù)平臺(tái)與工具鏈。數(shù)據(jù)生產(chǎn)技術(shù)的迭代不僅是工具的更新迭代,更是AI產(chǎn)業(yè)底層邏輯的深層重塑。實(shí)現(xiàn)大模型時(shí)代的可持續(xù)發(fā)展,需在技術(shù)自主化(國(guó)產(chǎn)化工具鏈)、生態(tài)協(xié)同化(產(chǎn)業(yè)與開源社區(qū)共建)與全球治理(國(guó)際數(shù)據(jù)流通標(biāo)準(zhǔn))的多維度持續(xù)探索與突破。2.3技術(shù)演進(jìn)推動(dòng)數(shù)據(jù)生態(tài)重構(gòu)2.3.1數(shù)據(jù)分工體系日益精細(xì)當(dāng)前全球人工智能數(shù)據(jù)產(chǎn)業(yè)已形成多層次協(xié)同體系,核心參與者圍繞數(shù)據(jù)價(jià)值鏈條展開深度協(xié)作。首先,在數(shù)據(jù)生產(chǎn)層面,科研機(jī)構(gòu)與科技巨頭主導(dǎo)高質(zhì)量數(shù)據(jù)資源的開發(fā)。OpenAI開發(fā)的WebText語(yǔ)料庫(kù)[1]通過過濾和清洗CommonCrawl數(shù)據(jù)得到高質(zhì)量的訓(xùn)練數(shù)據(jù)。其次,在數(shù)據(jù)服務(wù)層面,ScaleAI、Labelbox等技術(shù)企業(yè)依托AutoML工具鏈重構(gòu)產(chǎn)業(yè)角色,將數(shù)據(jù)標(biāo)注由純?nèi)斯?biāo)注階段推向AI主導(dǎo)并結(jié)合人工階段,驅(qū)動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)從勞動(dòng)密集型向算法增強(qiáng)型轉(zhuǎn)型。另外,在數(shù)據(jù)治理層面,制度創(chuàng)新與技術(shù)創(chuàng)新形成共振。上海數(shù)據(jù)交易所發(fā)布U235框架,連通真實(shí)世界和數(shù)據(jù)世界,基于SwiftLink管理平臺(tái)核心架構(gòu)實(shí)現(xiàn)數(shù)據(jù)上鏈、收益上鏈、資產(chǎn)上鏈,提升資產(chǎn)的真
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子設(shè)備裝配工培訓(xùn)課件
- 簡(jiǎn)短戒煙服務(wù)培訓(xùn)課件內(nèi)容
- 2026年家庭教育指導(dǎo)服務(wù)專題培訓(xùn)
- 2026年電動(dòng)汽車技術(shù)發(fā)展培訓(xùn)
- 絲襪銷售技巧話術(shù)
- 運(yùn)動(dòng)品牌話術(shù)
- 專業(yè)人工智能:專業(yè)AI領(lǐng)域應(yīng)用新深度
- 競(jìng)聘店長(zhǎng)培訓(xùn)
- 公路工程技術(shù)培訓(xùn)課件
- 競(jìng)猜游戲培訓(xùn)
- 建筑公司工資薪酬管理制度(3篇)
- 2025至2030中國(guó)疝氣修補(bǔ)術(shù)行業(yè)調(diào)研及市場(chǎng)前景預(yù)測(cè)評(píng)估報(bào)告
- 建設(shè)工程測(cè)繪驗(yàn)線標(biāo)準(zhǔn)報(bào)告模板
- 2024-2025學(xué)年福建省廈門市雙十中七年級(jí)(上)期末英語(yǔ)試卷
- 漢語(yǔ)言本科畢業(yè)論文范文模板
- 2025年協(xié)警輔警招聘考試題庫(kù)(新)及答案
- 統(tǒng)編版九年級(jí)上冊(cè)語(yǔ)文期末復(fù)習(xí):全冊(cè)重點(diǎn)考點(diǎn)手冊(cè)
- 鋼結(jié)構(gòu)施工優(yōu)化策略研究
- 車間輪崗工作總結(jié)
- 天花設(shè)計(jì)施工方案
- 2025年11月15日江西省市直遴選筆試真題及解析(B卷)
評(píng)論
0/150
提交評(píng)論