版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
計算機行業(yè)大模型市場分析大模型概述:具備強大生成能力,訓練趨于標準化概述:通用大模型帶來強大生成能力,追求高泛化能力大模型可以高質量完成自然語言理解和生成任務。大模型主要指大語言模型(LargeLanguageModel,LLM),是一種基于大量數(shù)據(jù)學習完成文本識別、總結、翻譯、預測和生成等人物的深度學習算法。當前大語言模型底層基于Transformer框架,利用大量文本數(shù)據(jù)進行預訓練,可以按用戶需求高質量完成自然語言理解或生成任務,應用于機器翻譯、文本摘要、內(nèi)容創(chuàng)作、邏輯推理等諸多場景。隨著技術發(fā)展,大模型逐步超越大語言模型范疇,輸入輸出上逐漸涵蓋音頻、圖像、視頻等模態(tài),形成具備多模態(tài)能力的大模型。通用大模型以通用人工智能(AGI)為最終目標,追求模型效果的高泛化能力。過去幾年,大模型領域主要針對通用大模型投入研發(fā),涌現(xiàn)出GPT、Llama、PaLM等代表模型。通用大模型要求模型可以在不進行重新訓練的情況下,在大多數(shù)場景下理解用戶提出的非結構化提示詞,并基于需求理解實現(xiàn)穩(wěn)定且正確的文本生成。通用大模型最終目標為通用人工智能(AGI),亦稱強AI,及人工智能可以單獨完成人類可以完成的所有任務,該目標要求模型具有高場景泛化能力,對新樣本具有完全適應能力。對泛化能力的追求在通用大模型的訓練數(shù)據(jù)和模型特點上得以體現(xiàn)。1)訓練數(shù)據(jù)覆蓋面擴大。過去幾年,大模型預訓練數(shù)據(jù)涵蓋的行業(yè)快速增加,2019年,谷歌基于互聯(lián)網(wǎng)數(shù)據(jù)集C4推出T5模型;2023年Meta發(fā)布開源通用大模型LLaMA,其預訓練數(shù)據(jù)集以C4和其他互聯(lián)網(wǎng)數(shù)據(jù)為基礎,包含,維基百科、GitHub代碼、書籍、專業(yè)論文等數(shù)據(jù)。預訓練數(shù)據(jù)范圍擴大有利于模型能力覆蓋更多場景,提升模型通用能力。2)訓練數(shù)據(jù)分布上,通用語言文本占比較高,行業(yè)專業(yè)知識占比較低。通用大模型預訓練數(shù)據(jù)集以互聯(lián)網(wǎng)數(shù)據(jù)、書籍等通用語言文本為基礎,結合部分歷史、地理等通識類學科知識,行業(yè)專業(yè)知識占比較少,最大程度保證模型通用語言能力提升。以LLaMA的預訓練數(shù)據(jù)集為例,高專業(yè)度ArXiv論文數(shù)據(jù)占比2.5%,StackExchange專業(yè)行業(yè)問答數(shù)據(jù)占比2%,通用知識類文本占比超過95%。3)模型設計上,通用大模型參數(shù)和訓練數(shù)據(jù)規(guī)??焖僭鲩L,模型以大體量承載大知識量,讓模型“學習”并“記憶”盡可能多的知識。根據(jù)semianalysis的數(shù)據(jù),OpenAI的GPT-4模型參數(shù)規(guī)模約為1.8萬億,為GPT-3(1750億)的十倍以上;GPT-4訓練數(shù)據(jù)規(guī)模約20萬億Token,為GPT-3(5000億Token)的40倍,模型參數(shù)和預訓練數(shù)據(jù)規(guī)模保持高速增長,帶來模型效果快速增強,根據(jù)OpenAI官方數(shù)據(jù),GPT-4較GPT3.5在回答真實性方面提升約40%,并且生成不符合價值觀答案的概率減少82%。通用大模型采用多數(shù)據(jù)集驗證,取得優(yōu)秀成績。通用大模型通常以多領域、多層次的數(shù)據(jù)集綜合衡量模型效果,并不追求在單一數(shù)據(jù)集上的極致表現(xiàn)。根據(jù)OpenAI的GPT-4技術報告,模型評價利用學術測試集MMLU、科學測試集ARC、日常對話測試集HellaSwag、Python測試集HumanEval等,以7大數(shù)據(jù)集全面覆蓋多學科、多學段、多場景的生成能力,力求全面綜合評價模型整體表現(xiàn)。與之相對的是,小模型由于應用場景相對單一,模型目標性更強,普遍采用單一測試集,例如CV領域知名的ILSVRC挑戰(zhàn)賽便長期采用ImageNet數(shù)據(jù)集,其子集ImageNet1K(ILSVRC2012)長期被用于各論文的模型效果評價。長期使用單一數(shù)據(jù)集帶來時效性較差、評價指標相對單一的問題。通用大模型以“預訓練+微調”的模式加持應用場景。預訓練階段模型學習大量無標注文本數(shù)據(jù),使其模仿人類語言構成的訓練數(shù)據(jù)集,進而具備各場景通用的生成能力;微調階段模型學習小規(guī)模行業(yè)專業(yè)知識,利用有標注的專業(yè)數(shù)據(jù)集針對模型輸出層參數(shù)進行調整,強化模型對特定領域的生成能力。“預訓練+微調”的模式可以低成本提升模型在特定行業(yè)領域的表現(xiàn)能力,成為長期伴隨深度模型行業(yè)應用的通用模式。根據(jù)AI創(chuàng)業(yè)公司Cohere最新論文,在極限條件下只更新0.32%的模型參數(shù)就可以實現(xiàn)模型微調,充分發(fā)揮通用大模型的通用性,極大降低大模型行業(yè)應用成本。但由于微調改變的參數(shù)量小,只能采用針對細分場景下特定功能進行針對性微調,導致單模型只能有效應對單一場景。模型訓練:流程逐步趨于標準化,數(shù)據(jù)需求持續(xù)提升大模型訓練可劃分兩大階段,流程趨于標準化。大模型訓練大致可分為通用能力培養(yǎng)和行業(yè)能力提升兩大階段。其中通用能力培養(yǎng)主要包括無監(jiān)督預訓練、價值觀對齊等核心訓練步驟,全面提升模型通用能力;行業(yè)能力培養(yǎng)主要包括有監(jiān)督微調、行業(yè)預訓練、偏好對齊等訓練流程,主要針對特定應用場景和行業(yè)需求進行模型優(yōu)化。1)訓練數(shù)據(jù):分詞技術影響模型效果,訓練數(shù)據(jù)規(guī)模應與模型參數(shù)規(guī)模相適應數(shù)據(jù)以語義單元為單位輸入模型,分詞技術影響模型效果。語義單元(Token)是數(shù)據(jù)輸入大模型的最小單位,分詞技術和向量化屬模型核心技術。分詞(Tokenization)是自然語言處理領域的常用技術,指將完整的文本信息切分為語義單元(Token)并將其進行數(shù)值化作為模型輸入。當前以Sub-word為單位進行分詞是最常用的方式,而具體的分詞方式例如BPE、WordPiece、UniLM等技術,以及語義信息的向量化技術均會對模型輸入產(chǎn)生直接影響。當前語義單元是計量大模型訓練數(shù)據(jù)量的單位,對于訓練數(shù)據(jù)集規(guī)模的描述在2020年左右經(jīng)歷了從儲存空間(GB、TB)到Token數(shù)量的轉變。訓練數(shù)據(jù)規(guī)模應與模型參數(shù)規(guī)模相適應,大量模型數(shù)據(jù)規(guī)模不足的問題。2022年9月,DeepMind提出ChinchillaScalingLaws,提出了最優(yōu)的模型規(guī)模-數(shù)據(jù)規(guī)模匹配方案,其研究認為單個參數(shù)需要20個左右的Token進行訓練,并且模型規(guī)模越大,單個參數(shù)所需的數(shù)據(jù)Token越多。在Chinchillalaw之前,行業(yè)遵循OpenAI提出的KaplanScalinglaw,及單個參數(shù)需要1.7個Token投入訓練。以GPT-3為代表,2022年之前的大模型主要依據(jù)Kaplanlaw確定訓練數(shù)據(jù)的規(guī)模,存在模型參數(shù)量大但訓練數(shù)據(jù)不充分的問題。根據(jù)semianalysis的數(shù)據(jù),OpenAI的GPT-4模型參數(shù)規(guī)模約為1.8萬億,訓練數(shù)據(jù)規(guī)模約20萬億Token,較GPT-3更趨近Chinchilla定律但數(shù)據(jù)規(guī)模仍有不足。2)模型設計:參數(shù)量、規(guī)模持續(xù)增長帶來模型效果提升AI大模型參數(shù)量快速增長,規(guī)??焖贁U大表現(xiàn)出涌現(xiàn)能力。2018年發(fā)布的GPT-1和BERT模型參數(shù)量大約為1億,2020年發(fā)布的GPT-3模型參數(shù)規(guī)模為1750億,2023年推出的GPT-4和Gemini模型規(guī)模已經(jīng)達到萬億水平,大模型參數(shù)規(guī)模持續(xù)高速增長。涌現(xiàn)指大模型規(guī)模達到一定程度時在特定任務上的表現(xiàn)顯著提升。涌現(xiàn)能力并非人為設計和構建的,是大模型作為端到端模型可解釋度較低的情況下,對于大模型具有一定思維能力的概括性描述。3)模型預訓練:自監(jiān)督預訓練成為行業(yè)標配預訓練強調訓練模型的通用能力,自監(jiān)督預訓練(self-supervisedpre-training)推動模型發(fā)展。通過預訓練得到通用大模型(GPT-4、PaLM2)。預訓練及在應用場景未知的情況下,讓模型自主學習通用表征以盡可能滿足更多場景的應用需求。大語言模型數(shù)據(jù)規(guī)模極大,數(shù)據(jù)標注成本極高,自監(jiān)督預訓練模式無需數(shù)據(jù)標注,有力支持大模型訓練數(shù)據(jù)規(guī)模的快速增長。4)模型價值觀對齊:價值觀注入保證模型輸出符合道德人倫模型價值觀對齊主要目標是確保模型輸出結果符合社會道德和法律約束。模型對齊是近年來研究者開始關注的一項議題。由于大模型內(nèi)部可解釋度低,訓練后的模型難以保證輸出結果符合社會道德和法律約束,因此需要額外訓練和外部風控機制進一步約束模型行為。OpenAI公司2022年成立了專門的對齊團隊,并提出InstructGPT模型,利用人類反饋學習(RHLF)和對應的獎勵模型增強模型對齊效果。根據(jù)OpenAI公司CEOSamAltman發(fā)言,GPT-4模型從最初完成預訓練到最終完成模型對齊共耗時8個月,模型對齊工作成為大模型訓練中不可忽視的一項重要內(nèi)容,也是耗時較長的工序之一。5)大模型行業(yè)化:基于通用大模型形成垂類模型主要有三種方式。三種方式可以在單一模型上同時使用以最大程度提升模型效果。1)行業(yè)數(shù)據(jù)預訓練:利用大量無標注行業(yè)數(shù)據(jù)對模型整體進行預訓練。行業(yè)知識大量注入模型使得經(jīng)過行業(yè)預訓練的模型獲得單行業(yè)能力提升,可有效降低模型在特定行業(yè)內(nèi)的幻覺問題,同時最大程度保留模型的通用能力,維持模型的基本泛化性能,因此備受青睞。但該方法數(shù)據(jù)需求大,同時消耗較多算力資源,適合在特定有大量數(shù)據(jù)積累的行業(yè)使用。2)模型對齊:利用RLHF機制人工介入對模型進行微調。模型較微調而言更加溫和,可以在提升模型特定行業(yè)表現(xiàn)的同時,維持模型通用能力,但同樣無法杜絕模型出現(xiàn)幻覺問題。同時模型對其安全性較強,人工介入保證模型輸出符合法律、道德等約束,同時保證模型各領域的能力平衡,但需要大量人工成本和較長訓練時間,往往作為模型訓練的最后步驟。3)模型有監(jiān)督微調:利用少量有標注的行業(yè)數(shù)據(jù)對模型靠近輸出側的部分參數(shù)進行微調。微調可以利用少量參數(shù)顯著提升模型在特定行業(yè)上的表現(xiàn),同時算力成本只相當于通用大模型預訓練的1%左右,但該方法會犧牲模型通用能力,嚴重加劇模型在其他領域的幻覺問題。海外廠商:OpenAI領先通用大模型,Google和Anthropic形成第二梯隊1)OpenAI:通用大模型的領跑者堅持長期投入,引領本輪大模型技術發(fā)展。OpenAI公司成立于2016年,早期專注于自然語言處理賽道開發(fā)可商用的AI聊天機器人,如今公司核心宗旨為實現(xiàn)安全的通用人工智能(AGI),致力于提供通用能力更強的大模型。GPT(GenerativePre-trainedTransformer)最早可以追溯到2018年OpenAI發(fā)布GPT-1,此后隨著模型迭代,GPT模型能力不斷提升。最新的GPT-4與GPT-3的模型規(guī)模相當(1750億),但通過更多的數(shù)據(jù)和計算資源投入實現(xiàn)進一步發(fā)展。GPT-4支持多模態(tài),可以理解復雜概念,并在語言以外的數(shù)學、醫(yī)學、法律的多學科上表現(xiàn)出與人類相近的能力。GPT-4Turbo以更低價格提供更強能力,多模態(tài)接口全面開放。較原版GPT-4,GPT-4Turbo本次主要獲得五大更新:1)上下文能力增強,模型上下文窗口從32K提升到128K,相當于單次可輸入超過300頁的英文文本;2)模型知識更新,外界知識從2021年9月更新到2023年4月;3)調用優(yōu)化,推出JSON模式優(yōu)化API多任務調用效率,模型格式化輸出能力提升;4)單價降低,輸入定價0.01美元/Token,較原版便宜3倍,輸出定價0.03美元/Token,較原版便宜2倍;5)速度提升,Token輸出限制速率提升一倍,用戶可自主申請?zhí)崴?。同時,OpenAI在GPT-4Turbo上開放圖像輸入,定價視圖片尺寸而定,1080x1080圖像輸入定價0.00765美元。圖像模型DALL·E3和文轉聲模型TTS通過單獨API開放給用戶。在模型能力提升、多模態(tài)能力加持、服務價格降低等多重因素共同作用下,GPT-4流量或將迎來全新增長。2)Google:技術積累深厚,逐步實現(xiàn)追趕Google在自然語言處理領域有深厚技術積累。2017年谷歌公司發(fā)表論文AttentionisAllYouNeed(AshishVaswani,NoamShazeer,NikiParmar等),開啟Transformer框架下的大模型時代。公司在三條技術路線均有布局,有大量自研模型發(fā)布。2017-2021年,由于自身核心搜索引擎業(yè)務影響,谷歌大力投入自然語言理解而非生成能力研發(fā),因此Google在BERT路線和T5路線上投入大量研究力量,導致公司在GPT路線上落后于OpenAI。2022年,谷歌先后推出1370億參數(shù)的LaMDA和5400億參數(shù)的PaLM模型,但模型效果并未超越1750億參數(shù)的GPT-3。2023年5月,公司推出對標GPT-4的PaLM2模型,成為當前可以與OpenAI正面競爭的主要公司。谷歌官方發(fā)布公司迄今為止規(guī)模最大、能力最強的Gemini大模型。12月6日,谷歌發(fā)布Gemini模型,按不同模型規(guī)模包括GeminiUltra、GeminiPro、GeminiNano三個版本。根據(jù)官方測試數(shù)據(jù),模型文本能力出眾,在特定測試方法下,性能最優(yōu)的Ultra模型在MMLU測試集上以90.0%的高分,成為歷史上第一個超越人類專家的模型。Gemini采用“原生多模態(tài)”架構,具備強大多模態(tài)能力和圖文結合的邏輯推理能力,在數(shù)學、物理等學科問題上表現(xiàn)優(yōu)秀,可以基于視覺和文本提出具有一定創(chuàng)新性的觀點。針對Gemini定制版,谷歌推出AlphaCode2,性能超過85%的人類程序員。同時谷歌同步發(fā)布TPUv5e,較TPUv4性價比提升2.3倍,采用全新計算芯片的Gemini模型,較前代PaLM模型運行速度更快、更便宜。3)Anthropic:核心團隊來自OpenAI,注重模型安全注重模型安全問題,公司快速發(fā)展。創(chuàng)始人Anthropic是由OpenAI前研發(fā)副總裁DarioAmodei帶領其團隊成員于2021年成立的公司,對高級人工智能安全問題的保持高度關注。過去兩年,公司相繼得到Google和Amazon投資,并獲得超過50億美元融資。2023年3月15日,公司發(fā)布類ChatGPT產(chǎn)品Claude,模型整體能力達到ChatGPT同等能力。積極探索新技術應用。在Claude模型訓練中,Anthropic提出CAI機制及模型排序代替人工排序的RLHF以提升訓練效率,同時推測其通過為底層Transformer增加Memory模塊使模型記憶力為ChatGPT的三倍。公司未來計劃構建名為“Claude-Next”的前沿模型,比目前最強大的AI(GPT-4)還要強大10倍,需要在未來18個月內(nèi)投入10億美元。4)Meta:開源模型領導者,積極探索多元技術目前采取低成本開源策略,與閉源大模型形成差異化競爭。2023年7月19日,Meta正式發(fā)布可商用開源大語言模型Llama2,成為開源模型標桿。根據(jù)Llama2技術報告(HugoTouvron,LouisMartin,KevinStone等),和初代Llama相比,Llama2最大模型參數(shù)規(guī)模從650億提升到700億,訓練數(shù)據(jù)提升40%達到2萬億,模型效果明顯優(yōu)于其他開源模型,是目前能力較強的開源大語言模型,但由于模型規(guī)模較小等原因,和GPT-4等閉源模型相比仍有差距。低成本的大模型能力是Llama2打造自身生態(tài)的最大優(yōu)勢,主要反映在:1)Llama作為開源模型支持免費商用,極大降低企業(yè)模型調用成本。2)模型參數(shù)量較小,最小具有70億參數(shù)版本,形成垂域過程中需要的行業(yè)數(shù)據(jù)量較小,適合數(shù)據(jù)量小、數(shù)據(jù)質量欠佳的行業(yè)應用,數(shù)據(jù)成本更為可控。探索多元大模型技術發(fā)展路線。Meta首席科學家、圖靈獎得主YannLeCun作為人工智能行業(yè)權威專家,并不滿足于GPT路線下的大模型架構,并基于類人人工智能模型提出了“世界模型”框架。目前部分模組得以發(fā)布(I-JEPA),但相關框架在現(xiàn)行技術水平下仍然缺乏足夠可行性。大模型技術:形成三大技術路線,GPT路線得到認可底層技術:自注意力機制為Transformer帶來優(yōu)秀性能Transformer的出現(xiàn)從根本上顛覆了NLP領域生態(tài),成為大語言模型發(fā)展的基石。2017年,谷歌提出Transformer框架,底層為自注意力機制(Self-attention)。引入自注意力機制的Transformer徹底解決了遠距離信息丟失和并行計算問題,當前Transformer架構已經(jīng)成為自然語言處理(NLP)領域的統(tǒng)一研究范式:1)模型訓練中一次性輸入全部序列統(tǒng)一求解,遠距離信息被包含在同一次模型運算當中,解決了遠距離信息丟失問題;2)Transformer不具備時序特征,訓練運算沒有關聯(lián)性,可以有效支持并行計算。高并行效率賦予了模型更強的拓展性,為參數(shù)規(guī)??焖偬嵘峁┝藯l件。模型技術:基于Transformer形成三大主流技術路線,GPT路線脫穎而出以Transformer為基礎,業(yè)界形成三大主流技術路線:編碼器路線、解碼器-編碼器路線、解碼器路線。1)編碼器路線(Encoder-Only)只利用Transformer的解碼器,側重理解任務。BERT模型采用雙向自編碼算法,模型Mask設計使運算輸入包括目標詞的前文和后文內(nèi)容。因為利用了前后文推測目標詞,模型預測穩(wěn)定、表現(xiàn)良好,同等參數(shù)規(guī)模下,BERT類模型效果往往優(yōu)于其他路線。2)編碼器-解碼器路線(Encoder-Decoder)同時利用編碼器和解碼器,側重轉換任務。該路線在BERT模型基礎上增加了一組與編碼器大小相似的解碼器。其編碼器部分采用與BERT相同的雙向自編碼策略加強理解,而在解碼器部分采用了GPT的自回歸策略方便生成。模型初步具備統(tǒng)一的多任務能力,以單一模型完成大部分自然語言處理任務,編碼器-解碼器形成的理解+生成結構使得模型擅長翻譯等轉換類任務。3)解碼器路線(Decoder-Only)只利用編碼器部分,側重生成任務。該路線只采用解碼器部分,利用大參數(shù)規(guī)模和大規(guī)模預訓練強化模型的通用能力。優(yōu)秀的生成能力帶來的應用前景,該路線已經(jīng)獲得了行業(yè)的廣泛認可。編碼器路線:BERT初步展現(xiàn)大模型能力2018年,Google發(fā)布基于Transformer的BERT模型,擁有3.4億參數(shù),采用雙向預訓練+FineTuning(微調)的訓練模式。模型一經(jīng)推出便在11個NLP任務上超越當時最高水平,在部分場景上表現(xiàn)追平人類。BERT的出現(xiàn)讓人們看到了Transformer框架的價值和自然語言理解的無限可能,互聯(lián)網(wǎng)廠商相繼建設人工智能研究部門,大模型發(fā)展進入快車道。BERT路線(編碼器路線)只使用Transformer中的編碼器部分,采用雙向自編碼算法,及模型Mask設計使運算輸入包括目標詞的前文和后文內(nèi)容。該設計的不足是模型計算需要后文內(nèi)容,因此無法進行生成式任務,只適用于自然語言理解(NLU)任務。但優(yōu)勢是因為利用了前后文推測目標詞,模型預測穩(wěn)定且效率較高,小參數(shù)規(guī)模下BERT類模型效果往往優(yōu)于其他路線。編碼器-解碼器路線:T5模型探索多任務能力2019年,T5模型發(fā)布并提出一個統(tǒng)一框架,將所有NLP任務均轉化為Text2text的文本任務,及利用文本生成文本的任務?;诮y(tǒng)一的任務框架,所有任務均可以使用相同的訓練目標函數(shù)和推理解碼過程,模型初步具備了統(tǒng)一的多任務能力,探索了大模型的通用能力。模型在聚焦自然語言理解(NLU)任務的同時,具備一定自然語言生成(NLG)能力。T5路線模型是在BERT模型基礎上增加了一組與編碼器大小相似的解碼器,使得模型在利用編碼器理解輸入的基礎上具備一定利用解碼器輸出的能力。其編碼器部分采用與BERT相同的雙向自編碼策略加強理解,而在解碼器部分采用了GPT的自回歸策略方便生成。模型在翻譯等任務重表現(xiàn)良好,但生成能力不足。解碼器路線:生成能力優(yōu)勢明顯,已經(jīng)成為行業(yè)共識以GPT為代表的解碼器路線早期專注自然語言生成(NLG)領域。2018年,OpenAI推出了GPT模型,舍棄了Transformer中的編碼器,只利用解碼器部分強化生成能力。初代GPT模型依然采用了類BERT的多任務微調模式,有多個模型適配不同任務需求。2019年,GPT-2的發(fā)布奠定了解碼器路線無監(jiān)督預訓練和通用模型的基調,解決了零次學習(zero-shot)的問題,使得單一模型可以適用所有任務。GPT-2和T5相比,在不損失模型生成能力的前提下,去除解碼器極大降低了模型規(guī)模和訓練難度。2020年,GPT-3發(fā)布并展現(xiàn)的強大生成能力,成果得到業(yè)界廣泛認可,各大公司開始跟進解碼器路線模型研發(fā),2021年Deepmind推出Gopher,2022年Google推出LaMDA。GPT(解碼器)路線采用單向信息傳遞和自回歸特征。模型訓練階段,GPT路線模型利用解碼器的Mask結構屏蔽目標詞后方的內(nèi)容,保證信息的單向傳遞,只學習利用目標詞左側(前側)內(nèi)容進行目標詞預測;推理階段,模型從左到右進行單向生成,同樣保持單向信息傳遞。與之對應的是,解碼器(BERT)路線采用雙向信息傳遞,訓練和推理中模型可以利用全部文本信息;解碼器-編碼器(T5)路線采用部分單向信息傳遞,編碼器中的輸出序列及解碼器中前面的文本會參與后方目標的注意力計算。GPT路線模型擅長生成,強大能力在考試和測評中得到體現(xiàn)。單向生成符合人類正常思維邏輯,人類正常表達方式及為根據(jù)前文思考后文,從前到后順序思考。與BERT根據(jù)前后文“填空”的方式相比,自回歸模型更像“寫作”,生成模式完全符合上述人類思考邏輯。該邏輯全面融入訓練和推理流程,因此模型輸出文本質量高,語言流暢。2023年3月,OpenAI最新模型GPT-4模擬考試中表現(xiàn)優(yōu)異,在環(huán)境科學、歷史、生物等學科考試中已經(jīng)可以取得前10%分位的成績,在其他大量學科上達到前20%分位。GPT路線代表模型GPT-4、Claude、PaLM、Llama等更是長期位于模型能力榜單前列,展現(xiàn)強大理解和生成能力。未來展望:當前大模型與AGI仍有差距,多模態(tài)成為重要途徑通用人工智能(AGI)具備人類級別智能。作為強人工智能的典型代表,未來通用人工智能(AGI)系統(tǒng)將具備達到或超過人類的智能,具有高度自主性,可以獨立完成大量工作,因此可以規(guī)?;瘜崿F(xiàn)人力替代,進而推動社會生產(chǎn)力全面提升。當前主流公司對于通用人工智能的探索持續(xù)從未止步,OpenAI將構建安全、符合共同利益的AGI系統(tǒng)作為企業(yè)核心使命;谷歌DeepMind研究團隊發(fā)布AGI的5級分級定義,并認為當前主流大模型只達到1級水平。當前主流大語言模型和AGI之間仍有較大差距。GPT路線構建的大語言模型已展現(xiàn)出強大的自然語言理解和生成能力,但參考Deepmind、OpenAI、Meta等公司對于AGI能力的定義,我們認為當前大語言模型在各維度上距離AGI仍有較大差距,主要體現(xiàn)在性能和通用性、認知能力、工具使用能力、創(chuàng)作能力等方面。多模態(tài)能力提升模型各維度能力,推動大模型走向AGI。當前大模型主要指大語言模型(LLM),輸入輸出均已文本形式進行,而多模態(tài)大模型(MLLM)則可以輸入或輸出文本及其他模態(tài),包括圖像、視頻、音頻、數(shù)據(jù)庫等。多模態(tài)能力全面提升模型各維度能力,成大語言模型走向AGI的重要途徑。1)性能和通用性:多模態(tài)能力突破文本對模型訓練的限制,保障模型效果快速提升。大模型多模態(tài)能力可以打破訓練上對文本信息的完全依賴,通過圖片以更加直觀的方式學習更多知識,提升模型訓練效果。根據(jù)論文信息(Huang,Z.,Bianchi,F.,Yuksekgonul,M.etal.Avisual–languagefoundationmodelforpathologyimageanalysisusingmedicalTwitter.NatMed29,2307–2316(2023).),斯坦福大學團隊融合多模態(tài)病理圖片、專業(yè)知識、社交網(wǎng)絡等數(shù)據(jù),構建了OpenPath數(shù)據(jù)庫并訓練PLIP模型。新模型在診斷效率提升和醫(yī)學教育等領域具有潛在應用空間,展現(xiàn)了多模態(tài)數(shù)據(jù)對于模型訓練的重要價值。此外,大模型學習文本以外的知識對于打破文本規(guī)模對模型規(guī)模限制具有重要意義,根據(jù)未盡研究數(shù)據(jù),當前高質量語言數(shù)據(jù)總存量約9萬億個單詞,年化增長率為4%-5%,明顯慢于模型規(guī)模增長速度,最早2026年就會出現(xiàn)因文本量不足導致的模型規(guī)模擴增放緩,突破文本規(guī)模對模型規(guī)模的限制對于大模型未來的持續(xù)增長具有重要意義。2)認知能力:多模態(tài)協(xié)同實現(xiàn)精準認知,推理能力顯著提升。大模型直接擴展多模態(tài)認知渠道,實現(xiàn)從文本單維度認知到多維度混合認知的轉變,可以利用多信息理解用戶需求。根據(jù)麥拉賓法則,面對面溝通時的信息表達中視覺信息占比達到55%,其次是語音語調的38%;而根據(jù)中科院數(shù)據(jù)顯示,對于一個正常人,視覺信息占全部感覺信息的70%以上。只利用文本的大語言模型存在信息利用效率過低的問題,擁有聽覺和視覺的大模型可以捕捉更多外界信息,實現(xiàn)對環(huán)境和用戶需求的精準認知,可以實現(xiàn)基于外部環(huán)境、用戶情緒、問題語境等要素的實時輸出優(yōu)化。同時,利用大模型多模態(tài)能力的融合復雜信息,可以形成更加有效推理和相對復雜的思維鏈,如利用圖片里的物體位置、狀態(tài)、關系等信息,結合用戶文本輸入實現(xiàn)綜合判斷,進行準確的推理和分析。3)工具使用:多模態(tài)能力支持更多工具調用,同時提升能力和效果。當前大模型輸出仍存在常識性錯誤,反映對以搜索工具為代表的外部工具使用能力不足。結合多模態(tài)能力的大模型可以使用更多工具提升模型效果,如利用代碼解釋器(CodeInterpreter)實現(xiàn)網(wǎng)頁上的數(shù)據(jù)分析,通過類似CLIP的圖文模型進行跨模態(tài)搜索。更強的工具使用能力有利于大模型接入外部模塊化工具,提升模型輸出效率;另一方面,隨著工具集擴展,模型工具學習方案不斷豐富,模型輸出準確性和時效性有望進一步提升。4)創(chuàng)作能力:多模態(tài)輸入提升模型“創(chuàng)作”空間,藝術創(chuàng)作能力得到行業(yè)權威認可。在以圖靈測試為代表的現(xiàn)行AI標準下,類人的行為和更高的回答正確率即為智能,因此大模型訓練以正確模仿人類為主要目標,更傾向于輸出“學習過的”答案。GPT-4模型發(fā)布之初就強調模型擁有寫小說的能力,但高質量生成需要人工限定主題、框架、背景、思想等各要素,并且尚未出現(xiàn)獲得廣泛認可的作品,大語言模型的創(chuàng)作能力相對有限。多模態(tài)的引入和融合,讓模型的模仿維度更加多元和隨機,實現(xiàn)類似聯(lián)想的創(chuàng)作能力。2021年,OpenAI發(fā)布DaLL·E模型,模型生成的牛油果椅子圖片,因多元的設計風格、優(yōu)秀的元素融合獲得廣泛關注,視覺大模型初步展現(xiàn)創(chuàng)作能力。2022年9月,由Midjourney生成的作品在美國科羅拉多州博覽會的藝術比賽中獲得了第一名,展現(xiàn)模型具備更高維度的聯(lián)想和元素組合能力,進而實現(xiàn)一定的“原創(chuàng)”功能。多模態(tài):視覺能力為核心,能力升級帶動應用落地概述:語音和視覺能力先行,模型效果全面提升語音和視覺能力先行,視覺能力為核心。當前模態(tài)主要包括圖像、視頻、音頻、代碼、標準數(shù)據(jù)庫等,多模態(tài)大模型進展主要圍繞語音和視覺任務,其中語音任務和文本任務本質上相通,有成熟開源技術方案,門檻相對較低;而視覺任務主要涵蓋視覺理解和視覺生成,由于信息復雜度高、利用難度較大,并且對模型感知能力和應用開發(fā)潛力提升具有重要價值,成為當前多模態(tài)大模型發(fā)展的核心方向。OpenAI和谷歌引領基于大語言模型的多模態(tài)能力探索OpenAI引領行業(yè)發(fā)展,ChatGPT-4V展現(xiàn)強大能力。根據(jù)官方技術文檔,OpenAI于2022年完成GPT-4V版本(視頻版本)的模型訓練;2023年3月,GPT-4模型發(fā)布會上展示了模型的圖像輸入處理能力,并與移動應用BeMyEyes合作落地圖像處理能力,但始終未在官方ChatGPT產(chǎn)品中開放語音輸入以外的多模態(tài)能力。2023年9月25日,OpenAI正式發(fā)布ChatGPT-4V(ision)版本,ChatGPT新增圖片輸入和語音輸出能力,多模態(tài)能力正式融入ChatGPT。本次更新顯示GPT-4多模態(tài)能力已經(jīng)成熟,新能力有望加速落地。逐步擁有“視覺”和“聽覺”的大模型有潛力在更多場景下獲得應用,未來隨著軟硬件革新,大模型有望支持“觸覺”、“嗅覺”等全新模態(tài),應用場景將實現(xiàn)加速擴展。谷歌發(fā)布原生多模態(tài)大模型Gemini,實現(xiàn)對GPT-4V的技術追趕。Gemini采用“原生多模態(tài)”架構,文本和視覺等輸入在統(tǒng)一模型架構下參與預訓練,各模態(tài)之間的結合更加流暢。推理能力方面,模型在數(shù)學、物理等學科問題上表現(xiàn)優(yōu)秀,可以對解題過程的進行步驟拆分,并可以針對任一步驟單獨提問。同時模型具備支持多模態(tài)的復雜推理能力,可以理解視覺信息,可以基于視覺和文本提出具有一定創(chuàng)新性的觀點。語音能力:STT+TTS+GPT便捷實現(xiàn)語音對話,優(yōu)化人機交互體驗語音轉文字模型(Speech-To-Text,STT)技術成熟度高,難構成行業(yè)壁壘。語音識別技術歷史悠久,最早可以追溯到1952年,成熟度相對較高,并已融入各類日常場景。最近幾年技術層面逐步從統(tǒng)計模型和走向端到端的深度模型,底層架構逐步從小模型走向大模型。在多模態(tài)大模型系統(tǒng)中,STT模型將語音轉換為特定模式的文本文件,并直接輸入模型。以OpenAI推出的Whisper模型為代表,模型底層使用Transformer的編碼器解碼器架構,可以將音頻信息直接轉化成包含提示詞的標準化Token,基于68萬小時的對話學習,較主流小模型可以將錯誤率降低50%左右。Meta推出MMS,谷歌推出AudioPaLM模型,均采用Transformer架構實現(xiàn)端到端的STT模型。文本轉語音(Text-To-Speech,TTS)模型是實現(xiàn)大模型語音能力的核心技術,差異主要體現(xiàn)在音色和情感方面。TTS模型同樣具有悠久技術歷史。過去幾年,TTS模型和STT模型在技術層面同步發(fā)展,實現(xiàn)從HMM-GMM為基礎的概率統(tǒng)計模型走向Transformer基礎的端到端大模型的技術轉變,形成Tacotron2、Fastspeech等代表模型。技術進展下,TTS模型語音合成效果有明顯提升,可以模擬真人的語氣、情感和停頓,音色更加貼近真人,可以實現(xiàn)高質量流暢合成。由于模型訓練階段使用的音源在音色、情感、語種等方面存在差異,底層模型設計也不盡相同,當前主流TTS模型合成效果存在明顯差異,對于用戶的使用體驗影響較大。STT+TTS+GPT模式成為實現(xiàn)大模型語音對話的主流,技術門檻相對較低。通過構建STT+TTS+GPT的模式,可以便捷實現(xiàn)基于大語言模型的語言對話,為大模型增加音頻模態(tài)。在該模式下,STT、TTS、LLM模型均為獨立模塊,可以實現(xiàn)低成本替換,因此在應用開發(fā)層面可進行靈活組合。當前市面主流對話助手的語音功能均以此方式實現(xiàn),以ChatGPT語音功能為例,采用Whisper+GPT-4+OpenAI自研TTS模型的組合,實現(xiàn)優(yōu)秀語音對話效果??紤]到STT和TTS模型均有成熟開源解決方案,大模型實現(xiàn)語音模態(tài)兼容技術門檻相對較低。ChatGPT最新更新TTS模型帶來接近人類的對話體驗。本次更新前,ChatGPT只支持基于Whisper模型的語音輸入,更新后的ChatGPT可以將語音作為輸出模態(tài),用戶可直接進行語音問答對話。OpenAI為新場景開發(fā)了全新的TTS模型,提供五種逼真的輸出音色,每種聲音都基于真人錄制音源,擁有獨特的音調和字符。依托GPT-4強大的文本生成能力,結合高質量和流暢度的語音生成技術,ChatGPT可以為用戶提供逼真的對話體驗。相關技術有望進一步落地智能客服、語言學習等領域,顛覆用戶的AI對話體驗。視覺能力:形成兩大主流路線,圖文融合帶動應用場景全面擴展傳統(tǒng)計算機視覺(CV)技術儲備有助于構建視覺認知模型。計算機視覺(CV)長期以來是人工智能的核心領域之一,過去十年圍繞卷積神經(jīng)網(wǎng)絡實現(xiàn)快速發(fā)展。近年來部分CV模型采用Transformer架構,對于大模型時代的視覺系統(tǒng)構建實現(xiàn)技術積累。傳統(tǒng)CV模型受限規(guī)模等原因,主要解決單一場景問題,具備獨立的視覺信息處理能力。與傳統(tǒng)CV模型不同,大模型時代的視覺系統(tǒng)主要圍繞提升模型整體的通用能力,以理解和認知視覺信息為核心,和文本等模態(tài)有機結合滿足多模態(tài)任務的需求,但底層技術存在共通之處,傳統(tǒng)CV領域的Transformer技術經(jīng)驗積累對于構建大模型視覺系統(tǒng)具有重要價值。目前在底層架構設計上主要形成兩大技術路線:1)模塊化設計:模塊化多模態(tài)設計單獨處理視覺信息輸入。考慮到視覺信息和文本信息差距較大,當前大模型千億規(guī)模統(tǒng)一處理所有模態(tài)信息具有較大難度。因此,設計上可以分別針對文本和模型等模態(tài)分別進行模型訓練,并通過系統(tǒng)優(yōu)化實現(xiàn)各模型的結合。以GPT-4V(ision)版本為例,其視覺方案以大語言模型GPT-4為核心,圖像認知能力上或采用與OpenAI2021年發(fā)布的CLIP模型類似的方案,未來有望基于DALL·E3模型融合圖像輸出能力,形成完整的視覺多模態(tài)系統(tǒng)。模塊化設計提升系統(tǒng)靈活性,帶來更高模型性價比。視覺認知、視覺生成和大語言模型在模型設計、訓練數(shù)據(jù)集、目標函數(shù)設計等方面差異較大,訓練和推理相對獨立,模塊化設計和分別訓練的模塊在性能、性價比、靈活性上存在優(yōu)勢。性能上,各個模塊可以針對特定任務單獨優(yōu)化,更容易在各子任務上實現(xiàn)高性能;性價比上,把各模態(tài)的需求分割成多模塊,并進行分開訓練的模式,降低了單次訓練的模型規(guī)模,顯著降低算力需求;靈活性上,各模塊可進行單獨替換,也可以基于任務需求進行模塊增減,同時大模型系統(tǒng)可以快速接入第三方服務,多維度實現(xiàn)更加靈活的解決方案。2)一體化(原生多模態(tài))設計:原生多模態(tài)設計統(tǒng)一文本和視覺信息輸入。前端利用不同的處理模塊將文本、圖像等信息分別Token化,并直接輸入統(tǒng)一的大模型。12月6日,谷歌發(fā)布Gemini模型,作為第一款“原生多模態(tài)”大模型,文本和視覺等模態(tài)在統(tǒng)一架構下預訓練。統(tǒng)一的訓練有望使得各模態(tài)之間的結合更加順暢。根據(jù)官方技術文檔,模型可以實現(xiàn)圖文結合的理解和推理,目前在數(shù)學和物理等領域有所進展,體現(xiàn)了模型的復雜問題拆解能力,對于擴展應用領域以及提升輸出準確性有較大價值。原生多模態(tài)設計實現(xiàn)更強圖文結合效果,但模型成本較高??梢葬槍D像和文本結合的綜合任務進行端到端的統(tǒng)一訓練和優(yōu)化,把圖文結合當成一項任務直接進行學習,而不是通過系統(tǒng)層面基于人為規(guī)則制定的融合和調優(yōu)。因此,采用原生多模態(tài)設計的大模型可以實現(xiàn)多模態(tài)信息的無縫共享、互通和融合,例如谷歌Gemini模型演示中就展示了基于模型對于視覺、文本、代碼的融合生成能力。但同時為了容納多模態(tài)的處理能力,模型單次參與推理的參數(shù)較多,訓練數(shù)據(jù)的多樣性和規(guī)模也相應提升,將顯著提升模型訓練和推理成本。圖像生成模型主要采用擴散模型架構,各產(chǎn)品存在顯著差異。潛在擴散模型(LatentDiffusionmodel)是Transformer大模型在圖像領域的特化應用,通過圖片噪點生成的方式學習大量圖片,并通過逆向去噪方式實現(xiàn)圖片生成,成為圖片生成領域的主流技術路徑。與文本生成注重正確性相比,圖片生成需求更加多元,各產(chǎn)品在藝術風格、易用度等方面的差異化競爭更加明顯。目前主流產(chǎn)品可以實現(xiàn)對用戶需求的準確理解,并生成高質量的、具備一定藝術風格的圖像。代表產(chǎn)品有主打低門檻高質量生成的Midjourney,打造開源生態(tài)實現(xiàn)工業(yè)級定制的StableDiffusion,結合ChatGPT實現(xiàn)便捷化使用的DALL·E3等。視頻生成是圖像生成在時間軸上的延續(xù),視頻與圖像生成底層不存在技術壁壘。與圖像生成類似,當前視頻生成同樣通過擴散模型實現(xiàn),根據(jù)RunwayGen1模型論文(PatrickEsser,JohnathanChiu,ParmidaAtighehchian等),在文生視頻流程中,模型首先通過DALL·E、StableDiffusion的文生圖模型實現(xiàn)高質量圖片生成,引入帶有時間軸的預訓練圖像模型,并在圖像和是視頻上做聯(lián)合訓練,從而將擴散模型從圖像擴展到視頻生成領域。因此視頻和圖像生成底層不存在技術壁壘,核心能力在于如何更好的處理視頻的流暢性和藝術表達,提升視頻生成的長度限制。目前視頻模型產(chǎn)品主要功能包括文生視頻、文圖結合生成視頻、視頻智能編輯等功能。根據(jù)論文統(tǒng)計,視頻生成領域熱度明顯高于視頻編輯和理解。目前視頻生成代表產(chǎn)品包括Pika、NeverEnds、Runway等,參考微信公眾號AIPioneer的測試,相關產(chǎn)品在動畫生成上效果出色。大模型融合視覺能力可更好支持理解和生成任務,能力升級帶動應用場景擴展。1)對視覺信息的準確理解:視覺問答、組合式問答等任務多模態(tài)大模型提升對視覺信息的理解能力和邏輯能力,實現(xiàn)更加有效的用戶反饋。視覺問答(VQA)要求模型根據(jù)圖片、視頻等視覺信息回答以文本形式提出的事實性問題,而組合式問答更注重模型的推理能力,要求模型判斷非視覺關系并執(zhí)行推理。與純視覺模型相比,擁有視覺能力的大模型在相關任務處理能力上有顯著提升。由于大模型擁有龐大的知識儲備,可以結合圖像外知識進行詳細解釋,對于傳統(tǒng)VQA模型只基于單圖的問答進行了有效擴展和延伸,極大豐富了技術的應用場景。同時,大模型具有圖文結合能力、邏輯能力和復雜問題的拆解能力,有助于模型更好的理解用戶復雜需求,回答更抽象的問題,高質量完成類似組合式問答的邏輯任務。能力得到第三方驗證,有望重塑安防等領域。根據(jù)論文YunxinLi,LongyueWang,BaotianHu等發(fā)表的論文AComprehensiveEvaluationofGPT-4VonKnowledge-IntensiveVisualQuestionAnswering顯示,GPT-4V在VQA等問答任務評估中表現(xiàn)優(yōu)異,主要體現(xiàn)在有機結合圖片信息和外部知識,并可以為答案提供完整且正確的邏輯解釋。未來隨著模型效果提升,對于視覺信息的準確理解和邏輯建構能力有望廣泛賦能數(shù)據(jù)統(tǒng)計、自動篩查、視覺助理、智能助手等領域,實現(xiàn)各行業(yè)應用落地。例如在智能安防領域,可廣泛應用于監(jiān)測、巡檢等場景,實現(xiàn)實時快速篩查和安全預警;落地智能助手領域幫助視覺受損人群理解環(huán)境情況等。2)視覺生成能力:文生圖、文生視頻等任務開拓全新圖片與視頻生成,持續(xù)發(fā)掘新概念和新產(chǎn)品。大語言模型對用戶需求的準確理解,結合模型的多模態(tài)處理能力,形成強大視覺生成能力,包括文生圖、文生視頻、圖生圖等產(chǎn)品,并圍繞生成能力產(chǎn)生圖片和視頻編輯、圖片擴展和優(yōu)化等功能。相關能力落地各類創(chuàng)意工具,將實現(xiàn)個人生產(chǎn)能力和效率的全面提升。Adobe推出的Firefly工具包,基于大模型多模態(tài)能力實現(xiàn)了文字和圖像之間的高效交互,發(fā)布生成填色、重新上色、3D互動式生成、圖像擴展等智能編輯功能。Pikalabs發(fā)布了全新的文生視頻產(chǎn)品Pika1.0,僅憑一句話就可以生成3D動畫、動漫、卡通、電影等各種風格的視頻,實現(xiàn)高質量、低門檻的視頻生成。代碼生成:代碼大模型快速發(fā)展,國產(chǎn)廠商位于第一梯隊通過大語言模型微調構建代碼大模型,正確率和多模態(tài)融合能力快速提高。代碼大模型主要將自然語言轉化成可執(zhí)行代碼,作用于開發(fā)領域提升程序員工作效率。由于代碼標準化程度高、容錯低,和自然語言差異較大,普遍采取基于語言模型使用代碼數(shù)據(jù)進行微調的方式,構建專用的代碼大模型,這樣既可以保留模型對用戶輸入的高理解能力,又可以將輸出嚴格限制為代碼格式。過去幾年,代碼大模型圍繞提升變成正確率不斷升級,最新基于GPT-4構建的代碼大模型在HumanEval測試級上單次正確率可以達到82%。此外,代碼與其他模態(tài)的互動與融合也是主要進展方向之一,谷歌最新Gemini模型演示了基于文字和圖像生成代碼的能力,展現(xiàn)相關技術的巨大潛力。國際巨頭加速布局,國廠商位列第一梯隊。過去一年全球主要廠商大力投入代碼大模型研發(fā),模型能力屢創(chuàng)新高。3月,OpenAI基于GPT-4推出代碼模型,官方技術公告顯示模型在HumanEval測試集上的正確率為67%。9月,Meta發(fā)布基于Llama2的開源代碼大模型CodeLlama,在HuggingFace平臺測評中一度超越GPT-4等主流代碼模型,占據(jù)榜首位置。12月,Google基于Gemini模型推出AlphaCode2,性能超過85%的人類程序員,將加持Gemini模型定制版。國產(chǎn)廠商中,根據(jù)論文ASurveyonLanguageModelsforCode(ZibinZheng,KaiwenNing,YanlinWang等),螞蟻集團的開源代碼大模型CodeFuse和華為代碼大模型PanGu-Coder2性能優(yōu)異,位列行業(yè)第一梯隊。短期展望:國外大模型加強多模態(tài)支持,國產(chǎn)大模型加速追趕海外通用大模型更新有望加強的多模態(tài)能力支持。根據(jù)谷歌官網(wǎng),目前GeminiPro模型已經(jīng)接入Bard并開放API使用,但能力更強的GeminiUltra模型預計將在明年年初接入BardAdvanced,正式開啟商業(yè)化進程。根據(jù)OpenAICEOSamAltman透露,公司和微軟已開始合作開發(fā)GPT-5模型。Anthropic曾在提出2-3年實現(xiàn)AGI的目標,考慮到多模態(tài)能力對AGI的重要作用,公司多模態(tài)大模型或將于近期推出。海外高質量源生多模態(tài)大模型技術和商業(yè)化進程保持高速推進,推動行業(yè)保持高速發(fā)展。借鑒海外成熟經(jīng)驗,國產(chǎn)多模態(tài)大模型加速追趕。GPT-4V(ision)和Gemini大模型的成功為多模態(tài)大模型的技術路徑提供參考,國產(chǎn)多模態(tài)大模型進展有望逐步加速。金山軟件與華中科技大學聯(lián)合推出高性能多模態(tài)大模型Monkey,可對圖形進行深入問答交流和精確描述,根據(jù)測試,模型在18個數(shù)據(jù)集中表現(xiàn)出色,在圖像描述、視覺問答和文本密集的問答任務上顯現(xiàn)優(yōu)勢??紤]到國產(chǎn)廠商在CV、語音合成等任務上具有一定積累,大語言模型能力持續(xù)提升,我們認為國產(chǎn)多模態(tài)大模型有望加速。行業(yè)落地:大模型賦能千行百業(yè),應用市場蓬勃發(fā)展落地機遇:大模型賦能千行百業(yè),整體市場空間廣闊大模型能力賦能千行百業(yè),打造繁榮模型生態(tài)。當前大模型已經(jīng)展現(xiàn)強大文本生成能力和通用性,在辦公、企業(yè)管理、金融、教育等領域逐步落地應用。未來,大模型對圖像的識別、理解、總結和推理能力將不斷提升,模型可以把圖像、視頻、文本等信息有機結合,更智能的認知和回應用戶訴求,促進模型融入千行百業(yè),實現(xiàn)規(guī)?;涞貞?,形成圍繞大模型的繁榮生態(tài)。公有云和私有部署模式共同推進,探索多樣化商業(yè)模式公有云模式下MaaS模式值得期待,采用“訂閱+流量”的收費模式。MaaS(ModelasaService)是一種新的商業(yè)模式,將模型作為基礎設施部署在公有云端,為下游用戶提供模型使用和基于模型的功能開發(fā)支持。行業(yè)大模型可利用MaaS模式廣泛加持各場景,實現(xiàn)模型生態(tài)的快速發(fā)展。采用MaaS模式的行業(yè)大模型主要采取“訂閱+流量”收費模式,用戶通過基礎訂閱獲取模型能力接入,同時基于用戶模型流量使用情況確定模型服務價格。私有化部署模型通過項目制收費,滿足客戶定制化需求??紤]到模型規(guī)模和算力限制,大模型難以實現(xiàn)終端部署,以私有云模式進行分層部署將是實現(xiàn)模型應用的主要模式。各公司基于經(jīng)營管理、市場定位、歷史文化等方面的考量,容易形成差異化的市場理解,進而提出不同的模型需求。定制化模型帶來更高的開發(fā)成本和更長的交付周期,更適用于擁有深刻行業(yè)理解的行業(yè)龍頭和超大型公司。生成式AI整體市場空間廣闊,有望超過2000億元。根據(jù)technavio數(shù)據(jù),全球生成式AI市場規(guī)模有望從2022年的112億美元增長到2027年的459億美元,2022-2027年CAGR為32.65%,其中2023年將實現(xiàn)31.65%的增速;根據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),2022年我國生成式AI市場規(guī)模約660億元,預計2020~2025年復合增速將達到84%,行業(yè)整體處于高速增長通道。在大模型的催化下,生成式AI市場規(guī)模有望在中短期保持高速成長,2025年有望超過2000億元,大模型行業(yè)未來發(fā)展前景廣闊。辦公:模型落地核心場景,打造智能辦公助理四大特征共同作用下,辦公軟件成大模型應用落地的核心場景之一。1)應用場景扎實:辦公場景關系連接多、信息含量高、時效性強;2)效率提升明確:AI+辦公軟件在AIGC(內(nèi)容創(chuàng)作)、Copilot(智慧助手)、Insight(知識洞察)等方向將帶來效率提升;3)功能演進清晰:伴隨擴大測試范圍以及正式推向客戶,功能有望結合反饋進行快速演進;4)商業(yè)落地加速:海外Microsoft365Copilot計劃將以30美元/月提供,E3、E5、商業(yè)標準版和商業(yè)高級版收費為36/57/12.5/22美元/月,國內(nèi)WPSAI已經(jīng)開啟公測。模型能力限制下,短期以場景化點工具結合為主。由于當前模型通用能力無法覆蓋所有場景,辦公軟件AI產(chǎn)品短期需結合場景進行優(yōu)化,以點工具集合的形式實現(xiàn)完善模型產(chǎn)品矩陣。以WPSAI為例,公司或將右邊欄的對話框化整為零,如在表格中的不同位置提示對應生成函數(shù)、處理數(shù)據(jù)、分析數(shù)據(jù)等不同功能;同時針對特定場景,公司基于開源底座7B、13B等小模型,以Copilot場景中的表格函數(shù)生成為例,大模型在相關領域效果較差,公司自研小模型實現(xiàn)低成本且高效的表格函數(shù)生成。多模態(tài)能力結合打造辦公場景下的智能助理。微軟全新打造Microsoft365Chat,結合電子郵件、會議、聊天、文檔以及網(wǎng)絡數(shù)據(jù)等多模態(tài)信息,Microsoft365Chat對用戶工作需求和習慣形成深刻理解,可以在用戶的文件中快速找到所需要的內(nèi)容并將其與群體內(nèi)容相連接,還可以寫戰(zhàn)略文件、預定商旅、收發(fā)電子郵件,全面扮演辦公場景下的智能助理角色。我們認為,伴隨大模型應用的逐步深入,智能助理或是公司在生成式AI方向上的潛在布局選擇之一,即將當前的AIGC、Copilot、Insight三大戰(zhàn)略方向統(tǒng)一為全面的智能助理。教育:全面引領教學變革,海外產(chǎn)品落地獲得認可應用上形成“教、管、學、考”四大場景,融入具體的教育應用環(huán)節(jié)。其中“學”和“考”針對學生,大模型的生成能力融入線下和線上,促進學生教學提質增效,以數(shù)據(jù)驅動科學備考和科學練習,學生在學習過程中使用大模型技術,能夠提高學習效率?!敖獭焙汀肮堋敝饕槍逃撸袠I(yè)大模型可以利用數(shù)據(jù)整合能力實現(xiàn)科學的教師和學生評價管理體系,利用大模型工具學習能力和知識整合能力實現(xiàn)高效備課,將有效減少教師的工作量,并實現(xiàn)更好地因材施教。Duolingo和Khanmigo實現(xiàn)大模型線上輔助教學,取得良好市場反饋。Khanmigo為KhanAcademy推出的針對專業(yè)教育的模型產(chǎn)品,可以充當學生的虛擬導師解釋概念、提供提示、檢查答案,并通過個性化教學和自適應輔導的模增強學生對知識的掌握程度。作為語言教育軟件,Duolingo在最新“Max訂閱方案”中推出兩項基于GPT-4的設計的教輔功能,分別是答案解釋(ExplainmyAnswer)和角色扮演。在答案解釋功能中,模型可以對用戶個性錯誤加以解釋,以提升學習效果;角色扮演中,用戶可以在AI設計的一系列語境中扮演各種角色,通過語言時間來深層激發(fā)“內(nèi)在學習(implicitlearning)”,挑語言學習效率。根據(jù)多鄰國公司財報,23Q2月活用戶達7410萬,同比增長50%;日活用戶數(shù)2140萬,同比增長62
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職道路橋梁工程(橋梁施工技術)試題及答案
- 2025年大學第一學年(藥學)藥物分析學基礎綜合測試試題及答案
- 知識點及2025秋期末測試卷(附答案)-冀教版(三起)(新教材)小學英語四年級上冊
- 2025年中職金屬材料與熱處理(材料熱處理工藝)試題及答案
- 2025年高職旅游管理(導游服務)試題及答案
- 2025年大學園藝(觀賞園藝學)試題及答案
- 2025年大學醫(yī)學檢驗技術(醫(yī)學檢驗分析技術)試題及答案
- 2025年中職化學(無機化學)試題及答案
- 2026年珠寶鑲嵌師(珠寶鑲嵌)試題及答案
- 2026年投資與理財(投資理財)考題及答案
- JT-T-1221-2018跨座式單軌軌道橋梁維護與更新技術規(guī)范
- 24春國家開放大學《知識產(chǎn)權法》形考任務1-4參考答案
- 倉儲管理教學課件
- DLT1249-2013 架空輸電線路運行狀態(tài)評估技術導則
- 國家開放大學化工節(jié)能課程-復習資料期末復習題
- 液壓升降平臺安裝施工方案
- HXD3D機車總體介紹
- 教科版廣州小學英語四年級上冊 Module 7 單元測試卷含答案
- 2023年印江縣人民醫(yī)院緊缺醫(yī)學專業(yè)人才招聘考試歷年高頻考點試題含答案解析
- 基于邏輯經(jīng)驗主義對命題的分析
- 中文介紹邁克爾杰克遜
評論
0/150
提交評論