AGI發(fā)展回顧與預(yù)測(cè)_第1頁
AGI發(fā)展回顧與預(yù)測(cè)_第2頁
AGI發(fā)展回顧與預(yù)測(cè)_第3頁
AGI發(fā)展回顧與預(yù)測(cè)_第4頁
AGI發(fā)展回顧與預(yù)測(cè)_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AGI發(fā)展回顧與預(yù)測(cè)

AGI發(fā)展回顧與預(yù)測(cè).........................................................1

上篇:2023,風(fēng)暴的前奏....................................................2

引言:高估的短期與低估的長(zhǎng)期..........................................2

1.邁向AGI之路:世界模型、涌現(xiàn)與自我進(jìn)化............................3

2.高估的短期:應(yīng)用層沒有獨(dú)角獸.......................................6

3.官方卷死創(chuàng)業(yè)公司:真的存在GPTs生態(tài)嗎?...........................9

4.AIAgent/替身:目前記性還不太好;呼喚“人的模型”...............12

5.深度壓縮與模型小型化..............................................15

6.多模態(tài)大爆發(fā):視頻、音頻與虛擬人.................................17

7.國(guó)內(nèi)進(jìn)展與卡脖子..................................................21

附錄:2023AGI大事記.................................................24

下篇:2024,分叉與洪流...................................................25

引言:人間一日,AI十年...............................................25

1.虛擬人與虛擬世界...................................................26

1.1大模型的“想象力”與“取悅能力”............................26

1.2多模態(tài)大爆發(fā):走腦->走心&走腎...........................28

1.3虛擬人與虛擬世界...........................................30

2.“AI原生”:重新定義未來商業(yè)模式..................................33

3.ToAI的商業(yè)模式:更高確定性.....................................36

3.1合成數(shù)據(jù).....................................................36

3.2模型市場(chǎng)/平臺(tái).................................................36

3.3模型工程平臺(tái).................................................37

3.4軟硬件聯(lián)合優(yōu)化-Firmware固件..............................37

3.5模型安全......................................................38

3.6隱私..........................................................38

4.端上智能與全天候硬件..............................................39

5.“人的模型”與“具身智能”........................................41

6.AI地緣政治:從中美相爭(zhēng)到“主權(quán)AI”?............................43

7.數(shù)據(jù)生產(chǎn)的天平:AI超越全人類總和................................45

8.AI的需求:能源、算力、機(jī)器人.....................................46

后記;AGI降臨中的“普通人”.........................................48

附錄:AGI機(jī)會(huì)點(diǎn)(2024.02)..........................................50

上篇:2023,風(fēng)暴的前奏

引言:高估的短期與低估的長(zhǎng)期

2023年是大模型澎湃發(fā)展的一年:從22年11月ChatGPT的驚艷面

世,到23年3月GPT4作為“與AGI(通用人工智能)的第一次接觸”,

到23年末多模態(tài)大模型的全面爆發(fā),再到剛剛面世的Sora再次震驚世

界。大模型給了世界太多的驚喜、驚訝、迷茫、甚至恐懼。

有人問我:“AGI的出現(xiàn)可以和人類哪次發(fā)現(xiàn)/發(fā)明相比?”“大概

是人類開始使用'火'的時(shí)刻。萬有引力、iPhone什么的都不值一

提?!?/p>

在AGI和任何新事物的出現(xiàn)的時(shí)候:我們總是傾向于高估它的短期,

但卻低估它的長(zhǎng)期。目前正是這個(gè)大趨勢(shì)的真實(shí)寫照:

?短期:AGI并沒有馬上催生出大量“明星APP”和“變現(xiàn)機(jī)器”。只

有ChatGPT,Charactor,ai等少數(shù)App實(shí)現(xiàn)了用戶突破。大量上層

應(yīng)用APP就像韭菜一樣:不僅曇花一現(xiàn),迅速被OpenAI官方所取代,

而且還無法做到成本打平。于是,投資人極端謹(jǐn)慎,公眾也漸漸對(duì)于

AI麻木。

?長(zhǎng)期:技術(shù)的穩(wěn)定的、加速度的迭代。23年3月預(yù)測(cè)的眾多技術(shù)到

現(xiàn)在都有了長(zhǎng)足進(jìn)步:視頻生成、音頻生成、代理Agent、記憶能力、

模型小型化……它們距離商用可能還有各種各樣的問題,但捅破這

層窗戶紙只是時(shí)間問題。

人間一日,AI十年。

這篇萬字長(zhǎng)文算為嬰兒期的AG1做一個(gè)快照;算是在激流的2023找

個(gè)錨點(diǎn),更是為了2024更好地出發(fā)。

?上篇:回顧AI在2023年發(fā)生的大事,為大家梳理出2023年AI圈

的主線

?下篇‘:不自量力地做些2024年的推斷,為大家提供一些啟發(fā)和點(diǎn)子

這里,我不會(huì)過多討論技術(shù)細(xì)節(jié),更多是從商業(yè)視角、個(gè)體視角來審

視著這場(chǎng)技術(shù)海嘯。文中有很多自不量力的估計(jì),也有很多不準(zhǔn)確、不完

整的地方;歡迎大家指正交流。

Image:"ExplosionofAG1-withsomeorderwithDall-E

L邁向AGI之路:世界模型、涌現(xiàn)與自我進(jìn)化

世界模型:狼真的來了。本次由ChatGPT掀起的革命與之前的〃AI熱

〃有著本質(zhì)區(qū)別。如果說之前的AI都是“工具”,那么這次的AGI就是

“大腦”。這個(gè)區(qū)別不僅來自于模型的目的,也來自于底層數(shù)據(jù)量。

OpenAI一直主張的都是數(shù)據(jù)量和計(jì)算量的“暴力美學(xué)”,GPT從一開始就

是要成為“世界模型”的,也就是說把世界上所有的知識(shí)壓縮到模型旦,

達(dá)到“全知全能”。連“之所以使用視頻和圖像數(shù)據(jù)的原因”都是“僅僅

因?yàn)橛懈鄶?shù)據(jù)"一IlyaSutskcvcr(OpcnAI前首席科學(xué)家,GPT之

父)

從數(shù)據(jù)量級(jí)的角度來看,大模型正在接近全人類所有數(shù)據(jù)的量級(jí)。坊

間傳聞的GPT5應(yīng)該在2024年就會(huì)出現(xiàn),它應(yīng)該就是〃接近AGI〃的存在

了。但GPT5,不管是它的真正能力還是問世的時(shí)間,應(yīng)該都會(huì)隔著“政

治正確”的一層,因?yàn)椴还苁谴蟊娺€是政府都還沒有準(zhǔn)備好歡迎AGI的降

臨。

全人類數(shù)據(jù)總量總詞數(shù)/圖片數(shù)數(shù)據(jù)總量年增速用盡年份

高質(zhì)量語料

書籍、代碼庫(kù)、對(duì)話、*9x1012-20TB~4%2023-2027

過濾過的網(wǎng)站、新聞等

總語料7x1013.7x1016100TB-100PB~7%2030-2050

總視覺文件

8x1012.2x1()13張100PB-10EB~8%2030-2070

圖片'視頻等

模型訓(xùn)練詞數(shù)訓(xùn)練數(shù)據(jù)集模型參數(shù)量

ChatGPT3.5

3x10110.57TB175Billion

純文本語料訓(xùn)練

GPT4

1.3x1013tokens~20TB1.8Trillion

文本+圖片訓(xùn)練

Gemini1.0Ultra

~30TB*1.5Trillion

文本+圖片+視頻訓(xùn)練

GPT5

40-100TB2-5Trillion

文本+圖片+視頻訓(xùn)練

人腦總器軟t公/需器?人的AI自由

當(dāng)然,GPT5與CPT4相比應(yīng)該不僅僅是數(shù)據(jù)量級(jí)的提升,還會(huì)有數(shù)據(jù)

質(zhì)量、壓縮效率、表達(dá)能力的提升。如果參考近期模型小型化的進(jìn)展:

Mistral7B(7B參數(shù))可以媲美GPT3.5(175B參數(shù))的能力,那么GPT5相對(duì)

于GPT4的提升也絕不僅僅是參數(shù)量級(jí)的倍數(shù).

涌現(xiàn):大腦可能比想象得更簡(jiǎn)單。

大模型的一個(gè)重要特點(diǎn)是“涌現(xiàn)”,意思是大模型可以自發(fā)獲得之前

沒有訓(xùn)練過的能力。比如:?jiǎn)文B(tài)版GPT3.5用純文宇訓(xùn)練,但可以具備

一定的空間圖像能力?!坝楷F(xiàn)”這個(gè)詞更早來自于研究復(fù)雜系統(tǒng)/混沌/腦

科學(xué)領(lǐng)域,即系統(tǒng)在達(dá)到一定復(fù)雜程度之后會(huì)自發(fā)出現(xiàn)規(guī)則結(jié)構(gòu)-自組

織。于是,一個(gè)靈魂拷問就是:是否“智慧”也是僅僅是人腦結(jié)構(gòu)“涌

現(xiàn)”的現(xiàn)象?

順著這條思路,如果做一個(gè)很牽強(qiáng)的假設(shè):模型的參數(shù)約等于神經(jīng)元

的鏈接;那么模型還有2個(gè)量級(jí)的差距(1.8Trillionvs.lOOTrillion)

達(dá)到人腦水平。按照現(xiàn)在的發(fā)展速度,抹平這個(gè)差距也只有2-4年時(shí)間。

如果“涌現(xiàn)”=“智能”的假設(shè)成立,那么到那個(gè)時(shí)候,人工智能超越大

腦智能的物理基礎(chǔ)就已經(jīng)具備了。

當(dāng)然,我們還很難直接把模型直接比作大腦。一個(gè)明顯的事實(shí)是:大

腦只要利用少量數(shù)據(jù)進(jìn)行訓(xùn)練就可以有遠(yuǎn)超大模型的能力。我認(rèn)為,這說

明了模型結(jié)構(gòu)迭代的空間是巨大的;這也是為什么小型化的模型可以取得

媲美大模型的效果的原因。

自我進(jìn)化:合成數(shù)據(jù)訓(xùn)練。

當(dāng)模型需要全人類數(shù)據(jù)進(jìn)行訓(xùn)練的時(shí)候,無論從數(shù)據(jù)獲取還是從成本

的角度來講,大模型都會(huì)很快遇到天花板.但經(jīng)過幾個(gè)月的實(shí)踐,基本可

以確認(rèn)數(shù)據(jù)瓶頸是不存在的:因?yàn)槟P陀?xùn)練可以使用合成數(shù)據(jù),并不斷提

升效果。具體的例子一是市面上幾乎所有的模型都會(huì)用ChatGPT生產(chǎn)的合

成數(shù)據(jù)做訓(xùn)練,還有近期研究發(fā)現(xiàn)通過“自我對(duì)弈(SPIN)”的方法生成

合成數(shù)據(jù)可以不斷提升模型能力。真-左右互搏!

Self-PlayFine-TuningConvertsWeakLanguageModels

toStrongLanguageModels

ZixiangChcn*fYiheDeng*1HuizhuoYuan"KaixuanJi,QuanquaiiGu1

和大腦相比,現(xiàn)在的模型本身使用了比人腦接受得多得多數(shù)據(jù),但效

果和人腦還有差距。那么,最自然的觀點(diǎn)就是模型并沒有充分使用這些數(shù)

據(jù)。我們可以認(rèn)為,“自我對(duì)弈”就是一種讓模型不斷精煉數(shù)據(jù),向大腦

能力靠攏的方式。再做一個(gè)更大膽的猜想:“自我對(duì)弈”和人腦的“想象

力”是有相似之處的一一大腦也是通過“想象”自己創(chuàng)造出合成數(shù)據(jù),用

于自我學(xué)習(xí)。綜合來講,目前還沒有看到阻止AGI出現(xiàn)的硬性限制,而且

我們距離AGI只有幾年的距離。之后,跑步進(jìn)入辭基文明的碳基生物會(huì)活

得怎么樣呢?

Image:"CrumbleofLiberty"withDall-E

2,高估的短期:應(yīng)用層沒有獨(dú)角獸

讓我們暫時(shí)跳出對(duì)于長(zhǎng)期的猜測(cè),聊點(diǎn)更實(shí)在的:2024年初的大模

型,究竟能力怎么樣?如果一句話概括的話:GPT4正在上大學(xué)。Ta可以

聊天,可以談戀愛,可以畫畫,甚至可以在公司實(shí)習(xí)完成一些簡(jiǎn)單的、明

確的任務(wù);不過Ta經(jīng)常犯錯(cuò),會(huì)偷懶,還很隼,會(huì)不遵守你的指令然后

自己胡編一通……看似繁榮的AT生態(tài),其實(shí)真正跑出來的應(yīng)用是和人們

的期望是有差距的。也就是我們?cè)凇案吖繟I的短期能力”的地方。

2024年1月ToplOAI應(yīng)用訪問量(億)

?正經(jīng)聊天:除了ChatGPT之外,其他基本都不太行。而且大家在抱怨

OpenAI太貴的同時(shí),OpenAI的收入也只是能推理服務(wù)的成本打平;

新模型訓(xùn)練還運(yùn)完全要靠融資。

?文生圖:讓打工人感受最深的,是Midjourney,Dall-E,Stable

Diffusion等文生圖產(chǎn)品正在全面顛覆創(chuàng)意設(shè)計(jì)行業(yè)。在ChatGPT和

Bing之后第一位的應(yīng)用就是作圖應(yīng)用Canva。文生圖在2023年經(jīng)過

幾輪迭代,首先聚焦是畫人手(已解決),之后主線在細(xì)節(jié)控制能力、

降低推理成本、生圖速度提升(目前可以做到300ms)上面。目前實(shí)

際的體驗(yàn)是雖然創(chuàng)意驚艷,但廢圖多、細(xì)節(jié)修改還得靠人,所以額外

付費(fèi)買單有限;于此同時(shí),機(jī)器成本即使經(jīng)過了幾輪優(yōu)化,但人們對(duì)

于圖片質(zhì)量的追求也水漲船高。所以說,真正賺到錢的可能只有做二

次元小姐姐澀圖的……

?AI陪聊(AI男女朋友):Character,ai.星野、豆包這類陪伴型聊

天產(chǎn)品是2023年唯一實(shí)現(xiàn)突破的2C產(chǎn)品。大概是用戶在上頭的時(shí)

候,即使有些胡言亂語也可以接受,以及這些產(chǎn)品不管是直球還是擦

邊球都能提供……我認(rèn)為,這類陪伴型AI產(chǎn)品有著巨大潛力:這

是在人與人的連接之外,開啟“人與AI連接”的新時(shí)代的第一步,

在未來也可以創(chuàng)造基于“連接”的商業(yè)護(hù)城河。

?AI法律文書:這是目前AI在2B行業(yè)唯一基本成熟的應(yīng)用。法律文

書格式固定且核心技術(shù)是法條/判例的引用。這個(gè)應(yīng)用其實(shí)是“搜索”

能力和大模型能力的搭配。

?其他2B應(yīng)用:基本是雷聲大、雨點(diǎn)小。雖然現(xiàn)在是個(gè)公司都想和AI

沾邊,按實(shí)際上真正用起來的并不多;“瀏覽器里加個(gè)ChatGPT快

捷方式”是大多數(shù)在問卷中回答到“工作中使用AT”的公司的主要

做法。這其實(shí)也很正常',因?yàn)锳I的2B能力還很掉鏈子:連最擅長(zhǎng)

的代碼(如GithubCopilot)也只是“實(shí)習(xí)生水平”;以及,問題

還在于AT寫代碼的速度比人跟在后面IWbug要快得多.另外一個(gè)看

似伸手可及的應(yīng)用是“AI客服”,但實(shí)習(xí)體驗(yàn)上也并沒有達(dá)到可以

大量取代人工客服的預(yù)期。

我也嘗試用OpenAI的API搭了個(gè)“寫作助手”,但完全無法達(dá)到幫

助寫出現(xiàn)在這文章的能力。直接的感受差不多是在“指揮一群脫韁的野

馬”:控制困難、不能精細(xì)調(diào)整、沒有記性、不講邏輯是最痛的。當(dāng)然,

我自己花的時(shí)間也有限,也沒有好好研究寫Prompt/提示詞的技巧。這個(gè)

過程也我開始反思:現(xiàn)在的大模型究竟擅長(zhǎng)的是什么?Hallucination=

Imagination|幻覺二想象力如果從2023年跑出的產(chǎn)品和實(shí)際使用體

驗(yàn)上來評(píng)價(jià):大模型最成熟的能力并不是邏輯,而是想象力和取悅?cè)说哪?/p>

力。這大概是合乎邏輯的。首先,我們看到的“幻覺問題”本身就是想象

力的表現(xiàn);而且在訓(xùn)練過程中,模型的學(xué)習(xí)方式一直都是“窮舉歸納式

的”,我們暫時(shí)還不知道如何“教會(huì)”模型“邏輯的方法”,而只能期待

模型自己涌現(xiàn)出“邏輯”的能力。第二,因?yàn)槟P陀?xùn)練時(shí)的優(yōu)化目標(biāo)包含

了“讓人繼續(xù)聊下去”,所以取悅?cè)耍鞘聦?shí)和邏輯,才是大模型更擅

長(zhǎng)的。這個(gè)特點(diǎn)是現(xiàn)在選擇產(chǎn)品賽道時(shí)所需要仔細(xì)考慮的事情:娛樂向、

創(chuàng)意向、2c的產(chǎn)品會(huì)早于邏輯向、2B產(chǎn)品成熟。

Image:"AIImagination”,withDall-E

3.官方卷死創(chuàng)業(yè)公司:真的存在GPTs生態(tài)嗎?

和之前的移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)大潮相比,AI創(chuàng)業(yè)者們要難得多,一個(gè)靈

魂拷問是:如何不被官方卷死。套殼GPT的“一個(gè)月獨(dú)角獸"Jasper,ai

(依靠GPT能力做廣告文案)在GPT4問世之后價(jià)值幾乎歸零;剛剛面世

的Sora讓1個(gè)月前還風(fēng)光無限的Runway、Pika都黯然失色...這也是為

什么現(xiàn)在投資圈對(duì)于AI應(yīng)用公司的投入非常謹(jǐn)慎的主要原因:AI應(yīng)用公

司們并沒有技術(shù)護(hù)城河。紅衫做了一張囊括主要AI創(chuàng)業(yè)公司的地圖,里

面的Logo換得和走馬燈一樣快。說得好聽的是“生態(tài)繁榮”,不好聽的

就是“熊瞎子掰苞米”。

TheGenerativeAlMarketMap?些

Aworkinprogress

Consumer

ENTERTAINMENT/COMPANIONSHIPAVATARMUSICMEDICALADVICEGARING

GENERATORS

charocter.aiInflectionMed-PaLMAlDUNGEON

Remini2splashd)BondlobSong$t8,

{nuuodd

TCHAILUZIAXLA

QLCOM⑤Endclsunookio

電Scenario

J'TikTokRGLAIIO^SMIPS

Audialab44VA?Leonardo.Ai

EOUCATIOW

>meeno

妙TuneFlowZX/\Mubon.Layer

SOCIAL?板?SpeakFlfZZ

4Qftroblox

wairchatAVA/GOSHEll?備Hormonoi?boomy

PERSONAL

ASSISTANT日&Unity

網(wǎng)%5工傳)—?/studdy

SONIFY?SpotifymiloROBLOX

I-一▲________■■_______t____*_■

:oniaitnxerpnse:venicaiI

SEARCH/RPA/AUTOMATIONSALESHEALTHCARE

KNOWLEDGE

zapier

OGONGOaariApdoiotovus°八AmbienceQMEMORAHEALTH

gleanForge

◎□LAVENDER

DeepOpinioaADay.alunify叫g(shù)DeepScnbe“poc,a?cM

Kcohere

ADEPT夕TotescopaHubSp.6tCW八

abridge@caweimNabla

axiom.aiDESIGNSOFTWARE

ENGINCERING/OATROPOSHEALTHLATENT

MARKETIMG"AdobeFFlgmoCOO€3EN.

回Poth

attentive

GoglcDuetAICjittg(iuiGtHubCopiotOGLASSOAthelas

@Kognitos<x>modyfiCan0a>redlit

?JasperLEGAL

PfcSQTt?VisualMetricCCody

copyaiHarvey.歪IroncladilEvenUp

OCursor

QTwainCU$TO??RSUPPORTDATASCXtNCC

CMQFT.casetext**PINCHES

QMa^enAGSlang.aiCodeIntcrprotcr果FACTORY

WHTB

&?oekCodeSen

CRESTA互,^GENESYSBXO

/?RytrWisdomAl

,InceptiveCradle

anywordHexMag?c■coceium

PROOJCTIVITYturntable

copysmith卷tobnine

FINANCIALTRANSLATION

同NotionOtome40bI?0vSERVICES

?HypotenuseAl

6LookerMHvbbiu

MGogkDuetAl□LILT

QWrttMorWcAArcwise■warppilot

Prosumer

GENERALSEARCHVIRTUALAUTONOMOUSVIDEOCREATION/EiXTING8R0WS6RCOPILOTS/

/AVATARSAGCNTSAUTORATIOW/ASSISTANT

.Openrco^protcf

ChatGPT?0synthesia(BrunwayVEED.IO《RewindMULTI-ON

MinionAlIWWCOMPUTHJ

ANTHROFVC景

Cloud9鳴PIKALABScaptions字descript

BabyAGIINAGECREATION/EDITING

器perptexity卷loomQ黑"

FFigma

voice

YOUdream?—(fTikTok

IIEIevenLabs匿"1,astabilityai④ideognwn|(:\kxi

GogleBard

WWELLSAIDMURFAI3DOPLAYGROUNDQAdobeFWOy

。Poe0PlayHT,?COQuf牛d?*crlpt0mirac."splinePhysnaPlcsarcnwcoitoom

到了落地層面,創(chuàng)業(yè)者們其實(shí)面臨著非常艱難的選擇:

<路線一>:API+Prompt+產(chǎn)品套殼:適合已經(jīng)有產(chǎn)品/客戶基礎(chǔ)的公司

市面上最多的產(chǎn)品是調(diào)用API來實(shí)現(xiàn)的,但問題是,僅靠

API+Prompt并無法形成護(hù)城河,Jasper的隕落就是最好的例子。備受矚

目的GPTs也是Prompt的低門檻模式,這可能也是GPT商店當(dāng)前也并沒有

實(shí)質(zhì)繁榮的原因:大DAU的應(yīng)用要么是官方應(yīng)用,要么是已有公司的產(chǎn)品

延申,而極少新的商業(yè)模式。對(duì)于一般用戶來講,通過GPTs還是很難做

到精細(xì)控制和穩(wěn)定輸出。我的理解是,個(gè)人“手搓應(yīng)用”的時(shí)代,還是先

要有Agent的能力才能實(shí)現(xiàn)。對(duì)于已經(jīng)有產(chǎn)品和用戶的公司來講,疊加

AI應(yīng)用是很好的選擇。榜單中的Canva的核心競(jìng)爭(zhēng)力來自于其存量用

戶、友好的產(chǎn)品設(shè)計(jì)、針對(duì)各種社交媒體的海量模板和一鍵發(fā)布功能,

API和模型的使用就實(shí)現(xiàn)了錦上添花。另一個(gè)目前比較成功的例子是多鄰

國(guó)Duolingo(披著學(xué)外語學(xué)習(xí)APP外衣的休閑手游):它最核心的護(hù)城

河是休閑游戲的玩法設(shè)計(jì),使用OpcnAI的API則讓題庫(kù)成本大大降低,

題庫(kù)深度沒有上線。

〈路線二3開源模型+精調(diào):適合有獨(dú)有數(shù)據(jù)的公司

對(duì)于數(shù)據(jù)比較豐富的公司,是可以走開源模型+精調(diào)的道路的。因?yàn)?/p>

獨(dú)特的數(shù)據(jù)可以讓精調(diào)出的模型在一定場(chǎng)景下有更好的表現(xiàn)。但實(shí)際操作

起來難度其實(shí)不小,核心問題變成了:1)底層開源模型是否足夠強(qiáng)大?2)

底層模型升級(jí)之后,之前精調(diào)部分的經(jīng)驗(yàn)是否可以復(fù)用?然而,這兩點(diǎn)都

很難保證。因?yàn)樽顝?qiáng)大的模型都不會(huì)開源,以及在底層黑箱的情況下做到

精調(diào)經(jīng)驗(yàn)的積累也很難。于是,這類商業(yè)模式就像大樓建立在流沙之

上……生存的時(shí)間窗口取決于精調(diào)速度。

<路線三):自己做底層模型:只適合大廠和少量大佬

訓(xùn)練底層世界大模型需要十億美元級(jí)別的投入,以及萬張GPU卡,除

了BBAT幾家大廠之外,其他公司都是很難的。連大佬帶領(lǐng)的智譜、

Minimax,月之暗面、百川這些頭部創(chuàng)業(yè)公司也都會(huì)在下一輪融資時(shí)遇到

不少挑戰(zhàn)。這也是為什么大多數(shù)國(guó)內(nèi)公司都急著先推出產(chǎn)品,而無法完全

集中精力專攻大模型的原因。第二梯隊(duì)里那些掛著世界模型“羊頭”的公

司們,仔細(xì)看下來,基本賣的都是《路線二》的“狗肉”。另外,即使是大

廠,在一年時(shí)間內(nèi)可以挑戰(zhàn)OpenAI的也只有Google的Gemini。Meta的

LLama還只是個(gè)半吊子;Amazon、Apple、Tesla也都沒有特別好的進(jìn)

展;國(guó)內(nèi)的BBAT似乎差得更遠(yuǎn),目前還沒有人敢說全面達(dá)到ChalGPT3.5

的水平。那退一步,在現(xiàn)在的時(shí)刻,哪些是一般創(chuàng)業(yè)者可以做的呢?暫時(shí)

想到的也只有“唯快不破”:盡量低成本、高速度地在一些比較小的賽

道中不斷嘗試,不求做出全民產(chǎn)品,而是去低成本地把握那些小的細(xì)分賽

道。最后,要記住的是:在這輪AI大潮中,新技術(shù)加速迭代是常態(tài);我

們不能期望在“技術(shù)穩(wěn)定”時(shí)再出手,因?yàn)橛肋h(yuǎn)都等不到。

linage:"AIEliLrepruneurwithDcill-E

4.AIAgent/替身:目前記性還不太好;呼喚“人的模型”

AIAgent/AI替身是除了AGI本身最重要的概念,因?yàn)樗沂玖斯杌?/p>

文明的無限可能性。

AIAgent理念的核心是:設(shè)立目標(biāo)->拆解任務(wù)->使用工具->做出決

?;Agent可以以人的方式相互交流自主搭建社會(huì)協(xié)作關(guān)系;最終實(shí)現(xiàn)

模仿人替代人。

“斯坦福小鎮(zhèn)”論文之后,一直有層出不窮的嘗試,包括BabyGPT、

AutoGPT等;OpenAI的AssitantAPI,FunctionCal1ing功能也是邁向

AlAgent的第一步,讓大語言模型可以開始實(shí)用工具。

GenerativeAgents:InteractiveSimulacraofHumanBehavior

JoonSungParkJosephC.O'BrienCarrieJ.Cai

StanfordUniversityStanfordUniversityGoogleResearch

Stanford,USAStanford,USAMountainView,CA,USA

joonspk@jobrien3@cjcai@google.com

MeredithRingelMorrisPercyLiangMichaelS.Bernstein

GoogleResearchStanfordUniversityStanfordUniversity

Seattle,WA,USAStanford,USAStanford,USA

merrie@pliang@ms附c

*X*KX

扁國(guó)Arrivingatschool

Takingawalk

inthepark

Finishinga

morningroutine

^3,1

不過,(值得慶幸的是)AIAgent距離成熟還有一定距離。目前最

突出的問題是記憶力的問題。這一方面是技術(shù)層面上的:記憶準(zhǔn)確性、邏

輯完整性、合理遺忘、長(zhǎng)期記憶機(jī)制與Token長(zhǎng)度、調(diào)用效率之間制衡的

問題。記憶能力和長(zhǎng)Token能力是當(dāng)前很多團(tuán)隊(duì)的攻堅(jiān)重點(diǎn):剛發(fā)布的

Gemenil.5在研究中達(dá)到10M的Token長(zhǎng)度,比GPT4整整多出兩個(gè)數(shù)量

級(jí);ChatGPT也在近期官宣了“記憶能力”;國(guó)內(nèi)最突出的是專攻超長(zhǎng)

Token的公司“月之暗面”。

還有一類是專攻AIAgent的“使用工具能力”的中間層產(chǎn)品,字節(jié)

最近推出的Coze就是其中代表。在當(dāng)前底層模型卷不動(dòng),上層應(yīng)用沒價(jià)

值的時(shí)刻,做中間層大概是最好的選擇。不過這里的機(jī)會(huì)可能會(huì)被資本雄

厚的大廠先瓜分掉。(中間層需要支付大量API費(fèi)用或算力)。

再退一步,人格本身是記憶的聚合。記憶問題引申出的更本質(zhì)問題是

AIAgent的〃人格”一一記憶獨(dú)立性問題,而這會(huì)直接涉及到當(dāng)前大模型

訓(xùn)練方式和底層數(shù)據(jù)。記憶獨(dú)立性之所以重要又在于:只有Agent可以理

解“某一個(gè)人”的時(shí)候,它才能和這個(gè)人很好合作,扮演乃至替代這個(gè)人

做決策。

但仔細(xì)一想就不難發(fā)現(xiàn),當(dāng)今的大語言模型是“世界模型”,而不是

“人的模型”。意思是,底層數(shù)據(jù)是來自于千千萬萬人的,每個(gè)人一丁點(diǎn)

數(shù)據(jù):而并不是大量的來自某一個(gè)人的數(shù)據(jù).于是,一個(gè)大膽的猜想是:

在一個(gè)人與AI充分合作的社會(huì),不僅需要“世界模型”,也需要“人的

模型”。而這時(shí)的Agent本身,也會(huì)分化出“世界Agent”和“個(gè)人

Agent”。

當(dāng)然,一個(gè)沒有碳基人的純硅基社會(huì)另當(dāng)別論。

Image:"Dialogue”,fromLJHColor

5?深度壓縮與模型小型化

AlAgent之外另一個(gè)重要方向,是大模型的小型化。小模型的直接

好處就是訓(xùn)練成本和推理的成本量級(jí)下降。比如能力相近的LLaMA-7B的

訓(xùn)練成本相當(dāng)于1張A100芯片訓(xùn)練9.3年,而GPT3(175B)則有100年,

差了11倍。GPT4的訓(xùn)練成本更是高達(dá)6500年!

但成本還并不是意義最重大的?!皦嚎s”是LLM模型的最核心能力,

所謂“世界模型”就是要將人類的所有知識(shí)都?jí)嚎s到模型中。順著這條路

思考,小型化的意義在于:小型化的模型首次讓一個(gè)公司、甚至個(gè)人可以

使用“全人類的知識(shí)”。而且,小型化的模型既是上文講到的“人的模

型”的技術(shù)基礎(chǔ),又是開啟“端上智能”的先決條件。在未來,無論是手

機(jī)、電腦還是機(jī)器人,都可能會(huì)配備一個(gè)小模型。

在這里,可能會(huì)出現(xiàn)一個(gè)歷史的分叉:岔路的一邊是“中心化的大一

統(tǒng)世界模型”,另一邊是“端上智能+人的模型的混合社會(huì)”。讓我們拭

目以待。

回到今天,小型化主要有兩個(gè)階梯。第一個(gè)階梯的模型參數(shù)在6B-

7B,這是游戲顯卡可以覆蓋的范圍。最具代表性的是Meta的LLaMA,

Mistral7B和國(guó)內(nèi)的智譜;NVIDIA的ChatwithRTX,默認(rèn)搭載的就是

Mistral7B0

第二個(gè)階梯模型的想象空間更大,它們的參數(shù)在1-2B;這個(gè)大小就

可以在手機(jī)和移動(dòng)硬件上廣泛使用了。華為、榮耀、小米、OPPO、VTVO

等都已宣布會(huì)在手機(jī)端側(cè)搭載大模型,目前還只能用最新的驍龍8Gcn3旗

艦處理器,而且耗能散熱都是問題;三星S24上也搭載了GoogleGemini

Nanoc

模型名參數(shù)量發(fā)布時(shí)間機(jī)構(gòu)

LLaMA-7B7B23年2月Meta

ChatGLM-6B6B23年3月清華&智譜

Falcon-7B7B23年6月TII

ChatGLM2-6B6B23年6月清華&智造

LLaMA2-7B7B23年7月Meta

Mistral-7B7B23年9月MistralAl

Qwen-7B7B23年9月阿里

Deepseek-7B7B23年11月深度求索

Bid1.3B23年6月微軟

TinyLlama1.1B23年9月新加坡科技設(shè)計(jì)大學(xué)

Pti-1.51.3B23年9月微軟

Qwen-1.8B1.8B23年9月阿里

GeminiNano1.8B(Nano-1)23年12月芬歌

3.25B(Nano-2)

StableLM-Zephyr-3B3B23年12月Stability.AI

Phi-22.7B23年12月微軟

盤古TI-IB1B23年12月華為

StableLM2-Zephyr-L6B1.6B24年1月Stab

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論