2025大模型Transformer架構(gòu)發(fā)展歷程、優(yōu)勢(shì)及未來(lái)發(fā)展趨勢(shì)分析報(bào)告_第1頁(yè)
2025大模型Transformer架構(gòu)發(fā)展歷程、優(yōu)勢(shì)及未來(lái)發(fā)展趨勢(shì)分析報(bào)告_第2頁(yè)
2025大模型Transformer架構(gòu)發(fā)展歷程、優(yōu)勢(shì)及未來(lái)發(fā)展趨勢(shì)分析報(bào)告_第3頁(yè)
2025大模型Transformer架構(gòu)發(fā)展歷程、優(yōu)勢(shì)及未來(lái)發(fā)展趨勢(shì)分析報(bào)告_第4頁(yè)
2025大模型Transformer架構(gòu)發(fā)展歷程、優(yōu)勢(shì)及未來(lái)發(fā)展趨勢(shì)分析報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年深度行業(yè)分析研究報(bào)告圖

1.大語(yǔ)言模型(LLMs)自進(jìn)化概念框架圖

..........................................................................................

4圖

2.大語(yǔ)言模型(LLMs)與大腦相似性估計(jì)框架的示意圖..................................................................

5圖

3.大語(yǔ)言模型上不同提示添加策略與大腦相似性.................................................................................

5圖

4.大語(yǔ)言模型在處理積極和消極情感文本時(shí)與大腦的相似性.............................................................

5圖

5.Transformer

模型架構(gòu)...........................................................................................................................

6圖

6.注意力機(jī)制預(yù)測(cè)下一個(gè)詞匯.................................................................................................................

7圖

7.縮放點(diǎn)積注意力(Scaled

Dot-Product

Attention)原理和

Softmax

公式

......................................

8圖

8.多頭注意力(Multi-Head

Attention)原理和

MHA

公式................................................................

9圖

9.Transformer

LSTM

在不同參數(shù)數(shù)量和上下文長(zhǎng)度下的測(cè)試損失............................................10圖

10.主流大模型參數(shù)量變化.....................................................................................................................10圖

11.RNN/LSTM

、CNN

Transformer

在跨模態(tài)任務(wù)中的優(yōu)勢(shì)、劣勢(shì)

...........................................11圖

12.Transformer

架構(gòu)的計(jì)算復(fù)雜度過(guò)高來(lái)源于其自注意力機(jī)制

Softmax

Attention.......................12圖

13.大模型參數(shù)量不斷膨脹,已達(dá)

1000B.............................................................................................131Transformer

架構(gòu)的過(guò)去和現(xiàn)在............................................................................................................

41.1人腦帶來(lái)的啟示:數(shù)據(jù)的無(wú)損壓縮..................................................................................................

41.2Transformer

應(yīng)運(yùn)而生:

Attention

is

all

you

need..........................................................................

61.3Transformer

的優(yōu)勢(shì):規(guī)模擴(kuò)展、多模態(tài)能力...............................................................................

92Transformer

架構(gòu)的未來(lái)......................................................................................................................122.1Transformer

架構(gòu)的局限性.............................................................................................................122.2Transformer

架構(gòu)的挑戰(zhàn)者.............................................................................................................132.2.1RetNet................................................................................................................................................142.2.2Mamba...............................................................................................................................................162.2.3RWKV(Receptance

Weighted

Key

Value)

................................................................................182.2.4Hyena.................................................................................................................................................

202.2.5線性注意力機(jī)制............................................................................................................................

212.3架構(gòu)展望:更低計(jì)算復(fù)雜度、更低成本、更高效率....................................................................

24內(nèi)容目錄圖表目錄圖

14.谷歌

CORE

ML/AI

副總裁

Bill

Jia

2024年硅谷華源科技年會(huì)上接受采訪

..........................14圖

15.潛在的

Transformer

架構(gòu)替代架構(gòu).................................................................................................14圖

16.RetNet

的并行與循環(huán)過(guò)程.................................................................................................................15圖

17.RetNet

同時(shí)實(shí)現(xiàn)訓(xùn)練并行性、良好性能和低推理成本這一

“不可能的三角”

.........................16圖

18.狀態(tài)空間模型(SSM)的架構(gòu)示意圖

............................................................................................16圖

19.RNNs

、Transformers

SSMs

在自回歸序列建模任務(wù)中的優(yōu)缺點(diǎn)

...........................................17圖

20.改進(jìn)

Mamba

架構(gòu)的現(xiàn)有研究總結(jié)(主要集中于修改塊設(shè)計(jì)、掃描模式和記憶管理)

..........17圖

21.RWKV-6

token

shift

計(jì)算流程....................................................................................................18圖

22.RWKV-4

、RWKV-5Eagle

RWKV-6Finch

模型的上下文長(zhǎng)度實(shí)驗(yàn)隨版本迭代表現(xiàn)變好..19圖

23.在

RWKV-6Finch

、Mamba

Flash

Attention

中,RWKV-6

的顯存占用率最低...................19圖

24.RWKV

基礎(chǔ)模型的眾多應(yīng)用場(chǎng)景....................................................................................................

20圖

25.Hyena

算子的結(jié)構(gòu)和工作原理..........................................................................................................

21圖

26.Softmax

注意力和線性注意力的計(jì)算流程.......................................................................................

22圖

27.Agent

Attention

的計(jì)算流程..............................................................................................................

23圖

28.不同模型大小的

Transformer

TransNormer

LLM

的最大上下文長(zhǎng)度..................................23圖

29.MiniMax-Text-01

的結(jié)構(gòu)...................................................................................................................

24數(shù)據(jù)來(lái)源:Zhengwei

Tao

等論文《A

Survey

on

Self-Evolution

of

Large

Language

Models》,財(cái)通證券研究所注:概念框架圖展示了大語(yǔ)言模型的進(jìn)化目標(biāo)(Evolution

Objective),包括能力(Ability)和方向(Direction),以及自進(jìn)化的

4

個(gè)階段:1)經(jīng)驗(yàn)獲取(ExperienceAcquisition);2)經(jīng)驗(yàn)精煉(Experience

Refinement);3)更新(Updating);4)評(píng)估(Evaluation)。人類大腦在有限的資源條件下,通過(guò)神經(jīng)元回路的自組裝和微調(diào),

實(shí)現(xiàn)了高效的

信息處理。為了優(yōu)化信息處理,

大腦發(fā)展了高效的信息選擇和投注機(jī)制——注意

力,

而非依賴超大容量的處理能力。通過(guò)集中有限的計(jì)算資源于重要任務(wù)上,注

意力機(jī)制使大腦能夠迅速分析關(guān)鍵信息并做出決策。在人工智能領(lǐng)域,受人類注

意力機(jī)制的啟發(fā),研究者開(kāi)發(fā)了“自注意力機(jī)制”(Self-Attention),

用于處理序列

數(shù)據(jù),如自然語(yǔ)言中的文本。自注意力機(jī)制通過(guò)計(jì)算輸入序列各部分之間的相似

度,并為每個(gè)部分分配不同的權(quán)重,從而更加精準(zhǔn)地理解句子含義。這種機(jī)制能

夠綜合考慮輸入的全面性和個(gè)別單詞之間的相關(guān)性,提升對(duì)信息的理解能力。

此,人工智能中的自注意力機(jī)制與人類大腦的注意力機(jī)制類似,

都能在有限資源

下高效地處理信息,

并優(yōu)化決策過(guò)程。1Transformer

架構(gòu)的過(guò)去和現(xiàn)在1.1人腦帶來(lái)的啟示:數(shù)據(jù)的無(wú)損壓縮人類大腦的進(jìn)化伴隨著神經(jīng)系統(tǒng)的復(fù)雜化,

包括神經(jīng)元數(shù)量、類型、連接方式以

及大腦區(qū)域的擴(kuò)展。這些變化主要由基因的復(fù)制和分化驅(qū)動(dòng)。大腦區(qū)域的模塊化

進(jìn)化加速了這一過(guò)程,

因?yàn)椴煌哪K可以獨(dú)立進(jìn)化。隨著我們對(duì)大腦認(rèn)知機(jī)制

的深入了解以及計(jì)算機(jī)科學(xué)的進(jìn)步,研究人員嘗試通過(guò)算法量化大腦的認(rèn)知功能,

將人類的思維模式映射到人工智能上。

目前,人工智能大模型的進(jìn)化主要依賴于

人工版本的更新。而隨著技術(shù)的發(fā)展,

研究人員正在探索自我進(jìn)化的模型,使其

能夠自主完善和學(xué)習(xí)由自身生成的經(jīng)驗(yàn),

從而推動(dòng)人工智能向更高級(jí)的智能發(fā)展。圖1.大語(yǔ)言模型(LLMs)自進(jìn)化概念框架圖數(shù)據(jù)來(lái)源:Yuqi

Ren

等論文《Do

Large

Language

Models

Mirror

Cognitive

Language

Processing?》,財(cái)通證券研究所注:通過(guò)量化的方式,比較大語(yǔ)言模型和人類大腦在處理相同文本時(shí)的相似性,

從而為研究

LLMs

的認(rèn)知能力和語(yǔ)言處理機(jī)制提供一種方法和視角?!邦A(yù)測(cè)即壓縮,壓縮即智能

”。從神經(jīng)科學(xué)的角度來(lái)看,人腦依然遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)前的大型語(yǔ)言模型(LLM)。盡管

LLM

的參數(shù)和連接數(shù)達(dá)到數(shù)萬(wàn)億,但仍無(wú)法與人腦

的復(fù)雜性相提并論。人類大腦的進(jìn)化依賴于選擇和投注機(jī)制,以較低的容量實(shí)現(xiàn)

更高效的信息處理。人工智能的注意力機(jī)制主要是基于算法和模型來(lái)實(shí)現(xiàn)的,雖

然在功能上與人類的注意力機(jī)制有相似之處,但在實(shí)現(xiàn)原理和靈活性上存在顯著

差異,例如對(duì)定性描述詞的理解。當(dāng)前

AI

的局限性或在于其學(xué)習(xí)效率的低下,而

非數(shù)據(jù)不足。真正的智能不僅是數(shù)據(jù)量的堆積,而是在于對(duì)信息的壓縮和提煉,

類似于通過(guò)總結(jié)第一性原理的方式獲取更深層次的智能。數(shù)據(jù)來(lái)源:

Yuqi

Ren

等論文《Do

Large

Language

Models

Mirror

CognitiveLanguage

Processing?》,財(cái)通證券研究所注:該圖表明大語(yǔ)言模型在處理積極情感文本時(shí)與大腦的相似性更高,可能

反映了訓(xùn)練數(shù)據(jù)或模型結(jié)構(gòu)等因素對(duì)情感處理的影響。數(shù)據(jù)來(lái)源:

Yuqi

Ren

等論文《Do

Large

Language

Models

Mirror

CognitiveLanguage

Processing?》,財(cái)通證券研究所注:該圖表明提示添加策略會(huì)影響大語(yǔ)言模型與大腦的相似性,明確提示添

加策略在提升相似性方面具有一定優(yōu)勢(shì)。圖2.大語(yǔ)言模型(LLMs)與大腦相似性估計(jì)框架的示意圖圖4.大語(yǔ)言模型在處理積極和消極情感文本時(shí)與大腦的

相似性圖3.大語(yǔ)言模型上不同提示添加策略與大腦相似性1.2Transformer應(yīng)運(yùn)而生:Attentionisallyou

needTransformer

是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),

Google

Brain

團(tuán)隊(duì)于

2017年在論文《Attention

Is

All

You

Need》中提出。

它在自然語(yǔ)言處理領(lǐng)域迅速

占據(jù)主導(dǎo)地位,并廣泛應(yīng)用于圖像處理和語(yǔ)音識(shí)別等其他領(lǐng)域。Transformer

的出

現(xiàn)旨在解決循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent

Neural

Network,簡(jiǎn)稱

RNN)在處理長(zhǎng)序列

數(shù)據(jù)時(shí)面臨的并行化難題和長(zhǎng)距離依賴捕捉困難。如下圖

5所示,Transformer

構(gòu)由編碼器

(含輸入嵌入、位置編碼、多頭注意力、前饋網(wǎng)絡(luò)、殘差連接與層歸

一化)和解碼器(含輸出嵌入、位置編碼、掩碼多頭注意力、編碼器-解碼器注意

力、前饋網(wǎng)絡(luò)、殘差連接與層歸一化,最后經(jīng)線性層和Softmax

層輸出)組成。通過(guò)摒棄傳統(tǒng)循環(huán)結(jié)構(gòu),Transformer

利用自注意力機(jī)制并行處理序列元素,顯

著提升了訓(xùn)練速度和長(zhǎng)距離依賴建模能力。此外,Transformer

模型通過(guò)多頭注意

力機(jī)制(Multi-Head

Attention,簡(jiǎn)稱

MHA)解決了自注意力機(jī)制可能導(dǎo)致的有效

分辨率降低問(wèn)題,增強(qiáng)了對(duì)輸入數(shù)據(jù)細(xì)節(jié)的捕捉能力。數(shù)據(jù)來(lái)源:Google

Brain

,財(cái)通證券研究所注意力機(jī)制的核心原理是依據(jù)輸入序列中每個(gè)元素的重要性賦予不同的權(quán)重,使

模型能夠聚焦于關(guān)鍵元素。在

Transformer

架構(gòu)中,自注意力機(jī)制賦予了模型一種

獨(dú)特的能力,

即同時(shí)計(jì)算輸入序列中所有位置之間的相互關(guān)系權(quán)重,并據(jù)此加權(quán)

生成每個(gè)位置的特征表示。具體而言,自注意力機(jī)制就像是賦予了序列中每個(gè)元

素(例如一句話中的每個(gè)詞)一種“視野”,使它們能夠同時(shí)“看到”序列中的其

他所有元素,

并根據(jù)彼此之間的相關(guān)性重新分配權(quán)重。對(duì)于序列中的每個(gè)詞,模

型會(huì)計(jì)算它與其他所有詞之間的注意力分?jǐn)?shù),然后依據(jù)這些分?jǐn)?shù)對(duì)所有詞進(jìn)行加圖5.Transformer

模型架構(gòu)數(shù)據(jù)來(lái)源:OpenAI

公開(kāi)演講,財(cái)通證券研究所注:在大語(yǔ)言模型中,注意力機(jī)制依語(yǔ)境分配權(quán)重來(lái)準(zhǔn)確預(yù)測(cè),當(dāng)單詞預(yù)測(cè)概率越接近

1.0

,表明模型預(yù)測(cè)的結(jié)果越好。在數(shù)學(xué)表達(dá)中,注意力機(jī)制的函數(shù)可以被定義為將一個(gè)查詢(Query,簡(jiǎn)稱

Q)

和一組鍵值對(duì)(Key-Value,簡(jiǎn)稱

K-V)映射到一個(gè)輸出,其中查詢、鍵、值和輸

出均為向量形式。

具體來(lái)說(shuō),輸出是計(jì)算值(V)的加權(quán)和,而每個(gè)值所分配的權(quán)

重則是基于查詢(Q)與相應(yīng)鍵(K)之間的兼容性函數(shù)計(jì)算得到的。用更通俗的

語(yǔ)言來(lái)解釋這一過(guò)程:l

Query(查詢)代表“我當(dāng)前需要處理的信息”;l

Key(鍵)代表“可能相關(guān)的信息線索”;l

Value(值)

代表“實(shí)際的相關(guān)內(nèi)容”。如下圖

7所示,在完成

Query

Key

的相似度計(jì)算后,通過(guò)

Softmax

激活函數(shù)將

原始分?jǐn)?shù)轉(zhuǎn)化為和為

1

的概率分布,就可以將輸入向量中的數(shù)值解釋為各個(gè)類別

或事件的概率。Softmax

函數(shù)的特點(diǎn)是會(huì)放大輸入向量中較大值的相對(duì)優(yōu)勢(shì),使

得最大值對(duì)應(yīng)的概率更加突出,

而其他較小值對(duì)應(yīng)的概率相對(duì)較小。這有助于模

型在進(jìn)行決策或分類時(shí)更加明確地傾向于可能性最大的選項(xiàng)。權(quán)求和,從而得到該詞的新表示。這一過(guò)程是并行地對(duì)序列中所有詞同時(shí)進(jìn)行的

(見(jiàn)圖

7

的矩陣乘法),極大地提升了模型處理序列數(shù)據(jù)的效率和效果。圖6.注意力機(jī)制預(yù)測(cè)下一個(gè)詞匯數(shù)據(jù)來(lái)源:Google

Brain

,財(cái)通證券研究所在單一注意力機(jī)制的基礎(chǔ)上,我們可以構(gòu)建多個(gè)并行的注意力機(jī)制組合,

這種組

合被稱為多頭注意力(Multi-Head

Attention,簡(jiǎn)稱

MHA)。多頭注意力機(jī)制顯著

擴(kuò)展了模型的視野,使其能夠從多個(gè)不同的角度同時(shí)關(guān)注輸入信息,從而捕捉到

更豐富的特征和關(guān)系。這種機(jī)制不僅增強(qiáng)了模型對(duì)序列中依賴關(guān)系的學(xué)習(xí)能力,

還有效緩解了單一注意力機(jī)制可能遇到的有效分辨率降低等問(wèn)題,進(jìn)而顯著提高

了模型的整體性能和準(zhǔn)確性。通過(guò)這種方式,多頭注意力機(jī)制為模型提供了更強(qiáng)

大的表達(dá)能力和更高效的計(jì)算效率。圖7.縮放點(diǎn)積注意力(Scaled

Dot-ProductAttention)原理和

Softmax

公式數(shù)據(jù)來(lái)源:Google

Brain

,財(cái)通證券研究所1.3Transformer

的優(yōu)勢(shì):規(guī)模擴(kuò)展、多模態(tài)能力位置編碼與并行化助力長(zhǎng)距離依賴處理。

Transformer

模型通過(guò)位置編碼賦予輸入

序列中各元素順序信息,使其能區(qū)分不同位置的元素,從而有效處理長(zhǎng)距離依賴,這在機(jī)器翻譯等任務(wù)中極為關(guān)鍵。如圖

5

所示,對(duì)比

Transformer

LSTM

在不

同參數(shù)數(shù)量和上下文長(zhǎng)度下的測(cè)試損失,Transformer

在處理長(zhǎng)上下文方面更具優(yōu)

勢(shì),能更好地利用長(zhǎng)上下文信息,且隨著參數(shù)和上下文長(zhǎng)度的增加,其性能提升

更為顯著。與

RNN/LSTM

相比,Transformer

可同時(shí)處理所有標(biāo)記,

避免了信息

衰減或消失的問(wèn)題,

還能充分利用

GPU

等現(xiàn)代計(jì)算設(shè)備的并行計(jì)算能力,

大幅

提升訓(xùn)練效率。例如在處理百詞長(zhǎng)句時(shí),

RNN

需逐詞處理,

Transformer

則可

一次性完成。圖8.多頭注意力(Multi-Head

Attention)原理和

MHA

公式數(shù)據(jù)來(lái)源:Jared

Kaplan

等論文《Scaling

Laws

for

Neural

Language

Models》,財(cái)通證券研究所助力模型高效訓(xùn)練與規(guī)模拓展。Transformer

的并行計(jì)算優(yōu)勢(shì)顯著提升了模型訓(xùn)練

效率,使其在處理大規(guī)模數(shù)據(jù)集如語(yǔ)言模型預(yù)訓(xùn)練、機(jī)器翻譯等任務(wù)時(shí),

能在更

短時(shí)間內(nèi)完成訓(xùn)練。以

GPT

系列為例,其快速預(yù)訓(xùn)練得益于此。同時(shí),訓(xùn)練效率

的提高也推動(dòng)了

Transformer

模型規(guī)模的擴(kuò)大,更大規(guī)模的模型能學(xué)習(xí)到更豐富的

特征和復(fù)雜模式,近年來(lái)出現(xiàn)了如

GPT-3

、Megatron-LM

等超大規(guī)模

Transformer模型,在自然語(yǔ)言處理領(lǐng)域取得了突破性成果。圖10.主流大模型參數(shù)量變化圖9.Transformer

LSTM

在不同參數(shù)數(shù)量和上下文長(zhǎng)度下的測(cè)試損失數(shù)據(jù)來(lái)源:Johannes

Gerstmayr

等論文《Multibody

Models

Generated

from

Natural

Language》,財(cái)通證券研究所注:2019年

Megatron

2020年

GPT-3取得了重大進(jìn)展。

*GPT-4

的參數(shù)數(shù)量未正式披露,但疑似遭到泄露。本報(bào)告來(lái)源于三個(gè)皮匠報(bào)告站(w(www..s

g.c.

),,由由用戶I

d:3:下載,文檔Id:490

,下載日期:2025-01-2圖11.RNN/LSTM

、CNN

Transformer

在跨模態(tài)任務(wù)中的優(yōu)勢(shì)、劣勢(shì)架構(gòu)名稱優(yōu)勢(shì)不足Transformer自注意力機(jī)制:能夠捕捉長(zhǎng)程依賴和全局上

下文信息,對(duì)長(zhǎng)文本或復(fù)雜圖像-文本關(guān)系有

較強(qiáng)建模能力跨模態(tài)信息融合能力強(qiáng):能夠在多個(gè)模態(tài)之

間高效對(duì)齊和融合特征計(jì)算開(kāi)銷大:處理大規(guī)模數(shù)據(jù)時(shí)需要大量的

計(jì)算資源,尤其在跨模態(tài)任務(wù)中更為顯著對(duì)小數(shù)據(jù)集效果較弱:雖然預(yù)訓(xùn)練模型可以

彌補(bǔ)數(shù)據(jù)不足,但在小樣本學(xué)習(xí)場(chǎng)景中仍有

挑戰(zhàn)CNN并行計(jì)算:由于沒(méi)有序列化的計(jì)算依賴,可

以進(jìn)行更高效的訓(xùn)練視覺(jué)特征提取能力強(qiáng):CNN

非常擅長(zhǎng)從圖像中

提取空間局部特征,適用于圖像識(shí)別、物體

檢測(cè)等任務(wù)局部特征捕捉:適合捕捉圖像中的邊緣、紋

理等低級(jí)特征高效的卷積操作:對(duì)于圖像數(shù)據(jù)處理非常高

效,尤其在

GPU

加速下長(zhǎng)程依賴處理不足:CNN

較難處理圖像中的全

局長(zhǎng)程依賴關(guān)系,可能在復(fù)雜的圖像-文本匹

配任務(wù)中表現(xiàn)不佳跨模態(tài)信息融合較困難:CNN

本身主要針對(duì)單

一模態(tài)(如圖像)進(jìn)行建模,跨模態(tài)融合能

力較弱序列建模能力強(qiáng):RNN

LSTM

能夠處理時(shí)間

序列數(shù)據(jù),適合文本、語(yǔ)音等順序化數(shù)據(jù)的

處理計(jì)算效率較低:RNN

LSTM

在訓(xùn)練時(shí)需要逐

步計(jì)算,無(wú)法并行處理,導(dǎo)致計(jì)算效率低RNN/LSTM長(zhǎng)短期記憶:LSTM

通過(guò)引入記憶單元解決了RNN

的梯度消失問(wèn)題,能夠捕捉長(zhǎng)程依賴變長(zhǎng)輸入處理:能夠處理變長(zhǎng)輸入,適合處

理非結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)程依賴捕捉不如

Transformer:雖然

LSTM比傳統(tǒng)

RNN

更強(qiáng)大,但對(duì)于復(fù)雜的跨模態(tài)任

務(wù),Transformer

通常能更好地捕捉長(zhǎng)程依賴跨模態(tài)應(yīng)用廣泛。Transformer

架構(gòu)的靈活性,使其成為眾多非自然語(yǔ)言處理領(lǐng)域

先進(jìn)模型構(gòu)建的基礎(chǔ)框架,展現(xiàn)出廣闊的應(yīng)用前景。Transformer

架構(gòu)具備一項(xiàng)

關(guān)鍵能力,

即能夠?qū)⒉煌B(tài)的數(shù)據(jù)映射到統(tǒng)一的特征表示空間。以多模態(tài)任務(wù)

中的文本與圖像處理為例,Transformer

首先將文本數(shù)據(jù)轉(zhuǎn)化為詞向量,同時(shí)將圖

像數(shù)據(jù)轉(zhuǎn)換為像素特征向量。在完成這一轉(zhuǎn)換后,這些來(lái)自不同模態(tài)的特征向量

便能夠在同一特征空間內(nèi)進(jìn)行有效的處理與交互。

相比之下,Transformer

的前

期架構(gòu),例如

CNN,雖然擅長(zhǎng)處理視覺(jué)數(shù)據(jù),

在圖像處理任務(wù)中有強(qiáng)大的優(yōu)勢(shì),

但跨模態(tài)信息的融合能力相對(duì)較弱;而

RNN/LSTM

雖然適合處理序列數(shù)據(jù),尤

其是文本和語(yǔ)音數(shù)據(jù),

但在跨模態(tài)任務(wù)中的長(zhǎng)程依賴和效率上較為薄弱。這種統(tǒng)

一的特征表示方式,

顯著降低了不同模態(tài)數(shù)據(jù)融合與比較的復(fù)雜度,

進(jìn)而助力多

模態(tài)模型更加高效地整合和分析來(lái)自多種數(shù)據(jù)源的豐富信息。數(shù)據(jù)來(lái)源:Kyuhong

Shim

等論文《A

Comparison

of

Transformer,Convolutional,and

Recurrent

Neural

Networks

on

Phoneme

Recognition》,財(cái)通證券研究所2

Transformer

架構(gòu)的未來(lái)Transformer

架構(gòu)通過(guò)并行處理整個(gè)輸入序列,顯著加快了訓(xùn)練和推理時(shí)間,且并

行處理能力與自注意力機(jī)制的結(jié)合使得基于Transformer

架構(gòu)的大模型能夠有效

捕捉長(zhǎng)距離依賴關(guān)系和上下文信息。盡管

Transformer

憑借著諸多優(yōu)勢(shì)成為如今的

主流架構(gòu),但其并非盡善盡美,仍有無(wú)法避免的局限性。2.1Transformer

架構(gòu)的局限性計(jì)算復(fù)雜度過(guò)高。

自注意力機(jī)制(Self-Attention)的計(jì)算復(fù)雜度為O(N2d),其中

N是序列長(zhǎng)度、d

token

嵌入的維度。簡(jiǎn)單來(lái)說(shuō),這使得

Transformer

模型的計(jì)

算復(fù)雜度會(huì)隨著輸入序列長(zhǎng)度(token

數(shù)量)的增加呈二次方增長(zhǎng)。數(shù)據(jù)來(lái)源:MiniMax

論文《MiniMax-01:

Scaling

Foundation

Models

with

Lightning

Attention》,財(cái)通證券研究所模型規(guī)模的擴(kuò)大將顯著增加訓(xùn)練和部署成本。

在計(jì)算資源方面,基于

Transformer架構(gòu)的模型不僅需要大量的計(jì)算資源,

還要求高效的并行處理能力,這使得訓(xùn)練

成本需要覆蓋高性能的

GPU

和大量的存儲(chǔ)空間,且隨著序列長(zhǎng)度的增加,其平方

級(jí)的擴(kuò)展導(dǎo)致高內(nèi)存使用,因而對(duì)內(nèi)存需求也極大。

架構(gòu)的計(jì)算復(fù)雜度過(guò)高來(lái)源于其自注意力機(jī)制

Softmax

Attention

圖12.Transformer數(shù)據(jù)來(lái)源:Predi

,財(cái)通證券研究所計(jì)算復(fù)雜度和計(jì)算成本帶來(lái)最直接的影響是限制

Transformer

在長(zhǎng)序列下的應(yīng)用。雖然

Transformer

能夠準(zhǔn)確捕捉短距離的文本關(guān)系,但其注意力機(jī)制的計(jì)算復(fù)雜度

會(huì)隨著序列長(zhǎng)度呈二次增長(zhǎng),這使得處理長(zhǎng)文本時(shí)的計(jì)算成本變得難以承受,因

而大部分大模型會(huì)將支持的上下文長(zhǎng)度框定在一定范圍內(nèi)。當(dāng)下基于

Transformer架構(gòu)的大模型支持的上下文長(zhǎng)度已有所拓展,這正是研究者意識(shí)到

Transformer

構(gòu)局限性后對(duì)注意力機(jī)制等方面進(jìn)行改進(jìn)的結(jié)果,且改進(jìn)后的上下文長(zhǎng)度仍無(wú)法

比肩一些新興架構(gòu)。2.2Transformer

架構(gòu)的挑戰(zhàn)者如谷歌

CORE

ML/AI

副總裁

Bill

Jia

在訪談中所說(shuō),大模型的未來(lái)發(fā)展有著三條

方向:l

一是基于現(xiàn)在的架構(gòu)繼續(xù)構(gòu)建基礎(chǔ)大模型,增加參數(shù)、投入更多的訓(xùn)練資源;l

二是基于大語(yǔ)言模型構(gòu)建垂直模型,通過(guò)蒸餾模型、量化模型來(lái)讓模型變得

更小、更有效率、更有性價(jià)比;l

三是離開(kāi)現(xiàn)在主流的

Transformer

架構(gòu),尋找不同的模型架構(gòu)。圖13.大模型參數(shù)量不斷膨脹,

已達(dá)

1000B圖15.潛在的

Transformer

架構(gòu)替代架構(gòu)架構(gòu)名稱核心特點(diǎn)優(yōu)勢(shì)不足RetNetMambaRWKVHyena線性注意力機(jī)制多尺度保留機(jī)制(Retention),融

RNN

Transformer

的優(yōu)點(diǎn)訓(xùn)練并行化推理成本低節(jié)省內(nèi)存建模長(zhǎng)距離依賴能力存疑實(shí)際應(yīng)用較少循環(huán)框架、狀態(tài)空間模型

與注意力機(jī)制結(jié)合硬件感知型算法線性增長(zhǎng)的計(jì)算開(kāi)銷

提升長(zhǎng)序列處理效率記憶丟失,泛化能力弱

復(fù)雜模式表現(xiàn)欠佳RNN

變體殘差塊時(shí)間混合和通道混合恒定內(nèi)存占用支持無(wú)限上下文長(zhǎng)度顯存需求低對(duì)提示詞格式敏感

任務(wù)回顧表現(xiàn)較弱交織隱式參數(shù)化的長(zhǎng)卷積

數(shù)據(jù)控制的門(mén)控計(jì)算復(fù)雜度低長(zhǎng)序列訓(xùn)練速度快無(wú)法使用

Mask,后續(xù)預(yù)訓(xùn)練靈活性差跟進(jìn)應(yīng)用較少Softmax

注意力線性化時(shí)間復(fù)雜度降低到線性

高效處理長(zhǎng)序列建模長(zhǎng)距離依賴能力

不如標(biāo)準(zhǔn)

Transformer數(shù)據(jù)來(lái)源:Yutao

Sun

等論文《Retentive

Network:A

Successor

to

Transformer

for

Large

Language

Models》,Haohao

Qu

等論文《ASurvey

of

Mamba》,RWKV

方文檔,Michael

Poli

等論文《Hyena

Hierarchy:Towards

Larger

Convolutional

Language

Models》,MiniMax

論文《MiniMax-01:

Scaling

Foundation

Models

withLightning

Attention》財(cái)通證券研究所2.2.1RetNetRetNet

引入了一種多尺度保留機(jī)制(Retention)來(lái)替代多頭注意力,它有三種計(jì)

算范式:并行、循環(huán)和分塊循環(huán)表征。保留機(jī)制本質(zhì)上是

RNN

Transformer

心原理的融合,即

Recurrent

Self-Attention。RetNet

采用了遞歸方式來(lái)計(jì)算注意數(shù)據(jù)來(lái)源:

新浪,財(cái)通證券研究所構(gòu)建全新的模型架構(gòu)突破

Transformer

的局限性無(wú)疑是極具挑戰(zhàn)性的一個(gè)方向,但

也會(huì)帶來(lái)更多創(chuàng)新、有更多遐想空間。

目前研究人員正在積極探索可能取代或增

強(qiáng)

Transformer

的全新架構(gòu),并提出了數(shù)個(gè)潛在的替代架構(gòu),本文將主要探討以

下幾種架構(gòu)。圖14.谷歌

CORE

ML/AI

副總裁

Bill

Jia

2024年硅谷華源科技年會(huì)上接受采訪數(shù)據(jù)來(lái)源:Yutao

Sun

等論文《Retentive

Network:A

Successor

to

Transformer

for

Large

Language

Models》,財(cái)通證券研究所RetNet

架構(gòu)同時(shí)具備訓(xùn)練可并行、推理成本低和良好性能的特點(diǎn)。在訓(xùn)練過(guò)程中,

RetNet

能夠比標(biāo)準(zhǔn)

Transformer

節(jié)省

25-50%的內(nèi)存,實(shí)現(xiàn)

7倍的加速,并在高度

優(yōu)化的

Flash

Attention

方面具有優(yōu)勢(shì)。此外,RetNet

的推理延遲對(duì)批大小(batchsize)不敏感,從而實(shí)現(xiàn)了巨大的吞吐量。在

Scaling

曲線和上下文學(xué)習(xí)方面,RetNet

始終表現(xiàn)出競(jìng)爭(zhēng)力。RetNet

的推理成本與長(zhǎng)度無(wú)關(guān),對(duì)于

7B模型和

8k序列長(zhǎng)度,

其解碼速度是帶鍵值緩存的

Transformers

8.4

倍,同時(shí)內(nèi)存節(jié)省

70%。這些特

性使得

RetNet

成為一種高效且經(jīng)濟(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。當(dāng)然,RetNet

作為一種具備

RNN

特點(diǎn)的架構(gòu),其建模長(zhǎng)距離依賴能力仍需后續(xù)驗(yàn)證,

目前的實(shí)際落地應(yīng)用也

較少。力分?jǐn)?shù),且仍然支持一定程度的并行計(jì)算,使得其結(jié)合了并行和循環(huán)的特點(diǎn)。首

先,并行表征使訓(xùn)練并行化,以充分利用

GPU

設(shè)備。其次,循環(huán)表征法在內(nèi)存和

計(jì)算方面實(shí)現(xiàn)了高效的

O(1)推理。部署成本和延遲可以顯著降低,

同時(shí)無(wú)需鍵值

緩存技巧,大大簡(jiǎn)化了實(shí)現(xiàn)過(guò)程。此外,分塊循環(huán)表征法能夠執(zhí)行高效的長(zhǎng)序列

建模。研究者對(duì)每個(gè)局部塊進(jìn)行并行編碼以提高計(jì)算速度,同時(shí)對(duì)全局塊進(jìn)行循

環(huán)編碼以節(jié)省

GPU

內(nèi)存。圖16.RetNet

的并行與循環(huán)過(guò)程數(shù)據(jù)來(lái)源:Yutao

Sun

等論文《Retentive

Network:A

Successor

to

Transformer

for

Large

Language

Models》,財(cái)通證券研究所2.2.2MambaMamba

集中了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的循環(huán)框架、Transformer

的并行計(jì)算和注

意力機(jī)制、狀態(tài)空間模型(SSM)的線性特性

。狀態(tài)空間模型(SSM)是一種傳

統(tǒng)的數(shù)學(xué)框架,可用于描述系統(tǒng)隨時(shí)間變化的動(dòng)態(tài)行為。Mamba

引入一個(gè)簡(jiǎn)單卻

有效的選擇機(jī)制,其可根據(jù)輸入對(duì)

SSM

進(jìn)行重新參數(shù)化,從而可讓模型在濾除不

相關(guān)信息的同時(shí)無(wú)限期地保留必要和相關(guān)的數(shù)據(jù)。Mamba

還包含一種硬件感知型

算法,可使用掃描(scan)而非卷積來(lái)循環(huán)地計(jì)算模型,提升計(jì)算速度。后續(xù)的迭

代版本

Mamba-2

利用結(jié)構(gòu)化空間狀態(tài)對(duì)偶(SSD/Structured

Space-State

Duality)

構(gòu)建了一個(gè)將結(jié)構(gòu)化

SSM

與多種形式的注意力連接起來(lái)的穩(wěn)健的理論框架,讓原

本為

Transformer

開(kāi)發(fā)的算法和系統(tǒng)優(yōu)化技術(shù)可遷移用于

SSM。圖18.狀態(tài)空間模型(SSM)的架構(gòu)示意圖圖17.RetNet

同時(shí)實(shí)現(xiàn)訓(xùn)練并行性、良好性能和低推理成本這一“不可能的三角

”數(shù)據(jù)來(lái)源:Haohao

Qu

等論文《ASurvey

of

Mamba》,財(cái)通證券研究所數(shù)據(jù)來(lái)源:Haohao

Qu

等論文《ASurvey

of

Mamba》,財(cái)通證券研究所Mamba

架構(gòu)并非沒(méi)有缺陷,記憶丟失、難以泛化到不同任務(wù)、在復(fù)雜模式方面的

表現(xiàn)不及基于

Transformer

的語(yǔ)言模型等問(wèn)題仍然存在,但開(kāi)源的研究社區(qū)為

Mamba

架構(gòu)提出了諸多改進(jìn)方案,后續(xù)將繼續(xù)優(yōu)化。Mamba

架構(gòu)以線性增長(zhǎng)的低計(jì)算開(kāi)銷和硬件感知型算法實(shí)現(xiàn)了對(duì)長(zhǎng)序列數(shù)據(jù)的

高效處理,顯著提升了計(jì)算速度和性能。與

Transformer

相比,Mamba

的計(jì)算開(kāi)

銷隨序列長(zhǎng)度線性增長(zhǎng),這使得它能夠處理更長(zhǎng)的文本序列,同時(shí)大幅降低計(jì)算

成本。此外,Mamba采用了硬件感知型算法,使用掃描進(jìn)行循環(huán)計(jì)算,在

A100GPU上能夠?qū)⒂?jì)算速度提升

3倍,進(jìn)一步增強(qiáng)了其在處理長(zhǎng)序列數(shù)據(jù)時(shí)的效率和性能。圖20.改進(jìn)

Mamba

架構(gòu)的現(xiàn)有研究總結(jié)(主要集中于修改塊設(shè)計(jì)、掃描模式和記憶管理)圖19.RNNs

、Transformers

SSMs

在自回歸序列建模任務(wù)中的優(yōu)缺點(diǎn)數(shù)據(jù)來(lái)源:Haohao

Qu

等論文《ASurvey

of

Mamba》,財(cái)通證券研究所數(shù)據(jù)來(lái)源:RWKV

官方,財(cái)通證券研究所RWKV

架構(gòu)仍在不斷迭代。RWKV-5

引入了多頭的、基于矩陣值的狀態(tài)(state),

即論文中的“multi-headed

matrix-valued

states”

。RWKV-V6在

RWKV-V5

的基礎(chǔ)上

引入了基于低秩適應(yīng)(LoRA)的動(dòng)態(tài)遞歸機(jī)制,進(jìn)一步優(yōu)化了Token

Shift

和time-

mixing

過(guò)程,使

RWKV-4/5

的簡(jiǎn)單線性插值(lerp)變成了數(shù)據(jù)依賴的、動(dòng)態(tài)的線

性插值(ddlerp)。最新版本的架構(gòu)

RWKV-7采用了動(dòng)態(tài)狀態(tài)演化(Dynamic

StateEvolution),其架構(gòu)的訓(xùn)練和推理代碼均已定稿,架構(gòu)論文仍在撰寫(xiě)過(guò)程中。2.2.3RWKV(Receptance

Weighted

Key

Value)RWKV

是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一個(gè)變體。

RWKV

架構(gòu)由一系列堆疊的殘差

塊組成,

每個(gè)殘差塊由具有循環(huán)結(jié)構(gòu)的時(shí)間混合(time-mixing)

和通道混合

(channel-mixing)子塊組成,該循環(huán)通過(guò)將當(dāng)前輸入和上一時(shí)間步的輸入之間進(jìn)行線性插值來(lái)實(shí)現(xiàn)(在

RWKV-4架構(gòu)論文中正式提出,這一過(guò)程被稱為token

shift,

RWKV

接收的每個(gè)

token

和前一個(gè)

token

做混合)。Token

Shift

讓模型可以控制

每個(gè)時(shí)間步將多少新信息與舊信息分配給每個(gè)頭的接收、鍵、值和門(mén)向量。圖21.RWKV-6

token

shift

計(jì)算流程數(shù)據(jù)來(lái)源:RWKV

官方,財(cái)通證券研究所注:經(jīng)過(guò)不斷地版本迭代,基于

RWKV

架構(gòu)的模型在長(zhǎng)序列任務(wù)上有顯著的改進(jìn),在相同長(zhǎng)度的上下文實(shí)驗(yàn)下?lián)p失越來(lái)越小。RWKV

架構(gòu)融合了RNN

Transformer

的優(yōu)勢(shì),展現(xiàn)出出色的性能、恒定的顯

存占用、恒定的推理生成速度以及“無(wú)限

”的上下文長(zhǎng)度,

同時(shí)提供免費(fèi)的句嵌

入,且完全不含自注意力機(jī)制。在資源使用方面,RWKV在運(yùn)行和訓(xùn)練時(shí)對(duì)

VRAM

、CPU、GPU

等資源的需求更低,與較大上下文的Transformer

相比,其計(jì)算需求降

低了10

倍到100

倍。此外,RWKV

支持以線性方式擴(kuò)展到任何上下文長(zhǎng)度,而

Transformer

則是以二次方擴(kuò)展。在答案質(zhì)量和泛化能力方面,

RWKV

的表現(xiàn)與

Transformer

架構(gòu)相當(dāng)。圖22.RWKV-4

、RWKV

-5Eagle

RWKV-6Finch

模型的上下文長(zhǎng)度實(shí)驗(yàn)隨版本迭代表現(xiàn)變好 Finch

、Mamba

Flash

Attention

中,RWKV-6

的顯存占用率最低

數(shù)據(jù)來(lái)源:RWKV

官方,財(cái)通證券研究所圖23.在

RWKV-6數(shù)據(jù)來(lái)源:Zhiyuan

Li

等論文《A

Survey

of

RWKV》,財(cái)通證券研究所2.2.4HyenaHyena

由兩個(gè)高效的二次基元遞歸定義的算子(交織隱式參數(shù)化的長(zhǎng)卷積和數(shù)據(jù)

控制的門(mén)控)組成,構(gòu)建了一個(gè)高效、靈活且計(jì)算復(fù)雜度低的注意力替代算法,

用于來(lái)取代

Transformer

架構(gòu)中的注意力函數(shù)。Hyena

算子定義了兩種高效的亞二

次基本操作:隱式長(zhǎng)卷積和數(shù)據(jù)控制的對(duì)角矩陣乘法。遞歸深度決定算子大小,

Hyena

可表達(dá)為與數(shù)據(jù)相關(guān)的對(duì)角矩陣和托普利茨矩陣的乘積。它具有亞線性參

數(shù)縮放、不受限制的上下文及比注意力機(jī)制更低的時(shí)間復(fù)雜度。與

Transformer

的注意力算法相比,該運(yùn)算符的主要優(yōu)點(diǎn)是時(shí)間復(fù)雜度降低,由于使用卷積(具體

來(lái)說(shuō)是傅里葉空間中的卷積)并應(yīng)用

FFTConv

運(yùn)算,時(shí)間復(fù)雜度為

O(n*log(n))而

不是

O(n2)?;?/p>

RWKV

架構(gòu)的模型的不足在于

RWKV

基底模型對(duì)提示詞(prompt)的格

式非常敏感,提示詞的格式對(duì)生成結(jié)果有較大影響。且由于架構(gòu)設(shè)計(jì)的原因,

RWKV

模型在需要回顧的任務(wù)上表現(xiàn)較弱,因此需要恰當(dāng)?shù)貙?duì)提示詞進(jìn)行排序。

例如,應(yīng)先給模型提供任務(wù)指令,然后再提供需要執(zhí)行任務(wù)的材料文本,

以確保

模型能夠更有效地理解和執(zhí)行任務(wù)。

基礎(chǔ)模型的眾多應(yīng)用場(chǎng)景

圖24.RWKV數(shù)據(jù)來(lái)源:Michael

Poli

等論文《Hyena

Hierarchy:Towards

Larger

Convolutional

Language

Models》,財(cái)通證券研究所Hyena

能夠顯著縮小與注意力機(jī)制的差距,

以較小的算力預(yù)算來(lái)達(dá)到相同效果。

在序列長(zhǎng)度為

2K

時(shí),Hyena

將訓(xùn)練計(jì)算量減少了20%,達(dá)到了

Transformer

的質(zhì)

量。當(dāng)序列長(zhǎng)度為

8K

時(shí),Hyena

算子的速度是高度優(yōu)化注意力的兩倍,而在序列

長(zhǎng)度為

64K

時(shí),速度是

100倍。Hyena

目前的表現(xiàn)十分出色,不過(guò)

Hyena

運(yùn)算不

支持Mask(用于大語(yǔ)言模型預(yù)訓(xùn)練建模過(guò)程中的遮蓋),這也導(dǎo)致使用

Hyena

構(gòu)進(jìn)行生成式預(yù)訓(xùn)練建模不夠靈活。Hyena

的跟進(jìn)應(yīng)用也較少,

未來(lái)應(yīng)用空間有

待進(jìn)一步驗(yàn)證。2.2.5

線性注意力機(jī)制線性化處理

Softmax

操作,

降低時(shí)間復(fù)雜度,提升模型效率。線性注意力機(jī)制通

過(guò)對(duì)傳統(tǒng)注意力機(jī)制中的

Softmax

操作進(jìn)行線性化處理,將時(shí)間復(fù)雜度降低到線

性(O(N)),從而提高

Transformer

模型的并行性能、降低復(fù)雜度,在計(jì)算效率、

模型表達(dá)能力等方面都具有優(yōu)勢(shì)。但線性注意力相比

Softmax

注意力建模長(zhǎng)距離

依賴能力較差,目前的研究正在著重解決這個(gè)問(wèn)題。線性注意力機(jī)制相關(guān)研究作

為改進(jìn)Transformer

架構(gòu)的重要方向,目前

Agent

Attention

、TransNormerLLM

、

MiniMax-01等模型研究都取得了一定進(jìn)展。圖25.Hyena

算子的結(jié)構(gòu)和工作原理數(shù)據(jù)來(lái)源:MiniMax

論文《MiniMax-01:

Scaling

Foundation

Models

with

Lightning

Attention》,財(cái)通證券研

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論