復(fù)旦大學(xué):2025年大模型能力來源與邊界報(bào)告_第1頁
復(fù)旦大學(xué):2025年大模型能力來源與邊界報(bào)告_第2頁
復(fù)旦大學(xué):2025年大模型能力來源與邊界報(bào)告_第3頁
復(fù)旦大學(xué):2025年大模型能力來源與邊界報(bào)告_第4頁
復(fù)旦大學(xué):2025年大模型能力來源與邊界報(bào)告_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大語言模型能力來源與邊界張奇復(fù)旦大學(xué)1僅修改130億參數(shù)中的1個(gè)就會使模型完全混亂輸入:Fudan

University

is

located

inLLaMA2-13B

(PPL

5.877):Fudan

University

is

located

in

Shanghai,

China.

It

is

locally

known

as

復(fù)旦大學(xué).The

university

was

established

in

1905.

It

is

accredited

by

Ministry

of

Education

of

the

People's

Republic

of

China.

There

are

over

40,000

students

studying

in

various

courses

offered

by

Fudan

University.The

languageof

instruction

isChinese.LLaMA2-13B-修改語言核心區(qū)1維擴(kuò)大10倍

(PPL376079936):Fudan

University

is

located

in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s><s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s

><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s><s>\<s>{"<s>LLaMA2-13B-修改語言非核心區(qū)LayerNorm其他維度擴(kuò)大10倍

(PPL5.914):Fudan

University

is

located

in

Shanghai,China,the

largest

city

with

themosteconomicandculturalactivities

in

China.

With

the

most

advanced

infrastructure

and

the

best

living

condition,

it

has

become

the

internationaleducationcenterwiththe

largestoverseastudents.

It

consists

of

Jinan,

Kangqiao

and

Fenglin

campus,

which

boaststhe

best

resources

from

botheducationand

research.

Fudan

University

has

beenafamousand

attractive

universityfor

international

students,

especially

in

the

past

one

decade

from

2001-2010.大語言模型基礎(chǔ)理論突破,發(fā)表大模型相關(guān)論文80+篇國際上首次提出的大語言模型語言核心區(qū)和維度依賴?yán)碚?,可以有效指?dǎo)大語言模型訓(xùn)練過程UnveilingLinguisticRegionsinLarge

LanguageModels,

ACL

202441.大語言模型語言核心區(qū)與維度依賴5UnveilingLinguisticRegionsinLarge

LanguageModels,

ACL

2024ArabicMMLU:

AssessingMassiveMultitaskLanguageUnderstandingin

Arabic

(Kotoetal.,

arXiv2024)破壞‘Arabic/Vietnamese’

區(qū)域1.大模型能力邊界在哪里?6知識利用層次圖大模型目前在哪個(gè)層級?未來可以到哪個(gè)層級?Wangetal.KnowledgeMechanismsin

Large

Language

Models:ASurvey

and

Perspective,

EMNLP

2024大模型目前在哪個(gè)層級?未來可以到哪個(gè)層級?4—

目前?知識利用層次圖Wangetal.KnowledgeMechanismsin

Large

Language

Models:ASurvey

and

Perspective,

EMNLP

2024知識利用層次圖?

長上下文建模?

多任務(wù)學(xué)習(xí)?

跨語言遷移性?

文本生成能力我認(rèn)為:目前仍然是記憶Wangetal.KnowledgeMechanismsin

Large

Language

Models:ASurvey

and

Perspective,

EMNLP

2024知識利用層次圖AGI系統(tǒng)才能“理解”?

理解物理世界?

擁有長久準(zhǔn)確記憶?

可以推理?

可以分層次規(guī)劃Wangetal.KnowledgeMechanismsin

Large

Language

Models:ASurvey

and

Perspective,

EMNLP

2024大模型能力邊界的實(shí)踐研究11當(dāng)前大模型依然無法完成真正的“理解”與“推理”12大模型“參加”2024高考數(shù)學(xué)情況13

大模型“參加”2024高考數(shù)學(xué)情況

兩場平均分最好70%

,最差25%,填空題成績更差14大模型“參加”2024高考數(shù)學(xué)情況即便正確回答的題目,計(jì)算過程和答案不相符的比例很高15大模型“參加”2024高考數(shù)學(xué)情況輸入形式的微小不同,結(jié)果相差很大16大模型“參加”美國數(shù)學(xué)奧賽情況USAMO完美契合評估LLM的目標(biāo):題目難度高、要求完整證明過程才能得分,且未經(jīng)公開數(shù)據(jù)污染。ETHZurich

研究團(tuán)隊(duì):

實(shí)際上,

LLM幾乎從未沒有學(xué)會數(shù)學(xué)證明!17歸納推理的能力如何呢?Dziri,

Nouha,etal.“Faithandfate:

Limitsoftransformerson

compositionality.”AdvancesinNeuralInformationProcessingSystems36

(2024)

AllenAI

18乘法的步驟:當(dāng)任務(wù)復(fù)雜程度增大時(shí),模型的準(zhǔn)確率接近為0Dziri,

Nouha,etal.“Faithandfate:

Limitsoftransformerson

compositionality.”AdvancesinNeuralInformationProcessingSystems36

(2024)

AllenAI

19使用

180萬數(shù)據(jù)訓(xùn)練GPT3模型GPT3經(jīng)過充分調(diào)整,

在特定任務(wù)數(shù)據(jù)上達(dá)

到了一定的問題規(guī)模。

藍(lán)色區(qū)域表示分布內(nèi)

樣本

,紅色區(qū)域表示OOD樣本。所有

k1

k2

符合

1

k1,

k2

≤4

并且

k1

·

k2

9;歸納推理的能力如何呢?Dziri,

Nouha,etal.“Faithandfate:

Limitsoftransformerson

compositionality.”AdvancesinNeuralInformationProcessingSystems36

(2024)

AllenAI

20訓(xùn)練過程中簡單加入過程作用也十分有限D(zhuǎn)ziri,

Nouha,etal.“Faithandfate:

Limitsoftransformerson

compositionality.”AdvancesinNeuralInformationProcessingSystems36

(2024)

AllenAI

21乘法2025-01-31報(bào)告大模型工具調(diào)用評測RoTBench:AMulti-LevelBenchmark

forEvaluating

theRobustnessof

LargeLanguage

Models

in

Tool

Learning,

EMNLP202424針對變形數(shù)據(jù)GPT4的準(zhǔn)確率也大幅度下降原題:奧利弗在星期五摘了

44

個(gè)獼猴桃

。然后在星期六摘了

58個(gè)獼猴桃

。星期天,

他摘的獼猴桃數(shù)量是星期五的兩倍

。奧利弗有多少個(gè)獼猴桃?變形題目:

奧利弗在星期五摘了

44

個(gè)獼猴桃

。然后在星期六摘了

58

個(gè)獼猴桃

。星期天,

他摘的獼猴桃數(shù)量是星期五的兩倍,但其中

5個(gè)比平均大小要小

。奧利弗有多少個(gè)獼猴桃?GPT-o1-mini

給出的答案是:

……

在星期天,

5

個(gè)獼猴桃比平均大小要小

。我們需要從星期天的總數(shù)中減去它們:

88

(星期天的獼猴桃)

-

5(小獼猴桃)

=

83個(gè)獼猴桃。Mirzadeh

et

al.

,

GSM-Symbolic:

Understanding

the

Limitations

of

Mathematical

Reasoning

in

Large

Language

Models.Arxiv

2024GPT-o1preview小學(xué)數(shù)學(xué)題上也“翻車”了全數(shù)據(jù)驅(qū)動(dòng)的大模型實(shí)現(xiàn)“推理”面臨巨大挑戰(zhàn)實(shí)現(xiàn)因果學(xué)習(xí)是關(guān)鍵27碩士入學(xué)考試數(shù)學(xué)100分小學(xué)應(yīng)用題可能只有10分仍然不知道strawberry有幾個(gè)r282930大模型依然是統(tǒng)計(jì)機(jī)器學(xué)習(xí)不是“能力”的逐項(xiàng)提升31高中數(shù)學(xué)

初中數(shù)學(xué)小學(xué)數(shù)學(xué)算數(shù)人類能力學(xué)習(xí)過程32小學(xué)數(shù)學(xué)題中考數(shù)學(xué)題高考數(shù)學(xué)題數(shù)公式中數(shù)字個(gè)數(shù)大模型“能力”學(xué)習(xí)過程數(shù)單詞字母數(shù)33單個(gè)模型可以處理數(shù)千種任務(wù),

但是仍需要逐項(xiàng)進(jìn)行優(yōu)化35大模型高泛化工具調(diào)用1217條數(shù)據(jù),

7B模型大幅度超越開源模型,在工具選擇正確性維度超越GPT4oTL-Training:A

Task-Feature-BasedFramework

for

TrainingLargeLanguageModelsin

Tool

Use,

arXiv2024消除負(fù)面影響、優(yōu)化關(guān)鍵Token、

引入獎(jiǎng)勵(lì)機(jī)制36大模型Code生成能力提升“StepCoder:

ImproveCodeGenerationwith

Reinforcement

LearningfromCompiler

Feedback.”ACL

20243738RLHF推動(dòng)翻譯偏好建模:低成本實(shí)現(xiàn)“信達(dá)雅”AdvancingTranslation

Preference

Modelingwith

RLHF:AStepTowardsCost-EffectiveSolution,

arXiv

202439復(fù)雜圖表內(nèi)容問答圖表理解能力超越GPT4oDISTILL

VISUAL

CHARTREASONINGABILITYFROMLLMS

TOMLLMS,arXiv

20242.大模型能力來源思考411.直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識記憶概率Predicting

Large

Language

ModelCapabilitiesonClosed-BookQA

Tasks

UsingOnly

InformationAvailable

PriortoTraining,ArXiv2025FromGPT-4Technical

Report

1.直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識記憶概率Predicting

Large

Language

ModelCapabilitiesonClosed-BookQA

Tasks

UsingOnly

InformationAvailable

PriortoTraining,ArXiv2025

1.直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識記憶概率Predicting

Large

Language

ModelCapabilitiesonClosed-BookQA

Tasks

UsingOnly

InformationAvailable

PriortoTraining,ArXiv20252.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù),并且要跟模型緊密配合完成某個(gè)領(lǐng)域知識問答僅需__

6_0__條訓(xùn)練數(shù)據(jù)不同LLMs的數(shù)據(jù)需求差異巨大EmpiricalInsightsonFine-TuningLargeLanguage

Models

for

Question-Answering,

arXiv

202445問題

1:在

SFT階段需要多少數(shù)據(jù)才能讓

LLMs執(zhí)行QA任務(wù)?問題2:不同的

SFT數(shù)據(jù)如何影響

LLMs在QA任務(wù)中的表現(xiàn)?問題

3:不同

LLMs在SFT階段的數(shù)據(jù)要求有何不同?2.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)EmpiricalInsightsonFine-TuningLargeLanguage

Models

for

Question-Answering,

arXiv

2024462.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)

EmpiricalInsightsonFine-TuningLargeLanguage

Models

for

Question-Answering,

arXiv

202447模型知識記憶情況判斷2.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)EmpiricalInsightsonFine-TuningLargeLanguage

Models

for

Question-Answering,

arXiv

202448發(fā)現(xiàn)1

:無論使用何種數(shù)據(jù)進(jìn)行微調(diào),

LLM

能對在預(yù)訓(xùn)練中記憶較好的知識提供更準(zhǔn)確的答案。發(fā)現(xiàn)2:使用特定記憶水平的數(shù)據(jù)進(jìn)行訓(xùn)練可提高

LLM在該知識水平上的表現(xiàn)。發(fā)現(xiàn)3:總體而言,

更有效的策略是使用記憶水平較高的數(shù)據(jù)進(jìn)行SFT。2.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)發(fā)現(xiàn)4:不同

LLMs的預(yù)訓(xùn)練語料庫的差異導(dǎo)致知識分布的顯著不同EmpiricalInsightsonFine-TuningLargeLanguage

Models

for

Question-Answering,

arXiv

2024493.預(yù)訓(xùn)練模型參數(shù)與SFT模型關(guān)聯(lián)Unveiling

theMysteryofSFT’sImpactonModel

Performance

from

Token

Level

and

ParameterLevel,

arXiv

202450使用記憶水平較低的數(shù)據(jù)進(jìn)行SFT,會大幅度改變模型參數(shù)3.預(yù)訓(xùn)練模型參數(shù)與SFT模型關(guān)聯(lián)PerformanceofLLaMA-3-8B

after

restoring

differentscales

ofparameters

across

various

fine-tuningdatasets.Unveiling

theMysteryofSFT’sImpactonModel

Performance

from

Token

Level

and

ParameterLevel,

arXiv

202451盡可能少的改動(dòng)預(yù)訓(xùn)練參數(shù)4.多樣性對SFT訓(xùn)練的影響

如何衡量多樣性?MeasuringDataDiversity

forInstruction

Tuning:ASystematicAnalysisandAReliableMetric,arXiv

2024不同多樣性評價(jià)指標(biāo)與模型效果的相關(guān)性52在二維空間中模擬數(shù)據(jù)選擇:選擇A模擬具有冗余的數(shù)據(jù)集

,選擇B優(yōu)化樣本之間的距離

,而選擇C同時(shí)考慮距

離和密度4.多樣性對SFT訓(xùn)練的影響

如何衡量多樣性?MeasuringDataDiversity

forInstruction

Tuning:ASystematicAnalysisandAReliableMetric,arXiv

202453“Countdown”游戲作為測試,使用給定的數(shù)字和基本運(yùn)算(加減乘除)達(dá)到指定的目標(biāo)數(shù)例如,給定25、

30、

3、4四個(gè)數(shù)字,目標(biāo)是32,解決方案可以是:

(30

-25

+

3)

×4Qwen模型通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練后表現(xiàn)出顯著進(jìn)步,而Llama模型卻幾乎停滯不前

5.推理能力的來源是強(qiáng)化學(xué)習(xí)嗎?

Cognitive

Behaviorsthat

EnableSelf-Improving

Reasoners,or,

Four

Habitsof

Highly

EffectiveSTaRs,

arXiv

202554相同的方法為什么Qwen可以,

Llama不行?Cognitive

Behaviorsthat

EnableSelf-Improving

Reasoners,or,

Four

Habitsof

Highly

EffectiveSTaRsarXiv

2025高效思考的四個(gè)關(guān)鍵行為:(1)驗(yàn)證能力(Verification):系統(tǒng)性地檢查中間結(jié)果和步驟是否正確,如"讓我們驗(yàn)證這個(gè)結(jié)果..."(2)回溯能力(Backtracking)

當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí),能夠明確地修改和調(diào)整方法,如"這個(gè)方法行不通,因?yàn)?.."(3)子目標(biāo)設(shè)定(Subgoal

Setting)

:將復(fù)雜問題分解為可管理的步驟,如"要解決這個(gè)問題,我們首先需要..."(4)逆向鏈?zhǔn)酵评恚˙ackward

Chaining)

:從目標(biāo)反向推導(dǎo)解決方案,如"要達(dá)到7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論