版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大語言模型能力來源與邊界張奇復(fù)旦大學(xué)1僅修改130億參數(shù)中的1個(gè)就會使模型完全混亂輸入:Fudan
University
is
located
inLLaMA2-13B
(PPL
5.877):Fudan
University
is
located
in
Shanghai,
China.
It
is
locally
known
as
復(fù)旦大學(xué).The
university
was
established
in
1905.
It
is
accredited
by
Ministry
of
Education
of
the
People's
Republic
of
China.
There
are
over
40,000
students
studying
in
various
courses
offered
by
Fudan
University.The
languageof
instruction
isChinese.LLaMA2-13B-修改語言核心區(qū)1維擴(kuò)大10倍
(PPL376079936):Fudan
University
is
located
in<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>No<s>S<s>You<s>There<s>That<s>A<s>This<s><s>##<s><s><s><s><s>This<s><s><s><s>This<s><s><s>t<s><s>The<s>/<s><s>What<s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s
><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s><s>th<s><s><s><s>d<s>v<s><s>\<s>{"<s>LLaMA2-13B-修改語言非核心區(qū)LayerNorm其他維度擴(kuò)大10倍
(PPL5.914):Fudan
University
is
located
in
Shanghai,China,the
largest
city
with
themosteconomicandculturalactivities
in
China.
With
the
most
advanced
infrastructure
and
the
best
living
condition,
it
has
become
the
internationaleducationcenterwiththe
largestoverseastudents.
It
consists
of
Jinan,
Kangqiao
and
Fenglin
campus,
which
boaststhe
best
resources
from
botheducationand
research.
Fudan
University
has
beenafamousand
attractive
universityfor
international
students,
especially
in
the
past
one
decade
from
2001-2010.大語言模型基礎(chǔ)理論突破,發(fā)表大模型相關(guān)論文80+篇國際上首次提出的大語言模型語言核心區(qū)和維度依賴?yán)碚?,可以有效指?dǎo)大語言模型訓(xùn)練過程UnveilingLinguisticRegionsinLarge
LanguageModels,
ACL
202441.大語言模型語言核心區(qū)與維度依賴5UnveilingLinguisticRegionsinLarge
LanguageModels,
ACL
2024ArabicMMLU:
AssessingMassiveMultitaskLanguageUnderstandingin
Arabic
(Kotoetal.,
arXiv2024)破壞‘Arabic/Vietnamese’
區(qū)域1.大模型能力邊界在哪里?6知識利用層次圖大模型目前在哪個(gè)層級?未來可以到哪個(gè)層級?Wangetal.KnowledgeMechanismsin
Large
Language
Models:ASurvey
and
Perspective,
EMNLP
2024大模型目前在哪個(gè)層級?未來可以到哪個(gè)層級?4—
目前?知識利用層次圖Wangetal.KnowledgeMechanismsin
Large
Language
Models:ASurvey
and
Perspective,
EMNLP
2024知識利用層次圖?
長上下文建模?
多任務(wù)學(xué)習(xí)?
跨語言遷移性?
文本生成能力我認(rèn)為:目前仍然是記憶Wangetal.KnowledgeMechanismsin
Large
Language
Models:ASurvey
and
Perspective,
EMNLP
2024知識利用層次圖AGI系統(tǒng)才能“理解”?
理解物理世界?
擁有長久準(zhǔn)確記憶?
可以推理?
可以分層次規(guī)劃Wangetal.KnowledgeMechanismsin
Large
Language
Models:ASurvey
and
Perspective,
EMNLP
2024大模型能力邊界的實(shí)踐研究11當(dāng)前大模型依然無法完成真正的“理解”與“推理”12大模型“參加”2024高考數(shù)學(xué)情況13
大模型“參加”2024高考數(shù)學(xué)情況
兩場平均分最好70%
,最差25%,填空題成績更差14大模型“參加”2024高考數(shù)學(xué)情況即便正確回答的題目,計(jì)算過程和答案不相符的比例很高15大模型“參加”2024高考數(shù)學(xué)情況輸入形式的微小不同,結(jié)果相差很大16大模型“參加”美國數(shù)學(xué)奧賽情況USAMO完美契合評估LLM的目標(biāo):題目難度高、要求完整證明過程才能得分,且未經(jīng)公開數(shù)據(jù)污染。ETHZurich
研究團(tuán)隊(duì):
實(shí)際上,
LLM幾乎從未沒有學(xué)會數(shù)學(xué)證明!17歸納推理的能力如何呢?Dziri,
Nouha,etal.“Faithandfate:
Limitsoftransformerson
compositionality.”AdvancesinNeuralInformationProcessingSystems36
(2024)
AllenAI
18乘法的步驟:當(dāng)任務(wù)復(fù)雜程度增大時(shí),模型的準(zhǔn)確率接近為0Dziri,
Nouha,etal.“Faithandfate:
Limitsoftransformerson
compositionality.”AdvancesinNeuralInformationProcessingSystems36
(2024)
AllenAI
19使用
180萬數(shù)據(jù)訓(xùn)練GPT3模型GPT3經(jīng)過充分調(diào)整,
在特定任務(wù)數(shù)據(jù)上達(dá)
到了一定的問題規(guī)模。
藍(lán)色區(qū)域表示分布內(nèi)
樣本
,紅色區(qū)域表示OOD樣本。所有
k1
和
k2
符合
1
≤
k1,
k2
≤4
并且
k1
·
k2
≤
9;歸納推理的能力如何呢?Dziri,
Nouha,etal.“Faithandfate:
Limitsoftransformerson
compositionality.”AdvancesinNeuralInformationProcessingSystems36
(2024)
AllenAI
20訓(xùn)練過程中簡單加入過程作用也十分有限D(zhuǎn)ziri,
Nouha,etal.“Faithandfate:
Limitsoftransformerson
compositionality.”AdvancesinNeuralInformationProcessingSystems36
(2024)
AllenAI
21乘法2025-01-31報(bào)告大模型工具調(diào)用評測RoTBench:AMulti-LevelBenchmark
forEvaluating
theRobustnessof
LargeLanguage
Models
in
Tool
Learning,
EMNLP202424針對變形數(shù)據(jù)GPT4的準(zhǔn)確率也大幅度下降原題:奧利弗在星期五摘了
44
個(gè)獼猴桃
。然后在星期六摘了
58個(gè)獼猴桃
。星期天,
他摘的獼猴桃數(shù)量是星期五的兩倍
。奧利弗有多少個(gè)獼猴桃?變形題目:
奧利弗在星期五摘了
44
個(gè)獼猴桃
。然后在星期六摘了
58
個(gè)獼猴桃
。星期天,
他摘的獼猴桃數(shù)量是星期五的兩倍,但其中
5個(gè)比平均大小要小
。奧利弗有多少個(gè)獼猴桃?GPT-o1-mini
給出的答案是:
……
在星期天,
這
5
個(gè)獼猴桃比平均大小要小
。我們需要從星期天的總數(shù)中減去它們:
88
(星期天的獼猴桃)
-
5(小獼猴桃)
=
83個(gè)獼猴桃。Mirzadeh
et
al.
,
GSM-Symbolic:
Understanding
the
Limitations
of
Mathematical
Reasoning
in
Large
Language
Models.Arxiv
2024GPT-o1preview小學(xué)數(shù)學(xué)題上也“翻車”了全數(shù)據(jù)驅(qū)動(dòng)的大模型實(shí)現(xiàn)“推理”面臨巨大挑戰(zhàn)實(shí)現(xiàn)因果學(xué)習(xí)是關(guān)鍵27碩士入學(xué)考試數(shù)學(xué)100分小學(xué)應(yīng)用題可能只有10分仍然不知道strawberry有幾個(gè)r282930大模型依然是統(tǒng)計(jì)機(jī)器學(xué)習(xí)不是“能力”的逐項(xiàng)提升31高中數(shù)學(xué)
初中數(shù)學(xué)小學(xué)數(shù)學(xué)算數(shù)人類能力學(xué)習(xí)過程32小學(xué)數(shù)學(xué)題中考數(shù)學(xué)題高考數(shù)學(xué)題數(shù)公式中數(shù)字個(gè)數(shù)大模型“能力”學(xué)習(xí)過程數(shù)單詞字母數(shù)33單個(gè)模型可以處理數(shù)千種任務(wù),
但是仍需要逐項(xiàng)進(jìn)行優(yōu)化35大模型高泛化工具調(diào)用1217條數(shù)據(jù),
7B模型大幅度超越開源模型,在工具選擇正確性維度超越GPT4oTL-Training:A
Task-Feature-BasedFramework
for
TrainingLargeLanguageModelsin
Tool
Use,
arXiv2024消除負(fù)面影響、優(yōu)化關(guān)鍵Token、
引入獎(jiǎng)勵(lì)機(jī)制36大模型Code生成能力提升“StepCoder:
ImproveCodeGenerationwith
Reinforcement
LearningfromCompiler
Feedback.”ACL
20243738RLHF推動(dòng)翻譯偏好建模:低成本實(shí)現(xiàn)“信達(dá)雅”AdvancingTranslation
Preference
Modelingwith
RLHF:AStepTowardsCost-EffectiveSolution,
arXiv
202439復(fù)雜圖表內(nèi)容問答圖表理解能力超越GPT4oDISTILL
VISUAL
CHARTREASONINGABILITYFROMLLMS
TOMLLMS,arXiv
20242.大模型能力來源思考411.直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識記憶概率Predicting
Large
Language
ModelCapabilitiesonClosed-BookQA
Tasks
UsingOnly
InformationAvailable
PriortoTraining,ArXiv2025FromGPT-4Technical
Report
1.直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識記憶概率Predicting
Large
Language
ModelCapabilitiesonClosed-BookQA
Tasks
UsingOnly
InformationAvailable
PriortoTraining,ArXiv2025
1.直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識記憶概率Predicting
Large
Language
ModelCapabilitiesonClosed-BookQA
Tasks
UsingOnly
InformationAvailable
PriortoTraining,ArXiv20252.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù),并且要跟模型緊密配合完成某個(gè)領(lǐng)域知識問答僅需__
6_0__條訓(xùn)練數(shù)據(jù)不同LLMs的數(shù)據(jù)需求差異巨大EmpiricalInsightsonFine-TuningLargeLanguage
Models
for
Question-Answering,
arXiv
202445問題
1:在
SFT階段需要多少數(shù)據(jù)才能讓
LLMs執(zhí)行QA任務(wù)?問題2:不同的
SFT數(shù)據(jù)如何影響
LLMs在QA任務(wù)中的表現(xiàn)?問題
3:不同
LLMs在SFT階段的數(shù)據(jù)要求有何不同?2.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)EmpiricalInsightsonFine-TuningLargeLanguage
Models
for
Question-Answering,
arXiv
2024462.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)
EmpiricalInsightsonFine-TuningLargeLanguage
Models
for
Question-Answering,
arXiv
202447模型知識記憶情況判斷2.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)EmpiricalInsightsonFine-TuningLargeLanguage
Models
for
Question-Answering,
arXiv
202448發(fā)現(xiàn)1
:無論使用何種數(shù)據(jù)進(jìn)行微調(diào),
LLM
都
能對在預(yù)訓(xùn)練中記憶較好的知識提供更準(zhǔn)確的答案。發(fā)現(xiàn)2:使用特定記憶水平的數(shù)據(jù)進(jìn)行訓(xùn)練可提高
LLM在該知識水平上的表現(xiàn)。發(fā)現(xiàn)3:總體而言,
更有效的策略是使用記憶水平較高的數(shù)據(jù)進(jìn)行SFT。2.有監(jiān)督微調(diào)階段僅需少量數(shù)據(jù)發(fā)現(xiàn)4:不同
LLMs的預(yù)訓(xùn)練語料庫的差異導(dǎo)致知識分布的顯著不同EmpiricalInsightsonFine-TuningLargeLanguage
Models
for
Question-Answering,
arXiv
2024493.預(yù)訓(xùn)練模型參數(shù)與SFT模型關(guān)聯(lián)Unveiling
theMysteryofSFT’sImpactonModel
Performance
from
Token
Level
and
ParameterLevel,
arXiv
202450使用記憶水平較低的數(shù)據(jù)進(jìn)行SFT,會大幅度改變模型參數(shù)3.預(yù)訓(xùn)練模型參數(shù)與SFT模型關(guān)聯(lián)PerformanceofLLaMA-3-8B
after
restoring
differentscales
ofparameters
across
various
fine-tuningdatasets.Unveiling
theMysteryofSFT’sImpactonModel
Performance
from
Token
Level
and
ParameterLevel,
arXiv
202451盡可能少的改動(dòng)預(yù)訓(xùn)練參數(shù)4.多樣性對SFT訓(xùn)練的影響
如何衡量多樣性?MeasuringDataDiversity
forInstruction
Tuning:ASystematicAnalysisandAReliableMetric,arXiv
2024不同多樣性評價(jià)指標(biāo)與模型效果的相關(guān)性52在二維空間中模擬數(shù)據(jù)選擇:選擇A模擬具有冗余的數(shù)據(jù)集
,選擇B優(yōu)化樣本之間的距離
,而選擇C同時(shí)考慮距
離和密度4.多樣性對SFT訓(xùn)練的影響
如何衡量多樣性?MeasuringDataDiversity
forInstruction
Tuning:ASystematicAnalysisandAReliableMetric,arXiv
202453“Countdown”游戲作為測試,使用給定的數(shù)字和基本運(yùn)算(加減乘除)達(dá)到指定的目標(biāo)數(shù)例如,給定25、
30、
3、4四個(gè)數(shù)字,目標(biāo)是32,解決方案可以是:
(30
-25
+
3)
×4Qwen模型通過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練后表現(xiàn)出顯著進(jìn)步,而Llama模型卻幾乎停滯不前
5.推理能力的來源是強(qiáng)化學(xué)習(xí)嗎?
Cognitive
Behaviorsthat
EnableSelf-Improving
Reasoners,or,
Four
Habitsof
Highly
EffectiveSTaRs,
arXiv
202554相同的方法為什么Qwen可以,
Llama不行?Cognitive
Behaviorsthat
EnableSelf-Improving
Reasoners,or,
Four
Habitsof
Highly
EffectiveSTaRsarXiv
2025高效思考的四個(gè)關(guān)鍵行為:(1)驗(yàn)證能力(Verification):系統(tǒng)性地檢查中間結(jié)果和步驟是否正確,如"讓我們驗(yàn)證這個(gè)結(jié)果..."(2)回溯能力(Backtracking)
:
當(dāng)發(fā)現(xiàn)錯(cuò)誤時(shí),能夠明確地修改和調(diào)整方法,如"這個(gè)方法行不通,因?yàn)?.."(3)子目標(biāo)設(shè)定(Subgoal
Setting)
:將復(fù)雜問題分解為可管理的步驟,如"要解決這個(gè)問題,我們首先需要..."(4)逆向鏈?zhǔn)酵评恚˙ackward
Chaining)
:從目標(biāo)反向推導(dǎo)解決方案,如"要達(dá)到7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大型機(jī)械設(shè)備吊裝工程專項(xiàng)施工方案
- 園林景觀亮化工程施工方案
- 2025年阿克蘇職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試題庫帶答案解析
- 2025年鐘山縣招教考試備考題庫附答案解析(奪冠)
- 2025年西華縣招教考試備考題庫帶答案解析
- 2025年子洲縣幼兒園教師招教考試備考題庫及答案解析(奪冠)
- 2025年吉林水利電力職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題附答案解析
- 2025年廈門軟件職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試模擬題附答案解析(奪冠)
- 2025年遵義醫(yī)藥高等專科學(xué)校單招職業(yè)傾向性測試題庫帶答案解析
- 2026年保定職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案解析
- 黨支部書記2025年度抓基層黨建工作述職報(bào)告
- 2025年數(shù)字人民幣應(yīng)用基礎(chǔ)考試模擬試卷及答案
- 2025版過敏性休克搶救指南(醫(yī)護(hù)實(shí)操版)
- 融媒體考試試題及答案
- 孕婦監(jiān)護(hù)和管理課件
- 2026年安全員之A證考試題庫500道(必刷)
- 眼科疾病常見癥狀解析及護(hù)理指南
- 《2+N糖尿病逆轉(zhuǎn)治療行業(yè)規(guī)范與操作流程》
- 注射用伏欣奇拜單抗-臨床用藥解讀
- (正式版)DB21∕T 1565-2025 《預(yù)應(yīng)力混凝土管樁基礎(chǔ)技術(shù)規(guī)程》
- 壓裂裂縫檢測技術(shù)
評論
0/150
提交評論