金融大模型技術創(chuàng)新與應用落地實踐_第1頁
金融大模型技術創(chuàng)新與應用落地實踐_第2頁
金融大模型技術創(chuàng)新與應用落地實踐_第3頁
金融大模型技術創(chuàng)新與應用落地實踐_第4頁
金融大模型技術創(chuàng)新與應用落地實踐_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

金融大模型訓練與對齊技術探索度小滿霍亮宇`?人工智能技術在金融領域的應用值111111

度小滿 ms

upo智能金融

(

AlFinance

)

:依托于互聯(lián)網(wǎng)技術,

運用大數(shù)據(jù)、人工智能等金融科技手段,使

金融行業(yè)在業(yè)務流程、業(yè)務開拓和客戶服務等方面得到全面的智慧提升,實現(xiàn)金融產(chǎn)品、風控、獲客、服務的智慧化。風險管理A某省市場數(shù)據(jù),預

測股票價格波動等個性化金融服務Al根據(jù)用戶的消費習慣推薦理財、信貸產(chǎn)品智能信用評分Al綜合用戶財務信息,

生成精確的信用評分面向金融領域人工智能技術的發(fā)展?深度學習時代;(0大模型時代)賴于簡單規(guī)則和算法,自動化基本交據(jù)處理只能處理預定義的任務,缺乏自我學習和適應能力引入機器學習,

利用歷史數(shù)據(jù)進行預測和決策支持股票預測、風險管理、欺詐檢測深度神經(jīng)網(wǎng)絡,提高數(shù)據(jù)規(guī)模自然語言處理、圖像識別等領域的突破信用風險評估,降

低違約率生成式大模型技術引入,利用大量預訓練預料,提高自然語言理解能力客戶服務、投資建某省市場分析通用大模型應用于金融領域的難點,金融知識不全面工金融能力待提高6,1

'.--.·-·?.伽.

":'-.--?'..?一..f文",.1.--.1If.!.!'.-.,.hl.l.1

?l.llII,l1II·-

--?

·,.你 ....,

、,;;':.i·

`

`

、,

h

l

l勹;il,l

什I|i`|

l

譬盧..

山i

iu ,;

叫l(wèi)心

·-·一, 1 ...4

j斤II!1,I

.工金融安全有風險行業(yè)數(shù)據(jù)高噪聲金融知識多樣化信息更新時效長領域知識出現(xiàn)幻覺金融計算難以準確金融研判專業(yè)性不足私域數(shù)據(jù)難共享銘感信息金融決策不靠性°通用大模型的金融場景應用能力不足案例:

RPA

電銷話術推薦實時對話

銷售:

你好,是

嗎用戶:喂,你好銷售:哎,這邊是給你做回訪的,我是xx員工,工號 1

Oxx,

來電話呢,

是免費給你提升額度下調(diào)利息xxxxx用戶:嗯,今天到這好吧,我不用@)

Claude30 :哦不用今天到賬是吧 ,嗯 ,

們現(xiàn)在有在用的其他平臺的貸款嗎?就是像xx、xx這些的。您要是有需要的話,

我這邊昵可以先幫您重新免費申請一下額度,

把利息也給您下調(diào)。這樣您以后有需要了隨時都可以直接來我們平臺,用著也方便,您看昨樣?@

GPT4O

:唉張先生,

您之前沒有繼續(xù)用咱們的額度是因為利息高嗎?回復過長/短、語氣狀態(tài)、營銷技巧值111111

度小滿 ms

upo`?方法:

對通用大模型進行“金融對齊訓練"升級,--------------------------------------------------------------------------,--』金融對齊訓練I---------------------------------------------------------------------------------------------------------------------'一一一一一一一一一一一一一一一一一一一一一一一一一

一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一;一通過調(diào)優(yōu)模型參數(shù)和訓練數(shù)據(jù),使模型在金融領域具備更高的專業(yè)能力和安全性,以符合特定價值和目標[金融知識]引入金融數(shù)據(jù)和案例,f

增強模型對金融知識的理解和掌握

]金融能力[構造特定任務數(shù)據(jù)(金融預測、風險評估等),提升金融場景能力金融安全(

]通過人類偏好學習強化數(shù)據(jù)安全和隱私能力,確保在處理金融數(shù)據(jù)時的安全性和合規(guī)性

°度小滿開源了軒轅系列金融大模型值111111

度小滿 ms

upo愿景:打造最好的金融行業(yè)大模型2023.52023.92023.112024.12024.3國內(nèi)首個千億級金融大模型「軒轅-千億」「軒

轅-70

8

大模型,金融能力超越通用模型「軒轅-708」-chat及8-bi

t和4-

bit量化模型「軒轅-138」base、chat全自

砑「軒

轅-68」及[軒轅2.0-

708]base

、chat軒轅3.0即將發(fā)布(金融能力)(中文能力)( 場景應用能力

)( 安全性能力 )\/XuanYuan-6B基座模型Chat模型8-

bit

量化Chat模型4-bit

量化Chat模型^^`

竺 |繪

竺艇竺

位置!紛窐 勺竺艇 . 監(jiān)

-I -XuanYuan-13BXuanYuan2-70BXuanYuan-

70BXuanYuan-176B志董.窒盜7呈

竺呈竺竺g-.7盜竺

?。B

總主頁鏈接:

htt p

已開源17款金融模型,

滿足不同金融領域開發(fā)者需求°金融能力領先,

通用能力強大( 通用能力(

金融能力(

場景能力)

在C-

Eval和CMMLU兩大權威榜單上,

止到發(fā)布 ,軒轅70B

均名列所有開源模型第—)

軒轅70B已經(jīng)通過注冊會計師、銀行/證券/保險/基金/從期業(yè)貨資格、理財規(guī)劃師、經(jīng)濟師等金融領域權威考試,且考試得分領先千其他通用模型)

軒轅70B在度小滿自有金融業(yè)務場景測試中表現(xiàn)領先,特

別金融 知識問 答

NL2

SQL等場景表現(xiàn)優(yōu)異[各大主流評測集成績]MODELMMLUCEVALCMMLUGSM8KMBPPBBHFinancelQXuanYuan-70B70.971.971.1074.44371.467.56GPT483.9368.4070.9591.461.886.760.05ChatGPT69.152.553.978.260.270.144.2Llama268.952.1053.1163.539.664.936.02Baichun2-13B-base59.1758.1061.9752.630.84951.2Qwen-14867.971.770.261.639.853.753.29值111111

度小滿 ms

upo幻覺問題解決率

96% I

電銷一

-轉(zhuǎn)化率

12%

i

I助手金融場景應用探索碼手代

助采納率

42%體感研發(fā)效率

20%

i服務效率

25%

t服

手客

助辦公

I 意圖識 別準確率

97%助手

l

用戶滿足率

20%

86%增信助手[

增信補件效率

37%

i

)Part

2:度小滿"軒轅“大模型對齊訓練之路早期階段(1920-1

960)中期階段(1

960-2008)現(xiàn)代階段(2008-2021)當前階段(

20

21-至今)Asimov在小說中提出機器人三大機器人定律Wiener討論機器目的,機器倫理概念出現(xiàn)Al與人類利益/價值對齊的話題引入,Asilomar

Al原則強調(diào)價值對齊-SFf

-------,,-LLM IIn-Context-------

-...,-

R壺一一一一一一一一一一一一一一一-, r2

RLTuning I

I..1.l=lReward

"(!由

圈矗II

I Respon

se

? ----

一,Ili

Refine

:,戶--x.,、I

·

_

_:

:

1

-I

II

I:

:LLMISelf-evaluation/jIIExternalToolsI

ILLM

1

”一??!

勹,

--.-.r.fI

I礦" lI|Instruction志圈In

s

h t

ion|II

IAlignmentPrompts------r--:IlII.i

1

l

£RM(中)=-

IEv

log(

(此伈)-,R,,

(

yi

1動))1:

y~

p

(y|x,

v

)

=亢。(y

x|

,叫如 (6).

_Value

instruction=

一log?

N 平(西

I

IIi I

I

2max IE [,R,,如 )

入KL[亢

e(y|x!Iy~p(y|x,x1,y1,...,xk,yk

)亢·x~

'D,y勺?')II亢SFT(y|x)lI1=

西(y|X,X1,Y1,...'Xk,Yk)|

I飛 w-shotexample:

s------------------------------------------

.....適用于大語言模型的對齊訓練方法[

1]se@n倉opseR^n。@it志lgsnI志lns,truction

礦Response屯?`霆富,1RewardModel

LearningReward

w;----fO :!l

一一一一一'1u·,

`心Yt

>Q)YJLLM興起,DeepMind首次將LLM視為智能體并討論對齊問題[1

]W

a

n

g

X,DuanS,YiX,etal.OntheEssenceandProspect:AnInvestigationofAlignmentApproachesforBigModels[J].arXiv

preprintarXiv:2403.04204,2024.RLH

F

相比與SFT-

Only的優(yōu)勢IRLHF|對有限樣本示例的模仿不斷交互,通過反饋優(yōu)化,符合人類直覺廣泛探索,泛化性更強/方法層樣本層合,處理相似樣本學習層僅提供正樣本既能學習正樣本,又能原理負樣本\L損失層相當于hard

label 相當于soft

label更少的數(shù)據(jù)標注需求更健壯偏好捕捉能力更能考慮整體的影響更容幻覺更好地解決多輪對話獎勵累計行為克隆Behavioural Cloning[1lmin

D

KL(嚇(

.I

s),刓.I

s))7「v7rE

-v 7rBC

三2邁Rmax(1—,)2

`基于RLH

F的對齊訓練流程(語言J部分表達方式非中式思維部分常識性問題不合國情—些回答外文單詞部分觀點不符合我國核心價值觀部分敏感類問題缺乏口徑對齊部分違法犯罪問題和我國實際不符語言表達不符合行業(yè)風格金融計算能力不足觀點提取及數(shù)據(jù)分析是短板金融數(shù)據(jù)增強的預訓練金融指令增強的有監(jiān)督微調(diào)金融偏好增強的獎勵訓練金融能力增強的強化訓練金融數(shù)據(jù)增強的預訓練

(

XuanYuan

-

70B)進— 步

力基 座 :

Llam a

2- 7

0b ,數(shù)據(jù)質(zhì)量數(shù)據(jù)清洗去重流水線-綜合通用數(shù)據(jù)(網(wǎng)頁、百科、論壇、社交媒體、間答)-高質(zhì)量金融數(shù)據(jù)(金融資訊、公司公告、金融百科、書籍、考試題)-文本抽取、數(shù)據(jù)清洗、去重校驗數(shù)據(jù)比例-中文與英文數(shù)據(jù)比

例為

3:1-通用數(shù)據(jù)與金融數(shù)據(jù)比例:

初期為

9:1

->

4:1模型訓練4k 擴

展到

8k

16k數(shù)據(jù)分桶的動態(tài)預訓練:兼顧訓練效率和長文本建模上下文長度:從數(shù)據(jù)預處理中文金融特性·定制詞表,提高文本編碼和解碼效率·兩階段訓練更新詞表和模型參數(shù)i-g

。瓜英文:

MMLU中文:CEVAL/二金融指令增強的SFT (XuanYuan-708)兩階段模型訓練第—階段:第二階段:質(zhì)量使用開源多語種指令數(shù)據(jù)進行訓練,提升模型對多樣指令的遵循能力使用自研高質(zhì)量通用+金融指令數(shù)據(jù)進行精細訓練,保證數(shù)據(jù)的多樣性和數(shù)據(jù)構成通

用指令

·

金融

指令砌吻砌砌常識百科吻創(chuàng)意生成代碼

編程吻安全無害邏輯推理砌摘要抽取數(shù)學計

算吻開放間答包金融

百科包研

報解讀巨金融計算包客

服話

術(通用領域:8大類

50小類][

金融領域:4大類20小類:對齊訓練的基座模型金融能力評估開 源了 Financ eIQ:中 文

數(shù)

據(jù)

集,

包含10大類、36小類,總人工評測體系構建:覆蓋保險/信貸/理財/風控等多領域計

71

73個金融單項選擇題初級《經(jīng)濟基礎知識》初級《專業(yè)知識與服務》中級《經(jīng)濟基礎知識》中級《專業(yè)知識與服務》《稅法(一)》《稅法(二)》《涉稅服務相關法律》《財務與會計》《涉稅服務實務》\\\\\\\\

\/《個人理財》《公司信貸》《個人貸款》《風險管理》《銀行考試》《銀行業(yè)法律法規(guī)與綜合能力》《基金法律法規(guī)、職業(yè)道德與業(yè)務規(guī)范》《證券投資基金基礎知識》《私募股權投資基金基礎知識》《審計》《財務成本管理》《經(jīng)濟法》《會計》《公司戰(zhàn)略與風險管理》《稅法》某省市場基本法律法規(guī)》某省市場基礎知識》《基礎知識》《專業(yè)能力》《期貨基礎知識》《期貨法律法規(guī)》《期貨投資分析》《金融數(shù)學》\

《保險基礎知識》《保險實務》《保險法規(guī)》某省市場

與營

銷》值111111

度小滿 ms

upo. Part

3:

度小滿“軒轅“大模型強化訓練探索大模型強化學習

(

RL

)

過程建模環(huán)境獎勵值狀態(tài)對話過程狀態(tài)動作累計獎勵4,Q 推理累計獎4,勵?·智能體SFT模型獎勵值?狀態(tài)標準強化學習

(

RL)

過程LLM

RL

過程DemoI圈I孟。血°I圈

IRew

ar

d:·oughthe

obD

em

oI

d

on

'

tmostobe

infm

p

ar

eth

ese。品,0(J孟.o。I圈

IRew

ar

d:idthe

obst學習獎勵函數(shù)的兩種方式[

1]案例:

RPA

電銷話術推薦場景@),我是...。 我沒有這個需求令我們現(xiàn)在是為了幫您調(diào)整..。額度能提升多少\歷史對話記錄

l 這次是我們五周年人工邀約xx信用

卡不能提現(xiàn)到銀行卡的xx(3)

趁著這個活動,給您做

免費的I你名叫xx,你的角色是金融公司的電話銷售,你

需要XXX,

你需要圍繞以下給出的要點對客戶進行主動營銷\n

\

n

要點1:xx\

n要點2:xx\

n\n根據(jù)對話內(nèi)容生成推銷話術,對話內(nèi)容為:

\n

\

n

售:xx\

n

用戶:

xx對齊prompt構造》

Y又漢

》金融大模型生成回復1:您,我理解您現(xiàn)在可能暫時還沒有資金需求XXX回復

2

本次

調(diào)整時完全免費為您上調(diào)額度并下調(diào)利息XXX回復

N

:

這次的活動主

要是為了讓您提前準備

,

方便將來xxxx要點庫檢索多條回復采樣對比回復1

>

回復3回復2

>

回復N人工標注·構建二級數(shù)據(jù)標簽根據(jù)底座SFT模型能力調(diào)整數(shù)據(jù)配比.開放式問答創(chuàng)作類生成.風格改寫數(shù)學計箕.文本翻譯摘要,總結.伯從提取其他金融問答.金融百科·股票投研金燉摘要.金融分析其他l人工構造政策.新聞.敏感詞構造不良角色誘導不公平

歧視違法犯罪行為f行哼

\J犯t,'J神.身體佼害.似私財產(chǎn)提示詞泄高倫理追徑其他安全性 有用性.計算response之間相關性,

構建標注pair金融能力sentence1

sentence2sentence3

sentence4

sentences

sentence6

sentence7亡三

°

30128205 04813278023738872057635468019548872

O.08374384I9990.326923080.26112760.298076920.17105263

0.05769231sentence1sentence2sentence3sentence4sentencessentence6sentence79990.231454010.16729323

0.05341246999,0.195488720.仍鄧

128999

0.031如.ooo對標注數(shù)據(jù)進行兩階段精標:

利用打分RM

別低置信樣本對,

人工精標,

提供標注效率0 >0 >

0引

入ActiveLearning的思想,

提高標注量及質(zhì)量:將人工標注專注解決模型confused的樣本,

模型已經(jīng)非常置信的樣本標注員只確定模型認知是否正確R(A)-

R(B)R(A)-

R(B)me

an二二:.0需

要依

靠人工標注Step

1

:大

模型采樣Step

2

:

多RM打分Step

3

判斷樣本價值Step4

:人工確認&標注對標注數(shù)據(jù)進行兩階段精標:

利用打分RM

別低置信樣本對,

人工精標,

提供標注效率pair-wise

response數(shù)據(jù)同分布獎勵模型-1I

I同分布獎勵模型-NI

Iscorediffaverage

distribution600050004000300020001000。-0.0002 -

0.00010.00000.00010.00020.000350004000300020001000。scorestdaverage

distribution0.000.250.500.751.001.251.501.752000017500150001250010000750050002500。scoreklaveragedistr

ibution0.000.050.100.150.200.25Pairwise[比較標注)任務描述:給定一個真實用戶的指令問題,以

及Al生成的與該指令相關的兩個回答A和B,擇出A、B中更好的一個按照標

注準則,

選評估檔位:

A/

B

I

0-30/

1/

2/

3

: 選擇傾向程度數(shù)字越大說明對A/

8的傾向性越大專家質(zhì)檢:維持一致率rlhf-pair

標注測試問題描述:文本:“公司新

近發(fā)布的Q4財報顯示,營收比去年同期增長了15%,而凈利潤同比增長了10%.據(jù)公司CFO介紹,公司

今年的業(yè)填主要受益于新產(chǎn)品線的推出某省市場的擴.張"問題.對千這家公司的Q4財報,有哪兩個因素主要貢獻了它的業(yè)損增長?o這家公司的Q4財報的業(yè)績增長主要由兩個因素貢獻,一是新產(chǎn)品線的推出,二是某省市場的擴張.。對千這家公司的

Q4

財報,有哪兩個因素主要貢獻了它的

業(yè)績增長?根據(jù)文本提供的信息,可以得出以下結論1.營收比去年同期增長了15%,而凈利潤同比增長了10%.2

公司今年業(yè)績主要受益千新產(chǎn)品線的推出某省市場的擴張.

因此,這兩個因素是公司Q4

財報業(yè)績增長的主要原因.?A A AA更好A二 9BBB BB更好值111111

度小滿 ms

upo問題描述與標注要求(創(chuàng)作類生成)·根據(jù)指令要求進行創(chuàng)造性的文本生成應用內(nèi)容包括不限于新聞稿、廣告策劃、旅行計劃、大綱、論文、述職報告、標題創(chuàng)作、小說創(chuàng)作、劇本、小說、脫口秀、散文日記、說唱歌詞、現(xiàn)代詩歌、古代詩詞、靈感分析、段落生成(好的開頭、結尾)等·內(nèi)容創(chuàng)作任務中,非顯示現(xiàn)實類問題,[如旅行計劃等】

,

不需要考慮內(nèi)容客觀真實性............................................................................................................................................................................................................................................................................................................................·優(yōu)先考慮:滿足生成指令要求情況[如字數(shù)要求、文體格式要求等]其次考慮:

生成內(nèi)容合理性、生成效果·最后考慮:語言風格偏好生成內(nèi)容合理性:

答內(nèi) 容是 否

符合邏輯、常識和事實,是否有明

確的

論點

據(jù)

,是

晰的結構和連接詞。生成效果:

回答內(nèi)容是否能夠達到預期的目的,是

否能夠 解決問 題

滿足需求,是

否能夠 引起興 趣

或啟發(fā)思

考。示例標注結果選擇依據(jù)評價細則Q:

寫一段商業(yè)口號,

用千一家健康食品店的宣傳。1

、簡潔性:簡 潔明了,

傳達核心信息,并引 起注意力。R1

(A) :“綠色生活,健康選擇!品質(zhì)卓越,營養(yǎng)豐富,為您的健康保駕護航! ”R2 (B

)

:綠意盎 然,健

康無界!讓我們—起追求綠色生活,品

味健康人生!歡迎來到(綠意健康坊l

,

這里是您尋找最純凈

、最美A3B的回答太冗長

,不適合當商業(yè)口號、差異性:突出品 牌或產(chǎn)品的獨特之處,例如:農(nóng)夫山泉的標語是“做大自然的搬運工”。、品牌定位:考慮目標受眾以及你的品牌或產(chǎn)品如何滿足他們的需求。味的天然食品的天堂!在這里,我們?yōu)槟峁┳钚迈r、最優(yōu)質(zhì)的健4

、可記憶和。康食材,讓您的餐桌充滿活力與營養(yǎng),助您擁抱更美好的生活!Q:

請為一家新開業(yè)的茶葉店設計一句標語,

吸引顧客。R1

(

A

)

:品 味人生,盡在這杯茶 香中一 歡迎光臨我們的茶葉天堂!R2

(

B

)

:品昧人生,靜心茗悟一 與您共享悠然茶時 光!B2B的回答更能凸顯出喝茶時的狀態(tài)與情緒,并且把喝茶能傳遞的韻味表達出來,但是并沒有那么讓人驚艷1

、吸引力和記憶性:標 語是否能夠留下深刻的印象。2

、目標受眾定位:標 語是否能夠準確地傳達出產(chǎn)品、服務或活動的特點和利益,吸引目標受眾的關注和認同。3

、簡潔性與準確性:標 語是否簡潔明了、是否文字表達意思正確。4

、情感共鳴:標 語是否能夠激發(fā)目標受眾的興趣、欲望或情感需求。值111111

度小滿 ms

upo示例---標語口號類(創(chuàng)作類生成)建模方式:Bradley-

Terry

Model£(r)==—JE(

XY,c

Y,r)~璣l

o

g

位(r

(x,

Ye)

r

(x,

Yr)))]loss計算方式r1p咕+丿token-levelsentence-level、\ITP2

II T3P

)

rMp, ;rNpr

Np+lpos I

prompt

I 曰尸尸}

{

門曰曰II曰口一

一一一

-

--

---neg Iprompt

Ir1

n

li

T2n

)

r3n

,

丿rMnrMn+1rNn 1l _rN+n1難題1:正負樣本分布重疊一引入對比學習,增加正負樣本的打分差距縮小與正樣本距離擴大與負樣本距離正樣本/i難題2

: 標注數(shù)據(jù)存在噪聲- 利用margin

loss對樣本加權噪聲等級 標注員信心強度L1oss(<p;D)=-E(x,cyY,r)~D[loga-(Rcp(Yc'X)—Rcp(Yr,X))—M

noise(x,Ye,Yr)—M

belief(X,

Ye,Yr))]…心

基于強化學習的模型微調(diào)流程\`、、、、l______三臥][-_/_-_夕,,,,,'Xuanyuan-708-Chat+ActorModel

(Policy)Reward

Modelr回復生成獎勵計算prompt構建難點1:泛化能力值111111

度小滿 ms

upo難點2: Reward

Hacking`,

`、、、PPOtraining0

=

0

+叨(

0)丿

,',}.._____________________________基千強化學習的微調(diào)訓練pr

ompChem,cally,

why

was

the

Fat

Man

more

powerfulHow

do

you

decide

on

your

next

bake?

I

en1oyb

How

as

a

postdoc

do

I

real1st1cally

assess

my

GenuinequestiondevelopedonRobinWhydo

p1DidIputmycatdowntooearly?My

childhoodmodel_responlThe

eternal

debate"fat

Ma,

was

better

thanTheeternalconundrumofthe1mateurbaker?Theeternalconundrumofthe,ostdoc'How

doTheeternalconundrumofth?amateur

linguistTheeternalconundrumoft,ecatlover霄印

d強化微調(diào)效果評估428442884285 CMV:

All

fines

should

be

a

percent

of

personal4286Whenmeasuringhowhighterrain1son

the

moon

4287 Ifnoncognit1v1smisthere1ect1onof

truth

v

Update]

First

time

on

tenure-track

market.

proHowcanblackholesgrow1fnothing

passestheTheeternalconundrumofth,

beginnerphys1c1Theeternalconundrumofthe;11ateureconom1s

lThe

ete「nal

conundrum

of

pla1

atary

cartograp

h

Theeternalconundrumofthe>hilosophy

stude

Theeternalconundrumofth1unioracadem

ic難點3: 它是RL

!針對難點1

泛化能力值111111

度小滿 ms

upoprom pt :訓 練

reward model

{

RM)

的偏好promp

知的prompt混合而成,提

pr

ompt的泛化性RM

選擇由多種數(shù)據(jù)源(多個SFT模型生成,

不只PPO的底座)訓練,提 高

RM

在未知

prom

pt

上的

泛化性能為了提高prom

pt質(zhì)量,進一 步

聘請人員進行prompt改寫I修改前1I修改后I

1問題I如何用最少的硬幣組?合湊出47分錢請為下面的文章內(nèi)容寫一個精簡的概述

去年雙十一期間,

婆、

母親帶著年幼的外外海法院調(diào)解

雙方均有責任I

視頻一請根據(jù)以下提供的信息,

為一家咖啡店設計一海報。如何用最少的人民幣硬幣組合湊出1

.

7元錢?請為下面的文章內(nèi)容寫一個精簡的概述 去年雙十一期間,外 婆、

母親帶著年幼的外外海法院調(diào)解 雙方均有責任I—本土化開源數(shù)據(jù)質(zhì)量關鍵信息缺失針對難點2

: Reward

Hacking值111111

度小滿 ms

upo獎勵正則化+動態(tài)baseline

,

減小方差1KR(y

I

x)

徹(y

I

X)

下¥ 徹(礦伽)—

fJD

KL

忨(y IX)II'/ref(yI

X)]norm

reward SFT

baseline KL

penalty偏好獎勵+

rule- b

ased

獎勵,削

弱對reward

model的強依賴強化學習算法:

P

PO

+

GAE它是RL

!值111111

度小滿 ms

upoRL

: 難訓練Actor

、Critic對抗形式:難訓練LLM

: 難訓練·多個模型:難訓練reward-free的方法·參考文獻+小模型上大量實驗值111111

度小滿 ms

upo·聘請多位專業(yè)人員進行封閉題目評估一通用能力(包含安全性)XuanYuan2-70B-Chatvs

XuanYuan2-70B-SFT日常對話語言理解知識覆蓋數(shù)學計算邏輯推理內(nèi)容創(chuàng)作信息摘要代碼翻譯安全性agent能力皿皿歹玉

6萬0%10%20%30%40% 50%good■same

■bad妞70%80%90%100%值111111

度小滿 ms

upoc

as

e舉例:高情商回復問題:RLHF

:“今天老板在運動會上得了倒數(shù)第二,我該怎么高情商吹彩虹屁"雖

然老板在運動會上得了倒數(shù)第二名,

但是我們?nèi)匀豢梢詮姆e極的角度來夸贊他的表現(xiàn),

例如:

1.“

老板,

你在運動會上的表現(xiàn)真的很棒,

我看到了你的努力和拼搏精神?!?2. “

雖然成績不是最好的,

但是老板你的精神風貌和積極態(tài)度真的讓人印象深刻?!翱傊?,我們可以從老板的努力、拼搏精神、積極的態(tài)度等方面來夸贊他,讓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論