版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第第頁對比解碼在LLM上的應(yīng)用(深度學(xué)習(xí))自然語言處理(原創(chuàng))
:wkk
為了改進(jìn)LLM的推理能力,UniversityofCalif(or)nia聯(lián)合Meta(AI)實驗室提出將ContrastiveDecoding應(yīng)用于多種任務(wù)的LLM方法。實驗表明,所提方法能有效改進(jìn)LLM的推理能力。讓我們走進(jìn)論文一探究竟吧!
對比解碼(ContrastiveDecoding)
在走進(jìn)論文之前首先介紹一下什么是對比解碼,其是由Li等人在2022年提出的一種文本生成方法,具有簡單、計算量小、訓(xùn)練自由等特點。它通過查找到最大化強(qiáng)模型和弱模型之間可能性差異的字符串來生成文本,從而產(chǎn)生更多且更高質(zhì)量的文本。在對比解碼中,弱模型可以是常規(guī)的貪心解碼方法,如一些簡單的采樣方法,強(qiáng)模型可以是經(jīng)過訓(xùn)練的大型語言模型。對比解碼可以在很多推理任務(wù)上表現(xiàn)出色,包括算術(shù)推理和多項選擇排名任務(wù),可以提高語言模型的準(zhǔn)確率。
本文創(chuàng)新點:探索對比解碼在LLM上的應(yīng)用。具體地,通過最大化專家模型和較弱的業(yè)余模型之間存在的可能性誤差(如下圖所示)來搜索字符串,避免了專家模型中的不良影響和貪婪解碼會出現(xiàn)的采樣誤差問題。
實驗結(jié)論:通過在多種任務(wù)上的測試,本文證明了對比解碼可以提高大型語言模型在推理和文本生成問題上的性能,這是第一種同時在推理和文本生成問題上實現(xiàn)最先進(jìn)結(jié)果的生成(算法)。此外,還分析了對比解碼的改進(jìn)原因,并探討了該方法在常識推理和事實檢索方面的適用性。
實驗
實驗設(shè)置
模型:實驗采用LLaMA家族的原始模型,其中專家模型為LLaMA-65B,業(yè)余模型為具有1.5B的LLaMA模型。此外,在消融實驗中,本文還對FLAN-T5家族的模型進(jìn)行實驗分析。
解碼(參數(shù)):α=0.1,為原始論文中相同的超參數(shù):專家模型分配的最大概率的比例,任何標(biāo)記都分配了較低的概率被屏蔽掉。β=0.5是對應(yīng)于業(yè)余懲罰強(qiáng)度的超參數(shù)。將前導(dǎo)(1+β)系數(shù)包含在專家logits中,以將對比懲罰的強(qiáng)度與輸出logits的預(yù)期尺度解耦,描述了用于采樣的溫度的對比權(quán)衡之間的對比權(quán)衡。
prompt:對于生成任務(wù)使用8-shot的CoT。
數(shù)據(jù)集:聚焦代數(shù)問題的AQuA、ASDiv、GSM8K、SVAMP和MATH數(shù)據(jù)集,針對常識推理的CommonsenseQA、Stra(te)gyQA數(shù)據(jù)集以及AI2ReasoningChallenge、BooIQ、HellaSwag、MMLU、(PI)QA、SIQA和WinoGrande等基準(zhǔn)數(shù)據(jù)集。
實驗結(jié)果
在GSM8K上的實驗表明,β=0.5能獲得更好的結(jié)果同時業(yè)余模型對于性能的提升可能大于專家模型。
對比解碼往往有助于全面完成具有CoT提示的算術(shù)推理任務(wù)。其中一個例外是MATH數(shù)據(jù)集,它被證明對標(biāo)準(zhǔn)解碼和對比解碼都具有挑戰(zhàn)性。推測因為對比解碼放大了專家比業(yè)余模型學(xué)得更好的技能,所以它對遠(yuǎn)遠(yuǎn)超出專家模型的任務(wù)沒有幫助。
在CommonsenseQA和StrategyQA數(shù)據(jù)集上實驗發(fā)現(xiàn)對比解碼會損害較小模型的性能。
對比解碼的影響
本文還進(jìn)行了一系列附加實驗,研究表明,對比解碼可以在大型語言模型中提高推理能力。在算術(shù)推理和多項選擇排名任務(wù)上,包括LLaMA-65B這樣的大型模型,都有普遍的改進(jìn),這表明對比解碼可以使更大的模型受益。通過分析對比解碼改進(jìn)的原因。實證表明,與貪婪解碼相比,對比解碼從提示中復(fù)制的表面層次較少,錯過的推理步驟也較少。這一結(jié)果表明,對比解碼通過減少模型分布中的短、重復(fù)或其他不良模式來起作用。
結(jié)論
使用對比解碼(ContrastiveDecoding)方法可以顯著提高大型語言模型在一系列推理任務(wù)中的準(zhǔn)確性,這種方法不僅在生成文本方面表現(xiàn)優(yōu)異,還可以在推理問題方面超越當(dāng)前現(xiàn)有的各種模型。同時,該方法能夠減少模型分布中的短、重復(fù)或其他不良模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年北海職業(yè)學(xué)院單招綜合素質(zhì)筆試備考題庫含詳細(xì)答案解析
- 2026年安徽林業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026年江西科技職業(yè)學(xué)院單招職業(yè)技能考試參考題庫含詳細(xì)答案解析
- 2026年內(nèi)蒙古能源職業(yè)學(xué)院單招職業(yè)技能考試備考試題含詳細(xì)答案解析
- 2026首都經(jīng)濟(jì)貿(mào)易大學(xué)招聘103人參考考試題庫及答案解析
- 2026年貴州電子信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試模擬試題含詳細(xì)答案解析
- 2026年河南交通職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試備考題庫含詳細(xì)答案解析
- 2026年溫州科技職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫及答案詳細(xì)解析
- 2026年安徽糧食工程職業(yè)學(xué)院單招綜合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年陜西能源職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試參考題庫含詳細(xì)答案解析
- 北京利達(dá)主機(jī)JB-QB-LD128EN(M)
- 煤礦“春節(jié)”放假停、復(fù)工安全技術(shù)措施
- 全新水利部事業(yè)單位考試歷年真題試題及答案
- 河湖健康評價指南(試行)
- 回款協(xié)議合同協(xié)議書
- DL∕T 5768-2018 電網(wǎng)技術(shù)改造工程工程量清單計算規(guī)范
- YST 581.1-2024《氟化鋁化學(xué)分析方法和物理性能測定方法 第1部分:濕存水含量和灼減量的測定 重量法》
- 小學(xué)五年級數(shù)學(xué)上冊寒假作業(yè)天天練30套試題(可打印)
- 金蟬環(huán)保型黃金選礦劑使用說明
- 常見中草藥別名大全
- YY/T 0884-2013適用于輻射滅菌的醫(yī)療保健產(chǎn)品的材料評價
評論
0/150
提交評論