版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
TheFuturetechnologyofartificialintelligence第11章
未來技術(shù)2035主講:王紅梅11.111.211.311.4人工智能安全技術(shù)超級智能和超級對齊腦機接口奇點到來和通用人工智能目錄CONTENTS如果人類的進化符合達爾文的適者生存原則,那么人工智能的成長是否有標(biāo)準(zhǔn)呢?
對齊、超級對齊就是基于這種背景下運用而生,也就是說當(dāng)超級智能來臨時也需要有超級對齊來匹配,超級智能超級對齊那什么是對齊,什么是超級對齊呢?對齊的對象是什么?如何對齊?11.2.1對齊11.2.2超級對齊11.2.1對齊
對齊這個概念是OpenAI首先提出的,是指在GPT中,大模型生成的語言文字內(nèi)容既要合法又要符合道德標(biāo)準(zhǔn),避免觸碰言論紅線。11.2.1對齊
自GPT2開始,采用有監(jiān)督微調(diào)(SupervisedFine-Tuning,簡稱SFT)和人類反饋強化學(xué)習(xí)(ReinforcementLearningfrom
HumanFeedback,縮寫RLHF)進行對齊。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)(SFT)人類反饋強化學(xué)習(xí)(RLHF)11.2.1對齊
預(yù)訓(xùn)練階段會消耗大部分算力資源,主要是使用大量的數(shù)據(jù)反復(fù)訓(xùn)練才獲得足夠聰明的大模型。但是由于人類社會本身就包括可能“有毒”的大量數(shù)據(jù),又不能篩除掉這些數(shù)據(jù),因此預(yù)訓(xùn)練后的模型可能會生成諸如詐騙指南等有毒信息。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)(SFT)人類反饋強化學(xué)習(xí)(RLHF)11.2.1對齊OpenAI解決”有毒”問題的方法先采用有監(jiān)督微調(diào),是指在已經(jīng)預(yù)訓(xùn)練的模型基礎(chǔ)上,使用標(biāo)注數(shù)據(jù)集進一步微調(diào)模型以執(zhí)行特定任務(wù),如文本分類、情感分析、機器翻譯等,以優(yōu)化模型的表現(xiàn)。這里的意思是:預(yù)訓(xùn)練模型已經(jīng)在大規(guī)模文本數(shù)據(jù)上學(xué)到語言的基礎(chǔ)規(guī)律,而在特定任務(wù)中,模型可能還需要進一步的調(diào)整以適應(yīng)任務(wù)的數(shù)據(jù)分布和用戶偏好。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)(SFT)人類反饋強化學(xué)習(xí)(RLHF)11.2.1對齊
再采用人類反饋強化學(xué)習(xí),從真人反饋中獲得人類的道德標(biāo)準(zhǔn),并用這些反饋來建立“獎勵模型”,用來進一步微調(diào)預(yù)訓(xùn)練模型。
講講同學(xué)B拒絕同學(xué)A的故事。
通過模擬這種人類互動模式,語言模型被獎勵生成更委婉的回應(yīng),以避免觸碰法律和道德紅線。從而確保模型能更好模擬人類反應(yīng)模式,提供更符合人類價值觀的回答,這就是對齊。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)(SFT)人類反饋強化學(xué)習(xí)(RLHF)11.2.1對齊
可見大模型對齊的對象是以人類行為、法律法規(guī)、社會規(guī)范和道德標(biāo)準(zhǔn)為參考,對齊的目標(biāo)是讓人工智能更符合人類的需要、要求和標(biāo)準(zhǔn),也就是是讓AI的回答和人類的主流價值觀一致。
為什么要超級對齊呢?GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)(SFT)人類反饋強化學(xué)習(xí)(RLHF)11.2.2超級對齊未來,當(dāng)人工智能的智能程度遠超人類時,人類怎么去監(jiān)督AI呢?同時讓AI進一步的進化和提升呢?11.2.2超級對齊
針對當(dāng)超級智能出現(xiàn)的時候如何實現(xiàn)人類對人工智能的監(jiān)督機制問題,OpenAI在2023年提出用AI來監(jiān)督AI的方法,創(chuàng)造出超級對齊(SuperAlignment)的概念。
希望確保人工智能在任何時候要符合人類的利益和價值觀,因此也叫人類偏好對齊。11.2.2超級對齊OpenAI提出的思路是當(dāng)AI水平超過人類時,AI仍可以持續(xù)的進步,方法就是基于人類的可擴展監(jiān)督下,提出從弱到強的泛化。意思是利用深度學(xué)習(xí)的泛化特性來控制弱監(jiān)督下的強模型。你說什么?泛化?從弱到強?11.2.2超級對齊OpenAI提出的思路是當(dāng)AI水平超過人類時,AI仍可以持續(xù)的進步,方法就是基于人類的可擴展監(jiān)督下,提出從弱到強的泛化。意思是利用深度學(xué)習(xí)的泛化特性來控制弱監(jiān)督下的強模型。
深度學(xué)習(xí)中的泛化現(xiàn)實生活中說某個人對環(huán)境的適應(yīng)能力學(xué)習(xí)知識后說某同學(xué)對知識的遷移能力
類比
泛化特性指的是模型對于新數(shù)據(jù)的適應(yīng)能力,即模型能否對于未在訓(xùn)練集中出現(xiàn)的數(shù)據(jù)進行準(zhǔn)確的預(yù)測。一個具有很強泛化性的模型能夠在不同的數(shù)據(jù)集上都表現(xiàn)出色,而不僅僅是在訓(xùn)練集上表現(xiàn)良好。11.2.2超級對齊11.2.2超級對齊
這種弱監(jiān)督下的強模型理念相當(dāng)于“只有狀元學(xué)生,沒有狀元老師”的思想,讓經(jīng)過監(jiān)督微調(diào)、符合人類價值觀的小模型如GPT-2去訓(xùn)練強模型如GPT-4。實現(xiàn)秀才“先生”教出“狀元”學(xué)生的目的。11.2.2超級對齊
未來的發(fā)展趨勢是超級對齊,超級對齊理想中是一種自動化的對齊方法,這種自動化的方法是指能自動去發(fā)現(xiàn)大模型的一些漏洞,并能自動進行修復(fù),修復(fù)以后能不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年西安鳳城醫(yī)院招聘(27人)筆試考試參考試題及答案解析
- 新生兒敗血癥預(yù)防宣教
- 2025廣西百色平果市發(fā)展和改革局城鎮(zhèn)公益性崗位人員招聘1人筆試考試參考試題及答案解析
- 2026廣東五華縣兵役登記筆試考試備考題庫及答案解析
- 制備納米粉體方法
- 2025年12月廣東深圳大學(xué)選聘高層次人才4人筆試考試備考試題及答案解析
- 團代表自我介紹
- 《客戶關(guān)系管理》課件-2.5.2 客戶反饋分析與服務(wù)數(shù)字化
- 吞咽障礙患者進食宣教
- 德陽什邡市中醫(yī)醫(yī)院招聘筆試真題2024
- 華為HCIA存儲H13-611認證培訓(xùn)考試題庫(匯總)
- 浙江省建設(shè)工程施工現(xiàn)場安全管理臺賬實例
- 社會主義發(fā)展史知到章節(jié)答案智慧樹2023年齊魯師范學(xué)院
- 美國史智慧樹知到答案章節(jié)測試2023年東北師范大學(xué)
- GB/T 15924-2010錫礦石化學(xué)分析方法錫量測定
- GB/T 14525-2010波紋金屬軟管通用技術(shù)條件
- GB/T 11343-2008無損檢測接觸式超聲斜射檢測方法
- GB/T 1040.3-2006塑料拉伸性能的測定第3部分:薄膜和薄片的試驗條件
- 教師晉級專業(yè)知識和能力證明材料
- 申報專業(yè)技術(shù)職稱課件-
- 排隊叫號系統(tǒng)施工技術(shù)方案
評論
0/150
提交評論