人工智能與未來課件 11.2 超級智能和超級對齊

上傳人：y*** IP屬地：山東上傳時間：2025-12-28 格式：PPTX 頁數(shù)：20 大?。?04.01KB 積分：9.6 舉報 版權(quán)申訴

已閱讀5頁，還剩15頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

TheFuturetechnologyofartificialintelligence第11章

未來技術(shù)2035主講：王紅梅11.111.211.311.4人工智能安全技術(shù)超級智能和超級對齊腦機接口奇點到來和通用人工智能目錄CONTENTS如果人類的進化符合達爾文的適者生存原則，那么人工智能的成長是否有標(biāo)準(zhǔn)呢？

對齊、超級對齊就是基于這種背景下運用而生，也就是說當(dāng)超級智能來臨時也需要有超級對齊來匹配，超級智能超級對齊那什么是對齊，什么是超級對齊呢？對齊的對象是什么？如何對齊？11.2.1對齊11.2.2超級對齊11.2.1對齊

對齊這個概念是OpenAI首先提出的，是指在GPT中，大模型生成的語言文字內(nèi)容既要合法又要符合道德標(biāo)準(zhǔn)，避免觸碰言論紅線。11.2.1對齊

自GPT2開始，采用有監(jiān)督微調(diào)（SupervisedFine-Tuning，簡稱SFT）和人類反饋強化學(xué)習(xí)（ReinforcementLearningfrom

HumanFeedback，縮寫RLHF）進行對齊。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)（SFT)人類反饋強化學(xué)習(xí)（RLHF)11.2.1對齊

預(yù)訓(xùn)練階段會消耗大部分算力資源，主要是使用大量的數(shù)據(jù)反復(fù)訓(xùn)練才獲得足夠聰明的大模型。但是由于人類社會本身就包括可能“有毒”的大量數(shù)據(jù)，又不能篩除掉這些數(shù)據(jù)，因此預(yù)訓(xùn)練后的模型可能會生成諸如詐騙指南等有毒信息。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)（SFT)人類反饋強化學(xué)習(xí)（RLHF)11.2.1對齊OpenAI解決”有毒”問題的方法先采用有監(jiān)督微調(diào)，是指在已經(jīng)預(yù)訓(xùn)練的模型基礎(chǔ)上，使用標(biāo)注數(shù)據(jù)集進一步微調(diào)模型以執(zhí)行特定任務(wù)，如文本分類、情感分析、機器翻譯等，以優(yōu)化模型的表現(xiàn)。這里的意思是：預(yù)訓(xùn)練模型已經(jīng)在大規(guī)模文本數(shù)據(jù)上學(xué)到語言的基礎(chǔ)規(guī)律，而在特定任務(wù)中，模型可能還需要進一步的調(diào)整以適應(yīng)任務(wù)的數(shù)據(jù)分布和用戶偏好。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)（SFT)人類反饋強化學(xué)習(xí)（RLHF)11.2.1對齊

再采用人類反饋強化學(xué)習(xí)，從真人反饋中獲得人類的道德標(biāo)準(zhǔn)，并用這些反饋來建立“獎勵模型”，用來進一步微調(diào)預(yù)訓(xùn)練模型。

講講同學(xué)B拒絕同學(xué)A的故事。

通過模擬這種人類互動模式，語言模型被獎勵生成更委婉的回應(yīng)，以避免觸碰法律和道德紅線。從而確保模型能更好模擬人類反應(yīng)模式，提供更符合人類價值觀的回答，這就是對齊。GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)（SFT)人類反饋強化學(xué)習(xí)（RLHF)11.2.1對齊

可見大模型對齊的對象是以人類行為、法律法規(guī)、社會規(guī)范和道德標(biāo)準(zhǔn)為參考，對齊的目標(biāo)是讓人工智能更符合人類的需要、要求和標(biāo)準(zhǔn)，也就是是讓AI的回答和人類的主流價值觀一致。

為什么要超級對齊呢？GPT大模型訓(xùn)練中的對齊預(yù)訓(xùn)練有監(jiān)督微調(diào)（SFT)人類反饋強化學(xué)習(xí)（RLHF)11.2.2超級對齊未來，當(dāng)人工智能的智能程度遠超人類時，人類怎么去監(jiān)督AI呢？同時讓AI進一步的進化和提升呢？11.2.2超級對齊

針對當(dāng)超級智能出現(xiàn)的時候如何實現(xiàn)人類對人工智能的監(jiān)督機制問題，OpenAI在2023年提出用AI來監(jiān)督AI的方法，創(chuàng)造出超級對齊（SuperAlignment）的概念。

希望確保人工智能在任何時候要符合人類的利益和價值觀，因此也叫人類偏好對齊。11.2.2超級對齊OpenAI提出的思路是當(dāng)AI水平超過人類時，AI仍可以持續(xù)的進步，方法就是基于人類的可擴展監(jiān)督下，提出從弱到強的泛化。意思是利用深度學(xué)習(xí)的泛化特性來控制弱監(jiān)督下的強模型。你說什么？泛化？從弱到強？11.2.2超級對齊OpenAI提出的思路是當(dāng)AI水平超過人類時，AI仍可以持續(xù)的進步，方法就是基于人類的可擴展監(jiān)督下，提出從弱到強的泛化。意思是利用深度學(xué)習(xí)的泛化特性來控制弱監(jiān)督下的強模型。

深度學(xué)習(xí)中的泛化現(xiàn)實生活中說某個人對環(huán)境的適應(yīng)能力學(xué)習(xí)知識后說某同學(xué)對知識的遷移能力

類比

泛化特性指的是模型對于新數(shù)據(jù)的適應(yīng)能力，即模型能否對于未在訓(xùn)練集中出現(xiàn)的數(shù)據(jù)進行準(zhǔn)確的預(yù)測。一個具有很強泛化性的模型能夠在不同的數(shù)據(jù)集上都表現(xiàn)出色，而不僅僅是在訓(xùn)練集上表現(xiàn)良好。11.2.2超級對齊11.2.2超級對齊

這種弱監(jiān)督下的強模型理念相當(dāng)于“只有狀元學(xué)生，沒有狀元老師”的思想，讓經(jīng)過監(jiān)督微調(diào)、符合人類價值觀的小模型如GPT-2去訓(xùn)練強模型如GPT-4。實現(xiàn)秀才“先生”教出“狀元”學(xué)生的目的。11.2.2超級對齊

未來的發(fā)展趨勢是超級對齊，超級對齊理想中是一種自動化的對齊方法，這種自動化的方法是指能自動去發(fā)現(xiàn)大模型的一些漏洞，并能自動進行修復(fù)，修復(fù)以后能不

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能與未來課件 11.2 超級智能和超級對齊

文檔簡介

溫馨提示

最新文檔

評論

人工智能與未來 課件 11.2 超級智能和超級對齊

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能與未來課件 11.2 超級智能和超級對齊