版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
GenerativeArtificialIntelligence07生成式人工智能2035主講:王紅梅7.17.27.37.4生成式人工智能那些事生成式人工智能概述生成式人工智能的核心技術(shù)*目錄CONTENTS7.5生成式人工智能具體應(yīng)用擴(kuò)展:國(guó)產(chǎn)大模型DeepSeek7.3.1大模型概述7.3.2生成對(duì)抗網(wǎng)絡(luò)GAN7.3.3大模型基礎(chǔ)架構(gòu)Transformer7.3.4擴(kuò)散模型Diffusion7.3.5文生圖的核心CLIP模型討論:現(xiàn)實(shí)生活中,你了解模型嗎?
在正式生產(chǎn)某種產(chǎn)品之前往往會(huì)先做模具;在蓋大樓之前先繪制設(shè)計(jì)圖;在制作衣服之前先做樣衣等等,其實(shí)這些模具、設(shè)計(jì)圖和樣衣等是模型。
為了求點(diǎn)到直線之間的距離,我們會(huì)總結(jié)出數(shù)學(xué)公式,這個(gè)數(shù)學(xué)公式也是模型。
在機(jī)器學(xué)習(xí)中,模型是指通過(guò)算法從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的數(shù)學(xué)表示。
大模型主要是采用深度神經(jīng)網(wǎng)絡(luò)搭建起來(lái)的一個(gè)有輸入、有輸出、有很多參數(shù)、需要很多數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練的一個(gè)模型體系,而這個(gè)體系要運(yùn)轉(zhuǎn)起來(lái),還需要很大的算力。
所以大模型的大,可謂是大數(shù)據(jù)、大參數(shù)和大算力等。7.3.1大模型概述012006年辛頓團(tuán)隊(duì)多層神經(jīng)網(wǎng)絡(luò)022009年李飛飛團(tuán)隊(duì)ImageNet數(shù)據(jù)集032010年GPU被廣泛用于模型訓(xùn)練062017年Google推出Transformer架構(gòu)052014年GAN算法產(chǎn)生可生成文本和圖像042012年AlexNet深度學(xué)習(xí)的轉(zhuǎn)折點(diǎn)072022年OpenAI推出ChatGPT082025年DeepSeek橫空出世AI大眾化大模型相關(guān)的重大事件7.3.1大模型概述
可見(jiàn)大模型的發(fā)展是一個(gè)快速迭代的過(guò)程,每一次進(jìn)步都依賴著計(jì)算能力的提升、算法創(chuàng)新以及應(yīng)用場(chǎng)景的擴(kuò)展。那大模型是怎么工作的呢?7.3.1大模型概述
大模型原理:學(xué)習(xí)已有知識(shí)+生成新知識(shí)一、怎么學(xué)習(xí)已有知識(shí)二、又如何生成新知識(shí)類似與捏泥人的過(guò)程7.3.1大模型概述類似與捏泥人的過(guò)程7.3.1大模型概述搭建硬件架構(gòu),需要GPU等各種深度學(xué)習(xí)算法需要用數(shù)據(jù)進(jìn)行訓(xùn)練能進(jìn)行各種生成介紹大模型主要技術(shù)7.3.1大模型概述7.3.2生成對(duì)抗網(wǎng)絡(luò)GAN
生成對(duì)抗網(wǎng)絡(luò)GAN誕生于2014年,綜合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的思想,通過(guò)生成器和判別器的相互對(duì)抗來(lái)實(shí)現(xiàn)文字、圖像和視頻的生成過(guò)程。原始的GAN并不要求生成器和判別器都是深度神經(jīng)網(wǎng)絡(luò),但在實(shí)際中,往往都是基于深度神經(jīng)網(wǎng)絡(luò)去構(gòu)建。7.3.2生成對(duì)抗網(wǎng)絡(luò)GAN生成器判別器一位正在學(xué)習(xí)畫小狗的畫家一位嚴(yán)格的鑒定師GAN的工作原理對(duì)抗對(duì)抗類比(b)鑒定師對(duì)抗:畫的不好
d)鑒定師不斷對(duì)抗:沒(méi)有身體
(f)鑒定師:可以了(a)畫家隨機(jī)涂鴉
(c)畫家畫狗水平不斷提高
(e)畫家繪制滿意作品7.3.2生成對(duì)抗網(wǎng)絡(luò)GAN生成器生成對(duì)抗過(guò)程判別器GAN的工作原理是一個(gè)神經(jīng)網(wǎng)絡(luò),利用隨機(jī)數(shù)來(lái)生成對(duì)應(yīng)的目標(biāo)對(duì)象。生成的過(guò)程中不斷地根據(jù)判別器提供的對(duì)抗信息進(jìn)行參數(shù)調(diào)整,直到判別器認(rèn)可為止。也是一個(gè)神經(jīng)網(wǎng)絡(luò),根據(jù)訓(xùn)練數(shù)據(jù)集判斷生成器生成內(nèi)容的相似程度,0不像,1非常像。7.3.2生成對(duì)抗網(wǎng)絡(luò)GAN生成對(duì)抗網(wǎng)絡(luò)GAN對(duì)抗過(guò)程7.3.2生成對(duì)抗網(wǎng)絡(luò)GANGAN雖然本身可以生成文字和圖像,但不得不說(shuō),GAN本身并不擅長(zhǎng)文字生成,后來(lái)發(fā)展的GAN的變體也確實(shí)應(yīng)用于文本生成,但GAN最主要或者說(shuō)最廣泛的應(yīng)用還是在圖像生成方面。GAN的應(yīng)用文本生成我不擅長(zhǎng),請(qǐng)找我的子孫們,我擅長(zhǎng)的是標(biāo)出的這些。生成圖像數(shù)據(jù)集圖像創(chuàng)作圖像修復(fù)多模態(tài)生成7.3.2生成對(duì)抗網(wǎng)絡(luò)GAN
在GAN模型的推動(dòng)下,生成式AI應(yīng)該說(shuō)迎來(lái)了春天,而且也有了一些應(yīng)用。GAN缺點(diǎn)和不足(1)生成器和判別器兩個(gè)神經(jīng)網(wǎng)絡(luò),訓(xùn)練難度大(2)GAN本身的機(jī)制是生成器最終為了從判別器那里“騙取”高分,這使得它的生成天生難以充分發(fā)揮生成式AI多樣性和創(chuàng)造性的需要。(3)GAN不好加條件,如生成人可以,但如果添加生成黃皮膚、圓臉、大眼睛的長(zhǎng)發(fā)美女,它就搞不定啦。Transformer和Diffusion就更顯卓越。7.3.3大模型基礎(chǔ)架構(gòu)Transformer
在自然語(yǔ)言的機(jī)器翻譯部分,我們已經(jīng)對(duì)Transformer有初步的認(rèn)識(shí),知道它通過(guò)編碼器和解碼器,同時(shí)設(shè)置中間語(yǔ)義轉(zhuǎn)換向量來(lái)實(shí)現(xiàn)從一種語(yǔ)言翻譯成另一種語(yǔ)言。其實(shí)Transformer的應(yīng)用非常廣泛。我們目前的大模型,無(wú)論是GPT、文心大模型、通義大模型、DeepSeek等,都是基于Transformer來(lái)建立的。你可能好奇,Transformer是怎么做到的呢?7.3.3大模型基礎(chǔ)架構(gòu)Transformer
講講生活中的習(xí)慣思維1.注意力機(jī)制初次見(jiàn)面,先看外表。閱讀文章,先看標(biāo)題批改作業(yè),先看格式共同點(diǎn),通過(guò)后者快速推斷前者,找出其中關(guān)系這就是注意力機(jī)制,就是關(guān)注我們?nèi)菀钻P(guān)注的。
人工智能的注意力機(jī)制最早來(lái)自圖像標(biāo)注,后來(lái)被用于自然語(yǔ)言處理,用于解決機(jī)器翻譯的長(zhǎng)句子處理問(wèn)題。當(dāng)翻譯的句子越來(lái)越長(zhǎng)的時(shí)候,單純的編碼器和解碼器,翻譯效果不理想。7.3.3大模型基礎(chǔ)架構(gòu)Transformer1.注意力機(jī)制基于編碼器和解碼器的機(jī)器翻譯7.3.3大模型基礎(chǔ)架構(gòu)Transformer1.注意力機(jī)制Ilikesports我喜歡運(yùn)動(dòng)ItwasonthemorningofFebruarytheninththatIarrivedinLondon.它在2月的早上第九我到達(dá)了倫敦短句翻譯,還可以
長(zhǎng)句翻譯,就不理想。忽略了詞和詞之間的聯(lián)系,沒(méi)有采用注意力機(jī)制。
采用注意力機(jī)制以后,翻譯:2月9日早晨我到達(dá)了倫敦
從數(shù)學(xué)的角度來(lái)描述注意力機(jī)制的話,可以理解為權(quán)重。就是把重要的內(nèi)容設(shè)置的權(quán)重高,而不重要的內(nèi)容設(shè)置的權(quán)重低。7.3.3大模型基礎(chǔ)架構(gòu)Transformer1.注意力機(jī)制設(shè)置不同權(quán)重的編碼器和解碼器7.3.3大模型基礎(chǔ)架構(gòu)Transformer研究明表,漢字序順并不定一影閱響讀比如當(dāng)你完看這句話,才發(fā)現(xiàn)字全是亂的。來(lái)自科普中國(guó)的一段文字其實(shí)僅有注意力機(jī)制還不夠,請(qǐng)閱讀右邊文字。這是因?yàn)樵陂喿x時(shí),我們并不是逐字閱讀,而是會(huì)掃視“關(guān)鍵字”,然后大腦會(huì)憑借經(jīng)驗(yàn)進(jìn)行“腦補(bǔ)式”的理解。1.注意力機(jī)制----自注意力機(jī)制7.3.3大模型基礎(chǔ)架構(gòu)Transformer
有意思的是,人不僅在理解漢字時(shí)是這樣,在理解其它語(yǔ)言和圖片時(shí)也這樣。而把這種現(xiàn)象應(yīng)用到人工智能中,就是自注意力機(jī)制了。通俗的講,Transformer的自注意力機(jī)制能夠在句子中找到自己與各個(gè)詞之間的關(guān)系,能快速找到要關(guān)注的重點(diǎn)。1.注意力機(jī)制----自注意力機(jī)制7.3.3大模型基礎(chǔ)架構(gòu)Transformer
除了自注意力機(jī)制外,還有多頭注意力機(jī)制,顧名思義就是有多個(gè)自注意力機(jī)制通過(guò)加權(quán)計(jì)算,然后將加權(quán)計(jì)算結(jié)果綜合起來(lái),增加自注意力機(jī)制的效果。
如在一個(gè)句子中,一個(gè)注意力頭關(guān)注上一個(gè)單詞和下一個(gè)單詞之間的關(guān)系,另一個(gè)注意力頭則會(huì)關(guān)注主語(yǔ)和謂語(yǔ)的關(guān)系上。1.注意力機(jī)制----多頭注意力機(jī)制7.3.3大模型基礎(chǔ)架構(gòu)Transformer
Theanimaldidn'tcrossthestreetbecauseitwastootired.it與animal、street和其它詞的關(guān)聯(lián)1.注意力機(jī)制----多頭注意力機(jī)制7.3.3大模型基礎(chǔ)架構(gòu)Transformer
Theanimaldidn'tcrossthestreetbecauseitwastootired.animal、street與其它詞的關(guān)聯(lián)1.注意力機(jī)制----多頭注意力機(jī)制注意力機(jī)制自注意力機(jī)制多頭注意力機(jī)制同學(xué)們看看能不能用生活中的例子類幫助理解這三個(gè)概念一個(gè)經(jīng)常發(fā)言的同學(xué)引起你的注意,一個(gè)項(xiàng)目團(tuán)隊(duì)合作,不僅要關(guān)注自己,還要和其它同學(xué)協(xié)調(diào)
項(xiàng)目太大,分為多個(gè)團(tuán)隊(duì),每個(gè)團(tuán)隊(duì)有自注意機(jī)制,多個(gè)團(tuán)隊(duì)就是多頭自注意力機(jī)制注意力機(jī)制自注意力機(jī)制多頭注意力機(jī)制核心功能生活舉例從外部信息中篩選出相關(guān)的部分。理解同一序列內(nèi)元素之間的關(guān)系。并行多視角分析,綜合更全面的信息。本質(zhì)都是動(dòng)態(tài)分配權(quán)重,讓模型學(xué)會(huì)“該關(guān)注什么”。一個(gè)經(jīng)常發(fā)言的同學(xué)引起你的注意,一個(gè)項(xiàng)目團(tuán)隊(duì)合作,不僅要關(guān)注自己,還要和其它同學(xué)協(xié)調(diào)
項(xiàng)目太大,分為多個(gè)團(tuán)隊(duì),每個(gè)團(tuán)隊(duì)有自注意機(jī)制,多個(gè)團(tuán)隊(duì)就是多頭自注意力機(jī)制7.3.3大模型基礎(chǔ)架構(gòu)Transformer
你可能會(huì)問(wèn),上面講的和Transformer模型有關(guān)系嗎?當(dāng)然有呀,其實(shí)Transformer模型就是引入了多頭注意力機(jī)制的編碼器和解碼器。2017年,谷歌發(fā)布的論文《AttentionisAllYouNeed》提出Transformer模型。從宏觀來(lái)看,可以把Transformer模型看做一個(gè)有輸入和輸出的黑匣子。2.Transformer模型7.3.3大模型基礎(chǔ)架構(gòu)Transformer
拆開(kāi)這個(gè)黑匣子,我們可以看到它是由編碼組件、解碼組件和它們之間的連接組成,2.Transformer的模型7.3.3大模型基礎(chǔ)架構(gòu)TransformerTransformer的編碼組件由一系列編碼器組成,解碼組件由一系列解碼器組成,其結(jié)構(gòu)可以描述為如圖所示,當(dāng)然這里只繪制了5個(gè)編碼器和解碼器。2.Transformer的模型Transformer結(jié)構(gòu)
編碼器和解碼器的工作過(guò)程虛線框內(nèi)是一個(gè)編碼器或解碼器的內(nèi)部結(jié)構(gòu)7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型編碼器和解碼器的工作過(guò)程其中每一個(gè)編碼器有前饋神經(jīng)網(wǎng)絡(luò)(有輸入層、隱藏層和輸出層的神經(jīng)網(wǎng)絡(luò))和多頭自注意力機(jī)制組成。7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型自注意力機(jī)制通過(guò)計(jì)算前一個(gè)編碼器的輸入編碼之間的相關(guān)性權(quán)重,來(lái)輸出新的編碼;然后前饋神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)新編碼進(jìn)行處理,然后將這些處理后的編碼作為下一個(gè)編碼器或解碼器的輸入。編碼器和解碼器的工作過(guò)程7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型編碼器和解碼器的工作過(guò)程舉例:首先,將句子“Ihurtmyback”輸入編碼器,編碼器將每個(gè)單詞就行拆解,轉(zhuǎn)化為向量。在多頭注意力機(jī)制中進(jìn)行加權(quán)計(jì)算,然后整個(gè)編碼器會(huì)輸出一個(gè)向量集給解碼器。7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型編碼器和解碼器的工作過(guò)程舉例:其次,在解碼器中,解碼器首先讀到一個(gè)開(kāi)始標(biāo)記,然后解碼器會(huì)生成并輸出一個(gè)向量,這個(gè)向量包含所有可能的漢字,并且每個(gè)漢字會(huì)有一個(gè)得分,得分高的漢字會(huì)出現(xiàn)在第一個(gè)位置,在這里,就是“我”這個(gè)漢字了。7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型編碼器和解碼器的工作過(guò)程舉例:第三,把“我”作為解碼器新的輸入,接下來(lái)得分高的可能是“的”,以此類推,直到完成“我的背受傷了”。7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型編碼器和解碼器的工作過(guò)程
解碼器的多頭注意力機(jī)制采用的是掩碼多頭注意力機(jī)制,其核心思想是:因?yàn)榻獯a器的生成對(duì)象是一個(gè)一個(gè)生成的,生成時(shí)只讓參考已經(jīng)生成的部分,沒(méi)有生成的部分不允許參考。編碼器和解碼器的工作過(guò)程
仍以“我的背受傷了”為例,當(dāng)翻譯到“的”的時(shí)候,只能參考前面已經(jīng)生成的“我”,而不能參考后面還沒(méi)有生成的部分。7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型7.3.3大模型基礎(chǔ)架構(gòu)Transformer2.Transformer的模型編碼器和解碼器的工作過(guò)程此外,解碼器在前饋神經(jīng)網(wǎng)絡(luò)和掩碼多頭注意力機(jī)制之間,還有編碼-解碼注意力機(jī)制,主要是為了接受編碼器的輸入向量集,讓解碼器在解碼過(guò)程中能夠充分關(guān)注到上下文的信息。7.3.3大模型基礎(chǔ)架構(gòu)Transformer3.Transformer基礎(chǔ)模型的常見(jiàn)擴(kuò)展目前的大模型GPT、ChatGPT、BERT、T5、LAMMA以及國(guó)內(nèi)的大模型的基礎(chǔ)都是Transformer,Transformer構(gòu)成了幾乎所以大模型的基礎(chǔ),以Transformer為基礎(chǔ)的大模型可謂生長(zhǎng)成一顆大樹(shù)。Transformer家族7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程GPT是只包含解碼器的Transformer模型,屬于典型的通過(guò)大數(shù)據(jù)預(yù)訓(xùn)練+小數(shù)據(jù)微調(diào)的模型,模型發(fā)展經(jīng)歷GPT-1,GPT-2,GPT-3,GPT3.5,GPT4和GPT4o等。7.3.3大模型基礎(chǔ)架構(gòu)TransformerGPT的不同版本訓(xùn)練模型規(guī)模
模型參數(shù)(Billion)訓(xùn)練數(shù)據(jù)量突破訓(xùn)練方法產(chǎn)生時(shí)間GPT-11.3B40GB訓(xùn)練出大規(guī)模通用模型無(wú)監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)2018GPT-21.5B40GB多任務(wù)學(xué)習(xí)框架增加模型規(guī)模和參數(shù)2019GPT-3175B數(shù)十TB展現(xiàn):大力出奇跡,繼續(xù)增加模型規(guī)模和參數(shù)2020GPT-3.5(ChatGPT)175B數(shù)十TB對(duì)話機(jī)器人獎(jiǎng)勵(lì)模型,引入人類反饋的強(qiáng)化學(xué)習(xí)算法2022GPT-4未公開(kāi)未公開(kāi)雙模態(tài)未公開(kāi)2023GPT-4o未公開(kāi)未公開(kāi)多模態(tài)未公開(kāi)20247.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程ChatGPT是在GPT-3.5模型基礎(chǔ)上的微調(diào)模型,采用了基于人類反饋的強(qiáng)化學(xué)習(xí)算法,這種算法的核心思想:(1)模型的訓(xùn)練結(jié)果很大程度依賴人類的反饋,人類對(duì)其生成的結(jié)果進(jìn)行打分。
(2)對(duì)打分的結(jié)果重新輸入的模型中,來(lái)對(duì)模型進(jìn)行調(diào)整。
高分
低分
YESNO正是利用這種基于人類反饋的強(qiáng)化學(xué)習(xí)算法,讓ChatGPT具備更加清晰理解人類對(duì)話的意圖,并獲得和人類進(jìn)行對(duì)話的能力,在語(yǔ)義理解上展現(xiàn)了前所未有的智能。7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程GPT3.5是基礎(chǔ)模型(通用大模型),通過(guò)預(yù)訓(xùn)練完成。ChatGPT是在GPT3.5的基礎(chǔ)上又經(jīng)過(guò)監(jiān)督微調(diào)、獎(jiǎng)勵(lì)模型和強(qiáng)化學(xué)習(xí)訓(xùn)練的結(jié)果,整個(gè)訓(xùn)練過(guò)程分為四個(gè)步驟:ChatGPT的訓(xùn)練分為四個(gè)步驟預(yù)訓(xùn)練通用大模型監(jiān)督微調(diào)訓(xùn)練獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)步驟一
步驟二
步驟三
步驟四7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程預(yù)訓(xùn)練是預(yù)先在大量數(shù)據(jù)上訓(xùn)練模型。通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方式對(duì)大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)。這樣獲得的模型也稱成為通用大模型,如GPT3.5就是通用大模型。這種訓(xùn)練往往需要大數(shù)據(jù)、大參數(shù)和大算力支持。ChatGPT的訓(xùn)練分為四個(gè)步驟預(yù)訓(xùn)練通用大模型監(jiān)督微調(diào)訓(xùn)練獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)步驟一
步驟二
步驟三
步驟四7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程通用大模型,可能不能滿足某些場(chǎng)景的需要,需要進(jìn)一步通過(guò)監(jiān)督微調(diào)的方式進(jìn)行訓(xùn)練。微調(diào)是在特定任務(wù)的小數(shù)據(jù)集上微調(diào)預(yù)訓(xùn)練模型以優(yōu)化性能。ChatGPT的訓(xùn)練分為四個(gè)步驟預(yù)訓(xùn)練通用大模型監(jiān)督微調(diào)訓(xùn)練獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)步驟一
步驟二
步驟三
步驟四基礎(chǔ)大模型
微調(diào)模型通才
專才7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程首先收集人們?cè)趯?duì)話中感興趣的問(wèn)題,形成一個(gè)問(wèn)題庫(kù);其次不斷從問(wèn)題庫(kù)中提取一個(gè)問(wèn)題(稱為prompt),丟給現(xiàn)實(shí)中的人,讓它來(lái)做出回答,這個(gè)回答也稱為標(biāo)注。接下來(lái)把問(wèn)題和回答形成“問(wèn)-答”對(duì),放入到通用模型如GPT3.5中進(jìn)行監(jiān)督學(xué)習(xí),得到一個(gè)監(jiān)督學(xué)習(xí)的微調(diào)模型。從問(wèn)題庫(kù)中抽取問(wèn)題蘋果是什么?
蘋果是一種水果...
人工進(jìn)行回答在GPT3.5上進(jìn)行微調(diào)步驟二:監(jiān)督微調(diào)7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型的訓(xùn)練方式,針對(duì)同一個(gè)問(wèn)題,讓監(jiān)督微調(diào)學(xué)習(xí)模型給出多個(gè)答案。讓現(xiàn)實(shí)中的人對(duì)這多個(gè)回答進(jìn)行排序,這其中隱含了人類對(duì)模型效果的預(yù)期,依此形成新的標(biāo)注數(shù)據(jù)集,然后進(jìn)行訓(xùn)練獎(jiǎng)勵(lì)模型,ChatGPT的訓(xùn)練分為四個(gè)步驟預(yù)訓(xùn)練通用大模型監(jiān)督微調(diào)訓(xùn)練獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)步驟一
步驟二
步驟三
步驟四7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程步驟三:訓(xùn)練獎(jiǎng)勵(lì)模型從問(wèn)題庫(kù)中抽取問(wèn)題蘋果是什么?
A紅色的
人工進(jìn)行排序利用排序結(jié)果訓(xùn)練獎(jiǎng)勵(lì)模型重復(fù)生成多次回答B(yǎng)玩具
C酸酸甜甜
D一種水果
7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程用強(qiáng)化學(xué)習(xí)算法通過(guò)獎(jiǎng)勵(lì)模型優(yōu)化策略??梢哉J(rèn)為得到策略優(yōu)化模型ChatGPT的訓(xùn)練分為四個(gè)步驟預(yù)訓(xùn)練通用大模型監(jiān)督微調(diào)訓(xùn)練獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)步驟一
步驟二
步驟三
步驟四7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程(1)從數(shù)據(jù)集里面取出一條問(wèn)題(2)然后放入到從微調(diào)模型得到的策略優(yōu)化模型里面,(3)策略優(yōu)化模型給出一條輸出文本。(4)把文本放入獎(jiǎng)勵(lì)模型進(jìn)行打分,獲獎(jiǎng)勵(lì)值,(5)把獎(jiǎng)勵(lì)值反饋到策略優(yōu)化模型更新策略,并持續(xù)反復(fù)迭代。GPT大模型的訓(xùn)練四個(gè)步驟8.3.2大模型是如何演進(jìn)的所需資源上千塊GPU訓(xùn)練數(shù)月幾十塊GPU訓(xùn)練數(shù)天幾十塊GPU訓(xùn)練數(shù)天幾十塊GPU訓(xùn)練數(shù)天四個(gè)步驟預(yù)訓(xùn)練監(jiān)督微調(diào)獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)數(shù)據(jù)集互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)集2萬(wàn)億Token問(wèn)答對(duì)1萬(wàn)-10萬(wàn)人工反饋評(píng)價(jià)10萬(wàn)-100萬(wàn)人工提示詞1萬(wàn)-10萬(wàn)算法語(yǔ)言模型預(yù)測(cè)下一個(gè)Token語(yǔ)言模型預(yù)測(cè)下一個(gè)Token二元分類器輸出獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)最大化獎(jiǎng)勵(lì)模型基礎(chǔ)模型預(yù)訓(xùn)練模型獎(jiǎng)勵(lì)模型強(qiáng)化學(xué)習(xí)7.3.3大模型基礎(chǔ)架構(gòu)Transformer4.大模型的訓(xùn)練過(guò)程經(jīng)過(guò)以上四步的訓(xùn)練,可以實(shí)現(xiàn)完成大模型的訓(xùn)練。但如何利用大模型完成文本生成呢?7.3.3大模型基礎(chǔ)架構(gòu)Transformer5.大模型實(shí)現(xiàn)文本生成
大模型通過(guò)預(yù)測(cè)下一個(gè)詞產(chǎn)生文本生成,預(yù)測(cè)下一個(gè)詞的原理類似我們熟悉的“文字接龍”游戲。本質(zhì)上大模型接收一段文本后,會(huì)預(yù)測(cè)下一個(gè)最可能的詞匯,然后選中概率最大的那個(gè),組成一個(gè)新的文本,然后繼續(xù)預(yù)測(cè)下一個(gè)最可能的詞匯,重復(fù)這個(gè)過(guò)程,直到生成完整的句子或段落。7.3.3大模型基礎(chǔ)架構(gòu)Transformer5.大模型實(shí)現(xiàn)文本生成
如:人工智能賦下一個(gè)可能出現(xiàn)的詞概率能0.8歌0.05有0.05值0.1下一個(gè)可能出現(xiàn)的詞概率人0.5課0.3羊0.1椅0.1能人...為什么相同的提示詞,大模型生成的內(nèi)容卻不同?概率生成機(jī)制:大模型本質(zhì)上是一個(gè)基于概率的文本生成模型,它通過(guò)計(jì)算下一個(gè)詞出現(xiàn)的概率來(lái)生成文本。即使輸入相同,每次生成的輸出也會(huì)因?yàn)楦怕史植嫉碾S機(jī)性而不同。...7.3.4擴(kuò)散模型Diffusion
如果說(shuō)Transformer為AI文本生成提供了基礎(chǔ)模型,那Diffusion就是為AI繪畫提供基礎(chǔ)模型。Diffusion模型是一種應(yīng)用于細(xì)粒度圖像生成的模型,在跨模態(tài)的圖像生成任務(wù)中,已逐漸替代GAN成為主流。7.3.4擴(kuò)散模型Diffusion使用Diffusion模型的AI繪畫平臺(tái)有StableDiffusion、DALL、Sora、Midjourney,國(guó)內(nèi)的即夢(mèng)、可靈等。2022年在美國(guó)科羅拉多州博覽會(huì)的數(shù)字藝術(shù)類美術(shù)比賽中獲得第一名的“太空歌劇院”,就是由Midjourney平臺(tái)生成的。7.3.4擴(kuò)散模型Diffusion那Diffusion模型到底是什么?為何具有如此強(qiáng)大的功能呢?Diffusion模型也稱為擴(kuò)散模型。擴(kuò)散本身是一種物理現(xiàn)象,指的是一種基于分子熱運(yùn)動(dòng)的現(xiàn)象,是分子通過(guò)布朗運(yùn)動(dòng)從高濃度區(qū)域向低濃度區(qū)域移動(dòng)的過(guò)程。例如一滴墨水?dāng)U散到整個(gè)盛水的容器中。7.3.4擴(kuò)散模型DiffusionDiffusion就是利用這種擴(kuò)散原理開(kāi)發(fā)的模型,其思想是:首先向訓(xùn)練數(shù)據(jù)集中的圖像不斷加入噪聲,使之最終變成一張模糊的圖像,這個(gè)過(guò)程就類似于向水中加入一滴墨水,墨水?dāng)U散,水變成藍(lán)色;然后模型逆轉(zhuǎn)這一過(guò)程,將噪聲轉(zhuǎn)化為圖像。7.3.4擴(kuò)散模型Diffusion正向擴(kuò)散過(guò)程可以描述為逐漸將噪聲作用于圖像,直到圖像全部被噪聲覆蓋。1.正向擴(kuò)散過(guò)程7.3.4擴(kuò)散模型Diffusion這樣就可以得到一個(gè)定義明確的正向擴(kuò)散過(guò)程。1.正向擴(kuò)散過(guò)程馬爾科夫鏈正向擴(kuò)散過(guò)程每一個(gè)狀態(tài)概率分布,只能由當(dāng)前狀態(tài)決定,與其它狀態(tài)無(wú)關(guān)。每一個(gè)圖片是什么樣子,只和它的上一個(gè)圖片有關(guān),而且遵循概率分布。7.3.4擴(kuò)散模型Diffusion換一個(gè)角度思考,既然任何一幅圖像通過(guò)不斷添加隨機(jī)噪聲后,會(huì)變成完全隨機(jī)的噪聲圖像,那我們能不能將這個(gè)過(guò)程翻轉(zhuǎn)?讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個(gè)噪聲擴(kuò)散的過(guò)程,然后在將這個(gè)過(guò)程逆向擴(kuò)散,把隨機(jī)生成的噪聲圖像,逐漸轉(zhuǎn)換為清晰的生成圖像呢?2.逆向擴(kuò)散過(guò)程7.3.4擴(kuò)散模型Diffusion實(shí)現(xiàn)這個(gè)過(guò)程需要一個(gè)“魔法工具”來(lái)幫忙,這個(gè)工具就是
UNet神經(jīng)網(wǎng)絡(luò),UNet因結(jié)構(gòu)像U形而得名,UNet就像一個(gè)“圖片修復(fù)大師”,它知道如何從噪聲中提取有用的信息,并一步步修復(fù)圖片。2.逆向擴(kuò)散過(guò)程7.3.4擴(kuò)散模型Diffusion(1)輸入:UNet接收一張帶噪聲的圖片,以及當(dāng)前的噪聲強(qiáng)度。(2)預(yù)測(cè)噪聲:UNet分析這張圖片,并預(yù)測(cè)出圖片中的噪聲是什么。2.逆向擴(kuò)散過(guò)程7.3.4擴(kuò)散模型Diffusion(3)去除噪聲:根據(jù)預(yù)測(cè)的噪聲,從圖片中減去噪聲,得到一張稍微清晰一點(diǎn)的圖片。(4)迭代:重復(fù)這個(gè)過(guò)程,一步步減少噪聲,直到圖片完全清晰。2.逆向擴(kuò)散過(guò)程7.3.4擴(kuò)散模型Diffusion通過(guò)正向擴(kuò)散和逆向擴(kuò)散兩個(gè)過(guò)程,擴(kuò)散模型就能實(shí)現(xiàn)以一張?jiān)紙D像為基礎(chǔ),生成一張全新的圖像。2.逆向擴(kuò)散過(guò)程7.3.4擴(kuò)散模型Diffusion
回憶一下以前的黑白電視和神奇的天線。7.3.4擴(kuò)散模型Diffusion通過(guò)上面的學(xué)習(xí)我們可能明白了怎么在隨機(jī)噪聲和圖像之間的生成,可現(xiàn)在大火的文本生成圖像是怎么實(shí)現(xiàn)的呢,我們就不得不說(shuō)到另一個(gè)大模型CLIP模型。2.逆向擴(kuò)散過(guò)程7.3.5文生圖的核心CLIP模型在2015年物體識(shí)別水平最終超越人類以后,可以實(shí)現(xiàn)把識(shí)別的物體轉(zhuǎn)換為一系列描述,這時(shí)候有研究者就在想,能不能把這個(gè)過(guò)程反過(guò)來(lái),就是給一段描述,然后讓生成圖像,聽(tīng)起來(lái)是不是有點(diǎn)異想天開(kāi)?能創(chuàng)新的人都是異想天開(kāi)的高手!7.3.5文生圖的核心CLIP模型要想讓AI進(jìn)行繪畫,需要讓AI很好理解圖片,要讓AI理解圖片,就必須解決兩個(gè)問(wèn)題,理解力問(wèn)題和數(shù)據(jù)量問(wèn)題。AI對(duì)圖像的理解人類對(duì)圖像的理解AI是對(duì)圖像中的一個(gè)個(gè)像素的特征進(jìn)行學(xué)習(xí)。而人類則是對(duì)圖像從整體上進(jìn)行把握。需要對(duì)大量圖片進(jìn)行標(biāo)注來(lái)訓(xùn)練AI。而人類則通過(guò)看少了的圖片,就可以建立對(duì)圖像的理解和認(rèn)識(shí)。7.3.5文生圖的核心CLIP模型一頓好吃的午飯一只小狗商業(yè)握手對(duì)人類來(lái)說(shuō)容易的事情,但對(duì)AI就不那么容易7.3.5文生圖的核心CLIP模型當(dāng)AI對(duì)圖像的理解陷入困境時(shí),OpenAI的研究者就轉(zhuǎn)換思路:能不能像人類處理圖像的方法,通過(guò)建立文本和圖像之間的匹配來(lái)提升AI對(duì)圖像的理解力呢?這其實(shí)就是CLIP模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合肥市醫(yī)療器械檢驗(yàn)檢測(cè)中心有限公司2025年下半年第二批社會(huì)招聘?jìng)淇碱}庫(kù)帶答案詳解
- 2025年攜手同行合力生光北京廣播電視臺(tái)校園招聘24人備考題庫(kù)及1套參考答案詳解
- 2025年重慶長(zhǎng)江軸承股份有限公司招聘13人備考題庫(kù)及完整答案詳解一套
- 2026年長(zhǎng)沙市中小學(xué)素質(zhì)教育實(shí)踐基地岳麓營(yíng)地編外合同制教師、教官招聘?jìng)淇碱}庫(kù)完整參考答案詳解
- 2025年蘇州繞城高速公路有限公司公開(kāi)招聘?jìng)淇碱}庫(kù)及1套完整答案詳解
- 汕頭市中醫(yī)醫(yī)院2025年公開(kāi)招聘編外人員(第二批)備考題庫(kù)及一套參考答案詳解
- 天津市濱海新區(qū)急救分中心2026公開(kāi)招聘院前急救醫(yī)師備考題庫(kù)完整參考答案詳解
- 理論課件收費(fèi)
- 理性消費(fèi)課件
- 班級(jí)論壇課件
- 2025年榆林市榆陽(yáng)區(qū)部分區(qū)屬國(guó)有企業(yè)招聘(20人)備考筆試試題及答案解析
- 2026年華北電力大學(xué)輔導(dǎo)員及其他崗位招聘31人歷年題庫(kù)附答案解析
- 河北省唐山市2024-2025學(xué)年高二上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 押運(yùn)證的考試題及答案
- 2026年遼寧農(nóng)業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)帶答案詳解
- 2025中國(guó)融通資產(chǎn)管理集團(tuán)有限公司招聘(230人)備考題庫(kù)附答案
- 馬克思主義與當(dāng)代課后習(xí)題答案
- 批量二手車買賣合同協(xié)議書模板
- 2025年低壓電工證(復(fù)審)考試筆試試題(200題)附答案
- 生涯教育在普通高中語(yǔ)文教學(xué)中的滲透研究
- 中國(guó)廣電佛山市2025秋招筆試題庫(kù)含答案
評(píng)論
0/150
提交評(píng)論