版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
04人工智能技術(shù)的覺醒-深度學(xué)習(xí)技術(shù)框架011本章目標(biāo)理解深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的關(guān)系了解深度學(xué)習(xí)的核心理解深度學(xué)習(xí)技術(shù)框架的演變歷程重點(diǎn)難點(diǎn)重點(diǎn)2/58引入三者之間的關(guān)系人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,旨在創(chuàng)建能夠執(zhí)行人類智能活動(dòng)的機(jī)器。機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方法,它使計(jì)算機(jī)系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)和改進(jìn)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,它使用多層神經(jīng)網(wǎng)絡(luò)來模擬人腦的信息處理方式,特別適用于處理復(fù)雜的數(shù)據(jù),如圖像和語(yǔ)音。3/58初識(shí)深度學(xué)習(xí)深度學(xué)習(xí)的核心人腦神經(jīng)網(wǎng)絡(luò)5/58深度學(xué)習(xí)的核心輸入層隱藏層輸出層整體結(jié)構(gòu)特征由三層神經(jīng)元組成由輸入層,隱藏層和輸出層三部分組成,每一層包含若干個(gè)神經(jīng)元。輸入層用于接收外部的數(shù)據(jù)輸入,隱液層是中間處理層,可以有多層,檢出層用于輸出最后結(jié)果.相鄰展之間的神經(jīng)元相互連接神經(jīng)元之間的連線代表兩個(gè)神經(jīng)元相互連接,每一層的神經(jīng)元與下一層的神經(jīng)元相連接,但是同一層內(nèi)的神經(jīng)元之間無(wú)連接關(guān)系。6/58深度學(xué)習(xí)的核心7/58深度學(xué)習(xí)的核心體育是否及格(y)跳遠(yuǎn)(x1)跳高(x2)跑步(x3)仰臥起坐(x4)跳繩(x5)拉伸(x6)總分是(1)99.5999.51056否(0)67867640用單個(gè)神經(jīng)元來預(yù)測(cè)體育是否及格輸入x:各項(xiàng)體育項(xiàng)目成績(jī)權(quán)重w:各項(xiàng)目同等重要偏置b:體育要及格總分需要達(dá)到55激活函數(shù)f:采用階躍函數(shù)作為激活函數(shù),當(dāng)總分大于55,加權(quán)輸入大于等于0,階躍函數(shù)輸出為1,否則為0.輸出y:1為合格,0為不合格8/58深度學(xué)習(xí)的核心隱藏層1隱藏層29/58深度學(xué)習(xí)的核心函數(shù)表達(dá)式:函數(shù)表達(dá)式:10/58深度學(xué)習(xí)的核心最常用的激活函數(shù),計(jì)算簡(jiǎn)單且有效多分類問題中常用,輸出為概率分布。在避免死神經(jīng)元的同時(shí),保持網(wǎng)絡(luò)的激活效果,適用于深層網(wǎng)絡(luò)較新的激活函數(shù),表現(xiàn)優(yōu)于ReLU。輸出是零中心的,但也會(huì)遇到梯度消失問題。ELU/SELUSwishSoftmaxTanhReLU常見激活函數(shù)11/58傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的對(duì)比維度傳統(tǒng)機(jī)器學(xué)習(xí)深度學(xué)習(xí)模型(函數(shù)類別)機(jī)器學(xué)習(xí)模型通?;诮y(tǒng)計(jì)學(xué)習(xí)方法和數(shù)學(xué)方法,如邏輯回歸(LR)、決策樹(DT)、支持向量機(jī)(SVM)、樸素貝葉斯(NB)等,這些方法從數(shù)據(jù)中學(xué)習(xí)映射函數(shù)。深度學(xué)習(xí)模型基于層次化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和Transformer等,更適合處理復(fù)雜的模式識(shí)別任務(wù)。算法(擬合方法)常用的優(yōu)化算法有梯度下降法、牛頓法、隨機(jī)梯度下降等主要使用基于梯度的優(yōu)化算法,如隨機(jī)梯度下降等,依賴大量的數(shù)值計(jì)算和較高的算力采用反向傳播策略策略(擬合目標(biāo))主要使用損失函數(shù),損失函數(shù)通常較為簡(jiǎn)單,且有明確的數(shù)學(xué)形式,用于指導(dǎo)模型在學(xué)習(xí)過程中的優(yōu)化方向,而且通常不涉及激活函數(shù)。損失函數(shù)更加多樣化,可以結(jié)合不同任務(wù)、不同模型和多層網(wǎng)絡(luò)進(jìn)行設(shè)計(jì),通常具有更復(fù)雜的優(yōu)化目標(biāo)。且深度學(xué)習(xí)模型每一層通常都包括一個(gè)激活函數(shù)。特征工程需要人工設(shè)計(jì)和選擇特征,特征工程的好壞直接影響模型性能采用表示學(xué)習(xí),能夠自動(dòng)學(xué)習(xí)和提取特征直接使用自然數(shù)據(jù)(如圖像像素),減少人工特征工程的需求12/58深度學(xué)習(xí)的三架馬車YoshuaBengio杰弗里.辛頓楊立昆2018年,計(jì)算機(jī)科學(xué)界最高榮譽(yù)-圖靈獎(jiǎng)(被譽(yù)為"計(jì)算機(jī)界的諾貝爾獎(jiǎng)")授予了三位深度學(xué)習(xí)領(lǐng)域的杰出學(xué)者,這三位學(xué)者因其在深度神經(jīng)網(wǎng)絡(luò)研究中的開創(chuàng)性貢獻(xiàn)而獲此殊榮,他們的工作使深度神經(jīng)網(wǎng)絡(luò)成為現(xiàn)代計(jì)算的核心技術(shù)之一,因此被譽(yù)為深度學(xué)習(xí)研究的"三駕馬車"13/58深度學(xué)習(xí)中的諾貝爾戴密斯·哈薩比斯約翰·江珀大衛(wèi)·貝克2024年諾貝爾化學(xué)獎(jiǎng)一半授予DavidBaker;另一半則共同授予DemisHassabis和JohnM.Jumper。德米斯·哈薩比斯和約翰·詹珀成功地利用人工智能技術(shù)預(yù)測(cè)了幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)。而大衛(wèi)·貝克掌握了生命的構(gòu)建模塊,并創(chuàng)造了全新的蛋白質(zhì)。14/58小結(jié)初識(shí)深度學(xué)習(xí)生物神經(jīng)元到人工神經(jīng)網(wǎng)絡(luò)的發(fā)展人工神經(jīng)網(wǎng)絡(luò)由幾部分組成人工神經(jīng)網(wǎng)絡(luò)各部分的功能是什么深度學(xué)習(xí)中的三架馬車是什么15/58深度學(xué)習(xí)的發(fā)展歷程深度學(xué)習(xí)的發(fā)展歷程1943-20世紀(jì)70年代20世紀(jì)80年代2006年之后至今深度學(xué)習(xí)的古猿時(shí)代深度學(xué)習(xí)的智人時(shí)代深度學(xué)習(xí)的覺醒期深度學(xué)習(xí)的蓬勃發(fā)展期17/58深度學(xué)習(xí)的古猿時(shí)代由生物神經(jīng)元到人工神經(jīng)網(wǎng)絡(luò)1943年,心里學(xué)家麥卡洛克和數(shù)學(xué)邏輯學(xué)家皮茲發(fā)表論文《神經(jīng)活動(dòng)中內(nèi)在思想的邏輯演算》,提出了MP模型。MP模型18/58深度學(xué)習(xí)的古猿時(shí)代hebbian學(xué)習(xí)規(guī)則1949年,DonaldHebb提出了一項(xiàng)開創(chuàng)性的理論:Hebbian學(xué)習(xí)規(guī)則。這一規(guī)則闡述了神經(jīng)元之間連接強(qiáng)度變化的機(jī)制:當(dāng)神經(jīng)元A頻繁地接收來自神經(jīng)元B的輸入信號(hào),并因此而持續(xù)激活時(shí),這兩個(gè)神經(jīng)元之間的突觸連接將會(huì)增強(qiáng)。Hebbian學(xué)習(xí)規(guī)則與巴甫洛夫的"條件反射"理論在原理上高度一致,而且隨后的神經(jīng)生物學(xué)研究為其提供了實(shí)證支持。19/58深度學(xué)習(xí)的古猿時(shí)代古猿時(shí)代的典型代表技術(shù)之一-感知機(jī)感知機(jī)二分類效果示例展示20/58深度學(xué)習(xí)的智人時(shí)代霍普菲爾德網(wǎng)絡(luò)霍普菲爾德網(wǎng)絡(luò)由多個(gè)互相連接的神經(jīng)元組成,通常每個(gè)神經(jīng)元的狀態(tài)為二進(jìn)制(+1或-1)。網(wǎng)絡(luò)中的每個(gè)神經(jīng)元與其他所有神經(jīng)元相連(自連接除外),連接權(quán)重可以是正值或負(fù)值結(jié)構(gòu)特點(diǎn)21/58深度學(xué)習(xí)的智人時(shí)代玻爾茲曼機(jī)及其變體玻爾茲曼機(jī)由可見層和隱藏層組成,神經(jīng)元之間的連接是對(duì)稱的。每個(gè)神經(jīng)元的狀態(tài)是二進(jìn)制的,且網(wǎng)絡(luò)的學(xué)習(xí)通過模擬退火過程來進(jìn)行。結(jié)構(gòu)特點(diǎn)22/58深度學(xué)習(xí)的智人時(shí)代前饋神經(jīng)網(wǎng)絡(luò)(多層感知機(jī))多層感知機(jī)由輸入層、隱藏層和輸出層組成。各層之間的連接是單向的,同層神經(jīng)元之間沒有連接。這種結(jié)構(gòu)使得信息可以從輸入層逐層傳遞到輸出層。結(jié)構(gòu)特點(diǎn)深度學(xué)習(xí)基礎(chǔ)結(jié)構(gòu)之一23/58深度學(xué)習(xí)的智人時(shí)代初實(shí)踐-任務(wù)描述任務(wù)描述:訓(xùn)練一個(gè)簡(jiǎn)單的多層感知器(MLP)模型并監(jiān)控?fù)p失變化任務(wù)目標(biāo):使用一個(gè)簡(jiǎn)單的多層感知器(MLP)模型對(duì)MNIST手寫數(shù)字?jǐn)?shù)據(jù)集進(jìn)行識(shí)別,并記錄訓(xùn)練過程中每一輪的損失值(loss),最終繪制損失變化圖來觀察模型的訓(xùn)練效果。任務(wù)流程24/58深度學(xué)習(xí)的智人時(shí)代前饋神經(jīng)網(wǎng)絡(luò)(多層感知機(jī))-初實(shí)踐#定義一個(gè)簡(jiǎn)單的多層感知器(MLP)模型classSimpleMLP(nn.Module):def__init__(self):super(SimpleMLP,self).__init__()self.fc1=nn.Linear(28*28,512)#第一層全連接層self.fc2=nn.Linear(512,256)#第二層全連接層self.fc3=nn.Linear(256,10)#輸出層(MNIST數(shù)據(jù)集有10個(gè)類別)25/58深度學(xué)習(xí)的智人時(shí)代前饋神經(jīng)網(wǎng)絡(luò)(多層感知機(jī))-初實(shí)踐defforward(self,x):x=x.view(-1,28*28)#將圖像展平x=torch.relu(self.fc1(x))x=torch.relu(self.fc2(x))x=self.fc3(x)returnx26/58深度學(xué)習(xí)的智人時(shí)代前饋神經(jīng)網(wǎng)絡(luò)(多層感知機(jī))-初實(shí)踐forepochinrange(epochs):total_loss=0forimages,labelsintrain_loader:optimizer.zero_grad()#清零梯度,避免上一輪梯度對(duì)本輪產(chǎn)生影響output=model(images)#將樣本輸入模型得到預(yù)測(cè)的結(jié)果loss=criterion(output,labels)#利用預(yù)測(cè)結(jié)果和真實(shí)結(jié)果計(jì)算損失loss.backward()#利用損失進(jìn)行反向傳播,計(jì)算對(duì)應(yīng)的梯度optimizer.step()#利用梯度進(jìn)行相應(yīng)的參數(shù)更新total_loss+=loss.item()27/58深度學(xué)習(xí)的智人時(shí)代前饋神經(jīng)網(wǎng)絡(luò)(多層感知機(jī))-初實(shí)踐#訓(xùn)練模型并獲得損失歷史loss_history=train_model(model,train_loader,criterion,optimizer,epochs=30)
#繪制損失變化圖plt.plot(loss_history)plt.title('LossHistory')plt.xlabel('Epoch')plt.ylabel('Loss')plt.show()28/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)輸入層隱藏層輸出層反向傳播算法通過鏈?zhǔn)椒▌t計(jì)算損失函數(shù)相對(duì)于每個(gè)權(quán)重的梯度。首先,前向傳播計(jì)算輸出,然后通過損失函數(shù)計(jì)算誤差,最后將誤差反向傳播以更新權(quán)重。結(jié)構(gòu)特點(diǎn)深度學(xué)習(xí)中最重要的訓(xùn)練算法之一29/58深度學(xué)習(xí)的智人時(shí)代初實(shí)踐-任務(wù)描述任務(wù)描述:使用多層感知器(MLP)訓(xùn)練模型進(jìn)行鳶尾花(Iris)分類任務(wù)目標(biāo):通過構(gòu)建一個(gè)簡(jiǎn)單的多層感知器(MLP)模型,使用鳶尾花數(shù)據(jù)集進(jìn)行分類任務(wù)。我們通過數(shù)據(jù)預(yù)處理、定義神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練過程中的前向傳播與反向傳播、損失計(jì)算、優(yōu)化器更新等步驟,完成模型訓(xùn)練,并記錄每一輪的損失和精度。任務(wù)流程30/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)-初實(shí)踐鳶尾花數(shù)據(jù)介紹Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被用作示例。數(shù)據(jù)集內(nèi)包含3類共150條記錄,每類各50個(gè)數(shù)據(jù),每條記錄都有4項(xiàng)特征:花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度,通過這4個(gè)特征預(yù)測(cè)鳶尾花卉屬于(iris-setosa,iris-versicolour,iris-virginica)中的哪一品種31/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)-初實(shí)踐lr=0.02#學(xué)習(xí)率epochs=300n_feature=4#輸入特征(鳶尾花四個(gè)特征)n_hidden=20#隱含層n_output=3#輸出(鳶尾花三種類別)32/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)-初實(shí)踐iris=datasets.load_iris()#下載并導(dǎo)入數(shù)據(jù)#劃分?jǐn)?shù)據(jù)集和測(cè)試集x_train0,x_test0,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)#歸一化x_train=np.zeros(np.shape(x_train0))x_test=np.zeros(np.shape(x_test0))foriinrange(4):xMax=np.max(x_train0[:,i])xMin=np.min(x_train0[:,i])x_train[:,i]=(x_train0[:,i]-xMin)/(xMax-xMin)x_test[:,i]=(x_test0[:,i]-xMin)/(xMax-xMin)33/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)-初實(shí)踐classbpnnModel(torch.nn.Module):def__init__(self,n_feature,n_hidden,n_output):super(bpnnModel,self).__init__()self.hidden=torch.nn.Linear(n_feature,n_hidden)#定義隱藏層網(wǎng)絡(luò)self.out=torch.nn.Linear(n_hidden,n_output)#定義輸出層網(wǎng)絡(luò)defforward(self,x):x=Fun.relu(self.hidden(x))#隱藏層的激活函數(shù),采用relu,也可以采用sigmod,tanhout=Fun.softmax(self.out(x),dim=1)#輸出層softmax激活函數(shù)returnout34/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)-初實(shí)踐net=bpnnModel(n_feature=n_feature,n_hidden=n_hidden,n_output=n_output)optimizer=torch.optim.Adam(net.parameters(),lr=lr)#優(yōu)化器選用隨機(jī)梯度下降方式loss_func=torch.nn.CrossEntropyLoss()#對(duì)于多分類一般采用的交叉熵?fù)p失函數(shù)35/58深度學(xué)習(xí)的智人時(shí)代反向傳播算法(BP)-初實(shí)踐loss_steps=np.zeros(epochs)#保存每一輪epoch的損失函數(shù)值accuracy_steps=np.zeros(epochs)#保存每一輪epoch的在測(cè)試集上的精度f(wàn)orepochinrange(epochs):y_pred=net(x_train)#前向過程loss=loss_func(y_pred,y_train)#輸出與label對(duì)比optimizer.zero_grad()#梯度清零loss.backward()#反向傳播optimizer.step()#使用梯度優(yōu)化器loss_steps[epoch]=loss.item()#保存loss#下面計(jì)算測(cè)試機(jī)的精度,不需要求梯度36/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)包含了多個(gè)卷積層和池化層。卷積層負(fù)責(zé)捕捉圖像中的特征,就像我們的眼睛識(shí)別物體的輪廓和紋理一樣。池化層則幫助網(wǎng)絡(luò)抓住重要特征,同時(shí)減少數(shù)據(jù)量,使得計(jì)算更加高效。結(jié)構(gòu)特點(diǎn)37/58深度學(xué)習(xí)的智人時(shí)代初實(shí)踐-任務(wù)描述任務(wù)描述:訓(xùn)練并測(cè)試LeNet卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行MNIST數(shù)字分類任務(wù)目標(biāo):使用LeNet卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行MNIST數(shù)據(jù)集的數(shù)字分類。訓(xùn)練并評(píng)估模型的性能,最終計(jì)算測(cè)試集上的準(zhǔn)確率。任務(wù)流程38/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐#計(jì)算出mnist數(shù)據(jù)中的均值與標(biāo)準(zhǔn)差,便于進(jìn)行標(biāo)準(zhǔn)化train_dataset=MNIST(root='/MNIST_data',train=True,download=True,transform=transforms.ToTensor())train_loader=DataLoader(train_dataset,shuffle=True,batch_size=60000)forimg,targetintrain_loader:x=img.view(-1,28*28)print(x.shape)print(x.mean())print(x.std())print(set(target.numpy()))#查看標(biāo)簽有多少個(gè)類別break39/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐batchsize=64shuffle=True#shuffle表示是否將數(shù)據(jù)集打亂epoch=10learning_rate=0.01momentum=0.540/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐classLeNet(torch.nn.Module):def__init__(self):super().__init__()
self.conv1=torch.nn.Sequential(torch.nn.Conv2d(1,6,kernel_size=5),torch.nn.ReLU(),torch.nn.AvgPool2d(kernel_size=2,stride=2),)......self.fc=torch.nn.Sequential(torch.nn.Linear(256,120),torch.nn.Linear(120,84),torch.nn.Linear(84,10))41/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐defforward(self,x):batch_size=x.size(0)x=self.conv1(x)x=self.conv2(x)x=x.view(batch_size,-1)#flatten變成全連接網(wǎng)絡(luò)需要的輸入x=self.fc(x)returnx#最后輸出的是維度為10的,也就是(對(duì)應(yīng)數(shù)學(xué)符號(hào)的0~9)42/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐model=LeNet()criterion=torch.nn.CrossEntropyLoss()#交叉熵?fù)p失optimizer=torch.optim.SGD(model.parameters(),lr=learning_rate,momentum=momentum)43/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐deftrain(epoch):running_loss=0.0#這整個(gè)epoch的loss清零running_total=0running_correct=0....loss.backward()#反向傳播得到每個(gè)參數(shù)的梯度值optimizer.step()#通過梯度下降執(zhí)行參數(shù)更新44/58深度學(xué)習(xí)的智人時(shí)代卷積神經(jīng)網(wǎng)絡(luò)-初實(shí)踐deftest():correct=0total=0withtorch.no_grad():#測(cè)試集不用算梯度f(wàn)ordataintest_loader:images,labels=dataoutputs=model(images)values,predicted=torch.max(outputs.data,dim=1)total+=labels.size(0)correct+=(predicted==labels).sum().item()acc=correct/total45/58深度學(xué)習(xí)的智人時(shí)代循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)的核心在于其獨(dú)特的遞歸結(jié)構(gòu)設(shè)計(jì)。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同,RNN的神經(jīng)元之間形成了循環(huán)連接,就像人類閱讀文字時(shí)會(huì)記住前文內(nèi)容一樣,RNN通過將當(dāng)前的隱藏狀態(tài)傳遞給下一時(shí)刻,能夠捕捉時(shí)間序列中的動(dòng)態(tài)模式。結(jié)構(gòu)特點(diǎn)46/58深度學(xué)習(xí)的覺醒期學(xué)術(shù)界的覺醒-深度置信網(wǎng)絡(luò)(DBN)改善了梯度消失和梯度爆炸問題無(wú)向圖有向圖多個(gè)RBM(受限玻爾茲曼機(jī))堆疊起來,就得到了深度玻爾茲曼機(jī)(DBM);如果在DBM最遠(yuǎn)離可視層的部分仍保持RBM不變,其他層(左圖下部和中部)使用貝葉斯信念網(wǎng)絡(luò)(BayesianBeliefNetwork)(RBM是無(wú)向圖,貝葉斯網(wǎng)絡(luò)是有向圖),就得到了深度信念網(wǎng)絡(luò)(DBN)結(jié)構(gòu)特點(diǎn)47/58深度學(xué)習(xí)的覺醒期工業(yè)界的覺醒-ImageNet數(shù)據(jù)集和AlexNet模型結(jié)合ImageNet數(shù)據(jù)集示例AlexNet模型參數(shù)48/58深度學(xué)習(xí)的覺醒期AlphaGO圍棋比賽科技認(rèn)知的轉(zhuǎn)變AIGC職業(yè)前景的重新評(píng)估教育體系的反思倫理和哲學(xué)思考圍棋界的變革跨領(lǐng)域應(yīng)用的啟發(fā)49/58深度學(xué)習(xí)的蓬勃發(fā)展時(shí)期Transformer50/58深度學(xué)習(xí)的蓬勃發(fā)展時(shí)期預(yù)訓(xùn)練模型的興起GPT2018.6OpenAI自然語(yǔ)言生成任務(wù)PredictNextToken自回歸語(yǔ)言建模BERT2018.10GoogleAI自然語(yǔ)言理解任務(wù)MaskingInput自編碼語(yǔ)言建模VS51/58深度學(xué)習(xí)的蓬勃發(fā)展時(shí)期深度學(xué)習(xí)的多領(lǐng)域擴(kuò)展與應(yīng)用2018-20192018-20192018-20192018-20192018-20192018-20192020.10視覺模型ViT2021.2多模態(tài)學(xué)習(xí)CLIP2022.11ChatGPT2021.7AlphaFold2/3:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的革命2022.11StableDiffusion2024.2Sora文生視頻的突破52/58小結(jié)深度學(xué)習(xí)都經(jīng)歷了哪些時(shí)期各個(gè)時(shí)期的代表技術(shù)有哪些?卷積神經(jīng)網(wǎng)絡(luò)有幾層?GPT和BERT之間的共同點(diǎn)和區(qū)別?53/58
學(xué)會(huì)使用簡(jiǎn)單的AI工具實(shí)戰(zhàn)訓(xùn)練—AI輔助學(xué)習(xí)任務(wù)描述探索深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理中的應(yīng)用,任務(wù)重點(diǎn)是通過AI生成文本內(nèi)容,并探索大模型在文本生成、文本總結(jié)、情感分析等任務(wù)中的應(yīng)用。任務(wù)要求文本生成:使用AI對(duì)話工具實(shí)現(xiàn)文本生成,使用大語(yǔ)言模型(如GPT系列)生成與深度學(xué)習(xí)相關(guān)的科普文章或技術(shù)說明,內(nèi)容應(yīng)包括深度學(xué)習(xí)模型的介紹、應(yīng)用場(chǎng)景、Transformer架構(gòu)的核心原理等,推薦工具「智譜清言」(/)圖片生成:結(jié)合深度學(xué)習(xí)的視覺技術(shù),使用AI繪圖工具生成與深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等相關(guān)的圖示或插圖。推薦工具「豆包」()AI搜索:使用AI搜索工具進(jìn)行深度學(xué)習(xí)領(lǐng)域的文獻(xiàn)搜索,快速獲取最新的技術(shù)文章、研究論文和實(shí)踐經(jīng)驗(yàn),推薦工具「秘塔」(/)55/58總結(jié)理解深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的關(guān)系了解深度學(xué)習(xí)的核心理解深度學(xué)習(xí)技術(shù)框架的演變歷程56/58作業(yè)作業(yè)1:課后習(xí)題課后習(xí)題作業(yè)2(選做)利用bp神經(jīng)網(wǎng)絡(luò)解決鳶尾花分類問題利用lenet解決手寫數(shù)字識(shí)別問題57/585804人工智能技術(shù)的覺醒-深度學(xué)習(xí)技術(shù)框架0259本章目標(biāo)理解Transformer的架構(gòu)了解預(yù)訓(xùn)練大模型的使用方式了解深度學(xué)習(xí)在科研領(lǐng)域的應(yīng)用重點(diǎn)難點(diǎn)60/59引入計(jì)算機(jī)視覺領(lǐng)域的發(fā)展奠基時(shí)期揭示了視覺信息處理的神經(jīng)機(jī)制。這一發(fā)現(xiàn)為后來的人工視覺系統(tǒng)設(shè)計(jì)提供了寶貴的靈感。效率優(yōu)化與智能設(shè)計(jì)追求輕量化和自動(dòng)化提高了模型的效率,大大降低了深度學(xué)習(xí)應(yīng)用的門檻,為計(jì)算機(jī)視覺技術(shù)的普及奠定了基礎(chǔ)。深度學(xué)習(xí)革命突破性進(jìn)展與百花齊放,2012年AlexNet在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽中取得壓倒性勝利,掀起了深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的浪潮。1959-1970年代1989-20122012-20152015年后近年來,計(jì)算機(jī)視覺領(lǐng)域正經(jīng)歷著一場(chǎng)由Transformer架構(gòu)引發(fā)的深刻變革。這一最初為自然語(yǔ)言處理設(shè)計(jì)的架構(gòu),正在徹底改變我們處理視覺數(shù)據(jù)的方式。變革中的現(xiàn)在Transformer時(shí)代的來臨實(shí)用化探索階段卷積神經(jīng)網(wǎng)絡(luò)的崛起,LeNet在手寫數(shù)字識(shí)別任務(wù)中展現(xiàn)了卓越的性能,首次證明了深度學(xué)習(xí)在實(shí)際應(yīng)用中的巨大潛力。ImageNet創(chuàng)始人-李飛飛61/59引入自然語(yǔ)言領(lǐng)域的發(fā)展1950s-1980s早期規(guī)則基礎(chǔ)階段在自然語(yǔ)言處理的萌芽階段,研究人員主要依靠手工編寫的規(guī)則和語(yǔ)言學(xué)知識(shí)來處理自然語(yǔ)言。統(tǒng)計(jì)方法時(shí)代隨著計(jì)算能力的提升和大規(guī)模語(yǔ)料庫(kù)的出現(xiàn),統(tǒng)計(jì)方法開始主導(dǎo)自然語(yǔ)言處理領(lǐng)域。1980s-2000s2000s-2013神經(jīng)網(wǎng)絡(luò)復(fù)興隨著深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)方法在自然語(yǔ)言處理領(lǐng)域重新嶄露頭角。2014-2017遞歸神經(jīng)網(wǎng)絡(luò)時(shí)代遞歸神經(jīng)網(wǎng)絡(luò)(RNN),特別是長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU),在這一時(shí)期成為處理序列數(shù)據(jù)的主流方法。Transformer革命(2017年至今)2017年,Google研究團(tuán)隊(duì)提出的Transformer架構(gòu)掀起了自然語(yǔ)言處理的新革命。62/59引入自然語(yǔ)言領(lǐng)域技術(shù)革命計(jì)算機(jī)視覺領(lǐng)域技術(shù)革命Transformer革命63/59Transformer注意力機(jī)制65/59注意力機(jī)制Attention深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺注意力機(jī)制類似,核心邏輯:就是“從關(guān)注全部到關(guān)注重點(diǎn)”核心目標(biāo):從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。本質(zhì)思想:從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上,忽略不重要的信息。66/59注意力機(jī)制67/59自注意力機(jī)制VS68/59Self-Attention機(jī)制不依賴于序列的順序關(guān)系(如RNN的時(shí)間步驟),因此可以同時(shí)處理輸入的所有位置。Self-Attention結(jié)構(gòu)非常適合擴(kuò)展到更深層次的網(wǎng)絡(luò),例如Transformer。Transformer模型通過堆疊多個(gè)自注意力層來增加表達(dá)能力,并且能在較少的訓(xùn)練步驟中獲得顯著的性能提升。在許多任務(wù)中,輸入之間的相互關(guān)系并不總是線性或局部的。Self-Attention通過為每一對(duì)輸入之間計(jì)算相似度,可以捕捉到復(fù)雜的全局依賴關(guān)系,而不僅僅是局部上下文。相比于遞歸方法,Self-Attention能夠更好地處理任意長(zhǎng)度的輸入,因?yàn)槊總€(gè)位置的輸出是通過與其他所有位置的加權(quán)求和得到的,避免了長(zhǎng)時(shí)間依賴的梯度消失問題。相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)或遞歸神經(jīng)網(wǎng)絡(luò)(RNN),Self-Attention能夠直接捕捉長(zhǎng)距離的依賴關(guān)系。捕捉復(fù)雜的相互關(guān)系平行性與靈活性易于擴(kuò)展長(zhǎng)程依賴建模并行計(jì)算能力強(qiáng)自注意力機(jī)制的優(yōu)勢(shì)自注意力機(jī)制69/59編碼器與解碼器編碼器與解碼器在Transformer模型中,編碼器(Encoder)和解碼器(Decoder)是兩個(gè)關(guān)鍵的組件,它們各自承擔(dān)不同的功能,但相互依賴,共同完成任務(wù),特別是在自然語(yǔ)言處理(NLP)中。70/59編碼器與解碼器71/59編碼器與解碼器72/59編碼器與解碼器自注意力層:使模型能夠關(guān)注輸入序列的不同部分。前饋神經(jīng)網(wǎng)絡(luò)層:進(jìn)一步處理信息。這一層接收自注意力層的輸出,對(duì)每個(gè)位置的信息進(jìn)行獨(dú)立的深度處理。編碼器與解碼器73/59Transformer的影響力并行處理能力長(zhǎng)距離依賴建??蓴U(kuò)展性允許模型同時(shí)處理大量數(shù)據(jù),大大提高了訓(xùn)練效率Transformer的結(jié)構(gòu)易于擴(kuò)展,可以通過增加層數(shù)、注意力頭數(shù)等方式構(gòu)建更大的模型能夠捕捉文本中的長(zhǎng)距離關(guān)系,提高了模型的理解能力74/59Transformer的應(yīng)用代表性模型-BertBERT是Transformer架構(gòu)在自然語(yǔ)言處理領(lǐng)域的一個(gè)重要應(yīng)用。BERT模型的核心是Transformer的編碼器部分。自2018年問世以來,BERT因其出色的性能引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,推動(dòng)了相關(guān)研究的快速發(fā)展。BERT75/59Transformer的應(yīng)用代表性模型-Bert2134BERT可以用來對(duì)文本進(jìn)行分類。文本分類BERT可以在問答系統(tǒng)中用來理解問題并生成答案。問答系統(tǒng)BERT可以用來比較兩個(gè)句子之間的相似程度。句子相似度比較BERT可以用來識(shí)別文本中的命名實(shí)體。命名實(shí)體識(shí)別76/59Transformer的應(yīng)用代表性模型-GPTGPT是另一個(gè)基于Transformer架構(gòu)的重要模型系列。與BERT不同,GPT使用了Transformer的解碼器部分,主要用于生成任務(wù)。GPT系列模型展示了強(qiáng)大的文本生成能力,GPT-3的規(guī)模和性能標(biāo)志著自然語(yǔ)言處理進(jìn)入了一個(gè)新的階段。GPT77/59Transformer的應(yīng)用代表性模型-GPTGPT可以用來自動(dòng)完成用戶輸入的文本。GPT可以用來生成文章摘要GPT可以用來生成文本。GPT可以用來生成翻譯后的文本。01020304文本自動(dòng)完成摘要生成文本生成語(yǔ)言翻譯78/59Transformer的應(yīng)用代表性模型兩者都采用了預(yù)訓(xùn)練-微調(diào)的訓(xùn)練方法。先在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后在特定任務(wù)上進(jìn)行微調(diào),以適應(yīng)不同的應(yīng)用場(chǎng)景。預(yù)訓(xùn)練-微調(diào)策略兩者都使用自監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,即模型在沒有人工標(biāo)注數(shù)據(jù)的情況下,利用輸入數(shù)據(jù)本身生成學(xué)習(xí)信號(hào)。自監(jiān)督學(xué)習(xí)BERT和GPT都使用了Transformer架構(gòu),利用自注意力機(jī)制(Self-Attention)來處理輸入的序列數(shù)據(jù)?;赥ransformer架構(gòu)BERT和GPT都在大規(guī)模的文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,確保它們能夠捕捉豐富的語(yǔ)言模式和語(yǔ)義信息。大規(guī)模數(shù)據(jù)訓(xùn)練01020304共同點(diǎn)79/59Transformer的應(yīng)用代表性模型區(qū)別GPTBERT訓(xùn)練目標(biāo)GPT是一個(gè)單向的生成模型,它在生成文本時(shí)是從左到右逐步預(yù)測(cè)下一個(gè)詞,因此每個(gè)詞的生成只依賴于它左側(cè)的上下文。BERT是一個(gè)雙向的編碼器模型,BERT在預(yù)訓(xùn)練時(shí)考慮的是上下文的雙向信息,因此它能夠同時(shí)利用左側(cè)和右側(cè)的上下文來理解每個(gè)詞的意義。模型結(jié)構(gòu)GPT是一個(gè)純解碼器(Decoder)架構(gòu),主要用于生成文本。BERT是一個(gè)純編碼器(Encoder)架構(gòu),只用來處理輸入文本并提取特征。使用方式GPT主要用于生成任務(wù),如文本生成、對(duì)話系統(tǒng)等,能夠根據(jù)已有文本生成新的連貫的內(nèi)容。BERT更擅長(zhǎng)于理解任務(wù),如文本分類、命名實(shí)體識(shí)別(NER)、問答系統(tǒng)等,它通過編碼輸入的上下文來捕捉文本的語(yǔ)義信息。預(yù)訓(xùn)練方式采用自回歸的語(yǔ)言模型預(yù)訓(xùn)練方法,即模型根據(jù)已有的單詞逐步預(yù)測(cè)下一個(gè)單詞。采用的是掩碼語(yǔ)言模型預(yù)訓(xùn)練方法,它通過遮掩掉輸入文本中的部分單詞來訓(xùn)練模型,使其預(yù)測(cè)被遮掩的詞。80/59Transformer實(shí)踐訓(xùn)練一個(gè)Transformer模型,使得輸入和輸出一模一樣,即對(duì)于輸入序列[1,2,3,4],模型輸出也為[1,2,3,4],這實(shí)際上是一個(gè)非常簡(jiǎn)單的序列到序列(seq2seq)任務(wù)。這個(gè)目標(biāo)本質(zhì)上是對(duì)Transformer模型的基礎(chǔ)功能進(jìn)行驗(yàn)證,而不是解決實(shí)際的機(jī)器翻譯等復(fù)雜任務(wù)。1.任務(wù)描述為什么輸入和輸出相同?01能力02基礎(chǔ)03
理解04
訓(xùn)練05
驗(yàn)證學(xué)習(xí)能力驗(yàn)證驗(yàn)證Transformer模型的基本學(xué)習(xí)能力。如果模型不能完成這個(gè)任務(wù),可能意味著模型的基礎(chǔ)結(jié)構(gòu)(如編碼器-解碼器的自注意力機(jī)制)存在問題。模型的基礎(chǔ)行為這種簡(jiǎn)單任務(wù)幫助我們理解Transformer模型的基本行為,特別是它如何利用自注意力機(jī)制處理輸入序列。在這種情況下,模型學(xué)習(xí)到的最優(yōu)策略是:對(duì)輸入序列進(jìn)行“復(fù)制”操作。自注意力機(jī)制的理解在這個(gè)任務(wù)中,盡管輸入和輸出一致,模型仍然需要學(xué)習(xí)如何使用自注意力機(jī)制去捕捉輸入序列中的每一個(gè)元素,并生成與輸入相同的輸出序列。訓(xùn)練模型的基礎(chǔ)通過簡(jiǎn)單的輸入和輸出相同的任務(wù),我們可以確保模型能夠有效學(xué)習(xí),并且能夠在后續(xù)更復(fù)雜的任務(wù)(如機(jī)器翻譯)中進(jìn)行有效訓(xùn)練和推理。驗(yàn)證模型的基礎(chǔ)能力這個(gè)簡(jiǎn)單任務(wù)類似于一個(gè)基準(zhǔn)測(cè)試,驗(yàn)證模型是否能完成最基礎(chǔ)的任務(wù),即序列的復(fù)制和保持結(jié)構(gòu)。這也可以作為模型過擬合或者不收斂的早期信號(hào)。81/59Transformer實(shí)踐任務(wù)流程初實(shí)踐-代碼解析##定義一些超參數(shù)NUM_BATCHES=1000#訓(xùn)練過程中的批次總數(shù),這里是1000BATCH_SIZE=32#每個(gè)批次中的樣本數(shù)量,這里是32LEARNING_RATE=3e-4#學(xué)習(xí)率,這里是0.0003GENERATE_EVERY=100#指定每訓(xùn)練100批次后進(jìn)行一次生成測(cè)試NUM_TOKENS=16+2#詞匯表的大小ENC_SEQ_LEN=32#編碼器處理的序列長(zhǎng)度,這里是32DEC_SEQ_LEN=64+1#解碼器處理的序列長(zhǎng)度,這里是6582/59Transformer實(shí)踐任務(wù)流程初實(shí)踐-代碼解析defcycle():#定義一個(gè)無(wú)限循環(huán)生成器函數(shù)cyclewhileTrue:prefix=torch.ones((BATCH_SIZE,1)).long().cuda()src=torch.randint(2,NUM_TOKENS,(BATCH_SIZE,ENC_SEQ_LEN)).long().cuda()tgt=torch.cat((prefix,src,src),1)src_mask=torch.ones(BATCH_SIZE,src.shape[1]).bool().cuda()yield(src,tgt,src_mask)83/59Transformer實(shí)踐任務(wù)流程初實(shí)踐-任務(wù)描述model=XTransformer(dim=512,#設(shè)置模型的維度為512....enc_num_tokens=NUM_TOKENS,#設(shè)置編碼器的詞匯表大小enc_depth=3,#設(shè)置編碼器的層數(shù)為3enc_heads=8,#設(shè)置編碼器的頭數(shù)為8....dec_depth=3,#設(shè)置解碼器的層數(shù)為3dec_heads=8,#設(shè)置解碼器的頭數(shù)為8dec_max_seq_len=DEC_SEQ_LEN#設(shè)置解碼器的最大序列長(zhǎng)度).cuda()#將模型移至GPU84/59Transformer實(shí)踐任務(wù)流程初實(shí)踐-任務(wù)描述#優(yōu)化器optim=torch.optim.Adam(model.parameters(),lr=LEARNING_RATE)#使用Adam優(yōu)化器,設(shè)置學(xué)習(xí)率#訓(xùn)練#使用tqdm顯示訓(xùn)練進(jìn)度f(wàn)oriintqdm.tqdm(range(NUM_BATCHES),mininterval=10.,desc='training'):model.train()#將模型設(shè)置為訓(xùn)練模式src,tgt,src_mask=next(cycle())#從生成器中獲取一批數(shù)據(jù)loss=model(src,tgt,mask=src_mask)#計(jì)算損失loss.backward()#反向傳播optim.step()
...85/59Transformer實(shí)踐任務(wù)流程初實(shí)踐-任務(wù)描述ifi!=0andi%GENERATE_EVERY==0:#在指定的間隔內(nèi)進(jìn)行性能評(píng)估m(xù)odel.eval()#將模型設(shè)置為評(píng)估模式src,_,src_mask=next(cycle())#獲取一批數(shù)據(jù)src,src_mask=src[:1],src_mask[:1]#僅取一條數(shù)據(jù)進(jìn)行測(cè)試start_tokens=(torch.ones((1,1))*1).long().cuda()#創(chuàng)建起始tokensample=model.generate(src,start_tokens,ENC_SEQ_LEN,mask=src_mask)#生成輸出序列incorrects=(src!=sample).abs().sum()#計(jì)算不正確的token數(shù)量86/59Transformer實(shí)踐任務(wù)流程初實(shí)踐-任務(wù)描述#假設(shè)我們有一些源序列數(shù)據(jù)src_sequence=torch.randint(2,NUM_TOKENS,(1,ENC_SEQ_LEN)).long().cuda()#隨機(jī)生成一個(gè)源序列#創(chuàng)建源序列的掩碼src_mask=torch.ones(1,src_sequence.shape[1]).bool().cuda()#設(shè)置起始token,通常是特定的一個(gè)token,比如1start_tokens=torch.ones((1,1)).long().cuda()*1#使用模型生成輸出model.eval()#確保模型處于評(píng)估模式generated_sequence=model.generate(src_sequence,start_tokens,ENC_SEQ_LEN,mask=src_mask)87/59小結(jié)Transformer中的核心技術(shù)是什么?自注意力機(jī)制有哪些優(yōu)勢(shì)?BERT和GPT在Transformer架構(gòu)上有什么區(qū)別?88/59預(yù)訓(xùn)練大模型預(yù)訓(xùn)練的思想1.預(yù)訓(xùn)練:在ImageNet等通用數(shù)據(jù)集上訓(xùn)練得到模型A,先學(xué)到通用的“看圖本領(lǐng)”(如邊緣、紋理)。2.微調(diào):以A為起點(diǎn)得到模型B,按當(dāng)前任務(wù)需要換成新的輸出層,用目標(biāo)任務(wù)的數(shù)據(jù)再訓(xùn)練一下,得到專才模型B。預(yù)訓(xùn)練思想90/59預(yù)訓(xùn)練模型到大模型的發(fā)展01出現(xiàn)02發(fā)展03
涌現(xiàn)預(yù)訓(xùn)練模型的出現(xiàn)2013年,word2vec和GloVe等詞向量預(yù)訓(xùn)練模型問世,為后續(xù)的預(yù)訓(xùn)練模型奠定了基礎(chǔ)。2018年,谷歌提出BERT模型,開創(chuàng)了基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型時(shí)代。在多項(xiàng)自然語(yǔ)言理解任務(wù)上取得了顯著進(jìn)展。預(yù)訓(xùn)練模型向大模型發(fā)展大模型的涌現(xiàn)2019年,OpenAI推出了GPT-2,其參數(shù)量達(dá)到15億,遠(yuǎn)超BERT。GPT-2采用了僅包含解碼器部分的Transformer結(jié)構(gòu),展現(xiàn)了強(qiáng)大的生成能力。2020年,微軟和英偉達(dá)發(fā)布了Turing-NLG,參數(shù)量達(dá)到170億,進(jìn)一步擴(kuò)大了預(yù)訓(xùn)練模型的規(guī)模。2020年,OpenAI推出了GPT-3,其參數(shù)量達(dá)到1750億,再次刷新了預(yù)訓(xùn)練模型規(guī)模的紀(jì)錄。2021年,谷歌發(fā)布了SwitchTransformer,參數(shù)量達(dá)到1.6萬(wàn)億,這是首個(gè)萬(wàn)億級(jí)參數(shù)的預(yù)訓(xùn)練模型。2022年,谷歌推出了PaLM,參數(shù)量達(dá)到5400億,并在多項(xiàng)自然語(yǔ)言處理任務(wù)上取得了領(lǐng)先成績(jī)。91/59大模型興起的原因Transformer架構(gòu)奠定了技術(shù)基礎(chǔ)硬件發(fā)展為大模型訓(xùn)練提供了支持Transformer架構(gòu)憑借其獨(dú)特的設(shè)計(jì)為大模型的發(fā)展提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。具備卓越的并行計(jì)算能力、長(zhǎng)距離依賴建模能力和良好的可擴(kuò)展性,還具有強(qiáng)大的通用性.硬件技術(shù)的進(jìn)步:為訓(xùn)練和部署大規(guī)模模型提供了必要的計(jì)算能力并行計(jì)算能力提升:能夠高效地進(jìn)行大規(guī)模并行計(jì)算內(nèi)存帶寬增加:能夠更快地訪問和處理大量數(shù)據(jù)專用硬件加速器:如進(jìn)一步提高了訓(xùn)練效率分布式訓(xùn)練技術(shù):突破了單機(jī)訓(xùn)練的限制92/59大模型的使用方法-直接使用這種方法直接利用預(yù)訓(xùn)練模型生成的特征或嵌入作為下游任務(wù)的輸入。例如,使用BERT或GPT系列模型生成的上下文相關(guān)的詞嵌入。研究表明,在多種自然語(yǔ)言處理任務(wù)中,這種方法能夠顯著提升性能。例如,McCormick和Ryan(2019)的研究顯示,使用BERT生成的詞嵌入可以將文本分類任務(wù)的準(zhǔn)確率提高5-10%。直接使用93/59大模型的使用方法-微調(diào)大模型微調(diào)-常見的微調(diào)技術(shù)通過在輸入前添加一組可學(xué)習(xí)的“前綴”嵌入,來引導(dǎo)模型生成更符合特定任務(wù)的輸出,而不需要修改模型的其他部分。PrefixTuning在訓(xùn)練時(shí),固定住原來預(yù)訓(xùn)練模型的參數(shù)不變,只對(duì)新增的Adapter結(jié)構(gòu)和LayerNorm層進(jìn)行微調(diào),從而保證了訓(xùn)練的高效性。AdapterTuning核心思想就是通過低秩分解來模擬參數(shù)的改變量,從而以極小的參數(shù)量來實(shí)現(xiàn)大模型的間接訓(xùn)練Lora94/59大模型的使用方法-提示詞提示詞格式提示詞可以是一個(gè)單詞、一句話或一段文字。功能提示詞是用來引導(dǎo)人工智能模型生成特定內(nèi)容的文本輸入。結(jié)果通過提示詞,用戶可以指定生成內(nèi)容的主題、風(fēng)格或格式。95/59大模型服務(wù)獲取方法-MaaS與模型開源MaaS(API調(diào)用)私有化部署(模型開源)區(qū)別數(shù)據(jù)安全(隱私保護(hù))數(shù)據(jù)上傳到云端處理,可能會(huì)造成信息外泄能讓數(shù)據(jù)在內(nèi)部流轉(zhuǎn),相當(dāng)于給敏感信息加了個(gè)保險(xiǎn)箱定制化和控制權(quán)通用,但可能不夠貼身靈活,可以按照自身需求調(diào)整模型,訓(xùn)練其更好地理解行業(yè)術(shù)語(yǔ),優(yōu)化算法來提升特定任務(wù)的效率硬件需求對(duì)顯存幾乎沒有任何要求,是個(gè)電腦就行針對(duì)不同的模型需要不同的顯存要求,硬件要求較高聯(lián)系功能接口兩者都涉及定義和使用功能接口。API調(diào)用通過接口訪問特定功能或服務(wù)。而私有化部署使用接口管理內(nèi)部系統(tǒng)之間的交互可擴(kuò)展性API調(diào)用和私有化部署都可以隨著需求的增加而擴(kuò)展。96/59API調(diào)用智譜AI/百川智能通義千問/qianwen月之暗面/DeepSeek97/59API調(diào)用98/59API調(diào)用99/59API調(diào)用100/59API調(diào)用101/59API調(diào)用12345102/59模型開源ModelScopeHuggingFace103/59模型開源ModelScopeHuggingFace平臺(tái)背景和定位由AlibabaDAMOAcademy推出,主要面向企業(yè)和研發(fā)人員,特別是在中國(guó)市場(chǎng)有較大影響力。HuggingFace是一個(gè)更全球化的開源社區(qū),專注于自然語(yǔ)言處理(NLP)領(lǐng)域,尤其是在Transformer模型上的發(fā)展。模型庫(kù)和支持的任務(wù)提供了多種類型的預(yù)訓(xùn)練模型,不僅限于NLP,還涵蓋了圖像、視頻、語(yǔ)音等領(lǐng)域。主要集中在NLP領(lǐng)域,尤其是Transformer模型(如BERT、GPT、T5等)易用性和社區(qū)支持相對(duì)較新的平臺(tái),社區(qū)規(guī)模不如HuggingFace,但仍在快速發(fā)展。擁有非常龐大的社區(qū)和廣泛的開發(fā)者支持。商業(yè)化和收費(fèi)模式基于阿里云,支持私有化部署和企業(yè)級(jí)定制服務(wù),適合有商業(yè)需求的用戶。模型和服務(wù)的收費(fèi)模式更加面向企業(yè)級(jí)應(yīng)用。提供免費(fèi)的基礎(chǔ)服務(wù),但也有付費(fèi)服務(wù)(如InferenceAPI、AutoNLP、PrivateModelStorage)。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 品牌策劃師應(yīng)聘測(cè)試題目集
- 敏捷項(xiàng)目經(jīng)理敏捷開發(fā)面試題集含答案
- 河南編導(dǎo)模擬試題及答案
- 2025年來賓市武宣縣二塘鎮(zhèn)衛(wèi)生院公開招聘編外人員備考題庫(kù)及參考答案詳解1套
- 2025年瑞安市安保集團(tuán)有限公司公開招聘市場(chǎng)化用工人員備考題庫(kù)及1套參考答案詳解
- 2025年小學(xué)語(yǔ)文老師招聘?jìng)淇碱}庫(kù)及一套完整答案詳解
- 2025年彝良縣中小學(xué)教師招聘筆試備考試題及答案解析
- 美團(tuán)外賣運(yùn)營(yíng)經(jīng)理面試題及答案大全
- 2025年遵義市教師招聘參考題庫(kù)及答案解析
- 2025年卓尼縣中小學(xué)教師招聘筆試參考試題及答案解析
- 頸椎病的手術(shù)治療方法
- 野性的呼喚讀書分享
- 極簡(jiǎn)化改造實(shí)施規(guī)范
- 科研方法論智慧樹知到期末考試答案章節(jié)答案2024年南開大學(xué)
- DBJ51-T 139-2020 四川省玻璃幕墻工程技術(shù)標(biāo)準(zhǔn)
- 一帶一路教學(xué)課件教學(xué)講義
- 工廠蟲害控制分析總結(jié)報(bào)告
- 回顧性中醫(yī)醫(yī)術(shù)實(shí)踐資料(醫(yī)案)表
- 延期交房起訴狀
- 廣東省消防安全重點(diǎn)單位消防檔案
- 高考日語(yǔ)形式名詞わけ、べき、はず辨析課件
評(píng)論
0/150
提交評(píng)論