人工智能導(dǎo)論 課件 第16章 大語言模型_第1頁
人工智能導(dǎo)論 課件 第16章 大語言模型_第2頁
人工智能導(dǎo)論 課件 第16章 大語言模型_第3頁
人工智能導(dǎo)論 課件 第16章 大語言模型_第4頁
人工智能導(dǎo)論 課件 第16章 大語言模型_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第16章大語言模型16.1大語言模型概述16.2大語言模型的技術(shù)脈絡(luò)

16.3大語言模型的開發(fā)與構(gòu)建

16.4典型大語言模型簡介

16.1大語言模型概述

16.1.1

什么是大語言模型

大規(guī)模神經(jīng)語言模型(LargeLanguegeModel,LLM)

由基本網(wǎng)絡(luò)模型搭建而成

百億以上的參數(shù)量

16.1.2

為什么要建大語言模型

ScalingLaw

(擴(kuò)展或縮放法則):模型規(guī)模的擴(kuò)展(增加模型的參數(shù))或數(shù)據(jù)規(guī)模的加大,往往會(huì)使模型的性能得到顯著提升,進(jìn)而也使模型在下游任務(wù)中表現(xiàn)更佳。16.1.3

大語言模型發(fā)展概況2014年,GoogleBrain的llyaSutskever團(tuán)隊(duì)和YoshuaBengio團(tuán)隊(duì)各自獨(dú)立提出了Seq2Seq(SequencetoSequence)網(wǎng)絡(luò)模型架構(gòu),該架構(gòu)由編碼器和解碼器兩部分組成,并引入了注意力機(jī)制。2017年6月,Google的Vaswani等受Seq2Seq的啟發(fā),進(jìn)一步提出了稱為Transformer的模型架構(gòu)。Transformer的出現(xiàn),給大語言模型的研發(fā)奠定了基礎(chǔ),開辟了道路。從此,大語言模型的研發(fā)正式起步。2018年3月,華盛頓大學(xué)提出了語言模型ELMo(EmbeddingfromLanguageModels),其中提出了預(yù)訓(xùn)練、微調(diào)和動(dòng)態(tài)詞嵌入的思想和技術(shù)。2018年6月,OpenAI推出了一款基于Transformer的生成式預(yù)訓(xùn)練語言模型GPT-1。

2018年10月,Google的JacobDevlin等推出了一款基于Transformer的雙向編碼語言模型BERT。2019年10月,Google發(fā)布并開源了參數(shù)為110億的T5(Text-to-TextTransferTransformer)模型??梢哉f,參數(shù)規(guī)模突破百億大關(guān)的T5標(biāo)志著大語言模型的誕生。從此,大語言模型的研發(fā)便拉開了序幕。2019年10月,F(xiàn)acebook的MikeLewis等推出了一款基于Transformer的語言模型BART。2020年5月,OpenAI推出了參數(shù)為1750億的GPT-3。隨后又是兼有編程能力的GPT-3.5。2021年4月,華為推出了PanGu-

(盤古的一個(gè)版本)。2021年7月,百度推出了Ernie3.0(文心一言的基座模型)。2022年,OpenAI的Ouyang等提出了“有監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)”的InstructGPT。2022年4月,Google推出了參數(shù)為5400億的PaLM。2022年11月30日,OpenAI在網(wǎng)上發(fā)布了聊天機(jī)器人ChatGPT,轟動(dòng)業(yè)界,震驚全球。從此,“大語言模型”、“AI”便家喻戶曉,一個(gè)新的AI研發(fā)熱潮在全球范圍內(nèi)如火如荼地展開了。2023年2月,Googel發(fā)布了聊天機(jī)器人Bard。2023年3月,OpenAI發(fā)布了有多模態(tài)處理能力的GPT-4。2023年3月,Anthropic發(fā)布了有多模態(tài)處理能力的大語言模型Claude。2023年7月,Meta發(fā)布并開源了大語言模型LLaMA-2。2024年2月,OpenAI發(fā)布了文生視頻大模型Sora。2024年2月Google推出了MoE架構(gòu)的新型多模態(tài)大模型Gemini。2024年9月,OpenAI發(fā)布了o1推理模型系列。12月又發(fā)布了GPT-4.5。2025年1月Google提出了一種可望繼任Transformer的新型架構(gòu)Titans.2025年1月20日,深度求索推出了低成本、高性能的DeepSeek-R1,震驚世界。國內(nèi)的大模型有百度的文心一言(已改名為“文小言”)、華為的盤古、字節(jié)跳動(dòng)的豆包、科大訊飛的星火、智譜的ChatGLM、阿里的通義天問、騰訊的混元、…等等,還有中科院和不少高等院校(如清華、復(fù)旦、北航)也都紛紛推出了各自己的大語言模型。

從任務(wù)處理能力來看,早期的語言模型主要面向自然語言的建模和生成任務(wù),而大語言模型則擴(kuò)展到更廣泛、更復(fù)雜任務(wù)的求解。統(tǒng)計(jì)語言模型主要被用于(或輔助用于)解決一些語言處理任務(wù),如信息檢索、文本分類、語音識別、翻譯等。神經(jīng)語言模型專注于學(xué)習(xí)任務(wù)無關(guān)的語義表征。預(yù)訓(xùn)練語言模型加強(qiáng)了語義表征的上下文感知能力,并且可以針對下游任務(wù)進(jìn)行微調(diào),能夠有效提升模型性能,擴(kuò)展了語言模型的應(yīng)用范圍,如問答、文本生成、代碼生成、數(shù)學(xué)解題等。隨著模型參數(shù)、訓(xùn)練數(shù)據(jù)和算力的大規(guī)模擴(kuò)展,最新一代大語言模型的一般任務(wù)和特定任務(wù)求解能力都有了顯著提升。

16.2大語言模型的技術(shù)脈絡(luò)16.2.1技術(shù)發(fā)展路線圖在循環(huán)網(wǎng)絡(luò)語言模型和長短期記憶網(wǎng)絡(luò)及門控單元語言模型的基礎(chǔ)上,引入了注意力機(jī)制,而開發(fā)出Seq2Seq這種由編碼器和解碼器組成的組合式網(wǎng)絡(luò)語言模型(架構(gòu));在前饋網(wǎng)絡(luò)語言模型的基礎(chǔ)上,又引入了位置編碼、并行計(jì)算和多頭自注意力機(jī)制,并參照了Seq2Seq模式,而推出了Transformer這種變換器網(wǎng)絡(luò)語言模型(架構(gòu));在Transformer的基礎(chǔ)上,僅采用其編碼器部分,并引入自編碼、雙向編碼、段嵌入、預(yù)訓(xùn)練和數(shù)據(jù)微調(diào)等機(jī)制和措施,而得到了面向自然語言理解任務(wù)的大語言模型BERT;在Transformer的基礎(chǔ)上,僅采用其解碼器部分,并引入自回歸解碼、生成式預(yù)訓(xùn)練和數(shù)據(jù)微調(diào)等機(jī)制和措施,而得到了面向自然語言生成任務(wù)的大語言模型GPT-1、-2等初級版;在Transformer的基礎(chǔ)上,采用完全的編碼器和解碼器架構(gòu),用自回歸解碼模型,文本破壞等機(jī)制而實(shí)現(xiàn)了用于分類、理解、翻譯等任務(wù)的BART模型。在Transformer的基礎(chǔ)上,采用完全的編碼器和解碼器架構(gòu),再增添雙向編碼、texttotext和任務(wù)聲明前綴等機(jī)制,實(shí)現(xiàn)了可用于各種自然語言處理任務(wù)的T5模型;ELMo似乎是一枝獨(dú)秀,它實(shí)際是第二代預(yù)訓(xùn)練語言模型的重要代表。Word2Vec這個(gè)詞嵌入工具則是最早采用了類似預(yù)訓(xùn)練的方法,它亦功不可沒。圖中最高層為至2025年初名列前茅的多模態(tài)大模型。所采用的技術(shù)有多模態(tài)、MoE架構(gòu)、數(shù)據(jù)生成、RAG、輕量化、思維鏈等。在預(yù)訓(xùn)練語言模型時(shí)代,自然語言處理領(lǐng)域廣泛采用了預(yù)訓(xùn)練+微調(diào)的范式,并誕生了以BERT為代表的編碼器(Encoder-only)架構(gòu)、以GPT為代表的解碼器(Decoder-only)架構(gòu)和以T5和BART為代表的編碼器-解碼器(Encoder-decoder)架構(gòu)的大規(guī)模預(yù)訓(xùn)練語言模型。隨著GPT系列模型的成功發(fā)展,當(dāng)前自然語言處理領(lǐng)域走向了生成式大語言模型的道路,解碼器架構(gòu)已經(jīng)成為了目前大語言模型的主流架構(gòu)。語言大模型的擴(kuò)展則是多模態(tài)大模型,其當(dāng)前的流行架構(gòu)為MoE架構(gòu)。

16.2.2Seq2Seq1.體系結(jié)構(gòu)和數(shù)據(jù)流程Seq2Seq的工作過程是:編碼器將輸入序列w1,w2,…,wm(的詞向量C(w1),C(w2),…,C(wm))編碼為固定長度的語義向量S(這個(gè)向量可以看作是輸入序列的語義),然后解碼器將語義向量S解碼為另一個(gè)序列w’1,w’2,…,w’n

(這個(gè)序列概念上可以是詞序列,但嚴(yán)格講,則是一個(gè)向量序列;將每個(gè)向量再變換為一個(gè)概率分布才得到一個(gè)個(gè)相應(yīng)的單詞)。就是說,語義向量S是編碼器的輸出和解碼器的輸入,它是將序列w1,w2,…,wm變換為序列w’1,w’2,…,w’n的中介和橋梁,概念上可表示為S=Encoder(w1,w2,…,wm)語義向量S與解碼器有兩種連接方式:①S只作為解碼器第一時(shí)刻隱層(循環(huán)單元)的輸入,即S只作為初始狀態(tài)參與運(yùn)算,與后面的運(yùn)算無直接關(guān)聯(lián)。②S作為解碼器所有時(shí)刻隱層的輸入,即S參與所有時(shí)刻的運(yùn)算。解碼器將固定長度的語義向量S映射為變長度的目標(biāo)序列w’1,w’2,…,w’n,概念上w’t=Decoder(S,hd1,hd2,…,hdt

1)

2.注意力機(jī)制注意力機(jī)制就是在如圖16-6(a)所示編碼器與語義向量S之間添加一個(gè)注意力(函數(shù))層(如圖16-6(b)所示),其可有針對性地、實(shí)時(shí)地為解碼器生成一個(gè)盡可能合適的特定語義向量St,以便解碼器進(jìn)而生成相應(yīng)的hdt和輸出w’t。具體做法是,根據(jù)解碼器的上一個(gè)隱狀態(tài)hdt

1與編碼器的各隱狀態(tài)h1,h2,…,hm的相關(guān)度,給h1,h2,…,hm分配權(quán)重,然后基于權(quán)重構(gòu)造相應(yīng)的語義向量St。這樣一來,編碼器不再將所有輸入信息都“一視同仁”地編碼進(jìn)一個(gè)語義向量S,而是與解碼器合作,由注意力層結(jié)合解碼器的隱狀態(tài)將原輸入序列依次編碼成語義向量S1,S2,…,Sn,其中St是對應(yīng)于hdt及w’t的向量。16.2.3Transformer

1.體系結(jié)構(gòu)與數(shù)據(jù)流程

3.

其他術(shù)語解釋

位置編碼由于未采用循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),Transformer為詞序列中詞元的順序關(guān)系引入了位置嵌入(PositionEmbedding,PE)機(jī)制。即對一個(gè)詞向量v??,根據(jù)其在輸入序列中的位置分配一個(gè)固定長度的向量p??。然后,將詞向量和位置向量相加而形成了最終的輸入向量x??。位置向量一般用正弦波函數(shù)產(chǎn)生(如圖中的圖符所示)。

跨層加和歸一化跨層相加實(shí)際上是實(shí)現(xiàn)了一種殘差連接(ResidualConnection),即直接將相應(yīng)前層模塊的輸入連接到其輸出,以避免在訓(xùn)練過程中產(chǎn)生梯度爆炸和消失問題。而歸一化則是對數(shù)據(jù)進(jìn)行重新放縮,以提高訓(xùn)練的穩(wěn)定性,使相應(yīng)層的輸入和輸出保持在一個(gè)合理的范圍內(nèi)。

前饋網(wǎng)絡(luò)模塊前饋網(wǎng)絡(luò)模塊由兩層全連接網(wǎng)絡(luò)組成,其對下面歸一化層的輸出做非線性變換,以學(xué)習(xí)復(fù)雜的關(guān)系和特征。這一非線性變換可抽象地表示為y=FFN(x)=

(W1x

+b1)W2

+b2

(16-11)其中W1

和W2分別是第一層和第二層的線性變換權(quán)重矩陣,b1′和b2是偏置項(xiàng),

是激活函數(shù)(如采用ReLU函數(shù))。

交叉注意力交叉注意力就是解碼器同時(shí)接收來自編碼器的輸出和解碼器前端模塊的輸出,綜合計(jì)算后將結(jié)果向后傳輸。

掩碼多頭注意力解碼器中的掩碼多頭注意力就是在計(jì)算注意力時(shí),遮蔽當(dāng)前位置之后的詞元信息,使其不參加注意力的相關(guān)計(jì)算。這樣做是為了后面的生成目標(biāo)序列僅依賴當(dāng)前詞元及前面詞元的信息而不依賴后面詞元的信息。掩碼多頭注意力機(jī)制實(shí)際上是為預(yù)訓(xùn)練設(shè)計(jì)的。因?yàn)轭A(yù)訓(xùn)練時(shí)是用真實(shí)的句子通過一步步遮蔽后面的詞元而讓機(jī)器預(yù)測下一個(gè)詞元的方式來訓(xùn)練網(wǎng)絡(luò)、優(yōu)化模型參數(shù)的。

Outputs和OutputEmbedding

解碼器下端向上箭頭下面的文字Outputs是指上一時(shí)刻解碼器輸出的詞元序列,箭頭的意思是將這個(gè)詞元序列從此處輸入;箭頭上面的OutputEmbedding則是指將Outputs變換為詞向量序列,然后送入上面的掩碼多頭注意力模塊。另外,對于翻譯任務(wù),訓(xùn)練時(shí)則要采用所謂的“教師強(qiáng)制(teacherforcing)”方法,將正確答案(即譯文)從這里輸入,以供計(jì)算模型預(yù)測結(jié)果與真實(shí)文本的損失。

4.運(yùn)行過程Transformer的訓(xùn)練過程大體是:首先將預(yù)訓(xùn)練用的詞元序列輸入編碼器,對編碼器進(jìn)行預(yù)訓(xùn)練。編碼器訓(xùn)練完成后,給編碼器輸入實(shí)際序列數(shù)據(jù),將其編碼后傳給解碼器,并將相應(yīng)的原序列數(shù)據(jù)也輸入解碼器,然后以迭代的方式對解碼器進(jìn)行解碼預(yù)訓(xùn)練。由解碼器的結(jié)構(gòu)可以看出,掩碼自注意力機(jī)制和Outputs的設(shè)計(jì)已提供了以迭代方式進(jìn)行解碼的條件。對于已經(jīng)預(yù)訓(xùn)練好的Transformer,其運(yùn)行過程則大體是:首先將實(shí)際詞元序列輸入編碼器對其進(jìn)行編碼,接著將相應(yīng)編碼傳給解碼器,解碼器仍然以迭代方式進(jìn)行解碼,而生成相應(yīng)的輸出文本。

5.基于Transformer的大語言模型分類從架構(gòu)看,基于Transformer的大語言模型可分為僅采用編碼器,僅采用解碼器,和采用完整的Transformer架構(gòu)等三大類。基于Transformer的大語言模型又被分為自編碼模型(auto-encodingmodel,AE)、自回歸模型(autoregressivemodel,AR)和自編碼-自回歸模型三大類別。

16.3大語言模型開發(fā)與構(gòu)建

16.3.1

模型設(shè)計(jì)與實(shí)現(xiàn)模型設(shè)計(jì)階段,首先要根據(jù)模型的任務(wù)目標(biāo)設(shè)計(jì)模型的基本架構(gòu);然后再根據(jù)具體任務(wù)做進(jìn)一步調(diào)整和完善來搭建相應(yīng)的大語言模型。大模型編程語言特點(diǎn)是:支持并行處理、能處理大規(guī)模數(shù)據(jù)、強(qiáng)大的計(jì)算能力、可擴(kuò)展等。當(dāng)前的流行做法是選用能調(diào)用相關(guān)程序庫的編程語言,以簡單的編程來實(shí)現(xiàn)模型。例如,可用Python、C++、R、JavaJulia等語言。至于程序庫,著名有TensorFlow、PyTorch等。這些將在后面的11.4節(jié)介紹。在這里我們再推薦HuggingFace、GitHub、NLTK、Keras和飛槳等開發(fā)平臺(tái)。

16.3.2

數(shù)據(jù)準(zhǔn)備事先采集和收集大量的相關(guān)文本資料。這些文本資料包括普通書籍、大眾報(bào)刊、資訊網(wǎng)頁、問答網(wǎng)站、百科全書等等,內(nèi)容十分廣泛,涉及天文地理、人文歷史、文化藝術(shù)、科技教育、醫(yī)療衛(wèi)生、體育軍事、風(fēng)土人情、宗教信仰、農(nóng)林牧副漁、經(jīng)濟(jì)建設(shè)、……等等。但這些文本資料中難免存在冗余、瑕疵、疏漏、矛盾、錯(cuò)誤甚至有毒有害的內(nèi)容。所以,對于收集到的文本資料還得進(jìn)行一番檢查、甄別、整理、篩選等被稱為“數(shù)據(jù)清洗”的工作,以保證語言模型能在全面、正確、精練、安全、健康的高質(zhì)量數(shù)據(jù)環(huán)境中學(xué)習(xí)、訓(xùn)練和“成長”。目前比較著名的大型和超大型開源數(shù)據(jù)集有:Pile、ROOTS、RefinedWeb、SlimPajama等。

16.3.3

無監(jiān)督預(yù)訓(xùn)練預(yù)訓(xùn)練是對語言模型所進(jìn)行的第一階段訓(xùn)練。預(yù)訓(xùn)練需要內(nèi)容廣泛的海量文本語料,一般采用無監(jiān)督或自監(jiān)督學(xué)習(xí)方法,通過對眾多的模型參數(shù)進(jìn)行優(yōu)化,而得到這些語料數(shù)據(jù)所蘊(yùn)含的相關(guān)語言模式和語義關(guān)聯(lián)的一個(gè)“雛形”或“基準(zhǔn)”。由于數(shù)據(jù)規(guī)模巨大(千億甚至萬億級詞匯量),模型參數(shù)超多(百億、千億甚至萬億級參數(shù)量),而且是深度學(xué)習(xí),因此對硬件資源要求特別高。預(yù)訓(xùn)練需配置具有數(shù)千甚至數(shù)萬塊高性能GPU的分布式并行計(jì)算機(jī)系統(tǒng)和高速網(wǎng)絡(luò)系統(tǒng),而且往往要連續(xù)運(yùn)行達(dá)數(shù)十天之久。例如,GPT-4就用了2.5萬個(gè)A100GPU,訓(xùn)練了兩個(gè)月,花費(fèi)6300萬美元。

16.3.4

有監(jiān)督微調(diào)數(shù)據(jù)微調(diào)一般是針對有些特殊專業(yè)領(lǐng)域或任務(wù)(如數(shù)學(xué)和編程),組織一批相應(yīng)的有標(biāo)注數(shù)據(jù),然后用有監(jiān)督學(xué)習(xí)方法對預(yù)訓(xùn)練模型的局部參數(shù)進(jìn)行微調(diào),以優(yōu)化模型的相關(guān)性能。也有先給原模型增加新的網(wǎng)絡(luò)模塊,然后僅對新模塊進(jìn)行有監(jiān)督訓(xùn)練的微調(diào)方法。指令微調(diào)(instructionfinetuning)亦稱有監(jiān)督微調(diào)或多任務(wù)提示訓(xùn)練,其做法是,給具有某種對應(yīng)關(guān)系的數(shù)據(jù)前添加一個(gè)稱為“指令”的任務(wù)描述,然后用有監(jiān)督學(xué)習(xí)方法,對預(yù)訓(xùn)練后的模型進(jìn)行參數(shù)微調(diào),以進(jìn)一步優(yōu)化模型。這些可配對數(shù)據(jù)包括問題和相應(yīng)的答案、原文和相應(yīng)的譯文、原因和相應(yīng)的結(jié)果、輸入和相應(yīng)的輸出、……等等。例如,指令:請回答這個(gè)問題。

問題:西岳指的是哪座山?

答案:華山。指令:請把這個(gè)中文成語翻譯為英文。

原文:學(xué)無止境

譯文:Learninghasnoend.就是兩條指令微調(diào)的格式化數(shù)據(jù)。

16.3.5人類對齊學(xué)習(xí)將大語言模型與人類的期望、需求以及價(jià)值觀保持一致,亦即對齊。為此,研究者們提出了兩種方法:有人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)和直接偏好優(yōu)化(DirectPreferenceOptimization,DPO)。就是說,在有監(jiān)督微調(diào)的基礎(chǔ)上,讓模型再進(jìn)行面向真實(shí)用戶的學(xué)習(xí),即進(jìn)行與人類對齊的學(xué)習(xí),以便使模型更符合用戶的偏好、要求和習(xí)慣。要進(jìn)行RLHF,一般還得先建立一個(gè)稱為獎(jiǎng)勵(lì)模型(rewardmodel)。

16.3.6

提示學(xué)習(xí)(promptinglearning)與提示工程1.基礎(chǔ)提示知識問答的任務(wù)描述:請使用所提供的以三個(gè)井號(###)分隔的文章回答問題。如果在文章中找不到答案,請回答“無法找到答案?!贝a補(bǔ)全的任務(wù)描述:你是一名程序員。給你一個(gè)代碼片段,你的目標(biāo)是完成這段代碼,確保它能實(shí)現(xiàn)描述的功能。對話推薦的任務(wù)描述:推薦10個(gè)符合用戶偏好的商品。推薦列表可以包含對話框之前提到的商品。推薦列表的格式為:商品ID標(biāo)題(年份)。請勿在推薦列表中提及商品標(biāo)題以外的任何內(nèi)容。

2.上下文學(xué)習(xí)(In-ContextLearning,ICL)上下文學(xué)習(xí)是在不改變或者基本不改變模型結(jié)構(gòu)和參數(shù)值的情況下,僅通過給出自然語言提示(任務(wù)描述)和若個(gè)示例,來預(yù)估新情況的結(jié)果??聪旅娴睦印H蝿?wù)描述:回答下面的問題。示例:

問題:如果你有12張卡片,給了朋友4張,你還剩幾張?答案:8。問題:如果一個(gè)長方形的長是6cm,寬4cm,這個(gè)長方形的周長是多少?答案:20cm?;谏厦娴娜蝿?wù)描述和示例,對于詢問:小明有12張卡片,他將其中的1/4給了妹妹。小明自己還剩多少?模型回答:9。3.思維鏈(CoT)提示思維鏈提示是上下文學(xué)習(xí)的一種擴(kuò)展形式,它將原始的?輸入,輸出?映射關(guān)系轉(zhuǎn)換為?輸入,思維鏈,輸出?這一三元組形式,進(jìn)一步融合了中間的思維鏈來指導(dǎo)從輸入到輸出的推理過程。在這個(gè)結(jié)構(gòu)中,思維鏈扮演著重要的角色,它提供了一系列語義連貫且具有邏輯性的中間步驟,有效地建立起輸入與輸出之間的橋接關(guān)系。在思維鏈提示的作用下,大語言模型可以根據(jù)輸入生成對應(yīng)的思維鏈(推理步驟)及答案。舉例:任務(wù)描述:回答下面的問題。示例:問題:如果一個(gè)長方形的長是6cm,寬4cm,這個(gè)長方形的周長是多少?答案:對于一個(gè)長方形,將其長加上寬再乘以2即為周長。所以,這個(gè)長方形的周長是(6+4)

2=20cm。答案是20cm?;陬愃七@樣的思維鏈提示,對于詢問:小明有12張卡片,他將其中的1/4給了妹妹。小明自己還剩多少?模型回答:他給出去了12

(1/4)=3張卡片,所以,小明還剩12

3=9張卡片。答案是9。

16.3.7DeepSeek的后訓(xùn)練新途徑2025年1月20日,深度求索發(fā)布了長于推理的大語言模型DeepSeek-R1-Zero和DeepSeek-R1。這兩個(gè)模型在后訓(xùn)練階段,沒有墨守從SFT到RLHT的成規(guī),而是探索了新的途徑和技術(shù)。R

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論