人工智能導(dǎo)論課件第16章大語言模型

上傳人：h*** IP屬地：山東上傳時(shí)間：2025-08-01 格式：PPTX 頁數(shù)：46 大?。?32.01KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第16章大語言模型16.1大語言模型概述16.2大語言模型的技術(shù)脈絡(luò)

16.3大語言模型的開發(fā)與構(gòu)建

16.4典型大語言模型簡介

16.1大語言模型概述

16.1.1

什么是大語言模型

大規(guī)模神經(jīng)語言模型（LargeLanguegeModel,LLM）

由基本網(wǎng)絡(luò)模型搭建而成

百億以上的參數(shù)量

16.1.2

為什么要建大語言模型

ScalingLaw

（擴(kuò)展或縮放法則）：模型規(guī)模的擴(kuò)展（增加模型的參數(shù)）或數(shù)據(jù)規(guī)模的加大，往往會(huì)使模型的性能得到顯著提升，進(jìn)而也使模型在下游任務(wù)中表現(xiàn)更佳。16.1.3

大語言模型發(fā)展概況2014年，GoogleBrain的llyaSutskever團(tuán)隊(duì)和YoshuaBengio團(tuán)隊(duì)各自獨(dú)立提出了Seq2Seq（SequencetoSequence）網(wǎng)絡(luò)模型架構(gòu)，該架構(gòu)由編碼器和解碼器兩部分組成，并引入了注意力機(jī)制。2017年6月，Google的Vaswani等受Seq2Seq的啟發(fā)，進(jìn)一步提出了稱為Transformer的模型架構(gòu)。Transformer的出現(xiàn)，給大語言模型的研發(fā)奠定了基礎(chǔ)，開辟了道路。從此，大語言模型的研發(fā)正式起步。2018年3月，華盛頓大學(xué)提出了語言模型ELMo（EmbeddingfromLanguageModels），其中提出了預(yù)訓(xùn)練、微調(diào)和動(dòng)態(tài)詞嵌入的思想和技術(shù)。2018年6月，OpenAI推出了一款基于Transformer的生成式預(yù)訓(xùn)練語言模型GPT-1。

2018年10月，Google的JacobDevlin等推出了一款基于Transformer的雙向編碼語言模型BERT。2019年10月，Google發(fā)布并開源了參數(shù)為110億的T5（Text-to-TextTransferTransformer）模型?？梢哉f，參數(shù)規(guī)模突破百億大關(guān)的T5標(biāo)志著大語言模型的誕生。從此，大語言模型的研發(fā)便拉開了序幕。2019年10月，F(xiàn)acebook的MikeLewis等推出了一款基于Transformer的語言模型BART。2020年5月，OpenAI推出了參數(shù)為1750億的GPT-3。隨后又是兼有編程能力的GPT-3.5。2021年4月，華為推出了PanGu-

（盤古的一個(gè)版本）。2021年7月，百度推出了Ernie3.0（文心一言的基座模型）。2022年，OpenAI的Ouyang等提出了“有監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)”的InstructGPT。2022年4月，Google推出了參數(shù)為5400億的PaLM。2022年11月30日，OpenAI在網(wǎng)上發(fā)布了聊天機(jī)器人ChatGPT，轟動(dòng)業(yè)界，震驚全球。從此，“大語言模型”、“AI”便家喻戶曉，一個(gè)新的AI研發(fā)熱潮在全球范圍內(nèi)如火如荼地展開了。2023年2月，Googel發(fā)布了聊天機(jī)器人Bard。2023年3月，OpenAI發(fā)布了有多模態(tài)處理能力的GPT-4。2023年3月，Anthropic發(fā)布了有多模態(tài)處理能力的大語言模型Claude。2023年7月，Meta發(fā)布并開源了大語言模型LLaMA-2。2024年2月，OpenAI發(fā)布了文生視頻大模型Sora。2024年2月Google推出了MoE架構(gòu)的新型多模態(tài)大模型Gemini。2024年9月，OpenAI發(fā)布了o1推理模型系列。12月又發(fā)布了GPT-4.5。2025年1月Google提出了一種可望繼任Transformer的新型架構(gòu)Titans.2025年1月20日，深度求索推出了低成本、高性能的DeepSeek-R1，震驚世界。國內(nèi)的大模型有百度的文心一言（已改名為“文小言”）、華為的盤古、字節(jié)跳動(dòng)的豆包、科大訊飛的星火、智譜的ChatGLM、阿里的通義天問、騰訊的混元、…等等，還有中科院和不少高等院校（如清華、復(fù)旦、北航）也都紛紛推出了各自己的大語言模型。

從任務(wù)處理能力來看，早期的語言模型主要面向自然語言的建模和生成任務(wù)，而大語言模型則擴(kuò)展到更廣泛、更復(fù)雜任務(wù)的求解。統(tǒng)計(jì)語言模型主要被用于（或輔助用于）解決一些語言處理任務(wù)，如信息檢索、文本分類、語音識別、翻譯等。神經(jīng)語言模型專注于學(xué)習(xí)任務(wù)無關(guān)的語義表征。預(yù)訓(xùn)練語言模型加強(qiáng)了語義表征的上下文感知能力，并且可以針對下游任務(wù)進(jìn)行微調(diào)，能夠有效提升模型性能，擴(kuò)展了語言模型的應(yīng)用范圍，如問答、文本生成、代碼生成、數(shù)學(xué)解題等。隨著模型參數(shù)、訓(xùn)練數(shù)據(jù)和算力的大規(guī)模擴(kuò)展，最新一代大語言模型的一般任務(wù)和特定任務(wù)求解能力都有了顯著提升。

16.2大語言模型的技術(shù)脈絡(luò)16.2.1技術(shù)發(fā)展路線圖在循環(huán)網(wǎng)絡(luò)語言模型和長短期記憶網(wǎng)絡(luò)及門控單元語言模型的基礎(chǔ)上，引入了注意力機(jī)制，而開發(fā)出Seq2Seq這種由編碼器和解碼器組成的組合式網(wǎng)絡(luò)語言模型（架構(gòu)）；在前饋網(wǎng)絡(luò)語言模型的基礎(chǔ)上，又引入了位置編碼、并行計(jì)算和多頭自注意力機(jī)制，并參照了Seq2Seq模式，而推出了Transformer這種變換器網(wǎng)絡(luò)語言模型（架構(gòu)）；在Transformer的基礎(chǔ)上，僅采用其編碼器部分，并引入自編碼、雙向編碼、段嵌入、預(yù)訓(xùn)練和數(shù)據(jù)微調(diào)等機(jī)制和措施，而得到了面向自然語言理解任務(wù)的大語言模型BERT；在Transformer的基礎(chǔ)上，僅采用其解碼器部分，并引入自回歸解碼、生成式預(yù)訓(xùn)練和數(shù)據(jù)微調(diào)等機(jī)制和措施，而得到了面向自然語言生成任務(wù)的大語言模型GPT-1、-2等初級版；在Transformer的基礎(chǔ)上，采用完全的編碼器和解碼器架構(gòu)，用自回歸解碼模型，文本破壞等機(jī)制而實(shí)現(xiàn)了用于分類、理解、翻譯等任務(wù)的BART模型。在Transformer的基礎(chǔ)上，采用完全的編碼器和解碼器架構(gòu)，再增添雙向編碼、texttotext和任務(wù)聲明前綴等機(jī)制，實(shí)現(xiàn)了可用于各種自然語言處理任務(wù)的T5模型；ELMo似乎是一枝獨(dú)秀，它實(shí)際是第二代預(yù)訓(xùn)練語言模型的重要代表。Word2Vec這個(gè)詞嵌入工具則是最早采用了類似預(yù)訓(xùn)練的方法，它亦功不可沒。圖中最高層為至2025年初名列前茅的多模態(tài)大模型。所采用的技術(shù)有多模態(tài)、MoE架構(gòu)、數(shù)據(jù)生成、RAG、輕量化、思維鏈等。在預(yù)訓(xùn)練語言模型時(shí)代，自然語言處理領(lǐng)域廣泛采用了預(yù)訓(xùn)練+微調(diào)的范式，并誕生了以BERT為代表的編碼器（Encoder-only）架構(gòu)、以GPT為代表的解碼器（Decoder-only）架構(gòu)和以T5和BART為代表的編碼器-解碼器（Encoder-decoder）架構(gòu)的大規(guī)模預(yù)訓(xùn)練語言模型。隨著GPT系列模型的成功發(fā)展，當(dāng)前自然語言處理領(lǐng)域走向了生成式大語言模型的道路，解碼器架構(gòu)已經(jīng)成為了目前大語言模型的主流架構(gòu)。語言大模型的擴(kuò)展則是多模態(tài)大模型，其當(dāng)前的流行架構(gòu)為MoE架構(gòu)。

16.2.2Seq2Seq1.體系結(jié)構(gòu)和數(shù)據(jù)流程Seq2Seq的工作過程是：編碼器將輸入序列w1,w2,…,wm（的詞向量C(w1),C(w2),…,C(wm)）編碼為固定長度的語義向量S（這個(gè)向量可以看作是輸入序列的語義），然后解碼器將語義向量S解碼為另一個(gè)序列w’1,w’2,…,w’n

（這個(gè)序列概念上可以是詞序列，但嚴(yán)格講，則是一個(gè)向量序列；將每個(gè)向量再變換為一個(gè)概率分布才得到一個(gè)個(gè)相應(yīng)的單詞）。就是說，語義向量S是編碼器的輸出和解碼器的輸入，它是將序列w1,w2,…,wm變換為序列w’1,w’2,…,w’n的中介和橋梁，概念上可表示為S=Encoder(w1,w2,…,wm)語義向量S與解碼器有兩種連接方式：①S只作為解碼器第一時(shí)刻隱層（循環(huán)單元）的輸入，即S只作為初始狀態(tài)參與運(yùn)算，與后面的運(yùn)算無直接關(guān)聯(lián)。②S作為解碼器所有時(shí)刻隱層的輸入，即S參與所有時(shí)刻的運(yùn)算。解碼器將固定長度的語義向量S映射為變長度的目標(biāo)序列w’1,w’2,…,w’n，概念上w’t=Decoder(S,hd1,hd2,…,hdt

2.注意力機(jī)制注意力機(jī)制就是在如圖16-6(a)所示編碼器與語義向量S之間添加一個(gè)注意力（函數(shù)）層（如圖16-6(b)所示），其可有針對性地、實(shí)時(shí)地為解碼器生成一個(gè)盡可能合適的特定語義向量St，以便解碼器進(jìn)而生成相應(yīng)的hdt和輸出w’t。具體做法是，根據(jù)解碼器的上一個(gè)隱狀態(tài)hdt

1與編碼器的各隱狀態(tài)h1,h2,…,hm的相關(guān)度，給h1,h2,…,hm分配權(quán)重，然后基于權(quán)重構(gòu)造相應(yīng)的語義向量St。這樣一來，編碼器不再將所有輸入信息都“一視同仁”地編碼進(jìn)一個(gè)語義向量S，而是與解碼器合作，由注意力層結(jié)合解碼器的隱狀態(tài)將原輸入序列依次編碼成語義向量S1,S2,…,Sn，其中St是對應(yīng)于hdt及w’t的向量。16.2.3Transformer

1.體系結(jié)構(gòu)與數(shù)據(jù)流程

其他術(shù)語解釋

位置編碼由于未采用循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)，Transformer為詞序列中詞元的順序關(guān)系引入了位置嵌入（PositionEmbedding,PE）機(jī)制。即對一個(gè)詞向量v??，根據(jù)其在輸入序列中的位置分配一個(gè)固定長度的向量p??。然后，將詞向量和位置向量相加而形成了最終的輸入向量x??。位置向量一般用正弦波函數(shù)產(chǎn)生（如圖中的圖符所示）。

跨層加和歸一化跨層相加實(shí)際上是實(shí)現(xiàn)了一種殘差連接（ResidualConnection），即直接將相應(yīng)前層模塊的輸入連接到其輸出，以避免在訓(xùn)練過程中產(chǎn)生梯度爆炸和消失問題。而歸一化則是對數(shù)據(jù)進(jìn)行重新放縮，以提高訓(xùn)練的穩(wěn)定性，使相應(yīng)層的輸入和輸出保持在一個(gè)合理的范圍內(nèi)。

前饋網(wǎng)絡(luò)模塊前饋網(wǎng)絡(luò)模塊由兩層全連接網(wǎng)絡(luò)組成，其對下面歸一化層的輸出做非線性變換，以學(xué)習(xí)復(fù)雜的關(guān)系和特征。這一非線性變換可抽象地表示為y=FFN(x)=

(W1x

+b1)W2

+b2

(16-11)其中W1

和W2分別是第一層和第二層的線性變換權(quán)重矩陣，b1′和b2是偏置項(xiàng)，

是激活函數(shù)（如采用ReLU函數(shù)）。

交叉注意力交叉注意力就是解碼器同時(shí)接收來自編碼器的輸出和解碼器前端模塊的輸出，綜合計(jì)算后將結(jié)果向后傳輸。

掩碼多頭注意力解碼器中的掩碼多頭注意力就是在計(jì)算注意力時(shí)，遮蔽當(dāng)前位置之后的詞元信息，使其不參加注意力的相關(guān)計(jì)算。這樣做是為了后面的生成目標(biāo)序列僅依賴當(dāng)前詞元及前面詞元的信息而不依賴后面詞元的信息。掩碼多頭注意力機(jī)制實(shí)際上是為預(yù)訓(xùn)練設(shè)計(jì)的。因?yàn)轭A(yù)訓(xùn)練時(shí)是用真實(shí)的句子通過一步步遮蔽后面的詞元而讓機(jī)器預(yù)測下一個(gè)詞元的方式來訓(xùn)練網(wǎng)絡(luò)、優(yōu)化模型參數(shù)的。

Outputs和OutputEmbedding

解碼器下端向上箭頭下面的文字Outputs是指上一時(shí)刻解碼器輸出的詞元序列，箭頭的意思是將這個(gè)詞元序列從此處輸入；箭頭上面的OutputEmbedding則是指將Outputs變換為詞向量序列，然后送入上面的掩碼多頭注意力模塊。另外，對于翻譯任務(wù)，訓(xùn)練時(shí)則要采用所謂的“教師強(qiáng)制（teacherforcing）”方法，將正確答案（即譯文）從這里輸入，以供計(jì)算模型預(yù)測結(jié)果與真實(shí)文本的損失。

4.運(yùn)行過程Transformer的訓(xùn)練過程大體是：首先將預(yù)訓(xùn)練用的詞元序列輸入編碼器，對編碼器進(jìn)行預(yù)訓(xùn)練。編碼器訓(xùn)練完成后，給編碼器輸入實(shí)際序列數(shù)據(jù)，將其編碼后傳給解碼器，并將相應(yīng)的原序列數(shù)據(jù)也輸入解碼器，然后以迭代的方式對解碼器進(jìn)行解碼預(yù)訓(xùn)練。由解碼器的結(jié)構(gòu)可以看出，掩碼自注意力機(jī)制和Outputs的設(shè)計(jì)已提供了以迭代方式進(jìn)行解碼的條件。對于已經(jīng)預(yù)訓(xùn)練好的Transformer，其運(yùn)行過程則大體是：首先將實(shí)際詞元序列輸入編碼器對其進(jìn)行編碼，接著將相應(yīng)編碼傳給解碼器，解碼器仍然以迭代方式進(jìn)行解碼，而生成相應(yīng)的輸出文本。

5.基于Transformer的大語言模型分類從架構(gòu)看，基于Transformer的大語言模型可分為僅采用編碼器，僅采用解碼器，和采用完整的Transformer架構(gòu)等三大類。基于Transformer的大語言模型又被分為自編碼模型（auto-encodingmodel,AE）、自回歸模型（autoregressivemodel,AR）和自編碼-自回歸模型三大類別。

16.3大語言模型開發(fā)與構(gòu)建

16.3.1

模型設(shè)計(jì)與實(shí)現(xiàn)模型設(shè)計(jì)階段，首先要根據(jù)模型的任務(wù)目標(biāo)設(shè)計(jì)模型的基本架構(gòu)；然后再根據(jù)具體任務(wù)做進(jìn)一步調(diào)整和完善來搭建相應(yīng)的大語言模型。大模型編程語言特點(diǎn)是：支持并行處理、能處理大規(guī)模數(shù)據(jù)、強(qiáng)大的計(jì)算能力、可擴(kuò)展等。當(dāng)前的流行做法是選用能調(diào)用相關(guān)程序庫的編程語言，以簡單的編程來實(shí)現(xiàn)模型。例如，可用Python、C++、R、JavaJulia等語言。至于程序庫，著名有TensorFlow、PyTorch等。這些將在后面的11.4節(jié)介紹。在這里我們再推薦HuggingFace、GitHub、NLTK、Keras和飛槳等開發(fā)平臺(tái)。

16.3.2

數(shù)據(jù)準(zhǔn)備事先采集和收集大量的相關(guān)文本資料。這些文本資料包括普通書籍、大眾報(bào)刊、資訊網(wǎng)頁、問答網(wǎng)站、百科全書等等，內(nèi)容十分廣泛，涉及天文地理、人文歷史、文化藝術(shù)、科技教育、醫(yī)療衛(wèi)生、體育軍事、風(fēng)土人情、宗教信仰、農(nóng)林牧副漁、經(jīng)濟(jì)建設(shè)、……等等。但這些文本資料中難免存在冗余、瑕疵、疏漏、矛盾、錯(cuò)誤甚至有毒有害的內(nèi)容。所以，對于收集到的文本資料還得進(jìn)行一番檢查、甄別、整理、篩選等被稱為“數(shù)據(jù)清洗”的工作，以保證語言模型能在全面、正確、精練、安全、健康的高質(zhì)量數(shù)據(jù)環(huán)境中學(xué)習(xí)、訓(xùn)練和“成長”。目前比較著名的大型和超大型開源數(shù)據(jù)集有：Pile、ROOTS、RefinedWeb、SlimPajama等。

16.3.3

無監(jiān)督預(yù)訓(xùn)練預(yù)訓(xùn)練是對語言模型所進(jìn)行的第一階段訓(xùn)練。預(yù)訓(xùn)練需要內(nèi)容廣泛的海量文本語料，一般采用無監(jiān)督或自監(jiān)督學(xué)習(xí)方法，通過對眾多的模型參數(shù)進(jìn)行優(yōu)化，而得到這些語料數(shù)據(jù)所蘊(yùn)含的相關(guān)語言模式和語義關(guān)聯(lián)的一個(gè)“雛形”或“基準(zhǔn)”。由于數(shù)據(jù)規(guī)模巨大（千億甚至萬億級詞匯量），模型參數(shù)超多（百億、千億甚至萬億級參數(shù)量），而且是深度學(xué)習(xí)，因此對硬件資源要求特別高。預(yù)訓(xùn)練需配置具有數(shù)千甚至數(shù)萬塊高性能GPU的分布式并行計(jì)算機(jī)系統(tǒng)和高速網(wǎng)絡(luò)系統(tǒng)，而且往往要連續(xù)運(yùn)行達(dá)數(shù)十天之久。例如，GPT-4就用了2.5萬個(gè)A100GPU，訓(xùn)練了兩個(gè)月，花費(fèi)6300萬美元。

16.3.4

有監(jiān)督微調(diào)數(shù)據(jù)微調(diào)一般是針對有些特殊專業(yè)領(lǐng)域或任務(wù)（如數(shù)學(xué)和編程），組織一批相應(yīng)的有標(biāo)注數(shù)據(jù)，然后用有監(jiān)督學(xué)習(xí)方法對預(yù)訓(xùn)練模型的局部參數(shù)進(jìn)行微調(diào)，以優(yōu)化模型的相關(guān)性能。也有先給原模型增加新的網(wǎng)絡(luò)模塊，然后僅對新模塊進(jìn)行有監(jiān)督訓(xùn)練的微調(diào)方法。指令微調(diào)（instructionfinetuning）亦稱有監(jiān)督微調(diào)或多任務(wù)提示訓(xùn)練，其做法是，給具有某種對應(yīng)關(guān)系的數(shù)據(jù)前添加一個(gè)稱為“指令”的任務(wù)描述，然后用有監(jiān)督學(xué)習(xí)方法，對預(yù)訓(xùn)練后的模型進(jìn)行參數(shù)微調(diào)，以進(jìn)一步優(yōu)化模型。這些可配對數(shù)據(jù)包括問題和相應(yīng)的答案、原文和相應(yīng)的譯文、原因和相應(yīng)的結(jié)果、輸入和相應(yīng)的輸出、……等等。例如，指令：請回答這個(gè)問題。

問題：西岳指的是哪座山？

答案：華山。指令：請把這個(gè)中文成語翻譯為英文。

原文：學(xué)無止境

譯文：Learninghasnoend.就是兩條指令微調(diào)的格式化數(shù)據(jù)。

16.3.5人類對齊學(xué)習(xí)將大語言模型與人類的期望、需求以及價(jià)值觀保持一致，亦即對齊。為此，研究者們提出了兩種方法：有人類反饋的強(qiáng)化學(xué)習(xí)（ReinforcementLearningfromHumanFeedback，RLHF）和直接偏好優(yōu)化（DirectPreferenceOptimization,DPO）。就是說，在有監(jiān)督微調(diào)的基礎(chǔ)上，讓模型再進(jìn)行面向真實(shí)用戶的學(xué)習(xí)，即進(jìn)行與人類對齊的學(xué)習(xí)，以便使模型更符合用戶的偏好、要求和習(xí)慣。要進(jìn)行RLHF，一般還得先建立一個(gè)稱為獎(jiǎng)勵(lì)模型（rewardmodel）。

16.3.6

提示學(xué)習(xí)（promptinglearning）與提示工程1.基礎(chǔ)提示知識問答的任務(wù)描述：請使用所提供的以三個(gè)井號（###）分隔的文章回答問題。如果在文章中找不到答案，請回答“無法找到答案?！贝a補(bǔ)全的任務(wù)描述：你是一名程序員。給你一個(gè)代碼片段，你的目標(biāo)是完成這段代碼，確保它能實(shí)現(xiàn)描述的功能。對話推薦的任務(wù)描述：推薦10個(gè)符合用戶偏好的商品。推薦列表可以包含對話框之前提到的商品。推薦列表的格式為：商品ID標(biāo)題（年份）。請勿在推薦列表中提及商品標(biāo)題以外的任何內(nèi)容。

2.上下文學(xué)習(xí)（In-ContextLearning,ICL）上下文學(xué)習(xí)是在不改變或者基本不改變模型結(jié)構(gòu)和參數(shù)值的情況下，僅通過給出自然語言提示（任務(wù)描述）和若個(gè)示例，來預(yù)估新情況的結(jié)果?？聪旅娴睦印Ｈ蝿?wù)描述：回答下面的問題。示例：

問題：如果你有12張卡片，給了朋友4張，你還剩幾張？答案：8。問題：如果一個(gè)長方形的長是6cm，寬4cm，這個(gè)長方形的周長是多少？答案：20cm?；谏厦娴娜蝿?wù)描述和示例，對于詢問：小明有12張卡片，他將其中的1/4給了妹妹。小明自己還剩多少？模型回答：9。3.思維鏈（CoT）提示思維鏈提示是上下文學(xué)習(xí)的一種擴(kuò)展形式，它將原始的?輸入，輸出?映射關(guān)系轉(zhuǎn)換為?輸入，思維鏈，輸出?這一三元組形式，進(jìn)一步融合了中間的思維鏈來指導(dǎo)從輸入到輸出的推理過程。在這個(gè)結(jié)構(gòu)中，思維鏈扮演著重要的角色，它提供了一系列語義連貫且具有邏輯性的中間步驟，有效地建立起輸入與輸出之間的橋接關(guān)系。在思維鏈提示的作用下，大語言模型可以根據(jù)輸入生成對應(yīng)的思維鏈（推理步驟）及答案。舉例：任務(wù)描述：回答下面的問題。示例：問題：如果一個(gè)長方形的長是6cm，寬4cm，這個(gè)長方形的周長是多少？答案：對于一個(gè)長方形，將其長加上寬再乘以2即為周長。所以，這個(gè)長方形的周長是(6+4)

2=20cm。答案是20cm?；陬愃七@樣的思維鏈提示，對于詢問：小明有12張卡片，他將其中的1/4給了妹妹。小明自己還剩多少？模型回答：他給出去了12

(1/4)=3張卡片，所以，小明還剩12

3=9張卡片。答案是9。

16.3.7DeepSeek的后訓(xùn)練新途徑2025年1月20日，深度求索發(fā)布了長于推理的大語言模型DeepSeek-R1-Zero和DeepSeek-R1。這兩個(gè)模型在后訓(xùn)練階段，沒有墨守從SFT到RLHT的成規(guī)，而是探索了新的途徑和技術(shù)。R

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能導(dǎo)論課件第16章大語言模型

文檔簡介

溫馨提示

最新文檔

評論

人工智能導(dǎo)論 課件 第16章 大語言模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能導(dǎo)論課件第16章大語言模型