版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
05人工智能技術(shù)的突破-大語言模型技術(shù)011本章目標(biāo)了解大語言模型發(fā)展現(xiàn)狀及趨勢理解token和向量理解注意力機(jī)制重點(diǎn)難點(diǎn)重點(diǎn)難點(diǎn)2/42大語言模型發(fā)展現(xiàn)狀及趨勢大語言模型與大模型單模態(tài)模型專注于處理單一類型數(shù)據(jù)(文本、圖像或音頻)多模態(tài)模型能夠處理和融合多種類型的數(shù)據(jù)4/42GPT的影響2-1GPT影響GPT是OpenAI公司在大語言模型領(lǐng)域推出的里程碑式產(chǎn)品。GPT的出現(xiàn)對(duì)人工智能,尤其是自然語言處理領(lǐng)域的技術(shù)格局產(chǎn)生了深遠(yuǎn)影響。特別值得注意的是GPT-3模型。進(jìn)一步提升了模型的能力邊界,能夠處理更加復(fù)雜的任務(wù),展現(xiàn)了前所未有的語言理解和生成能力。這一突破性進(jìn)展不僅標(biāo)志著GPT系列模型的重大飛躍,也為整個(gè)人工智能領(lǐng)域的未來發(fā)展提供了新的思路和可能性。5/42GPT的影響2-2自然語言處理機(jī)器翻譯問答系統(tǒng)文本分析編程&代碼代碼生成代碼解釋代碼修復(fù)創(chuàng)意內(nèi)容生成創(chuàng)作文學(xué)作品音樂生成圖像生成教育&學(xué)習(xí)自動(dòng)化教學(xué)知識(shí)檢索數(shù)據(jù)分析論文寫作商業(yè)應(yīng)用客服服務(wù)市場分析娛樂休閑智能家居語音助手6/42GPT的發(fā)展史7/42GPT的使用可選的GPT模型新建對(duì)話訪問地址問題輸入框上傳附件、搜索工具、搜索網(wǎng)頁8/42大模型的關(guān)鍵進(jìn)展SuperCLUE:Al大模型2025年上半年關(guān)鍵進(jìn)展ref:《中文大模型基準(zhǔn)測評(píng)2025年上半年報(bào)告20250804》9/42大模型的關(guān)鍵進(jìn)展?o3以73.78的總分取得總榜第一,領(lǐng)跑全球。海外頭部模型o3
、o4-mini(high)和Gemini-2
.5-Pro在本次七月通用基準(zhǔn)測評(píng)中取得了73.78分
、73.32分和68.98分的總成績,
分別位于榜單前三
。Doubao-Seed-1.6-thinking-250715以68.04的總分取得國內(nèi)第一
、全球第四的成績。?國內(nèi)外頭部模型之間的差異較大,海外模型在推理任務(wù)上的優(yōu)勢尤其明顯。海外模型在推理任務(wù)上的優(yōu)勢尤其顯著,
o3和o4-mini(high)在推理任務(wù)上分別取得了
75.02和72
.
68的分?jǐn)?shù),
領(lǐng)跑推理任務(wù)榜單
。
國內(nèi)推理任務(wù)成績最好的模型分別是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715
,均有超過65分的表現(xiàn)
,但與海外頭部模型依舊相差近10分。?國內(nèi)開源模型相較于海外開源模型優(yōu)勢顯著。DeepSeek-R1-0528
、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分別以66.
15分、64.34分和63.25分取得了開源榜單的前三名,
海外開源模型最好成績僅有46.37分,
與國內(nèi)開源模型最好成績相差近20分,
國內(nèi)開源模型的優(yōu)勢顯著。?國內(nèi)大模型在智能體Agent和幻覺控制任務(wù)上的表現(xiàn)良好。在智能體Agent任務(wù)上,
Doubao-Seed-1.6-thinking-250715以90.67分領(lǐng)跑全球,
GLM-
4.5和SenseNova
V6
Reasoner以83.58分并列國內(nèi)第二
。在幻覺控制任務(wù)上,
Doubao-Seed-1.6-thinking-250715
、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分別位于國內(nèi)前三。?Qwen3系列的開源小參數(shù)量模型表現(xiàn)亮眼。Qwen3系列的多款開源小參數(shù)量模型展現(xiàn)出驚人潛力
。其中8B
、4B和1
.7B版本分別在10B級(jí)別和端側(cè)5B級(jí)別的榜單中遙遙領(lǐng)先。10/42國內(nèi)大模型發(fā)展2025年最值得關(guān)注的中文大模型及智能體全景圖11/42大模型的未來發(fā)展大模型需要與人類對(duì)齊,才能在人類的驅(qū)動(dòng)下改正錯(cuò)誤,實(shí)現(xiàn)自我進(jìn)化把大模型和周圍的虛擬環(huán)境結(jié)合起來,讓環(huán)境提示它的錯(cuò)誤,從而有反思的機(jī)會(huì)去改正錯(cuò)誤通過加上機(jī)器人,讓大模型在物理世界也能工作多模態(tài)生成對(duì)產(chǎn)業(yè)的發(fā)展非常重要,因?yàn)榇竽P筒粌H可以生成文本,還可以生成圖像、聲音、視頻、代碼等具身智能AIAgent(智能體)多模態(tài)生成與人類對(duì)齊一些研究嘗試通過微調(diào)多模態(tài)模型在多模態(tài)場景中生成高質(zhì)量的思維鏈來探索思維鏈推理。推理能力12/42小結(jié)簡述GPT的重要影響簡述大模型的發(fā)展階段大模型的未來發(fā)展趨勢是怎么樣的?13/42理解token和向量token的定義token在NLP中,token是文本的基本單位。token在大語言模型中的作用至關(guān)重要,因?yàn)樗鼈兪悄P屠斫夂吞幚碜匀徽Z言的基礎(chǔ)單位。token可以是一個(gè)完整的詞、詞的一部分(子詞),甚至是單個(gè)字符。tokenization,即分詞過程,是將文本轉(zhuǎn)換為token的關(guān)鍵步驟。15/42token劃分方式將文本按照詞語或詞組進(jìn)行分割,每個(gè)詞或詞組作為一個(gè)token。01詞級(jí)別分詞將單詞拆分為更有意義的小單元(子詞),是目前最主流的方式。BPE:一種常見的子詞算法,通過不斷合并最高頻的字符對(duì)來創(chuàng)建詞表WordPiece:與BPE類似,但合并原則略有不同,廣泛用于BERT等模型。02子詞級(jí)別分詞將文本中的每個(gè)字符都作為一個(gè)token。這種方法的粒度最細(xì),適用于語言結(jié)構(gòu)不固定、詞匯邊界不明確的場景。03字符級(jí)別分詞16/42例句:“我正在研究引力波透鏡,感覺很emo”“我
正在
研究
感覺
很”“我
正
在
研
究
引
力
波
透
鏡...”BPE:“我正在研究引力波透鏡,感覺
很emo”WordPiece:“我正在研究引力波透鏡,感覺
很UNK”從獨(dú)熱編碼到wordembedding獨(dú)熱編碼?獨(dú)熱編碼(One-HotEncoding)是一種將離散變量表示為二進(jìn)制向量的方法,主要用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中處理分類變量。?其基本原理是為每個(gè)分類特征的每個(gè)可能值創(chuàng)建一個(gè)新的二進(jìn)制特征,其中只有一個(gè)特征在任何給定時(shí)間被激活(標(biāo)記為1),而其他所有特征都被標(biāo)記為0。17/42向量的定義2-1文本轉(zhuǎn)向量向量在空間中的表示18/42向量的定義2-219/42向量的意義統(tǒng)一表示向量的使用使得各種不同類型的數(shù)據(jù)能夠在相同的數(shù)學(xué)框架下進(jìn)行處理。相似度計(jì)算通過計(jì)算向量之間的距離或相似度,可以實(shí)現(xiàn)各種任務(wù),如圖像檢索、語義相似度計(jì)算、音頻匹配等特征提取向量表示數(shù)據(jù)的核心特征,這些特征提取對(duì)于LLM的理解和決策至關(guān)重要跨模態(tài)關(guān)聯(lián)向量表示使得大語言模型能夠建立不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)數(shù)學(xué)運(yùn)算與轉(zhuǎn)換向量支持各種數(shù)學(xué)運(yùn)算(如加法、減法、點(diǎn)積等),這使得大語言模型能夠進(jìn)行復(fù)雜的語義操作可擴(kuò)展性向量表示的靈活性使得大語言模型可以不斷擴(kuò)展其能力,適應(yīng)新的數(shù)據(jù)類型和任務(wù),而無需徹底改變其基礎(chǔ)架構(gòu)。20/42常見的embedding模型Embedding模型Word2Vec
通過上下文預(yù)測單詞,生成語義上相近的詞向量。BERT通過雙向編碼器的方式,從左右兩個(gè)方向同時(shí)理解文本上下文。text-embedding-3
是OpenAI新一代文本嵌入家族(small/large),在多語種檢索與RAG等任務(wù)上較ada-002質(zhì)量更高、成本更低,并支持長文本與向量數(shù)據(jù)庫等應(yīng)用場景。BGE(BAAIGeneralEmbedding)基于雙向編碼器與層次化語義理解框架,通過大規(guī)模多語言預(yù)訓(xùn)練生成高維向量(如1024維),動(dòng)態(tài)融合上下文信息以捕捉詞匯、短語及篇章級(jí)語義關(guān)聯(lián)。21/42token與embedding之間的關(guān)系22/42embedding實(shí)例展示向量展示相似度展示23/42理解注意力機(jī)制注意力機(jī)制4-1Source注意力機(jī)制Query(Q):查詢向量,用于表示當(dāng)前要關(guān)注的信息。每個(gè)注意力頭會(huì)根據(jù)輸入序列生成自己的查詢向量。Q向量用于與K向量進(jìn)行相似度計(jì)算,以確定哪些值(V)應(yīng)該被關(guān)注。Key(K):鍵向量,代表輸入序列中每個(gè)元素的特征。每個(gè)輸入元素都有一個(gè)對(duì)應(yīng)的K向量,Q與K的相似度決定了該元素對(duì)當(dāng)前查詢的重要性。Value(V):值向量,實(shí)際包含的信息。每個(gè)K向量都有一個(gè)對(duì)應(yīng)的V向量,最終的輸出是通過加權(quán)求和V向量得到的,其中權(quán)重由Q和K的相似度決定。25/42注意力機(jī)制4-226/42注意力機(jī)制4-3注意力工作流程27/42最終的AttentionValue=0.1*Value1+0.2*Value2+0.3*Value3+0.1*Value4+0.3*Value5,這個(gè)AttentionValue是一個(gè)綜合了句子中所有詞信息的向量,但它更偏重于與“喜歡”相關(guān)的詞匯,例如“貓”和“狗”?!拔摇钡淖⒁饬?quán)重可能是0.1;“喜歡”的注意力權(quán)重可能是0.2;“貓”的注意力權(quán)重可能是0.3;“和”的注意力權(quán)重可能是0.1;“狗”的注意力權(quán)重可能是0.3;Query和Key1(“我”的鍵向量):計(jì)算相似度,可較低。Query和Key2(“喜歡”的鍵向量):計(jì)算相似度,可能較高,因?yàn)樗鼈兪峭粋€(gè)詞。Query和Key3(“貓”的鍵向量):計(jì)算相似度,可能較高,因?yàn)椤跋矚g”與“貓”有語義關(guān)聯(lián)。Query和Key4(“和”的鍵向量):計(jì)算相似度,可能較低。Query和Key5(“狗”的鍵向量):計(jì)算相似度,可能較高,因?yàn)椤跋矚g”與“狗”也有語義關(guān)聯(lián)。注意力機(jī)制4-4步驟1-計(jì)算相似度步驟2-計(jì)算注意力權(quán)重步驟3-加權(quán)求和值向量28/42自注意力機(jī)制(Self-Attention)自注意力機(jī)制(Self-Attention)Query、Key、Value都來自同一個(gè)序列內(nèi)部,自己關(guān)注自己的機(jī)制29/42自注意力機(jī)制:讓所有詞并行思考Q(Query)矩陣:句子中所有詞的“Query”K(Key)矩陣:句子中所有詞的“Key”V(Value)矩陣:句子中所有詞的“Value”輸入核心計(jì)算流程第3步:加權(quán)融合(MatMul)根據(jù)“注意力權(quán)重”,將所有詞的“核心含義”(V)進(jìn)行加權(quán)混合。第1步:批量匹配。一次性計(jì)算出所有詞對(duì)所有詞的“相關(guān)性得分表”第2步:歸一化將原始得分轉(zhuǎn)換為0到1之間的“注意力權(quán)重”(可理解為百分比)。打包整個(gè)句子
輸出(理解上下文后的新向量)30/42自注意力機(jī)制和RNN、LSTM的區(qū)別SelfAttentionRNN、LSTMselfAttention在計(jì)算過程中會(huì)直接將句子中任意兩個(gè)單詞的聯(lián)系通過一個(gè)計(jì)算步驟直接聯(lián)系起來,所以遠(yuǎn)距離依賴特征之間的距離被極大縮短,有利于有效地利用這些特征;SelfAttention對(duì)于一句話中的每個(gè)單詞都可以單獨(dú)的進(jìn)行Attention值的計(jì)算,也就是說SelfAttention對(duì)計(jì)算的并行性也有直接幫助作用,而對(duì)于必須得依次序列計(jì)算的RNN而言,是無法做到并行計(jì)算的。如果是RNN或者LSTM,需要依次序列計(jì)算,對(duì)于遠(yuǎn)距離的相互依賴的特征,要經(jīng)過若干時(shí)間步步驟的信息累積才能將兩者聯(lián)系起來,而距離越遠(yuǎn),有效捕獲的可能性越小。31/42多頭注意力機(jī)制多頭注意力機(jī)制是Transformer模型中的核心部分,旨在讓模型可以同時(shí)從多個(gè)不同的“視角”來關(guān)注輸入數(shù)據(jù)的不同部分。多頭注意力機(jī)制的核心思想就是將注意力機(jī)制分成多個(gè)“頭”,每個(gè)頭負(fù)責(zé)從不同的“角度”去學(xué)習(xí)輸入之間的關(guān)系。每個(gè)頭可以專注于不同的子空間或信息,從而捕捉到不同類型的關(guān)系。多頭注意力機(jī)制單頭多頭32/42掩碼注意力機(jī)制2-1掩碼注意力機(jī)制MaskedSelfAttention模型,這里的Masked就是要在做語言模型(或者像翻譯)的時(shí)候,不給模型看到未來的信息,掩碼注意力機(jī)制是Transformer模型中的一種重要機(jī)制,用于控制模型在處理序列數(shù)據(jù)時(shí)對(duì)不同元素的關(guān)注程度。它主要通過在注意力權(quán)重計(jì)算過程中引入掩碼(Mask),來實(shí)現(xiàn)特定的注意力模式,如防止未來信息泄露、處理不同長度的序列等。33/42掩碼注意力機(jī)制2-234/42多種多樣的注意力機(jī)制不同的qkv來源定義不同的qkv計(jì)算加速方式不同的模型結(jié)構(gòu)不同的加權(quán)計(jì)算方式不同的掩碼注意力機(jī)制多頭注意力、多層注意力自注意力機(jī)制、交叉注意力機(jī)制快速注意力、分組注意力點(diǎn)乘注意力、矩陣注意力、基于相似度的注意力、基于MLP的注意力BERT(雙向掩碼)、GPT(單向掩碼)35/42GPT:通過注意力機(jī)制讓Token語義更精準(zhǔn)自注意力單向掩碼注意力多層注意力多頭注意力核心:多維注意力機(jī)制其參數(shù)中壓縮了海量的訓(xùn)練數(shù)據(jù),成為一個(gè)巨大的知識(shí)庫。作為知識(shí)載體作為復(fù)雜計(jì)算器處理和轉(zhuǎn)換文本數(shù)據(jù)作為一個(gè)函數(shù)將輸入序列映射到輸出序列能夠理解和生成人類語言作為一種智能多維度理解GPT36/42小結(jié)為何文本需轉(zhuǎn)向量再計(jì)算?自注意力機(jī)制中,Q、K、V如何分工合作找句子重點(diǎn)?自注意力機(jī)制高效在哪?37/42總結(jié)了解大語言模型發(fā)展現(xiàn)狀及趨勢理解token和向量理解注意力機(jī)制38/42作業(yè)作業(yè)1梳理本章內(nèi)容,整理筆記,繪制思維導(dǎo)圖、完成課后練習(xí)作業(yè)2:課后習(xí)題1~339/424005人工智能技術(shù)的突破-大語言模型技術(shù)0241本章目標(biāo)理解大語言模型工程了解大語言模型的應(yīng)用技術(shù)了解大語言模型評(píng)估重點(diǎn)難點(diǎn)42/48大語言模型工程大語言模型工程的實(shí)現(xiàn)數(shù)據(jù)工程(Data)能力層級(jí)(Capabilities)規(guī)模擴(kuò)展(Scalingup)實(shí)現(xiàn)三維度44/48規(guī)模擴(kuò)展:大力出奇跡3-1ScalingLaw在人工智能領(lǐng)域,尤其是在大模型的發(fā)展中scalinglaw扮演著至關(guān)重要的角色。它描述了模型性能如何隨著模型規(guī)模(如參數(shù)數(shù)量)、數(shù)據(jù)量和計(jì)算資源的增加而提升。這一定律對(duì)于理解大模型的能力擴(kuò)展和優(yōu)化訓(xùn)練策略具有重要意義。45/48規(guī)模擴(kuò)展:大力出奇跡3-2模型規(guī)模與性能計(jì)算資源與性能數(shù)據(jù)量與性能模型參數(shù)量增加通常會(huì)提升性能,但這種提升遵循冪律關(guān)系,即小幅度規(guī)模增加可能帶來較大性能改進(jìn),而規(guī)模進(jìn)一步增加時(shí),性能提升速率會(huì)逐漸放緩。訓(xùn)練數(shù)據(jù)量的增加也與模型性能的提升相關(guān)聯(lián)。更多的數(shù)據(jù)可以幫助模型學(xué)習(xí)更豐富的特征,但同樣存在一個(gè)飽和點(diǎn),超過這個(gè)點(diǎn)后,性能提升的速率會(huì)減緩計(jì)算資源的增加,如更多的FLOPs(浮點(diǎn)運(yùn)算次數(shù)),同樣與模型性能的提升相關(guān)。46/48規(guī)模擴(kuò)展:大力出奇跡3-3性能提升能力涌現(xiàn)大模型參數(shù)量不斷增長,從億級(jí)到百億級(jí)性能提升顯著,超100B后邊際效益減弱。詞表從幾千詞擴(kuò)大到幾萬甚至十幾萬詞,增強(qiáng)語義表達(dá)準(zhǔn)確性。詞向量維度從512維增至768、1024或2048維,提升語義捕捉能力,但過高維度會(huì)增計(jì)算開銷。Transformer模型層數(shù)從8層增至48層、96層甚至上百層,增強(qiáng)表達(dá)和泛化能力,但過多層數(shù)可能遇梯度消失等問題。當(dāng)模型規(guī)模超10B時(shí),會(huì)出現(xiàn)能力涌現(xiàn)現(xiàn)象,即模型在訓(xùn)練時(shí)未被特別設(shè)計(jì)的能力,在實(shí)際使用時(shí)卻能表現(xiàn)出來。如GPT主要任務(wù)是預(yù)測下一個(gè)token,但達(dá)百億參數(shù)時(shí),能進(jìn)行上下文學(xué)習(xí)、具備推理能力、遵循指令生成內(nèi)容,甚至處理未訓(xùn)練過的新任務(wù)。能力涌現(xiàn)非絕對(duì)發(fā)生,但為大模型增添吸引力和應(yīng)用潛力。47/48數(shù)據(jù):大語言模型能力的來源4-12134如圖書館的公開藏書、研究論文等數(shù)據(jù)公開數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是大模型的主要數(shù)據(jù)來源,尤其是社交媒體、博客、新聞等文本數(shù)據(jù)?;ヂ?lián)網(wǎng)數(shù)據(jù)例如GitHub上的代碼數(shù)據(jù),它對(duì)大模型的推理能力提升起到了重要作用。半公開數(shù)據(jù)未來可能包括圖像、視頻、語音等多模態(tài)數(shù)據(jù),但如何有效結(jié)合這些數(shù)據(jù)以用于語言模型的訓(xùn)練仍在研究中。其他領(lǐng)域數(shù)據(jù)48/48數(shù)據(jù):大語言模型能力的來源4-2數(shù)據(jù)來源說明維基百科在線百科,嚴(yán)謹(jǐn)圖書經(jīng)典為主的古登堡計(jì)劃和自助出版
平臺(tái)Smashwords等雜志期刊論文:ArXiv等鏈接WebText,RedditCommon
Crawl開源項(xiàng)目,爬取互聯(lián)網(wǎng)數(shù)據(jù)GitHub程序員聚集地合計(jì)700多GB,約有19萬套四大名著的閱讀量,5000億左右的token數(shù)量GPT-3的訓(xùn)練數(shù)據(jù)49/48數(shù)據(jù):大語言模型能力的來源4-3語言過濾指標(biāo)過濾統(tǒng)計(jì)特征過濾關(guān)鍵詞過濾質(zhì)量過濾句子級(jí)別文檔級(jí)別數(shù)據(jù)集級(jí)別冗余去除隱私數(shù)據(jù)發(fā)現(xiàn)隱私數(shù)據(jù)消除隱私消除子詞詞元化字節(jié)對(duì)編碼WordPiece詞元切分小紅愛吃蘋果,**@她吃完蘋果會(huì)寫作業(yè)。小紅愛吃蘋果。她喜歡吃蘋果。小紅的身份證號(hào)是32343455.小紅愛吃蘋果。小紅/愛吃/蘋果數(shù)據(jù)處理流程50/48數(shù)據(jù):大語言模型能力的來源4-4AB數(shù)據(jù)比例數(shù)據(jù)順序與輪次例如,維基百科、知乎、互聯(lián)網(wǎng)爬取的文本和代碼數(shù)據(jù)等,它們?cè)谟?xùn)練中占據(jù)的比例會(huì)影響模型的文本生成能力、知識(shí)覆蓋面和推理能力。在訓(xùn)練時(shí),數(shù)據(jù)被分批送入模型,不同類型數(shù)據(jù)的輸入順序及每輪訓(xùn)練中的數(shù)據(jù)比例是否一致,都會(huì)對(duì)模型的訓(xùn)練效果產(chǎn)生影響。數(shù)據(jù)混合策略51/48能力:大語言模型的能力層級(jí)語言表達(dá)能力是模型最基本的能力。如ChatGPT等模型,早在2018年GPT-1就已展現(xiàn)此能力,能生成自然語言和代碼語言,未來或能理解動(dòng)物語言。因語言模型本質(zhì)是建模語言規(guī)律,通過大量數(shù)據(jù)轉(zhuǎn)化為模型,使大語言模型在語言處理上出色。模型的推理能力是涌現(xiàn)能力,需100億級(jí)以上參數(shù)。目前的大模型中,100億以上的基本上都有一定的推理能力,得益于強(qiáng)化學(xué)習(xí)技術(shù)的突破。模型具備知識(shí)存儲(chǔ)能力,能存儲(chǔ)海量公開知識(shí),但存在“幻覺”和災(zāi)難性遺忘問題,大模型在知識(shí)存儲(chǔ)上表現(xiàn)更佳。推理能力知識(shí)存儲(chǔ)能力語言表達(dá)能力52/48案例剖析——GPT的“成長之路”預(yù)訓(xùn)練(自監(jiān)督)監(jiān)督微調(diào)人類反饋強(qiáng)化學(xué)習(xí)階段1:模型訓(xùn)練接收輸入處理輸入進(jìn)行推理生成輸出上下文學(xué)習(xí)+訓(xùn)練知識(shí)階段2:推理53/48深入“大腦”:GPT的工作流程010203概率模型構(gòu)建構(gòu)建一個(gè)能夠準(zhǔn)確表示token序列分布的概率模型。這個(gè)模型需要捕捉復(fù)雜語言模式和語義關(guān)系。表示學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)創(chuàng)建能夠理解上下文的有效token表示。參數(shù)優(yōu)化通過前向/反向傳播、迭代優(yōu)化模型參數(shù),以最小化誤差。1.訓(xùn)練階段:構(gòu)建大腦010203上下文生成接收輸入序列,并生成上下文相關(guān)的內(nèi)部表示。自回歸生成根據(jù)先前生成的序列,按順序預(yù)測下一個(gè)最有可能的token(NTP)。輸出序列重復(fù)生成直到達(dá)到指定長度或生成特定結(jié)束標(biāo)記。模型參數(shù)保持不變。2.推理階段:應(yīng)用知識(shí)54/48深入“大腦”:GPT的記憶存儲(chǔ)在模型的數(shù)百萬或數(shù)十億個(gè)參數(shù)中。這種記憶在推理過程中是靜態(tài)的,反映了其訓(xùn)練數(shù)據(jù)中的海量知識(shí)和語言模式,確保了知識(shí)的一致性和穩(wěn)定性。長期記憶主要通過輸入上下文(即提示和正在進(jìn)行的對(duì)話)來管理。這種動(dòng)態(tài)記憶使模型能夠在特定任務(wù)或?qū)υ捴斜3謱?duì)話流、跟蹤細(xì)節(jié)和保持連貫性。短期記憶55/48小結(jié)數(shù)據(jù)處理和模型規(guī)模,哪個(gè)對(duì)AI能力影響更大?為什么?大語言模型有哪些能力?56/48大語言模型的應(yīng)用大語言模型應(yīng)用場景分析3-1如撰寫文章、編寫文案等文本生成將文本從一種語言翻譯成另一種語言翻譯對(duì)長文本進(jìn)行概括,提取出主要內(nèi)容摘要對(duì)文本進(jìn)行情感分析、主題分類等文本分析2341語言處理場景58/48大語言模型應(yīng)用場景分析3-2模型回答用戶提出的問題,提供準(zhǔn)確且相關(guān)的信息智能問答系統(tǒng)它能夠處理客戶的咨詢、問題解答和其他常見服務(wù)需求,減少人工客服的負(fù)擔(dān),提高響應(yīng)速度和服務(wù)質(zhì)量客戶服務(wù)系統(tǒng)幫助企業(yè)和用戶分析數(shù)據(jù)趨勢、生成報(bào)告、提供商業(yè)洞察等,通常應(yīng)用于金融、市場研究等領(lǐng)域。智能數(shù)據(jù)分析助手231知識(shí)助手場景 59/48大語言模型應(yīng)用場景分析3-3模型將復(fù)雜的任務(wù)分解成多個(gè)可執(zhí)行的步驟,并依次執(zhí)行任務(wù)分解與執(zhí)行模型能夠理解編程語言,解釋代碼邏輯,甚至生成新的代碼代碼解釋與生成如調(diào)用代碼解釋器、使用軟件接口plug-in等軟件接口操作231任務(wù)執(zhí)行場景60/48大語言模型應(yīng)用類型分析在模型即服務(wù)中,模型被打造成一種服務(wù),通過API或其他形式提供給用戶使用。例如,OpenAI提供的API服務(wù),開發(fā)者可以通過調(diào)用API來利用模型的強(qiáng)大能力進(jìn)行各種自然語言處理任務(wù)。模型增強(qiáng)AI賦能指的是將大語言模型嵌入到現(xiàn)有的工作流程和工具中,以提高效率和質(zhì)量。這類應(yīng)用通過將模型與現(xiàn)有工具結(jié)合,實(shí)現(xiàn)工具功能的增強(qiáng)和流程的改進(jìn)。AI賦能AI原生應(yīng)用是基于人工智能技術(shù)創(chuàng)造出的全新應(yīng)用場景和需求。這些應(yīng)用是完全依賴于人工智能技術(shù)的創(chuàng)新。如斯坦福小鎮(zhèn)的智能代理(Agent)應(yīng)用,靠多個(gè)智能代理協(xié)作完成復(fù)雜任務(wù)。AI原生61/48應(yīng)用方法微調(diào)技術(shù)promptRAG在已有的預(yù)訓(xùn)練模型基礎(chǔ)上,使用特定任務(wù)的數(shù)據(jù)對(duì)模型進(jìn)行再訓(xùn)練,以優(yōu)化其在該任務(wù)上的表現(xiàn)。結(jié)合檢索和生成的技術(shù),通過檢索外部知識(shí)來增強(qiáng)模型的回答準(zhǔn)確性和相關(guān)性。設(shè)計(jì)特定的輸入提示來引導(dǎo)模型生成預(yù)期的輸出,常用于對(duì)話系統(tǒng)和文本生成。62/48大模型微調(diào)技術(shù)大模型微調(diào)微調(diào)是對(duì)預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步訓(xùn)練的過程。被微調(diào)的模型可能是預(yù)訓(xùn)練的基座模型,也可能是已經(jīng)微調(diào)過的模型。微調(diào)的核心在于引入新數(shù)據(jù),調(diào)整模型的訓(xùn)練數(shù)據(jù)分布,使模型參數(shù)進(jìn)行適度變化。與完全重新訓(xùn)練不同,微調(diào)可以只對(duì)部分參數(shù)進(jìn)行小幅度調(diào)整,以保留模型原有的知識(shí)和能力。63/48全量微調(diào)3-1"總結(jié)這篇文章的主要觀點(diǎn)。"[相應(yīng)的總結(jié)]"解釋光合作用的過程。"[關(guān)于光合作用的詳細(xì)解釋]指令遵循微調(diào)(SupervisedFine-Tuning,SFT)64/48全量微調(diào)3-2對(duì)齊微調(diào)(AlignmentFine-Tuning)65/48全量微調(diào)3-3全量微調(diào)的挑戰(zhàn)tokens選擇、隱私處理、混合策略、數(shù)據(jù)順序和訓(xùn)練輪次等batchsize、訓(xùn)練輪次、checkpoint設(shè)置等如QKV矩陣運(yùn)算、自動(dòng)微分、梯度計(jì)算等GPU利用率、顯存管理、精度選擇(如FP16、FP32或TF精度)等計(jì)算方法優(yōu)化超參數(shù)調(diào)整硬件參數(shù)優(yōu)化數(shù)據(jù)處理66/48高效微調(diào)(回顧)參數(shù)高效微調(diào)技術(shù)67/48通過在輸入前添加一組可學(xué)習(xí)的“前綴”嵌入,來引導(dǎo)模型生成更符合特定任務(wù)的輸出,而不需要修改模型的其他部分。PrefixTuning在訓(xùn)練時(shí),固定住原來預(yù)訓(xùn)練模型的參數(shù)不變,只對(duì)新增的Adapter結(jié)構(gòu)和LayerNorm層進(jìn)行微調(diào),從而保證了訓(xùn)練的高效性。AdapterTuning核心思想就是通過低秩分解來模擬參數(shù)的改變量,從而以極小的參數(shù)量來實(shí)現(xiàn)大模型的間接訓(xùn)練Lora全量微調(diào)與高效微調(diào)優(yōu)缺點(diǎn)全量微調(diào)優(yōu)點(diǎn)缺點(diǎn)性能最優(yōu):能夠充分利用模型的所有參數(shù),通常在特定任務(wù)上達(dá)到最佳性能計(jì)算資源消耗大:需要訓(xùn)練所有參數(shù),對(duì)硬件資源要求高適應(yīng)性強(qiáng):不受限于任務(wù)類型或數(shù)據(jù)集特性,適用范圍廣訓(xùn)練時(shí)間長:由于參數(shù)量大,訓(xùn)練過程耗時(shí),不利于快速迭代無需額外優(yōu)化:直接對(duì)所有參數(shù)進(jìn)行調(diào)整,無需復(fù)雜的優(yōu)化策略容易過擬合:在小規(guī)模數(shù)據(jù)集上容易出現(xiàn)過擬合高效微調(diào)計(jì)算資源消耗低:僅更新少量參數(shù),顯著減少計(jì)算資源需求,適合在資源有限的環(huán)境中使用性能上限較低:在某些復(fù)雜任務(wù)上,可能無法達(dá)到全量微調(diào)的性能水平訓(xùn)練速度快:由于更新參數(shù)少,訓(xùn)練時(shí)間大幅縮短,適合快速迭代適應(yīng)性有限:對(duì)某些特定任務(wù)或數(shù)據(jù)集的適應(yīng)能力可能不如全量微調(diào),尤其是在任務(wù)復(fù)雜或數(shù)據(jù)分布差異較大時(shí)泛化能力強(qiáng):較少的參數(shù)更新降低了過擬合的風(fēng)險(xiǎn),尤其適用于小規(guī)模數(shù)據(jù)集優(yōu)化難度較高:部分高效微調(diào)方法(如PrefixTuning、P-tuning)需要對(duì)訓(xùn)練過程進(jìn)行精細(xì)優(yōu)化68/48為什么使用RAG69/48RAG的工作原理6-1數(shù)據(jù)輸入獲取案例用戶輸入:“人工智能的發(fā)展歷程是怎樣的?”文檔方面:準(zhǔn)備人工智能相關(guān)的資料70/48RAG的工作原理6-2信息檢索-檢索相關(guān)文檔文檔切分:將長文檔切分成較小的段落或片段。文本向量:將輸入問題和知識(shí)庫文檔轉(zhuǎn)換為向量表示。知識(shí)庫和向量數(shù)據(jù):構(gòu)建和存儲(chǔ)包含向量表示的知識(shí)庫。檢索和排序:根據(jù)輸入問題檢索和排序相關(guān)文檔片段。71/48RAG的工作原理6-3信息檢索-檢索相關(guān)文檔案例系統(tǒng)從知識(shí)庫中檢索相關(guān)的文檔。例如,檢索到以下文檔:文檔A:介紹了人工智能的起源和早期發(fā)展。文檔B:討論了人工智能在20世紀(jì)末的突破。文檔C:描述了近年來深度學(xué)習(xí)的發(fā)展及其影響。72/48RAG的工作原理6-4答案生成prompt預(yù)處理答案生成答案篩選格式化輸出輸出答案73/48RAG的工作原理6-5答案生成案例答案可能是:“人工智能的發(fā)展歷程可以分為幾個(gè)階段:起源和早期發(fā)展、20世紀(jì)末的突破、以及近年來的深度學(xué)習(xí)革命。這些階段共同推動(dòng)了人工智能技術(shù)的快速發(fā)展和應(yīng)用?!?4/48RAG的工作原理6-675/48RAG適用場景動(dòng)態(tài)知識(shí)環(huán)境在需要頻繁更新知識(shí)庫或處理最新信息的場景中,RAG表現(xiàn)出色。開放域問答當(dāng)系統(tǒng)需要回答廣泛且不可預(yù)測的問題時(shí),RAG能夠靈活地檢索和整合相關(guān)信息。專業(yè)領(lǐng)域應(yīng)用在醫(yī)療、法律、金融等專業(yè)領(lǐng)域,RAG可以有效結(jié)合專業(yè)知識(shí)庫和語言模型,提供準(zhǔn)確的專業(yè)回答。大規(guī)模信息處理對(duì)于需要從海量文檔中快速提取信息的場景,如企業(yè)知識(shí)管理、學(xué)術(shù)研究等,RAG能夠顯著提高效率。個(gè)性化服務(wù)在需要根據(jù)用戶背景或歷史交互提供定制化回答的應(yīng)用中,RAG可以有效整合用戶相關(guān)信息。76/48RAG實(shí)際應(yīng)用場景客戶服務(wù)系統(tǒng)科研文獻(xiàn)助手法律咨詢系統(tǒng)醫(yī)療診斷輔助企業(yè)知識(shí)管理系統(tǒng)RAG可以協(xié)助律師快速檢索相關(guān)法律條文、判例和解釋,提供更準(zhǔn)確的法律建議。RAG可以幫助客服人員快速檢索產(chǎn)品信息,提供準(zhǔn)確的客戶支持。在科研領(lǐng)域,RAG可以幫助研究人員快速定位和綜合大量學(xué)術(shù)文獻(xiàn)中的關(guān)鍵信息。通過檢索最新的醫(yī)學(xué)文獻(xiàn)和病例,輔助醫(yī)生進(jìn)行診斷和治療決策。在大型企業(yè)中,RAG技術(shù)可以有效整合和利用企業(yè)內(nèi)部的龐大知識(shí)庫。77/48RAG的優(yōu)勢與局限優(yōu)勢局限提高回答準(zhǔn)確性:通過引入外部知識(shí),減少知識(shí)幻覺計(jì)算資源需求:實(shí)時(shí)檢索和知識(shí)整合需要較高的計(jì)算資源。增強(qiáng)專業(yè)性:能夠處理特定領(lǐng)域的專業(yè)問題。知識(shí)庫質(zhì)量依賴:系統(tǒng)性能很大程度上取決于知識(shí)庫的質(zhì)量和全面性。實(shí)時(shí)性:可以利用最新更新的知識(shí)庫內(nèi)容。潛在的檢索偏差:檢索結(jié)果可能不完全匹配用戶意圖,影響回答質(zhì)量。靈活性:適應(yīng)各種類型的查詢,包括開放性問題。RAG優(yōu)勢與局限78/48RAG與微調(diào)的對(duì)比RAG微調(diào)原理RAG結(jié)合了檢索(Retrieval)和生成(Generation)兩部分。首先,它通過檢索模塊從外部知識(shí)庫中獲取相關(guān)信息,然后將這些信息作為上下文傳遞給生成模塊,用于生成回答。微調(diào)是對(duì)預(yù)訓(xùn)練語言模型進(jìn)行再訓(xùn)練,使其在特定領(lǐng)域或特定任務(wù)上表現(xiàn)更好。通過在包含領(lǐng)域特定知識(shí)和問題的訓(xùn)練數(shù)據(jù)上進(jìn)行微調(diào),模型可以更準(zhǔn)確地回答相關(guān)問題,減少幻覺現(xiàn)象。實(shí)現(xiàn)方式檢索模塊生成模塊選擇預(yù)訓(xùn)練模型準(zhǔn)備領(lǐng)域特定數(shù)據(jù)微調(diào)訓(xùn)練應(yīng)用場景適用于需要?jiǎng)討B(tài)獲取最新信息的場景,如實(shí)時(shí)新聞、問答系統(tǒng)。適用于知識(shí)庫比較完善且易于更新的系統(tǒng)。適用于特定領(lǐng)域的應(yīng)用,如醫(yī)學(xué)、法律等。適用于數(shù)據(jù)量較大且領(lǐng)域知識(shí)穩(wěn)定的場景。區(qū)別依賴性:RAG依賴于外部知識(shí)庫的檢索,而微調(diào)依賴于高質(zhì)量的領(lǐng)域特定數(shù)據(jù)。靈活性:RAG更靈活,可以動(dòng)態(tài)獲取最新信息;微調(diào)依賴于訓(xùn)練時(shí)的數(shù)據(jù),更新較為困難。實(shí)現(xiàn)復(fù)雜度:RAG需要構(gòu)建和維護(hù)檢索系統(tǒng),微調(diào)需要大量高質(zhì)量標(biāo)注數(shù)據(jù)和計(jì)算資源進(jìn)行再訓(xùn)練。79/48小結(jié)微調(diào)和RAG,分別適用于解決什么問題?RAG的工作流程分為哪兩個(gè)核心階段?它如何解決模型的“幻覺”問題?80/48大語言模型的評(píng)估現(xiàn)有的模型評(píng)估的方法評(píng)估方法優(yōu)點(diǎn)缺點(diǎn)客觀題測試自動(dòng)化程度高有刷題”現(xiàn)象,即模型并非真正理解問題,而是通過記憶相似的輸入輸出進(jìn)行推斷,影響評(píng)估的公正性。人工測評(píng)貼近實(shí)際使用場景,能夠捕捉更豐富的模型表現(xiàn)覆蓋面有限,評(píng)估標(biāo)準(zhǔn)主觀,不同測評(píng)者可能對(duì)同一模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣東廣州市黃埔區(qū)人民政府黃埔街道辦事處政府聘員招聘1人參考考試題庫附答案解析
- 2026青海海南州衛(wèi)生健康系統(tǒng)面向社會(huì)招聘80人備考考試題庫附答案解析
- 2026河南鄭州地鐵招聘安檢員參考考試題庫附答案解析
- 2026年河北張家口赤城縣農(nóng)業(yè)農(nóng)村局公開招聘特聘農(nóng)技員4名備考考試試題附答案解析
- 2026浙江臺(tái)州市新府城科技傳媒有限公司招聘編外人員2人參考考試題庫附答案解析
- 安全生產(chǎn)停產(chǎn)復(fù)工制度
- 生產(chǎn)班組生產(chǎn)管理制度
- 工會(huì)組織安全生產(chǎn)制度
- 2026廣東廣州南沙人力資源發(fā)展有限公司招聘編外工作人員2人參考考試題庫附答案解析
- 煤礦生產(chǎn)系統(tǒng)驗(yàn)收制度
- 瑞幸食品安全培訓(xùn)題庫課件
- (一模)2026年沈陽市高三年級(jí)教學(xué)質(zhì)量監(jiān)測(一)化學(xué)試卷(含答案)
- 2026年安徽糧食工程職業(yè)學(xué)院單招綜合素質(zhì)考試備考題庫帶答案解析
- 2025年秋八年級(jí)全一冊(cè)信息科技期末測試卷(三套含答案)
- 2026年及未來5年市場數(shù)據(jù)中國海水淡化設(shè)備市場發(fā)展前景預(yù)測及投資戰(zhàn)略咨詢報(bào)告
- 2026年青島職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫含答案詳解
- 制造總監(jiān)年終總結(jié)
- 心臟血管檢查課件
- 運(yùn)用PDCA循環(huán)管理提高手衛(wèi)生依從性課件
- 《高職應(yīng)用數(shù)學(xué)》(教案)
- 漢堡規(guī)則中英文
評(píng)論
0/150
提交評(píng)論