人工智能通識(shí)教程(微課版) 課件 05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)01_第1頁(yè)
人工智能通識(shí)教程(微課版) 課件 05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)01_第2頁(yè)
人工智能通識(shí)教程(微課版) 課件 05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)01_第3頁(yè)
人工智能通識(shí)教程(微課版) 課件 05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)01_第4頁(yè)
人工智能通識(shí)教程(微課版) 課件 05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)01_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

05人工智能技術(shù)的突破-大語(yǔ)言模型技術(shù)011本章目標(biāo)了解大語(yǔ)言模型發(fā)展現(xiàn)狀及趨勢(shì)理解token和向量理解注意力機(jī)制重點(diǎn)難點(diǎn)重點(diǎn)難點(diǎn)2/42大語(yǔ)言模型發(fā)展現(xiàn)狀及趨勢(shì)大語(yǔ)言模型與大模型單模態(tài)模型專注于處理單一類型數(shù)據(jù)(文本、圖像或音頻)多模態(tài)模型能夠處理和融合多種類型的數(shù)據(jù)4/42GPT的影響2-1GPT影響GPT是OpenAI公司在大語(yǔ)言模型領(lǐng)域推出的里程碑式產(chǎn)品。GPT的出現(xiàn)對(duì)人工智能,尤其是自然語(yǔ)言處理領(lǐng)域的技術(shù)格局產(chǎn)生了深遠(yuǎn)影響。特別值得注意的是GPT-3模型。進(jìn)一步提升了模型的能力邊界,能夠處理更加復(fù)雜的任務(wù),展現(xiàn)了前所未有的語(yǔ)言理解和生成能力。這一突破性進(jìn)展不僅標(biāo)志著GPT系列模型的重大飛躍,也為整個(gè)人工智能領(lǐng)域的未來(lái)發(fā)展提供了新的思路和可能性。5/42GPT的影響2-2自然語(yǔ)言處理機(jī)器翻譯問(wèn)答系統(tǒng)文本分析編程&代碼代碼生成代碼解釋代碼修復(fù)創(chuàng)意內(nèi)容生成創(chuàng)作文學(xué)作品音樂(lè)生成圖像生成教育&學(xué)習(xí)自動(dòng)化教學(xué)知識(shí)檢索數(shù)據(jù)分析論文寫(xiě)作商業(yè)應(yīng)用客服服務(wù)市場(chǎng)分析娛樂(lè)休閑智能家居語(yǔ)音助手6/42GPT的發(fā)展史7/42GPT的使用可選的GPT模型新建對(duì)話訪問(wèn)地址問(wèn)題輸入框上傳附件、搜索工具、搜索網(wǎng)頁(yè)8/42大模型的關(guān)鍵進(jìn)展SuperCLUE:Al大模型2025年上半年關(guān)鍵進(jìn)展ref:《中文大模型基準(zhǔn)測(cè)評(píng)2025年上半年報(bào)告20250804》9/42大模型的關(guān)鍵進(jìn)展?o3以73.78的總分取得總榜第一,領(lǐng)跑全球。海外頭部模型o3

、o4-mini(high)和Gemini-2

.5-Pro在本次七月通用基準(zhǔn)測(cè)評(píng)中取得了73.78分

、73.32分和68.98分的總成績(jī),

分別位于榜單前三

。Doubao-Seed-1.6-thinking-250715以68.04的總分取得國(guó)內(nèi)第一

、全球第四的成績(jī)。?國(guó)內(nèi)外頭部模型之間的差異較大,海外模型在推理任務(wù)上的優(yōu)勢(shì)尤其明顯。海外模型在推理任務(wù)上的優(yōu)勢(shì)尤其顯著,

o3和o4-mini(high)在推理任務(wù)上分別取得了

75.02和72

.

68的分?jǐn)?shù),

領(lǐng)跑推理任務(wù)榜單

。

國(guó)內(nèi)推理任務(wù)成績(jī)最好的模型分別是DeepSeek-R1-0528和Doubao-Seed-1.6-thinking-250715

,均有超過(guò)65分的表現(xiàn)

,但與海外頭部模型依舊相差近10分。?國(guó)內(nèi)開(kāi)源模型相較于海外開(kāi)源模型優(yōu)勢(shì)顯著。DeepSeek-R1-0528

、Qwen3-235B-A22B-Thinking-2507和GLM-4.5分別以66.

15分、64.34分和63.25分取得了開(kāi)源榜單的前三名,

海外開(kāi)源模型最好成績(jī)僅有46.37分,

與國(guó)內(nèi)開(kāi)源模型最好成績(jī)相差近20分,

國(guó)內(nèi)開(kāi)源模型的優(yōu)勢(shì)顯著。?國(guó)內(nèi)大模型在智能體Agent和幻覺(jué)控制任務(wù)上的表現(xiàn)良好。在智能體Agent任務(wù)上,

Doubao-Seed-1.6-thinking-250715以90.67分領(lǐng)跑全球,

GLM-

4.5和SenseNova

V6

Reasoner以83.58分并列國(guó)內(nèi)第二

。在幻覺(jué)控制任務(wù)上,

Doubao-Seed-1.6-thinking-250715

、ERNIE-X1-Turbo-32K-Preview和Hunyuan-T1-20250711分別位于國(guó)內(nèi)前三。?Qwen3系列的開(kāi)源小參數(shù)量模型表現(xiàn)亮眼。Qwen3系列的多款開(kāi)源小參數(shù)量模型展現(xiàn)出驚人潛力

。其中8B

、4B和1

.7B版本分別在10B級(jí)別和端側(cè)5B級(jí)別的榜單中遙遙領(lǐng)先。10/42國(guó)內(nèi)大模型發(fā)展2025年最值得關(guān)注的中文大模型及智能體全景圖11/42大模型的未來(lái)發(fā)展大模型需要與人類對(duì)齊,才能在人類的驅(qū)動(dòng)下改正錯(cuò)誤,實(shí)現(xiàn)自我進(jìn)化把大模型和周圍的虛擬環(huán)境結(jié)合起來(lái),讓環(huán)境提示它的錯(cuò)誤,從而有反思的機(jī)會(huì)去改正錯(cuò)誤通過(guò)加上機(jī)器人,讓大模型在物理世界也能工作多模態(tài)生成對(duì)產(chǎn)業(yè)的發(fā)展非常重要,因?yàn)榇竽P筒粌H可以生成文本,還可以生成圖像、聲音、視頻、代碼等具身智能AIAgent(智能體)多模態(tài)生成與人類對(duì)齊一些研究嘗試通過(guò)微調(diào)多模態(tài)模型在多模態(tài)場(chǎng)景中生成高質(zhì)量的思維鏈來(lái)探索思維鏈推理。推理能力12/42小結(jié)簡(jiǎn)述GPT的重要影響簡(jiǎn)述大模型的發(fā)展階段大模型的未來(lái)發(fā)展趨勢(shì)是怎么樣的?13/42理解token和向量token的定義token在NLP中,token是文本的基本單位。token在大語(yǔ)言模型中的作用至關(guān)重要,因?yàn)樗鼈兪悄P屠斫夂吞幚碜匀徽Z(yǔ)言的基礎(chǔ)單位。token可以是一個(gè)完整的詞、詞的一部分(子詞),甚至是單個(gè)字符。tokenization,即分詞過(guò)程,是將文本轉(zhuǎn)換為token的關(guān)鍵步驟。15/42token劃分方式將文本按照詞語(yǔ)或詞組進(jìn)行分割,每個(gè)詞或詞組作為一個(gè)token。01詞級(jí)別分詞將單詞拆分為更有意義的小單元(子詞),是目前最主流的方式。BPE:一種常見(jiàn)的子詞算法,通過(guò)不斷合并最高頻的字符對(duì)來(lái)創(chuàng)建詞表WordPiece:與BPE類似,但合并原則略有不同,廣泛用于BERT等模型。02子詞級(jí)別分詞將文本中的每個(gè)字符都作為一個(gè)token。這種方法的粒度最細(xì),適用于語(yǔ)言結(jié)構(gòu)不固定、詞匯邊界不明確的場(chǎng)景。03字符級(jí)別分詞16/42例句:“我正在研究引力波透鏡,感覺(jué)很emo”“我

正在

研究

感覺(jué)

很”“我

鏡...”BPE:“我正在研究引力波透鏡,感覺(jué)

很emo”WordPiece:“我正在研究引力波透鏡,感覺(jué)

很UNK”從獨(dú)熱編碼到wordembedding獨(dú)熱編碼?獨(dú)熱編碼(One-HotEncoding)是一種將離散變量表示為二進(jìn)制向量的方法,主要用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中處理分類變量。?其基本原理是為每個(gè)分類特征的每個(gè)可能值創(chuàng)建一個(gè)新的二進(jìn)制特征,其中只有一個(gè)特征在任何給定時(shí)間被激活(標(biāo)記為1),而其他所有特征都被標(biāo)記為0。17/42向量的定義2-1文本轉(zhuǎn)向量向量在空間中的表示18/42向量的定義2-219/42向量的意義統(tǒng)一表示向量的使用使得各種不同類型的數(shù)據(jù)能夠在相同的數(shù)學(xué)框架下進(jìn)行處理。相似度計(jì)算通過(guò)計(jì)算向量之間的距離或相似度,可以實(shí)現(xiàn)各種任務(wù),如圖像檢索、語(yǔ)義相似度計(jì)算、音頻匹配等特征提取向量表示數(shù)據(jù)的核心特征,這些特征提取對(duì)于LLM的理解和決策至關(guān)重要跨模態(tài)關(guān)聯(lián)向量表示使得大語(yǔ)言模型能夠建立不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)數(shù)學(xué)運(yùn)算與轉(zhuǎn)換向量支持各種數(shù)學(xué)運(yùn)算(如加法、減法、點(diǎn)積等),這使得大語(yǔ)言模型能夠進(jìn)行復(fù)雜的語(yǔ)義操作可擴(kuò)展性向量表示的靈活性使得大語(yǔ)言模型可以不斷擴(kuò)展其能力,適應(yīng)新的數(shù)據(jù)類型和任務(wù),而無(wú)需徹底改變其基礎(chǔ)架構(gòu)。20/42常見(jiàn)的embedding模型Embedding模型Word2Vec

通過(guò)上下文預(yù)測(cè)單詞,生成語(yǔ)義上相近的詞向量。BERT通過(guò)雙向編碼器的方式,從左右兩個(gè)方向同時(shí)理解文本上下文。text-embedding-3

是OpenAI新一代文本嵌入家族(small/large),在多語(yǔ)種檢索與RAG等任務(wù)上較ada-002質(zhì)量更高、成本更低,并支持長(zhǎng)文本與向量數(shù)據(jù)庫(kù)等應(yīng)用場(chǎng)景。BGE(BAAIGeneralEmbedding)基于雙向編碼器與層次化語(yǔ)義理解框架,通過(guò)大規(guī)模多語(yǔ)言預(yù)訓(xùn)練生成高維向量(如1024維),動(dòng)態(tài)融合上下文信息以捕捉詞匯、短語(yǔ)及篇章級(jí)語(yǔ)義關(guān)聯(lián)。21/42token與embedding之間的關(guān)系22/42embedding實(shí)例展示向量展示相似度展示23/42理解注意力機(jī)制注意力機(jī)制4-1Source注意力機(jī)制Query(Q):查詢向量,用于表示當(dāng)前要關(guān)注的信息。每個(gè)注意力頭會(huì)根據(jù)輸入序列生成自己的查詢向量。Q向量用于與K向量進(jìn)行相似度計(jì)算,以確定哪些值(V)應(yīng)該被關(guān)注。Key(K):鍵向量,代表輸入序列中每個(gè)元素的特征。每個(gè)輸入元素都有一個(gè)對(duì)應(yīng)的K向量,Q與K的相似度決定了該元素對(duì)當(dāng)前查詢的重要性。Value(V):值向量,實(shí)際包含的信息。每個(gè)K向量都有一個(gè)對(duì)應(yīng)的V向量,最終的輸出是通過(guò)加權(quán)求和V向量得到的,其中權(quán)重由Q和K的相似度決定。25/42注意力機(jī)制4-226/42注意力機(jī)制4-3注意力工作流程27/42最終的AttentionValue=0.1*Value1+0.2*Value2+0.3*Value3+0.1*Value4+0.3*Value5,這個(gè)AttentionValue是一個(gè)綜合了句子中所有詞信息的向量,但它更偏重于與“喜歡”相關(guān)的詞匯,例如“貓”和“狗”?!拔摇钡淖⒁饬?quán)重可能是0.1;“喜歡”的注意力權(quán)重可能是0.2;“貓”的注意力權(quán)重可能是0.3;“和”的注意力權(quán)重可能是0.1;“狗”的注意力權(quán)重可能是0.3;Query和Key1(“我”的鍵向量):計(jì)算相似度,可較低。Query和Key2(“喜歡”的鍵向量):計(jì)算相似度,可能較高,因?yàn)樗鼈兪峭粋€(gè)詞。Query和Key3(“貓”的鍵向量):計(jì)算相似度,可能較高,因?yàn)椤跋矚g”與“貓”有語(yǔ)義關(guān)聯(lián)。Query和Key4(“和”的鍵向量):計(jì)算相似度,可能較低。Query和Key5(“狗”的鍵向量):計(jì)算相似度,可能較高,因?yàn)椤跋矚g”與“狗”也有語(yǔ)義關(guān)聯(lián)。注意力機(jī)制4-4步驟1-計(jì)算相似度步驟2-計(jì)算注意力權(quán)重步驟3-加權(quán)求和值向量28/42自注意力機(jī)制(Self-Attention)自注意力機(jī)制(Self-Attention)Query、Key、Value都來(lái)自同一個(gè)序列內(nèi)部,自己關(guān)注自己的機(jī)制29/42自注意力機(jī)制:讓所有詞并行思考Q(Query)矩陣:句子中所有詞的“Query”K(Key)矩陣:句子中所有詞的“Key”V(Value)矩陣:句子中所有詞的“Value”輸入核心計(jì)算流程第3步:加權(quán)融合(MatMul)根據(jù)“注意力權(quán)重”,將所有詞的“核心含義”(V)進(jìn)行加權(quán)混合。第1步:批量匹配。一次性計(jì)算出所有詞對(duì)所有詞的“相關(guān)性得分表”第2步:歸一化將原始得分轉(zhuǎn)換為0到1之間的“注意力權(quán)重”(可理解為百分比)。打包整個(gè)句子

輸出(理解上下文后的新向量)30/42自注意力機(jī)制和RNN、LSTM的區(qū)別SelfAttentionRNN、LSTMselfAttention在計(jì)算過(guò)程中會(huì)直接將句子中任意兩個(gè)單詞的聯(lián)系通過(guò)一個(gè)計(jì)算步驟直接聯(lián)系起來(lái),所以遠(yuǎn)距離依賴特征之間的距離被極大縮短,有利于有效地利用這些特征;SelfAttention對(duì)于一句話中的每個(gè)單詞都可以單獨(dú)的進(jìn)行Attention值的計(jì)算,也就是說(shuō)SelfAttention對(duì)計(jì)算的并行性也有直接幫助作用,而對(duì)于必須得依次序列計(jì)算的RNN而言,是無(wú)法做到并行計(jì)算的。如果是RNN或者LSTM,需要依次序列計(jì)算,對(duì)于遠(yuǎn)距離的相互依賴的特征,要經(jīng)過(guò)若干時(shí)間步步驟的信息累積才能將兩者聯(lián)系起來(lái),而距離越遠(yuǎn),有效捕獲的可能性越小。31/42多頭注意力機(jī)制多頭注意力機(jī)制是Transformer模型中的核心部分,旨在讓模型可以同時(shí)從多個(gè)不同的“視角”來(lái)關(guān)注輸入數(shù)據(jù)的不同部分。多頭注意力機(jī)制的核心思想就是將注意力機(jī)制分成多個(gè)“頭”,每個(gè)頭負(fù)責(zé)從不同的“角度”去學(xué)習(xí)輸入之間的關(guān)系。每個(gè)頭可以專注于不同的子空間或信息,從而捕捉到不同類型的關(guān)系。多頭注意力機(jī)制單頭多頭32/42掩碼注意力機(jī)制2-1掩碼注意力機(jī)制MaskedSelfAttention模型,這里的Masked就是要在做語(yǔ)言模型(或者像翻譯)的時(shí)候,不給模型看到未來(lái)的信息,掩碼注意力機(jī)制是Transformer模型中的一種重要機(jī)制,用于控制模型在處理序列數(shù)據(jù)時(shí)對(duì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論