版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第5章
常用大模型第07講人工智能通識教程【教材第5章5.1-5.3節(jié)】人工智能通識教程
本章導(dǎo)讀:大模型的普及應(yīng)用人們帶來許多便利,如智能客服、生成文本、生成摘要、生成圖片、生成視頻等。為了更好地利用大模型,需要了解其基本含義、基本架構(gòu)、訓(xùn)練與部署方法,也需要多方面了解其應(yīng)用。人工智能通識教程(1)了解大模型的發(fā)展歷程;(2)理解大模型的概念和特征;(3)掌握大模型的分類和關(guān)鍵技術(shù);(4)掌握大模型提示工程;(5)了解大模型訓(xùn)練與部署。本章學(xué)習(xí)目標人工智能通識教程本章思維導(dǎo)圖第4頁共39頁5.1大模型概況5.2大模型數(shù)據(jù)與存儲5.3大模型的架構(gòu)5.4大模型提示工程(第08講)人工智能通識教程5.7案例實踐(第09講)目錄5.5大模型訓(xùn)練與部署(第08講)5.6大模型的應(yīng)用(第09講)人工智能通識教程5.1大模型概況5.1.1大模型定義大模型也稱基礎(chǔ)模型(FoundationModel)在人工智能領(lǐng)域,尤其是在深度學(xué)習(xí)中是指具有大規(guī)模參數(shù)和復(fù)雜計算結(jié)構(gòu)的機器學(xué)習(xí)模型。5.1.2大模型發(fā)展歷程萌芽期(1950-2005)這一階段是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的奠基階段,以CNN為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型開始嶄露頭角。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型奠基,CNN雛形出現(xiàn),為后續(xù)發(fā)展奠定基礎(chǔ)。探索沉淀期(2006-2019)以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)模型開始引領(lǐng)創(chuàng)新算法的新紀元。Transformer、Word2Vec、GAN等新技術(shù)涌現(xiàn),預(yù)訓(xùn)練模型興起。迅猛發(fā)展期(2020至今)這一階段是預(yù)訓(xùn)練大模型時代的輝煌篇章,以GPT為代表的預(yù)訓(xùn)練大模型開始嶄露頭角。預(yù)訓(xùn)練大模型時代,GPT-3、ChatGPT、GPT-4等里程碑模型發(fā)布。第6頁共39頁人工智能通識教程從參數(shù)規(guī)模上看,大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個階段,每年參數(shù)規(guī)模至少提升10倍,參數(shù)量實現(xiàn)了從億級到百萬億級的突破,目前千億級參數(shù)規(guī)模的大模型成為主流。第7頁共39頁人工智能通識教程在2023年及以后的討論中,它通常特指大規(guī)模語言模型(LLM,LargeLanguageModel),無論是語言、視覺、聲音還是多模態(tài)大模型,都在依據(jù)縮放定律進行快速迭代升級。語言、視覺和多模態(tài)三類基礎(chǔ)模型發(fā)展如圖第8頁共39頁人工智能通識教程5.1.2大模型發(fā)展歷程語言大模型、視覺大模型、多模態(tài)大模型等,在自然語言處理、計算機視覺、語音識別和推薦系統(tǒng)等領(lǐng)域都有廣泛的應(yīng)用。所有類別的大模型合集,被稱為廣義的大模型;而語言大模型,被稱為狹義的大模型。國內(nèi)外比較有代表性的大模型表5-1國內(nèi)外典型大模型模型名稱開發(fā)方特點GPT-4OpenAI生成能力強,部分版本支持多模態(tài)輸入,如圖像理解、開發(fā)工具助手、音頻、視頻等通義千問阿里巴巴該模型在理科和文科任務(wù)中均展現(xiàn)出色的性能,適用于工業(yè)、金融、醫(yī)療等垂直專業(yè)場景文心一言百度專注于中文自然語言處理,在閱讀理解、數(shù)學(xué)推理等多項任務(wù)中表現(xiàn)卓越,尤其在中文語言理解和生成方面有很強的競爭力智譜清言智譜AI基于智譜AI自主研發(fā)的中英雙語對話模型,具備多輪對話、內(nèi)容創(chuàng)作、信息總結(jié),并支持視頻通話,實現(xiàn)文本、音頻、視頻的多模態(tài)交互等功能訊飛星火科大訊飛集成語音識別和自然語言處理技術(shù),以其在語義理解、效率提升等方面的優(yōu)異表現(xiàn)KimiChat月之暗面支持輸入20萬漢字,在長文生成、聯(lián)網(wǎng)搜索等方面表現(xiàn)優(yōu)異DeepSeek深度求索專注于開發(fā)先進的大語言模型(LLM)和相關(guān)技術(shù)使用數(shù)據(jù)蒸餾技術(shù),得到更為精練、有用的數(shù)據(jù)第9頁共39頁人工智能通識教程5.1.3大模型的分類數(shù)據(jù)類型分類大模型按數(shù)據(jù)類型分為語言大模型(NLP)、視覺大模型(CV)、多模態(tài)大模型。例如,語言大模型如GPT專注于文本處理,視覺大模型如CLIP處理圖像。應(yīng)用領(lǐng)域分類大模型按應(yīng)用領(lǐng)域分為通用大模型L0、行業(yè)大模型L1、垂直大模型L2。例如,通用大模型適用于多種場景,行業(yè)大模型針對特定行業(yè)。模態(tài)類型分類大模型按模態(tài)類型分為單模態(tài)模型、多模態(tài)/跨模態(tài)模型。例如,單模態(tài)模型專注于一種模態(tài),多模態(tài)模型可處理多種模態(tài)。第10頁共39頁人工智能通識教程5.1.4大模型的特征1.泛化能力泛化能力(Generalization)是指模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的知識和模式,能夠應(yīng)用到新的數(shù)據(jù)、任務(wù)或環(huán)境中的能力。增強大模型泛化能力的技術(shù):正則化技術(shù)在機器學(xué)習(xí)中廣泛使用的策略,用于提高模型的泛化能力并減少過擬合。多任務(wù)學(xué)習(xí),允許模型在訓(xùn)練過程中同時學(xué)習(xí)執(zhí)行多個任務(wù)自監(jiān)督學(xué)習(xí),減少對大量標注數(shù)據(jù)依賴的學(xué)習(xí)方式,它通過從數(shù)據(jù)本身生成監(jiān)督信號來訓(xùn)練模型。數(shù)據(jù)增強技術(shù),通過在訓(xùn)練階段對數(shù)據(jù)進行變換來增加數(shù)據(jù)集的多樣性,這有助于模型學(xué)習(xí)到更加魯棒的特征。遷移學(xué)習(xí),利用預(yù)訓(xùn)練模型來解決新任務(wù)的技術(shù)。通過在相關(guān)任務(wù)上進行微調(diào),模型可以快速適應(yīng)新問題,而無需從頭開始訓(xùn)練。第11頁共39頁人工智能通識教程2.涌現(xiàn)能力涌現(xiàn)是在模型參數(shù)增加到某一臨界點時,系統(tǒng)的量變導(dǎo)致行為的質(zhì)變的現(xiàn)象。涌現(xiàn)能力(EmergenceAbility)是大模型最引人注目的特征之一。當模型參數(shù)增加到某一臨界點時,系統(tǒng)的量變導(dǎo)致行為的質(zhì)變,展現(xiàn)出一些在小規(guī)模模型中不存在的能力。從圖中我們可以直觀地發(fā)現(xiàn)在模型的規(guī)模達到
1022
次方之前,模型的表現(xiàn)可以說是平平無奇,當模型的參數(shù)達到1022
次方之后,奇跡出現(xiàn)了,模型的準確率突然發(fā)生了陡增的變化,而且這種提升和模型的結(jié)構(gòu)并沒有明顯的關(guān)系。第12頁共39頁人工智能通識教程涌現(xiàn)能力在面對不同類型的任務(wù)時,對下游任務(wù)有三種不同的表現(xiàn):第一類任務(wù)表現(xiàn)出伸縮法則,這類任務(wù)一般是知識密集型任務(wù)。隨著模型規(guī)模的不斷增長,大模型從海量自由文本中學(xué)習(xí)了大量知識,并且是在不斷積累的,任務(wù)效果也持續(xù)增長,說明這類任務(wù)對大模型中知識蘊涵的數(shù)量要求較高。識密集型任務(wù)遵循伸縮法則如圖第13頁共39頁人工智能通識教程第二類就是涌現(xiàn)出新能力,在模型參數(shù)規(guī)模不夠大時,AI的能力表現(xiàn)非常一般,準確性幾乎是隨機的。但是當模型規(guī)模和計算力都推進到一定規(guī)模之后,AI的能力突然急劇增長。第14頁共39頁人工智能通識教程第三種表現(xiàn)是有些情況下隨著模型規(guī)模增長,任務(wù)效果體現(xiàn)出一個U形曲線。如圖5-7所示,隨著模型規(guī)模增長,剛開始模型效果會呈下降趨勢,但當模型規(guī)模足夠大時,效果反而會提升。如果對這類任務(wù)使用思維鏈CoT技術(shù),這些任務(wù)的表現(xiàn)就會轉(zhuǎn)化成伸縮法則,效果也會隨著模型規(guī)模增長而持續(xù)上升。第15頁共39頁人工智能通識教程目前有3類最典型實際證據(jù)以說明大模型具備涌現(xiàn)效應(yīng)上下文學(xué)習(xí)能力:在提示中為大語言模型提供指令和多個任務(wù)示例;不需要顯式的訓(xùn)練或梯度更新,僅輸入文本的單詞序列就能為測試樣本生成預(yù)期的輸出。也就是說它不需要再訓(xùn)練,只要給他指令(Instruction)或者舉例子(demonstration),它就能舉一反三的給出較為準確的答案指令遵循:大語言模型能夠按照自然語言指令來執(zhí)行對應(yīng)的任務(wù)。逐步推理:大語言模型則可以利用思維鏈(Chain-of-Thought,CoT)提示策略來加強推理性能。具體來說,大語言模型可以在提示中引入任務(wù)相關(guān)的中間推理步驟來加強任務(wù)的求解,從而獲得更為可靠的答案,在處理邏輯推理、數(shù)學(xué)推理等需要多步驟的復(fù)雜任務(wù)時,小模型可能表現(xiàn)不佳,但大模型在達到一定規(guī)模后,能夠較好地完成這些任務(wù),展現(xiàn)出較強的推理能力。第16頁共39頁人工智能通識教程5.2大模型數(shù)據(jù)與存儲數(shù)據(jù)是信息的載體,可以是文字、數(shù)字、圖像、聲音等各種形式。它記錄了事物的狀態(tài)、屬性和變化過程,是人們認識世界和解決問題的基礎(chǔ)。數(shù)據(jù)集是構(gòu)建大模型知識處理能力底層因子,數(shù)據(jù)集的質(zhì)量和規(guī)模直接決定了模型的智能水平,向量數(shù)據(jù)庫更堪稱是AI時代的數(shù)據(jù)基座。5.2.1數(shù)據(jù)集的構(gòu)建
1.數(shù)據(jù)收集數(shù)據(jù)收集是構(gòu)建向量數(shù)據(jù)庫的基礎(chǔ),需要從多個渠道獲取高質(zhì)量、多樣化的數(shù)據(jù)。數(shù)據(jù)需要經(jīng)過清洗和預(yù)處理,去除噪聲、重復(fù)和無關(guān)的數(shù)據(jù),確保數(shù)據(jù)的質(zhì)量和可用性。從互聯(lián)網(wǎng)、公開數(shù)據(jù)集、行業(yè)領(lǐng)域等獲取高質(zhì)量、多樣化的數(shù)據(jù)數(shù)據(jù)構(gòu)建大致可以分為,數(shù)據(jù)收集、數(shù)據(jù)標注、數(shù)據(jù)嵌入。數(shù)據(jù)構(gòu)建可以顯著提高模型的訓(xùn)練效果和泛化能力。第17頁共39頁人工智能通識教程
2.數(shù)據(jù)標注數(shù)據(jù)標注是將收集到的原始數(shù)據(jù)轉(zhuǎn)換為可用于訓(xùn)練和檢索的向量數(shù)據(jù)的過程。對于文本數(shù)據(jù),需要進行分詞、詞性標注、命名實體識別等標注,以便后續(xù)生成準確的文本向量。例如,對文本數(shù)據(jù)進行詞性標注,對圖像數(shù)據(jù)進行目標標注。
3.數(shù)據(jù)嵌入數(shù)據(jù)嵌入是將標注好的數(shù)據(jù)轉(zhuǎn)換為高維向量的過程,這些向量能夠捕捉數(shù)據(jù)的語義特征和內(nèi)在結(jié)構(gòu)。對于文本數(shù)據(jù),可以使用詞嵌入模型(如Word2Vec、GloVe)將單詞轉(zhuǎn)換為向量,然后通過句子編碼器(如Transformer、BiLSTM)將句子或段落轉(zhuǎn)換為向量。例如,通過詞嵌入技術(shù)將文本數(shù)據(jù)轉(zhuǎn)換為向量第18頁共39頁人工智能通識教程5.2.3數(shù)據(jù)的處理
1.數(shù)據(jù)清洗數(shù)據(jù)清洗是確保向量數(shù)據(jù)庫中數(shù)據(jù)質(zhì)量的重要步驟。對于文本數(shù)據(jù),需要去除停用詞、標點符號、噪聲文本等,例如使用正則表達式過濾掉文本中的特殊字符和無意義的詞匯。對于圖像數(shù)據(jù),需要去除模糊不清、質(zhì)量低下的圖片,例如通過圖像質(zhì)量評估算法篩選出清晰度高的圖片。對于音頻數(shù)據(jù),需要去除背景噪音、靜音片段等,例如使用語音活動檢測算法提取出有效的語音部分。此外,還需要對數(shù)據(jù)進行去重處理,避免重復(fù)數(shù)據(jù)對訓(xùn)練和檢索的影響數(shù)據(jù)構(gòu)建大致可以分為,數(shù)據(jù)收集、數(shù)據(jù)標注、數(shù)據(jù)嵌入。數(shù)據(jù)構(gòu)建可以顯著提高模型的訓(xùn)練效果和泛化能力。第19頁共39頁人工智能通識教程2.數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)轉(zhuǎn)換為適合向量數(shù)據(jù)庫存儲和處理的格式。3.數(shù)據(jù)歸一化數(shù)據(jù)歸一化是將數(shù)據(jù)縮放到統(tǒng)一的范圍,以提高向量數(shù)據(jù)庫中相似性搜索的準確性和效率。4.特征工程特征工程是從原始數(shù)據(jù)中提取、構(gòu)造和選擇有助于模型學(xué)習(xí)和預(yù)測的特征的過程。5.數(shù)據(jù)集分割數(shù)據(jù)集分割為訓(xùn)練集、驗證集和測試集,以便于模型的訓(xùn)練和評估。第20頁共39頁人工智能通識教程5.2.4數(shù)據(jù)質(zhì)量與多樣性1.數(shù)據(jù)質(zhì)量的重要性數(shù)據(jù)質(zhì)量是構(gòu)建大模型知識處理能力的基石,它直接決定了模型的智能水平和應(yīng)用效果。高質(zhì)量的數(shù)據(jù)能夠為模型提供準確、可靠的信息,使模型能夠?qū)W習(xí)到正確的知識和規(guī)律,從而在各種任務(wù)中表現(xiàn)出色。2.數(shù)據(jù)多樣性的價值數(shù)據(jù)多樣性是提升大模型泛化能力和創(chuàng)新性的重要因素。多樣化的數(shù)據(jù)能夠使模型接觸到更廣泛的場景、領(lǐng)域和知識,從而增強模型對不同情況的適應(yīng)能力和對新知識的學(xué)習(xí)能力。3.數(shù)據(jù)質(zhì)量與多樣性在大模型訓(xùn)練中的應(yīng)用數(shù)據(jù)質(zhì)量與多樣性是構(gòu)建大模型知識處理能力的關(guān)鍵因素,它們共同決定了模型的智能水平和應(yīng)用效果。在實際應(yīng)用中,需要根據(jù)具體任務(wù)和需求,采取相應(yīng)的策略和方法,實現(xiàn)數(shù)據(jù)質(zhì)量和多樣性的平衡和優(yōu)化,以充分發(fā)揮大模型的潛力和優(yōu)勢。第21頁共39頁人工智能通識教程5.2.5數(shù)據(jù)存儲向量數(shù)據(jù)存儲格式包括二進制格式、文本格式、壓縮格式。例如,使用二進制格式可提高存儲效率。向量數(shù)據(jù)存儲格式分布式存儲架構(gòu)支持大規(guī)模向量數(shù)據(jù)存儲和高并發(fā)訪問。例如,使用分布式存儲可提高數(shù)據(jù)的讀寫速度。數(shù)據(jù)索引包括倒排索引、樹形索引、圖索引等,提高數(shù)據(jù)檢索效率。例如,倒排索引可快速檢索文本數(shù)據(jù)中的關(guān)鍵詞。向量數(shù)據(jù)庫存儲架構(gòu)數(shù)據(jù)索引第22頁共39頁人工智能通識教程5.3大模型的架構(gòu)5.3.1主流大模型的架構(gòu)演化1.從淺層網(wǎng)絡(luò)到Transformer在2010年代中期之前,傳統(tǒng)機器學(xué)習(xí)模型主要依賴于淺層神經(jīng)網(wǎng)絡(luò),如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短期記憶網(wǎng)絡(luò)(LSTM)。2.視頻模型的蛻變早期的視頻模型多采用3D卷積神經(jīng)網(wǎng)絡(luò),但由于計算復(fù)雜度高,效果并不理想。這一階段大致持續(xù)到2020年左右。隨著Transformer在語言領(lǐng)域的成功,研究人員開始將其應(yīng)用于視頻領(lǐng)域。3.從單模態(tài)到跨模態(tài)早期的多模態(tài)模型多采用簡單拼接或attention機制融合不同模態(tài)的信息。2021年,OpenAI推出CLIP模型,將圖像和文本嵌入到同一空間,實現(xiàn)了跨模態(tài)檢索能力。隨后,谷歌推出ALIGN模型,進一步提升了多模態(tài)理解能力。2023年,DeepMind推出Flamingo模型,可以在圖像基礎(chǔ)上生成文本,甚至編寫代碼,標志著多模態(tài)大模型進入了一個新的階段。第23頁共39頁人工智能通識教程4.典型大模型架構(gòu)典型大模型的架構(gòu)可以分為編碼器-解碼器(Encoder-Decoder)、僅編碼器(EncoderOnly)和僅解碼器(Decoder-Only)三類。Encoder-Only,僅包含編碼器部分,即自編碼(Autoencoder)模型。該類模型中每個階段的注意力層都能訪問初始句子中的所有詞語。主要適用于不需要生成序列的任務(wù),只需要對輸入進行編碼和處理的單向任務(wù)場景,非常適合需要理解整個序列的任務(wù),如句子分類、命名實體識別和抽取式問答。Encoder-Decoder,既包含編碼器也包含解碼器,即完整的Transformer結(jié)構(gòu),也被稱為序列到序列模型。該類模型中在每個階段,編碼器的注意力層可以訪問初始句子中的所有詞語,而解碼器的注意力層只訪問輸入中給定詞之前的詞語。通常用于序列到序列(Seq2Seq),適合涉及基于給定輸入生成新句子的任務(wù),如摘要、翻譯或生成式問答等,這類代表是以Google訓(xùn)出來T5為代表相關(guān)大模型。Decoder-Only,僅包含解碼器部分,即自回歸(Autoregressive)模型。該類模型中每個階段的注意力層只能訪問句子中該詞之前的詞語,這些模型有時也被稱為自回歸模型通常用于序列生成任務(wù),如文本生成、機器翻譯等。這類結(jié)構(gòu)的模型適用于需要生成序列的任務(wù),可以從輸入的編碼中生成相應(yīng)的序列。第24頁共39頁人工智能通識教程5.3.2Transformer架構(gòu)Transformer創(chuàng)新性地引入了自注意力機制(Self-AttentionMechanism),允許模型直接關(guān)注輸入序列中的任意位置,從而捕捉輸入或輸出序列中的遠距離或長程上下文和依賴關(guān)系。包括編碼器、解碼器、輸入層(詞元嵌入、位置編碼)、注意力層(自注意力、多頭注意力)、位置感知前饋層、殘差連接與層歸一化。Transformer的核心優(yōu)勢是自注意力機制和并行計算能力,可捕捉長距離依賴關(guān)系,提高訓(xùn)練和推理效率。第25頁共39頁人工智能通識教程1.輸入層輸入層是Transformer架構(gòu)的起始部分,負責(zé)將原始數(shù)據(jù)轉(zhuǎn)化為模型可處理的格式。其核心功能是將輸入序列中的每個元素(如單詞、字符等)映射為固定維度的向量表示,同時融入位置信息,為后續(xù)的編碼和解碼過程奠定基礎(chǔ)。輸入層的設(shè)計對于模型能否準確理解和處理序列數(shù)據(jù)至關(guān)重要,它直接影響著模型對數(shù)據(jù)的初步感知和特征提取。詞元嵌入(WordEmbedding)在Transformer架構(gòu)中,詞嵌入是輸入數(shù)據(jù)的第一步處理過程。嵌入是輸入層的關(guān)鍵組成部分,其作用是將輸入序列中的每個單詞轉(zhuǎn)換為高維空間中的向量表示。位置編碼(PositionalEncoding)在人類語言中,詞序?qū)σ饬x的表達至關(guān)重要,由于Transformer模型本身不具備捕捉序列順序的能力,研究人員設(shè)計了巧妙的位置編碼方案為模型提供位置信息。第26頁共39頁人工智能通識教程2.注意力層注意力層是Transformer架構(gòu)的核心部分,它負責(zé)在序列數(shù)據(jù)中捕捉元素之間的依賴關(guān)系和相互作用。通過注意力機制,模型能夠動態(tài)地為序列中的每個元素分配不同的權(quán)重,從而更加關(guān)注對當前任務(wù)更為重要的信息。自注意力機制(Self-Attention)自注意力機制是注意力層的基礎(chǔ),它允許模型在處理序列中的某個元素時,同時關(guān)注序列中的其他元素。自注意力機制通過計算元素之間的相似度或匹配程度,為每個元素生成一個加權(quán)表示,其中權(quán)重反映了元素之間的相關(guān)性。具體來說,自注意力機制包括三個關(guān)鍵步驟:計算查詢(Query)、鍵(Key)和值(Value)向量,計算注意力分數(shù),以及生成加權(quán)表示。多頭注意力機制(Multi-HeadAttention)多頭注意力機制是自注意力機制的擴展,將自注意力過程復(fù)制多次(即“頭”),每個頭都會獨立地計算單詞之間的相似度和權(quán)重,生成不同的加權(quán)表示。每次復(fù)制使用不同的參數(shù),然后將結(jié)果進行拼接或平均,以捕捉序列中不同方面的信息。多頭注意力機制能夠從多個角度分析序列數(shù)據(jù),增強了模型對數(shù)據(jù)的理解和分析能力。第27頁共39頁人工智能通識教程3.位置感知前饋層在Transformer模型中,前饋層通常出現(xiàn)在每一個Transformer編碼器(Encoder)和解碼器(Decoder)中的每一個自注意力(Self-Attention)層之后。前饋層的結(jié)構(gòu)線性變換:前饋層的輸入首先經(jīng)過一個線性變換,將輸入映射到一個高維空間。這個線性變換通常由一個權(quán)重矩陣和一個偏置向量實現(xiàn)。激活函數(shù):經(jīng)過線性變換后,輸入會通過一個激活函數(shù),增加模型的非線性表達能力。前饋層的作用與重要性首先,它通過非線性變換增強了模型的表達能力,使得模型能夠捕捉到更復(fù)雜的特征和模式。這對于處理復(fù)雜的序列任務(wù),如文本分類、機器翻譯等,是非常重要的。其次,前饋層的設(shè)計使得模型能夠?qū)斎霐?shù)據(jù)進行進一步的特征提取和抽象,為后續(xù)的編碼和解碼過程提供了更豐富的信息。此外,前饋層還能夠緩解模型在訓(xùn)練過程中的梯度消失問題,通過引入非線性因素,使得模型能夠更深層次地學(xué)習(xí)數(shù)據(jù)的特征。第28頁共39頁人工智能通識教程4.殘差連接與層歸一化殘差連接(ResidualConnection)是Transformer架構(gòu)中的一種連接方式,它通過將輸入數(shù)據(jù)直接添加到后續(xù)層的輸出上,形成了一個“跳躍連接”。這種連接方式能夠緩解深層神經(jīng)網(wǎng)絡(luò)中的梯度消失問題,使得模型能夠更深層次地學(xué)習(xí)數(shù)據(jù)的特征。殘差連接的工作原理與優(yōu)勢在Transformer中,殘差連接通常用于編碼器和解碼器的每個子層中。具體來說,輸入數(shù)據(jù)首先經(jīng)過自注意力層或前饋層的處理,得到一個中間表示。然后,這個中間表示會與輸入數(shù)據(jù)相加,形成殘差連接的輸出。殘差連接的優(yōu)勢在于,它能夠使得模型在訓(xùn)練過程中更容易地學(xué)習(xí)到殘差函數(shù),即輸出與輸入之間的差異。這種學(xué)習(xí)方式大大簡化了模型的訓(xùn)練過程,使得模型能夠更深層次地學(xué)習(xí)數(shù)據(jù)的特征。此外,殘差連接還能夠緩解梯度消失問題,使得模型能夠構(gòu)建更深的網(wǎng)絡(luò)結(jié)構(gòu),從而提高模型的表達能力和性能。第29頁共39頁人工智能通識教程層歸一化(LayerNormalization)是Transformer架構(gòu)中的一種歸一化技術(shù),它通過對每個樣本的特征進行歸一化處理,使得模型在訓(xùn)練過程中更加穩(wěn)定。層歸一化通常用于編碼器和解碼器的每個子層中,位于自注意力層和前饋層之后。層歸一化的工作原理是對每個樣本的特征進行歸一化處理,使得特征的均值為0,方差為1。具體來說,對于一個樣本的特征向量,首先計算其均值和方差,然后對每個特征進行歸一化處理。殘差連接與層歸一化在Transformer架構(gòu)中協(xié)同作用,共同提高了模型的性能和穩(wěn)定性。殘差連接通過跳躍連接的方式,緩解了深層神經(jīng)網(wǎng)絡(luò)中的梯度消失問題,使得模型能夠更深層次地學(xué)習(xí)數(shù)據(jù)的特征;而層歸一化通過對每個樣本的特征進行歸一化處理,使得模型在訓(xùn)練過程中更加穩(wěn)定,加速了模型的收斂速度。第30頁共39頁人工智能通識教程1.BERT結(jié)構(gòu)BERT(BidirectionalEncoderRepresentationsfromTransformers)是基于Transformer架構(gòu)的深度雙向語言表征模型,核心在于其編碼器結(jié)構(gòu),它由多層Transformer編碼器堆疊而成,每層編碼器都包含自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)。自注意力機制使得模型能夠在不同位置的單詞之間建立聯(lián)系,而前饋神經(jīng)網(wǎng)絡(luò)則對這些聯(lián)系進行進一步的非線性變換。5.3.3編碼器結(jié)構(gòu)-BERT家族第31頁共39頁人工智能通識教程2.預(yù)訓(xùn)練策略BERT的預(yù)訓(xùn)練策略主要包括掩碼語言模型(MaskedLanguageModel,MLM)和下一句預(yù)測(NextSentencePrediction,NSP)。在MLM任務(wù)中,模型會隨機掩蓋輸入文本中的一些單詞,然后預(yù)測這些被掩蓋的單詞。這種策略使得模型能夠?qū)W習(xí)到單詞之間的依賴關(guān)系,以及單詞在不同上下文中的含義。NSP任務(wù)則是為了訓(xùn)練模型理解句子之間的關(guān)系,它會判斷兩個句子是否是連續(xù)的,從而幫助模型捕捉到文本的連貫性和邏輯性。通過這兩種預(yù)訓(xùn)練任務(wù),BERT能夠?qū)W習(xí)到豐富的語言知識,為下游任務(wù)提供強大的語言理解能力。BERT的變體以適應(yīng)不同的任務(wù)需求和計算資源限制。例如,ALBERT(ALiteBERT)通過參數(shù)共享和跨層連接等技術(shù),減少了模型的參數(shù)數(shù)量,提高了訓(xùn)練效率。RoBERTa(ARobustlyOptimizedBERTPretrainingApproach)則通過更大的數(shù)據(jù)集和更長的訓(xùn)練時間,進一步優(yōu)化了BERT的預(yù)訓(xùn)練過程,提升了模型的性能。此外,還有DistilBERT、MobileBERT等變體,它們在模型壓縮、加速等方面進行了探索。3.BERT變體第32頁共39頁人工智能通識教程5.3.4解碼器結(jié)構(gòu)-BERT家族1.GPT結(jié)構(gòu)GPT(GenerativePre-trainedTransformer)是由OpenAI提出的一種基于Transformer架構(gòu)的解碼器模型。與BERT不同,GPT采用自回歸的方式進行預(yù)訓(xùn)練,它會根據(jù)已知的前文信息來預(yù)測下一個單詞。GPT模型由多層Transformer解碼器組成,每層解碼器都包含自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)。自注意力機制使得模型能夠關(guān)注到前文中的關(guān)鍵信息,而前饋神經(jīng)網(wǎng)絡(luò)則對這些信息進行進一步的處理。GPT的這種結(jié)構(gòu)使得它在生成任務(wù)中表現(xiàn)出色,能夠生成連貫、自然的文本。第33頁共39頁人工智能通識教程2.自回歸預(yù)訓(xùn)練自回歸預(yù)訓(xùn)練是GPT的核心預(yù)訓(xùn)練策略,它通過最大化給定前文條件下下一個單詞的預(yù)測概率來進行訓(xùn)練。這種預(yù)訓(xùn)練方式使得模型能夠?qū)W習(xí)到文本的生成規(guī)律,捕捉到單詞之間的順序依賴關(guān)系。在自回歸預(yù)訓(xùn)練過程中,模型會逐步生成文本,每一步都依賴于之前生成的內(nèi)容,從而保證了生成文本的連貫性和一致性。在GPT的基礎(chǔ)上,研究者們提出了許多改進模型,如GPT-2、GPT-3等。GPT-2通過更大的模型規(guī)模和更多的訓(xùn)練數(shù)據(jù),進一步提升了模型的生成能力和語言理解能力。GPT-3則采用了更先進的預(yù)訓(xùn)練任務(wù)和訓(xùn)練技術(shù),如多任務(wù)學(xué)習(xí)、對比學(xué)習(xí)等,使得模型在各種任務(wù)中都取得了顯著的性能提升。此外,還有許多針對GPT的改進工作,如優(yōu)化模型的解碼策略、提高模型的推理速度等3.后續(xù)改進第34頁共39頁人工智能通識教程5.3.5DeepSeek大模型DeepSeek是由深度求索(DeepSeek)自主研發(fā)的高性能大語言模型,直接面向用戶或者支持開發(fā)者。以其開源、輕量化和強大的多場景適應(yīng)能力受到廣泛關(guān)注。為用戶提供智能對話、推理、AI搜索、文件處理、翻譯、解題、創(chuàng)意寫作、編程等多種服務(wù),支持聯(lián)網(wǎng)搜索與深
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程咨詢傭金合同范本
- 扶貧點結(jié)對共建協(xié)議書
- 總承包合同協(xié)議書樣本
- 技術(shù)框架意向合同范本
- 市場工廠股份合同范本
- 安全玩滑梯教案
- 幼兒教育幼兒園大班數(shù)學(xué)公開課合合樂教案
- 春六年級英語下冊StoryTime閩教版三起閩教版小學(xué)六年級下冊英語教案(2025-2026學(xué)年)
- 媒體策劃書教案(2025-2026學(xué)年)
- 廣西專用中考數(shù)學(xué)一輪新優(yōu)化復(fù)習(xí)第一部分教材同步復(fù)習(xí)第一章數(shù)式實數(shù)其相關(guān)概念教案(2025-2026學(xué)年)
- 2023中華護理學(xué)會團體標準-老年人誤吸的預(yù)防
- 社區(qū)發(fā)展的核心任務(wù)
- GB/T 29349-2023法庭科學(xué)現(xiàn)場照相、錄像要求
- 人工濕地施工方案【整編】
- 蓋板涵蓋板計算
- 斜拉索無應(yīng)力索長的計算
- 智慧機場綜合安防系統(tǒng)解決方案
- 2024年高中英語學(xué)業(yè)水平測試及答案
- 天塔之光模擬控制PLC課程設(shè)計
- 初中日語人教版七年級第一冊單詞表講義
- GB/T 5847-2004尺寸鏈計算方法
評論
0/150
提交評論