大語言模型通識微課課件:什么是語言模型_第1頁
大語言模型通識微課課件:什么是語言模型_第2頁
大語言模型通識微課課件:什么是語言模型_第3頁
大語言模型通識微課課件:什么是語言模型_第4頁
大語言模型通識微課課件:什么是語言模型_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大語言模型通識微課

什么是語言模型語言模型起源于語音識別,它是自然語言處理領域的基礎任務和核心問題,其目標是對自然語言的概率分布建模。大量的研究從n元語言模型、神經語言模型以及預訓練語言模型等不同角度開展了一系列工作,在不同階段對自然語言處理任務有重要作用。隨著基于谷歌Transformer的各類語言模型的發(fā)展及預訓練微調范式在自然語言處理各類任務中取得突破性進展。語言模型的應用范圍已擴展到機器翻譯、信息檢索、問答、文摘等眾多自然語言處理領域。微課2.1什么是語言模型語言模型是這樣一個模型:對于任意的詞序列,它能夠計算出這個序列是一句話的概率。例如,詞序列A:“這個網站|的|文章|真|水|啊”,這個明顯是一句話,一個好的語言模型也會給出很高的概率。再看詞序列B:“這個網站|的|睡覺|蘋果|好快”,這明顯不是一句話,如果語言模型訓練的好,那么序列B的概率就會很小。2.1.1語言模型的定義語言模型定義:假設我們要為中文創(chuàng)建一個語言模型,V表示詞典,V={貓,狗,機器,學習,語言,模型,...},wi∈V。語言模型就是這樣一個模型:給定詞典V,能夠計算出任意單詞序列w1,w2,...,wn是一句話的概率p(w1,w2,...,wn),其中,p≥0。計算p(w1,w2,...,wn)的最簡單方法是數數,可以想象一旦單詞序列沒有在訓練集中出現(xiàn)過,模型的輸出概率就是0。2.1.1語言模型的定義在統(tǒng)計學模型為主體的自然語言處理時期,主要成果是N-gram語言模型。為了簡化p(wi|w1,w2,...,wi-1)的計算,引入一階馬爾可夫假設:每個詞只依賴前一個詞;也可以引入二階馬爾可夫假設:每個詞依賴前兩個詞。有了馬爾可夫假設,就可以方便的計算條件概率。此外,還有前饋神經網絡語言模型、循環(huán)神經網絡語言模型及其他預訓練語言模型。2.1.1語言模型的定義語言模型可用于提升語音識別和機器翻譯的性能。例如,在語音識別中,給定一段“廚房里食油用完了”的語音,有可能會輸出“廚房里食油用完了”和“廚房里石油用完了”這兩個讀音完全一樣的文本序列。如果語言模型判斷出前者的概率大于后者的概率,就可以根據相同讀音的語音輸出“廚房里食油用完了”的文本序列。2.1.1語言模型的定義早期在解決機器翻譯這一類序列到序列的問題時,通常采用的做法是利用一個編碼器和一個解碼器構建端到端的神經網絡模型。但是,基于編碼解碼的神經網絡存在兩個問題。拿機器翻譯作為例子:問題1:如果翻譯的句子很長很復雜,比如直接一篇文章輸進去,模型的計算量很大,并且模型的準確率下降嚴重。問題2:翻譯時不同語境下同一個詞具有不同含義,但是網絡對這些詞向量并沒有區(qū)分度,沒有考慮詞與詞之間的相關性,導致翻譯效果比較差。針對這樣的問題,提出了注意力機制。2.1.2注意力機制2014年,弗拉基米爾在“視覺注意力的反復模型”一文中應用了注意力機制。2017年提出的Transformer結構在自然語言處理、計算機視覺等相關問題上被廣泛應用?!白⒁饬C制”:就是將人的感知方式、注意力的行為應用在機器上,讓機器學會去感知數據中的重要和不重要的部分。比如要識別圖片中的動物,我們讓機器存在一個注意力側重點,關注圖片中動物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太關注背景的一些信息。核心目的是希望機器能注意到對當前任務更關鍵的信息,而對于其他非關鍵信息不需要注意太多。2.1.2注意力機制對模型的每一個輸入項,它可能是圖片中的不同部分,或者是語句中的某個單詞,分配一個權重,這個權重的大小代表了我們希望模型對該部分的關注程度。這樣,通過權重大小來模擬人在處理信息時的注意力側重,有效的提高了模型的性能,并且在一定程度上降低了計算量。2.1.2注意力機制深度學習中的注意力機制通??煞譃槿悾很涀⒁猓ㄈ肿⒁猓?、硬注意(局部注意)和自注意力(內注意)(1)軟注意機制:對每個輸入項分配權重。由于考慮大部分信息但考慮程度不一,所以相對計算量比較大。(2)硬注意機制:對每個輸入項分配權重,只考慮那部分需要關注,哪部分不關注,直接舍棄掉一些不相關項。(3)自注意力機制:對每個輸入項分配的權重取決于輸入項之間的相互作用。它在處理很長的輸入時,具有并行計算的優(yōu)勢。2.1.2注意力機制大模型的發(fā)展歷程不長,但速度驚人,可以粗略分為三個階段:基礎模型、能力探索、突破發(fā)展?;A模型階段主要集中于2018年至2021年。2017年提出的Transformer架構在機器翻譯任務上取得突破性進展。2020年OpenAI發(fā)布了GPT-3。能力探索階段集中于2019年至2022年,研究者開始探索在不針對單一任務進行微調的情況下,如何能夠發(fā)揮大模型的能力。突破

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論