版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二章
詞向量目錄2.1概述
2.2文本表示方法
2.3Word2Vec模型
2.4GloVe模型
2.5ELMo模型
2.6討論2.1概述詞向量起源概述:
雖然人類能夠通過文字交流,但計(jì)算機(jī)只能處理數(shù)字形式的信息(0和1)。為了使計(jì)算機(jī)能夠解析和處理人類語言,必須將語言(如文本和聲音)轉(zhuǎn)化為數(shù)字形式。
文本表示成為了自然語言處理的關(guān)鍵任務(wù)之一,其主要目標(biāo)是將文本元素(如詞、句子或段落)轉(zhuǎn)化為數(shù)值數(shù)據(jù),通常是向量形式。
我們將這些表示稱之為詞向量(WordVector)、詞嵌入(WordEmbedding)或者詞表示(WordRepresentation)2.2文本表示方法獨(dú)熱表示:獨(dú)熱表示是一種將詞匯映射為向量的策略。每個(gè)詞匯都被轉(zhuǎn)換為一個(gè)唯一的向量,僅有一個(gè)元素為1,其余元素均為0。舉例如下:
文本表示的核心在于將文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)能夠理解和處理的形式。
代表性表示方法:獨(dú)熱表示和分布式表示。其中,向量中數(shù)值“1”的位置是根據(jù)詞匯在詞匯表中的索引確定的。示例詞匯表獨(dú)熱向量表示2.2.1獨(dú)熱表示獨(dú)熱表示方法存在的問題:維度災(zāi)難無法度量語義相關(guān)性維度災(zāi)難:隨著特征空間的維度增加,數(shù)據(jù)的分布變得更加稀疏,需要更長維度的向量來表達(dá)詞匯。度量語義相關(guān)性:考慮詞匯“貓”和“狗”,假設(shè)在10000維的獨(dú)熱表示中,“貓”和狗的獨(dú)熱表示如下:“貓”→[1,0,0,....,0]“狗”→[0,1,0,....,0]歐式距離由此易知,任意兩個(gè)詞匯之間的距離都是相同的,無法反應(yīng)詞匯之間的語義相似度?!柏垺薄鶾1,0,0,....,0]“花”→[0,0,1,....,0]歐式距離2.2.2分布式表示分布式表示:分布式表示由Hinton等多位計(jì)算機(jī)科學(xué)家和神經(jīng)網(wǎng)絡(luò)研究者在20世紀(jì)80年代提出,用于有效地捕捉詞匯之間的語義和上下文關(guān)系,同時(shí)克服獨(dú)熱表示的維度災(zāi)難問題。其核心思想如下:其中,每個(gè)詞匯都被映射成一個(gè)3維的實(shí)數(shù)向量。例如,計(jì)算可得,”貓”和“狗”之間的歐式距離為0.245,“貓”和“鳥”之間的歐式距離為1.02,表明“貓”和“狗”最為相似。通過訓(xùn)練將語言中的每個(gè)詞匯映射到一個(gè)固定長度的實(shí)數(shù)向量上通過以下詞向量例子說明:2.3Word2Vec模型Word2Vec模型:該模型是2013年由TomasMikolov等人提出,用于生成詞語的分布式表示。該模型包括輸入層、投影層和輸出層三個(gè)組件。
根據(jù)輸入—輸出關(guān)系,Word2Vec模型包括連續(xù)詞袋(CBOW)和Skip-gram模型兩個(gè)變種。CBOW模型:其目標(biāo)是根據(jù)給定詞
的上下文
來預(yù)測該詞
本身。SKip-gram模型:在給定一個(gè)詞
的情況下,預(yù)測該詞的上下文
。2.3.1CBOW模型簡化版CBOW模型:根據(jù)一個(gè)輸入詞
預(yù)測一個(gè)輸出詞
,相比于傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò),CBOW模型移除了隱藏層,降低了模型的計(jì)算復(fù)雜度,其模型架構(gòu)如圖所示:簡化版CBOW模型圖2.3.1CBOW模型輸入層:輸入
是單詞的獨(dú)熱表示。輸入層到投影層:輸入層和投影層之間有一個(gè)詞向量矩陣
,其中
表示投影后的維度。投影層向量
計(jì)算如下:投影層到輸出層:投影層和輸出層之間也有一個(gè)權(quán)重矩陣
。輸出層向量
計(jì)算如下:Softmax激活函數(shù):模型的最終輸出,將每個(gè)元素歸一化一個(gè)介于0和1之間的概率值。輸出層向量計(jì)算如下:2.3.1CBOW模型CBOW模型(多詞上下文模型):模型根據(jù)上下文中的2m個(gè)詞,預(yù)測中心詞。具體如下:→給定2m詞的上下文預(yù)測中心詞模型關(guān)鍵結(jié)構(gòu):輸入層、投影層以及輸出層。各層操作如下:輸入層:該層以
為中心詞的上下文作為輸入,每個(gè)詞通過獨(dú)熱編碼向量
來表示。投影層:上下文中每個(gè)詞
都經(jīng)過相同的詞向量矩陣
,得到向量
,再執(zhí)行詞向量的累加平均操作:2.3.1CBOW模型輸出層:該層經(jīng)過權(quán)重矩陣
得到輸出概率向量:其中,
,
中心詞
計(jì)算得到的條件概率為該模型存在的問題:Softmax每次需要計(jì)算
中所有詞的輸出值,當(dāng)
很大時(shí),
的
成本會(huì)非常高。解決方法:在訓(xùn)練Word2Vec模型時(shí),常用的訓(xùn)練技巧是通過構(gòu)建哈夫曼樹(HuffmanTree)進(jìn)行層級Softmax,從而將復(fù)雜度從
降低到
。2.3.1CBOW模型層次Softmax:下面將介紹層次Softmax的原理及優(yōu)化方法。核心思想:層次Softmax不需要矩陣
,下圖以哈夫曼樹對Softmax展開說明。層次Softmax模型圖2.3.1CBOW模型基于哈夫曼樹的層次Softmax原理:層次Softmax通過將所有詞匯構(gòu)建成一顆二叉樹,詞表中的單詞位于葉子節(jié)點(diǎn),樹中的每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)二分類決策(左子樹或右子樹)。把Context(學(xué)習(xí))記為C,則詞“學(xué)習(xí)”的路徑如下:
條件概率
的計(jì)算公式如下:詞“學(xué)習(xí)”的路徑其中,
表示在非葉子節(jié)點(diǎn)n選擇左子樹的概率。顯然
。這個(gè)過程可視為一個(gè)邏輯回歸問題,并用Sigmoid函數(shù)建模:2.3.1CBOW模型其中,
為非葉子節(jié)點(diǎn)n的待訓(xùn)練參數(shù)。
僅依賴從根節(jié)點(diǎn)到目標(biāo)詞路徑中的非葉子節(jié)點(diǎn),其復(fù)雜度為
。模型優(yōu)化目標(biāo):該模型最大似然函數(shù)作為優(yōu)化目標(biāo),具體可表示為:其中,L表示訓(xùn)練集長度,在訓(xùn)練中使用梯度下降法更新詞向量矩陣
和權(quán)重矩陣
。2.3.2Skip-gram模型Skip-gram模型:與CBOW模型不同,Skip-gram模型以單個(gè)詞作為輸入,以預(yù)測其上下文環(huán)境中出現(xiàn)的多個(gè)詞,其模型架構(gòu)如下圖所示:Skip-gram模型包括輸入層、投影層和輸出層。其中,各層功能如下:Skip-gram模型圖2.3.2Skip-gram模型輸入層:輸入X是單詞wt的獨(dú)熱表示。投影層:該層輸出為輸出層:通過
得到2m個(gè)輸出向量,并通過Softmax得到真實(shí)輸出的概率分布。訓(xùn)練可采用層次Softmax等技術(shù)降低復(fù)雜度,而不直接使用矩陣W’。Skip-gram模型復(fù)雜度與優(yōu)化目標(biāo):該模型的訓(xùn)練復(fù)雜度為
,其優(yōu)化目標(biāo)可表示為:其中,L表示訓(xùn)練集長度。在訓(xùn)練過程中,一般認(rèn)為在給定
的情況下,2m個(gè)輸出是完全獨(dú)立的。2.4GloVe模型模型特點(diǎn):GloVe模型:該模型是斯坦福大學(xué)于2014年發(fā)布的一個(gè)開源項(xiàng)目。GloVe是一個(gè)基于全局詞頻統(tǒng)計(jì)的詞向量模型,它結(jié)合了兩個(gè)模型族的特征,即全局矩陣分解(基于奇異值分解(SVD)的潛在語義分析算法)和局部上下文窗口方法(如Word2Vec算法)。
結(jié)合了Word2Vec模型的Skip-gram優(yōu)勢,同時(shí)利用了全局詞頻統(tǒng)計(jì)信息,通過矩陣分解技術(shù)可以有效地獲取單詞向量表示。它可以把一個(gè)單詞表達(dá)成一個(gè)由實(shí)數(shù)組成的向量,用于捕捉單詞之間的語義特性,比如相似性、類比性。通俗舉例,向量運(yùn)算
避免計(jì)算復(fù)雜度高地奇異值分解過程。2.4GloVe模型GloVe模型實(shí)現(xiàn)過程:該模型實(shí)現(xiàn)過程簡要分為三個(gè)步驟:構(gòu)建共現(xiàn)矩陣、建立詞向量與共現(xiàn)矩陣之間的關(guān)系以及構(gòu)建損失函數(shù)。構(gòu)建共現(xiàn)矩陣:首先構(gòu)建一個(gè)共現(xiàn)矩陣,矩陣元素Xij表示單詞i和單詞j在一定上下文窗口內(nèi)共同出現(xiàn)的次數(shù)。通過該矩陣,可以了解詞匯在文本中的共現(xiàn)模式。下面提供一個(gè)示例:2.4GloVe模型在這個(gè)矩陣X中,X12=3表示單詞“我”和“喜歡”在上下文窗內(nèi)共同出現(xiàn)了3次。2.4GloVe模型構(gòu)建詞向量與共現(xiàn)矩陣的關(guān)系:GloVe模型提出詞向量和共現(xiàn)矩陣之間的某種近似關(guān)系,表達(dá)如下:其中,
和
分別是單詞i和j的詞向量,
和
是偏置項(xiàng),
是共現(xiàn)次數(shù)的對數(shù)。構(gòu)建損失函數(shù):損失函數(shù)的目標(biāo)是通過最小化預(yù)測值與實(shí)際值之間的誤差來學(xué)習(xí)詞向量。其定義如下:其中,
是共現(xiàn)次數(shù)Xij的權(quán)重函數(shù),其定義為
。
2.5ELMo模型ELMo模型:ELMo模型是由AllenInstituteforArtificialIntelligence于2018年提出的一種用于自然羽然處理任務(wù)的預(yù)訓(xùn)練語言模型。模型特點(diǎn):ELMo模型生成的詞向量是上下文相關(guān)的,即它能夠根據(jù)每個(gè)單詞在不同語境中的具體含義,動(dòng)態(tài)地調(diào)整其表示。解決了靜態(tài)表示無法處理一詞多義的問題。ELMo模型的訓(xùn)練:預(yù)訓(xùn)練和微調(diào),其中:
預(yù)訓(xùn)練:在大規(guī)模文本數(shù)據(jù)上進(jìn)行無監(jiān)督預(yù)訓(xùn)練,同時(shí)考慮前向和后向語言模型,通過結(jié)合雙向長短時(shí)記憶網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)。
微調(diào):通過特定的監(jiān)督學(xué)習(xí)任務(wù)(例如情感分析、文本分類等)進(jìn)行微調(diào)。在微調(diào)過程中,將從預(yù)訓(xùn)練模型中提取的各層詞嵌入作為新的特征輸入,以便更好地適應(yīng)特定應(yīng)用場景。2.5ELMo模型預(yù)訓(xùn)練:在自然語言處理中,雙向語言模型是一種用于建模語言序列的方法。給定一個(gè)由N個(gè)單詞組成的序列
,雙向語言模型同時(shí)考慮序列的前向和后向信息。前向語言模型的任務(wù)是計(jì)算整個(gè)序列的概率
,通過對每個(gè)單詞
建模,考慮到先前單詞的歷史:后向語言模型與前向模型類似,但在后向遍歷序列時(shí),通過考慮未來上下文來預(yù)測先前單詞:為了綜合前向和后向信息,雙向語言模型結(jié)合了兩者,通過聯(lián)合最大化前向和后向的對數(shù)似然來進(jìn)行訓(xùn)練:2.5ELMo模型預(yù)訓(xùn)練:其中,
是詞向量參數(shù),
是LSTM模型的參數(shù),
是模型最終預(yù)測階段Softmax層的參數(shù)。在這個(gè)模型中,將前向和后向方向的單詞表示和Softmax層的參數(shù)綁定一起,但保持每個(gè)方向的LSTM模型參數(shù)獨(dú)立。這種雙向語言模型的設(shè)計(jì)旨在更全面地捕獲語言序列中的上下文信息,有助于提高在自然語言處理任務(wù)中的性能。2.5ELMo模型任務(wù)微調(diào):雙向語言模型的表示計(jì)算:對于每個(gè)輸入單詞
,ELMo模型利用一個(gè)包含L層的雙向語言模型來生成一系列表示,具體包括:單詞層表示
,即與
上下文無關(guān)的表示;以及正向表示
和后向表示
,分別對應(yīng)于BiLSTM在第j層的正向和后向隱藏層輸出。對于每個(gè)單詞
,這些表示組成一個(gè)集合針對特定任務(wù)的表示生成:對于每個(gè)單詞
,特定任務(wù)的ELMo表示
是通過對所有雙向語言模型層的輸出進(jìn)行加權(quán)求和得到,其中,
是Softmax歸一化的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026重慶市萬州區(qū)茨竹鄉(xiāng)人民政府招聘非全日制公益性崗位1人備考考試試題附答案解析
- 2026年西安工業(yè)大學(xué)附屬小學(xué)教師招聘參考考試題庫附答案解析
- 2026年河北雄安容和樂民小學(xué)見習(xí)崗招聘參考考試題庫附答案解析
- 藥品生產(chǎn)質(zhì)量風(fēng)險(xiǎn)管理制度及流程
- 生產(chǎn)管理調(diào)度管理制度
- 生產(chǎn)管理檔案制度
- 南京條約后中國生產(chǎn)制度
- 藥品生產(chǎn)成本核算制度
- 工程安全生產(chǎn)會(huì)議制度
- 衛(wèi)生安全生產(chǎn)舉報(bào)制度
- 3D小人素材13(共16)-金色系列
- 上腔靜脈綜合征患者的護(hù)理專家講座
- 免責(zé)協(xié)議告知函
- 食物與情緒-營養(yǎng)對心理健康的影響
- 2023氣管插管意外拔管的不良事件分析及改進(jìn)措施
- 麻醉藥品、精神藥品月檢查記錄
- 基礎(chǔ)化學(xué)(本科)PPT完整全套教學(xué)課件
- 蕉嶺縣幅地質(zhì)圖說明書
- 電梯控制系統(tǒng)論文
- (完整word版)人教版初中語文必背古詩詞(完整版)
- 湖北省地質(zhì)勘查坑探工程設(shè)計(jì)編寫要求
評論
0/150
提交評論