【《文本向量化處理案例分析概述》2700字】_第1頁(yè)
【《文本向量化處理案例分析概述》2700字】_第2頁(yè)
【《文本向量化處理案例分析概述》2700字】_第3頁(yè)
【《文本向量化處理案例分析概述》2700字】_第4頁(yè)
【《文本向量化處理案例分析概述》2700字】_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文本向量化處理案例分析概述目錄TOC\o"1-3"\h\u29618文本向量化處理案例分析概述 1101031.1詞向量動(dòng)態(tài)特征模型 1193091.2基于word2vec的文本向量化 287461.2.1Skip-gram模型與CBOW模型 253161.2.2模型效果分析與對(duì)比 5文本向量化指的是將文段轉(zhuǎn)化為一定維度的向量形式表達(dá),具體來(lái)說(shuō)是對(duì)分詞后的文段進(jìn)行向量化處理,生成一系列詞向量,實(shí)現(xiàn)中文文本的計(jì)算化表達(dá)。這一過(guò)程主要是為了適應(yīng)模型輸入需求。詞向量是一種將詞語(yǔ)進(jìn)行分布式表示的方法,將一般的文本轉(zhuǎn)化為一系列詞語(yǔ)的向量,進(jìn)而構(gòu)成向量空間。這些詞向量的各個(gè)維度包含著詞語(yǔ)的諸多有效信息:除了基本的語(yǔ)義、語(yǔ)序之外,還包含著語(yǔ)法信息。此外,詞向量的一些維度還通過(guò)記錄詞向量的距離表征詞語(yǔ)之間的相似度和句中的邏輯關(guān)系,詞語(yǔ)之間相似度和詞向量距離是正相關(guān)的。綜上,利用詞向量可以表征文本含義,是一種有效的算法層面的文本表達(dá)方式。詞向量動(dòng)態(tài)特征模型ELMO(EmbeddingfromLanguageModels)的本質(zhì)思想是利用語(yǔ)言模型訓(xùn)練單詞的wordembedding,使其具備可以根據(jù)不同上下文調(diào)整語(yǔ)義和含義的動(dòng)態(tài)特性。通俗來(lái)講,靜態(tài)詞向量提供了一個(gè)僅包含輸出接口的靜態(tài)數(shù)據(jù)模塊,這個(gè)模塊能對(duì)外輸出其中的詞的語(yǔ)義語(yǔ)法和上下文特征等信息,但不能根據(jù)外界做出更改。相比之下,ELMO等模型的動(dòng)態(tài)模型提供了一種同時(shí)包含輸入輸出接口的動(dòng)態(tài)數(shù)據(jù)模塊,這個(gè)模塊既可以對(duì)外輸出也可以接受外界數(shù)據(jù)、根據(jù)上下文和語(yǔ)境對(duì)自身含義做出動(dòng)態(tài)調(diào)整,這就賦予了模型構(gòu)建更高效和精確詞向量的能力。模型構(gòu)架方面,ELMO采取典型的雙階段過(guò)程:第一階段使用預(yù)訓(xùn)練語(yǔ)言模型(Bi-LSTM編碼)進(jìn)行訓(xùn)練,第二階段主要采用了fine-tuning模式,把訓(xùn)練好的詞的wordembedding作為特征補(bǔ)充投入到具體應(yīng)用任務(wù)中。GPT(GenerativePre-Traxining)結(jié)構(gòu)和使用方法與ELMO類(lèi)似,主要不同在于訓(xùn)練部分。不同于ELMO的雙層雙向LSTM,GPT主要使用Transformer進(jìn)行特征提取,并引入了self-attention(自注意力)機(jī)制。BERT(BidirectionalEncoderRepresentationsfromTransformers)的結(jié)構(gòu)與上兩種類(lèi)似,創(chuàng)新點(diǎn)在于預(yù)訓(xùn)練過(guò)程中Masked語(yǔ)言模型(遮掩語(yǔ)言模型)的使用和預(yù)測(cè)下一個(gè)句子(NextSentencePrediction)的能力。Mask標(biāo)記的加入使得訓(xùn)練過(guò)程收斂減慢,但效果有一定的提升。此外NextSentencePrediction的引入使得BERT模型在QA、NLI等需要理解多個(gè)句子的任務(wù)中體現(xiàn)出明顯的優(yōu)勢(shì)。基于word2vec的文本向量化Skip-gram模型與CBOW模型基于之前的方法調(diào)研,課題主要采用word2vec方法生成詞向量,這一方法也是目前代價(jià)最低、效果最好的方法。word2vec模型(圖3.2,3.3)的主要思路是:利用詞向量之間的運(yùn)算來(lái)代替詞語(yǔ)之間的邏輯和語(yǔ)義關(guān)系、利用詞向量之間的距離來(lái)代表詞語(yǔ)之間的相似度。具體來(lái)說(shuō),實(shí)際實(shí)現(xiàn)過(guò)程中通過(guò)構(gòu)建詞語(yǔ)間關(guān)系的映射、訓(xùn)練模型得到神經(jīng)網(wǎng)絡(luò)權(quán)重等一系列參數(shù),并利用參數(shù)作為輸入詞語(yǔ)的某種向量化表示。按照這個(gè)原則,每個(gè)詞對(duì)應(yīng)的詞向量的各個(gè)維度均有意義,并且包含語(yǔ)義、語(yǔ)法、上下文聯(lián)系等一系列信息,這樣就滿(mǎn)足了我們的需求。word2vec模型有兩個(gè)具體分支——Skip-gram模型和CBOW模型。如果以一個(gè)詞語(yǔ)做為輸入來(lái)預(yù)測(cè)它周?chē)纳舷挛?,那么稱(chēng)為Skip-gram模型;如果用一個(gè)詞語(yǔ)的上下文做輸入來(lái)預(yù)測(cè)這個(gè)詞語(yǔ)本身,則是CBOW模型。下面簡(jiǎn)單介紹兩個(gè)模型的結(jié)構(gòu)(圖3.4)。Skip-gram模型以中心詞為輸入,輸出是中心詞的最大概率預(yù)測(cè)的上下文。具體來(lái)說(shuō),就是輸出softmax函數(shù)預(yù)測(cè)概率最高的幾個(gè)詞。模型考慮了詞向量之間的距離——中心詞與上下文詞語(yǔ)間距離越近,關(guān)聯(lián)越緊密,反之亦然。訓(xùn)練過(guò)程中,通過(guò)選定窗口大?。瓷舷挛脑~語(yǔ)數(shù)目),可以調(diào)整訓(xùn)練參數(shù)和效果。一般來(lái)說(shuō),更長(zhǎng)的窗口可以提供更高的準(zhǔn)確率,但同時(shí)復(fù)雜度和訓(xùn)練時(shí)間會(huì)上升,需要通過(guò)實(shí)際數(shù)據(jù)和訓(xùn)練情況進(jìn)行權(quán)衡。神經(jīng)網(wǎng)絡(luò)詞向量語(yǔ)言模型(word2vec)基本結(jié)構(gòu)word2vec模型CBOW模型與Skip-gram模型將Skip-gram模型與One-hot編碼結(jié)合(圖3.5)后,可以利用輸入詞來(lái)估計(jì)上下文詞語(yǔ),輸出即為最可能的幾個(gè)上下文詞語(yǔ)的One-hot編碼。各層次功能簡(jiǎn)述如下:輸入層:input為中心詞的One-hot編碼,維度為V.隱形層:將輸入層的神經(jīng)元乘權(quán)重矩陣WV×N,得到?i,維度為輸出層:按照softmax函數(shù)估計(jì)條件概率,按照設(shè)定的窗口長(zhǎng)度C,選取概率值最大的前C個(gè)詞語(yǔ)作為最可能上下文輸出(輸出形式為One-hot編碼)。條件概率計(jì)算公式為:pOne-hot+Skip-gram結(jié)構(gòu)其中V、wI和wo相比之下,結(jié)構(gòu)類(lèi)似的CBOW模型輸入輸出正好相反。CBOW模型將中心詞的上下文詞匯作為輸入,輸出的是預(yù)測(cè)得到的中心詞。結(jié)合One-hot編碼的CBOW模型結(jié)構(gòu)(圖3.6)中輸入和輸出均為One-hot編碼格式。三層基本結(jié)構(gòu)和功能分別簡(jiǎn)述如下:輸入層:設(shè)定窗口長(zhǎng)度C,將選中詞語(yǔ)的上下文詞語(yǔ)x1k,x2k,…,隱形層:將輸入層各神經(jīng)元乘以權(quán)重矩陣WV×N并取平均值,得到??其中,xi輸出層:將隱形層?i乘以權(quán)重矩陣WN×V'zOne-hot+CBOW結(jié)構(gòu)y將預(yù)測(cè)結(jié)果的One-hot編碼與對(duì)照表對(duì)比,即可得到目標(biāo)中心詞。需要提出的是,word2vec網(wǎng)絡(luò)訓(xùn)練后,我們更關(guān)注的往往是這個(gè)過(guò)程中獲得的一系列模型參數(shù),比如隱形層訓(xùn)練所得的權(quán)重矩陣等。這些參數(shù)是構(gòu)成詞向量、表示語(yǔ)義語(yǔ)法信息和特征的關(guān)鍵。模型效果分析與對(duì)比掌握了word2vec模型的原理后,實(shí)現(xiàn)工作就相對(duì)易于理解,程序?qū)崿F(xiàn)起來(lái)邏輯也就較為貫通。在Python的gensim庫(kù)中有內(nèi)置的預(yù)訓(xùn)練word2vec詞向量生成模型,進(jìn)行調(diào)用。模型的幾個(gè)重要參數(shù)如表3.1所示。其中sg=1表示采用Skip-gram模型生成詞向量,hs=1表示訓(xùn)練過(guò)程中使用HierarchicalSoftmax(分層softmax)函數(shù),即將輸出層改造為HuffmanTree(霍夫曼樹(shù)),提高了原softmax層計(jì)算效率的同時(shí)降低了運(yùn)算代價(jià),使得詞向量的訓(xùn)練更加準(zhǔn)確、有效。同樣用CBOW生成詞向量并與Skip-gram模型的生成結(jié)果對(duì)比,可以依據(jù)語(yǔ)義準(zhǔn)確度來(lái)判斷兩模型對(duì)本課題的適應(yīng)程度。一個(gè)可行的方法是計(jì)算兩個(gè)詞向量之間的余弦相似度S,計(jì)算公式如下:S其中X=(x1word2vec模型超參數(shù)設(shè)置參數(shù)表意說(shuō)明設(shè)置值sg選用的模型有0,1兩個(gè)取值,分別表示CBOW和Skip-gram模型1size詞向量長(zhǎng)度設(shè)置生成的詞向量的長(zhǎng)度,詞向量越長(zhǎng)運(yùn)算代價(jià)越大200window窗口長(zhǎng)度word2vec采用滑動(dòng)窗口模式提取詞語(yǔ),窗口長(zhǎng)度表征同時(shí)在一個(gè)窗口內(nèi)的詞語(yǔ)數(shù)目10min_count最小詞頻文段內(nèi)詞語(yǔ)數(shù)目少于該數(shù)目的會(huì)被丟棄(默認(rèn)值為5)8hs采樣方法有0,1兩個(gè)取值,分別表示negativesampling和HierarchicalSoftmax(分層softmax)采樣1利用word2vec模型生成詞向量,采取Skip-gram模型和HierarchicalSoftmax函數(shù),以分詞后的新聞數(shù)據(jù)作為訓(xùn)練集進(jìn)行訓(xùn)練后獲得了88000余個(gè)200維的詞向量,部分結(jié)果如圖3.7所示。進(jìn)一步的,可以列出Skip-gram模型下的一些詞語(yǔ)的相關(guān)詞語(yǔ)。以“創(chuàng)新”為例,最相關(guān)的20個(gè)詞語(yǔ)(部分)如圖3.8所示。計(jì)算兩模型生成的一些詞語(yǔ)的詞向量之間的相似度,如表3.2所示。兩種模型的效果對(duì)比如圖3.10所示。由實(shí)驗(yàn)可知,CBOW與Skip-gram兩種模型相比,前者在時(shí)間效率上有較為明顯的優(yōu)勢(shì),但是語(yǔ)義準(zhǔn)確率方面CBOW模型明顯劣于Skip-gram模型。鑒于課題中后續(xù)的關(guān)鍵詞提取、特征提取及分類(lèi)等步驟

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論