【《情緒文本分析中詞向量模型構(gòu)建案例概述》2500字】_第1頁
【《情緒文本分析中詞向量模型構(gòu)建案例概述》2500字】_第2頁
【《情緒文本分析中詞向量模型構(gòu)建案例概述》2500字】_第3頁
【《情緒文本分析中詞向量模型構(gòu)建案例概述》2500字】_第4頁
【《情緒文本分析中詞向量模型構(gòu)建案例概述》2500字】_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

情緒文本分析中詞向量模型構(gòu)建案例概述目錄TOC\o"1-2"\h\u5386情緒文本分析中詞向量模型構(gòu)建案例概述 1293311.1one-hot表示 1124701.2基于分布式表征表示的Word2vec 2251551.3Glove模型 3310221.4實(shí)驗(yàn) 490661.5本章小結(jié) 5深度學(xué)習(xí)中模型的輸入必須是計(jì)算機(jī)可以識(shí)別的數(shù)字,而經(jīng)過預(yù)處理和jieba分詞之后的數(shù)據(jù)仍然是中文文字的形式。將句子中的單詞轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的數(shù)字組合就需要通過訓(xùn)練模型構(gòu)建詞典,將各個(gè)單詞與數(shù)字序列進(jìn)行匹配,將單詞轉(zhuǎn)化為數(shù)字組合,句子轉(zhuǎn)化為多個(gè)單詞的組合,這樣就可以得到標(biāo)準(zhǔn)化的深度學(xué)習(xí)模型的輸入。本文采用了三種模型方法訓(xùn)練詞典,分別為one-hot模型、Word2Vec模型、Glove模型,下面介紹一下其原理及構(gòu)建過程。1.1one-hot表示將詞向量用one-hot模型來表征是最簡(jiǎn)單方法。在訓(xùn)練詞向量之前,將數(shù)據(jù)進(jìn)行清洗和分詞之后得到了一個(gè)包含所需要的所有詞的詞表。構(gòu)建詞向量的過程如下:首先是對(duì)詞表中的每個(gè)詞進(jìn)行編號(hào),獲取到的詞表的長度并設(shè)置為n,則對(duì)于每一個(gè)詞的表征向量對(duì)應(yīng)為一個(gè)n維向量,且只在其對(duì)應(yīng)位置上的值為1,其他位置都是0。圖1.1one-hot模型向量圖如圖1.1所示,one-hot向量的思想是將每個(gè)單詞表示為完全獨(dú)立的實(shí)體,然而這會(huì)造成三個(gè)問題。首先是由于本文使用的語言文本不是無序的隨機(jī)序列,一般一個(gè)詞的之后還可以通過其他的組合形成不同意義的詞語,甚至是長詞語,這些詞語往往擁有單個(gè)詞語無法表示的意義,由于詞表中的詞不具有序列關(guān)系,因此這種模型形成的詞向量也沒有序列關(guān)系。其次是無法使用詞向量來比較各個(gè)詞語之間的相關(guān)性和相關(guān)詞之間的語義距離,一般稱為語義鴻溝,這意味著,one-hot模型形成的各個(gè)詞向量之間的距離是相等的。最后就是容易造成維度災(zāi)難,即在數(shù)據(jù)高維度的情形下,由于其編碼方式數(shù)據(jù)樣本會(huì)很稀疏,且不會(huì)計(jì)算詞語之間的距離,這就會(huì)造成下游模型計(jì)算距離時(shí)十分困難,給下游模型造成很大的負(fù)擔(dān)。使用one-hot模型構(gòu)建詞典的方式是很簡(jiǎn)單的,詞語和編碼視為一對(duì)鍵值對(duì)即可使用。1.2基于分布式表征表示的Word2vec為了解決one-hot所帶來的無序性的問題,N-gram模型僅用之前的n個(gè)文本來計(jì)算當(dāng)前文本的條件概率,從而得出整個(gè)文本的概率并使編碼具有序列特征,然而N-gram模型依舊沒有解決維度爆炸的問題。因此,人們將表征對(duì)象的維度進(jìn)行壓縮,在較小的空間中用連續(xù)的稠密向量來描述每個(gè)對(duì)象的抽象特征,在稠密向量中,一個(gè)維度對(duì)應(yīng)一個(gè)特定的抽象屬性。為了表示詞向量之間的關(guān)系,還可以設(shè)計(jì)一個(gè)函數(shù)模型,使得向量可以表示成概率,這樣意思相近的詞向量就可以在一個(gè)向量空間,從而將N-gram模型得到的概率信息也整合到向量之中。維度爆炸的問題就依此被很好地解決了,模型也具有了序列特征。這就是分布式表征,word2vec算法就是基于這種算法。word2vec包括兩個(gè)模型和兩個(gè)提速手段,下面進(jìn)行介紹。首先是CBoW模型,CBoW模型的思路就是輸入中間詞前后共C個(gè)詞,預(yù)測(cè)中間詞,在這個(gè)過程中訓(xùn)練出我們需要的詞向量構(gòu)成的矩陣。其模型結(jié)構(gòu)如圖1.2所示:圖1.2CBoW模型圖在圖1.2中,w表示第k個(gè)中心詞的前后C個(gè)上下文的one-hot向量,圖中C為2。將其向存放詞向量的矩陣WV×N進(jìn)行輸入,之后進(jìn)行查表,其中詞表的大小為V,詞向量的維度為N。然后將查表得到的上下文向量進(jìn)行求和,再通過一個(gè)N×V的矩陣映射到輸出層,這樣就對(duì)目標(biāo)詞進(jìn)行了預(yù)測(cè),也叫做學(xué)習(xí)的過程,在CBoW模型中,中心詞前后的詞都會(huì)進(jìn)行輸入,以此來預(yù)測(cè)目標(biāo)詞。預(yù)測(cè)的過程,也就是學(xué)習(xí)的過程,也是獲得詞向量的過程。相反的,在Skip-gram中,模型中是輸入的是目標(biāo)詞,之后再對(duì)上下文文本的預(yù)測(cè),在這個(gè)相反的過程中,模型得到詞向量。其模型結(jié)構(gòu)如圖1.3所示:圖1.3Skip-gram模型圖從圖1.3中不難看出,這就是CBoW模型的逆過程。之后計(jì)算輸入向量和輸出向量的余弦相似度,然后進(jìn)行Softmax即可。層次Softmax是通過構(gòu)造一個(gè)Huffman樹即最優(yōu)二叉樹,將復(fù)雜的歸一化進(jìn)行拆解,通過最優(yōu)二叉樹的結(jié)構(gòu)特征進(jìn)行分解,將其轉(zhuǎn)化為一系列二分類的條件概率相乘的形式,同時(shí)將復(fù)雜度從V降低到logV1.3Glove模型對(duì)于Word2vec,在訓(xùn)練詞向量時(shí),都是根據(jù)局部語料對(duì)中心詞進(jìn)行預(yù)測(cè),在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的過程中,只對(duì)整個(gè)語料庫部分建模,并沒有考慮到的全局信息。Glove則解決了這種缺點(diǎn),它既能通過訓(xùn)練得到維度固定的詞向量,又能考慮到所獲得的語料的全局信息,充分考慮其全局特征。Glove使用了SVD技術(shù),SVD分解就是奇異值分解,它將一個(gè)復(fù)雜矩陣分解,讓這個(gè)矩陣轉(zhuǎn)換為更小更簡(jiǎn)單的幾個(gè)子矩陣的乘積,這些小矩陣是復(fù)雜矩陣特征值和特征向量的變換分解。Glove相對(duì)于Word2Vec,需要提前統(tǒng)計(jì)詞共現(xiàn)矩陣,并將其整合到代價(jià)函數(shù)之中,使得訓(xùn)練結(jié)果具有整體特征。在共現(xiàn)矩陣X中,j表示第j個(gè)單詞,i表示第i個(gè)單詞,整體意思是第j個(gè)單詞出現(xiàn)距離第i個(gè)單詞小于等于n的位置上的次數(shù),此時(shí)設(shè)置的窗口長度就是n,然后使用這個(gè)窗口遍歷整個(gè)語料庫,則得到了共現(xiàn)矩陣X。代價(jià)函數(shù)為公式(1.1)所示:J=i,jN(其中,為訓(xùn)練所得到的詞向量,為偏差量,為共現(xiàn)矩陣中的元素。1.4實(shí)驗(yàn)實(shí)驗(yàn)中所使用的語料是從Wiki開源網(wǎng)站中下載的3.8G的文本文件。one-hot向量可以直接生成,無需訓(xùn)練。Glove模型目前只有一個(gè)C版本,無法訓(xùn)練,只能通過將Glove轉(zhuǎn)換成Word2vec再進(jìn)行訓(xùn)練,因此本次實(shí)驗(yàn)直接使用Glove包。使用Gensim訓(xùn)練Word2vec的過程代碼如圖1.4所示。圖1.4使用Gensim訓(xùn)練Word2vec的過程代碼圖使用同一個(gè)LSTM模型建模的情況下分別使用one-hot、Word2vec、Glove構(gòu)建詞向量其準(zhǔn)確率對(duì)比如表1.1所示。表1.1詞向量對(duì)比模型準(zhǔn)確率one-hot49.08%Word2vec55.23%Glove57.67%由表1.1的結(jié)果,得到word2ve和Glove比one-hot效果好。1.5本章小結(jié)本章主要介紹了詞向量構(gòu)建的三種方法,one-hot、Glove、Word2vec方法,并通過實(shí)驗(yàn)進(jìn)行了對(duì)比。其中one-hot方法認(rèn)為每個(gè)單詞是完全獨(dú)立的存在,不考慮其上下文,只單純的按照固定長度構(gòu)建向量,其中長度即為詞典的長度也是詞向量的維度,這造成了序列問題和維度爆炸問題。Word2vec使用CBoW模型、Skip-gram模型,并同時(shí)使用層次Softmax技術(shù)、負(fù)采樣技術(shù)訓(xùn)練模型預(yù)測(cè)中心詞來得到詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論