版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
引言概述本文旨在使用深度學習方法對商品評論數(shù)據(jù)進行分類,訓(xùn)練模型得到合適的分類器,并評估異構(gòu)數(shù)據(jù)源如微博用戶數(shù)據(jù)在該分類器下的分類的準確率。本文采用實證研究的方式評價模型分類效果,實驗考慮了不平衡的5種類別的產(chǎn)品,以及平衡的3種類別的產(chǎn)品。經(jīng)過一定的文本預(yù)處理后,分別在one-hot編碼+前饋神經(jīng)網(wǎng)絡(luò)、詞嵌入+循環(huán)神經(jīng)網(wǎng)絡(luò)模型架構(gòu)下評估模型效果。本文使用了大量的圖表對數(shù)據(jù)源、模型分類效果等進行展示。研究背景文本分類,是自然語言處理(NLP)中的一個經(jīng)典問題,其目的是為句子、查詢、段落和文檔等文本單元分配標簽。文本分類具有廣泛的應(yīng)用,包括問答、垃圾郵件檢測、情感分析、新聞分類、用戶意圖分類、內(nèi)容調(diào)節(jié)等。在各種文本分類任務(wù)中,基于深度學習的模型已經(jīng)超越了基于經(jīng)典機器學習的方法,包括情感分析、新聞分類、問答和自然語言處理。在互聯(lián)網(wǎng)2.0時代,用戶可以發(fā)表言論的網(wǎng)絡(luò)平臺眾多,有購物平臺、各種類型的社交平臺如微博、知乎等。同時隨著人們對網(wǎng)絡(luò)購物體驗等要求的提升,用戶會在各種平臺上發(fā)表與商品相關(guān)的言論,在網(wǎng)絡(luò)購物平臺,用戶的商品評論是針對具體商品的直接表達,而在社交網(wǎng)絡(luò)平臺上,用戶更傾向于隨意地表達自己對相關(guān)產(chǎn)品的需求、喜好、吐槽等。若能夠?qū)⒈磉_某種產(chǎn)品的用戶通過快速網(wǎng)絡(luò)鏈接的方式將用戶導(dǎo)引至相關(guān)的購物平臺,這將對于用戶和商家而言均有好處。本文的目的即在于尋找一種合適的深度學習框架。使用商品評論作為模型的訓(xùn)練集,訓(xùn)練得到一個強大的分類器,這個分類器對于異構(gòu)數(shù)據(jù)即其他平臺上的用戶言論有很好的分類效果,即能夠把握兩種文本之間的內(nèi)在關(guān)聯(lián)性,可快速將用戶引導(dǎo)至對應(yīng)的商品鏈接處。國內(nèi)外研究現(xiàn)狀隨著深度學習的熱度越來越高,其在某些方面的優(yōu)勢相對于傳統(tǒng)的機器學習而言也較為明顯,除了在圖像識別等領(lǐng)域獲得的巨大成功外,該技術(shù)也逐漸應(yīng)用于更廣的工業(yè)領(lǐng)域,因此在近幾年將深度學習方法運用于文本分類、文本情感分析、話題分析等的研究也較為豐富。在國內(nèi)研究方面,宋英華等[1]對不同級別突發(fā)事件新聞使用深度學習組合模型進行文本分類,其分類準確率可達99%以上。鄭飛等[2]利用LDA主題模型結(jié)合Word2Vec詞向量模型,構(gòu)建文本詞向量矩陣,使用結(jié)合融合層的CNN從詞向量矩陣獲取特征,得到的分類結(jié)果在模型評價指標上得到提高。吳漢瑜等[3]分析了CNN、RNN及注意力機制在文本分類中的優(yōu)勢,提出了一種融合三者的混合模型,該混合模型在多個文本分類數(shù)據(jù)集上的表現(xiàn)比現(xiàn)有模型更優(yōu)。汪少敏等在文獻[4]中對傳統(tǒng)分類模型、CNN+LSTM、TextCNN進行了驗證比對,結(jié)論指出CNN+LSTM和TextCNN具有特征提取有效、準確率高等諸多優(yōu)勢。劉婷婷等在文獻[5]中使用中文、英文測試集作為數(shù)據(jù)源,并利用深度學習技術(shù)訓(xùn)練模型,發(fā)現(xiàn)其可以在各種文本上得到83%以上的分類準確率。朱少杰在文獻[6]中在考慮到傳統(tǒng)機器學習方法應(yīng)用于情感分類方面的缺陷,融合了深度學習進行特征學習,發(fā)現(xiàn)基于深度學習的半監(jiān)督RAE方法分類正確率為85.10%,相比于傳統(tǒng)SVM方法,正確率提升了3.2%。張麗瑤在文獻[7]中考慮到數(shù)據(jù)稀疏問題是傳統(tǒng)文本分析方法的一大限制,利用深度學習CNN網(wǎng)絡(luò)分析微博數(shù)據(jù)的觀點信息。于政在文獻[8]中注意到one-hot等稀疏文本表示方式的缺陷,研究了各種詞向量學習方法,并提出了一種新的詞向量模型,并通過實驗驗證,證明了詞向量學習技術(shù)的有效性。魏琪康在文獻[9]中針對傳統(tǒng)情感分析只能將文本劃分為正負兩類的信息缺陷,立足于研究文本立場,使用預(yù)訓(xùn)練的詞嵌入,研究基于CNN的文本立場分析方法,并實驗驗證了方法有效性。余麗在文獻[10]中以文獻為研究對象,提出了一種定位前沿研究方向的技術(shù)手段,并主要使用了深度學習方法進行相關(guān)研究。在國外研究方面,Moraes等[11]對支持向量機(SupportVectorMachines,SVM)和人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralnetwork,ANN)用于文檔級情感分類進行了實證比較,結(jié)果表明,在大多數(shù)情況下,人工神經(jīng)網(wǎng)絡(luò)產(chǎn)生的結(jié)果與支持向量機具有競爭性。Johnson和Zhang[12]提出了一種名為BoW-CNN的CNN變種,它在卷積層中采用詞袋轉(zhuǎn)換。他們還設(shè)計了一個新的模型,叫做Seq-CNN,它通過連接多個單詞的一個熱點向量來保存單詞的順序信息。Vo和Zhang[13]研究了推特情感分類,利用了豐富的自動特征,這些特征是通過無監(jiān)督學習方法獲得的附加特征。研究表明,多重嵌入、多重池函數(shù)和情感詞匯可以提供豐富的特征信息來源,有助于實現(xiàn)性能提升。Zhang等人[14]利用神經(jīng)網(wǎng)絡(luò)對CRF模型進行了擴展,實現(xiàn)了面向情感的聯(lián)合提取。該方法將CRF中的離散特征替換為連續(xù)詞嵌入,并在輸入輸出節(jié)點之間增加神經(jīng)層。Felbo等[15]人使用社交媒體上出現(xiàn)的數(shù)百萬個表情符號對神經(jīng)模型進行預(yù)訓(xùn)練,以便更好地表達情感環(huán)境。Bertero等人[16]描述了一種用于在交互式對話系統(tǒng)的聲音數(shù)據(jù)中進行情感和情感識別的CNN模型。LinGui等人[17]注意到大多數(shù)對產(chǎn)品評論情感分類的研究沒有考慮在評論文本中出現(xiàn)的單詞、評論作者和評論所關(guān)聯(lián)的產(chǎn)品之間微妙的相互作用,利用異構(gòu)網(wǎng)絡(luò)建模產(chǎn)品評論中的共享極性,并學習用戶、他們評論的產(chǎn)品和他們使用詞的表示,文中所提方法在多種數(shù)據(jù)集上達到了最先進的性能。TianshiWang等在文獻[18]提出了一種結(jié)合動態(tài)語義表示模型和深度神經(jīng)網(wǎng)絡(luò)的多標簽文本分類方法,實驗結(jié)果表明,該方法優(yōu)于現(xiàn)有方法。GuangxuShan等在文獻[19]提出了一種新的增量學習策略,在不同數(shù)據(jù)集上的實驗表明,包括四個部分:學生模型、強化學習(RL)模塊、教師模型和鑒別器模型,該方法在文本分類方面優(yōu)于許多傳統(tǒng)的One-Time方法,減少了近80%的訓(xùn)練時間。JasmirJASMIR等人[20]對公共數(shù)據(jù)集的癌癥臨床文本進行分類,比較了傳統(tǒng)機器學習與深度神經(jīng)網(wǎng)絡(luò)的分類效率,結(jié)果表明,隨機森林方法的準確率最高,為90.5%,多層感知機方法的準確率最低。SungheePark等人[21]使用深度學習方法提出了一個性別檢測模型,實驗發(fā)現(xiàn),傳統(tǒng)機器學習算法那對女性類別的誤分類率較高,而深度學習算法可以克服這一缺點,準確率超過90%。鏈接用戶生成內(nèi)容和電子商務(wù)數(shù)據(jù)的典型研究文獻有[22]。論文作者專注于將用戶生成內(nèi)容鏈接到其他相關(guān)網(wǎng)站。特別是,研究統(tǒng)一語言的不同用法之間的聯(lián)系問題,如口語和正式語言,或者消費者語言和賣方語言之間的聯(lián)系。其使用的數(shù)據(jù)集為Amazon的產(chǎn)品描述(賣方語言)和產(chǎn)品評論(消費者語言)作為訓(xùn)練集。對比了多種概率主題模型如LDA、BiLDA、MiLDA(作者提出的模型)對于消除兩種不同類型文本語義差異的作用。并在不同類型語言的平臺之間鏈接內(nèi)容,Pinterest(用戶生成內(nèi)容)鏈接至電子商務(wù)數(shù)據(jù),然后評估模型的效果。該研究發(fā)現(xiàn),MiLDA相比于LDA、BiLDA可以更好地學習不同類型文本之間語義的聯(lián)系。本文的與上述研究的最大不同在于本文使用深度學習方法學習不同類型文本之間的語義關(guān)系,主要利用了深度學習不同于傳統(tǒng)的機器學習方法,神經(jīng)網(wǎng)絡(luò)可以自主學習到多種特征或表示,無需人工指定特征,這對于異構(gòu)文本數(shù)據(jù)源的分類效果可能表現(xiàn)優(yōu)秀。研究內(nèi)容本文在真實數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,模型的訓(xùn)練數(shù)據(jù)為商品評論,模型訓(xùn)練目標為正確對商品標簽分類,本質(zhì)為一個多分類問題。然后使用訓(xùn)練好的模型對另一個平臺上的用戶言論數(shù)據(jù)進行分類,本研究使用的是微博平臺上的用戶文本數(shù)據(jù),以檢驗各種深度學習模型如前饋神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等的分類效果。下面簡略介紹一下本研究主要進行的幾項研究內(nèi)容:文本數(shù)據(jù)的預(yù)處理。包括文本去重、中文分詞、數(shù)據(jù)格式化等內(nèi)容。深度學習文本分類比較研究。針對兩種深度學習模型配置:one-hot+前饋神經(jīng)網(wǎng)絡(luò)模型、詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在異構(gòu)數(shù)據(jù)源上評價兩者的分類效果。
相關(guān)理論基礎(chǔ)深度前饋網(wǎng)絡(luò)深度前饋網(wǎng)絡(luò)(deepfeedforwardnetwork),也叫做多層感知機(multilayerperception)或者前饋神經(jīng)網(wǎng)絡(luò)(feedforwardneuralnetword),是一個典型的深度學習模型。前饋網(wǎng)絡(luò)的目標是近似某個函數(shù)f*,例如,對于分類器,y=f*(x)將輸入映射到一個類別y。前饋神經(jīng)網(wǎng)絡(luò)定義了一個映射y=f(x;θ),并且學習參數(shù)θ的值,使它能夠得到最佳的函數(shù)近似[23]。這種模型被稱為前向(feedforward)的,是因為信息流過x的函數(shù),流經(jīng)用于定義f的中間計算過程,最終到達輸出y。在模型的輸出和模型本身之間沒有反饋連接。前饋神經(jīng)網(wǎng)絡(luò)之所以被稱為網(wǎng)絡(luò),是因為它們通常用許多不同函數(shù)復(fù)合在一起來表示。該模型與一個有向無環(huán)圖相關(guān)聯(lián),而圖描述了函數(shù)是如何復(fù)合在一起的。考慮四個函數(shù)f(1),f(2),f(3)和f(4)連接在一個鏈上以形成f(x)=f(4)(f(3)(f(2)(f(1)(x))))。在這種情況下,f(1)被稱為網(wǎng)絡(luò)的第一層,f(2)被稱為網(wǎng)絡(luò)的第二層,以此類推。鏈的全長稱為模型的深度。前饋網(wǎng)絡(luò)的最后一層被稱為輸出層,此處即第四層為輸出層。訓(xùn)練樣本直接指明了輸出層在每一點x上必須做什么,它必須產(chǎn)生一個接近y的值,學習算法必須決定如何使用這些層來產(chǎn)生想要的輸出,也即如何使用這些層來最好地實現(xiàn)f*的近似。前饋神經(jīng)網(wǎng)絡(luò)可以克服線性模型的局限性。線性模型如邏輯回歸、線性回歸,它們的能力被局限在線性函數(shù)里,無法理解任何兩個輸入變量間的相互作用。訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)至少需要做和線性模型同樣多的設(shè)計決策:選擇一個優(yōu)化模型、代價函數(shù)以及輸出單元的形式。除此之外,還需要選擇用于計算隱藏層值的激活函數(shù)(activationfunction);必須設(shè)計網(wǎng)絡(luò)的結(jié)構(gòu),包括網(wǎng)絡(luò)應(yīng)該包含多少層、這些層應(yīng)該如何連接,以及每一層包含多少單元。關(guān)于激活函數(shù)和損失函數(shù)的選擇存在一些經(jīng)驗法則[24]。二分類、多分類、回歸問題在最后一層使用的激活函數(shù)不同。例如,二類分類問題常采用sigmoid激活函數(shù),損失函數(shù)常使用binary_crossentropy即交叉熵;多分類單標簽問題常采用softmax激活函數(shù),使用categorical_crossentropy分類交叉熵作為損失函數(shù);而回歸問題最后一層可以不使用激活函數(shù),損失函數(shù)一般采用MSE均方誤差。長短期記憶LSTM當前饋神經(jīng)網(wǎng)絡(luò)被擴展成包含反饋連接時,被稱為循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork)或RNN是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它處理序列的方式是,遍歷所有的序列元素,并保存一個狀態(tài)(state),其中包含與已查看內(nèi)容相關(guān)的信息。這樣便可以在一定程度上利用到序列整體的信息。常用的循環(huán)神經(jīng)網(wǎng)絡(luò)層有LSTM層,其背后的長短期記憶(LSTM,longshort-termmemory)算法由Hochreiter和Schmidhuber在1997年開發(fā),是二人研究梯度消失問題的重要成果。LSTM層是SimpleRNN層的一種變體,它增加了一種攜帶信息跨越多個時間步的方法,可以保存信息以便后面使用,從而防止較早期的信號在處理過程中逐漸消失。與標準的前饋神經(jīng)網(wǎng)絡(luò)不同,LSTM有反饋連接。它不僅可以處理單個數(shù)據(jù)點(如圖像),而且可以處理整個數(shù)據(jù)序列(如語音或視頻)。例如,LSTM適用于未分割的連續(xù)的手寫識別、語音識別、網(wǎng)絡(luò)流量或入侵檢測系統(tǒng)中的異常檢測等任務(wù)。一個常用的LSTM單元由單元格、輸入門、輸出門和遺忘門組成[25]。單元格在任意時間間隔內(nèi)記憶值,三個門調(diào)節(jié)進出單元格的信息流。LSTM網(wǎng)絡(luò)非常適合基于時間序列數(shù)據(jù)進行分類、處理和預(yù)測,因為時間序列中重要事件之間可能存在未知持續(xù)時間的滯后。LSTM是用來處理訓(xùn)練傳統(tǒng)RNN時可能遇到的消失梯度問題。LSTM相對于RNN、隱馬爾可夫模型和其他序列學習方法的一個優(yōu)點是對間隙長度相對不敏感。使用LSTM處理文本這樣的序列時,相比于前饋神經(jīng)網(wǎng)絡(luò),可以更好地聯(lián)系上下文,更準確地捕捉上下文中隱含的語義關(guān)系,對長文本、短文本的分類準確性均較好。one-hot編碼與詞嵌入自然語言處理的研究和應(yīng)用中,常常使用one-hot編碼,若有個字典或字庫里有N個單字,則每個單字可以被一個N維的one-hot向量代表。這樣的編碼方式保存了文本中的所有的詞匯,但是丟棄了文本中詞匯之間的語義關(guān)聯(lián)。以詞匯序列及對應(yīng)的數(shù)字序列為例:詞匯序列:['產(chǎn)品','非常','拿到','非常','敬業(yè)','外觀','非常','好看']數(shù)字序列:[23,6,200,6,2743,139,6,48]若已經(jīng)建立了10000詞匯量的詞匯表,則該詞匯序列對應(yīng)的one-hot編碼是一個10000*1的向量,并且在向量的第23、6、200、2743、139、48個位置處為1,其他元素均默認為0.詞嵌入是將單詞與向量相關(guān)聯(lián)的一種常用的強大方法。One-hot編碼得到的向量是二進制的、稀疏的(絕大部分元素都是0)、維度很高(維度大小等于詞表中單詞個數(shù)),而詞嵌入是低維的浮點數(shù)向量(即密集向量)。與one-hot編碼得到的詞向量不同,詞嵌入是從數(shù)據(jù)中學習得到的。常見的詞向量維度是256、512或1024.與此相對,one-hot編碼的詞向量維度通常為20000或更高。因此詞向量可以將更多信息塞入更低的維度中。獲取詞嵌入有兩種方法:在完成主任務(wù)的同時學習詞嵌入,本研究采用這種方法。在這種情況下一開始是隨機的詞向量,然后對這些詞向量進行學習,其學習方式與學習神經(jīng)網(wǎng)絡(luò)的權(quán)重相同。在不同于待解決問題的機器學習任務(wù)上預(yù)計算好詞嵌入,然后將其加載到模型中。這些詞嵌入叫做預(yù)訓(xùn)練詞嵌入(pretrainedwordembedding)。
分類框架設(shè)計及實現(xiàn)本實驗深度學習文本分類的一般流程分成三個主要步驟:文本預(yù)處理、訓(xùn)練分類器、在異構(gòu)數(shù)據(jù)源上測試分類器效果。具體如圖3.1-3.2所示。圖STYLEREF1\s3.SEQ圖\*ARABIC\s11文本預(yù)處理流程圖圖STYLEREF1\s3.SEQ圖\*ARABIC\s12深度學習分類模型圖實驗數(shù)據(jù)、結(jié)果及分析實驗準備實驗環(huán)境CPU:Intel(R)Core(TM)i7-8550UCPU@1.80GHz2.00GHz四核內(nèi)存:8GB硬盤:256GB操作系統(tǒng):MicrosoftWindows1064位軟件平臺:JupyterNotebook,Keras2.3.1,TensorFlow開發(fā)語言:Python3.7Keras是一個模型級的庫,為開發(fā)深度學習模型提供了高層次的構(gòu)建模塊。它不處理張量操作、求微分等低層次的運算。相反,它依賴于一個專門的、高度優(yōu)化的張量庫來完成這些運算,這個張量庫就是Keras的后端引擎(backendengine)。直到2.3版本,Keras支持多個后端,包括TensorFlow,MicrosoftCognitiveToolkit,Theano和PlaidML。從2.4版本開始,只支持TensorFlow。本實驗是基于TensorFlow作為后端實現(xiàn)的。實驗數(shù)據(jù)收集本實驗使用的數(shù)據(jù)源分為兩種:一種為購物平臺上的商品評論及對應(yīng)的商品名稱,另一種為社交平臺上的用戶關(guān)于特定商品發(fā)表的言論。選用的商品類別有口紅、手機、褲子、洗發(fā)水、平板。商品評論的數(shù)據(jù)來源為互聯(lián)網(wǎng),主要是“和鯨社區(qū)”上的一些用戶發(fā)布的數(shù)據(jù)。和鯨社區(qū)是中國知名的第三方數(shù)據(jù)科學社區(qū)之一,也是較早進入大數(shù)據(jù)算法比賽領(lǐng)域的平臺,擁有10萬+注冊數(shù)據(jù)科學家用戶,輻射超過30萬數(shù)據(jù)人才群體。針對社交平臺上的用戶言論數(shù)據(jù),本實驗選擇了在微博平臺上使用Python程序爬取對應(yīng)的用戶評論數(shù)據(jù),微博是指一種基于用戶關(guān)系信息分享、傳播以及獲取的通過關(guān)注機制分享簡短實時信息的廣播式的社交媒體、網(wǎng)絡(luò)平臺,在中國用戶人數(shù)眾多,是十分典型的SNS平臺。爬取方式為使用對應(yīng)的關(guān)鍵詞如“口紅”在微博搜索框中搜索得到檢索結(jié)果,然后爬取用戶發(fā)布的言論數(shù)據(jù),在使用該數(shù)據(jù)集作為輸入進行文本分類實驗時,將去除其中的類別關(guān)鍵詞。各類的數(shù)據(jù)量見表3.1。表STYLEREF1\s4.SEQ表\*ARABIC\s11數(shù)據(jù)收集統(tǒng)計表品類商品評論數(shù)據(jù)量微博用戶言論數(shù)據(jù)量口紅2000791手機2323718褲子10000715洗發(fā)水10000796平板10000803口紅和手機的示例用戶評論及微博用戶言論如下表3.2.表STYLEREF1\s4.SEQ表\*ARABIC\s12文本示例品類評論示例微博文本示例口紅迪奧999啞光版\n質(zhì)地:啞光絲絨質(zhì)感是最經(jīng)典也很顯氣質(zhì)的一款\n持久度:中上等最重要的是不容易沾杯\n色度:提亮氣色又顯白的大紅色迪奧經(jīng)典款基本都是人手一只了:#小仙女的嘴#花西子陶瓷口紅桃夭系列的試色來啦!這系列是順滑的微霧面,膚感很好,不會拔干,涂得時候可以試著微微暈染唇瓣邊緣,真的就和桃花瓣一樣好看.#花西子口紅家族#手機手機收到。外觀設(shè)計很好!美觀大方。我喜歡!一直使用華為手機。從榮耀七,榮耀八,榮耀九。反正一出新機就想換。榮耀十就想換。:處心積慮經(jīng)營的周末回籠覺計劃被我媽層出不窮的電話轟炸毀了大周末人姑娘或許也在睡懶覺沒有一段佳話的手機短信轟炸進度是被催出來的您曉得伐?實驗數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理及建模工作都使用Python完成。由于深度學習模型的輸入是張量形式,因此需要使用合適的辦法將文本轉(zhuǎn)化為數(shù)字序列,同時依然能夠保持文本中的所有信息。本研究文本數(shù)據(jù)格式化的核心思想是:去除文本中的非中文字符后,對中文文本分詞為詞匯序列,針對所有出現(xiàn)的詞匯建立“詞匯表”并索引,然后使用索引序列代替對應(yīng)的中文詞匯序列。預(yù)處理步驟如下:刪除原始數(shù)據(jù)源的無用文本。這包括兩個部分,一是對原始文本去重;二是刪除文本長度小于10的文本,這主要是考慮到中文文本長度小于10的文本無法提供多少有效信息,這類文本的針對性較弱,因此本實驗把它們認定為無用文本。經(jīng)過這一步的處理后得到的數(shù)據(jù)量如下:表STYLEREF1\s4.SEQ表\*ARABIC\s13有效文本數(shù)量統(tǒng)計品類商品評論數(shù)據(jù)量微博用戶言論數(shù)據(jù)量口紅1900694手機2948496褲子9308601洗發(fā)水9979602平板9302518將文本去除中文停用詞后,轉(zhuǎn)化為詞匯序列。使用中文jieba分詞,并去除其中的停用詞,此時文本被轉(zhuǎn)化為詞匯序列。針對從微博獲取的數(shù)據(jù),還需預(yù)先去除相應(yīng)的查詢關(guān)鍵詞,這樣才可以更好地評判分類器的效果。以口紅、手機為例,統(tǒng)計得到的部分高頻詞詞頻結(jié)果及詞云圖如下。表STYLEREF1\s4.SEQ表\*ARABIC\s14口紅數(shù)據(jù)集詞頻統(tǒng)計品類評論詞頻微博文本詞頻口紅產(chǎn)品顏色560超話37產(chǎn)品質(zhì)感544眼影8滋潤效果538腮紅8持久效果518元7適合膚色479口紅試色6其他特色343美妝6圖STYLEREF1\s4.SEQ圖\*ARABIC\s11口紅評論(左)微博文本(右)第三步,將詞匯序列數(shù)據(jù)格式化為數(shù)字序列。統(tǒng)計第二步得到的所有詞匯序列中詞匯數(shù)目及其對應(yīng)詞頻,商品用戶評論中詞匯數(shù)目總共達到了24496的詞匯量。這么大的詞匯表在模型訓(xùn)練時時間較長,因此選用詞頻前10000的詞匯量作為考慮的對象,忽略其他的詞匯。建立映射關(guān)系,將詞匯序列轉(zhuǎn)化為數(shù)字序列。示例如下:詞匯序列:['產(chǎn)品','非常','拿到','非常','敬業(yè)','外觀','非常','好看']數(shù)字序列:[23,6,200,6,2743,139,6,48]文本分類評價方法本實驗需要將多個類別的商品評論或微博文本分類區(qū)別開來。因為有多個類別且限定每個文本僅可以劃分到一個類別,所以是單標簽、多分類問題。對于平衡分類問題,即每個類別的可能性相同,精度和接受者操作特征曲線下面積(areaunderthereceiveroperatingcharacteristiccurve,ROCAUC)是常用的指標。對于類別不平衡的問題,常使用準確率和召回率、或者是準確率和召回率的綜合指標F1score。本實驗即涉及不平衡類別分類,也涉及到平衡類別分類。對于平衡分類問題,將主要關(guān)注其分類精度;對于不平衡類別分類,將主要關(guān)注其準確率和召回率。實驗設(shè)計本實驗主要為兩種深度學習模型配置的對比:one-hot編碼+前饋神經(jīng)網(wǎng)絡(luò)、詞嵌入+LSTM。然后應(yīng)用這兩種模型配置在平衡數(shù)據(jù)集和非平衡數(shù)據(jù)集環(huán)境下分別進行實驗。下面簡要介紹兩種模型配置:One-hot編碼+前饋神經(jīng)網(wǎng)絡(luò)。One-hot編碼相比于詞嵌入,對文本的表示更為簡單,主要可以捕捉到文本中的各種詞匯,但是無法保持文本中詞匯間的相互關(guān)系。前饋神經(jīng)網(wǎng)絡(luò)的使用十分普遍,在眾多問題上的分類效果優(yōu)秀。這樣的神經(jīng)網(wǎng)絡(luò)配置適合作為文本分類效果評估的基準。詞嵌入+LSTM。長短期記憶LSTM層相比于一般的前饋神經(jīng)網(wǎng)絡(luò)可以更好地記憶文本的前后信息,對于文本語義的學習更具備優(yōu)勢。兩種分類方法分類結(jié)果的對比。為了驗證詞嵌入+LSTM的深度學習模型配置是否優(yōu)于One-hot編碼+前饋神經(jīng)網(wǎng)絡(luò)的模型配置,本實驗將比較分類評價指標以給出相應(yīng)結(jié)論。實驗結(jié)果及分析訓(xùn)練集、驗證集、測試集的劃分:預(yù)處理過后得到的數(shù)據(jù)集X中含有5種類別,訓(xùn)練目標是正確劃分所有的類別,而為了確實地訓(xùn)練出在測試集上表現(xiàn)優(yōu)秀的模型,需要將數(shù)據(jù)集X劃分為訓(xùn)練集、驗證集和測試集。5種不同的類別在分成訓(xùn)練集和測試集時需考慮到對應(yīng)的比例應(yīng)該相同,本研究采用的配置是訓(xùn)練集共占80%、測試集占20%,劃分時考慮到了5種不同的類別的占比均為8:2,再從訓(xùn)練集中劃分出驗證集,最后得到的結(jié)果為訓(xùn)練集樣本數(shù)目為23749個、驗證集3000個、測試集6688個,每個數(shù)據(jù)集中各個類別的比例與原始數(shù)據(jù)集相同。模型配置:one-hot編碼+前饋神經(jīng)網(wǎng)絡(luò)模型配置及在訓(xùn)練集和驗證集上損失函數(shù)、準確率變化如下表4.5、圖4.2-4.3:表STYLEREF1\s4.SEQ表\*ARABIC\s15神經(jīng)網(wǎng)絡(luò)配置層數(shù)每層神經(jīng)元數(shù)(Dense表示密集層)激活函數(shù)第一層Dense(10)relu第二層Dense(10)relu第三層Dense(6)softmax圖STYLEREF1\s4.SEQ圖\*ARABIC\s12訓(xùn)練集和驗證集損失函數(shù)隨學習輪次變化圖STYLEREF1\s4.SEQ圖\*ARABIC\s13訓(xùn)練集和驗證集分類準確率隨學習輪次變化以上的模型配置是在比較了多種模型配置后得到的較為合適的結(jié)果。從圖4.3可知,在訓(xùn)練的14輪左右時,在驗證集上可以達到83.73%的精度。確定了應(yīng)該訓(xùn)練14輪次,則使用全部的訓(xùn)練集+驗證集的數(shù)據(jù)訓(xùn)練得到最終模型。在測試集上得到的準確率為84.09%??紤]到有5種不同類別的數(shù)據(jù),因此此處對不同類型數(shù)據(jù)的測試集的具體情況也進行了統(tǒng)計,包括分類為錯誤類別情況的數(shù)目。如下表4.6所示。從表可以發(fā)現(xiàn),褲子、洗發(fā)水、平板的分類準確率較高,而口紅、手機的分類準確率較低。這是不平衡數(shù)據(jù)集分類時十分容易出現(xiàn)的情況??诩t和手機品類的訓(xùn)練樣本較多地被劃分為褲子、洗發(fā)水和平板類別。手機品類中有占比175/590=29.66%被劃分為平板類別。主要原因是手機和平板同屬于數(shù)碼產(chǎn)品,而平板的數(shù)據(jù)量要遠遠多于手機,這樣的分類誤差率是較難避免的。可以認為,針對訓(xùn)練樣本多的品類,模型在測試集上的分類準確率是可觀的。得到訓(xùn)練的模型后,使用微博文本數(shù)據(jù)作為模型的輸入,得到了52.66%的分類精度,相比于模擬隨機情況下僅20.10%的分類準確率,本實驗初步得到的模型效果是隨機情況下分類效果的2.5倍以上。
表STYLEREF1\s4.SEQ表\*ARABIC\s16不平衡數(shù)據(jù)集分類結(jié)果真實類別預(yù)測類別分類器分類結(jié)果分類正確數(shù)準確率口紅12772770.7289230317045205310手機1200.610323663663160431051750褲子1300.913523031701170148105740洗發(fā)水11300.8657260359041728172851900平板1300.83442970351041570515521552模型配置:詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)層由于需要保持輸入的數(shù)據(jù)序列具有同樣的長度,經(jīng)過統(tǒng)計分析,所有的訓(xùn)練文本中長于100的序列僅277個,因此考慮在100個詞匯后截斷數(shù)據(jù)序列,對于不足100個詞匯的數(shù)據(jù)序列,使用0進行填充。使用LSTM層作為神經(jīng)網(wǎng)絡(luò)模型的中間層。神經(jīng)網(wǎng)絡(luò)框架的配置如下:表STYLEREF1\s4.SEQ表\*ARABIC\s17神經(jīng)網(wǎng)絡(luò)配置Embedding+LSTM層數(shù)每層神經(jīng)元數(shù)激活函數(shù)第一層Embedding嵌入層訓(xùn)練一個32維度的詞嵌入無第二層LSTM層,輸出維度為32無第三層輸出Dense層,6個神經(jīng)元softmax在訓(xùn)練和驗證集上訓(xùn)練準確率變化如下圖所示:\圖STYLEREF1\s4.SEQ圖\*ARABIC\s14Embedding+LSTM訓(xùn)練與驗證準確率可以注意到相比于不使用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)層,使用LSTM層作為中間層的模型在驗證集上有更好的準確率,在8輪訓(xùn)練時可以達到82.62%的準確率。使用上述配置,同時集合訓(xùn)練集和驗證集訓(xùn)練8輪得到最終模型。使用微博文本數(shù)據(jù)輸入模型中,得到的分類準確率為52.52%。相比于簡單使用前饋神經(jīng)網(wǎng)絡(luò)模型的52.66%的分類準確率變化不大。各類的分類準確率如下表4.9所示??梢宰⒁獾降氖茄澴雍拖窗l(fā)水的分類準確率均有提升,而口紅、手機、平板的分類準確率略有下降。表STYLEREF1\s4.SEQ表\*ARABIC\s18Embedding+LSTM準確率及其比較品類測試集數(shù)目正確分類數(shù)目準確率準確率(one-hot)口紅3802730.71840.7289手機5903490.59150.6103褲子186217360.93230.9135洗發(fā)水199618090.90630.8657平板186014450.77690.8344平衡數(shù)據(jù)集分類現(xiàn)在僅考慮對褲子、洗發(fā)水、平板三種類別進行分類,這三類的訓(xùn)練數(shù)據(jù)量在同一水平,可以用于實驗觀察模型在平衡數(shù)據(jù)集上的分類效果。One-hot+前饋神經(jīng)網(wǎng)絡(luò)配置:調(diào)整模型配置,訓(xùn)練模型,驗證集上驗證的最優(yōu)準確率為90.70%,這比上述5類分類的情況要高,如圖4.5所示。在測試集上的準確率也達到了89.21%,說明分類器的效果相當優(yōu)秀。使用該分類器分類微博文本數(shù)據(jù),得到的分類準確率為73.87%。與作為基準的隨機情況下的31.86%相比有明顯的提升。詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)配置:調(diào)整模型配置,訓(xùn)練模型,在驗證集上可以達到88.37%的準確率。在測試集上可以達到88.41%的準確率。而在微博文本數(shù)據(jù)上的準確率可以達到74.80%。相比于one-hot+前饋神經(jīng)網(wǎng)絡(luò)的配置,提升了大約一個百分點。在一定程度上可以說明詞嵌入+LSTM層的神經(jīng)網(wǎng)絡(luò)配置對于異構(gòu)數(shù)據(jù)源的分類問題有更好的表現(xiàn)。圖STYLEREF1\s4.SEQ圖\*ARABIC\s15平衡數(shù)據(jù)集分類:one-hot+前饋神經(jīng)網(wǎng)絡(luò)配置準確率變化圖STYLEREF1\s4.SEQ圖\*ARABIC\s16平衡數(shù)據(jù)集分類:詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)配置準確率變化分類結(jié)果對比兩種模型在異構(gòu)數(shù)據(jù)源上的泛化能力如下表4.9所示:表STYLEREF1\s4.SEQ表\*ARABIC\s19兩種模型配置在異構(gòu)數(shù)據(jù)源上的泛化能力對比模型配置不平衡數(shù)據(jù)集(5類)平衡數(shù)據(jù)集(3類)One-hot+前饋神經(jīng)網(wǎng)絡(luò)52.66%73.87%詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)52.55%74.80%綜合上述的實驗結(jié)果及表4.9。在不平衡數(shù)據(jù)集中,不同類別的泛化能力不同,對于數(shù)據(jù)量更多的類別,詞嵌入+LSTM的模型配置傾向于在異構(gòu)數(shù)據(jù)源上的泛化能力更強;在平衡數(shù)據(jù)集中,詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的配置也略優(yōu)于One-hot+前饋神經(jīng)網(wǎng)絡(luò)的配置。但是無論是平衡數(shù)據(jù)集還是非平衡數(shù)據(jù)集,兩種模型配置的差距并不明顯。
研究結(jié)論與展望本文總結(jié)在Web2.0時代人們可以發(fā)表個人言論的互聯(lián)網(wǎng)平臺不僅限于一種,但是在關(guān)于各種商品方面的用戶言論之間存在著一定的內(nèi)在語義關(guān)系,這是本研究的基本假設(shè)。深度學習模型相比于傳統(tǒng)的機器學習模型,自身便具備學習數(shù)據(jù)特征的能力,無需分析者自行進行特征工程,如針對文本數(shù)據(jù)進行各種復(fù)雜的預(yù)處理。為了利用深度學習的這種優(yōu)勢,本文使用用戶在購物平臺上的商品評論作為訓(xùn)練數(shù)據(jù)訓(xùn)練商品類別分類器,然后試驗該分類器在微博用戶言論這樣的不同數(shù)據(jù)源上分類效果。本實驗收集到5種類別的商品評論數(shù)據(jù)及相關(guān)微博用戶言論數(shù)據(jù)。在經(jīng)過一定的預(yù)處理后,將文本數(shù)據(jù)格式化為適合輸入深度學習模型的張量形式。在準備好數(shù)據(jù)的前提下,本實驗對兩種典型的深度學習模型配置進行實證研究,這兩種模型配置分別為one-hot+前饋神經(jīng)網(wǎng)絡(luò)、詞嵌入+LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)。實驗結(jié)果表明,在平衡數(shù)據(jù)集且數(shù)據(jù)量更多的情況下,詞嵌入+LSTM模型配置在異構(gòu)數(shù)據(jù)源上的分類準確率達到74.80%,one-hot+前饋神經(jīng)網(wǎng)絡(luò)模型配置在異構(gòu)數(shù)據(jù)源上的分類準確率達到73.87%,前者略優(yōu)。不足之處與展望本實驗的結(jié)果表明,在對異構(gòu)數(shù)據(jù)源的分類方面,詞嵌入+LSTM模型配置在一定情況下優(yōu)于one-hot+前饋神經(jīng)網(wǎng)絡(luò)模型配置。但對于更廣泛的文本分類層面,本實驗的結(jié)果難以支撐這樣的結(jié)論,這主要限于本實驗的一些局限和不足之處。針對這些不足之處,研究者可以予以改進:實驗數(shù)據(jù)的選擇和數(shù)據(jù)量。限于數(shù)據(jù)搜集難度及模型訓(xùn)練時間限制,本實驗僅選用了5類商品進行分類研究,其訓(xùn)練樣本量均在10000以下,對大多數(shù)不同商品的代表性能力不足。文本預(yù)處理的局限性。本實驗采用的是適用性廣的中文jieba分詞作為文本分詞工具,但該分詞工具對于用戶言論分類并不是最合適的,針對用戶言論的大數(shù)據(jù)集訓(xùn)練得到的分詞工具會更加適合這樣的分類目標。另外,使用經(jīng)典的LDA模型對異構(gòu)數(shù)據(jù)源進行預(yù)處理可能比簡單地詞匯級別的預(yù)處理效果更佳。存在更適合的深度神經(jīng)網(wǎng)絡(luò)模型配置。深度學習模型的使用及其參數(shù)調(diào)整需要更多的實驗經(jīng)驗支撐,限于作者本人接觸深度學習的時間有限,無法將深度學習模型的能力發(fā)揮到更高的水平。
參考文獻宋英華,呂龍,劉丹.基于組合深度學習模型的突發(fā)事件新聞識別與分類研究[J].情報學報,2021,40(02):145–151.鄭飛,韋德壕,黃勝.基于LDA和深度學習的文本分類方法[J].計算機工程與設(shè)計,2020,41(08):2184–2189.吳漢瑜,嚴江,黃少濱,等.用于文本分類的CNN_BiLSTM_Attention混合模型[J].計算機科學,2020(S2vo47):23-27+34.汪少敏,楊迪,任華.基于深度學習的文本分類系統(tǒng)關(guān)鍵技術(shù)研究與模型驗證[J].電信科學,2018,34(12):117-124.劉婷婷,朱文東,and劉廣一."基于深度學習的文本分類研究進展."電力信息與通信技術(shù)16.3(2018):1-7.朱少杰.基于深度學習的文本情感分類研究[D].哈爾濱工業(yè)大學,2014.張麗瑤.基于深度學習的中文微博觀點分析[D].福州大學,2017.于政.基于深度學習的文本向量化研究與應(yīng)用[D].華東師范大學,2016.魏琪康.基于深度學習的社交媒體文本立場分析研究[D].哈爾濱工業(yè)大學,2017.余麗,錢力,付常雷,等.基于深度學習的文本中細粒度知識元抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(01):38–45.MORAESR,VALIATIJF,GAVI?ONETOWP.Document-levelsentimentclassification:AnempiricalcomparisonbetweenSVMandANN[J].ExpertSystemswithApplications,2013,40(2):621–633.JOHNSONR,ZHANGT.EffectiveUseofWordOrderforTextCategorizationwithConvolutionalNeuralNetworks[J].arXiv:1412.1058[cs,stat],2015.VOD-T,ZHANGY.Target-DependentTwitterSentimentClassificationwithRichAutomaticFeatures[J].:7.ZhangM,ZhangY,VoD-T.Neuralnetworksforopendomaintargetedsentiment.InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2015),2015.FELBOB,MISLOVEA,S?GAARDA,等.Usingmillionsofemojioccurrencestolearnany-domainrepresentationsfordetectingsentiment,emotionandsarcasm[J].Proceedingsofthe2017ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2017:1615–1625.BERTERO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學第三學年(化學)物理化學實驗試題及答案
- 2025年大學大三(高級財務(wù)會計)合并報表實踐測試試題及答案
- AI參考模版制作技術(shù)教程
- 當前醫(yī)患關(guān)系現(xiàn)狀論文
- 2025四川綿陽市鹽亭發(fā)展投資集團有限公司招聘職能部門及所屬子公司人員7人備考題庫及完整答案詳解
- 材料考研就業(yè)前景解讀
- 2026江蘇省人民醫(yī)院臨床醫(yī)學研究院(I期研究中心)派遣制人員招聘1人備考題庫及答案詳解參考
- 2026廣東龍門產(chǎn)業(yè)投資集團有限公司招聘職工3人備考題庫及參考答案詳解一套
- 2026內(nèi)蒙古錫林郭勒盟蘇尼特右旗應(yīng)急管理局招聘2人備考題庫參考答案詳解
- 2026四川成都市成華區(qū)市場監(jiān)督管理局招聘編外人員1人備考題庫及答案詳解(奪冠系列)
- 規(guī)范外賣企業(yè)管理制度
- 2026年公共部門人力資源管理試題含答案
- 2026年中國數(shù)聯(lián)物流備考題庫有限公司招聘備考題庫有答案詳解
- 黑龍江省哈爾濱市師范大學附中2026屆數(shù)學高三第一學期期末質(zhì)量檢測模擬試題含解析
- DB32/T+5311-2025+港口與道路工程+固化土施工技術(shù)規(guī)范
- DB31T+1661-2025公共區(qū)域電子屏播控安全管理要求
- 醫(yī)療聯(lián)合體兒童保健服務(wù)模式創(chuàng)新
- 2026年書記員考試題庫附答案
- 中國高尿酸血癥與痛風診療指南(2024更新版)課件
- 2025至2030中國專用車行業(yè)發(fā)展分析及投資前景與戰(zhàn)略規(guī)劃報告
- DB13∕T 6066.3-2025 國資數(shù)智化 第3部分:數(shù)據(jù)治理規(guī)范
評論
0/150
提交評論