自然語言及語音處理項(xiàng)目式教程 課件3.2.2-5訓(xùn)練W d2Vec模型_第1頁
自然語言及語音處理項(xiàng)目式教程 課件3.2.2-5訓(xùn)練W d2Vec模型_第2頁
自然語言及語音處理項(xiàng)目式教程 課件3.2.2-5訓(xùn)練W d2Vec模型_第3頁
自然語言及語音處理項(xiàng)目式教程 課件3.2.2-5訓(xùn)練W d2Vec模型_第4頁
自然語言及語音處理項(xiàng)目式教程 課件3.2.2-5訓(xùn)練W d2Vec模型_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目任務(wù)深入文本進(jìn)階處理Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實(shí)現(xiàn)情感分析Word2Vec詞向量的訓(xùn)練使用從某網(wǎng)站中爬取到的新聞數(shù)據(jù),包含的特征為新聞內(nèi)容和新聞?lì)悇e。新聞內(nèi)容新聞?lì)悇e昨天下午,廣州市政府常務(wù)會(huì)議審議通過《廣州市綜合交通發(fā)展第十三個(gè)五年規(guī)劃》。“十……旅游昨天開始進(jìn)入“黃金周”旅游昨天,微博博主“小5啊”發(fā)起了一個(gè)征集——教育昨日,省教育考試院發(fā)布了《關(guān)于廣東省2016年普通高等學(xué)校招生專業(yè)目錄更正及增補(bǔ)的通……教育最新消息:喜大普奔!國(guó)務(wù)院日前批復(fù)同意將惠州市列為國(guó)家歷史文化名城啦!繼廣州、潮州……旅游……Word2Vec詞向量的訓(xùn)練對(duì)Word2Vec模型進(jìn)行訓(xùn)練的基本流程。1讀取文本數(shù)據(jù)2對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理3使用Word2Vec模型輸出Word2Vec詞向量的訓(xùn)練使用到gensim.models中的Word2Vec函數(shù)訓(xùn)練詞向量。參數(shù)名稱參數(shù)說明sentences接收list,表示訓(xùn)練模型的文本數(shù)據(jù)。無默認(rèn)值sg接收int,表示訓(xùn)練算法的選擇,0表示使用CBOW算法,1表示使用Skip-Gram算法。默認(rèn)為0size接收int,表示詞向量的維度,較大的size值可以提高模型的準(zhǔn)確性,但也可能導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間和更多的內(nèi)存占用。默認(rèn)為100window接收int,表示上下文窗口大小,即在訓(xùn)練過程中,一個(gè)詞與其前后多少個(gè)詞共同出現(xiàn)的次數(shù)會(huì)被考慮,較大的窗口值可以捕捉到更遠(yuǎn)的詞匯關(guān)系。默認(rèn)為5min_count接收int,表示詞頻閾值,小于該值的單詞將被丟棄。默認(rèn)為5workers接收int,表示并行計(jì)算時(shí)的線程數(shù)。默認(rèn)為3Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實(shí)現(xiàn)情感分析論文文本相似度計(jì)算基于文本相似度計(jì)算的方法,用于比較兩篇中文論文之間的相似度。計(jì)算相似度04文本向量化03中文分詞02從PDF中提取文本01Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實(shí)現(xiàn)情感分析文本依存句法分析基本流程Word2Vec詞向量的訓(xùn)練論文文本相似度計(jì)算文本依存句法分析垃圾短信分類游客目的地聚類分析基于LSTM實(shí)現(xiàn)情感分析垃圾短信分類基本流程1數(shù)據(jù)預(yù)處理2特征工程3模型訓(xùn)練4模型評(píng)估數(shù)據(jù)預(yù)處理需要經(jīng)過加載停用詞表、加載數(shù)據(jù)集、中文分詞和去除停用詞的步驟。特征工程需要經(jīng)過初始化TF-IDF向量化器、對(duì)文本數(shù)據(jù)進(jìn)行向量化處理、獲取文本標(biāo)簽的步驟,從中提取出最能代表數(shù)據(jù)特征的信息。數(shù)據(jù)預(yù)處理、特征工程模型訓(xùn)練MultinomialNB函數(shù)的常用參數(shù)說明參數(shù)名稱參數(shù)說明alpha接收float,表示平滑參數(shù),用于避免概率為0的情況,通常取值在0~1之間。默認(rèn)為1.0fit_prior接收bool,表示是否學(xué)習(xí)類的先驗(yàn)概率。默認(rèn)為Trueclass_prior接收numpy數(shù)組,表示類的先驗(yàn)概率,若指定,則不根據(jù)數(shù)據(jù)自動(dòng)計(jì)算先驗(yàn)概率。默認(rèn)為None模型評(píng)估accuracy_score函數(shù)的常用參數(shù)說明參數(shù)名稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論