版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
詞向量與關(guān)鍵詞提取Python自然語言處理第五章CONTENT目錄
01詞向量算法02關(guān)鍵詞提取技術(shù)概述03TF-IDF算法04TextRank算法05LSA/LSI/LDA算法06提取文本關(guān)鍵詞章節(jié)回顧01OPTION02OPTIONLSA/LSI算法LDA算法實(shí)例:提取文本關(guān)鍵詞實(shí)驗(yàn)內(nèi)容:運(yùn)用這些算法從一個(gè)數(shù)據(jù)集中提取關(guān)鍵詞實(shí)驗(yàn)介紹:本節(jié)代碼主要應(yīng)用了Jieba以及Gensim。應(yīng)用了Jieba工具中analyse模塊封裝的TextRank算法;Gensim是一個(gè)開源的第三方Python工具包,用于原始的非結(jié)構(gòu)化的文本中,進(jìn)行無監(jiān)督學(xué)習(xí)到文本隱層的主題向量表達(dá),支持TF-IDF、LSA、LDA和word2vec的主題模型算法,提供信息檢索、相似度計(jì)算等API接口方便使用。在本節(jié)中主要調(diào)用Gensim中LSI、LDA模型的接口,我們?cè)诿钚兄休斎搿皃ipinstallgenism”命令來安裝Gensim。提取文本關(guān)鍵詞引入相關(guān)庫:
由于Python3中sorted函數(shù)去掉了cmp參數(shù),所以實(shí)現(xiàn)cmp功能用cmp_to_key函數(shù)。提取文本關(guān)鍵詞關(guān)鍵詞提取算法步驟:加載文檔數(shù)據(jù)集。除TextRank算法以外,其余兩類算法都要在一個(gè)已知的數(shù)據(jù)集中才可以提取關(guān)鍵詞。加載停用詞表。一個(gè)文檔中除了能表達(dá)文章信息的實(shí)詞以外,還有很多“的”、“地”等虛詞和一些無意義的詞,這些詞不是要提取的關(guān)鍵詞且阻礙算法的運(yùn)行,稱之為干擾詞。所以,在算法運(yùn)算前,需要去除停用詞,因此在程序中首先要加載一個(gè)受控的停用詞表。對(duì)數(shù)據(jù)集進(jìn)行分詞,參照停用詞表進(jìn)行過濾干擾詞。依據(jù)數(shù)據(jù)集訓(xùn)練算法。特別地,TextRank不需要訓(xùn)練就能用一個(gè)文檔進(jìn)行關(guān)鍵詞提取。提取文本關(guān)鍵詞停用詞表的加載:LSA/LSI/LDA算法對(duì)數(shù)據(jù)集進(jìn)行分詞:
LSA/LSI/LDA算法依據(jù)分詞結(jié)果來過濾干擾詞:LSA/LSI/LDA算法對(duì)數(shù)據(jù)集中的數(shù)據(jù)來實(shí)行分詞與過濾干擾詞:加載數(shù)據(jù)集LSA/LSI/LDA算法對(duì)數(shù)據(jù)集中的數(shù)據(jù)來實(shí)行分詞與過濾干擾詞:LSA/LSI/LDA算法定義主題模型實(shí)現(xiàn)方法中實(shí)現(xiàn)了LSI、LDA算法,依據(jù)傳入?yún)?shù)model來選擇。LSA/LSI/LDA算法最終進(jìn)行算法測(cè)試:LSA/LSI/LDA算法不進(jìn)行詞性過濾得出的結(jié)果:進(jìn)行詞性過濾得出的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 前端開發(fā)技術(shù)規(guī)范解析
- 2026年電力工程師電力安全知識(shí)與技能考核試題及答案
- 2026年資產(chǎn)評(píng)估實(shí)務(wù)操作題庫及答案詳解
- 2026年醫(yī)學(xué)專業(yè)進(jìn)階測(cè)試疾病診斷判斷力考驗(yàn)
- 2026年環(huán)境科學(xué)研究題目氣候變化與環(huán)境影響評(píng)估
- 2026年高分子材料測(cè)試技術(shù)人員資格測(cè)試?yán)碚撆c試題庫
- 2026年軟件測(cè)試工程師預(yù)測(cè)模擬題集
- 2026年C編程進(jìn)階試題與解答詳解
- 2026年法律實(shí)務(wù)案例分析初級(jí)題目
- 2026年阿里巴巴校招筆試題目大全
- 2026云南昭通市搬遷安置局招聘公益性崗位人員3人備考題庫及答案詳解(考點(diǎn)梳理)
- 標(biāo)書財(cái)務(wù)制度
- 四川發(fā)展控股有限責(zé)任公司會(huì)計(jì)崗筆試題
- 2026中國電信四川公用信息產(chǎn)業(yè)有限責(zé)任公司社會(huì)成熟人才招聘?jìng)淇碱}庫及一套答案詳解
- 2025-2030心理健康行業(yè)市場(chǎng)發(fā)展分析及趨勢(shì)前景與投資戰(zhàn)略研究報(bào)告
- 技術(shù)副總年終總結(jié)
- 《馬年馬上有錢》少兒美術(shù)教育繪畫課件創(chuàng)意教程教案
- 天津市專升本高等數(shù)學(xué)歷年真題(2016-2025)
- 2025山西焦煤集團(tuán)所屬華晉焦煤井下操作技能崗?fù)艘圮娙苏衅?0人筆試參考題庫帶答案解析
- 兒童骨科主任論兒童骨科
- 三力測(cè)試題70歲以上老人換領(lǐng)駕照
評(píng)論
0/150
提交評(píng)論