Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)課件 第6章 關(guān)鍵詞提取_第1頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)課件 第6章 關(guān)鍵詞提取_第2頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)課件 第6章 關(guān)鍵詞提取_第3頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)課件 第6章 關(guān)鍵詞提取_第4頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)課件 第6章 關(guān)鍵詞提取_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)鍵詞提取關(guān)鍵詞提取技術(shù)簡(jiǎn)介關(guān)鍵詞提取算法任務(wù):自動(dòng)提取文本關(guān)鍵詞關(guān)鍵詞提取簡(jiǎn)介關(guān)鍵詞就是能夠反映文本主題或內(nèi)容的詞語(yǔ)。關(guān)鍵詞這個(gè)概念隨著信息檢索學(xué)科的出現(xiàn)而被提出,中文關(guān)鍵詞是信息檢索學(xué)科在中文領(lǐng)域的直接成果。關(guān)鍵詞提取是從單個(gè)文本或一個(gè)語(yǔ)料庫(kù)中,根據(jù)核心詞語(yǔ)的統(tǒng)計(jì)和語(yǔ)義分析,選擇適當(dāng)?shù)?、能夠完整表達(dá)主題內(nèi)容的詞語(yǔ)的過(guò)程。在NLP中,關(guān)鍵詞作為中間產(chǎn)物,應(yīng)用非常廣泛,主要應(yīng)用領(lǐng)域有文本聚類、文本分類、機(jī)器翻譯、語(yǔ)音識(shí)別等。關(guān)鍵詞提取應(yīng)用廣泛,主要用戶可以分為人類用戶和機(jī)器用戶。在面向人類用戶的應(yīng)用中,要求所提取的關(guān)鍵詞具有很高的可讀性、信息性和簡(jiǎn)約性。關(guān)鍵詞提取的主要應(yīng)用領(lǐng)域有新聞閱讀、廣告推薦、歷史文化研究、論文索引等。關(guān)鍵詞提取技術(shù)簡(jiǎn)介關(guān)鍵詞提取算法任務(wù):自動(dòng)提取文本關(guān)鍵詞基于統(tǒng)計(jì)的關(guān)鍵詞提取關(guān)鍵詞提取算法主要分為基于統(tǒng)計(jì)的方法和基于語(yǔ)義的方法兩大類?;诮y(tǒng)計(jì)的方法主要通過(guò)分析文本中的統(tǒng)計(jì)特征來(lái)識(shí)別和提取關(guān)鍵詞。這類方法的核心思想是,文本中的關(guān)鍵信息往往可以通過(guò)詞的使用頻率和分布模式等統(tǒng)計(jì)屬性來(lái)反映?;诮y(tǒng)計(jì)的關(guān)鍵詞提取算法主要有TF-IDF算法和TextRank算法?;诮y(tǒng)計(jì)的方法1.TF-IDF算法

TF-IDF算法的主要思想是字詞的重要性隨著它在文檔中出現(xiàn)次數(shù)的增加而上升,并隨著它在語(yǔ)料庫(kù)中出現(xiàn)頻率的升高而下降。

計(jì)算TF-IDF的具體步驟及公式如下?;诮y(tǒng)計(jì)的方法1.TF-IDF算法假設(shè)文檔集共有2000篇文檔,包含“孩子們”“快樂(lè)”“都是”“他們”“大山”這幾個(gè)詞的文檔數(shù)分別為60、30、250、200、20,每個(gè)詞的TF值都為0.033,IDF值分別為1.516、1.810、0.901、0.998、1.979。根據(jù)TF-IDF算法的計(jì)算公式,將每個(gè)詞語(yǔ)的TF值和IDF值相乘,得到5個(gè)詞語(yǔ)的TF-IDF值分別為0.0500、0.0597、0.0297、0.0329、0.0653。因此,選取TF-IDF值相對(duì)較大的前3個(gè)關(guān)鍵詞,即“大山”“快樂(lè)”“孩子們”作為這篇文檔的關(guān)鍵詞?;诮y(tǒng)計(jì)的方法1.TF-IDF算法TF-IDF算法用于中文關(guān)鍵詞提取時(shí)的具體步驟如下。

文本預(yù)處理

中文分詞

統(tǒng)計(jì)詞頻

計(jì)算TF

計(jì)算IDF

計(jì)算TF-IDF

選擇關(guān)鍵詞

輸出結(jié)果基于統(tǒng)計(jì)的方法2.TextRank算法TextRank算法基于PageRank算法的思想,將文本中的句子或詞表示為圖中的節(jié)點(diǎn),通過(guò)節(jié)點(diǎn)之間的邊表示它們之間的關(guān)聯(lián)關(guān)系。然后利用圖的計(jì)算方法來(lái)確定每個(gè)節(jié)點(diǎn)的重要性,從而得到關(guān)鍵句或關(guān)鍵詞?;诮y(tǒng)計(jì)的方法2.TextRank算法使用TextRank算法提取中文關(guān)鍵詞的具體步驟如下。

分詞

詞性標(biāo)注和過(guò)濾

構(gòu)建圖

權(quán)重計(jì)算

關(guān)鍵詞選取基于語(yǔ)義的方法基于語(yǔ)義的方法是指通過(guò)考慮詞語(yǔ)之間的語(yǔ)義關(guān)系來(lái)進(jìn)行關(guān)鍵詞提取。這類方法嘗試從文本中抽取語(yǔ)義相對(duì)豐富且具有代表性的詞語(yǔ)作為關(guān)鍵詞,而不僅僅依賴于詞頻或其他統(tǒng)計(jì)信息。常見(jiàn)的基于語(yǔ)義的關(guān)鍵詞提取方法有主題模型方法、基于詞向量的方法和深度學(xué)習(xí)方法。主題模型是在大量文檔中發(fā)現(xiàn)潛在主題的一種統(tǒng)計(jì)模型。所有主題模型都基于每個(gè)文檔包含多個(gè)主題和每個(gè)主題包含多個(gè)詞這兩個(gè)基本假設(shè)。常見(jiàn)的主題模型主要有LSA、概率潛在語(yǔ)義分析(ProbabilisticLatentSemanticAnalysis,PLSA)、LDA,以及基于深度學(xué)習(xí)的lda2vec等。基于語(yǔ)義的方法LSA算法LDA算法基于語(yǔ)義的方法1.LSA算法LSA通過(guò)數(shù)學(xué)方法挖掘文本數(shù)據(jù)中的潛在語(yǔ)義關(guān)系,假設(shè)詞的使用模式反映深層語(yǔ)義結(jié)構(gòu),通過(guò)奇異值分解(SVD)分析詞-文檔矩陣來(lái)發(fā)現(xiàn)詞語(yǔ)和文檔之間的模式。使用LSA算法實(shí)現(xiàn)中文關(guān)鍵詞提取的具體步驟如下。文本預(yù)處理構(gòu)建詞-文檔矩陣應(yīng)用SVD降維處理提取關(guān)鍵詞基于語(yǔ)義的方法2.LDA算法LDA是應(yīng)用比較廣泛的一種主題模型,包含詞、主題和文檔3層結(jié)構(gòu)。LDA假定詞語(yǔ)之間沒(méi)有順序,所有的詞語(yǔ)都無(wú)序地放在一個(gè)袋子里,并且認(rèn)為一個(gè)文檔可以有多個(gè)主題,每個(gè)主題對(duì)應(yīng)不同的詞語(yǔ)。基于語(yǔ)義的方法2.LDA算法使用LDA算法實(shí)現(xiàn)中文關(guān)鍵詞提取的具體步驟如下。文本預(yù)處理構(gòu)建詞典和文檔-詞矩陣應(yīng)用LDA模型提取關(guān)鍵詞結(jié)果解釋關(guān)鍵詞提取技術(shù)簡(jiǎn)介關(guān)鍵詞提取算法任務(wù):自動(dòng)提取文本關(guān)鍵詞任務(wù):自動(dòng)提取文本關(guān)鍵詞關(guān)鍵詞提取流程主要包括數(shù)據(jù)預(yù)處理、算法實(shí)現(xiàn)和結(jié)果分析等步驟。在提取關(guān)鍵詞之前,需要先讀取文檔。文本預(yù)處理TF-IDF算法TextRank算法文本預(yù)處理文本預(yù)處理的步驟如下。加載停用詞文件對(duì)當(dāng)前文檔過(guò)濾停用詞對(duì)文檔集過(guò)濾停用詞自定義函數(shù)用于對(duì)文檔集進(jìn)行處理TF-IDF算法自定義名為tf_idf的函數(shù)實(shí)現(xiàn)TF-IDF算法的步驟如下。統(tǒng)計(jì)TF值統(tǒng)計(jì)IDF值計(jì)算TF-IDF值TextRank算法自定義名為TextRank的函數(shù)實(shí)現(xiàn)TextRank算法的步驟如下。構(gòu)建每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的窗口集合構(gòu)建以邊相連的關(guān)系矩陣,對(duì)矩陣進(jìn)行歸一化根據(jù)TextRank算法的迭代公式計(jì)算對(duì)應(yīng)TextRank值,提取關(guān)鍵詞LSI算法自定義名為lsi的函數(shù)實(shí)現(xiàn)LSI算法的步驟如下。構(gòu)建基于文檔集的詞空間構(gòu)建TF-IDF模型采用余弦相似度求當(dāng)前文檔與文檔中的詞語(yǔ)相似度,相似度最高的前10個(gè)詞作為當(dāng)前文檔關(guān)鍵詞小結(jié)本章主要探討了關(guān)鍵詞提取及其在文本分析中的應(yīng)用,重點(diǎn)介紹了4種關(guān)鍵詞提取算法:TF-IDF、TextRank以及基于主題模型的LSA算法和LDA算法。通過(guò)對(duì)這些算法的講解和示例,為讀者提供一套從基礎(chǔ)到進(jìn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論