版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于主題的關(guān)鍵詞提取方法對(duì)比研究- - I-摘要關(guān)鍵詞提供了文檔的概要信息,在信息檢索、文本聚類(lèi)和分類(lèi)系統(tǒng)中受到了越來(lái)越多的應(yīng)用,關(guān)鍵詞的提取算法也受到了越來(lái)越多的重視。傳統(tǒng)的方法主要依靠詞匯的統(tǒng)計(jì)信息進(jìn)行關(guān)鍵詞提取,本文在回顧關(guān)鍵詞提取的算方法的基礎(chǔ)上,從文檔主題的角度,綜述了基于主題的關(guān)鍵詞提取的三種算法-潛在語(yǔ)義分析(LSA)、概率潛在語(yǔ)義分析(PLSA)、隱含狄利克雷分布(LDA)。LSA方法將文檔從稀疏的高維詞匯空間映射到一個(gè)低維的向量空間,主要通過(guò)奇異值分解SVD的方式來(lái)求解。PLSA方法它用概率的方法來(lái)表示LSA,在文檔和詞匯之間引入一個(gè)潛在語(yǔ)義層(即主題層)LDA的基本思想是:
2、利用概率推導(dǎo)等方式可以將單個(gè)文檔表示為這些潛在主題的集合,對(duì)于主題而言,它又可以看成是若干詞匯的概率分布。為了驗(yàn)證這三種方法的性能的優(yōu)越與否,將理論與實(shí)踐結(jié)合,本文通過(guò)實(shí)驗(yàn)將三種基于主題的關(guān)鍵詞提取算法與TF-IDF方法進(jìn)行對(duì)比,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié)歸納;實(shí)驗(yàn)證明,這三種方法無(wú)論是從召回率上還是從準(zhǔn)確率上都優(yōu)于TF-IDF方法,能夠有效推薦關(guān)鍵詞。關(guān)鍵詞:關(guān)鍵詞提??;LSA;PLSA;LDAResearchonAlgorithmsofTopicBasedKeywordExtractionAbstractKeywordsprovidesemanticmetadataproducinganoverv
3、iewofthecontentofadocument.Theyarewidelyusedininformationretrieval,textclusteringandclassificationsystem.Asaresult,peoplepayalotofattentiontokeywordextractionalgorithm.Traditionalmethodsforkeywordextractionsimplyrankkeywordsaccordingtothestatisticalinformationofwords.Afterreviewingsomemethodsofkeywo
4、rdextraction,thisarticlesummarizesthreetopicbasedmethodsofkeywordextractionwhichareLatentSemanticAnalysis(LSA),ProbabilityLatentSemanticAnalysis(PLSA),LatentDirichletAllocation(LDA).LSAmapsthedocumentfromsparsehighdimensionspacetoalowdimensionalvectorspace,mainlythroughthesingularvaluedecomposition(
5、SVD).PLSAbringsinalatentsemanticlayerwhichiscalledthemelayerbetweendocumentsandwords.ItexplainsLSAinaprobabilisticway.ThebasicideaofLDAis:documentcanberegardedasthecombinationofseveralpotentialthemes.Asingledocumentcanbedescribedasthecollectionoftheunderlyingthemeinaprobabilisticway.Toprovewhetherth
6、etopicbasedkeywordextractionalgorithmsareefficient,thisarticlecombinestheorywithpractice.Afterexperiment,itcomparesthesethreealgorithmswiththetraditionalTF-IDFalgorithm.Itprovesthatboththerecallandtheprecisiongetimproved.Thethreetopicbasedkeywordextractionalgorithmdosewellinkeywordextraction.KeyWord
7、s:keywordextraction;LSA;PLSA;LDA基于主題的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究緒論1.1研究的背景和意義1.1.1研究背景隨著網(wǎng)絡(luò)信息量的激增,人們對(duì)信息質(zhì)量的需求不斷地提升,促使信息的組織和獲取方式發(fā)生了極大的變化也面臨著極大的挑戰(zhàn)。信息量的劇增,信息內(nèi)容的豐富多樣、信息結(jié)構(gòu)的復(fù)雜多變,信息傳遞的速度加快;用戶范圍寬廣,需求多樣化,處理信息的方式透明化、易用化等這些成為新型互聯(lián)網(wǎng)環(huán)境下的主要特點(diǎn)1。2012年1月16日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第29次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(下簡(jiǎn)稱(chēng)報(bào)告)。報(bào)告顯示,截至2011年12月底,
8、中國(guó)網(wǎng)民規(guī)模突破5億,達(dá)到5.13億,全年新增網(wǎng)民5580萬(wàn)(見(jiàn)下圖1.1)。隨著網(wǎng)絡(luò)表達(dá)和傳遞信息的渠道和形式不斷豐富,傳播方式更具互動(dòng)性、自主性、多樣性,這也促使網(wǎng)絡(luò)媒體的發(fā)展更加活躍,而各類(lèi)網(wǎng)絡(luò)資源使用情況也在不斷增長(zhǎng)。網(wǎng)站有“新浪”、“搜狐”等。門(mén)戶網(wǎng)站的主要特色在于提供及時(shí)滾動(dòng)的分類(lèi)新聞,以此來(lái)滿足不同興趣愛(ài)好的資訊瀏覽者的瀏覽需求。信息總量的增長(zhǎng)速度呈現(xiàn)指數(shù)上升,對(duì)于浩渺無(wú)窮的網(wǎng)頁(yè),如果不能有效地組織和分類(lèi),很難吸引用戶的眼球;而分類(lèi)組織有序,重點(diǎn)主題突出的門(mén)戶網(wǎng)站才是用戶的首選。信息環(huán)境的這一巨變確實(shí)為用戶提供了海量的信息,但同時(shí)卻使得用戶辨別和選擇適合自己的信息帶來(lái)了很大的困難
9、。因此,在保證及時(shí)性的同時(shí),如何按照用戶興趣來(lái)分類(lèi)組織新聞信息并以快速、醒目的方式(如關(guān)鍵詞、標(biāo)簽)表示出來(lái),最大限度地吸引用戶眼球,是門(mén)戶網(wǎng)站需要考慮的重要問(wèn)題。信息迅速發(fā)展的速度與用戶獲取信息的能力不匹敵,人們面臨著眾多的信息資源無(wú)從下手,很難找到和他們的需求最相關(guān)的信息,用戶不得不通過(guò)瀏覽大量的網(wǎng)頁(yè)來(lái)查找所需信息。當(dāng)人們?cè)跒g覽信息時(shí),一些內(nèi)容很有價(jià)值而標(biāo)題卻不夠醒目的信息易于被忽略。此外,僅僅從檢索到的模糊的概括,人們很難確定是否是自己所需的資訊。因此,解決這些問(wèn)題的有效方法就是給出資源內(nèi)容的關(guān)鍵詞。在最為理想的情況下,關(guān)鍵詞應(yīng)該是人為給出的。如今,我們已經(jīng)進(jìn)入了Web2.0時(shí)代,相對(duì)于
10、web1.0,Web2.0則更注重用戶的交互作用,用戶既是網(wǎng)站內(nèi)容的瀏覽者,也是網(wǎng)站內(nèi)容的制造者。每一個(gè)用戶不再僅僅是互聯(lián)網(wǎng)的讀者,同時(shí)也成為互聯(lián)網(wǎng)的作者;不再僅僅是在互聯(lián)網(wǎng)上沖浪,同時(shí)也成為波浪制造者,從而更加人性化!許多網(wǎng)站給用戶提供了進(jìn)行標(biāo)簽的功能,使用戶能夠?qū)λ麄兏信d趣的資源進(jìn)行標(biāo)注,包括:圖片、視頻、文章等,因此社會(huì)標(biāo)簽(socialtags)應(yīng)運(yùn)而生。廣義上來(lái)說(shuō),社會(huì)標(biāo)簽也是關(guān)鍵詞的一種。文檔關(guān)鍵詞法制節(jié)目策劃書(shū)電視新聞標(biāo)簽:舂天浪謾櫻花古城襄陽(yáng)鳳杲奮花畔畔羊攝影:磯香飛雪,櫻花時(shí)節(jié).當(dāng)戚片的粉紅隹花朵肆慕盛開(kāi)時(shí)的無(wú)烈,更在于它怒敝后紛給翱落時(shí)的那種;i食枝頭;浪漫的櫻花天道上到處
11、是前來(lái)觀賞的游人;行;真可謂是接肘摩肩、貉繹不絕.一眼望去,櫻7片片花祈緩緩輒落*獨(dú)自漫歩在這花雨之中,真可11關(guān)鍵詞作為對(duì)文章內(nèi)容的簡(jiǎn)要概括2,它可以幫助用戶通過(guò)一種有意義的方式來(lái)對(duì)信息進(jìn)行分類(lèi)。關(guān)鍵詞可以幫助提高搜索結(jié)果的質(zhì)量,通過(guò)篩選得出特定關(guān)鍵詞,可以輔助人們快速了解文章的主要內(nèi)容,節(jié)省瀏覽的時(shí)間。此外,關(guān)鍵詞在信息檢索、自動(dòng)摘要、文本聚類(lèi)和主題搜索領(lǐng)域中也起了很大的作用。然而,當(dāng)前互聯(lián)網(wǎng)上的眾多新聞網(wǎng)頁(yè)沒(méi)有提供關(guān)鍵詞,人工編輯關(guān)鍵詞不僅耗費(fèi)時(shí)間而且還具有很強(qiáng)的主觀性。因此,使用人工智能的方法對(duì)網(wǎng)頁(yè)、文本等進(jìn)行關(guān)鍵詞的自動(dòng)提取成為一個(gè)重要的而又有意義的研究課題。收錄比文莒的文輯法制電視
12、節(jié)目策劃書(shū)創(chuàng)建者:kexiongyu收藏呈:1優(yōu)秀電視類(lèi)文章創(chuàng)逹者::藍(lán)ji皿菱收藏量:0(a)(b)圖1.2關(guān)鍵詞的示例如上圖1.2所示,圖(a)為百度文庫(kù)某篇文章上的關(guān)鍵字;圖(b)為新浪博客中作者為自己的博文添加的標(biāo)簽。百度文庫(kù)中的關(guān)鍵詞有5個(gè),而新浪博客中的標(biāo)簽有9個(gè),這些關(guān)鍵詞都很好地體現(xiàn)了文章的主題。1.1.2研究的意義文本的關(guān)鍵詞提取是文本挖掘的有效方法之一,其目的都是為了能提高文本信息檢索的效率和準(zhǔn)確率,既是對(duì)文本集知識(shí)的獲取,也是對(duì)文本集的處理。對(duì)文本集進(jìn)關(guān)鍵詞提取研究有重要的意義,其研究意義主要有以下幾點(diǎn):(1)關(guān)鍵詞提取是文本信息管理的基礎(chǔ)以文本作為信息的載體是Inter
13、net上信息資源的主要形式,在海量的文本信息中,要快速準(zhǔn)確的找到自己所需要的信息是相當(dāng)困難的。因此,解決這個(gè)問(wèn)題是人們迫切需要的。對(duì)于大量的文本信息,構(gòu)建一個(gè)清晰的框架結(jié)構(gòu)和簡(jiǎn)要的文本內(nèi)容說(shuō)明對(duì)于文本集的存儲(chǔ)和管理是非常必要的。對(duì)于文本信息基本處理的學(xué)術(shù)研究和應(yīng)用在近些年來(lái)非?;钴S,如數(shù)字圖書(shū)館、搜索引擎、電子商務(wù)和微博等,雖然文本挖掘技術(shù)在這些領(lǐng)域中對(duì)取得了相當(dāng)大的進(jìn)展,但仍然存在一些問(wèn)題有待于解決,如處理過(guò)程需要人為的幫助,缺少對(duì)文本主題內(nèi)容的描述,處理結(jié)果不是十分的令人滿意等。所以,對(duì)文本進(jìn)行聚類(lèi)和關(guān)鍵詞提取作為文本挖掘的基礎(chǔ)性工作就顯得格外重要。(2)關(guān)鍵詞提取是對(duì)信息檢索的有效手段信
14、息檢索是指從海量的信息集合中尋找用戶需要的相關(guān)信息的一種重要手段。為了能使用戶在最短的時(shí)間內(nèi)從海量的文本信息中找到真正有用的信息,就需要自動(dòng)化的工具來(lái)提高信息檢索的效率。對(duì)于大量雜亂無(wú)章的文本進(jìn)行關(guān)鍵詞提取,檢索范圍有所減小,搜索的準(zhǔn)確率相應(yīng)會(huì)有所提高。對(duì)于搜索引擎返回的結(jié)果按照主題進(jìn)行聚類(lèi),推薦給用戶比較感興趣的相關(guān)文本,有助于用戶更合理的利用文本信息。信息檢索主要是通過(guò)關(guān)鍵詞進(jìn)行檢索,關(guān)鍵詞能夠反映文本的主要內(nèi)容。用戶根據(jù)文本的關(guān)鍵詞進(jìn)行索引查找相關(guān)文本信息,可以快速篩選過(guò)濾掉大量無(wú)關(guān)文本,大大降低了文本索引的工作量。對(duì)于文本搜索引擎技術(shù),文本的關(guān)鍵詞提取始終是基礎(chǔ)性的關(guān)鍵技術(shù)。(3)關(guān)鍵
15、詞提取可以減少文本處理的人為因素和工作量文本關(guān)鍵詞是對(duì)文本主題的簡(jiǎn)要概括,有助于用戶更快的了解文本信息,有助于文本的自動(dòng)摘要生成、文本聚類(lèi)、文本分類(lèi)、文本索引等文本處理工作。對(duì)于一些沒(méi)有文本關(guān)鍵詞的文本信息,無(wú)法簡(jiǎn)單的表達(dá)文本的主題,而且在用戶使用、信息檢索等方面都很不方便。自動(dòng)生成文本的關(guān)鍵詞,降低了手工選擇關(guān)鍵詞的人為主觀因素,同時(shí)也減少了人力的工作量,提高了工作效率。綜上所述,關(guān)鍵詞給新時(shí)代網(wǎng)絡(luò)用戶提供了極大的便捷,是新時(shí)代人們進(jìn)行檢索資源、管理資源的重要途徑,因此進(jìn)行關(guān)鍵詞算法的研究成為了的研究的重點(diǎn),本文就是在此背景下,研究基于主題的關(guān)鍵詞提取的方法。1.2國(guó)內(nèi)外研究現(xiàn)狀隨著Inte
16、rnet的發(fā)展,人為給出文檔的關(guān)鍵詞是不現(xiàn)實(shí)的,所以,高性能的關(guān)鍵詞自動(dòng)提取算法的研究是十分重要的。迄今為止,關(guān)鍵詞自動(dòng)提取吸引了不少國(guó)內(nèi)外學(xué)者的關(guān)注和研究,其理論成果主要包括基于統(tǒng)計(jì)信息的方法、機(jī)器學(xué)習(xí)方法、基于結(jié)構(gòu)的方法、基于語(yǔ)言分析和基于復(fù)雜網(wǎng)絡(luò)分析方法五大類(lèi)。其中應(yīng)用最為廣泛的是基于統(tǒng)計(jì)信息的關(guān)鍵詞提取方法,具備簡(jiǎn)潔易懂、通用性強(qiáng)等優(yōu)勢(shì)。從Luhn于1957年進(jìn)行自動(dòng)標(biāo)引后開(kāi)始,到目前為止,自動(dòng)標(biāo)引研究經(jīng)歷了50多年的發(fā)展歷程。一直到20世紀(jì)90年代初,關(guān)于關(guān)鍵詞自動(dòng)抽取的研究一直沒(méi)有停止過(guò)。20世紀(jì)90年代初到90年代末,自動(dòng)標(biāo)引研究漸漸減少,主要有以下原因:(1)全文索引逐漸被人采
17、用,并且基本上能滿足用戶需要;(2)傳統(tǒng)的自動(dòng)標(biāo)引方法的效率到了極限。20世紀(jì)90年代末一直到現(xiàn)在,關(guān)鍵詞自動(dòng)抽取的研究逐漸深入,產(chǎn)生該現(xiàn)象的主要原因有:(l)全文索引的功能越來(lái)越難以滿足實(shí)際需求,用戶需要更加精確地結(jié)果;(2)互聯(lián)網(wǎng)的很多服務(wù),例如自動(dòng)摘要、文檔分類(lèi)與聚類(lèi)、文本分析、主題檢索等都要依賴于關(guān)鍵詞自動(dòng)抽取的結(jié)果,只有更好的解決關(guān)鍵詞抽取基礎(chǔ)問(wèn)題才能從根本上提高信息服務(wù)質(zhì)量。在文本關(guān)鍵詞提取方面,國(guó)外起步較早,發(fā)展較快,取得的成果很多。文獻(xiàn)2提出了基于遺傳算法的關(guān)鍵詞提取算法,系統(tǒng)Extractor目前發(fā)展穩(wěn)步,取得可觀的收益。文獻(xiàn)3利用樸素貝葉斯技術(shù)訓(xùn)練特征值,通過(guò)預(yù)測(cè)模型對(duì)文本
18、進(jìn)行關(guān)鍵詞提取。文獻(xiàn)4提出了一種利用復(fù)雜網(wǎng)絡(luò)理論自動(dòng)生成文本摘要的方法,能夠很好的發(fā)現(xiàn)文本特征。下圖通過(guò)表格展示了一些重要的、典型的、里程碑的工作:近年來(lái)隨著復(fù)雜網(wǎng)絡(luò)這一學(xué)科的迅速發(fā)展,基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法被眾多學(xué)者所研究,如張敏等5提出了一種利用BC方法的關(guān)鍵詞自動(dòng)提取算法,通過(guò)計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的中心度提取文本關(guān)鍵詞;任克強(qiáng)等6提出基于帶權(quán)語(yǔ)言網(wǎng)絡(luò)的網(wǎng)頁(yè)關(guān)鍵詞抽取算法,結(jié)合了節(jié)點(diǎn)介數(shù)和緊密度指標(biāo)提取網(wǎng)頁(yè)中關(guān)鍵詞;趙鵬等7提出了一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法,綜合考慮語(yǔ)言網(wǎng)絡(luò)中節(jié)點(diǎn)的度和聚類(lèi)系數(shù)對(duì)文本的關(guān)鍵詞進(jìn)行抽取??偨Y(jié)以上三個(gè)算法,文獻(xiàn)5和文獻(xiàn)6的算法計(jì)算節(jié)點(diǎn)的權(quán)值
19、都與最短路徑相關(guān),只考慮節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)信息流動(dòng)的影響,而忽略了節(jié)點(diǎn)在局部小世界中的影響程度;而文獻(xiàn)7中節(jié)點(diǎn)的度和聚類(lèi)系數(shù)都是考慮節(jié)點(diǎn)在局部小世界中的重要程度,而忽略了節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中的影響程度。1.3研究?jī)?nèi)容及論文組成1.3.1研究?jī)?nèi)容本文主要研究的主要內(nèi)容是,是基于主題的關(guān)鍵詞提取方法對(duì)比研究。關(guān)鍵詞提取主要解決的是對(duì)于一個(gè)新的文檔,通過(guò)合適的算法來(lái)找出最合適關(guān)鍵詞,以期望達(dá)到對(duì)網(wǎng)絡(luò)資源的各個(gè)方面屬性進(jìn)行有效闡述目的,并且給用戶提供最準(zhǔn)確的信息。這有助于為用戶的個(gè)性化搜索提供有效數(shù)據(jù)源,為網(wǎng)絡(luò)資源共享、學(xué)習(xí)提供理論和方法指導(dǎo)。本文主要研究的主要內(nèi)容是,是基于主題的關(guān)鍵詞提取研究。本文的主要的
20、研究對(duì)象是文檔集合,將從以下幾個(gè)方面進(jìn)行闡述:(1)在學(xué)習(xí)和歸納國(guó)內(nèi)外關(guān)于關(guān)鍵詞提取的文獻(xiàn)的基礎(chǔ)上,對(duì)關(guān)鍵詞提取目前取得的進(jìn)展進(jìn)行分類(lèi)總結(jié);(2)針對(duì)關(guān)鍵詞提取所面臨的挑戰(zhàn),結(jié)合現(xiàn)有國(guó)內(nèi)外文獻(xiàn)對(duì)于這些方面的研究進(jìn)行分析綜合,對(duì)于主題挖掘領(lǐng)域內(nèi)的LSA、LDA與PLSA進(jìn)行了詳細(xì)的分析研究,學(xué)習(xí)他們的特點(diǎn)及處理方法;(3)在上述闡述的模型的基礎(chǔ)之上,通過(guò)實(shí)驗(yàn)對(duì)上述三個(gè)算法的有效性與傳統(tǒng)的TF-IDF算法進(jìn)行驗(yàn)證對(duì)比。1.3.2論文組成本篇論文由5章組成,理論結(jié)合實(shí)踐,其結(jié)構(gòu)如下:第1章:緒論主要介紹了論文的研究背景、研究意義和國(guó)內(nèi)外研究現(xiàn)狀,并闡述了本篇論文的總體框架。第2章:關(guān)鍵詞提取的概述本
21、章主要介紹了文本關(guān)鍵詞的概念以及關(guān)鍵詞提取的主要理論及經(jīng)典算法,并提出了基于主題的關(guān)鍵詞提取算法的必要性。第3章:基于主題的關(guān)鍵詞提取算法本章分別介紹了:基于主題的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究 #基于LSA的關(guān)鍵詞提取方法的分析與研究詳細(xì)闡述了隱含語(yǔ)義算法的相關(guān)理論,在此基礎(chǔ)上構(gòu)建了資源-標(biāo)簽的權(quán)重矩陣,并將該矩陣通過(guò)隱含語(yǔ)義分析進(jìn)行處理?;赑LSA的關(guān)鍵詞提取方法的分析與研究一詳細(xì)闡述了概率潛在語(yǔ)義的基本思想,進(jìn)一步挖掘網(wǎng)絡(luò)資源內(nèi)在的語(yǔ)義空間,并應(yīng)用EM算法進(jìn)行不斷循環(huán)直至達(dá)到最優(yōu)?;贚DA的關(guān)鍵詞提取方法的分析與研究闡述了隱狄利克雷分配算法的基本思想,建立全概
22、率生成模型,通過(guò)變分推理等方法求得最優(yōu)解。第4章:模型應(yīng)用及分析通過(guò)實(shí)驗(yàn)對(duì)三種方法和傳統(tǒng)的提取關(guān)鍵詞算法進(jìn)行研究對(duì)比,總結(jié)三種基于主題的關(guān)鍵詞提取方法相對(duì)于傳統(tǒng)的提取主題的關(guān)鍵詞提取算法的性能優(yōu)劣。第5章:總結(jié)與展望總結(jié)本文研究所做的主要內(nèi)容,分析研究中現(xiàn)存在的問(wèn)題,并確定下一步需要改進(jìn)的研究方向?;谥黝}的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究關(guān)鍵詞提取相關(guān)理論概述2.1關(guān)鍵詞的概念關(guān)鍵詞是用以表示文章主題內(nèi)容、信息、款目的單詞或術(shù)語(yǔ),是反映文章內(nèi)容的名詞性術(shù)語(yǔ);是從文章題名、摘要、層次標(biāo)題和征文中提取出來(lái)的、對(duì)文章內(nèi)容具有實(shí)質(zhì)性意義的詞或詞組;是表達(dá)文獻(xiàn)主題概念的自然語(yǔ)言詞
23、匯。從形式上看,關(guān)鍵詞或概念是出現(xiàn)在文章標(biāo)題、摘要、正文中的詞匯,是作者本人的詞匯或?qū)S忻~;從內(nèi)容上看,關(guān)鍵詞或概念應(yīng)當(dāng)具有特定的意義,反映特定概念的實(shí)詞或詞組,可以是各門(mén)專(zhuān)業(yè)的術(shù)語(yǔ),例如:計(jì)算機(jī)、網(wǎng)絡(luò)、汽車(chē)、自然語(yǔ)言理解、信息系統(tǒng)等,也可以是專(zhuān)有名詞(包括人名、地名、組織機(jī)構(gòu)名稱(chēng)等),例如:北京、上海、伊拉克、布什、人民報(bào)社等;從作用上看它能夠表達(dá)文章的主題內(nèi)容。從用戶進(jìn)行搜索的角度來(lái)看關(guān)鍵詞,就是用戶輸入搜索框中的文字,也就是用戶命令搜索引擎尋找的東西。所以關(guān)鍵詞的內(nèi)容可以是:人名、網(wǎng)站、新聞、小說(shuō)、軟件、游戲、星座、工作、購(gòu)物、論文等。關(guān)鍵詞,可以是任何中文、英文、數(shù)字,或中文英文數(shù)字
24、的混合體。關(guān)鍵詞,可以是一個(gè),也可以是兩個(gè)、三個(gè)甚至更多,輸入多個(gè)關(guān)鍵詞搜索,可以獲得更精確更豐富的搜索結(jié)果。例如,在百度搜索引擎中搜索“北京暫住證”,可以找到幾萬(wàn)篇資料。而搜索“北京暫住證”,則只有嚴(yán)格含有北京暫住證連續(xù)5個(gè)字的網(wǎng)頁(yè)才能被找出來(lái),不但找到的資料只有幾百篇,資料的準(zhǔn)確性也比前者差得多。關(guān)鍵詞質(zhì)量的高低和文章的各個(gè)要點(diǎn)的內(nèi)容是息息相關(guān)的。因此要有效地提取關(guān)鍵詞,就要全面理解文章的內(nèi)容和文中各詞語(yǔ)的確切詞義。文章不單單是詞語(yǔ)的集合,表層之下潛藏著由眾多詞語(yǔ)共同表達(dá)的文章主題。對(duì)文中詞語(yǔ)的理解不能是孤立的,應(yīng)該將在語(yǔ)義上具有相似或者在文章中緊密關(guān)聯(lián)的詞語(yǔ)聯(lián)系在一起,簡(jiǎn)單的說(shuō)對(duì)文章主題
25、的理解就是聯(lián)系文中主題凝聚的詞語(yǔ)的過(guò)程。因此本文希望通過(guò)對(duì)文章主題信息的理解,對(duì)文章結(jié)構(gòu)的表達(dá)來(lái)提高關(guān)鍵詞提取的質(zhì)量。關(guān)鍵詞自動(dòng)提取,就是自動(dòng)地選擇一個(gè)小特征項(xiàng)集來(lái)描述單個(gè)文檔的內(nèi)容。關(guān)鍵詞提取是文本分類(lèi)、聚類(lèi)、信息檢索和自動(dòng)摘要生成等技術(shù)的基礎(chǔ)。典型的文本關(guān)鍵詞提取方法是將文本的特征詞提取出來(lái)后,根據(jù)某種規(guī)則計(jì)算各特征詞的權(quán)重,按照特征詞的權(quán)重確定能夠反映文本主題內(nèi)容的關(guān)鍵詞。2.2關(guān)鍵詞提取的方法總結(jié)現(xiàn)有的文本關(guān)鍵詞提取方法具體描述如下(1)基于語(yǔ)言分析的方法基于主題的關(guān)鍵詞提取方法對(duì)比研究基于主題的關(guān)鍵詞提取方法對(duì)比研究- - 基于語(yǔ)言分析方法的基本思想是:對(duì)文本進(jìn)行取詞、分詞,結(jié)合語(yǔ)義
26、詞典衡量特征詞的重要程度。Hulth通過(guò)短語(yǔ)識(shí)別、Chunk識(shí)別等語(yǔ)法分析方法提取文本的關(guān)鍵詞8。該方法優(yōu)點(diǎn)是比較簡(jiǎn)單,需要的基礎(chǔ)資源少,實(shí)現(xiàn)簡(jiǎn)單,關(guān)鍵詞提取準(zhǔn)確。該方法的缺點(diǎn)是對(duì)語(yǔ)義詞典的依賴性較強(qiáng),面臨語(yǔ)義詞典的建立和語(yǔ)義詞典的維護(hù)問(wèn)題9,同時(shí)需要考慮詞語(yǔ)的語(yǔ)義語(yǔ)法等,考慮詞語(yǔ)數(shù)量的增大和更新,這些都會(huì)影響該方法提取的準(zhǔn)確性10,11。(2)基于統(tǒng)計(jì)的方法基于統(tǒng)計(jì)方法的基本思想是:利用統(tǒng)計(jì)的方法提取文本的關(guān)鍵詞,需要考慮關(guān)鍵詞文本中出現(xiàn)的位置,該方法是一種無(wú)監(jiān)督的關(guān)鍵詞提取方法,執(zhí)行起來(lái)比較簡(jiǎn)單12?;诮y(tǒng)計(jì)的文本關(guān)鍵詞提取方法主要包括基于詞頻的文本關(guān)鍵詞提取方法13,基于TF-IDF的文
27、本關(guān)鍵詞提取方法14,基于詞的同現(xiàn)信息的文本關(guān)鍵詞提取方法15,基于Pat-tree的文本關(guān)鍵詞提取方法16,以及利用上述方法的結(jié)合方法等17?;诮y(tǒng)計(jì)的關(guān)鍵詞提取方法的優(yōu)點(diǎn):能夠高效地識(shí)別未登錄詞;無(wú)需人工構(gòu)造詞典;需要的基礎(chǔ)資源少,對(duì)語(yǔ)言資源的依賴性弱;不受語(yǔ)言類(lèi)型與句型的限制?;趧?dòng)機(jī)的關(guān)鍵詞提取方法的缺點(diǎn):計(jì)算量大;提取結(jié)果會(huì)有意義不完整的字符串,導(dǎo)致準(zhǔn)確率不高;低頻詞不能被提取出來(lái);需要大量的原始文本。(3)基于結(jié)構(gòu)的方法基于結(jié)構(gòu)方法的基本思想是:根據(jù)關(guān)鍵詞主要來(lái)源于文本的固定位置,因而從文本的相應(yīng)的位置和文本的標(biāo)題中提取文本的關(guān)鍵詞18,從文本的摘要中提取文本的關(guān)鍵詞19,從htm
28、l文件的標(biāo)簽處提取關(guān)鍵詞20等。(4)基于機(jī)器學(xué)習(xí)的方法20世紀(jì)70年代,Salton將機(jī)器學(xué)習(xí)的技術(shù)應(yīng)用到文本關(guān)鍵詞提取研究中回】。該方法的主要是將文本的關(guān)鍵詞提取問(wèn)題看為分類(lèi)問(wèn)題,通過(guò)訓(xùn)練文本集獲得文本集模型,對(duì)文本進(jìn)行關(guān)鍵詞提取。典型的模型有最大熵模型22、貝葉斯模型23、SVM模型24、決策樹(shù)模型25等。還有將關(guān)鍵短語(yǔ)抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)記問(wèn)題,并利用條件隨機(jī)場(chǎng)(ConditionalRandomField,CRF)進(jìn)行關(guān)鍵詞提?。?)基于復(fù)雜網(wǎng)絡(luò)的方法近幾年來(lái),基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取研究受到了廣泛的關(guān)注,該方法根據(jù)特征詞之間的聯(lián)系,構(gòu)建一個(gè)復(fù)雜網(wǎng)絡(luò),通過(guò)驗(yàn)證復(fù)雜網(wǎng)絡(luò)的小世界特征
29、,根據(jù)復(fù)雜網(wǎng)絡(luò)相關(guān)理論衡量關(guān)鍵詞的權(quán)重,提取文本的關(guān)鍵詞。但該方法存在沒(méi)有解決網(wǎng)絡(luò)連通性問(wèn)題,計(jì)算量大等問(wèn)題。2.3基于主題的關(guān)鍵詞提取關(guān)鍵詞自動(dòng)提取,就是自動(dòng)地選擇一個(gè)小特征項(xiàng)集來(lái)描述單個(gè)文檔的內(nèi)容。以上,我們介紹了關(guān)鍵詞提取的相關(guān)方法,在這些算法中,我們發(fā)現(xiàn)同一篇文檔中的同一個(gè)詞在不同的地方或許有著不同的意思,比如說(shuō),“mouse”能夠表示老鼠或者是鼠標(biāo)的意思,同樣,不同的詞能夠表示相同的意思,比如說(shuō)同義詞。這些現(xiàn)象產(chǎn)生的原因在于詞匯層面(代表意思的詞)和概念層面(意思本身)的差別,這樣將會(huì)導(dǎo)致關(guān)鍵詞提取的不準(zhǔn)確。所以,我們往往需要參照上下文的主題意思,來(lái)進(jìn)行詞義的猜測(cè),從而來(lái)進(jìn)行關(guān)鍵詞提取。一篇
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 肝移植受者營(yíng)養(yǎng)支持方案的制定
- 侵犯知識(shí)產(chǎn)權(quán)案例
- 肝癌篩查中影像技術(shù)的合理選擇策略
- 肝癌GPC3抗體聯(lián)合ctDNA檢測(cè)價(jià)值
- 2026年智能機(jī)器人技術(shù)與應(yīng)用考試題庫(kù)
- 公安輿情引導(dǎo)課件
- 公安案卷培訓(xùn)課件
- 職業(yè)暴露防護(hù)技能競(jìng)賽的組織與效果評(píng)價(jià)
- 學(xué)習(xí)2022年兩會(huì)政府工作報(bào)告全文內(nèi)容解讀
- 錦州2025年遼寧錦州市黑山縣事業(yè)單位招聘筆試歷年參考題庫(kù)附帶答案詳解
- 八年級(jí)地理上冊(cè)《中國(guó)的氣候》探究式教學(xué)設(shè)計(jì)
- 重慶市2026年高一(上)期末聯(lián)合檢測(cè)(康德卷)化學(xué)+答案
- 2026年湖南郴州市百福控股集團(tuán)有限公司招聘9人備考考試題庫(kù)及答案解析
- 2026貴州黔東南州公安局面向社會(huì)招聘警務(wù)輔助人員37人考試備考題庫(kù)及答案解析
- 鐵路除草作業(yè)方案范本
- 2026屆江蘇省常州市生物高一第一學(xué)期期末檢測(cè)試題含解析
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)高溫工業(yè)熱泵行業(yè)市場(chǎng)運(yùn)行態(tài)勢(shì)與投資戰(zhàn)略咨詢報(bào)告
- 教培機(jī)構(gòu)排課制度規(guī)范
- 2026年檢視問(wèn)題清單與整改措施(2篇)
- 國(guó)家開(kāi)放大學(xué)《基礎(chǔ)教育課程改革專(zhuān)題》形考任務(wù)(1-3)試題及答案解析
- 車(chē)載HUD產(chǎn)業(yè)發(fā)展趨勢(shì)報(bào)告(2025)-CAICV智能車(chē)載光顯示任務(wù)組
評(píng)論
0/150
提交評(píng)論