已閱讀5頁(yè),還剩117頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】跨語(yǔ)言話題分析關(guān)鍵技術(shù)研究-計(jì)算機(jī)科學(xué)與技術(shù)系博士論文.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2014摘要摘要本文進(jìn)行跨語(yǔ)言話題分析研究,致力于解決如下科學(xué)問題:給定一個(gè)涉及多種語(yǔ)言的文檔集(限定每個(gè)文檔只采用一種語(yǔ)言),如何識(shí)別出跨語(yǔ)言話題??缯Z(yǔ)言話題分析面臨的主要問題是翻譯歧義。翻譯歧義有兩種情況:跨語(yǔ)言歧義和單語(yǔ)言歧義。為解決上述問題,本文深入研究了跨語(yǔ)言話題分析中的文檔建模技術(shù),針對(duì)不同問題提出了一系列基于語(yǔ)義的跨語(yǔ)言文檔模型,主要包括:針對(duì)跨語(yǔ)言歧義問題,將單語(yǔ)廣義空間向量模型拓展為跨語(yǔ)言廣義向量空間模型,同時(shí)提出了基于廣義空間向量模型的特征選擇算法。提出了一種基于全局詞義的跨語(yǔ)言文檔建模方法。分析翻譯歧義的本質(zhì)是詞的同義性和多義性問題。針對(duì)這一問題,本文提出了基于詞義的文檔建模方法,采用統(tǒng)計(jì)方法定義局部詞義和全局詞義,提出了跨語(yǔ)言詞義歸納算法獲取跨語(yǔ)言詞義,并分別在向量空間模型和潛狄利克雷模型中探討了詞義的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明,相對(duì)于跨語(yǔ)言廣義空間向量模型,在經(jīng)典主題模型潛狄利克雷(型的基礎(chǔ)上,提出了三種基于統(tǒng)計(jì)詞義的第一種模型考慮詞義對(duì)主題的影響(獨(dú)立第二種模型考慮詞義和主題的相互影響(點(diǎn)估計(jì)協(xié)同第三種模型考慮詞義分布和主題的相互影響(詞義混合協(xié)同實(shí)驗(yàn)結(jié)果表明,三種詞義混合協(xié)同率分布分析也驗(yàn)證了這一結(jié)果,性能好的模型具有更加尖銳的主題分布,可以提供更強(qiáng)的后驗(yàn)信息。針對(duì)跨語(yǔ)言話題分析問題,在詞義混合詞義協(xié)同計(jì)了兩種基于詞義的跨語(yǔ)言主題模型:第一種模型將詞對(duì)看作變量,將主題看作詞對(duì)的分布(詞對(duì)齊詞義第二種模型除了考慮詞對(duì)齊信息,還進(jìn)一步估計(jì)了詞義對(duì)齊,從而構(gòu)造了主題、詞義和詞義對(duì)齊的迭代學(xué)習(xí)過程(詞義對(duì)齊詞義實(shí)驗(yàn)結(jié)果表明相對(duì)于基于全局詞義的跨語(yǔ)言文檔建模方法,而詞義對(duì)齊詞義鍵詞:跨語(yǔ)言;話題分析;文檔建模;主題模型on to of at is It is in to to In on We to on on to We on We SI on In to we on of . . . . . . . .本章引論.跨語(yǔ)言的詞相似度計(jì)算.跨語(yǔ)言廣義向量空間模型.廣義向量空間模型的特征選擇.實(shí)驗(yàn)評(píng)測(cè).:不同的詞相似度計(jì)算.:不同的特征選擇.:不同的文檔表示模型.本章總結(jié).本章引論.跨語(yǔ)言詞義.基于詞義的文檔建模.基于詞義的文檔建??偨Y(jié)以及在跨語(yǔ)言話題分析的應(yīng)用.實(shí)驗(yàn)評(píng)測(cè).:不同的詞義聚類方法.:不同的基于詞義的文檔建模模型.:不同的文檔建模模型.本章小結(jié).本章引論.基于詞義的主題模型.實(shí)驗(yàn)評(píng)測(cè).本章小結(jié).本章引論.基于詞義的跨語(yǔ)言主題模型.實(shí)驗(yàn)評(píng)測(cè).本章小結(jié).論文工作總結(jié).下一步研究展望. 100致謝.學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果.以新聞為處理對(duì)象,將涉及某個(gè)話題的報(bào)道組織起來以某種方式呈現(xiàn)給用戶。它的研究起源于美國(guó)軍方的話題檢測(cè)與跟蹤(求。1996年,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(據(jù)自身需求,提出開發(fā)一種能自動(dòng)判斷新聞數(shù)據(jù)流主題的新技術(shù)。從1998年開始,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(合馬薩諸塞大學(xué)、卡耐基年舉辦一次話題檢測(cè)與跟蹤國(guó)際研討會(huì),在共同的新聞媒體流測(cè)試集上對(duì)比不同 。根據(jù)題(指由一個(gè)核心事件或活動(dòng)以及所有與之直接相關(guān)的事件或活動(dòng)1 。話題分析(術(shù)由此產(chǎn)生,其目標(biāo)是識(shí)別給定新聞集中每個(gè)新聞的話題。早期在新聞專線和廣播新聞等)上開展的。近年來,隨著互聯(lián)網(wǎng)的發(fā)展,話題分析的研究進(jìn)一步關(guān)注互聯(lián)網(wǎng)載體上的新聞,例如網(wǎng)頁(yè)新聞2 、博客新聞3 、微博新聞4 等。更有研究將話題分析技術(shù)應(yīng)用于科技論文5 ,實(shí)現(xiàn)科技學(xué)術(shù)話題的自動(dòng)分析。這些研究的共同點(diǎn)是:給定一個(gè)文檔集,識(shí)別出該文檔集中每個(gè)文檔的話題。同時(shí),話題分析技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)的核心模塊。網(wǎng)絡(luò)輿情是指在一定的社會(huì)空間內(nèi),通過網(wǎng)絡(luò)圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)公共問題和社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度、信念和價(jià)值觀1。近年來,互聯(lián)網(wǎng)(我國(guó)迅猛發(fā)展,已經(jīng)成為了人們生活工作必不可少的一部分。根據(jù)第34次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告截至2014年1月,其中,著規(guī)模的增加,互聯(lián)網(wǎng)已成為影響社會(huì)穩(wěn)定、國(guó)家安全和世界和平的重要因素。網(wǎng)絡(luò)輿情分析對(duì)政府和企業(yè)都有重大作用。2013年8月全國(guó)宣傳思想工作會(huì)議提出,要把網(wǎng)上輿論工作作為宣傳思想工作的重中之重來抓。輿情監(jiān)測(cè)成為各級(jí)政府的重要工作之一。對(duì)于企業(yè)來說,有效地監(jiān)測(cè)企業(yè)相關(guān)的輿情,1百度百科,網(wǎng)絡(luò)輿情。,可以有效地保持企業(yè)的健康良好形象。輿情分析系統(tǒng)主要包括以下幾個(gè)核心功能1:1、熱點(diǎn)話題、敏感話題識(shí)別;2、傾向性分析;3、話題跟蹤;4、自動(dòng)摘要;6、突發(fā)事件分析??梢姡浨榉治鱿到y(tǒng)的核心模塊是話題識(shí)別,進(jìn)而尋找熱點(diǎn)和敏感話題。在海量網(wǎng)絡(luò)信息中,與同一話題相關(guān)的信息往往孤立地分散在不同的時(shí)間段、不同的網(wǎng)站中,因此迫切需要一種能自動(dòng)匯總特定話題相關(guān)信息的話題分析算法。這是話題分析研究的應(yīng)用背景。0 W7BBB1#B題分析系統(tǒng)的輸入是文檔集;輸出是話題,并賦予每個(gè)文檔一個(gè)特定話題。于文檔集的每個(gè)文檔,首先進(jìn)行文檔建模,然后根據(jù)文檔的模型采用聚類算法進(jìn)行聚類。世界有超過150多種語(yǔ)言。由于語(yǔ)言障礙的存在,大多數(shù)用戶無法快速獲得其他語(yǔ)言的信息。隨著全球經(jīng)濟(jì)的發(fā)展,互聯(lián)網(wǎng)多語(yǔ)言內(nèi)容已經(jīng)十分普遍。英語(yǔ)獨(dú)霸互聯(lián)網(wǎng)的時(shí)代已經(jīng)過去,漢語(yǔ)內(nèi)容緊隨英語(yǔ)之后并有后來居上之勢(shì),其他語(yǔ)種也發(fā)展很快。如何從非母語(yǔ)的互聯(lián)網(wǎng)內(nèi)容中獲取信息,是困擾人們學(xué)習(xí)需要的問題之一。語(yǔ)言障礙也是阻礙計(jì)算機(jī)信息處理的瓶頸。以話題分析為例,目前話題分析研究在單一語(yǔ)言上取得了快速發(fā)展,但無法滿足人們對(duì)非母語(yǔ)信息的需求。隨著互聯(lián)網(wǎng)的進(jìn)一步發(fā)展,各種語(yǔ)言網(wǎng)頁(yè)的數(shù)量快速增長(zhǎng),人們已不再滿足于僅從自己國(guó)家或地區(qū)的角度來看待事物。在事件發(fā)生或者變化時(shí),人們還渴望了解其他國(guó)家或地區(qū)的報(bào)道或評(píng)論。我國(guó)是一個(gè)多民族國(guó)家,由56個(gè)民族組成,語(yǔ)言資源極其豐富。除了漢語(yǔ)外,我國(guó)還有80多種少數(shù)民族語(yǔ)言,而少數(shù)民族文字則有19種。通過跨語(yǔ)言話題分析可以更好地獲取少數(shù)民族民眾的觀點(diǎn),更有效的進(jìn)行輿情分析。因此,跨越語(yǔ)言鴻溝、獲取跨語(yǔ)言話題信息成為個(gè)人乃至一個(gè)國(guó)家了解1百度百科,互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)。#7_12第1章引言和掌握全球信息的重要手段。因此,通過計(jì)算機(jī)自動(dòng)地識(shí)別多種語(yǔ)言中相關(guān)話題信息,已成為信息檢索和自然語(yǔ)言處理的研究熱點(diǎn)之一。綜上,在話題分析中解決語(yǔ)言障礙問題,進(jìn)行跨語(yǔ)言分析的研究是很有必要的。從應(yīng)用角度看,跨語(yǔ)言話題分析系統(tǒng)的輸入是多語(yǔ)言文檔集(限定每個(gè)文檔僅采用一種語(yǔ)言);輸出是跨語(yǔ)言話題,并賦予每個(gè)文檔一個(gè)特定的跨語(yǔ)言話題。DB#60 W7BB1#B#6/B#6/B#6/B#6/BBB#6/B#6/B#6/B#6/中不同語(yǔ)言的文檔以不同的圖案表示。從圖中可以看出,單語(yǔ)言話題分析和跨語(yǔ)言話題分析的流程基本一致,區(qū)別在于跨語(yǔ)言話題分析需要對(duì)不同語(yǔ)言的文檔進(jìn)行建模,識(shí)別話題??缯Z(yǔ)言話題分析中的話題可包含不同語(yǔ)言的文檔。因此跨語(yǔ)言話題分析的關(guān)鍵問題是兩種語(yǔ)言之間的意義映射。從自然語(yǔ)言理解的角度看,多種語(yǔ)言的同一對(duì)象的信息表示是這個(gè)對(duì)象在不同語(yǔ)言符號(hào)系統(tǒng)的字符串表示。如何對(duì)這些不同表示進(jìn)行建模,獲得它們表示的對(duì)象是跨語(yǔ)言信息處理的重要研究?jī)?nèi)容,也是跨語(yǔ)言話題分析的核心問題。本文認(rèn)為語(yǔ)義可以反映不同語(yǔ)言符號(hào)系統(tǒng)下的實(shí)際意義,深入研究了基于語(yǔ)義的跨語(yǔ)言文檔建模,使不同語(yǔ)言相似話題的文檔具有相似的文檔表示,并將其應(yīng)用到話題分析任務(wù),提高跨語(yǔ)言話題分析的準(zhǔn)確性。賦予每個(gè)文檔特定話題。關(guān)工作的綜述已在文獻(xiàn)6 和文獻(xiàn)1 中分別給出。本文關(guān)注話題檢測(cè)技術(shù)。話題檢測(cè)的目標(biāo)是識(shí)別新聞文3第1章引言檔中的話題,主流方法是文檔聚類,即先以特定文檔模型表示文檔,然后采用聚類算法(如相似度高的文檔聚在一起,構(gòu)建成一個(gè)話題。因此,話題檢測(cè)的關(guān)鍵問題是如何進(jìn)行文檔建模。早期的話題檢測(cè)與跟蹤系統(tǒng)主要采用兩種文檔表示模型:向量空間模型(7 和語(yǔ)言模型(M)8 。向量空間模型(量空間模型(最早的文檔表示模型7 。它采用特征空間的向量來表示文檔,其性能關(guān)鍵是特征的選擇,目前主要采用了文檔中的詞匯作為特征。早期的一些話題檢測(cè)與跟蹤研究工作針對(duì)新聞這個(gè)特殊對(duì)象,著眼于如何準(zhǔn)確地計(jì)算新聞中的詞的權(quán)重。研究顯示,詞性對(duì)新聞表示有一定的影響。文獻(xiàn)9 評(píng)測(cè)了使用不同詞性表示新聞對(duì)系統(tǒng)性能的影響。此研究表明,只用名詞和形容詞來表示新聞性能最好,當(dāng)加入名詞詞組后,使用名詞、動(dòng)詞、形容詞以及名詞詞組表示新聞性能最好。文獻(xiàn)10 使用共現(xiàn)命名實(shí)體集(表示話題。在文獻(xiàn)11 中,新聞表示中命名實(shí)體和普通詞的權(quán)重不同,話題表示則使用卡方準(zhǔn)則計(jì)算特征權(quán)重。文獻(xiàn)12 和文獻(xiàn)13 使用命名實(shí)體表示新聞和話題,并且不同種類的命名實(shí)體權(quán)重不同。文獻(xiàn)14 分別用命名實(shí)體,話題詞以及所有詞表示文檔,并且采用三種表示相似度的線性組合作為文檔相似度。國(guó)內(nèi)也有研究采用了相似的策略,文獻(xiàn)15 將詞劃分為人物、時(shí)間、地點(diǎn)、內(nèi)容4個(gè)組,并在這4個(gè)向量空間上分別進(jìn)行權(quán)重和相似度計(jì)算。由于新聞的長(zhǎng)度差異性大,短新聞的特征較少,文獻(xiàn)9 采用了新聞擴(kuò)展技術(shù),當(dāng)兩篇新聞的相似度高于預(yù)先定義的閾值時(shí),將這兩篇新聞相互擴(kuò)展。文獻(xiàn)9 嘗試根據(jù)話題將新聞劃分成不同片段,計(jì)算片段之間的相似度。但是這種改進(jìn)并不明顯。語(yǔ)言模型(言模型的主要思想是構(gòu)建過概率公式計(jì)算報(bào)道和話題的相關(guān)性,從而識(shí)別出話題8 。文獻(xiàn)16 針對(duì)新聞建立了一元語(yǔ)法模型,進(jìn)而計(jì)算新聞文檔與話題的相似度。很多研究在語(yǔ)言模型中加入了新聞的其他因素。例如文獻(xiàn)17 采用了多模型方法,分別用人物、時(shí)間、地點(diǎn)、關(guān)鍵詞來表示新聞和話題。由于新聞的時(shí)間以及其他內(nèi)容是不同類型的特征,它們的模型也不同。針對(duì)時(shí)間,使用高斯混合模型表示,而其他內(nèi)容則用一元文法表示。模型參數(shù)用最大似然方法估計(jì)。文獻(xiàn)18 構(gòu)建了一個(gè)相關(guān)模型并且通過比較L)距離來判定話題,研究表明相關(guān)模型與傳統(tǒng)語(yǔ)言模型相比有很大提高。文獻(xiàn)19 將詞劃分成不同的語(yǔ)義類,并為每個(gè)語(yǔ)義類構(gòu)建了一元文法語(yǔ)言模型,采用每個(gè)語(yǔ)義類對(duì)數(shù)似然值的線性組合作為相似度。除了文檔建模方面的研究工作,還有一些研究致力于通過改進(jìn)文本聚類4第1章引言的方法以提高話題檢測(cè)的準(zhǔn)確性。文獻(xiàn)20 首先在在線事件監(jiān)測(cè)任務(wù)中提出有一些研究根據(jù)不同的任務(wù)要求改進(jìn)了聚類算法11 ,21 23 。國(guó)內(nèi)的一些研究也對(duì)此作出了貢獻(xiàn)24 27 。聚類算法是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),而本研究的側(cè)重點(diǎn)是文檔建模。盡管學(xué)術(shù)界已在話題檢測(cè)研究中取得了大量研究成果,但傳統(tǒng)話題檢測(cè)技術(shù)仍然在文檔建模方面存在不足。詞匯是傳統(tǒng)話題檢測(cè)技術(shù)的主流特征,并假設(shè)特征之間的獨(dú)立性。兩個(gè)問題值得關(guān)注:首先,它將一個(gè)詞看作是“死”的字符串,因此只能表示一個(gè)意思,這樣就不能解決一詞多義問題。比如,“蘋果”這個(gè)詞至少具有兩個(gè)不同的意思:一個(gè)指一種水果,另一個(gè)指喬布斯創(chuàng)建的蘋果電腦公司。其次,它的獨(dú)立性假設(shè)忽視了詞之間的關(guān)聯(lián)性,例如同義詞。比如,“電腦”和“電子計(jì)算機(jī)”互為同義詞。舉個(gè)極端的例子,假設(shè)一篇文檔中僅有一個(gè)詞“電腦”,而另一篇文檔中只含有“電子計(jì)算機(jī)”,傳統(tǒng)技術(shù)認(rèn)為這兩篇文檔是完全不同的。為解決上述問題,越來越多的研究將語(yǔ)義信息結(jié)合到話題檢測(cè)算法中。有的研究加入了本體或知識(shí)庫(kù)。例如文獻(xiàn)28 用詞匯鏈表示報(bào)道,該文獻(xiàn)只考慮名詞,并且根據(jù)獻(xiàn)29 也采用了相似的表示方式。文獻(xiàn)30 將詞分為四類:地名、專有名詞、時(shí)間詞和普通詞。對(duì)于每一類,將具有相近含義的詞項(xiàng)放在同一語(yǔ)義組。本體和語(yǔ)義知識(shí)庫(kù)需要人工編輯,其覆蓋面和更新速度都不能滿足互聯(lián)網(wǎng)快速發(fā)展的需要。另外一些研究考慮詞的之間的共現(xiàn)程度。例如文獻(xiàn)2 將經(jīng)常在一個(gè)句子共現(xiàn)的詞定義為一個(gè)基本概念,然后用基本概念表示報(bào)道。文獻(xiàn)31 通過計(jì)算詞的共現(xiàn)得到詞的相關(guān)度,并將與新聞文檔中的詞的相關(guān)度大的詞作為概念詞。但是在這些僅考慮詞共現(xiàn)的研究中,一個(gè)詞只有一個(gè)概念,因此不能解決多義詞問題。年來被廣泛用于信息檢索、文檔分類等領(lǐng)域。主題模型也可以用做話題分析。主題模型的代表模型包括潛語(yǔ)義分析(32 、概率潛語(yǔ)義分析(33 以及潛狄利克雷分布(34 。2 。通過詞文檔矩陣進(jìn)行奇異值分解,消除詞語(yǔ)間相關(guān)性,構(gòu)造出一組標(biāo)準(zhǔn)正交基,即隱含的“人工概念”。但是在這個(gè)模型中,一個(gè)詞只有一個(gè)映射,無法解決多義詞問題。在獻(xiàn)33 提出了設(shè)每篇文檔都是“潛在主5第1章引言題”的混合。與主題表示為詞語(yǔ)的多項(xiàng)分布,所以工概念”相比更直觀,也在一詞多義問題上具有潛力。但此不能預(yù)測(cè)新文檔。針對(duì)這一問題,文獻(xiàn)34 提出了而可以對(duì)新文檔進(jìn)行預(yù)測(cè)?!爸黝}”這一抽象概念進(jìn)行建模,大大提升了深層描述文本語(yǔ)義的能力,在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。但是它仍然存在著一些問題,研究者們陸續(xù)在個(gè)主題是弱相關(guān)的,這與事實(shí)不否,有些主題之間可能存在層次關(guān)系。針對(duì)主題間的層次關(guān)系,文獻(xiàn)35 提出了層次化該模型構(gòu)造了一個(gè)高度固定的主題樹,假設(shè)一個(gè)文檔的所有主題都位于主題樹的一條路徑上。通過動(dòng)地將文本中比較抽象的單詞分配給主題樹中較高層次的主題,從而描述了主題間的層次關(guān)系。但是該模型要求固定主題樹的高度,當(dāng)文本中隱含的主題層次關(guān)系不那么規(guī)律的時(shí)候該模型并不適用。為此文獻(xiàn)36 使用布代替層次破了主題樹高度必須固定的限制。針對(duì)主題間可能存在的兩兩相關(guān)性,文獻(xiàn)37 提出了關(guān)聯(lián)主題模型(用多維高斯分布代替過模型訓(xùn)練,估計(jì)高斯分布的協(xié)方差矩陣來表示主題之間的兩兩相關(guān)性。但是維度過高的時(shí)候會(huì)很不準(zhǔn)確。文獻(xiàn)38 提出了獨(dú)立因子主題模型(借鑒因子分析的思想,假設(shè)主題是主題因子的線性混合。通過估計(jì)混合參數(shù),獲得主題和主題因子的關(guān)聯(lián)性,間接獲得主題間關(guān)聯(lián)性。還有一些改進(jìn)模型加入了其他信息,如作者39 、時(shí)間40 ,41 、事件約束42 ,43 等。還有研究將4 47 。主題模型試圖同時(shí)解決“一詞多義”和“多詞同義”兩個(gè)問題,解決效果并不理想,這是因?yàn)樗鼈冃枰獜奈臋n集全局層面直接尋找主題,同時(shí)解決同義詞和一詞多義問題的難度較大,導(dǎo)致效果下降。因此,一些主題模型48 50 加入了知識(shí)庫(kù)如是這些方法面臨著知識(shí)庫(kù)覆蓋率的問題。基于主題模型的話題分析方法有兩種,一種是直接利用主題模型抽取話題,將主題模型產(chǎn)生的主題作為文檔包含的話題5 ,34 。第二種是在主題空間上利用主題表示文檔和話題,然后利用聚類的方法進(jìn)行話題分析51 。義信息不僅被用在話題分析中,還被廣泛地用在文檔分類、文檔聚類以及信息檢索的文檔建模步驟。研究者嘗試采用概念對(duì)文檔進(jìn)行建模,概念主要來自獻(xiàn)52 提出了明確語(yǔ)義分析(法,將文檔表示為一個(gè)維基百科相關(guān)概念序列,根據(jù)文檔中概念的相關(guān)程度來衡量文檔相似度。是在語(yǔ)義拓展過程中會(huì)加入很多外圍的相關(guān)詞,可能與目標(biāo)不吻合。文獻(xiàn)53 則研究了維基百科對(duì)文本向量的語(yǔ)義擴(kuò)展問題,將文檔詞向量中的每個(gè)詞匹配到維基百科概念,利用同義詞、上層概念、關(guān)聯(lián)概念等實(shí)現(xiàn)向量語(yǔ)義相關(guān)性擴(kuò)充。文獻(xiàn)54 首先識(shí)別出文檔中的概念,然后給相關(guān)分類節(jié)點(diǎn)打分。分類節(jié)點(diǎn)的權(quán)重依賴于文檔中出現(xiàn)該分類標(biāo)題、子分類標(biāo)題或者概念的次數(shù)以及分類的大小。文獻(xiàn)55 則在文檔聚類中分別利用了維基百科中的類別、上下層概念關(guān)系修改文檔相似度公式。文獻(xiàn)56 ,57 采用們采用詞義消歧的算法確定詞的概念
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年惠州大亞灣區(qū)實(shí)驗(yàn)學(xué)校校聘合同制教師招聘?jìng)淇碱}庫(kù)及一套完整答案詳解
- 2026年壽縣建豪人力資源服務(wù)有限公司壽縣數(shù)據(jù)資源管理局勞務(wù)派遣崗位招聘?jìng)淇碱}庫(kù)及答案詳解1套
- 2026年臺(tái)州市市政公用工程建設(shè)中心(臺(tái)州市村鎮(zhèn)建設(shè)事務(wù)中心)招聘編制外用工備考題庫(kù)完整參考答案詳解
- 2026年中煤第六十八工程有限公司招聘?jìng)淇碱}庫(kù)完整參考答案詳解
- 2026年廣西壯族自治區(qū)防城金花茶國(guó)家級(jí)自然保護(hù)區(qū)管理中心公開招聘工作人員備考題庫(kù)及1套參考答案詳解
- 2026年寧德市東僑經(jīng)濟(jì)技術(shù)開發(fā)區(qū)區(qū)屬學(xué)校公開招聘緊缺急需教師13人備考題庫(kù)及1套參考答案詳解
- 2026年廣西水利電力建設(shè)集團(tuán)有限公司招聘?jìng)淇碱}庫(kù)參考答案詳解
- 社區(qū)居委會(huì)內(nèi)控制度
- 住建局建管股內(nèi)控制度
- 實(shí)物資產(chǎn)內(nèi)控制度
- 2026年中國(guó)數(shù)聯(lián)物流備考題庫(kù)有限公司招聘?jìng)淇碱}庫(kù)及參考答案詳解一套
- 四川省樂山市2026屆高一上數(shù)學(xué)期末質(zhì)量檢測(cè)試題含解析
- 2025年天津中德應(yīng)用技術(shù)大學(xué)馬克思主義基本原理概論期末考試真題匯編
- 2025青海省交通控股集團(tuán)有限公司面向社會(huì)公開招聘70人筆試歷年參考題庫(kù)附帶答案詳解
- 韓語(yǔ)興趣愛好課件
- 青霉素過敏性休克處理
- 70周歲換證三力測(cè)試題,老人駕考模擬測(cè)試題
- 工地清場(chǎng)協(xié)議書
- 2026年包頭輕工職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案詳解
- 青海省西寧市2024-2025學(xué)年六年級(jí)上學(xué)期期末教學(xué)質(zhì)量檢測(cè)數(shù)學(xué)試卷
- 名校簡(jiǎn)介課件
評(píng)論
0/150
提交評(píng)論