【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)論文檢索系統(tǒng)-計(jì)算機(jī)科學(xué)與技術(shù)網(wǎng)絡(luò)與分布式系統(tǒng)

上傳人：O*** IP屬地：四川上傳時(shí)間：2016-07-09 格式：DOC 頁數(shù)：32 大小：484KB 積分：20 舉報(bào) 版權(quán)申訴

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)論文檢索系統(tǒng)-計(jì)算機(jī)科學(xué)與技術(shù)網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)論文檢索系統(tǒng)-計(jì)算機(jī)科學(xué)與技術(shù)網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)論文檢索系統(tǒng)-計(jì)算機(jī)科學(xué)與技術(shù)網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)論文檢索系統(tǒng)-計(jì)算機(jī)科學(xué)與技術(shù)網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁

已閱讀5頁，還剩27頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本科生畢業(yè)論文題目 :基于臺(tái) 論文檢索系統(tǒng) 姓名：學(xué) 號： 00548193 院系：信息科學(xué)技術(shù)學(xué)院專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)系指導(dǎo)教師：閆宏飛副教授二一六年七月九日摘要：本文基于天網(wǎng)實(shí)驗(yàn)室的索引擎平臺(tái)，500多篇論文為數(shù)據(jù)，搭建成一個(gè)論文搜索系統(tǒng)，最終目的是通過論文之間的引用關(guān)系，獲得其他引用這篇論文的作者對這篇論文的評價(jià)，形成一個(gè)小的評價(jià)段落，以及而使得我們能夠從專業(yè)級的角度獲得這篇論文的內(nèi)容以及優(yōu)劣。面抓取了文章之間的引用關(guān)系，然后通過一個(gè)算法獲得了對一篇文章評價(jià)的候選句子集，根據(jù)這些句子的重要程度進(jìn)行排序，獲得一個(gè)評價(jià)短文。并且構(gòu)建了一個(gè)語言模型，通過這些候選句子集對原文的句子進(jìn)行評分，取得分最高的幾個(gè)句子，獲得原文基于影響的概括。關(guān)鍵詞搜索引擎 , 論文評價(jià) , 語言模型 , 法 , 基于影響的概括 3 n on 500 in of we a of is to of on We on a we a we in 4 目錄第 1章引言 . 5 . 5 . 2 . 2 . 2 . 3 臺(tái)搭建搜索平臺(tái) . 3 . 3 第 2章數(shù)據(jù)的收集 . 5 . 5 . 6 . 7 第 3章生成評論集 . 10 . 10 . 11 第 4章建立模型并生成基于影響的概括 . 13 . 13 . 13 . 14 . 15 第 5章搭建搜索引擎 . 16 5.1 . 16 . 17 . 18 . 19 . 19 . 20 . 21 第 6章實(shí)驗(yàn)結(jié)果與分析 . 22 . 22 . 22 第 7章后續(xù)工作 . 26 第 8章致謝 . 27 5 第 1 章引言究背景如今，全世界范圍內(nèi)學(xué)術(shù)活動(dòng)日益積極，所產(chǎn)生的論文也在不斷增多，因此，如何搜索到自己所需要的論文，以及自動(dòng)獲取一些關(guān)于論文的信息，是客觀需要的。學(xué)術(shù)檢索，絕不簡簡單單的檢索出所要查找的論文，這樣就和普通的通用搜索引擎如術(shù)檢索，更側(cè)重于深層次的內(nèi)容挖掘。例如，可以通過一篇論文所引用的文章以及所屬領(lǐng)域，尋找出這個(gè)文章所在領(lǐng)域的主要論文，這對了解一篇論文的背景知識以及理解一個(gè)領(lǐng)域的發(fā)展非常重要。在 11(L. 提到了文獻(xiàn)檢索現(xiàn)在主要的發(fā)展方向，有以下幾點(diǎn)：是從語言模型的角度，讓人們更加準(zhǔn)確的找到所需要的論文。及一些較權(quán)威的作者，幫助讀者了解相關(guān)知識。 3.從度，挖掘出一些知識，最常見的，就是通過一篇論文的被引用次數(shù)確定它的排名以及影響力。我們知道，國外的生在第一年的學(xué)習(xí) 之后都是要通過試的，考試的形式一般是先讀幾十篇論文，然后根據(jù)這些論文的內(nèi)容進(jìn)行一些答辯。這時(shí)候，他們往往很想知道別人是如何評價(jià)這篇論文的，這篇論文有什么優(yōu)點(diǎn)和缺點(diǎn)，有什么后續(xù)的研究等等。這就像我們準(zhǔn)備去一個(gè)地方去旅游，不僅需要該景點(diǎn)本身的介紹（有點(diǎn)類似于摘要），往往更想知道去過這個(gè)地方的人都是如何評價(jià)這些地方的。通過對這篇論文的評價(jià)，我們可以從更專業(yè)并且更加廣闊的角度獲得這篇論文的一些信息，并且可以知道這篇論文之后可以做哪些事情。基于上面的觀點(diǎn)，我們就準(zhǔn) 備做出這樣一個(gè)知識提取系統(tǒng)，通過這個(gè)系統(tǒng)，可以自動(dòng)獲得別人對這篇論文的評價(jià) 22，以及論文中的一些較有影響力的信息，從而幫助人們更好的理解這篇論文。整體流程如圖表 1。在 33(，作者利用法建立了一個(gè)模型，生成了一篇論文基于影響的概括，但是它并沒有強(qiáng)調(diào)評論的重要性（這里的評論，是指別的作者對它引用的一篇文章的評論），它只講評論當(dāng)成一個(gè)中間狀態(tài)，當(dāng)成一個(gè)求得基于影響的概括的手段。實(shí)際上，這些評論和最終經(jīng)過法形成的概括是同等重要的，有時(shí)候，它甚至比后者更加清晰易懂。本文相對于 33的優(yōu)點(diǎn)是，賦予評論以及概括同等重要的意義，并且形成了一個(gè)實(shí)際的系統(tǒng)供人使用，而不僅僅是用于研究。 2 作內(nèi)容取所需要的論文數(shù)據(jù) 要進(jìn)行論文搜索，首先需要一批實(shí)驗(yàn)數(shù)據(jù)，我是從抓取下來的。之所以選擇從這上面抓取，是因?yàn)槲覀儾粌H需要論文的檔，還需要從中自動(dòng)提取摘要、引用等信息，而這本身就應(yīng)該是一個(gè)挺復(fù)雜的算法了，而且不是我們工作的目的，而上述網(wǎng)站已經(jīng)人工的將論文的摘要、引用信息提取了出來，并且對于每一個(gè)引用還有相應(yīng)的鏈接，因此會(huì)節(jié)省我們抓取數(shù)據(jù)所要花費(fèi)的工作量。最終我們會(huì) 將抓取的數(shù)據(jù)存儲(chǔ)在得一篇論文的評價(jià)并較好的顯示出來我們這個(gè)系統(tǒng)的主要工作是通過別的論文對原論文的評論，來獲得一些不能直接從原論文中獲得的信息，因此，最基礎(chǔ)的，就是如何獲得這些評論。關(guān)于這一點(diǎn)，我們通過上面的數(shù)據(jù)收集工作，會(huì)獲得一個(gè)論文之間的引用圖，然后通過引用的倒置，能夠獲得引用一篇論文的所有文章，然后，通過一個(gè)算法，可以從這些文章中提取出對原文進(jìn)行評價(jià)的句子。最終，為了便于使用者觀看，還需要對這些句子進(jìn)行一些整理，進(jìn)行排序、整理成一個(gè)段落出來。論文 1 正文引用 1 引用 2 論文 2 正文引用 1 引用 2 源論文句子 1 句子 2 句子 3 句子 4 . 引用評論引用評論評論基于影響的概括圖表 1 3 得一篇論文基于影響的總結(jié)段落在獲得對原文進(jìn)行評論的句子之后，將原文劃分成一個(gè)一個(gè)的句子，我們利用了法（ 33），對這些句子進(jìn)行打分，這里分?jǐn)?shù)的高低，代表了原文中每一個(gè)句子影響程度的高低，顯然，影響越大的句子，在別的文章中提及的越多，其分?jǐn)?shù)就越高。最后，我們?nèi)∫欢〝?shù)量得分最高的句子，組成一個(gè)段落，這個(gè)段落是對原文的一個(gè)概括，而且會(huì)獲摘要所不能獲得一些信息的一些信息。于臺(tái)搭建搜索平臺(tái) 我們基于索引擎平臺(tái)搭建成了一個(gè)關(guān)于全文搜索系統(tǒng)。預(yù)處理，簡歷索引，檢索，前臺(tái)四部分組成。由于我們的數(shù)據(jù)是論文，并且已經(jīng)轉(zhuǎn)化為了處理這一部就略去了，需要繼承一個(gè)建立索引的類，并且修改一些前臺(tái)的接口就可以了，這樣就搭建成了一個(gè)論文搜索系統(tǒng)。這一過程也體現(xiàn)出了的每一個(gè)組件都是可以通過繼承一個(gè)自定義的新類來完成的，其中包括預(yù)處理、索引、檢索、語言模型、排序、壓縮等等所有的模塊都可以自己選擇或者自己重新定義來完成。我們在讀一篇論文之前，一般能簡單的看到它的摘要、作者等信息。而在讀完一篇論文之后，我們能獲得什么信息呢？主要有以下幾種： (1) 這篇文章做了什么事情，這可以從摘要中獲得。 (2) 這篇文章中涉及到的核心算法，這個(gè)只有在細(xì)致的讀完了這篇文章之后才能理解，應(yīng)該是沒法依靠輔助來獲得的。 (3) 這篇文章哪些部分比較重要，哪些部分比較好，哪些部分需要改正，我們可以從哪些方向進(jìn)行擴(kuò)展。對于第三點(diǎn)，如果完全自己理解，可能會(huì)比較困難，而且對讀者自己的要求也比較高，可能要讀了很多這方面的背景知識、后續(xù)論文等等才可能獲得，而通過我們做的這個(gè)系統(tǒng)，就可以幫助大家更簡單的獲得一些從文章中不能直接獲得信息。一般來說，作者如果想從自己的角度歸納本文的大體內(nèi)容，通過閱讀摘要，我們可以看到作者寫這篇文章大體做了什么。但是文章中很有可能有一些作者沒有發(fā)現(xiàn)，或者作者當(dāng)前沒有重視但是以后被別人發(fā)掘出來很重要的意義。通過將那些對文章進(jìn)行引用的句子，與本文建模，對原文中的句子進(jìn)行排序，從而獲得 4 文章中一些有特殊意義，影響較大的句子，這樣，我們可以獲得文章中最重要的信息，而這些重要信息和摘要的區(qū)別就是，它們不是作者提出來的，而是別的作者在讀了這篇文章以及其他的文章，經(jīng)過很多思考之后，總結(jié)出來的這篇文章最重要的地方。此外，別的文章中對原文進(jìn)行評論的句子 (44)，本身就是很重要的信息，可以讓我們知道原文都做了那些后續(xù)工作，或者那些部分比較好，哪些部分需要改正。簡單來說，我們這個(gè)系統(tǒng)的意義，就是通過數(shù)據(jù)挖掘的方法，獲得一些直接從原論文很難發(fā)現(xiàn)的信息，并且結(jié)合統(tǒng)，以搜索引擎的方式呈現(xiàn)出來，便于大家檢索查找。 5 第 2 章數(shù)據(jù)的收集我們這個(gè)系統(tǒng)的目的是為了方便讀者理解論文，因此除了需要基本的論文的需要提取發(fā)表期刊、作者、摘要、被應(yīng)用次數(shù)，引用文章這些信息。其中，發(fā)表期刊、作者以及被引用次數(shù)是用來在后面獲得及行排序的時(shí)候加權(quán)用的，顯而易見，較好的期刊，較有名的作者，引用次數(shù)較高的文章，它做出的評價(jià)應(yīng)該要重要一些（當(dāng)然，這里只是預(yù)留著為以后的擴(kuò)展用，而我們的系統(tǒng)實(shí)際上并沒有用到作者的知名度信息）。當(dāng)然，其中最重要的是提取引用的信息。我們的目標(biāo)是通過獲得每篇文章所引用過的文章，建立一個(gè)映射表，然后將映射表倒置過來，從而獲得每篇文章被哪些文章引用過。何提取數(shù) 據(jù) 首先，是如何提取文章的摘要等各種信息了。本來我是準(zhǔn)備直接從文章中提取的，隨著工作的深入，發(fā)現(xiàn)這樣做有很多的缺點(diǎn)，首先，從提取各種信息就是一個(gè)很繁重的工作，這本身就可以當(dāng)做一個(gè)畢業(yè)設(shè)計(jì)來做了，會(huì)消耗我大量的時(shí)間，但卻不一定能夠達(dá)到工作的目的；其次，最重要的是，在每一篇文章里，者，文章名，發(fā)表期刊，年份）的形式表現(xiàn)出來的，例如： G. H. J. J. M. . A PI 15:93 100, 2003. 而我們存儲(chǔ)每篇文章的時(shí)候，是以期刊作為文件夾，以文章作文文件名來存儲(chǔ)的，例如這篇論文，以下面的形式存儲(chǔ)的。因此，我們需要從上面的那句話中提取會(huì)議名以及文章名，才能獲得文章之間的引用關(guān)系，建立一個(gè) ，這之中甚至是相差一個(gè)空格都不行的，會(huì)直接導(dǎo)致整個(gè)系統(tǒng)的失敗。于是，我們想出了一個(gè)簡單的辦法?？梢钥吹?，在，每一篇論文的格式都是規(guī)整的，從上面可以很容易的提取出摘要、文章名、期刊等 6 信息，可以下載到重要的是，對于論文的引用信息，在該網(wǎng)頁上該出了一個(gè)超鏈接，點(diǎn)擊之后就可以進(jìn)入引用的文章的信息。因此，可以利用遞歸的方法，進(jìn)入引用的文章，從中提取出會(huì)議名以及文章名，這樣，每篇文章的引用就可以形成上面的格式，并且是完全正確的，方便我們建立引用映射表。接著，要設(shè)定遞歸的種子以及遞歸的層數(shù)。因?yàn)槲覀兊膶?shí)驗(yàn)所需要的數(shù)據(jù)最好是在一個(gè)領(lǐng)域里面的一個(gè)方向的論文，并且需要引用關(guān)系較緊密的，以便于后續(xù)的工作，因此，這里采用于每一篇文章遞歸三層。如果遞歸四層，就會(huì)太多了。假設(shè)一篇文章又十個(gè)引用，那么遞歸四層，就會(huì)導(dǎo)致沒從議中抓取一篇文章，就需要抓取 1000 篇相應(yīng)的其他文章，這個(gè)數(shù)量實(shí)在是太大了；如果遞歸兩層，就會(huì)導(dǎo)致每篇文章只能抓取其引用的文章，這樣引用的層次較淺，很有可能導(dǎo)致最后引用倒置時(shí)，每一篇文章只被一兩篇文章引用，這樣不利于我們的實(shí)驗(yàn) 。最后，我們需要將化為式，這是利用帶的是這個(gè)工具并不支持對文件夾的遞歸操作，因此，我用過遞歸操作，可以將一個(gè) 件遞歸轉(zhuǎn)化為按照原來的相對路徑存在據(jù)抓取的過程已經(jīng)確定抓取數(shù)據(jù)的大體方法了，下面就要開始正式的抓取數(shù)據(jù)了。所用的工具比較簡單，就是利用的具，將網(wǎng)頁下載到文本文件里進(jìn)行分析。另外我們這里利用了第三方庫種正則表達(dá)式非常適合從網(wǎng)頁中進(jìn)行模式匹配并且提取出數(shù)據(jù)。有了前面的兩項(xiàng)工具，我們只需要分析好網(wǎng)頁的模式，盡量正確的提取數(shù)據(jù)既可以了，需要注意的是，由于網(wǎng)頁并不是完全規(guī)整的，因此，有時(shí)候，對于同一個(gè)數(shù)據(jù)，往往要寫多種匹配的公式才可以，這其中，最麻煩的當(dāng)屬提取引用部分了（我們不僅要提取引用，還要提取這個(gè) 引用對應(yīng)得而遞歸進(jìn)入提取它的論文名）。以提取作者信息為例： u 我們需要從上面得公式中提取出作者名，需要以下幾步： (1) 利用式寫一個(gè)正則表達(dá)式匹配上面的文本 s*(s* , 其中引號中的內(nèi)容為匹配的正則表達(dá)式，注意其中的一對小括號，其中的內(nèi)容就是我們需要提取的信息 (2) 利用結(jié)果存入這樣，文章中所有匹配上面正則表達(dá)式的字符串，其中的作者信息（即上面括號中的內(nèi)容），都會(huì)存在還需要注意的一點(diǎn)就是，由于網(wǎng)頁的不規(guī)整性，所以要排除一些錯(cuò)誤的情況。還有一些文章，確實(shí)沒有摘要、引用或者其他信息（這些文章多出現(xiàn)在引用鏈的頂層，主要是一些書籍等參考資料，所以也比較正常），遇到這些情況我們就不抓取下來了。據(jù)的存儲(chǔ)及解析在將數(shù)據(jù)從網(wǎng)頁下載下來之后，需要存儲(chǔ)起來。首先，對于格式，只能存在文件系統(tǒng)里，按正常的方式存儲(chǔ)。對于其他的信息，這里選擇存儲(chǔ)在面。一種輕量級的數(shù)據(jù)庫，數(shù)據(jù)庫底層就是利用完成的。它的有點(diǎn)是可移動(dòng)性，不用想樣搭建服務(wù)器，而且讀取數(shù)據(jù)時(shí)較快。對于每一篇文章的基本信息照【表格 1】中的形式存入表格 1 符流 ,存儲(chǔ)元數(shù)據(jù)信息，按如下格式： *8 *得這些基本信息之后，我們還要根據(jù)這些元信息，陸續(xù) 建立一些于存儲(chǔ)其他信息，如表格 2：表格 2 文件名論文篇論文的全部文本內(nèi) 容論文于存儲(chǔ) 一篇論文所引用的所有文章論文于存儲(chǔ) 一篇論文被哪些文章所引用論文儲(chǔ)最終要顯示在頁面上的文章的評價(jià) 論文儲(chǔ)最終要顯示在頁面上的基于影響的文章的概括其中通過將式轉(zhuǎn)化為后獲得的。從上面的元數(shù)據(jù)中，我們可以獲得每個(gè)論文所引用的論文的名稱，這樣，我們可以通過這些名稱，來獲得這個(gè)論文所引用的所有論文的且存儲(chǔ)到數(shù)據(jù)庫中。獲得后，對其進(jìn)行倒置，就可以獲得這里之所以選擇因?yàn)樗幸韵逻@些優(yōu)點(diǎn)：嵌入式（它直接鏈接到應(yīng)用程序中，與應(yīng)用程序運(yùn)行于同樣的地址空間中，因此，無論是在網(wǎng)絡(luò)上不同計(jì)算機(jī)之間還是在同一臺(tái)計(jì)算機(jī)的不同進(jìn)程之間，數(shù)據(jù)庫操作并不要求進(jìn)程間通訊。 B 為多種編程語言提供了中包括 C、 C+、有的數(shù)據(jù)庫操作都在程序庫內(nèi)部發(fā)生。對于我們這個(gè)系統(tǒng)，后臺(tái)程序是由 c+完成，而前臺(tái)程序是由成，他們都會(huì)共同訪問一些文件，通過存儲(chǔ)在行存儲(chǔ)，就解決了不同語言之間兼容的問題。輕便靈活（它可以運(yùn)行于幾乎所有的統(tǒng)及其 9 變種系統(tǒng)、它并不需要搭建一個(gè)數(shù)據(jù)庫服務(wù)器，以用戶、服務(wù)器形式訪問數(shù)據(jù)庫，而是以函數(shù)調(diào)用的形式。一旦端用戶一般根本感覺不到有一個(gè)數(shù)據(jù)庫系統(tǒng)存在。這樣提高了我們的系統(tǒng)的實(shí)用性，當(dāng)用戶需要自己搭建一個(gè)我們的論文系統(tǒng)時(shí)，不用再去搭建數(shù)據(jù)庫服務(wù)器，進(jìn)行各種繁瑣的配置。 10 第 3 章生成評論集通過上面的內(nèi)容之后，我們獲得了所有基本的信息，其中，最重要的，獲得了，該表的一篇論文 A 的引用 A 的所有論文下面我們就要結(jié)合前面獲得的數(shù)據(jù)，包括論文的文本、元數(shù)據(jù)，來獲得一篇論文的評論集。得評價(jià)的候選句子集通過們可以獲得一個(gè)集合 2,.，其中進(jìn)行了引用。我們相信，如果進(jìn)行了引用，那么進(jìn)行了評價(jià)。一般有以下幾種情況： (1) 的論文名 (2) 的作者名 (3) 在表中，如果 A 出現(xiàn)在第么通常在文章中會(huì)利用 k來對 (4) 3)的情況，有時(shí)候并不只是對 k 進(jìn)行引用，可能文章中的一句話代表的是好幾篇文章的工作概括，因此會(huì)出現(xiàn)“ i,k,j”這種類型的符號來對且出現(xiàn)的概率很高。 (5) (如果的某句話對 A 進(jìn)行了評論，那么通常它的前一句話和后一句話也會(huì)出現(xiàn)評價(jià)的信息通過上面的 5 點(diǎn)，我們就可以獲得了對 A 進(jìn)行評價(jià)的句子，從而獲得了一個(gè)候選句子集，里面的每一句話都不同程度的對。 11 圖表 2 如圖表 2所示流程，具體實(shí)現(xiàn)的時(shí)候，先要將 .，然后遍歷這個(gè)句子序列，對于每一個(gè)句子，按照上面的前四條規(guī)則進(jìn)行評判，如果滿足其中任意一條，則這個(gè)句子是候選句子集合中的一個(gè)，并將其前后兩個(gè)句子也合到一起，添加的候選句子集合中。最終，得到對 e1,e2,.，這里面可能會(huì)有一些評價(jià)來自同一篇論文。得評論段落獲得了候選句子集之后，我們需要對其進(jìn)行適當(dāng)?shù)呐判?，從中選出較好的幾個(gè)句子，最終顯示在頁面上。由于不同的人，對這篇論文的評價(jià)可能也不太一樣，因此，就不能簡單的按照這些評價(jià)句子與原文的相似度來進(jìn)行打分排序了，因?yàn)檫@樣會(huì)造成和原文觀點(diǎn)相近的評分較高，不是我們希望獲得的結(jié)果。實(shí)際上，有時(shí)候越是和原文的觀點(diǎn)不同，反而可能越重要，它可能是對這篇文章的批判，也有可能是原文的作者并在寫對我們尋找后續(xù)工作時(shí)可能會(huì)非常重要。我們在提取數(shù)據(jù)的同時(shí)，會(huì)獲得每一篇文章的表這篇文章被引用的次數(shù)，一般，一個(gè)較好的文章，被引用的次數(shù)也應(yīng)當(dāng)比較多，因此，對于每一個(gè)評價(jià)，根據(jù)它所在文章的被引用次數(shù)進(jìn)行排序，可以獲得較為專業(yè)， 12 也較為合理的結(jié)果。同時(shí)，需要注意的是，如果一個(gè)篇論文的被引用次數(shù)很高，而且它又有兩段評論原文的句子時(shí)，那么這兩段會(huì)一起出現(xiàn)在最終的結(jié)果里，在這里我們就需要對結(jié)果進(jìn)行調(diào)整，保證在權(quán)重相同的情況下，盡可能選擇盡量不同的文章的評論。 13 第 4 章建立模型并生成基于影響的概括通過獲得了對源論文的評論集合，下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括，簡單來說，就是某句話與評論之間的關(guān)系越緊密，那么這句話的影響力就越大。最終將影響力最大的幾個(gè)句子合在一起，就形成了基于影響的概括。模之前我們所有的數(shù) 據(jù) 在建模之前，我們先來看看我們已經(jīng)獲得了哪些數(shù)據(jù)： (1)所有論文集合 D，以及成一個(gè)單詞表 V，并且可以統(tǒng)計(jì)出每個(gè)單詞 w 出現(xiàn)的次數(shù) C(w,D) (2)對于一篇論文 d，將其劃分為多個(gè)句子 (3)已經(jīng)獲得了這片論文進(jìn)行評論的所有句子 , 把他們的集合成為 C（下面，我們就可以參照法 (33， ei 對里的打分，主要是基于詞頻以及相似度來做的。模算法首先，為任何一個(gè)句子打分的公式 s)如下： ( ) ( | | )( | ) l o g ( ( | ) ) ( | ) l o g ( ( | ) )s I w VS c o r e s Dp w p w p w p w 從信息理論的觀點(diǎn)，其中 ( | )即為以被解釋為通過句子示基于影響的段落，需要從文章中刪除的信息量。顯然，其值越小，也越能代表文章以及其他文章對它的評價(jià)的意思（因?yàn)樗灰獎(jiǎng)h除較少的信息） 14 可以看出，公式中最重要的是求出 ( | ) ( | )w p w和( , ) * ( | )(1 ) ( | )|w s p w ( , ) ( | )( 2 ) ( | )|w d p w 對于公式（ 1），其中， ( , )c 示一個(gè)單詞 ( | )p w s為平滑參數(shù)。我們假設(shè)s為 |s|的 (1)式可以看成是 ( | ) ( | ) *11p w s p w D ,可見，s越大，表示 w 與整個(gè)論文空間的關(guān)系越大，而與這個(gè)句子的關(guān)系則較少。時(shí)，則表示二者一樣，各占 1/2。我在這里將s設(shè)置為了 1。對于公式 (2)，其中 ( , )c 示一個(gè)單詞 ( | )p w C 表示單詞中出現(xiàn)的概率。C為平滑參數(shù)。我們?nèi)匀患僭O(shè) u 為 w 的 n 倍，則 (2)式可以看成( | ) ( | ) *11p w d p w C ，可見，示這個(gè)單詞的關(guān)系越大，而時(shí)，則與論文本身關(guān)系較大?？梢钥闯?，極端的情況，當(dāng) 時(shí)，則我們獲得的那些評價(jià)都沒有關(guān)系了，因此獲得的句子實(shí)際上對其他論文也沒有什么影響了。因此，對于本實(shí)驗(yàn)，應(yīng)當(dāng)將法的實(shí)現(xiàn) 具體實(shí)現(xiàn)算法時(shí)，會(huì)出現(xiàn)一些問題：我們假設(shè)一篇論文可以劃分成 1000 個(gè)句子，每個(gè)句子有 20個(gè)不同單詞，我們總共有 2000篇論文，那就有 4億個(gè)單詞。那么，對于每一個(gè)句子 s，我們在進(jìn)行上面的算法時(shí)，需要進(jìn)行如下一步 ( ( | ) l o g ( ( | ) ) ( | ) l o g ( ( | ) ) )I s I w p w p w p w 這就需要對這 4億個(gè)單詞進(jìn)行遍歷一遍，并且分別計(jì)算括號中的那一步。而每篇論文有 1000個(gè)句子，就相當(dāng)于要計(jì)算 4000億次，這個(gè)計(jì)算量對我們來說太龐大了，因此，我在這里選取了一個(gè)簡便一點(diǎn)的方法，就是在上面的一步時(shí)，并不是對整個(gè)單詞空間進(jìn)行計(jì)算，而只是對論文中出現(xiàn)的所有單詞進(jìn)行遍歷計(jì)算打分。可以看出，對于一個(gè)既不在中的單詞， ( | ) 此，上面的公式只是理論的公式，具體應(yīng)用時(shí)，只需要對 d 和就節(jié)省了大量的計(jì)算量。整個(gè)流程如圖表 3， 15 需要用到圖表 2中的前三部算法獲得的評論列表。這里之所以不用圖表 2的最終結(jié)果，是因?yàn)槲覀冃枰嗟男畔?，信息越多，獲得的概括越具有影響力。圖表得基于影響的概括通過上面的模型，可以對后根據(jù)所打得分?jǐn)?shù)進(jìn)行從打到小排序。這里因?yàn)槊科撐闹挥?1000 左右的句子，數(shù)量級并不是很大，就自己寫了一個(gè)簡單的冒泡排序算法來排序。之后，選擇其中得分最高的合在一起，就獲得了原文基于影響的概括了。從整個(gè)建模的過程中也可以看出，所謂基于影響，就是通過哪些對 A 進(jìn) 行評價(jià)的句子集 C，分別獲得這些句子的相似程度，與其相似程度最高的，證明這個(gè)句子被其他作者提及的最多，影響最大。而這個(gè)概括與摘要的區(qū)別就是，影響較大的句子，可能原來的作者并沒有想到，因此在摘要中并沒有提及（正所謂無心插柳柳成蔭）；而摘要中提及的部分，影響可能反而沒有那么大。圖表 3 16 第 5 章搭建搜索引擎本段內(nèi)容主要介紹如何利用索引擎平臺(tái)來搭建我們的論文檢索系統(tǒng)。通過這段內(nèi)容，我們可以了解到用的基本過程，最終我們會(huì)發(fā)現(xiàn)，如果想搭建其他方向的搜索引擎，使用 5.1 構(gòu)簡介統(tǒng)，全稱是是網(wǎng)絡(luò)實(shí)驗(yàn)室搜索引擎組耗時(shí)一年多開發(fā)的一個(gè)國家 863項(xiàng)目，其目的是建立一個(gè)搜索引擎平臺(tái)，將搜索引擎的各個(gè)部分模塊化，使得這個(gè)搜索引擎不在針對專一的某一個(gè) 領(lǐng)域，而是可以針對各個(gè)領(lǐng)域。其功能有點(diǎn)類似于其不同的是用 c+編寫的。見表格 3 表格 3 1）于對網(wǎng)頁進(jìn)行去噪、消重以及編碼轉(zhuǎn)換等等處理，如果是對網(wǎng)頁構(gòu)建搜索引擎，這一步驟就可以省略了。（ 2）索引模塊，用于將需要檢索的部分建立倒排索引。（ 3）可以利用于每一個(gè)詞，去倒排索引里面查找包含它的文檔中的（網(wǎng)頁中為從而完成檢索。（ 4）前臺(tái)模塊，完成一個(gè)類似于天網(wǎng)搜索引擎的前臺(tái)界面。除了現(xiàn)實(shí)結(jié)果之外，還進(jìn)行摘要處理，一個(gè)文檔的摘要。這個(gè)地方需要注意的就是與在后面提到。除了以上 4個(gè)大的模塊之外，提供了很多可供選擇以及繼承修改的小模塊例如，在語言模型這個(gè)部分，可以選擇需要的模型，也可以自己重寫一些語言模型。壓縮

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】（Word原稿）基于PARADISE平臺(tái)論文檢索系統(tǒng)-計(jì)算機(jī)科學(xué)與技術(shù)網(wǎng)絡(luò)與分布式系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔