已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
本科生畢業(yè)論文 題目 :基于 臺(tái) 論 文 檢 索 系 統(tǒng) 姓 名: 學(xué) 號: 00548193 院 系: 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計(jì)算機(jī)科學(xué)與技術(shù)系 指導(dǎo)教師: 閆宏飛 副教授 二一六年七月九日 摘要: 本文基于天網(wǎng)實(shí)驗(yàn)室的 索引擎平臺(tái),500多篇論文為數(shù)據(jù),搭建成一個(gè)論文搜索系統(tǒng),最終目的是通過論文之間的 引用關(guān)系,獲得其他引用這篇論文的作者對這篇論文的評價(jià),形成一個(gè)小的評價(jià)段落,以及 而使得我們能夠從專業(yè)級的角度獲得這篇論文的內(nèi)容以及優(yōu)劣。面抓取了文章之間的引 用關(guān)系,然后通過一個(gè)算法獲得了對一篇文章評價(jià)的候選句子集,根據(jù)這些句子的重要程度進(jìn)行排序,獲得一個(gè)評價(jià)短文。并且構(gòu)建了一個(gè)語言模型,通過這些候選句子集對原文的句子進(jìn)行評分,取得分最高的幾個(gè)句子,獲得原文基于影響的概括。 關(guān)鍵詞 搜索引擎 , 論文評價(jià) , 語言模型 , 法 , 基于影響的概括 3 n on 500 in of we a of is to of on We on a we a we in 4 目錄 第 1章 引言 . 5 . 5 . 2 . 2 . 2 . 3 臺(tái)搭建搜索平臺(tái) . 3 . 3 第 2章 數(shù)據(jù)的收集 . 5 . 5 . 6 . 7 第 3章 生成評論集 . 10 . 10 . 11 第 4章 建立模型并生成基于影響的概括 . 13 . 13 . 13 . 14 . 15 第 5章 搭建搜索引擎 . 16 5.1 . 16 . 17 . 18 . 19 . 19 . 20 . 21 第 6章 實(shí)驗(yàn)結(jié)果與分析 . 22 . 22 . 22 第 7章 后續(xù)工作 . 26 第 8章 致謝 . 27 5 第 1 章 引言 究 背景 如今,全世界范圍內(nèi)學(xué)術(shù)活動(dòng)日益積極,所 產(chǎn)生的論文也在不斷增多,因此,如何搜索到自己所需要的論文,以及自動(dòng)獲取一些關(guān)于論文的信息,是客觀需要的。 學(xué)術(shù)檢索,絕不簡簡單單的檢索出所要查找的論文,這樣就和普通的通用搜索引擎如 術(shù)檢索,更側(cè)重于深層次的內(nèi)容挖掘 。 例如,可以通過一篇論文所引用的文章以及所屬領(lǐng)域,尋找出這個(gè)文章所在領(lǐng)域的主要論文,這對了解一篇論文的背景知識以及理解一個(gè)領(lǐng)域的發(fā)展非常重要。在 11(L. 提到了文獻(xiàn)檢索現(xiàn)在主要 的發(fā)展方向, 有以下幾點(diǎn): 是從語言模型的角度 ,讓人們更加準(zhǔn)確的找到所需要的論文。 及一些較 權(quán)威的作者,幫助讀者了解相關(guān)知識。 3.從 度,挖掘出一些知識,最常見的,就是通過一篇論文的被引用次數(shù)確定它的 排名以及影響力。 我們知道,國外的 生在第一年 的學(xué)習(xí) 之后都是要通過 試的,考試的形式一般是 先讀幾十篇論文,然后根據(jù)這些論文的內(nèi)容進(jìn)行一些答辯。這時(shí)候,他們 往往很想知道別人是如何評價(jià)這篇論文的,這篇論文有什么優(yōu)點(diǎn)和缺點(diǎn),有什么后續(xù)的研究等等。這就像我們準(zhǔn)備去一個(gè)地方去旅游,不僅需 要該景點(diǎn)本身的介紹(有點(diǎn)類似于摘要),往往更想知道去過這個(gè)地方的人都是如何評價(jià)這些地方的。通過對這篇論文的評價(jià),我們可以從更專業(yè)并且更加廣闊的角度獲得這篇論文的一些信息,并且可以知道這篇論文之后可以做哪些事情。 基于上面的觀點(diǎn),我們就準(zhǔn) 備做出這樣一個(gè)知識提取系統(tǒng),通過這個(gè)系統(tǒng),可以自動(dòng)獲得別人對這篇論文的評價(jià) 22,以及論文中的一些較有影響力的信息,從而幫助人們更好的理解這篇論文。 整 體 流程如 圖表 1。 在 33(,作者利用 法建立了一個(gè)模型,生成了一篇論文基于影響的概括,但是它并沒有強(qiáng)調(diào)評論的重要性( 這里 的評論,是指別的作者對它引用的一篇文章的評 論),它只講評論當(dāng)成一個(gè)中間狀態(tài),當(dāng)成一個(gè)求得基于影響的概括的手段。實(shí)際上,這些評論和最終經(jīng)過 法形成的概括是同等重要的,有時(shí)候,它甚至比后者更加清晰易懂。本文相對于 33的優(yōu)點(diǎn)是,賦予 評論以及概括同等重要 的意義 ,并且形 成了一個(gè)實(shí)際的系統(tǒng)供人使用,而不僅僅是用于研究。 2 作 內(nèi)容 取所需要的論文數(shù)據(jù) 要進(jìn)行論文搜索,首先需要一批實(shí)驗(yàn)數(shù)據(jù),我是從 抓取下來的。之所以選擇從這上面抓取,是因?yàn)槲覀儾粌H需要論文的 檔,還需要從中自動(dòng)提取摘要、引用等信息,而這本身就應(yīng)該是一個(gè)挺復(fù)雜的算法了,而且不是我們工作的目的,而上述網(wǎng)站已經(jīng)人工的將論文的摘要、引用信息提取了出來,并且對于每一個(gè)引用還有相應(yīng)的鏈接,因此會(huì)節(jié)省我們抓取數(shù)據(jù)所要花費(fèi)的工作量。最終 我們會(huì) 將抓取的數(shù)據(jù)存儲(chǔ)在 得一篇論文的評價(jià)并較好的顯示出來 我們這個(gè)系統(tǒng)的主要工作是通過別的論文對原論文的評 論 ,來獲得一些不 能直接從原論文中獲得的信息,因此,最基礎(chǔ)的,就是如何獲得這些評 論 。關(guān)于這一點(diǎn),我們通過上面的數(shù)據(jù)收集工作,會(huì)獲得一個(gè)論文之間的引用圖,然后通過引用的倒置,能夠獲得引用一篇論文的所有文章,然后,通過一個(gè)算法,可以從這些文章中提取出對原文進(jìn)行評價(jià)的句子。最終,為了便于使用者觀看,還需要對這些句子進(jìn)行一些整理,進(jìn)行排序、整理成一個(gè)段落出來 。 論文 1 正文 引用 1 引用 2 論文 2 正文 引用 1 引用 2 源論文 句子 1 句子 2 句子 3 句子 4 . 引用 評論 引用 評論 評論 基于影響的概括 圖表 1 3 得一篇論文基于影響的總結(jié)段 落 在獲得對原文進(jìn)行評 論 的句子之后,將原文劃分成一個(gè)一個(gè)的句子,我們利用了 法 ( 33) ,對這些句子進(jìn)行打分,這里分?jǐn)?shù)的高低,代表了原文中每一個(gè)句子影響程度的高低,顯然,影響越大的句子,在別的文章中提及的越多,其分?jǐn)?shù)就越高。最后,我們?nèi)∫欢〝?shù)量得分最高的句子,組成一個(gè)段落,這個(gè)段落是對原文的一個(gè)概括,而且會(huì)獲摘要所不能獲得一些信息的一些信息 。 于 臺(tái)搭建搜索平臺(tái) 我們基于 索引擎平臺(tái)搭建成了一個(gè)關(guān)于 全文搜索系統(tǒng)。 預(yù)處理,簡歷索引,檢索,前臺(tái)四部分組成。由于我們的數(shù)據(jù)是論文,并且已經(jīng)轉(zhuǎn)化為了 處理這一部就略去 了,需要繼承一個(gè)建立索引的類,并且修改一些前臺(tái)的接口就可以了,這樣就搭建成了一個(gè)論文搜索系統(tǒng)。這一過程也體現(xiàn)出了 的每一個(gè)組件都是可以通過繼承一個(gè)自定義的新類來完成的,其中包括預(yù)處理、索引、檢索、語言模型、排序、壓縮等等所有的模塊都可以自己選擇或者自己重新定義來完成。 我們在讀一篇論文之前,一般能簡單的看到它的摘要、作者等信息。而在讀完一篇論文之后,我們能獲得什么信息呢?主要有以下幾種: (1) 這篇文章做了什么事情,這可以從摘要中獲得。 (2) 這篇文章中涉及到 的 核心算法,這個(gè)只有在細(xì)致的讀完了這篇文章之后才能理解,應(yīng)該是沒法依靠輔助來獲得的。 (3) 這篇文章哪些部分比較重要,哪些部分比較好,哪些部分需要改正,我們可以從哪些方向進(jìn)行擴(kuò)展 。 對于第三點(diǎn),如果完全自己理解 ,可能會(huì)比較困難,而且對讀者自己的要求也比較高,可能要讀了很多 這方面的背景知識、后續(xù)論文等等才可能獲得,而 通過我們做的這個(gè)系統(tǒng),就可以幫助大家更簡單的獲得一些從文章中不能直接獲得信息 。 一般來說,作者 如果 想 從自己的角度歸納 本文的大體內(nèi)容,通過 閱讀 摘要,我們可以看到作者寫這篇文章大體做了什么。但是文章中很有可能有一些作者沒有發(fā)現(xiàn),或者作者當(dāng)前沒有重視但是以后被別人發(fā)掘出來很重要的意義。通過將那些對文章進(jìn)行引用的句子,與本文建模,對原文中的句子進(jìn)行排序,從而獲得 4 文章中一些有特殊意義,影響較大的句子,這樣,我們可以獲得文章中最重要的信息,而這些重要信息和摘要的區(qū)別就是,它們不是作者提出來的,而是別的作者在讀了這篇 文章以及其他的文章,經(jīng)過很多思考之后,總結(jié)出來的這篇文章最重要的地方 。 此外,別的文章中對原文進(jìn)行評論的句子 (44),本身就是很重要的信息,可以讓我們知道原文都做了那些后續(xù)工作,或者那些部分比較好,哪些部分需要改正 。 簡單來說 ,我們這個(gè)系統(tǒng)的意義,就是通過數(shù)據(jù)挖掘的方法,獲得一些直接從原論文很難發(fā)現(xiàn)的信息,并且結(jié)合 統(tǒng),以搜索引擎的方式呈現(xiàn)出來,便于大家檢索查找 。 5 第 2 章 數(shù)據(jù)的收集 我們這個(gè)系統(tǒng)的目的是為了方便讀者理解論文,因此除了需要基本的論文的需 要提取發(fā)表期刊、作者、摘要、被應(yīng)用次數(shù),引用文章這些信息。其中,發(fā)表期刊、作者以及被引用次數(shù)是用來在后面獲得 及行排序的時(shí)候加權(quán)用的,顯而易見,較好的期刊,較有名的作者,引用次數(shù)較高的文章,它做出的評價(jià)應(yīng)該要重要一些(當(dāng)然,這里只是預(yù)留著為以后的擴(kuò)展用,而我們的系統(tǒng)實(shí)際上并沒有用到作者的知名度信息)。當(dāng)然,其中最重要的是提取引用的信息。我們的目標(biāo)是通過獲得每篇文章所引用過的文章,建立 一個(gè)映射表,然后將映射表倒置過來,從而獲得每篇文章被哪些文章 引用 過 。 何提取數(shù) 據(jù) 首先,是如何提取文章的摘要等各種信息了。本來我是準(zhǔn)備直接從文章中提取的,隨著工作的深入,發(fā)現(xiàn)這樣做有很多的缺點(diǎn),首先,從 提取各種信息就是一個(gè)很繁重的工作,這本身就可以當(dāng)做一個(gè)畢業(yè)設(shè)計(jì)來做了,會(huì)消耗我大量的時(shí)間,但卻不一定能夠達(dá)到工作的目的;其次,最重要的是,在每一篇文章里, 者,文章名,發(fā)表期刊,年份)的形式表現(xiàn)出來的,例如 : G. H. J. J. M. . A PI 15:93 100, 2003. 而 我 們存儲(chǔ)每篇文章的時(shí)候, 是以期刊作為文件夾,以文章作文文件名來存儲(chǔ)的,例如這篇論文,以下面的形式存儲(chǔ)的 。 因此,我們需要從上面的那句話中提取會(huì)議名以及文章名,才能獲得文章之間的引用關(guān)系,建立一個(gè) ,這之中甚至是相差一個(gè)空格都不行的,會(huì)直接導(dǎo)致整個(gè)系統(tǒng)的失敗 。 于是,我們想出了一個(gè)簡單的辦法??梢钥吹?,在 ,每一篇論文的格式都是規(guī)整的,從上面可以很容易的提取出摘要、文章名、期刊等 6 信息,可以下載到 重要的是,對于論文的引用信息,在該網(wǎng)頁上該出了一個(gè)超鏈接,點(diǎn)擊之后就可 以進(jìn)入引用的文章的信息。因此,可以利用遞歸的方法,進(jìn)入引用的文章,從中提取出會(huì)議名以及文章名,這樣,每篇文章的引用就可以形成上面的格式,并且是完全正確的,方便我們建立引用映射表 。 接著,要設(shè)定遞歸的種子以及遞歸的層數(shù)。因?yàn)槲覀兊膶?shí)驗(yàn)所需要的數(shù)據(jù)最好是在一個(gè)領(lǐng)域里面的一個(gè)方向的論文,并且需要引用關(guān)系較緊密的,以便于后續(xù)的工作,因此,這里采用 于每一篇文章遞歸三層。如果遞歸四層,就會(huì)太多了。假設(shè)一篇文章又十個(gè)引用,那么遞歸四層,就會(huì)導(dǎo)致沒從 議中抓取一篇文章,就需要抓取 1000 篇相應(yīng)的其他文章,這個(gè)數(shù)量實(shí)在是太大了;如果遞歸兩層,就會(huì)導(dǎo)致每篇文章只能抓取其引用的文章,這樣引用的層次較淺,很有可能導(dǎo)致最后引用倒置時(shí),每一篇文章只被一兩篇文章引用,這樣不利于我們的實(shí)驗(yàn) 。 最后,我們需要將 化為 式,這是利用 帶的 是這個(gè)工具并不支持對文件夾的遞歸操作,因此,我用 過遞歸操作,可以將一個(gè) 件遞歸轉(zhuǎn)化為 按照原來的相對路徑存在 據(jù)抓取的 過 程 已經(jīng)確定抓取數(shù)據(jù)的大體方法了,下面就要開始正式的抓取數(shù)據(jù)了。所用的工具比較簡單,就是利用 的 具,將網(wǎng)頁下載到文本文件里進(jìn)行分析。另外我們這里利用了第三方庫 種正則表達(dá)式非常適合從網(wǎng)頁中進(jìn)行模式匹配并且提取出數(shù)據(jù)。有了前面的兩項(xiàng)工具,我們只需要分析好網(wǎng)頁的模式,盡量正確的提取數(shù)據(jù)既可以了 ,需要注意的是,由于網(wǎng)頁并不是完全規(guī)整的,因此,有時(shí)候,對于同一個(gè)數(shù)據(jù),往往要寫多種匹配的公式才可以,這其中,最麻煩的當(dāng)屬提取引用部分了(我們不僅要提取引用,還要提取這個(gè) 引用對應(yīng)得 而遞歸進(jìn)入提取它的論文名) 。 以提取作者信息為例 : u 我們需要從上面得公式中提取出作者名,需要以下幾步: (1) 利用 式寫一個(gè)正則表達(dá)式匹配上面的文本 s*(s* , 其中引號中的內(nèi)容為匹配的正則表達(dá)式,注意其中的一對小括號,其中的內(nèi)容就是我們需要提取的信息 (2) 利用 結(jié)果存入 這樣,文章中所有匹配上面正則表達(dá)式的字符串,其中的作者信息(即上面括號中的內(nèi)容),都會(huì)存在 還需要注意的一點(diǎn)就是,由于網(wǎng)頁 的不規(guī)整性 ,所以要排除一些錯(cuò)誤的情況。還有一些文章,確實(shí)沒有摘要、引用或者其他信息(這些文章多出現(xiàn)在引用鏈的頂層,主要是一些書籍等參考資料,所以也比較正常),遇到這些情況我們就不抓取下來了 。 據(jù)的存儲(chǔ)及解 析 在將數(shù)據(jù)從網(wǎng)頁下載下來之后,需要存儲(chǔ)起來。首先 ,對于 格式,只能存在文件系統(tǒng)里,按正常的方式存儲(chǔ)。對于其他的信息,這里選擇存儲(chǔ)在面。 一種輕量級的數(shù)據(jù)庫, 數(shù)據(jù)庫底層就是利用 完成的。它的有點(diǎn)是可移動(dòng)性,不用想 樣搭建服務(wù)器,而且讀取數(shù)據(jù)時(shí)較快。對于每一篇文章的基本信息 照 【 表格 1】 中的 形式存入 表格 1 符流 ,存儲(chǔ)元數(shù)據(jù)信息,按如下格式: *8 *得這些基本信息之后,我們還要 根據(jù)這些元信息,陸續(xù) 建立一些于存儲(chǔ)其他信息, 如 表格 2: 表格 2 文件名 論文 篇論文的全部文本內(nèi) 容 論文 于存儲(chǔ) 一 篇 論文 所引用的所有文 章 論文 于存儲(chǔ) 一 篇論文被哪些文章所引 用 論文 儲(chǔ)最終要顯示在頁面上的文章的評 價(jià) 論文 儲(chǔ)最終要顯示在頁面上的基于影響的文章的概括 其中 通過將 式轉(zhuǎn)化為 后獲得的。 從上面的元數(shù)據(jù)中,我們可以獲得每個(gè)論文所引用的論文的名稱,這樣,我們可以通過這些名稱,來獲得這個(gè)論文所引用的所有論文的 且存儲(chǔ)到數(shù)據(jù)庫中 。獲 得 后,對其進(jìn)行倒置,就可以獲得 這里之所以選擇 因?yàn)樗幸韵逻@些優(yōu)點(diǎn): 嵌入式( 它直接鏈接到應(yīng)用程序中,與應(yīng)用程序運(yùn)行于同樣的地址空間中,因此,無論是在網(wǎng)絡(luò)上不同計(jì)算機(jī)之間還是在同一臺(tái)計(jì)算機(jī)的不同進(jìn)程之間,數(shù)據(jù)庫操作并不要求進(jìn)程間通訊。 B 為多種編程語言提供了 中包括 C、 C+、 有的數(shù)據(jù)庫操作都在程序庫內(nèi)部發(fā)生。 對于我們這個(gè)系 統(tǒng),后臺(tái)程序是由 c+完成,而前臺(tái)程序是由 成,他們都會(huì)共同訪問一些文件,通過存儲(chǔ)在 行存儲(chǔ),就解決了不同語言之間兼容的問題。 輕便靈活( 它可以運(yùn)行于幾乎所有的 統(tǒng)及其 9 變種系統(tǒng)、 它并不需要搭建一個(gè)數(shù)據(jù)庫服務(wù)器,以用戶、服務(wù)器形式訪問數(shù)據(jù)庫,而是以函數(shù)調(diào)用的形式。 一旦 端用戶一般根本感覺不到有一個(gè)數(shù)據(jù)庫系統(tǒng)存在。 這樣提高了我們的系統(tǒng)的實(shí)用性,當(dāng)用戶需要自己搭建一個(gè)我們的論文系統(tǒng)時(shí),不用再去搭建數(shù)據(jù)庫服務(wù)器,進(jìn)行各種繁瑣的配置。 10 第 3 章 生成 評論集 通過上面的內(nèi)容之后,我們獲得了所有基本的信息,其中,最重要的,獲得了 ,該表的 一篇論文 A 的 引用 A 的所有論文 下面我們就要結(jié)合前面獲得的數(shù)據(jù),包括論文的文本、元數(shù)據(jù),來獲得一篇論文的評論集 。 得評價(jià)的候選句子 集 通過 們可以獲得一個(gè)集合 2,.,其中 進(jìn)行了引用。我們相信,如果 進(jìn)行了引用, 那么 進(jìn)行了評價(jià)。一般有以下幾種情況 : (1) 的論文 名 (2) 的作者 名 (3) 在 表中,如果 A 出現(xiàn)在第 么通常在文章中會(huì)利用 k來對 (4) 3)的情況,有時(shí)候并不只是對 k 進(jìn)行引用,可能文章中的一句話代表的是好幾篇文章的工作概括,因此會(huì)出現(xiàn)“ i,k,j”這種類型的符號來對 且出現(xiàn)的概率很高 。 (5) (如果 的某句話對 A 進(jìn)行了評論,那么通常它的前一句話和后一句話也會(huì)出現(xiàn)評價(jià)的信 息 通過上面的 5 點(diǎn),我 們就可以獲得了 對 A 進(jìn)行評價(jià)的句子,從而獲得了一個(gè)候選句子集,里面的每一句話都不同程度的對 。 11 圖表 2 如 圖表 2所示流程, 具體實(shí)現(xiàn)的時(shí)候,先要將 .,然后遍歷這個(gè)句子序列,對于每一個(gè)句子,按照上面的前 四 條規(guī)則進(jìn)行評判,如果滿足其中任意一條,則這個(gè)句子是候選句子集合中的一個(gè),并將其前后兩個(gè)句子也合到一起,添加的候選句子集合中 。 最終,得到對 e1,e2,.,這里面可能會(huì)有一些評價(jià)來自同一篇論文 。 得評論段落 獲得了候選句子集之后,我們需要對其進(jìn)行適當(dāng)?shù)呐判?,從中選出較好的幾個(gè)句子,最終顯示在頁面上。由于不同的人,對這篇論文的評價(jià)可能也不太一樣,因此,就不能簡單的按照這些評價(jià)句子與原文的相似度來進(jìn)行打分排序了,因?yàn)檫@樣會(huì)造成和原文觀點(diǎn)相近的評分較高,不是我們希望獲得的結(jié)果。實(shí)際上,有時(shí)候越是和原文的觀點(diǎn)不同,反而可能越重要,它可能是對這篇文章的批判,也有可能是原文的作者并在寫 對我們尋找后續(xù)工作時(shí)可能會(huì)非常重 要 。 我們在提取數(shù)據(jù)的同時(shí),會(huì)獲得每一篇文章的 表這篇文章被引用的次數(shù),一般,一個(gè)較好的文章,被引用的次數(shù)也應(yīng)當(dāng)比較多,因此,對于每一個(gè)評價(jià),根據(jù)它所在文章的被引用次數(shù)進(jìn)行排序,可以獲得較為專業(yè), 12 也較為合理的結(jié)果 。 同時(shí),需要注意的是,如果一個(gè)篇論文的被引用次數(shù)很高,而且它又有兩段評論原文的句子時(shí),那么這兩段會(huì)一起出現(xiàn)在最終的結(jié)果里,在這里我們就需要對結(jié)果進(jìn)行調(diào)整,保證在權(quán)重相同的情況下,盡可能選擇盡量不同的文章 的評論 。 13 第 4 章 建 立 模 型并 生成 基于影響的概括 通過獲得了對源論文的評論集合,下面就可以與源論文建立模型來獲得基于影響的概括。所謂基于影響的概括,簡單來說,就是某句話與評論之間的關(guān)系越緊密,那么這句話的影響力就越大。最終將影響力最大的幾個(gè)句子合在一起,就形成了基于影響的概括。 模之前我們所有的數(shù) 據(jù) 在建模之前,我們先來看看我們已經(jīng)獲得了哪些數(shù)據(jù): (1)所有論文集合 D,以及 成一個(gè)單詞表 V,并且可以統(tǒng)計(jì)出每個(gè)單詞 w 出現(xiàn)的次數(shù) C(w,D) (2)對于一篇論文 d,將其 劃分為多個(gè)句子 (3)已經(jīng)獲得了這片論文進(jìn)行評論的所有句子 , 把他們的集合成為 C( 下面,我們就可以參照 法 (33, ei 對 里的打分,主要是基于詞頻以及相似度來做的。 模算 法 首先,為任何一個(gè)句子打分的公式 s)如 下: ( ) ( | | )( | ) l o g ( ( | ) ) ( | ) l o g ( ( | ) )s I w VS c o r e s Dp w p w p w p w 從信息理論的觀點(diǎn),其中 ( | )即為 以被解釋為通過句子 示 基于影響的段落, 需要從文章中刪除的信息量。顯然,其值越小,也越能代表文章以及其他文章對它的評價(jià)的意思(因?yàn)樗灰獎(jiǎng)h除較少的信息) 14 可以看出,公式中最重要的是求出 ( | ) ( | )w p w和( , ) * ( | )(1 ) ( | )|w s p w ( , ) ( | )( 2 ) ( | )|w d p w 對于公式( 1), 其中, ( , )c 示一個(gè)單詞 ( | )p w s為平滑參數(shù)。我們假設(shè)s為 |s|的 (1)式可以看成是 ( | ) ( | ) *11p w s p w D ,可見,s越大,表示 w 與整個(gè)論文空間的關(guān)系越大,而與這個(gè)句子的關(guān)系則較少。 時(shí),則表示二者一樣,各占 1/2。我在這里將s設(shè)置為了 1。 對于公式 (2),其中 ( , )c 示一個(gè)單詞 ( | )p w C 表示單詞 中出現(xiàn)的概率。C為平滑參數(shù)。我們?nèi)匀患僭O(shè) u 為 w 的 n 倍,則 (2)式可以看成( | ) ( | ) *11p w d p w C ,可見, 示這個(gè)單詞 的關(guān)系越大,而 時(shí),則與論文本身關(guān)系較大??梢钥闯?,極端的情況,當(dāng) 時(shí),則 我們獲得的那些評價(jià)都沒有關(guān)系了,因此獲得的句子實(shí)際上對其他論文也沒有什么影響了。因此,對于本實(shí)驗(yàn),應(yīng)當(dāng)將 法的實(shí)現(xiàn) 具體實(shí)現(xiàn)算法時(shí),會(huì)出現(xiàn)一些問題:我們假設(shè)一篇論文可以劃分成 1000 個(gè)句子,每個(gè)句子有 20個(gè)不同單詞,我們總共有 2000篇論文,那就有 4億個(gè)單詞。那么,對于每一個(gè)句子 s,我們在進(jìn)行上面的算法時(shí),需要進(jìn)行如下一步 ( ( | ) l o g ( ( | ) ) ( | ) l o g ( ( | ) ) )I s I w p w p w p w 這就需要對這 4億個(gè)單詞進(jìn)行遍歷一遍,并且分別計(jì)算括號中的那一步。而每篇論文有 1000個(gè)句子,就相當(dāng)于要計(jì)算 4000億次 , 這個(gè)計(jì)算量對我們來說太龐大了,因此,我在這里選取了一個(gè)簡便一點(diǎn)的方法,就是在上面的一步時(shí),并不是對整個(gè)單詞空間進(jìn)行計(jì)算,而只是對論文 中出現(xiàn)的所有單詞進(jìn)行遍歷計(jì)算打分。 可以看出,對于一個(gè)既不在 中的單詞 , ( | ) 此,上面的公式只是理論的公式,具體應(yīng)用時(shí),只需要對 d 和 就節(jié)省了大量的計(jì)算量。 整個(gè)流程如 圖表 3, 15 需要用到 圖表 2中的前三部算法獲得的評論列表。這里之所以不用 圖表 2的 最終結(jié)果,是因?yàn)槲覀冃枰嗟男畔?,信息越多,獲得的概括越具有影響力。 圖表 得基于影響的概 括 通過上面的模型,可以對 后 根據(jù)所打得分?jǐn)?shù)進(jìn)行從打到小排序。這里因?yàn)槊科撐闹挥?1000 左右的句子,數(shù)量級并不是很大,就自己寫了一個(gè)簡單的冒泡排序 算法來排序。之后, 選擇其中得分最高的 合在一起,就獲得了原文基于影響的概括了。從整個(gè)建模的過程中也可以看出,所謂基于影響,就是通過哪些對 A 進(jìn) 行評價(jià)的句子集 C,分別獲得 這些句子的相似程度,與其相似程度最高的,證明這個(gè)句子被其他作者提及的最多,影響最大。而這個(gè)概括與摘要的區(qū)別就是,影響較大的句子,可能原來的作者并沒有想到,因此在摘要中并沒有提及(正所謂無心插柳柳成蔭);而摘要中提及的部分,影響可能反而沒有那么大 。 圖表 3 16 第 5 章 搭建搜索引擎 本段內(nèi)容主要介紹如何利用 索引擎平臺(tái)來搭建我們的論文檢索系統(tǒng)。通過這段內(nèi)容,我們可以了解到 用的基本過程,最終我們會(huì)發(fā)現(xiàn),如果想搭建其他方向的搜索引擎, 使用 5.1 構(gòu)簡 介 統(tǒng),全稱是 是網(wǎng)絡(luò)實(shí)驗(yàn)室搜索引擎組耗時(shí)一年多開發(fā)的一個(gè)國家 863項(xiàng)目,其目的是建立一個(gè)搜索引擎平臺(tái),將搜索引擎的各個(gè)部分模塊化,使得這個(gè)搜索引擎不在針對專一 的某一個(gè) 領(lǐng)域,而是可以針對各個(gè)領(lǐng)域。其功能有點(diǎn)類似于 其不同的是 用 c+編寫的。 見 表格 3 表格 3 1) 于對網(wǎng)頁進(jìn)行去噪、消重以及編碼轉(zhuǎn)換等等處理,如果是對網(wǎng)頁構(gòu)建搜索引擎,這一步驟就可以省略了。 ( 2) 索引模塊,用于將需要檢索的部分建立倒排索引。( 3) 可以利用 于每一個(gè)詞,去倒排索引里面查找包含它的文檔中的 (網(wǎng)頁中為從而完成檢索。 ( 4) 前臺(tái)模塊,完成一個(gè)類似于天網(wǎng)搜索引擎的前臺(tái)界面。除了現(xiàn)實(shí)結(jié)果之外,還進(jìn)行摘要處理,一個(gè)文檔的摘要。這 個(gè)地方需要 注意 的就是與 在后面提到。 除了以上 4個(gè)大的模塊之外, 提供 了很多可供選擇以及繼承修改的小模塊 例如,在 語言模型這個(gè)部分,可以選擇需要的模型,也可以自己重寫一些語言模型。壓縮
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中藥購銷員(中級)(理論知識)試題及答案
- 2025年大學(xué)人體斷層解剖學(xué)(斷層結(jié)構(gòu)識別)試題及答案
- 2025年大學(xué)第四學(xué)年(歷史學(xué))世界近現(xiàn)代史綜合測試試題及答案
- 2025年高職編導(dǎo)(影視編導(dǎo))試題及答案
- 2025年大學(xué)生物(生物化學(xué))試題及答案
- 2025年中職(舞蹈表演)舞蹈基本功試題及答案
- 2025年高職藥品質(zhì)量與安全(藥品風(fēng)險(xiǎn)評估)試題及答案
- 2025年高職茶葉生產(chǎn)與應(yīng)用(茶葉營銷實(shí)務(wù))試題及答案
- 2026年安徽審計(jì)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫有答案解析
- 2026年貴州交通職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試模擬試題帶答案解析
- 廣東省深圳市南山區(qū)2023-2024學(xué)年四年級上學(xué)期數(shù)學(xué)期末教學(xué)質(zhì)量監(jiān)測試卷
- 【MOOC】生物化學(xué)與分子生物學(xué)-華中科技大學(xué) 中國大學(xué)慕課MOOC答案
- 地下室頂板堆載及回頂方案
- 廣東省2024年修訂醫(yī)療服務(wù)價(jià)格項(xiàng)目表
- 藥品經(jīng)營質(zhì)量管理規(guī)范
- (人教2024版)數(shù)學(xué)四年級上冊第8單元《數(shù)學(xué)廣角-優(yōu)化》大單元教學(xué)課件
- 臨床生物化學(xué)檢驗(yàn)練習(xí)題庫(含答案)
- G -B- 15607-2023 涂裝作業(yè)安全規(guī)程 粉末靜電噴涂工藝安全(正式版)
- (正式版)SHT 3229-2024 石油化工鋼制空冷式熱交換器技術(shù)規(guī)范
- 2018年4月自考00265西方法律思想史試題及答案含解析
- 小紅書創(chuàng)業(yè)計(jì)劃書
評論
0/150
提交評論