【畢業(yè)學(xué)位論文】(Word原稿)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)基于Lucene的站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)-軟件工程_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 摘 要 個(gè)開源的用于制作搜索引擎的框架 。 目前第二代搜索引擎的設(shè)計(jì)思路為利用網(wǎng) 絡(luò)爬蟲建立數(shù)據(jù)源,結(jié)合分詞技術(shù)把數(shù)據(jù)源建成索引,利用索引從 海量的數(shù)據(jù)源 中得到搜索結(jié)果 ,對(duì)搜索的結(jié)果進(jìn)行篩選和排序 , 把最終的結(jié)果展示給用戶 。 目前版本的 于 標(biāo)準(zhǔn)分詞 類 ,建立索引相關(guān)類,搜索索引相關(guān)類,文檔排序和相關(guān)性計(jì)算相關(guān)類等。 建立自 己所需的索引,實(shí)現(xiàn)多種多樣的搜索方式,進(jìn)行結(jié)果的篩選和排序。本文介紹了搜索引擎的相關(guān)知識(shí),分析了 碼,并對(duì)搜索引擎的未來進(jìn)行了 展望。本文詳細(xì)介紹了自己編寫的一款在 開發(fā)的基于 新聞搜索引擎 ,并且通過對(duì)實(shí)際項(xiàng)目的介紹,闡明了 現(xiàn)的關(guān)鍵和優(yōu)缺點(diǎn),同時(shí)還提供了一些與 后對(duì)實(shí)際項(xiàng)目進(jìn)行了測(cè)試,并分析了測(cè)試結(jié)果 。 關(guān)鍵詞: 詞,索引,搜索,排序,相關(guān)性 ,優(yōu)缺點(diǎn),搜索引擎,新聞 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) F N is an of is as to up a At to so us to us to on to of of a on I At I 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 目 錄 第一章 緒論 . 1 言 . 1 介 . 1 第二章 索引的建立 . 3 述 . 3 關(guān)的技術(shù)綜述 . 3 排索引 . 3 文分詞 . 4 字索引 . 4 科院分詞 . 4 丁解牛 . 4 古分詞 . 4 準(zhǔn)分詞 . 4 引 的建立 . 4 引相關(guān)類介紹 . 4 引結(jié)構(gòu) . 5 引過程 . 5 引的合并與優(yōu)化 . 5 引管理 . 5 第三章 搜索 . 6 述 . 6 搜索 . 6 索相關(guān)類介紹 . 6 索過程 . 6 級(jí)搜索 . 6 索系統(tǒng)的分析 . 7 第四章 結(jié)果的篩選和排序 . 8 述 . 8 選 . 8 序 . 8 序相關(guān)技術(shù)介紹 . 8 序相關(guān)類介紹 . 8 序過程 . 8 序方式 . 9 關(guān)性排序 . 9 . 9 第五章 搜索引擎的未來 . 11 述 . 11 第六章 實(shí)現(xiàn) . 12 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 述 . 12 引的創(chuàng)建 . 12 據(jù)源的處理 . 12 引建立的整體思路 . 12 引方式的選擇 . 13 引的建立與優(yōu)化 . 13 引的管理 . 13 史數(shù)據(jù)索引生成器 . 13 史數(shù)據(jù)索引生成輔助工具 . 13 引管理工具 . 13 引自動(dòng)更新服務(wù) . 13 索的實(shí)現(xiàn) . 14 述 . 14 爾邏輯的實(shí)現(xiàn) . 14 間的搜索 . 14 序的實(shí)現(xiàn) . 14 照索引創(chuàng)建的時(shí)間排序 . 14 照相關(guān)性排序 . 14 存系統(tǒng) . 14 頁的實(shí)現(xiàn) . 15 志維護(hù)系統(tǒng) . 15 第七章 測(cè)試 . 16 述 . 16 引創(chuàng)建測(cè)試 . 16 引管理測(cè)試 . 16 索速度測(cè)試 . 16 索準(zhǔn)確度測(cè)試 . 16 第八章 結(jié)論 . 18 參考文獻(xiàn) . 19 致謝 . 20 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 1 頁 共 20 頁 第一章 緒論 言 看完一部電影,意猶未盡,想了解一下電影花絮;買好房子需要裝修,但隔行如隔山,在此之前什么都不懂;電腦出了問題,進(jìn)程中出現(xiàn)了一個(gè)怪怪的東西,不知該如何解決。沒關(guān)系,只要在谷歌,百度上搜索,就算是拔苗助長,卻也能解決很多問題?;ヂ?lián)網(wǎng)的飛速發(fā)展,為我們開創(chuàng)了一個(gè)新時(shí)代。而要在這浩瀚的互聯(lián)網(wǎng)世界中尋找自己想要的東西,那就離不開搜索。 搜索是為網(wǎng)絡(luò)而生的。 現(xiàn)代意義上的搜索引擎的祖 先,是 1990午內(nèi)蒙特利爾入學(xué)學(xué)生明的 ,名字叫 當(dāng)時(shí)大量的文件散播在各個(gè) 機(jī)中,人們得到一個(gè)資源往往要花費(fèi)很多時(shí)間。 因此 明了一個(gè)按文件名查找文件的系統(tǒng):這個(gè)系統(tǒng)的工作原理已經(jīng)和現(xiàn)代的搜索引擎相接近了。 真正把搜索引擎引向互聯(lián)網(wǎng)的是一個(gè)叫“機(jī)器人”的 程序。它不間斷高速執(zhí)行則某項(xiàng)任務(wù),就好像一個(gè)“ 機(jī)器人 ” 不斷在“互聯(lián)網(wǎng)”上穿梭, 這便是現(xiàn)在意義上的 “ 。世界上的第一個(gè)網(wǎng)絡(luò)爬蟲是 1994年,斯坦福大學(xué)的兩位博士生楊致遠(yuǎn)和 此第一代搜索引擎誕生。 時(shí)候互聯(lián)網(wǎng)的數(shù)據(jù)量還不算太大, 網(wǎng)站站長也主動(dòng)的把自己的網(wǎng)站的更新信息發(fā)布給 樣 很長一段時(shí)間內(nèi),以分類目錄為核心思想的搜索引擎占據(jù)了大量的市場(chǎng)份額,稱為第一代搜索引擎。 1997年, 1998年 此互聯(lián)網(wǎng)搜索進(jìn)入 代 。 成立標(biāo)志著第二代搜索引擎的誕生。這是一種以網(wǎng)絡(luò)爬蟲, 標(biāo)志的搜索引擎。網(wǎng)絡(luò)爬蟲使得互聯(lián)網(wǎng)上數(shù)以億記的資源聯(lián)系在一起。 法到現(xiàn)在的沙盒,有效鏈接分?jǐn)?shù)綜合算法,使得人們可以通過搜索引擎很方便的搜索到自己想要的資源。 先如今,搜索引擎蓬勃發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)量與日俱增, 們都號(hào)稱是第三代搜索引擎,雖然嚴(yán)格來說他們和第二代搜索引擎并無區(qū)別,但是卻各有特點(diǎn)?,F(xiàn)在我們正在迎接互聯(lián)網(wǎng)的新時(shí)代,也在迎接搜索引擎的新時(shí)代 。 介 最初 件基金會(huì) 目組 的 子項(xiàng)目,是一個(gè)完全開放源碼的全文檢索工具包。 是一位資深全文檢索專家, 2000年 3月 2001年 10月 獻(xiàn)給 后逐漸被翻譯成了多種語言,如 C+、 C#、時(shí) 個(gè) 、 個(gè)基于 。它們的出現(xiàn)為 目前 是由于新版本剛剛發(fā)布,穩(wěn)定性還不是很好, 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 2 頁 共 20 頁 本文還是按照成熟的 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 3 頁 共 20 頁 第二章 索引的建立 述 我們首先已經(jīng)事先建立好了數(shù)據(jù)源,那么對(duì)于建立搜索引擎而言,第二步就是建立索引。索引的目的在于建立一個(gè)用戶目的信息,與數(shù)據(jù)源中一個(gè)單一數(shù)據(jù)的對(duì)應(yīng)。具體到文章來說就是需要找到用戶所搜索的詞與文章的關(guān)聯(lián)。 索引的建立主要涉及一下幾個(gè)問題,什么樣的數(shù)據(jù)要建立索引?以怎樣的方式建立索引? 什么樣的數(shù)據(jù)需要建立索引呢?這就要分析用戶需求了。現(xiàn)階段用戶往往輸入一段文字,然后希望找到與這段文字相關(guān)的信息。這段文字可以拆分成一個(gè)個(gè)的字,也可以拆分成一個(gè)個(gè)的詞。無論字詞,現(xiàn)在最后這都是我們獲取的用戶 信息,我們要通過這個(gè)用戶信息查找到相應(yīng)的數(shù)據(jù),那么字詞便是需要建立索引的東西。與用戶有關(guān)的字詞,往往出現(xiàn)在文章的標(biāo)題和文章的正文中,這便是我們需要建立索引的域。把這里邊的內(nèi)容拆成一個(gè)個(gè)的字詞,這些字詞就是我們要進(jìn)行索引的數(shù)據(jù)。而且用戶需要搜索時(shí)間,我們就把時(shí)間整體索引,用戶需要搜索什么,我們就把什么做索引。 怎樣的方式去建立索引,決定了通過你的索引查找到相關(guān)文章的效率 ,索引的方式很多,我據(jù)一種簡(jiǎn)單的方式,而后結(jié)合 種最簡(jiǎn)單的建立索引的方式就是把字詞和一篇文章中出現(xiàn)過這 個(gè)字詞的文檔的編號(hào)存在一起。這樣,當(dāng)搜索到這個(gè)字詞的時(shí)候,便能得到相應(yīng)的文檔編號(hào),通過文檔編號(hào),便可以獲取文檔的全部信息。 索引的建立是開發(fā)搜索引擎的關(guān)鍵一步,他關(guān)系著你的搜索引擎的搜索效率。 關(guān)的技術(shù)綜述 排索引 倒排索引是 也常被稱為 反向索引 、 置入檔案 或 反向檔案 ,是一種 索引 方法,被用來 存儲(chǔ) 在 全文搜索 下某個(gè)單詞在一個(gè)文檔或者一組文檔中的 存儲(chǔ)位置 的 映射 。它是 文檔檢索系統(tǒng) 中最常用的 數(shù)據(jù)結(jié)構(gòu) 。 舉一個(gè)例子: 文本 我愛中華人民共和國” 文本 我愛中國” 文本 中華人民共和國很偉大” 那么反向文件索引為: “我”: 0, 1 “愛”: 0, 1 “ 中華人民共和國”: 0, 2 “中國”: 1 “很”: 2 “偉大”: 2 這樣搜索“我”“中國”的結(jié)果就是 0,1 1=1 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 4 頁 共 20 頁 文分詞 中文分詞是索引建立的關(guān)鍵。因?yàn)橹形牟┐缶?,不像英語以空格完美分隔詞。同樣的一句話在不同的語境下意思不同,同樣連在一起兩個(gè)字,在某些情況下它們是一個(gè)詞,而有些情況下它們就是分別的字或者另一個(gè)詞的組成部分。例如我馬上到,我從馬上下來。兩個(gè)馬上很難區(qū)分。而且像“高高興興”這樣的疊詞,“去哪兒”這個(gè)兒化音詞,“吃了頓飯”這種分離詞都對(duì)使得分詞變得極其困難。 現(xiàn)在變簡(jiǎn)單的介紹幾種分詞 方式。 字索引 按字分詞可以解決所有的問題,使得搜索變的十分準(zhǔn)確,因?yàn)樽质菨h字的最小單位,我們只要知道輸入的是什么字,字與字之間的位置關(guān)系便可以確定整個(gè)搜索內(nèi)容。但是按字分詞往往使得索引過大,并且用戶往往都是直接輸入連在一起的漢字,這樣便使得,按字拆分的方法不能很好的猜測(cè)用戶的意思。 科院分詞 中科院分詞系統(tǒng)是目前使用很廣泛的系統(tǒng)。其最大的特點(diǎn)便是保留了大量的分詞組合結(jié)果,對(duì)于每一個(gè)結(jié)果,通過公司進(jìn)行計(jì)算其相關(guān)性,從而從多個(gè)分詞結(jié)果中選出最合適的一個(gè)。另一個(gè)特點(diǎn)便是他的人名,地名識(shí)別系統(tǒng)。雖然在其開源版 本上不盡如人意,但是在其共享版的測(cè)試中效果還是非常好的。他的缺點(diǎn)是分詞數(shù)據(jù)并不是很快,而且開源版和共享版都有些問題。 優(yōu)點(diǎn)是分詞準(zhǔn)確。 丁解牛 這個(gè)算法只有 本,其中的分詞算法效率很高,和 的詞法分析算法有一些類似。這個(gè)分詞的缺點(diǎn)是有很多分詞不準(zhǔn),優(yōu)點(diǎn)是分詞速度很快。 古分詞 這個(gè)分詞的思想便是匹配,但是其中對(duì)于多字的詞,這個(gè)分詞軟件設(shè)置了很高的優(yōu)先級(jí),使得分詞結(jié)果與我們實(shí)際想要的結(jié)果更加接近。這個(gè)分詞的優(yōu)點(diǎn)是完全開源,結(jié)構(gòu)清晰,方便在里邊修改源代碼,調(diào)整權(quán)重,并且有一套很好的 詞典管理工具。 缺點(diǎn)就是其內(nèi)置的詞典太過混亂,需要人工修改,并且分詞準(zhǔn)確性不如中科院分詞。 準(zhǔn)分詞 這個(gè)分詞是按照 后的結(jié)果是英文完美分詞,中文按字拆分。總的來說對(duì)英文應(yīng)用來說是完美的分詞。但是對(duì)中文分詞來說,效率上不夠。 引的建立 引相關(guān)類介紹 (1) 的邏輯文件,每一個(gè)或多個(gè)物理文件與一個(gè)邏輯文件相對(duì)應(yīng)。 (2) 表 個(gè) 多個(gè) 是否索引,是否儲(chǔ)存,是否分詞之分。 (3) 條,每個(gè) (4) 索引相關(guān)類 (5) 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 5 頁 共 20 頁 讀索引相關(guān)類 引結(jié)構(gòu) (1) 常,一個(gè) 表 一個(gè)完整索引段,一個(gè)索引中會(huì)包含多個(gè) (2) 含了 所有 (3) 于儲(chǔ)存 具有 據(jù)。 (4) 于儲(chǔ)存 (5) 于儲(chǔ)存分詞后的詞條。 (6) 明了每個(gè) (7) 存了要?jiǎng)h除的文檔。 (8) 合索引格式。 引過程 (1) 初始化 初始化分詞器,設(shè)置好文件路徑。 (2) 生成 把每個(gè) 加到 分哪些是要保存的,哪些是要分詞的,哪些是要索引的。 (3) 寫索引。 把 息寫人緩存,然后生成 后合并為 (4) 索引的合并與優(yōu)化。 把多個(gè) 件合并為一個(gè),并刪除無用信息。 引的合并與優(yōu)化 索引的合并通過 素控制,在批量建立索引時(shí) 少量添加索引時(shí) 索引的優(yōu)化通過 多個(gè) 引管理 過這個(gè)類,我們可以通過 過 除文檔,對(duì)刪除的文檔進(jìn)行恢復(fù)等操作。 索引的建立還是通過索引的同步則依靠 實(shí)現(xiàn)。通過 兩個(gè)類 就 可以很好的管理索引。在具體的項(xiàng)目中會(huì)介紹如何有效的管理索引。 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 6 頁 共 20 頁 第三章 搜索 述 搜索是建立一個(gè)搜索引擎的第三步,也是根據(jù)需求確定內(nèi)核設(shè)計(jì)最煩瑣的一步。 我們?cè)诮⑺阉魇遣粌H要考慮搜索的 數(shù)量和范圍,更要定義相關(guān)的過濾器來過濾搜索結(jié)果,最后針對(duì)各種需求詳細(xì)設(shè)計(jì)自己的搜索邏輯。 就目前而言,用戶查看的往往只是搜索結(jié)果的前幾條。過多的搜索會(huì)造成不必要的時(shí)間浪費(fèi)。如何建立緩存使得用戶快速查找,如何對(duì)最終結(jié)果進(jìn)行估計(jì),這些都顯得格外重要。 搜索結(jié)果的過濾是非常必要的,搜索結(jié)果包含敏感詞 ,用戶給出需求想要限制搜索結(jié)果的范圍,這些情況下都需要對(duì)搜索的結(jié)果進(jìn)行過濾。 搜索邏輯是比較煩瑣的一塊,對(duì)于字詞的正則表達(dá)式的分析,各種域的限制,使得這一塊非常容易出錯(cuò)。需要耐心的去修改,去完善。 搜索 索相關(guān)類介紹 (1) 義各種搜索的接口。 (2) 于 查詢的 (3) 存搜索結(jié)果的類型。 (4) 字詞生成查找對(duì)象。 索過程 (1) 初始化 擇相應(yīng)的 (2) 初始化 過 字詞轉(zhuǎn)化成一個(gè) 然后把各種產(chǎn)生的 (3) 定義 始化 定過濾的范圍。 (4) 搜索 通過 回 到結(jié)果。 級(jí)搜索 (1) 是最簡(jiǎn)單的一種 包括詞條本身的內(nèi)容和詞條所在的 過使用 可以進(jìn)行最簡(jiǎn)單也是最原始的搜索。 (2) 是布爾搜索。通過 們可以實(shí)現(xiàn)與、或、非的邏輯操作。 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 7 頁 共 20 頁 只需要在添加的時(shí)候指定這個(gè)值是必須出現(xiàn),必須不出現(xiàn)還是應(yīng)該出現(xiàn)。 (3) 是范圍搜索。通過這個(gè)便可以搜索某個(gè)域中一定值范圍的數(shù)據(jù)。 (4) 是前綴搜索。通過這個(gè)便可以根據(jù)某種 前綴查找內(nèi)容了。 (5) 是短語搜索。通過這個(gè)便可以將短語作為一個(gè)整體進(jìn)行搜索了。 (6) 是多短語搜索。通過這個(gè)便可以進(jìn)行多個(gè)短語的搜索。 (7) 是模糊搜索。通過這個(gè)便可以幫助用戶按照單字進(jìn)行模糊查找。 (8) 是通配符搜索。通過這個(gè)便可以通過一個(gè)帶有通配符的字符串來進(jìn)行搜索。 (9) 是跨度搜索。這是一個(gè)在某個(gè)詞與詞的距離范圍內(nèi)匹配,便返回結(jié)果的搜索。 (10) 正則表達(dá)式 含 索 系統(tǒng)的分析 然實(shí)現(xiàn)了這么多的功能, 有很多的效率并不高。比如 如要查找 1 100 范圍內(nèi)的匹配,則要產(chǎn)生 100 個(gè) 對(duì)于產(chǎn)生的每一個(gè) 數(shù)據(jù)源進(jìn)行搜索。這樣的結(jié)果就是耗費(fèi)了大量的時(shí)間與內(nèi)存。 而對(duì)于使用 度也遠(yuǎn)不如使用 且 給出一個(gè)精確的搜索結(jié)果。這樣就使得很多用戶查看概率非常小的信息也進(jìn)行了搜索與記錄,大大浪費(fèi)了搜索引擎的效率。 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 8 頁 共 20 頁 第四章 結(jié)果的 篩選和 排序 述 在搜索出結(jié)果之后需要對(duì)搜索結(jié)果進(jìn)行篩選和排序了。篩選比較好理解,就是對(duì)于一些不需要或者不應(yīng)該出現(xiàn)的結(jié)果進(jìn)行過濾。在取得的搜索結(jié)果上使用過濾或者在搜索之前定義過濾機(jī)制都可以很好的完成任務(wù)。 對(duì)于搜索結(jié)果的排序一直是搜索引擎的一個(gè)難點(diǎn) 。 法思想是相關(guān)性排序的基礎(chǔ)。雖然根據(jù)不同的需求,可能產(chǎn)生 一些按照時(shí)間排序的情況出現(xiàn),但是排序中最重要的還是相關(guān)性排序。 終根據(jù)這個(gè)值進(jìn)行排序。但是,這樣的一個(gè)代表相關(guān)性的值,卻很難找到一個(gè)有效的公式。 用次數(shù)而進(jìn)行了最初的排序,而后有競(jìng)價(jià)排名。經(jīng)歷了幾年的運(yùn)行,用了好網(wǎng)站鏈接的方式在修改它的排序算法。而后更是通過多個(gè)數(shù)據(jù)來定時(shí)調(diào)整它的排序算法。后來我們又漸漸的發(fā)現(xiàn) 入了“沙盒”這個(gè)概念來管理新的網(wǎng)站和違規(guī)的網(wǎng)站??傊?,排序算法因?yàn)槠渖虡I(yè)利益的問題顯得尤為重 要。 就算只是考慮準(zhǔn)確性的因素,排序算法也顯得尤為重要。如何把更接近用戶意思的 將直接影響用戶對(duì)于這個(gè)搜索引擎的體驗(yàn)。 選 (1) 是一個(gè)過濾一個(gè)范圍值之內(nèi)所有搜索結(jié)果的過濾器。 在某些情況下, 使用比使用 一些。但是在使用 前,就已經(jīng)遍歷過一次索引了,那么這會(huì)影響查詢的效率。 (2) 是一個(gè)在上次基礎(chǔ)上進(jìn)行二次檢索所使用的過濾器。可以很方便的實(shí)現(xiàn)二次檢索。 序 序相關(guān)技術(shù)介紹 (1) 詞頻 某個(gè)關(guān)鍵字在某個(gè)文檔中出現(xiàn)的次數(shù)。 (2) 反文檔詞頻 在某類文檔中出現(xiàn)某個(gè)關(guān)鍵字的文檔的次數(shù) 序 相關(guān)類介紹 (1) 中有個(gè) (2) 義文檔排序的方式。 序 過程 進(jìn)行搜索的時(shí)候就進(jìn)行了文章相關(guān)性值的計(jì)算。在進(jìn)行搜索時(shí)也定義了最終的排序方式。整個(gè)排序的過程是結(jié)合在搜索過程中的。 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 9 頁 共 20 頁 序方式 (1) 按照文檔創(chuàng)建順序排序 這是 見的一種排序方式,即先創(chuàng)建索引的排在后邊。這 樣就等于我們通常意義的時(shí)間順序。 (2) 按照某個(gè)域排序 這是 另一種常見的排序方式。即按照某個(gè)域的值,從小到大或者從大到小排序。 (3) 按照相關(guān)性排序 這是 另一種常見的排序方式。這是按照事先計(jì)算好的分?jǐn)?shù),對(duì)文檔按照從分?jǐn)?shù)高到分?jǐn)?shù)低的方式排序。 (4) 其它排序方式 如按照文檔編號(hào)等進(jìn)行排序,但是由于不常用,這里就不列舉了,可 參照 關(guān)性排序 文檔的得分公式為: 總的來說 用了 基礎(chǔ)因子,長度因素作為輔助因子,并自行添加了一個(gè)域調(diào)節(jié)因子。 序系統(tǒng)的分析 排序系統(tǒng),就功能上來說是比較齊全的,但是最大的問題就是相關(guān)性排序。這樣一個(gè)簡(jiǎn)單的相關(guān)性排序公司顯然無法很好的計(jì)算相關(guān)性。做好文章的相關(guān)性分析需要做到很多。首先,我們需要把文章中的詞劃分為三類。一類是常用詞,比如這,那,很好這之類的。一類是 這類文章的專有詞,即在這一類文章中經(jīng)常出現(xiàn),但在其它文章中不經(jīng)常出現(xiàn)的詞。 一類便是普通詞。 這個(gè)值能夠很好的區(qū)分常用詞,但是對(duì)于專有詞的 區(qū)分卻完全沒體現(xiàn)。試問,對(duì)于財(cái)經(jīng)內(nèi)搜索中“股票”一詞的價(jià)值和體育內(nèi)搜索中“股票”一詞的價(jià)值顯然不同。 這是其一,另外人們對(duì)于搜索 結(jié)果的前幾個(gè)往往比較重視,如果能在搜索結(jié)果中加入人工干預(yù),便能夠針對(duì)特 基于 站內(nèi)新聞搜索引擎的設(shè)計(jì)與實(shí)現(xiàn) 第 10 頁 共 20 頁 殊問題來進(jìn)行處理。就目前這個(gè)公式來看,這個(gè)公式能夠獲得大約 85的準(zhǔn)確率。而我決定一般意義上要有 90的準(zhǔn)確率才算合適,最好能達(dá)到 95。所以目前這個(gè)相關(guān)性計(jì)算的公

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論