【畢業(yè)學(xué)位論文】(Word原稿)CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)-計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)_第1頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)-計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)_第2頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)-計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)_第3頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)-計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)_第4頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)-計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 1 頁(yè) 摘 要 本文首先介紹了 迅速發(fā)展?fàn)顩r,隨后分析了 說(shuō)明了 但是信息的源泉同時(shí)也是信息的迷宮,必須有信息發(fā)現(xiàn)工具協(xié)助用戶定位所需信息。 在介紹了已有的信息發(fā)現(xiàn)服務(wù)和工具 及流行的“搜索引擎”之后,對(duì)不同的類型的信息發(fā)現(xiàn)及服務(wù)方式的分類進(jìn)行了介紹,說(shuō)明了在 提供信息發(fā)現(xiàn)服務(wù)必須采用分布式的技術(shù)。 為了適應(yīng) 規(guī)模,變化性以及自治性等特點(diǎn),文中介紹了在廣域網(wǎng)絡(luò)環(huán)境 下設(shè)計(jì)分布式應(yīng)用的若干技術(shù)和應(yīng)引起重視的問(wèn)題。例如:增加應(yīng)用的容錯(cuò)性,適應(yīng) 治性,控制分布操作以及廣域環(huán)境下數(shù)據(jù)一致性問(wèn)題等。接著分析了 息發(fā)現(xiàn)研究課題組研制的分布式信息發(fā)現(xiàn)系統(tǒng)明了 許多值得利用和借鑒的技術(shù)以及幾個(gè)影響推廣使用的問(wèn)題。 依據(jù) “九五”攻關(guān)項(xiàng)目“計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)研究”中確立的“中文編碼和分布中英文信息發(fā)現(xiàn)”子專題的項(xiàng)目要求設(shè)計(jì)實(shí)現(xiàn)了分布式中英文 息發(fā)現(xiàn)系統(tǒng)。并提出了支持中文信息,有良好分 布和高度并行的設(shè)計(jì)目標(biāo)。隨后介紹了它的信息收集和檢索兩個(gè)子系統(tǒng)的設(shè)計(jì)。 文章最后詳細(xì)介紹了該系統(tǒng)中若干設(shè)計(jì)問(wèn)題和關(guān)鍵技術(shù):為便于不同系統(tǒng)之間的信息交換、保持良好的開(kāi)放性,使用了“ 據(jù)格式。對(duì)收集子系統(tǒng)分布協(xié)同控制的若干方法進(jìn)行了討論。介紹了智能化收集信息的若干技術(shù),例如權(quán)值預(yù)測(cè),導(dǎo)向收集,規(guī)整 持“ 約定等。為了支持中文,使用了成熟的中文分詞軟件。介紹了為支持多副本檢索服務(wù)而設(shè)計(jì)實(shí)現(xiàn)的多點(diǎn)投遞工具 關(guān)鍵詞 : 資源信息發(fā)現(xiàn)、 搜索引擎 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 2 頁(yè) 目 錄 目 錄 . 2 第一章 息發(fā)現(xiàn)技術(shù)發(fā)展與現(xiàn)狀 . 3 一、 發(fā)展 . 3 二、 息資源的特點(diǎn) . 3 三、 特點(diǎn)及其迅速發(fā)展 . 4 四、信息發(fā)現(xiàn)服務(wù)的迫切性 . 4 五、 息發(fā)現(xiàn)技術(shù)的發(fā)展?fàn)顩r . 5 (一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧 . 5 (二)信息發(fā)現(xiàn)服務(wù)的分類及技術(shù) . 7 第二章 廣域網(wǎng)分布式應(yīng)用的特點(diǎn)及技術(shù) . 8 1、廣域網(wǎng)環(huán)境下的若干容錯(cuò)技術(shù) . 9 2、適應(yīng) 自治性 . 9 3、控制分布的范圍 . 9 4、廣域網(wǎng)信息發(fā)現(xiàn)服務(wù)對(duì)數(shù)據(jù)一致性的要求 . 10 5、 統(tǒng)的分析 . 10 第三章 布式中英文 息發(fā)現(xiàn)系統(tǒng)設(shè)計(jì) . 13 項(xiàng)目背景 . 13 設(shè)計(jì)目標(biāo) . 13 系統(tǒng)的體系結(jié)構(gòu) . 14 信息收集子系統(tǒng) . 15 1、收集系統(tǒng)的內(nèi)部結(jié)構(gòu) . 15 2、多個(gè)收集系統(tǒng)分布協(xié)同收集 . 18 信息檢索子系統(tǒng) . 20 第四章 設(shè)計(jì)問(wèn)題及關(guān)鍵技術(shù) . 21 1、采用擴(kuò)展的 . 21 2、控制子節(jié)點(diǎn)收集范圍 . 23 3、系統(tǒng)的智能性 . 25 4、對(duì)中文的支持 . 26 5、單信息源的多點(diǎn)投遞工具設(shè)計(jì)與實(shí)現(xiàn) . 27 總結(jié) . 29 參考書(shū)目 . 30 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 3 頁(yè) 第一章 息發(fā)現(xiàn)技術(shù)發(fā)展與現(xiàn)狀 一、 發(fā)展 的前身是 60 年代末, 70 年代初美國(guó)國(guó)防部高級(jí)研究計(jì)劃 署的實(shí)驗(yàn)性網(wǎng)絡(luò) 1983 年后, 有關(guān)軍事的部分被隔離為 后, 1986 年誕生的美國(guó)國(guó)家科學(xué)基金會(huì) 90 年代初到現(xiàn)在,是 長(zhǎng)最迅速的時(shí)期,加入 人員、計(jì)算機(jī)和網(wǎng)絡(luò)的數(shù)量以指數(shù)方式增長(zhǎng), 的網(wǎng)絡(luò)從 1985 年的 100 個(gè)左右,迅速發(fā)展到 1992 年的 5000 多個(gè)。截止 1996 年 7 月, 連接了 134346個(gè)網(wǎng)絡(luò),入網(wǎng)主機(jī) 1228 萬(wàn)臺(tái),以及數(shù)以億計(jì)的用戶。 二、 息資源的特點(diǎn) 隨著各個(gè)國(guó)家和組織的網(wǎng)絡(luò)不斷加入, 為一個(gè)規(guī)模巨大、自治性強(qiáng)、發(fā)展變化快,用戶訪問(wèn)頻繁的國(guó)際互聯(lián)網(wǎng)絡(luò)。 的信息資源隨著發(fā)展也呈現(xiàn)了以下特點(diǎn): 信息量大而且分散:目前,網(wǎng)上有幾千個(gè)匿名 務(wù)器分布在網(wǎng)上的不同區(qū)域,為用戶提供了數(shù)以百萬(wàn)計(jì)的文件資料。我們將在后面提到的 又構(gòu)成了另一個(gè)廣闊的信息空間??梢哉f(shuō),世界范圍內(nèi)的信息量最大的圖書(shū)館,為人們提供了豐富的信息資源。 自治性 強(qiáng):作為廣域互連的 是也不可能是由一個(gè)國(guó)家或組織單獨(dú)管理的。提供何種服務(wù),如何提供,使用何種技術(shù)都是由每個(gè)接入 組織自己作主。在這種廣域網(wǎng)的環(huán)境下,要達(dá)成廣泛的一致意見(jiàn)往往比較困難。 信息資源多種多樣: 用戶可以通過(guò) 的多種服務(wù)獲得信息,如等,這些信息資源無(wú)論從內(nèi)容還是形式都呈現(xiàn)出多樣異構(gòu)的特點(diǎn)。 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 4 頁(yè) 信息變化快:首先,隨著 增加,新的信息不斷涌現(xiàn),其次,現(xiàn)有的信息也在不斷變化。最典型的當(dāng)屬“ 務(wù),其以 單位的信息隔幾天就要更新一次。 不一致性和不完整性。例如,一個(gè)人的信息可以在個(gè)人 頁(yè), 信息發(fā)生改變時(shí),在這些信息源中改動(dòng)的次序和改動(dòng)是否完整都會(huì)影響信息的一致性和完整性。 信息發(fā)現(xiàn)系統(tǒng)的一個(gè)重要目標(biāo)就是提供給用戶一個(gè)有組織的一致的信息視圖,在設(shè)計(jì)系統(tǒng)時(shí),我們應(yīng)當(dāng)考慮到 信息的特點(diǎn)。 三、 特點(diǎn)及其迅速發(fā)展 九十年代初 的全球性的網(wǎng)絡(luò)信息系統(tǒng)。超文本和超媒體是 用的關(guān)鍵技術(shù)。它使文本、圖象、音頻和視頻等信息有機(jī)地結(jié)合起來(lái),提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息,成為人們發(fā)布和共享信息的重要工具。越來(lái)越多的公司通過(guò)自己的主頁(yè)展示推銷自己;越來(lái)越多的大學(xué)、科研機(jī)構(gòu)也通過(guò)網(wǎng)頁(yè)來(lái)交流研究成果;越來(lái)越多的個(gè)人也擁有了自己的主頁(yè),所有這些都導(dǎo)致信息迅速膨脹。在 1993 年下半年, 不到三個(gè)月的時(shí)間里翻了一翻,即使現(xiàn)在 以每六個(gè)月一翻的速度增長(zhǎng)。 1995 年 4 月, 網(wǎng)上的流量超過(guò)了 一直穩(wěn)居首位。 據(jù)不完全統(tǒng)計(jì), 1996 年初,網(wǎng)上大約有1900 萬(wàn)網(wǎng)頁(yè),到現(xiàn)在 的網(wǎng)頁(yè)數(shù)決不會(huì)低于 2 億。 四、信息發(fā)現(xiàn)服務(wù)的迫切性 作為一個(gè)無(wú)窮無(wú)盡的信息源泉, 人們提供了巨大的并且還在不斷增長(zhǎng)的信息資源和服務(wù), 各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時(shí), 象是一個(gè)信息的迷宮,讓人感覺(jué)無(wú)所適從,不知如何迅速定位自己真正需要的信息,僅依靠超文本鏈在迷宮中漫游,多半會(huì)徒勞無(wú)功。所以,人們迫切希望有信息發(fā)現(xiàn)工具為他們?cè)?搜尋信息提供導(dǎo)航。 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 5 頁(yè) 五、 息發(fā)現(xiàn)技術(shù)的發(fā)展?fàn)顩r (一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧 隨著 展, 的信息發(fā)現(xiàn)服務(wù)和工具也逐漸發(fā)展起來(lái)。比較典型的有 ,另外,還有眾多的“搜索引擎”( 如 1、 際上是一個(gè)大型的數(shù)據(jù)庫(kù),和與這個(gè)數(shù)據(jù)庫(kù)相關(guān)的一套檢索方法。 據(jù)庫(kù)存有通過(guò) 取的資源信息,包括這些資源的文件名、文件長(zhǎng)度、存放該文件的主機(jī)名及目錄。目前 , 據(jù)庫(kù)已存入了大約 1200個(gè) 務(wù)器、 250 萬(wàn)個(gè)文件的資料。 有三十幾個(gè) 務(wù)器,查詢 任務(wù)分布在各個(gè)服務(wù)器,它們之間通過(guò)執(zhí)行基于擴(kuò)散( 一致性保持協(xié)議,來(lái)保證信息的一致性。 開(kāi)發(fā)者把它描述為資源發(fā)現(xiàn)和信息獲取的低端技術(shù)( 案。 成功要?dú)w結(jié)于它的簡(jiǎn)單性和對(duì)已有機(jī)制的利用。 點(diǎn)類似于圖書(shū)館中的檢索卡片。當(dāng)你去圖書(shū)館查閱書(shū)籍時(shí),如果你不知道你要尋找的書(shū)放于哪一個(gè)館區(qū)的哪一個(gè)書(shū) 架,那么,你通常不會(huì)挨個(gè)書(shū)架去找,而是會(huì)先查閱圖書(shū)檢索卡片。 一樣,如果你不知道您要拷貝的文件放在哪一臺(tái) 務(wù)器中,你根本不可能挨個(gè) 務(wù)器去查找,通過(guò) 可以根據(jù)文件名比較方便地找到文件存貯的位置。不過(guò),有針對(duì)文件的簡(jiǎn)要說(shuō)明,僅通過(guò)文件名進(jìn)行索引,利用 索時(shí),你必須事先知道文件名或文件名的某些部份。 有另外一個(gè)不足的地方,就是它收集的資料還不全面。由于是否把 務(wù)器的資料放入 全取決于自愿原則,錯(cuò)漏或更新不及時(shí)的情 況就難以避免。 2、 樣,在最初的時(shí)候也是為解決查找 件的難題而被研制和開(kāi)發(fā)的。 供了一種根據(jù)文件名查找 件的方法, 統(tǒng)最早由 學(xué)的一群計(jì)算機(jī)人員開(kāi)發(fā),按他們的構(gòu)想,每個(gè)信息源的擁有者應(yīng)為自己的資源建立一個(gè)分類目錄。 分類目錄按一定的層次結(jié)構(gòu)進(jìn)行組織,并被放入 務(wù)器中供用戶檢索。用戶是通過(guò)一個(gè)稱為 戶軟件的程序以菜單的方式查閱該目錄,直到找到 所需要的信息為止。 務(wù)器的另一個(gè)功能是服務(wù)器之間的互聯(lián)性,通過(guò)一個(gè) 京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 6 頁(yè) 服務(wù)器,你可進(jìn)入另一個(gè) 務(wù)器,直接獲得該服務(wù)器中列出的資源。這樣,只要進(jìn)入任何一個(gè) 務(wù)器,您就可以在不同的 務(wù)器之間漫游,方便地檢索和拷貝已建立 錄的任何一臺(tái)計(jì)算機(jī)中的信息。 不過(guò),隨著 務(wù)器的增多,其目錄系統(tǒng)變得越來(lái)越復(fù)雜,以每個(gè)務(wù)器有一百條子目錄計(jì), 1000 個(gè)服務(wù)器就有十萬(wàn)條目錄,這樣,光是察看目錄系統(tǒng)就會(huì)占用大量的時(shí)間,而且難以找 到你所需要的目錄,于是,一些幫助用戶更好地在 間中漫游的工具不斷地被開(kāi)發(fā)出來(lái),例如,通過(guò)一種稱為 務(wù),你可以通過(guò)輸入目錄的名稱直接進(jìn)入某個(gè)目錄,省去了逐級(jí)調(diào)用目錄菜單以及查找所需目錄的麻煩。 3、 “ (廣域信息服務(wù) ) 的縮寫(xiě)。 似,提供了一種檢索 源的方法。 過(guò)文件名進(jìn)行檢索, 過(guò)文件類別進(jìn)行檢索, 按關(guān)鍵字對(duì)文件進(jìn)行全文檢索。 一種基于客戶 /服務(wù)器結(jié)構(gòu)的軟件系統(tǒng)。在服務(wù)器端,管理員建立一個(gè)文件索引數(shù)據(jù)庫(kù)。與 據(jù)庫(kù)一樣,該數(shù)據(jù)庫(kù)包括文件的名稱及查找路徑,比 據(jù)庫(kù)更進(jìn)一步的是,該數(shù)據(jù)庫(kù)還包括文件內(nèi)容的全文索引。這樣,用戶不但可以通過(guò)文件名,而且可以通過(guò)關(guān)鍵字去檢索文件內(nèi)容。在用戶端,用戶只需要輸入某些關(guān)鍵字, 務(wù)器就會(huì)自動(dòng)查找出現(xiàn)該關(guān)鍵字頻率最高的文件,并根據(jù)這個(gè)頻率按一定的加權(quán)方法計(jì)算文件與關(guān)鍵字的“關(guān)聯(lián)值” ,選中的文件將依據(jù)“關(guān)聯(lián)值”進(jìn)行排列,“關(guān)聯(lián)值”最大的文件目錄排在最前面。 統(tǒng)雖面世不久,但已在 得到廣泛應(yīng)用。由于 們建立了一個(gè)稱為“ of 專門(mén)收集 個(gè)數(shù)據(jù)庫(kù)本身也采用了 統(tǒng)。當(dāng)用戶需要查找某一文件,而又不清楚該文件會(huì)放在哪一個(gè) 務(wù)器時(shí), 就可以采用二級(jí)查找方法 : 先通過(guò)“ 定哪些 務(wù)器可能包含要查找的文件,然后在選中的 務(wù)器中進(jìn)行二級(jí)查找。 4、 目錄服務(wù)領(lǐng)域標(biāo)準(zhǔn)化努力的結(jié)果。與 條目由一組屬性與值的對(duì)構(gòu)成,它可以接受基于屬性的查詢。名字空間被組織成層次結(jié)構(gòu)分布于多個(gè)服務(wù)器上。這個(gè)全球名字空間的各部分的管理權(quán)被委派給了不同的自治的組織,這些組織又可以將此子樹(shù)進(jìn)一步分派管理權(quán)。部分 名字空間通過(guò)指定主從服務(wù)器的簡(jiǎn)單復(fù)制機(jī)制復(fù)制到不同的服務(wù)器。 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 7 頁(yè) 5、隨著 迅速發(fā)展, 出現(xiàn)了 息查詢服務(wù),它們通常被稱作搜索引擎。目前網(wǎng)上比較有名的搜索引擎有 。這些搜索引擎一般是預(yù)先由程序自動(dòng)地在網(wǎng)上遞歸地訪問(wèn)面,將訪問(wèn)的信息存入數(shù)據(jù)庫(kù)。然后將數(shù)據(jù)庫(kù)中的信息建立索引,并提供給用戶 查詢界面。搜索引擎根據(jù)用戶的請(qǐng)求查詢數(shù)據(jù)庫(kù),并將結(jié)果按相關(guān)程度排序后輸出給用戶。這樣用戶可以很方便地定位所需資源。值得一提的是 它更應(yīng)被稱之為 主題分類目錄。它在人工的參與下將息作了較好的分類,用戶可以直接沿著分類目錄找到網(wǎng)頁(yè)。搜索引擎的出現(xiàn)給用戶帶來(lái)了極大方便,吸引了大批用戶。下圖顯示了 1998 年 3 月訪問(wèn)各個(gè) 搜索引擎用戶數(shù)目的估計(jì)。 ( 摘自“ ) 近來(lái)隨著搜索引擎的不斷增多,網(wǎng)上又出現(xiàn)了“ 14或者“ 它本身并不收集和存儲(chǔ)任何數(shù)據(jù),只是代理用戶同時(shí)向多個(gè)搜索引擎提交查詢,將各個(gè)搜索引擎的查詢結(jié)果通過(guò)一定的策略規(guī)整后返回給用戶。目前,這個(gè)領(lǐng)域也在不斷發(fā)展之中。 (二)信息發(fā)現(xiàn)服務(wù)的分類及技術(shù) 的信息發(fā)現(xiàn)模式可以分為兩類:一類是基于數(shù)據(jù)組織提供用戶瀏覽。數(shù)據(jù)組織是指人工參與 下的如何使信息相關(guān)聯(lián)的過(guò)程,通常是將數(shù)據(jù)排序和組織成有向圖。如 件系統(tǒng)中的層次目錄, 的菜單條目等。用戶可以使用相應(yīng)的瀏覽工具來(lái)瀏覽和搜索資源空間。這種方法的有效性依賴于如何北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 8 頁(yè) 有效地組織數(shù)據(jù)空間, 數(shù)據(jù)量如此之大,保持一個(gè)良好的數(shù)據(jù)組織是非常困難的。另外,由于不同的用戶有不同的需求,何種數(shù)據(jù)有用,如何有效地組織等,都是很難確定的。 另一類信息發(fā)現(xiàn)系統(tǒng)是基于搜索的。一般是用戶提供有關(guān)資源的描述,由信息發(fā)現(xiàn)系統(tǒng)自動(dòng)定位。這種方法能較好的適應(yīng)數(shù)據(jù)的增長(zhǎng),應(yīng)用也越來(lái)越普遍。 從系統(tǒng)實(shí) 現(xiàn)來(lái)看,基于搜索的信息發(fā)現(xiàn)又可以分為兩類:一類是基于服務(wù)器的搜索工具,另一類是基于客戶機(jī)的搜索工具。 基于服務(wù)器的搜索工具由軟件自動(dòng)地在網(wǎng)上發(fā)現(xiàn)資源,把搜索的結(jié)果保存必要的信息,并建立索引供用戶查詢。一般,這類系統(tǒng)可以分為收集和檢索兩個(gè)子系統(tǒng)。收集子系統(tǒng)以一定的策略引導(dǎo)信息的發(fā)現(xiàn)并處理信息的更新,檢索子系統(tǒng)則負(fù)責(zé)使用戶能快速有效地利用收集到的信息,其特點(diǎn)是提供服務(wù),被動(dòng)地接受用戶查詢。 基于客戶機(jī)的搜索工具是由客戶方按照用戶事先定義的信息檢索要求,在發(fā)現(xiàn)滿足要求的信息或指定的信息發(fā)生改變時(shí)主動(dòng)通知用戶。用戶 無(wú)需反復(fù)搜索所需信息,減少了用戶檢索信息的時(shí)間。但往往由于客戶機(jī)能力的限制,對(duì)于龐大的 能搜尋極少的部分,而且速度較慢,如果許多用戶使用,則對(duì)網(wǎng)絡(luò)資源消耗比較大。 隨著 上的數(shù)據(jù)量呈指數(shù)增長(zhǎng),為了達(dá)到適當(dāng)?shù)男阅芤?,信息發(fā)現(xiàn)服務(wù)以及它們的數(shù)據(jù)必須在成百上千個(gè)網(wǎng)絡(luò)上加以復(fù)制。以 理的是高度動(dòng)態(tài)(用戶可以隨時(shí)向 消息),弱一致性,(一個(gè)用戶的文章在一段時(shí)間后才能被其它用戶響應(yīng)),數(shù)據(jù)量大(可以達(dá)到千兆字節(jié))的數(shù)據(jù),然而由于 數(shù)千個(gè)副本服務(wù)器,對(duì)用戶查詢的響應(yīng)時(shí)間卻在幾秒之內(nèi)。與此形成對(duì)比的是 務(wù), 理的數(shù)據(jù)要少得多( 150響應(yīng)時(shí)間卻可能會(huì)長(zhǎng)達(dá) 15 分鐘。這是因?yàn)?只有30 多個(gè)副本。所以采用分布式系統(tǒng)中的多副本技術(shù)、分布協(xié)同技術(shù) 1是建立一個(gè)擴(kuò)展性強(qiáng)、可用性高、響應(yīng)時(shí)間合理并具有良好的信息定位能力的信息發(fā)現(xiàn)系統(tǒng)的重要技術(shù)傾向。 第二章 廣域網(wǎng)分布式應(yīng)用的特點(diǎn)及技術(shù) 隨著網(wǎng)絡(luò)互聯(lián)規(guī)模的日益擴(kuò)大,我們必須開(kāi)發(fā)許多分布式的應(yīng)用來(lái)有效地北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 9 頁(yè) 利用網(wǎng)絡(luò),這種廣域分布的應(yīng)用要適應(yīng) 規(guī)模、變化以及自治性等特點(diǎn),本身應(yīng)具有許多新的特性 2值得我們?cè)谠O(shè)計(jì)開(kāi)發(fā)過(guò)程中加以重視。 1、廣域網(wǎng)環(huán)境下的若干容錯(cuò)技術(shù) 廣域網(wǎng)的復(fù)雜性導(dǎo)致網(wǎng)絡(luò)資源的失效情況和可能性增加。廣域網(wǎng)分布式應(yīng)用和局域網(wǎng)分布式應(yīng)用一樣,也會(huì)遇到主機(jī)、網(wǎng)絡(luò)的崩潰和軟件的錯(cuò)誤,但由于環(huán)境與規(guī)模不同,這些錯(cuò)誤會(huì)發(fā)生地更頻繁,錯(cuò)誤的組合也會(huì)更復(fù)雜。因此我們必須增加分布式應(yīng)用的容錯(cuò)性。常用的方法有: 冗余和多副本是分布式環(huán)境中提高容錯(cuò)性的主要手段,例如,我們可以在不同的子網(wǎng)上運(yùn)行多個(gè)服務(wù)器,或?qū)@些服務(wù)器增加冗余線路等。 把 緩慢變化的數(shù)據(jù)存儲(chǔ)在本地,減少對(duì)遠(yuǎn)端系統(tǒng)的依賴性。這樣,甚至在遠(yuǎn)端系統(tǒng)服務(wù)不可用時(shí),也可能不影響應(yīng)用的執(zhí)行。這種技術(shù)也用在了域名解析中,每個(gè)本地域名服務(wù)器都在本地緩存根服務(wù)器的信息。這樣,在根服務(wù)器出現(xiàn)故障時(shí),仍然能夠進(jìn)行域名解析。此外,還減少了網(wǎng)絡(luò)操作加快了速度。 定時(shí)嘗試服務(wù)的可用性。有些服務(wù)往往不是永久停止了,而是由于一時(shí)的網(wǎng)絡(luò)擁塞、軟件錯(cuò)誤或正在維護(hù)等,因而不久就會(huì)恢復(fù)服務(wù)。 2、適應(yīng) 自治性 由于 巨大規(guī)模和高度的自治特點(diǎn),我們很難想象會(huì)象局網(wǎng)那樣使用同一種 產(chǎn)品。這時(shí)的分布式應(yīng)用就不能期待著與這些產(chǎn)品交互時(shí)它們的行為是一致的。不僅如此,我們還應(yīng)估計(jì)到對(duì)方產(chǎn)品出錯(cuò)的可能性。例如,在收集 收集程序可能會(huì)同各種不同的 務(wù)器打交道,這些服務(wù)器實(shí)現(xiàn)的議在某些地方會(huì)有差異,他們提供的 件的格式也可能是錯(cuò)誤百出。這就要求我們開(kāi)發(fā)的應(yīng)用必須有更強(qiáng)的適應(yīng)性,支持多種協(xié)議以及適應(yīng)它們的各種實(shí)現(xiàn)。 3、控制分布的范圍 “ 危害大家都有所耳聞,它造成危害的根本原因是在無(wú)限制地?cái)U(kuò)散。當(dāng)然,這是人為的惡意擴(kuò) 散,但這同時(shí)也警告我們,北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 10 頁(yè) 在廣域網(wǎng)上的分布式應(yīng)用必須要對(duì)它可能產(chǎn)生的負(fù)載、作用的范圍有所控制。在信息發(fā)現(xiàn)時(shí),這種控制更為重要。例如,在 息發(fā)現(xiàn)中,信息收集子系統(tǒng)往往會(huì)啟用一個(gè)“ 游于 超文本鏈中,遞歸地搜索這些超文本鏈所指向的文檔。利用“ 其是訪問(wèn)遠(yuǎn)端的資源,會(huì)對(duì)網(wǎng)絡(luò)造成極大的負(fù)載。在極短的時(shí)間內(nèi)大量集中地訪問(wèn)一個(gè)主機(jī),會(huì)對(duì)其它的用戶造成網(wǎng)絡(luò)和機(jī)器資源的短缺。因此,必須對(duì)這種“ 用的分布操作及范圍有所控制。另外, 的信息如 此巨大,不加控制的收集信息,也會(huì)超出應(yīng)用本身的處理能力。 4、廣域網(wǎng)信息發(fā)現(xiàn)服務(wù)對(duì)數(shù)據(jù)一致性的要求 信息發(fā)現(xiàn)工具往往是提取用戶的信息,并存入本地?cái)?shù)據(jù)庫(kù)提供查詢服務(wù)。當(dāng)用戶信息發(fā)生改變時(shí),并不能通知它去更新數(shù)據(jù)庫(kù)。這時(shí),數(shù)據(jù)就產(chǎn)生了不一致。為了使這種不一致性減少到最低,就要有一定的策略主動(dòng)更新信息。另外,當(dāng)服務(wù)有多個(gè)副本時(shí),副本之間也要保持一致性,也就是副本間處理更新信息時(shí)要按照一個(gè)一致的順序。 不同的應(yīng)用對(duì)一致性有不同的要求,強(qiáng)一致性的分布式應(yīng)用可能要求信息更新是原子的、同步的、操作順序完全相同的。然而, 強(qiáng) 一致性協(xié)議的實(shí)現(xiàn)需要較高的代價(jià),而且在不可靠的廣域網(wǎng)中其擴(kuò)展性差。在這種網(wǎng)絡(luò)中,使用強(qiáng)一致性協(xié)議會(huì)產(chǎn)生相當(dāng)可觀的延遲和網(wǎng)絡(luò)負(fù)載。 但是,廣域網(wǎng)上信息發(fā)現(xiàn)的多副本服務(wù)對(duì)信息更新僅僅要求弱一致性就可以,也就是說(shuō),各個(gè)副本之間達(dá)到一致性的時(shí)間應(yīng)有限,但無(wú)界。由于要求最終能夠達(dá)到一個(gè)一致性的狀態(tài),因而這種應(yīng)用也必須處理網(wǎng)絡(luò)或服務(wù)器崩潰的問(wèn)題。 5、 統(tǒng)的分析 統(tǒng)是 1994 年美國(guó)科羅拉多大學(xué)、南加州大學(xué)等在 息資源發(fā)現(xiàn)服務(wù)領(lǐng)域開(kāi)展的研究工作成果,作為 息發(fā)現(xiàn)研究課題組( 設(shè)計(jì)目標(biāo)是要在國(guó)家信息基礎(chǔ)設(shè)施上提供資源發(fā)現(xiàn)服務(wù)。 考慮到目前的大多數(shù)資源索引系統(tǒng)彼此間對(duì)信息收集缺乏協(xié)作,使他們對(duì)網(wǎng)絡(luò)和服務(wù)器增加了不必要的負(fù)載。 計(jì)了有效的收集和分布索引信息北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 11 頁(yè) 的方法。圖 1 顯示了 整體結(jié)構(gòu) 5610。 圖 1: 統(tǒng)的結(jié)構(gòu) 如圖 1 所示, 若干子系統(tǒng)組成。 信息資源站點(diǎn) 務(wù)器)上提供的資源中收集索引信息(如關(guān)鍵詞,作者,標(biāo)題等)。 一個(gè)或多個(gè) 取回索引信息、去掉重復(fù)的信息、存儲(chǔ)下來(lái)并提供一個(gè) 查詢界面。 1 中 于在 復(fù)制 信息。 為了減少網(wǎng)絡(luò)流量、加快用戶訪問(wèn) 息資源的緩沖。 一個(gè)被稱為 特殊 保存網(wǎng)上所有的 有關(guān)信息。 為了有效地利用網(wǎng)絡(luò)和服務(wù)器, 以被配置成多種方式: 計(jì)的目標(biāo)是運(yùn)行在信息提供者的機(jī)器上,進(jìn)行本地收集,以便節(jié)省服務(wù)器和網(wǎng)絡(luò)資源。 可以通過(guò)網(wǎng)絡(luò)來(lái)收集信息,這樣不需要每個(gè)服務(wù)器都安裝時(shí)要在網(wǎng)上傳送原始信息而不是索引信息,所以,對(duì)網(wǎng)絡(luò)的利用不是很有效。 一個(gè) 以從多個(gè) 搜集索引信息,建立廣泛的 信息索引。 以給多個(gè) 供信息,不用重復(fù)收集原始信息。 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 12 頁(yè) 以從其他 提取信息。 引和查詢。 圖 2: 統(tǒng)的配置示例 過(guò) 格式來(lái)交換信息。 摘要對(duì)象交換格式,它為多種類型的對(duì)象提供了足夠的表達(dá)方式,同時(shí),由于格式本身是一個(gè)屬性與屬性值的字節(jié)流,便于格式分析、 顯示和交換。其具體格式我們將在第四章介紹。 為了支持對(duì)索引信息的復(fù)制, 供了一個(gè)弱一致性,廣域的文件復(fù)制系統(tǒng) 復(fù)制就是建立在這樣一個(gè)弱一致性的復(fù)制算法之上的。 是建立在一個(gè)層次的組通信子系統(tǒng) 上。 據(jù)對(duì)網(wǎng)絡(luò)的測(cè)量(帶寬,時(shí)延)自動(dòng)計(jì)算出一個(gè)具有 內(nèi)成員利用這個(gè)拓?fù)鋪?lái)傳播數(shù)據(jù)。一個(gè)成員可以同時(shí)屬于多個(gè)組,這樣組和組之間就通過(guò)共有的成員連在了一起。通過(guò)這種連接方式就可以構(gòu)造出有成千上萬(wàn)個(gè)節(jié)點(diǎn)的層次化的 組通信系統(tǒng),使 統(tǒng)有良好的擴(kuò)展性,適應(yīng)了 廣泛復(fù)制服務(wù)的通信要求。 在一個(gè)復(fù)制組里 期向它的近鄰傳播完整的狀態(tài)信息,通過(guò)這種方法來(lái)發(fā)現(xiàn)可能由于長(zhǎng)時(shí)間網(wǎng)絡(luò)斷連,主機(jī)或者 件的失效而沒(méi)有遞交給 更新信息。在這個(gè)基礎(chǔ)上, 現(xiàn)了最終一致性:即如果不北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 13 頁(yè) 再有更新信息,副本之間最終會(huì)匯聚到一個(gè)相同狀態(tài)。 我們提供了廣域網(wǎng)資源信息收集、查詢的分布式體系結(jié)構(gòu),有很多地方值得我們借鑒和利用。然而 統(tǒng)也是一個(gè)龐 大復(fù)雜的系統(tǒng),其算法復(fù)雜,開(kāi)銷比較大,對(duì)其推廣使用造成了一定影響。 第三章 布式中英文 息發(fā)現(xiàn)系統(tǒng)設(shè)計(jì) 項(xiàng)目背景 上 息的迅速增長(zhǎng),是建立網(wǎng)上的 息發(fā)現(xiàn)成為迫切需要解決的問(wèn)題。目前,國(guó)外有一些此類的系統(tǒng)如 ,給用戶查詢信息帶來(lái)了極大的方便。但是,這些系統(tǒng)都是面向英文設(shè)計(jì)的,不適合中文的查詢。而且,信息也大多是國(guó)外站點(diǎn)的,國(guó)內(nèi)信息較少。為了方便日益增多的國(guó)內(nèi)用戶,促進(jìn) 信息交流,“九五”攻關(guān)項(xiàng)目“計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)研究”中確立了“中文編碼和分布中英文信息發(fā)現(xiàn)”子專題。北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)研究室承擔(dān)了其中部分研究開(kāi)發(fā)工作,所研制的中英文信息發(fā)現(xiàn)系統(tǒng)叫“天網(wǎng)”( 3。我的論文工作是圍繞這個(gè)項(xiàng)目進(jìn)行的,設(shè)計(jì)開(kāi)發(fā)了分布式中英文 息發(fā)現(xiàn)系統(tǒng),它建立在已有的“天網(wǎng)”基礎(chǔ)上,為的是進(jìn)一步適應(yīng)網(wǎng)絡(luò)規(guī)模和資源的不斷增長(zhǎng)。 設(shè)計(jì)目標(biāo) 本項(xiàng)目是要在 首要目標(biāo)是利用一定的分布 式策略和導(dǎo)向功能自動(dòng)地收集網(wǎng)上的息,而不是人工分類;基于關(guān)鍵詞智能化的提取摘要;并能將摘要信息分布到 的多個(gè)副本建立索引數(shù)據(jù)庫(kù),接受用戶的中英文查詢請(qǐng)求,并將查詢結(jié)果返回給用戶。 系統(tǒng)要求對(duì)中文信息有較強(qiáng)的處理能力,能自動(dòng)識(shí)別轉(zhuǎn)換,有效地提取摘北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 14 頁(yè) 要信息。依據(jù)國(guó)內(nèi)網(wǎng)絡(luò)的規(guī)模,數(shù)據(jù)量也應(yīng)能達(dá)到十到一百萬(wàn)網(wǎng)頁(yè)的量級(jí),且查詢響應(yīng)速度,以及查詢結(jié)果的相關(guān)度均應(yīng)達(dá)到實(shí)用化要求。另外,系統(tǒng)運(yùn)行具有較高的效率,較低的網(wǎng)絡(luò)資源消耗也是研究的重要目標(biāo)。 針對(duì)以上的研究目標(biāo),尤其是分布式的要求,系統(tǒng)應(yīng)該具有如下 特性: 1良好的分布和高度的并行性。 的信息如此巨大,在信息發(fā)現(xiàn)過(guò)程中如果僅靠單個(gè)的機(jī)器來(lái)處理是不能適應(yīng)信息量的要求的。假設(shè)網(wǎng)上有一億個(gè) 頁(yè),由于網(wǎng)頁(yè)的存在和網(wǎng)頁(yè)的內(nèi)容隨時(shí)都會(huì)變化,信息收集系統(tǒng)必須定期檢查所有的網(wǎng)頁(yè)。再假定系統(tǒng)每個(gè)月檢查一次,則我們每天必需要訪問(wèn)一百萬(wàn)個(gè)網(wǎng)頁(yè),如此大量的信息由一臺(tái)機(jī)器處理是不合理也是不現(xiàn)實(shí)的。因此在系統(tǒng)設(shè)計(jì)中,必須采用分布式技術(shù)將任務(wù)分布到多臺(tái)機(jī)器上并行的處理。信息源廣泛的分布在網(wǎng)絡(luò)上,對(duì)并行訪問(wèn)提供了充分的可能性和合理性。同時(shí),分布并行還會(huì)節(jié)省網(wǎng) 絡(luò)帶寬資源。 2有良好的可用性。尤其在為用戶提供查詢服務(wù)時(shí),采用多副本技術(shù)可同時(shí)提供多個(gè)檢索服務(wù)器,縮短響應(yīng)時(shí)間,減少用戶訪問(wèn)的網(wǎng)絡(luò)流量。對(duì)這些檢索服務(wù)器的維護(hù)過(guò)程中,力求不中斷服務(wù),對(duì)用戶透明。 3中英文信息的支持。收集處理信息時(shí)支持常用漢字編碼識(shí)別與轉(zhuǎn)換,智能化提取關(guān)鍵詞,在檢索時(shí)提供中英文的查詢界面。 4良好的開(kāi)放性。盡可能使用和遵循現(xiàn)有的標(biāo)準(zhǔn)和協(xié)議,加強(qiáng)與其它系統(tǒng)交換信息的能力。 5可定制性。系統(tǒng)可以讓用戶依據(jù)自己對(duì)信息的興趣,配置用于引導(dǎo)系統(tǒng)收集的導(dǎo)向詞,以及收集的范圍。 6有一定的擴(kuò)展 性。系統(tǒng)能在 網(wǎng)絡(luò)環(huán)境下有效的運(yùn)行,不需改動(dòng)或改動(dòng)很少就能適應(yīng)不同的需要。 系統(tǒng)的體系結(jié)構(gòu) 從前面對(duì) 統(tǒng)的介紹,我們知道 供了從信息收集、復(fù)制、到查詢的一整套方案。其中有許多地方值得我們?cè)谠O(shè)計(jì) 布式信息發(fā)現(xiàn)系統(tǒng)時(shí)加以借鑒。例如, 統(tǒng)對(duì)摘要信息用“ 示,并且在 間交換信息時(shí)也采用這個(gè)格式。設(shè)計(jì)系統(tǒng)時(shí),我們也可以考慮支持和使用“ 但是, 許多地方并不適合我們的設(shè)計(jì)目標(biāo)。 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 15 頁(yè) 信息提供方的機(jī)器上運(yùn)行時(shí),會(huì)有較好的效果。但是,我們不可能要求每個(gè)信息提供者都這樣做。利用 集一定范圍信息時(shí),對(duì)收集缺乏有效的控制。例如,我們要求遵守有關(guān)“ 定,另外,還要對(duì)收集有一定的導(dǎo)向。 查詢是對(duì)單個(gè) 查詢 ,單個(gè) 信息數(shù)量,信息范圍都是有限制的。我們的查詢目標(biāo)是對(duì)整個(gè)收集范圍的查詢,對(duì)查全率、查準(zhǔn)率和響應(yīng)時(shí)間要求較高。 支持中文編碼識(shí)別和轉(zhuǎn)換。 系統(tǒng)提供的是廣域網(wǎng)多副本復(fù)制的算法,它是為成千上萬(wàn)個(gè)副本的復(fù)制而設(shè)計(jì)的,算法較為復(fù)雜。我們的設(shè)計(jì)目標(biāo)是 0 到 20 個(gè)副本的檢索服務(wù),因此我們可以使用相對(duì)簡(jiǎn)單的設(shè)計(jì)。 另外,我們的系統(tǒng)對(duì)收集信息的速度有一定要求,而 設(shè)計(jì)在這一方面沒(méi)有考慮。 所以,根據(jù)項(xiàng)目的特點(diǎn)、研究目標(biāo),我們的系統(tǒng)采用的是主動(dòng)收集信息提取關(guān)鍵詞和摘要,并提供用戶檢索的方法,分為信息收集子系統(tǒng)和信息檢索子系統(tǒng)兩部分。它們之間相互獨(dú)立又相互聯(lián)系,收集子系統(tǒng)通過(guò)分布式算法高效的收集信息,信 息檢索子系統(tǒng)通過(guò)多點(diǎn)投遞工具將信息分發(fā)給提供服務(wù)的多個(gè)副本。這樣既提高了系統(tǒng)的模塊化、有利于簡(jiǎn)化系統(tǒng)設(shè)計(jì)、便于系統(tǒng)的分布和分擔(dān)負(fù)載、加快了收集和檢索的速度,也為提供多副本檢索服務(wù)提供了可能。 以下分別介紹兩個(gè)子系統(tǒng)的設(shè)計(jì)。 信息收集子系統(tǒng) 1、收集系統(tǒng)的內(nèi)部結(jié)構(gòu) 集中式版本“天網(wǎng)”中收集系統(tǒng)是由主控、 取分析、信息數(shù)據(jù)庫(kù)幾部分組成的。其結(jié)構(gòu)如圖 3 所示。 “ 取分析進(jìn)程”負(fù)責(zé)從信息服務(wù)器上獲得所需的文檔資源,并提取關(guān)鍵詞和摘要,形成 式的摘要,再傳送給“主進(jìn)程”進(jìn)一步處理。主控北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 16 頁(yè) 模塊負(fù)責(zé) 按照一定的條件選取未訪問(wèn) 送給“ 取分析進(jìn)程”,并從“ 取分析進(jìn)程”接收摘要信息存入數(shù)據(jù)庫(kù)。 取分析 取分析主進(jìn)程. . .r o b o t s 存取分析進(jìn)程 結(jié)果插入進(jìn)程期檢查進(jìn)程S O C K E T 接口S O I F 數(shù)據(jù)格式P I P E 接口S O I F 數(shù)據(jù)格式通過(guò)信號(hào)S I G U S R 1 通知取分析新 u r l 處理進(jìn)程未訪問(wèn) u r l 選取進(jìn)程U r l C a c h e w U r l C a c h :?jiǎn)蝹€(gè)收集系統(tǒng)結(jié)構(gòu)圖 主控由六個(gè)進(jìn)程組成: 負(fù)責(zé)產(chǎn)生其他進(jìn)程,接受 取分析進(jìn)程的連接,與存取分析進(jìn)程交互。給存取分析進(jìn)程分配訪問(wèn)的 接受返回的結(jié)果。 通過(guò) 收主進(jìn)程得到的訪問(wèn)結(jié)果,通過(guò)各種檢查后存入數(shù)據(jù)庫(kù)。其中新 數(shù)據(jù)庫(kù)新中, 等待新 理進(jìn)程進(jìn)行處理。 取分析進(jìn)程 得到主進(jìn)程的 號(hào)后,檢查主機(jī)表中的表項(xiàng)并按要求進(jìn)行 取分析,或定期濾除過(guò)期的信息,1 未訪問(wèn) 待進(jìn)行訪問(wèn)的 2 新 檔中抽取出的未經(jīng)過(guò)處理的 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 17 頁(yè) 以重新訪問(wèn)。 期檢查進(jìn)程 定期檢查數(shù)據(jù)庫(kù)中過(guò)時(shí)的 將其放入未訪問(wèn)表中。 取進(jìn)程 從未訪問(wèn) 中選取合格的未訪問(wèn)的 入 。 理進(jìn)程 從 數(shù)據(jù)庫(kù)新 中,取出新 行處理。 “主進(jìn)程”與“ 取分析進(jìn)程”之間 的交互是通過(guò) 實(shí)現(xiàn)的,這樣主控與存取分析進(jìn)程可以運(yùn)行于不同的機(jī)器上。它們之間是通過(guò) 由于傳送的是摘要信息而不是原文,這樣減小了主控所在機(jī)器的負(fù)載和網(wǎng)絡(luò)流量。 通過(guò)這種設(shè)計(jì),系統(tǒng)的功能及模塊的劃分比較清晰,主控模塊中多個(gè)進(jìn)程并發(fā)工作極大地提高了收集處理信息的速度。另外,系統(tǒng)在選取未訪問(wèn) 和處理新 使用了兩個(gè)緩沖,“未訪問(wèn) 取進(jìn)程”不必每次等待“主進(jìn)程”取走選取結(jié)果而可以繼續(xù)選取。“結(jié)果插入進(jìn)程”也不必等所有新 理完才從“主進(jìn)程”接收下一個(gè)結(jié)果進(jìn)行處 理。這樣,進(jìn)一步提高了進(jìn)程間的并行程度。 管理員可以根據(jù)實(shí)際情況,將主控和“ 取分析進(jìn)程”進(jìn)行分布和組合,也可以動(dòng)態(tài)控制“ 取分析進(jìn)程”的數(shù)目。以達(dá)到分擔(dān)服務(wù)器負(fù)載,提高并發(fā)度,加快信息收集的目的。 在進(jìn)行信息訪問(wèn)時(shí),我們同時(shí)要遵循有關(guān)“ 各種約定:例如,不要在短時(shí)間內(nèi)多次訪問(wèn)同一個(gè)服務(wù)器;獲取“ 件,不訪問(wèn)由它指定的目錄等。為此我們?cè)跀?shù)據(jù)庫(kù)中建立了一個(gè)主機(jī)表和一個(gè)禁止訪問(wèn)目錄表,主機(jī)表記錄了最近一次訪問(wèn)一個(gè)主機(jī)的時(shí)間,以及“ 件的訪問(wèn)信息(沒(méi)有、超時(shí)或成功訪問(wèn))。只有在當(dāng)前時(shí)間與此主機(jī)上次訪問(wèn)時(shí)間之差大于規(guī)定的時(shí)間間隔,并且不在禁止目錄表中時(shí),才允許訪問(wèn)此主機(jī)上的 信息數(shù)據(jù)庫(kù)存儲(chǔ)收集到的 息摘要和關(guān)鍵詞,供用戶檢索。由于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)滿足不了搜索引擎在信息檢索方式和速度方面的要求,這里的索引數(shù)據(jù)庫(kù)是有針對(duì)性地專門(mén)設(shè)計(jì)開(kāi)發(fā)的 8。 北京大學(xué)碩士研究生學(xué)位論文 布式中英文 息發(fā)現(xiàn)系統(tǒng) 第 18 頁(yè) 2、多個(gè)收集系統(tǒng)分布協(xié)同收集 分布式收集子系統(tǒng)的結(jié)構(gòu)如圖 4 所示。 圖 4:分布式收集子系統(tǒng)結(jié)構(gòu)圖 為了達(dá)到收集子系統(tǒng)并行高速收集信息,減少網(wǎng)絡(luò)流量,不丟失發(fā)現(xiàn)的信息的目的,信息收集子 系統(tǒng)設(shè)計(jì)為多個(gè)收集系統(tǒng)協(xié)同工作來(lái)完成收集信息的任務(wù)。這些收集系統(tǒng)可以分布在不同的網(wǎng)絡(luò)上,每個(gè)收集系統(tǒng)在收集信息時(shí),只收集本節(jié)點(diǎn)附近的子網(wǎng)內(nèi)信息,各收集系統(tǒng)之間通過(guò)協(xié)同與通信模塊交換信息和協(xié)同工作。協(xié)同與通訊模塊是多個(gè)收集系統(tǒng)節(jié)點(diǎn)間協(xié)同工作的基礎(chǔ)。這樣,整個(gè)系統(tǒng)構(gòu)成了一種樹(shù)形的層次分布結(jié)構(gòu)。 采用樹(shù)形結(jié)構(gòu)是因?yàn)樗辛己玫臄U(kuò)展性。例如,當(dāng)有的子網(wǎng)內(nèi)信息資源過(guò)多時(shí),我們可以把這個(gè)子網(wǎng)分成兩部分,由兩個(gè)收集系統(tǒng)共同收集,這樣就均衡了負(fù)載。當(dāng)試圖收集新的子網(wǎng)內(nèi)的信息時(shí),可以在這個(gè)子網(wǎng)內(nèi)安裝一個(gè)僅收集此子網(wǎng)內(nèi)信息的收集 系統(tǒng)。 系統(tǒng)是如何將信息的收集范圍限制在子網(wǎng)內(nèi)的呢?這是通過(guò)限制訪問(wèn) 體細(xì)節(jié)將在第四章介紹。然而, 雖然我們限制了訪問(wèn)的范圍,但是,從這個(gè)范圍內(nèi)取得的 擋中的超文本鏈 還有少部分并

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論