【畢業(yè)學(xué)位論文】(Word原稿)可擴展Web信息搜集系統(tǒng)的設(shè)計、實現(xiàn)與應(yīng)用初探-計算機網(wǎng)絡(luò)技術(shù)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)可擴展Web信息搜集系統(tǒng)的設(shè)計、實現(xiàn)與應(yīng)用初探-計算機網(wǎng)絡(luò)技術(shù)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)可擴展Web信息搜集系統(tǒng)的設(shè)計、實現(xiàn)與應(yīng)用初探-計算機網(wǎng)絡(luò)技術(shù)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)可擴展Web信息搜集系統(tǒng)的設(shè)計、實現(xiàn)與應(yīng)用初探-計算機網(wǎng)絡(luò)技術(shù)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)可擴展Web信息搜集系統(tǒng)的設(shè)計、實現(xiàn)與應(yīng)用初探-計算機網(wǎng)絡(luò)技術(shù)_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

i 可擴展 現(xiàn)與應(yīng)用初探 摘 要 本文研究工作是國家重點基礎(chǔ)研究發(fā)展規(guī)劃項目“網(wǎng)絡(luò)環(huán)境下海量信息組織與處理的理論與方法研究”的一部分;研究對象是 樣的動態(tài)海量信息載體;研究的主要目標(biāo)是要得到一種高性能、高可靠,支持海量網(wǎng)頁信息搜集、分析與處理的系統(tǒng)結(jié)構(gòu)。主要貢獻包括以下幾個方面: 1) 基于對網(wǎng)頁性質(zhì)及其分布的認識,設(shè)計和實現(xiàn)了一種可擴展海量 息搜集系統(tǒng)體系結(jié)構(gòu)。結(jié)合 息搜集的基本要求和基于 群的并行分布處理技術(shù),該系統(tǒng)結(jié)構(gòu)力圖在搜集策略、可擴展性、減少通信、負載 平衡、任務(wù)調(diào)度、并行粒度控制等方面得到一個很好的折衷。在仔細的理論分析和大量模擬實驗的基礎(chǔ)上,目前這種體系結(jié)構(gòu)已經(jīng)成功地實現(xiàn)并投入運行,在系統(tǒng)規(guī)模從 1 到 18 臺機器變化的范圍表現(xiàn)出很好的可擴展性,達到了 15 天搜集 5700 萬網(wǎng)頁的性能指標(biāo)。 2) 針對并行網(wǎng)頁搜集系統(tǒng)的節(jié)點可能出現(xiàn)臨時故障的問題,提出了一種系統(tǒng)動態(tài)可配置方案。該方案的基礎(chǔ)是一種從網(wǎng)頁 搜集節(jié)點的兩階段映射關(guān)系,它保證了當(dāng)配置(節(jié)點數(shù))變化時系統(tǒng)能經(jīng)過一個短暫、安全的過渡過程達到一個新的穩(wěn)態(tài),從而保證了系統(tǒng)的動態(tài)可配置性。目前這種方案已經(jīng)實 現(xiàn),并成功應(yīng)用于“天網(wǎng)”搜索引擎和“燕穹” 息博物館的存儲系統(tǒng)中。 3) 基于“燕穹” 息博物館中的網(wǎng)頁信息,探討了海量 過分析幾千萬網(wǎng)頁的鏈接結(jié)構(gòu),給出了對2002 年初中國 大小、形狀和結(jié)構(gòu)的一種定量認識,同時說明了如何從海量網(wǎng)頁信息中高效地識別網(wǎng)絡(luò)社區(qū)的一種方法。 關(guān)鍵詞 :萬維網(wǎng),搜索引擎,可擴展 息搜集, 息博物館,動態(tài)可配置性,負載平衡, 掘 e eb as a In we in a of 1) on an of a is a of is of a in a of a is in in 8 7 5 2) at in a is is on a a of of a a As of of in in 3) of an is to be to of In we of a is eb as of 002. In an is of eb v 致謝 首先要向我的導(dǎo)師 李曉明 教授表示衷心的感謝,感謝他在我三年的博士生階段和本論文的完成工作中對我的精心指導(dǎo)和諄諄教誨,他踏實的治學(xué)態(tài)度和嚴謹?shù)墓ぷ髯黠L(fēng)使我受益匪淺,他淵博的知識和對事業(yè)無止境的追求使我感受至深,他對我的嚴格要求將對我以后的工作學(xué)習(xí)產(chǎn)生巨大的影響,使我終生受益,我以作為他的學(xué)生而自豪。 同時,感謝王建勇老師,在選題、調(diào)研和系統(tǒng)的設(shè)計與實現(xiàn)的過程中,以他豐富的經(jīng)驗提出了許多寶貴的意見,在可擴展 息搜集系統(tǒng)結(jié)構(gòu)設(shè) 計和動態(tài)可配置模型建立方面給了我許多無私的幫助。 感謝我的妻子陳翀,給予我的愛和支持。在我三年的學(xué)習(xí)中,她對家庭無私奉獻,從無怨言;同時還是我的良師益友,在我面對問題、挫折的時候,給我很多啟迪。在我論文寫作期間,多次幫我校對修正。 特別感謝北大網(wǎng)絡(luò)實驗室天網(wǎng)組謝正茂,趙江華和單松巍同學(xué)的幫助。從我剛接觸課題到現(xiàn)在兩年多的工作學(xué)習(xí)中,我們是相處時間最多的,共同探討問題,克服困難,完成任務(wù)。尤其是謝正茂同學(xué),許多好的想法和實踐經(jīng)驗是我工作按期完成的保障。孫磊同學(xué),近半年剛加入天網(wǎng)組,但是在“燕穹” 息博物 館的建設(shè)中給了我很大幫助。還有同組的郭琳、陳華、龔筆宏、羅昶、孟濤、彭波同學(xué)和陳勁松老師,在交流中使我獲得新的思路和方法。 感謝北大網(wǎng)絡(luò)實驗室其他老師和同學(xué)們的熱情幫助和支持。 感 謝 國 家 973 項 目 ( 國 家 重 點 基 礎(chǔ) 研 究 發(fā) 展 規(guī) 劃 項 目金資助,北大 985 項目基金資助。 最后感謝我的父母多年來一直對我的關(guān)心、愛護。這種關(guān)心、愛護,即使在我長大成人,成家之后,都沒有一點減少。我希望我的工作、學(xué)習(xí)成績能夠帶給他們一絲安慰。 目錄 摘 要 . i . 謝 . v 目錄 . 示 . 格 . x 第 1 章 引言 . 1 究工作的背景和意義 . 1 文研究工作的內(nèi)容、目標(biāo)與方法 . 2 文的主要貢獻 . 6 擴展 息搜集系統(tǒng)體 系結(jié)構(gòu) . 6 集系統(tǒng)的動態(tài)可配置性 . 6 構(gòu)信息挖掘 . 7 息博物館的建設(shè) . 7 量式 息搜集的方法 . 8 文組織 . 8 第 2 章 搜索引擎工作原理與基本問題 . 10 言 . 10 索引擎工作流程 . 10 索引擎基本問題 . 11 集 息 . 12 集策略 . 14 除鏡像網(wǎng)頁 . 16 量式搜集 . 17 章小結(jié) . 23 第 3 章 網(wǎng)頁搜集系統(tǒng)的可擴展性研究、設(shè)計與實現(xiàn) . 25 言 . 25 語介紹 . 25 網(wǎng)搜索引擎系統(tǒng)結(jié)構(gòu) . 26 中式搜集系統(tǒng) . 28 統(tǒng)設(shè)計目標(biāo) . 28 統(tǒng)結(jié)構(gòu)和主要設(shè)計思想 . 29 擴展搜集系統(tǒng)的設(shè)計 . 35 統(tǒng)設(shè)計目標(biāo) . 35 統(tǒng)結(jié)構(gòu)和主要設(shè)計思想 . 36 擴展搜集系統(tǒng)的模擬與實現(xiàn) . 39 控之間通信量分析 . 39 擬系統(tǒng)運行結(jié)果分析 . 40 際系統(tǒng)運行結(jié)果分析 . 45 關(guān)研究 . 47 索引擎 . 48 索引擎 . 50 . 51 索引擎 . 51 章小結(jié) . 51 第 4 章 網(wǎng)頁搜集系統(tǒng)的動態(tài)可配置性的研究與實現(xiàn) . 53 言 . 53 現(xiàn)動態(tài)可配置性的三種方法 . 53 階段映射法 . 56 一步分析和實現(xiàn)兩階段映射模型 . 58 關(guān)研究 . 61 章小結(jié) . 61 第 5 章 海 量網(wǎng)頁信息的應(yīng)用研究初步 . 62 言 . 62 穹 息博物館 . 62 頁存儲系統(tǒng) . 62 頁回放系統(tǒng) . 69 關(guān)研究 . 77 于中國 大小、形狀與結(jié)構(gòu) . 77 過對搜集過程的分析了解中國 規(guī)模 . 78 002 年 初 中國 形狀和結(jié)構(gòu) . 81 關(guān)研究 . 93 章小結(jié) . 100 第 6 章 總結(jié)和未來工作展望 . 102 參考文獻 . 106 附錄 A 天網(wǎng)搜索引擎 . 113 行環(huán)境 . 113 用方法 . 113 附錄 B 燕穹 息博物館 . 116 行環(huán)境 . 116 用方法 . 116 圖示 圖 3網(wǎng)系統(tǒng)概貌 . 26 圖 3網(wǎng)系統(tǒng)結(jié)構(gòu) . 27 圖 3網(wǎng)的主控系統(tǒng)結(jié)構(gòu) . 29 圖 3擴展 集系統(tǒng)結(jié)構(gòu) . 38 圖 3擴展搜集系統(tǒng)負載方差 . 42 圖 3擬 N 個主控分布式系統(tǒng)及集中式系統(tǒng)隨時間的變化 . 44 圖 3擬分布式系統(tǒng)效率 . 44 圖 3際 N 個主控分布式系統(tǒng)及集中式系統(tǒng)隨時間的變化 . 46 圖 3際 分布式系統(tǒng)效率 . 47 圖 3統(tǒng)結(jié)構(gòu) . 49 圖 4階段映射 . 55 圖 5節(jié)點網(wǎng)頁存儲系統(tǒng)結(jié)構(gòu) . 65 圖 5體網(wǎng)頁存儲系統(tǒng)結(jié)構(gòu) . 66 圖 5穹 息博物館系統(tǒng)結(jié)構(gòu) . 70 圖 5頁傳輸過程 . 76 圖 5國各省市網(wǎng)站分布 . 83 圖 5頁結(jié)構(gòu) . 86 圖 5A)網(wǎng)頁有效入度分布, (B)網(wǎng)頁出度分布 . 87 圖 5頁入度分布 . 87 圖 5心社區(qū)與 系 . 92 圖 5統(tǒng) R 的用戶群差別 . 97 圖 5種搜索引擎技術(shù)比較 . 98 圖 網(wǎng)搜索引擎主頁 . 114 圖 網(wǎng)搜索引擎查詢結(jié)果 . 114 圖 穹 息博物館 . 117 圖 穹 息博物館查詢結(jié)果 . 117 x 表格 表 3據(jù)描述 . 30 表 3體語法 . 32 表 3擴展搜集系統(tǒng)負載平衡參照序列 . 41 表 3整化可擴展搜集系統(tǒng)負載平衡參照序列 . 41 表 3擬系統(tǒng)四組實驗數(shù)據(jù)方差 . 42 表 3擬系統(tǒng)四組實驗結(jié)果數(shù)據(jù) . 43 表 3際系統(tǒng)四組實驗數(shù)據(jù)方差 . 45 表 3際系統(tǒng)四組實驗結(jié)果數(shù)據(jù) . 46 表 5 C 語言接口 . 64 表 5網(wǎng)搜集記錄 . 80 表 5國 點地域分布 . 82 表 5頁鏈接結(jié)構(gòu) . 84 表 5門站點分類 . 88 表 5鏈接中至少包含六個不同域名的網(wǎng)頁鏈接結(jié)構(gòu) . 90 表 5航功能的網(wǎng)頁鏈接結(jié)構(gòu) . 90 表 5心社區(qū)的數(shù)目 . 91 表 5心社區(qū)例一 . 93 表 5心社區(qū)例二 . 93 第 1 章 引言 1 第 1章 引言 究工作的背景和意義 萬維網(wǎng)( 記為 因特網(wǎng)上最成功的應(yīng)用,起源于 1989 年歐洲粒子物理研究室 最初計劃是由物理學(xué)家 1989 年 3 月提出的,第一個基于文本原型于 18 個月后運行。 1991 年 12 月在德克薩斯州的 1 超文本會議上進行了一次演示,次年繼續(xù)發(fā)展,并于 1993年 2 月,隨著第一個圖形界面 發(fā)布而達到了其發(fā) 展的高峰 核心技術(shù)是超文本和超媒體。通過將文本、圖形、圖像、音頻、視頻等信息的有機結(jié)合,給人們提供了豐富的信息表示空間。由于其界面友好、易學(xué)易用、內(nèi)容豐富,很快便被政府機關(guān)、科研機構(gòu)、商業(yè)企業(yè)和個人所接受,成為人們?nèi)粘P畔⒔涣鞯囊粋€簡單易用的工具。在 1993 年下半年, 不到三個月的時間里翻了一翻。在1995 年 4 月, 網(wǎng)上的流量超過了 其它服務(wù)的流量,成為 的第一大應(yīng)用服務(wù)。到 1997 年 12 月,網(wǎng)上大約有 3億 2000 萬網(wǎng)頁 在最 近幾年里, 得到了長足的發(fā)展,不僅成為企業(yè)必不可少的組成部分,并且開始走進千家萬戶。根據(jù) 索引擎在 2000年的數(shù)據(jù)庫數(shù)據(jù)表明,網(wǎng)頁數(shù)目已經(jīng)超過了 10 億,共有 點 4,951,247根據(jù) 索引擎在 2002 年 4 月索引網(wǎng)頁表明,網(wǎng)頁數(shù)已經(jīng)超過 20 億 1994 年登陸中國,到現(xiàn)在僅 8 年的時間里發(fā)展速度驚人。根據(jù)文獻 結(jié)合“天網(wǎng)”搜索引擎(簡記為 “天網(wǎng)”搜索引擎的英文名稱) 0, 一兩年來在網(wǎng)頁收集工作中的感受,尤其是我們最近 2002 年 4 月初又完成了一次相當(dāng)徹底的收集,中國最大的商業(yè)搜索引擎服務(wù)商百度第 1 章 引言 2 報告 2002 年 3 月中國擁有的網(wǎng)頁數(shù)已經(jīng)超過 5000 萬。 正如書刊這種信息載體所經(jīng)歷的發(fā)展、變遷與應(yīng)用一樣,近年來興起的新的信息媒介 頁也在社會生活中扮演著越來越重要的角色,它以其傳播迅速、更新快捷、訪問方便等優(yōu)點成為繼紙質(zhì)書刊之后最大的信息承載體。 當(dāng)文字成書后,人類的歷史 、文化發(fā)展、風(fēng)俗民情、科學(xué)進步等就不再是隨時間流逝而一去不復(fù)返了 它們能夠被記錄下來,供后人研究借鑒和應(yīng)用,這樣才有了文明史。同樣, 息也在重演著紙質(zhì)信息的變化,只是速度要快得多,所以人類對 息的研究從它在計算機上誕生的那天起到現(xiàn)在,一刻也沒有停止過,可以說 息將要對未來的人類文明史做出巨大貢獻。 有了這種比較, 息的組織與處理工作就很容易理解了。就像在現(xiàn)之前的圖書館一樣,工作人員需要先將來自各地的報紙、刊物、書籍文獻收集起來;按照不同的分類規(guī)則進行科學(xué)分類;建立圖書索引;對學(xué)習(xí)者、研究者等不同領(lǐng)域、不同身份的人提供查詢或借閱,幫助他們達到各自的目的。 息處理也包括信息的收集、整理、索引、提供查閱、提供研究、提供個性化服務(wù)等等。在這項龐大而復(fù)雜的工作中,對息的搜集是一切活動的基礎(chǔ)。圖書館的信息搜集是靠手工完成的,而 息搜集必須要靠安全、穩(wěn)定的搜集架構(gòu)、高效的計算方法自動完成,只有這樣,才能夠適應(yīng) 息海量的累積與遞增。 其中“ 息持續(xù)指定搜集”工作相當(dāng)于為了對不同領(lǐng)域的專門研究提供館藏,圖書館需要將所有特定專題的資料都收集下來;“ 息定期全 面搜集”工作相當(dāng)于圖書館每隔一段時間(發(fā)刊周期)就會收到新的一期報紙或雜志,作一次內(nèi)容重新收錄;所以我們說,進行搜集工作的最終目的是為了建成“燕穹” 息博物館(簡記為 “燕穹” 息博物館的英文名稱) 文研究工作的內(nèi)容、目標(biāo)與方法 本文研究工作主要圍繞如何更快更全地搜集信息,如何高效處理,第 1 章 引言 3 如何多快好省地建設(shè) 提供有應(yīng)用價值的服務(wù)等幾個方面。具體體現(xiàn)在研究海量 息的高性能搜集和存貯技術(shù),構(gòu)信息挖掘理論與實現(xiàn)方法。內(nèi)容如下: 1. 系統(tǒng)架構(gòu)設(shè)計:分布式多任務(wù)搜集系統(tǒng)結(jié)構(gòu)。 2. 系統(tǒng)可擴展性:設(shè)計具有可擴展性的搜集系統(tǒng),達到當(dāng)任務(wù)擴大N 倍,系統(tǒng)處理和存儲能力也擴大 N 倍時,系統(tǒng)性能波動較小。當(dāng)任務(wù)不變而系統(tǒng)處理能力和存儲能力擴大 N 倍時,系統(tǒng)性能也基本提高 N 倍。 3. 動態(tài)可配置性:由于搜集系統(tǒng)面對的是海量信息,通常會長期連續(xù)運轉(zhuǎn)。為了保證工作期間,無論是硬件故障還是人為干預(yù)造成的系統(tǒng)結(jié)構(gòu)變化(即節(jié)點數(shù)目的增減)都不影響系統(tǒng)的性能,就要求分布式系統(tǒng)具有動態(tài)可配置的特性。 4. 搜集策略制定:因為 頁每年是以指 數(shù)形式增長,所以搜集系統(tǒng)應(yīng)該盡量優(yōu)先搜集重要的網(wǎng)頁。搜集策略指如何公正和客觀的確定網(wǎng)頁的“重要性”。 5. 網(wǎng)頁存儲格式:確保后續(xù)工作,包括為搜索引擎建立索引提供服務(wù)、網(wǎng)頁歷史回放的使用簡便;便于復(fù)制、備份;存儲格式應(yīng)一目了然,便于交換和供給其他研究機構(gòu)使用;容錯性能強,即使部分數(shù)據(jù)損害也不影響其他部分;存儲操作簡單,不會占用系統(tǒng)過多的資源??紤]到后續(xù)的二次加工和增值處理的需要,需要提供簡單快捷的數(shù)據(jù)訪問接口。 6. 考察搜集過程中生成的副產(chǎn)品:包括網(wǎng)頁的鏈接結(jié)構(gòu),中國 P 地址,域名與 對應(yīng)關(guān)系。 7. 產(chǎn)生 搜集全集后,初步研究 息在時空意義上發(fā)生、存在、變化,以及相互關(guān)系的規(guī)律。這些規(guī)律通常應(yīng)該具有宏觀、統(tǒng)計的意義,它們的例子可能包括簡單的“網(wǎng)頁的生命周期”和“網(wǎng)頁的大小”;稍微復(fù)雜一些的“網(wǎng)站的網(wǎng)頁數(shù)”和“中國網(wǎng)頁的拓撲結(jié)構(gòu)及其隨時間的演進”;更復(fù)雜一些的可能有“國家政策第 1 章 引言 4 的力度和網(wǎng)上信息強度之間的關(guān)系”,等等。 8. 建設(shè) 為網(wǎng)上信息博物館,為各方面有需求的人和團體提供研究數(shù)據(jù)源。 研究目標(biāo): 1. 分布式并行搜集系統(tǒng):保證大規(guī)模的信息處理范圍, 讓系統(tǒng)能力和中國網(wǎng)頁規(guī)模增長的速度同步 ; 實現(xiàn)在不超過一個月內(nèi)遍歷搜集全國靜態(tài)網(wǎng)頁(不包括通過提交查詢詞動態(tài)生成的網(wǎng)頁)。目前這一目標(biāo)已經(jīng)達到,采用 內(nèi)核的 周之內(nèi)搜集中國所有 息。搜集信息量達到 5000 多萬網(wǎng)頁。目前搜集系統(tǒng)設(shè)備為 18 臺 ,線路速度100 2. 可擴展性:實現(xiàn)線性加速比,隨著中國網(wǎng)頁數(shù)的增加,搜集系統(tǒng)增加節(jié)點后,基本不影響每個節(jié)點的搜集性能。當(dāng)中國網(wǎng)頁數(shù)不變,增加節(jié)點后,搜集系統(tǒng)性能應(yīng)該相應(yīng)提高,表現(xiàn)在搜集周期縮短。 3. 動態(tài)可配置性:系統(tǒng)增加節(jié)點后,要保持系 統(tǒng)的負載平衡;在人為可控情況下減少節(jié)點,其他節(jié)點不應(yīng)該再重復(fù)減少節(jié)點已經(jīng)完成的工作。動態(tài)協(xié)調(diào)過程中各節(jié)點通信量要盡可能的小,使系統(tǒng)能夠快速的從動態(tài)可配置狀態(tài)進入平穩(wěn)狀態(tài)。 4. 優(yōu)先搜集策略:根據(jù) 目錄深度和鏈接關(guān)系,設(shè)定權(quán)值,實現(xiàn)類似于寬度優(yōu)先搜索的啟發(fā)式搜集策略。 5. 存儲格式優(yōu)化:為簡化復(fù)雜函數(shù),便于文件在不同的平臺間移植比較。索引文件和數(shù)據(jù)文件以 尾的字符串形式存儲 它們不能包含任意的二進制數(shù)據(jù)。同時提供 C 語言數(shù)據(jù)訪問接口。采用硬盤存儲加磁帶備份的冗余策略,既能滿足災(zāi)難恢復(fù)要求,又能作為數(shù)據(jù)源 提供給合作單位,滿足多學(xué)科交叉研究的靈活性。最近一次搜集中,網(wǎng)頁的純文本信息達到 兩盤容量分第 1 章 引言 5 別為 100磁帶可以壓縮備份下。 6. 搜集過程中生成的副產(chǎn)品,包括:網(wǎng)頁的鏈接結(jié)構(gòu),中國 點的 址,域名與 對應(yīng)關(guān)系。通過 掘,分析 時通過分析網(wǎng)頁的鏈接關(guān)系來排序檢索結(jié)果和改進搜集策略。 7. 擴展 息的研究至?xí)r間和空間兩個方面,得到關(guān)于中國網(wǎng)上信息(公開網(wǎng)頁信息)總體情況的若干基本認識。例如 中國網(wǎng)站的平均網(wǎng)頁數(shù)約為 500”的認識,和“ 230 左右”的結(jié)論 差甚遠;還得到過,“搜索引擎的用戶查詢內(nèi)容序列(放在時間軸上考慮)具有局部性、穩(wěn)定性和自相似性” 1的結(jié)論。當(dāng)然,這些算是比較淺層一些的東西;基于 們希望發(fā)掘出一些更深層次的結(jié)論或規(guī)律。 8. 建成 規(guī)模和效率方面分別達到高指標(biāo),即在規(guī)模方面,從 2001 年 6 月起,到 2004 年底,讓系統(tǒng)的能力和中國網(wǎng)頁規(guī)模增長的速度同步(這將直接反映出系統(tǒng)的可擴展性設(shè)計);在效率方面,要做到至少每個月能夠?qū)⑷珖?的網(wǎng)頁處理一遍。 研究方法: 1. 搜集系統(tǒng)的研究方法:建立系統(tǒng)結(jié)構(gòu)模型,建立實驗系統(tǒng),分析實驗過程和實驗結(jié)果,同時根據(jù)所得結(jié)果優(yōu)化實現(xiàn)系統(tǒng)結(jié)構(gòu)模型,保證系統(tǒng)具有負載平衡,可擴展性好的要求。 2. 基于 供的海量 息,利用數(shù)學(xué)、統(tǒng)計、隨機過程分析等手段,結(jié)合信息分類、數(shù)據(jù)挖掘、計算語言學(xué)的有關(guān)技術(shù),對上千萬量級的信息從不同層次進行開采和提煉,并將得 到 的 結(jié) 果 在 后 續(xù) 信 息 集 合 中 進 行 驗 證 和 完 善 ( 注 意 提供不同時間的信息)。 第 1 章 引言 6 文的主要貢獻 擴展 息搜集系統(tǒng)體系結(jié) 構(gòu) 提出可擴展 息搜集系統(tǒng)結(jié)構(gòu),使之達到能夠搜集數(shù)量不斷增長的網(wǎng)頁的要求。 0采用集中式搜集網(wǎng)頁的處理方式(一個主控控制多個搜集程序并行工作),索引網(wǎng)頁達到 100 萬量級。全部網(wǎng)頁更新周期為 10 天,即每天大約要搜集 10 萬網(wǎng)頁,達到 100 萬量級。目前全世界網(wǎng)頁超過 40 億,如果以 統(tǒng)的速度,要達到 1000 萬量級就需要 100 天, 100 天中由于網(wǎng)頁的更新,將使搜集到的部分網(wǎng)頁失去意義。因此,需要采用并行分布式技術(shù)在盡可能短的時間內(nèi)搜集盡可能多的網(wǎng)頁 。 我們設(shè)計并實現(xiàn)了可擴展 息搜集系統(tǒng)結(jié)構(gòu),并把它應(yīng)用于索引擎系統(tǒng)中。達到了設(shè)計目標(biāo)。這種可擴展 息搜集系統(tǒng)目前出于 國際網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論