【畢業(yè)學(xué)位論文】(Word原稿)Blog搜集技術(shù)和百萬Blog數(shù)據(jù)分析-計算機系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)Blog搜集技術(shù)和百萬Blog數(shù)據(jù)分析-計算機系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)Blog搜集技術(shù)和百萬Blog數(shù)據(jù)分析-計算機系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)Blog搜集技術(shù)和百萬Blog數(shù)據(jù)分析-計算機系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)Blog搜集技術(shù)和百萬Blog數(shù)據(jù)分析-計算機系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 碩士研究生學(xué)位論文 題目: 集技術(shù)和百萬 據(jù)分析 姓 名: 包勇軍 學(xué) 號: 10448178 院 系:信息科學(xué)技術(shù)學(xué)院 專 業(yè):計算機系統(tǒng)結(jié)構(gòu) 研究方向:計算機網(wǎng)絡(luò)與分布式系統(tǒng) 導(dǎo) 師:李曉明 教授 2007 年 5 月 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 摘要 隨著 全世界的流行, 面向 務(wù)系統(tǒng)也越來越多。其中最常見的是 索服務(wù),也就是面向 垂直搜索引擎。盡管對研究方興未艾, 但是很少有文獻(xiàn)完整全面的討論 搜集系統(tǒng)的設(shè)計,特別是在垂直搜索引擎的大框架 下。 本文的 工作就是分析和設(shè)計 直搜索引擎的搜集系統(tǒng)。 主要貢獻(xiàn)包括下面幾點 。 1. 設(shè)計了 直搜索引擎的系統(tǒng)架構(gòu)。本文針對垂直搜索引擎和通用搜索引擎的區(qū)別,對 直搜索引擎的搜集、 索引和服務(wù)子系統(tǒng)作了分析 ,并給出了系統(tǒng)架構(gòu)圖 。 2. 分析了 直搜索引擎搜集系統(tǒng)設(shè)計要點。 本文給出 典型 搜集系統(tǒng)的架構(gòu),討論 搜集系統(tǒng)普遍遇到的問題。 然后 具體 針對 直搜索引擎,分析它的搜集系統(tǒng)需要考慮的 一些 特殊 問題 ,包括搜集策略的問題, 問題,虛擬主機的問題 等等 。 3. 詳細(xì)討論了 索引 擎搜集系統(tǒng)的設(shè)計和工作流程。我們設(shè)計了搜集系統(tǒng)的系統(tǒng)架構(gòu);提出用 集策略搜集 點;利用站點的 式來識別 對 點的特點 , 設(shè)計高效的 析系統(tǒng); 分析 集中的 友好性設(shè)計 面臨的問題,并給出詳細(xì)的塊的設(shè)計;分析 集 的兩種方案,并給出 集 的 系統(tǒng)架構(gòu)。 4. 對 搜集到的百萬 據(jù)作了簡單的分析。我們 討論了 點 中存在的 鏈接局部性、 布不均衡等 4 點特性 ,并 評估 它們對搜集系統(tǒng)的影響, 尤其 針對 來的影響,給出了 集 的 一些 具體的改進(jìn)方案 。 關(guān)鍵詞 : 索引擎,垂直搜索引擎,搜集系統(tǒng) ,爬蟲 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 of a a I in is of is in is no of of is to s 1. of on of we of at we 2. of of to by on to so 3. of We a to to RL to NS by of to 4. a on of of We of as on In 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 we to 京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 目錄 第 1 章 緒言 . 1 于 . 1 么是 . 1 展史 . 1 國 展現(xiàn)狀 . 2 關(guān)術(shù)語簡介 . 3 直搜索引擎需求分析 . 4 什么需要垂直搜索引擎 . 4 傳統(tǒng) 區(qū)別 . 5 直搜索的特色服務(wù) . 6 文主要工作 . 7 關(guān) 工作 . 8 文組織 . 8 第 2 章 直搜索引擎搜集系統(tǒng)分析 . 10 索引擎基本架構(gòu) . 10 個典型的搜索引擎的架構(gòu) . 10 直搜索搜索引擎的系統(tǒng)架構(gòu) . 11 集系統(tǒng)設(shè)計分析 . 12 個典型的搜集爬蟲的設(shè)計分析 . 12 直搜索引擎搜集系統(tǒng)設(shè)計要點分析 . 14 第 3 章 集系統(tǒng)設(shè)計 . 17 定 搜集 目標(biāo) . 17 點搜集子系統(tǒng) . 17 統(tǒng)架構(gòu) . 18 于我們的搜集策略 . 20 別模塊設(shè)計 . 20 濾已經(jīng)抓取過的 . 22 析模塊設(shè)計 . 23 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 塊設(shè)計 . 25 集子系統(tǒng) . 27 取 . 27 何 獲取 更新 . 28 務(wù)模塊 . 29 集子系統(tǒng)架構(gòu) . 30 集數(shù)據(jù)存儲設(shè)計 . 31 第 4 章 百萬 據(jù)分析與搜集系統(tǒng)評估 . 33 集 過程和數(shù)據(jù)集說明 . 33 據(jù)分析和搜集系統(tǒng)評估 . 34 接局部性對及其對搜集的影響 . 34 布不均衡及其對搜集的影響 . 35 術(shù) 應(yīng)用情況及其對搜集的影響 . 37 度與被發(fā)現(xiàn)深度的關(guān)系 及其對搜集的影響 . 39 第 5 章 總結(jié)和工作展望 . 40 參考資料 . 41 附錄 A 關(guān)術(shù)語解釋 . 44 . 44 . 44 . 45 致謝 . 47 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 圖 表 目錄 圖 2型的搜索引擎架構(gòu)圖 . 11 圖 2直搜索引擎系統(tǒng)架構(gòu) . 12 圖 2型的爬蟲架構(gòu) . 13 表 2內(nèi)主流 持情況 . 15 表 2內(nèi)主流 用虛擬主機技術(shù)的情況 . 16 圖 3集系統(tǒng)的架構(gòu) . 18 圖 3構(gòu)圖 . 18 圖 3式發(fā)現(xiàn)算法 . 22 表 3地域名數(shù)據(jù)庫示例 . 24 圖 3析系統(tǒng) . 24 圖 3塊架構(gòu)圖 . 26 表 3國內(nèi)主流 支持情況 . 28 圖 3新預(yù)測算法 . 29 圖 3集系統(tǒng)架構(gòu) . 30 表 4取數(shù)據(jù)統(tǒng)計 . 33 圖 4發(fā)現(xiàn) 量隨抓取層數(shù)增長的變化曲線 . 34 表 4應(yīng) 面的 提取出的所有 的比重 . 34 圖 4的 鏈接指向分布 . 35 圖 4各 發(fā)現(xiàn)的 總數(shù)比較 . 36 圖 4 點上在不同抓取層次新發(fā)現(xiàn)的 量比較 . 36 表 4內(nèi)主流 用 生鏈接的情況統(tǒng)計 . 38 圖 4度和被發(fā)現(xiàn)深度關(guān)系圖 . 39 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 1 第 1 章 緒言 于 什么是 語 縮寫,中文翻譯為日志,博客,這里我們采用英文單詞 單來說 一個個人或小團(tuán)體維護(hù)的網(wǎng)絡(luò)日記 。 面的展現(xiàn)形式也是日記一樣的按時間排序; 其內(nèi)容大多講述作者 的所見所聞,闡述作者對某事件的看法 。 一個典型的 展現(xiàn)內(nèi)容通常是文本,這跟大部分面一樣 , 此外也有一些特殊 圖片,視頻,音樂等多媒體的形式來展現(xiàn)。 如果要對 一個標(biāo)準(zhǔn)的定義,還是很困難。不同的文獻(xiàn)中對出了不同的定義。盡管如此 , 在人們通常的認(rèn)知中,一個 點會 具有下面的 一些特征 17: (1) 首頁是日記形式的頁面,文章按發(fā)表時間排序。 (2) 每篇文章都有唯一的 文章都標(biāo)記有發(fā)表時間 。 (3) 提供有一些交互機制 ,比如 (4) 提供 可以方便的跟蹤 更新。 (5) 個性化( , 應(yīng)了一個“人”的興趣愛好,性格特征 。 過去的個人主頁有幾分相似 。 與個人主頁相比, 更新更頻繁,與外部的交流的手段和機制更豐富 ,與外部的連接也更密切。 比如,為了方便 讀者獲取更新, 制;為了加強 間的相互文章引用和交流, 制。此外,與過去的手工維護(hù)相比,現(xiàn)在對 維護(hù)更方便,有許多 點提供專門的 間,此外還有很多 件幫助你架設(shè) 自己的 如 等。實際上, 像一個標(biāo)準(zhǔn)化的增強的個人主頁。 展史 追溯 源頭,無疑是一件難事。 人們所認(rèn)同的 最正宗的源頭還是 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 2 是現(xiàn)在 1的前身),這是一家小小的軟件公司, 現(xiàn)在被購。 三個創(chuàng)始人為了開發(fā)一個復(fù)雜的 “群件 ”產(chǎn)品,編寫了一個小 軟件,以 保持 彼此的溝通與協(xié)同。后來 他們覺得這個簡單的小工具對別人也很有用處,于是, 1999 年 8 月,就在網(wǎng)上免費發(fā)布了 件。 從那時起, 隊伍開始迅速繁衍開來。到 2000 年, 點 開始成千上萬涌現(xiàn),并成為一個熱門概念。 在 展史上, 911 事件是一個重要的時刻。正是這場恐怖的襲擊,使人們對于生命的脆弱、人 與人溝通的重要、最即時最有效的信息傳遞方式,有了全新的認(rèn) 識 , 此繁榮起來,可以說對 911 事件最真實 最生動的描述不在紐約時報,而在那些幸存者的 志中;對事情最深刻的反思與討論,也不是出自哪一個著名記者手中,而是在諸多的 中。 據(jù)不完全統(tǒng)計,到今天,全世界的 經(jīng)達(dá)到 千萬之眾 。雖然與數(shù) 億的網(wǎng)民相比,還顯得微不足道。但是這些 影響力,卻 早已 超出了他作為個人、甚至作為自己所在行業(yè)的原有范圍 , 開始引起主流 媒體的強烈關(guān)注,并明顯感受到博客崛起對傳統(tǒng)媒體的沖擊。同時,各個專業(yè)領(lǐng)域的博 客如 “雨后春筍 ”,紛紛浮 出水面,越來越成為該專業(yè)關(guān)注的焦點。 國 展現(xiàn)狀 緊隨 全世界的流行 ,中國的 點 在 2002 年呈現(xiàn)爆發(fā)性的增長。 百度 2006 年發(fā)布的中國 查報告 22顯示 “ 截止到 2006 年 11 月 3日,全球中文博客站點數(shù)量達(dá)到 5230 萬,博客用戶數(shù)達(dá)到 1987 萬 ,平均每個博客用戶擁有大約 博客,博客站點數(shù)和博客用戶數(shù)均比去年有一定程度的增長,人均擁有博客數(shù)與去年相比也略 有上升。在近二千萬的中國博客用戶中,每個用戶平均每 更新一次博客,活躍的博客用戶數(shù)(一周內(nèi)有更 新的博客)達(dá)到 302 萬,約 用戶每周更新博客,同時,只有大約 用戶每天更新博客。 在綜合每日訪問量和獨立用戶數(shù)的基礎(chǔ)上,百度對全國100 家博客服務(wù)商進(jìn)行了統(tǒng)計排名,其中, 2006 年前 10 名中國博客服務(wù)商分別為: , 新浪博客 (, 搜狐博客 ( 百度空間 ( 網(wǎng)易博客 (, , 博 客 網(wǎng) (,北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 3 ,和訊博客 ( ” 從百度的調(diào)查報告 數(shù)據(jù)可以看出, 中國已經(jīng)是很 流行的網(wǎng)絡(luò)應(yīng)用 。 關(guān)術(shù)語簡介 為了方便讀者閱讀本文,本節(jié)對 在本文中涉及到的 關(guān)術(shù)語作簡單說明,更詳細(xì)的介紹可以參考本文的附 錄 A 部分。 常 見 的 術(shù) 語 包 括 :等。 是對那些寫 護(hù) 網(wǎng)民的稱呼,中文譯作“博客”。可以看到中文對“ “ 有區(qū)分,都翻譯成“博客”,需要根據(jù)上下文語義來區(qū)分。 本文使用英文以作 區(qū)分 ,用 示一個 點, 示維護(hù) 點的人 , 一對多的關(guān)系,一個 有多個 點是常見的現(xiàn)象 。 一個集合名詞,是對所有 點集合的稱呼 ,中文可以翻譯成“博客世界” 。 中文譯作“日志”,也就是 點上發(fā)表的文章,這些文章是 點的主體組成部分。 全稱 作 務(wù)提供商,顧名思義就是提供 務(wù)的站點,比如說新浪 搜狐 在 點上 注冊 以后,你就擁有了自己的 點 ,對于 章的 寫作發(fā)表以及 維護(hù), 供了簡單方便的 作接口。 中文翻譯作“引用通告”。 簡單說來, 網(wǎng)站與網(wǎng)站之間互相通告的一種方法。例如,當(dāng)你讀了一篇日志,想對此寫下自己的感想,您可以把新的日志內(nèi)容寫到自己的博客 上。然后向原來的那篇日志發(fā) 送一個引用通告。通過這種辦法,在原始文章的下面就留下了你自己 的日志的鏈接,這樣對于同一個話題的討論,可以不局限在 一個博客中了 ,更 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 4 是一種 式的文件。 通過訪問該文件,外界 可以獲知 點的最近更新內(nèi)容, 一個 點的 包括 該站點 最近 更新的 信息,更 詳細(xì)的說明參見附錄 直搜索引擎需求分析 什么需要 垂直搜索 引擎 發(fā)展給人們帶來了巨大的方便,使得人們可以跨越時間和空間的界限來共享大量的信息??梢栽诩抑兄苯渔?接 到其它的科研機構(gòu)的網(wǎng)站上閱讀感興趣的文獻(xiàn);可以足不出戶購買到需要的東西;可以實時的了解國內(nèi)外的新聞實事。但是,面對如此大量的信息,人們同時也開始感到無所適從。太多的信息使他們很難迅速定位到真正 需要的信息,而跟隨超鏈 接 在 漫游則會浪費大量的時間,而且很可能徒勞無功。因此,人們迫切需要有效的信息發(fā)現(xiàn)工具來為他們在 進(jìn)行導(dǎo)航。 搜索引擎面世后 迅速成為人們網(wǎng)上搜索的有效工具。根據(jù)統(tǒng)計,大約85%的用戶使用搜索引擎去定位他們需要的信息。并且,幾個著名的搜索引擎一直都穩(wěn)定的處于全球訪問量最大的 50 個網(wǎng)站之列。 隨著網(wǎng)絡(luò)信息資源呈幾何級數(shù)增長,搜索引擎對網(wǎng)絡(luò)信息的覆蓋率在整體上呈下降趨勢,尤其令以覆蓋所有學(xué)科、所有類型信息為宗旨的綜合性搜索引擎越來越難以應(yīng)對,搜索引擎在網(wǎng)絡(luò)信息搜索與加工軟件的升級 開發(fā)上亦無法跟上網(wǎng)絡(luò)信息的增長速度。目前,盡管搜索引擎的發(fā)展已較成熟,但要準(zhǔn)確、快速地查找所需信息卻越來越困難。其原因有二: (1)一次搜索的結(jié)果可能有成千上萬條,而在這過于龐大的信息群中,有用信息只是其中的小部分,可謂“冰山一角”,并且常常發(fā)生收到或下載的信息難以消化的情況,即所謂的“認(rèn)知過載”。 (2) 目前的搜索引擎都是服務(wù)器端軟件,用戶需要嚴(yán)格按照各搜索引擎所要求的格式輸人查詢詞,但種種限制使用戶不知道如何確切地表達(dá)自己的信息需求,也不知道如何更準(zhǔn)確地尋找所需信息,即所謂“迷航”。網(wǎng)絡(luò)信息的急劇膨脹,搜 索越來越難以控制,用戶需求和市場服務(wù)間的巨大反差產(chǎn)生了強大的“搜索噪音”,人們呼喚更有針對性的搜索引擎。 垂直搜索引擎( 是針對某一特定領(lǐng)域、某一 特北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 5 定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。其特點 是 具有行業(yè)色彩。垂直搜索引擎專注具體、深入的縱向服務(wù),致力于某一 特定領(lǐng)域內(nèi)信息的全面和內(nèi)容的深入 。 垂直搜索引擎的搜索器只搜索特定的主題信息,按預(yù)先已定義好的專題有選擇地收集相關(guān)的網(wǎng)頁。這樣大大降低了收集信息的難度,提高了信息的質(zhì)量。由于所收學(xué)科領(lǐng)域小,信息量 相對較少,可以利用領(lǐng)域內(nèi)的知識進(jìn)一步提高信息的質(zhì)量,建立起一個高質(zhì)量的、專業(yè)信息收集全、能實時更新的索引 數(shù)據(jù)庫;由于垂直搜索引擎只涉及一個或幾個領(lǐng)域,詞匯和用語“一詞 (一語 )多意”的可能性降低,而且可以利用專業(yè)詞表進(jìn)行規(guī)范和控制,大大提高查全率和查準(zhǔn)率;由于垂直搜索引擎可以聘請相關(guān)專家對用戶的檢索要求進(jìn)行網(wǎng)上咨詢和網(wǎng)上講解,明確查詢語句,使查詢結(jié)果的準(zhǔn)確率大大提高。垂直搜索引擎這種高度目標(biāo)化、專業(yè)化的搜索引擎的優(yōu)勢在于,針對性強,對特定范圍的網(wǎng)絡(luò)信息的覆蓋率相對較高,具有可靠的技術(shù)和信息資源保障,有明確的檢 索目標(biāo)定位,有效地彌補了綜合性搜索引擎對專門領(lǐng)域及特定主題信息覆蓋率過低的問題。同時,能夠把具有相同興趣點的人們集中在一個“主題社區(qū)”內(nèi),不僅集中提供各種專業(yè)資源,而且給大家提供了一個相互交流、共享經(jīng)驗和教訓(xùn)、展望行業(yè)發(fā)展前景的機會和場合。 目前 垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、 索、圖片搜索 幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。 傳統(tǒng) 區(qū)別 傳統(tǒng)的 面有很大的區(qū)別, 這些區(qū)別構(gòu)成了 點獨特的風(fēng)貌 ,讓我們能夠從不同與通用搜索的角度來設(shè)計 很多有特色的服務(wù)。在討論這些特色服務(wù)之前,我們先討論一下 傳統(tǒng) 區(qū)別。 一個流行的 點,它的更新頻繁,它關(guān)注的內(nèi)容 也 流行。 很多流行的 它的讀者帶來了許多有意思的信息,這些信息通常 是一些新出現(xiàn)的事物、現(xiàn)象、觀點、 話題。 出現(xiàn)促進(jìn)了這些新事物的進(jìn)一步流行,擴大了他們的社會影響力。傳統(tǒng)的新聞網(wǎng)站也是關(guān)注新事物,不過與新聞網(wǎng)站不同, 供了更多的交流機制,比如說允許它的讀者在 相關(guān)文章頁面上寫評論闡述自己的觀點,讀者甚至可以在自己的 發(fā)表見北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 6 解,通過 原文發(fā)生關(guān)聯(lián)。這種雙向的信息流動:從作者到讀者,從讀者到作者,是 別與傳統(tǒng)頁面的一個很重要的特征。 此外, 點之間的交流也很密切。 創(chuàng)建者會關(guān)注與其相關(guān)的關(guān)通常是 者討論的話題相同、 觀點相近或相左 ),并創(chuàng)建一些鏈接到達(dá)那些 點,這些相關(guān)的、交流密切的 成了 一個小社會 。 2一文中總結(jié)了 傳統(tǒng) 點的 如下 幾個區(qū)別。 1. 常是單頁面站點。 2. 活躍的 傳統(tǒng)的 面 ( 比如說個人主頁) 更新 更 頻繁 , 有時甚至是一種爆發(fā)性的更新。 3. 點與外部的交互方式有自己的特點。 鏈接的數(shù)目,質(zhì)量和其他一些特性與傳統(tǒng) 面不同。對此, 2一文中說“因為的文章被很多人閱讀的,其中的一些讀者會向 者 反饋指出文章中的錯誤包括鏈接錯誤,這使得 文章隨時間流逝而改進(jìn);有一些 文章主體就是鏈接; 其他一些特性,會使得 的鏈接會有一些特別的性質(zhì),比如 點的鏈接中相當(dāng)一部分是鏈向其他的 此形成了一個緊密鏈接的小社會,而指向非 點的鏈接都是一些深度鏈接,指向站點內(nèi)部的某個具體內(nèi)容頁面,這些頁面與 者討論的某個具體話題相關(guān)”。 4. 容通常是個人日記或局限于范圍很窄的幾個話題。 5. 章的內(nèi)容一般都是一個人所寫,而且就那么幾個屈指可數(shù)的點和 件,因此,與傳統(tǒng)的 面相比, 點的內(nèi)容,風(fēng)格,外觀更一致。 直搜索的特色 服務(wù) 直搜索產(chǎn)生的必要性在于 直搜索 可以提供 一些 特色服務(wù)。 服務(wù)系統(tǒng)是 直搜 索引擎的核心,是體現(xiàn)垂直搜索與通用搜索區(qū)別的地方。最最簡單的服務(wù)當(dāng)然就是關(guān)鍵詞查詢服務(wù),這是搜索引擎常見的服務(wù)。一些更 具 特色的服務(wù)需要對搜集到的 數(shù)據(jù)進(jìn)行挖掘。 針對上節(jié)討論的傳統(tǒng) 區(qū)別, 結(jié)合文獻(xiàn) 1中的討論,我們總結(jié)歸納了一些 直搜索能夠提供 的 特色 服務(wù)。 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 7 第一, 點關(guān)注的很多是當(dāng)前最流行的,最熱門的話題,事件?;诖耍?索引擎可以提供熱點發(fā)現(xiàn),趨勢分析的服務(wù)。 第二,相對于傳統(tǒng)的 包含的內(nèi)容更有趣,更關(guān)注娛樂大眾主題。這意味著,如果我們能有效的從 提取內(nèi)容,我們可以將 索引擎用作一個娛樂雜志。 第三,由于 點 多數(shù)是有一個人來維護(hù),其反應(yīng)了 個人特征,比如語言風(fēng)格,興趣愛好等等。 事實上 認(rèn)為是一種連接相同興趣愛好的人們的社會媒體?;诖?, 索能提供一項服務(wù),使得 能夠更有效的找到相同愛好的其他 第四, 內(nèi)容包含個人的產(chǎn)品使用和服務(wù)使用經(jīng)驗。 有意購買這些產(chǎn)品和服務(wù)的用戶傳遞 了很多有價值的信息,而產(chǎn)品和服務(wù)的供應(yīng)商則可以使用 索引擎收集顧客的反饋 。因此, 索引擎可以在產(chǎn)品評價、 導(dǎo)購和質(zhì)量反饋上提供有價值的服務(wù)。 文主要工作 目前對于 研究很多,但是很少有文獻(xiàn)完整全面的討論 搜集系統(tǒng)的設(shè)計,特別是在垂直搜索引擎的大框架下。盡管有很多文獻(xiàn)涉及了 多的還是為其他方面的研究服務(wù),因此對于 搜集的研究都不夠充分。 集系統(tǒng)作為 直搜索引擎系統(tǒng)重要的一部分, 并不只是能搜集數(shù)據(jù)即可 , 從 設(shè)計一個 完整 ,正確,有效 的系統(tǒng) 的 角度來說, 還有很多需要考慮的設(shè)計方面的問題, 因此 本文 就 直搜索引擎 的搜集系統(tǒng) 設(shè)計 作詳細(xì)的分析 。 本文 的 工作 主要 包括以下幾點: ( 1)簡單討論我們設(shè)計的千帆 4垂直搜索引擎工作流程和系統(tǒng)結(jié)構(gòu);( 2)詳細(xì)分析 索引擎的 搜集系統(tǒng)的設(shè)計要點 ;( 3)實現(xiàn) 直搜索引擎的搜集系統(tǒng) ;( 4) 對搜集到的 100多萬個 點及其鏈接關(guān)系進(jìn)行分析,主要討論影響 集系統(tǒng)性能和效率的一些性質(zhì)。 北京大學(xué) 網(wǎng)絡(luò)實驗室碩士學(xué)位論文 8 關(guān) 工作 網(wǎng)頁搜集系統(tǒng)俗稱網(wǎng)頁爬蟲,是被廣泛研究的領(lǐng)域。 網(wǎng)頁搜集系統(tǒng)面對 是海量數(shù)據(jù)處理,在 系統(tǒng)的性能和 規(guī)模的 可擴展性 有較高的要求 。 8對 現(xiàn)作了細(xì)致的說明 ; 11設(shè)計了一個擴展 性較強 的搜集系統(tǒng) ; 14討論了高性能分布式搜索系統(tǒng)的實現(xiàn)。 這些搜集系統(tǒng) 面向的是整個 應(yīng)用于 搜集時顯得過于龐大臃腫 。 對 挖掘也是目前計算機科學(xué)中的熱門研究領(lǐng)域, 3,4,6致力于社區(qū)發(fā)現(xiàn); 7對 鏈接的結(jié)構(gòu)和相關(guān)性質(zhì)進(jìn)行了分析; 24針對 了一些實驗,給出了 一些 統(tǒng)計數(shù)據(jù)。這些文章針對 點 鏈接關(guān)系進(jìn)行分析,挖掘 特殊性質(zhì),但是 對 這些性質(zhì)對 索的影響沒有什么分析。 在對 行 的研究中 ,也有很多文章 涉及到 搜集 或者直搜索 引擎 。 23提出了一個偏向主題抽取的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論