搜索引擎的原理及spider程序淺析

上傳人：h*** IP屬地：貴州上傳時間：2018-02-27 格式：DOC 頁數(shù)：7 大?。?7KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1/7搜索引擎的原理及SPIDER程序淺析搜索引擎的原理及SPIDER程序淺析摘要當(dāng)今世界，互聯(lián)網(wǎng)在人們的生活中扮演著越來越重要的角色。通過互聯(lián)網(wǎng)，企業(yè)可以隨時發(fā)布各種信息，使得企業(yè)借助互聯(lián)網(wǎng)，可以取得不斷的發(fā)展；而普通的互聯(lián)網(wǎng)的用戶，則可以通過互聯(lián)網(wǎng)方便的查詢各種各樣的信息。尤其是3G手機的普及及應(yīng)用，搜索引擎更是受到人們的青睞，該文就搜索引擎的原理及核心程序SPIDER做下簡要分析。關(guān)鍵詞互聯(lián)網(wǎng)；搜索引擎；SPIDER中圖分類號TP393文獻標識碼A文章編號10093044201625611802搜索引擎是一個為因特網(wǎng)用戶提供信息搜索服務(wù)的網(wǎng)站，它使用一些些程序和算法把因特網(wǎng)上的所有信息歸類，以幫助人們在浩瀚的“網(wǎng)?！敝兴巡檎宜枰男畔?。隨著互聯(lián)網(wǎng)的不斷發(fā)展和日益普及，網(wǎng)上的信息量在爆炸性的增長，全球WEB頁面的數(shù)目已經(jīng)超過40億以上，中國的網(wǎng)頁數(shù)目估計也超過了3億以上。由于信息的飛速增長，用戶通過互聯(lián)網(wǎng)一個一個查找已不可能。新的信息查詢技術(shù)搜索引擎技術(shù)就應(yīng)運而生，并得到了飛速發(fā)2/7展。搜索引擎以一定的算法在互聯(lián)網(wǎng)中搜集發(fā)現(xiàn)信息，對信息進行理解、提取、組織和處理，并為用戶提供檢索服務(wù)。另一方面，由于互聯(lián)網(wǎng)的發(fā)展，隨著更多的網(wǎng)民迫切需要通過網(wǎng)絡(luò)了解更多的公司及產(chǎn)品，國內(nèi)外眾多企業(yè)也逐漸意識到網(wǎng)絡(luò)對于自身發(fā)展的重要性。企業(yè)為了推廣自己的產(chǎn)品，就需要讓更多的人知道、訪問自己公司的網(wǎng)站，尤其是被潛在的客戶瀏覽，就需要借助專業(yè)的網(wǎng)站推廣手段，而搜索引擎，正是網(wǎng)站推廣中最廉價、最高效的方式。搜索引擎是目前最重要、效果最明顯的網(wǎng)站推廣方式，也是最為成熟的一種網(wǎng)絡(luò)營銷方法。搜索引擎的搜索排名也成了搜索引擎公司的新亮點。目前比較流行的“搜索引擎”主要有百度、谷歌等。下面就其中的幾個簡要介紹一下百度百度是全球最大的中文搜索網(wǎng)站，在中文檢索方面處于絕對領(lǐng)先地位，百度除提供網(wǎng)頁搜索外，還提供MP3、文檔、地圖、視頻、新聞等多樣化的搜索服務(wù)，率先創(chuàng)造了以百度貼吧、知道為代表的搜索社區(qū)，將無數(shù)網(wǎng)民頭腦中的智慧融入了搜索。另外近幾年還推出了百度百科，搜集新詞匯新名詞，成了新的亮點?！鞍俣纫幌隆币呀?jīng)成為了人們進行搜索的新動詞。谷歌“谷歌搜索引擎”由美國谷歌公司開發(fā)研制。3/7谷歌的使命就是要為您提供網(wǎng)上最好的查詢服務(wù)，促進全球信息的交流。谷歌開發(fā)出了世界上最大的搜索引擎，提供了最便捷的網(wǎng)上信息查詢方法。通過對0多億以上網(wǎng)頁進行整理，谷歌可為世界各地的用戶提供適需的搜索結(jié)果，而且搜索時間通常不到半秒。現(xiàn)在，谷歌每天需要提供2億次以上查詢服務(wù)。谷歌近期推出的谷歌地球、地圖、衛(wèi)星等服務(wù)，使用戶足不出戶便知天下。從搜索引擎的工作原理來區(qū)分，搜索引擎有兩種基本類型一類是純技術(shù)型的全文檢索搜索引擎，如百度、GOOGLE等，其原理是通過爬行程序到各個網(wǎng)站收集、存儲信息，并通過一定的算法建立索引數(shù)據(jù)庫供用戶查詢。另一類稱為分類目錄，這種搜索引擎并不采集網(wǎng)站的任何信息，而是利用各網(wǎng)站向搜索引擎提交網(wǎng)站信息時填寫的關(guān)鍵詞和網(wǎng)站描述等資料，經(jīng)過人工審核編輯后，如果符合網(wǎng)站登錄的條件，則人工輸入數(shù)據(jù)庫以供查詢。分類目錄的好處是，用戶可以根據(jù)目錄有針對性地逐級查詢自己需要的信息，而不是像技術(shù)性搜索引擎一樣同時反饋大量的信息。搜索引擎的實現(xiàn)原理，根據(jù)搜索引擎的工作原理不同而不同，若是通過SPIDER來實現(xiàn)的，則分下邊四個過程首先在互聯(lián)網(wǎng)上搜索網(wǎng)頁搜索完網(wǎng)頁后建立相應(yīng)的索引數(shù)據(jù)庫然后在索引數(shù)據(jù)庫中搜索最后通過一定算法對搜索結(jié)4/7果進行處理和排序。具體過程是從互聯(lián)網(wǎng)上抓取網(wǎng)頁，首先使用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的爬行程序，遍歷整個網(wǎng)絡(luò)，并沿著任何網(wǎng)頁中的所有鏈接爬到其它網(wǎng)頁，不斷的重復(fù)這過程，并把爬過的所有網(wǎng)頁收集到服務(wù)器中并建立索引數(shù)據(jù)庫。由索引數(shù)據(jù)庫中的相關(guān)語言將收集回來的網(wǎng)頁進行分析，提取相關(guān)信息，根據(jù)一定的算法計算，得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈接中每一個關(guān)鍵詞的相關(guān)度，然后用這些相關(guān)信息建立索引數(shù)據(jù)庫，在索引數(shù)據(jù)庫中檢索，當(dāng)用戶輸入關(guān)鍵詞后，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁，按一定算法對搜索結(jié)果進行處理排序。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來顯示給用戶。圖1是一個典型的搜索引擎系統(tǒng)架構(gòu)圖，搜索引擎的各部分都會相互交錯、相互依賴。下邊就SPIDER即網(wǎng)絡(luò)蜘蛛程序做下簡要分析蜘蛛程序即就是把互聯(lián)網(wǎng)形容成一個大的蜘蛛網(wǎng)，那么SPIDER程序就是在網(wǎng)絡(luò)上的蜘蛛。網(wǎng)絡(luò)蜘蛛就是在互聯(lián)網(wǎng)上尋找鏈接點，然后沿著鏈接點一個一個爬行下去尋找所有的鏈接點，最后提取出爬行過的鏈接點進入一定的數(shù)據(jù)庫。網(wǎng)絡(luò)蜘蛛一般有兩種搜索方法廣度優(yōu)先遍歷法和深度優(yōu)先遍歷法。廣度優(yōu)先是指從圖中某個頂點A出發(fā)，5/7在訪問了A之后依次訪問A的各個未曾訪問過的鄰接點，然后分別從這些鄰接點出發(fā)依次訪問它們的鄰接點，并使“先被訪問的頂點的鄰接點”先于“后被訪問的頂點的鄰接點”被訪問，直至圖中所有已被訪問的頂點的鄰接點都被訪問到。若此時圖中尚有頂點未被訪問，則另選圖中一個未曾被訪問的頂點作起始點，重復(fù)上述過程，直至圖中所有頂點都被訪問到為止。廣度優(yōu)先用于網(wǎng)絡(luò)搜索則是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后再選擇其中的一個鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。深度優(yōu)先遍歷是指如下右圖首先訪問出發(fā)點A，并將其標記為已訪問過；然后依次從A出發(fā)搜索A的每個鄰接點如E。若E未曾訪問過，則以E為新的出發(fā)點繼續(xù)進行深度優(yōu)先遍歷，直至圖中所有和源點A有路徑相通的頂點均已被訪問為止。若此時圖中仍有未訪問的頂點，則另選一個尚未訪問的頂點作為新的源點重復(fù)上述過程，直至圖中所有頂點均已被訪問為止。深度優(yōu)先用于網(wǎng)頁是指網(wǎng)絡(luò)蜘蛛會從起始頁開始，一個一個鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個起始頁繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網(wǎng)絡(luò)蜘蛛在設(shè)計的時候比較容易。對于搜索引擎來說，要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的。下邊就簡單介紹下兩種抓取順序的個人理解。6/7廣度優(yōu)先的抓起順序如上分析，如果上邊A是一個網(wǎng)站的主頁的話，SPIDER為了提高搜索效率，SPIDER會首先爬行其主頁，如果主頁有用戶匹配的信息，即顯示出來。如沒有則搜索該網(wǎng)站的B、C、D、E、F鏈接，然后再爬行B、C、D、E、F網(wǎng)頁如果有，則抽取其中一個顯示，如果沒有則在爬行該網(wǎng)頁的下一層鏈接，即圖2中的H、G，如果有則顯示出該鏈接。依次類推。這樣的爬行無疑省去了大量的時間和存儲空間。例如搜索“論文”如果主頁有該詞則主動提取出來，如果主頁無出現(xiàn)，則深入該網(wǎng)站的下一層，依次類推。深度優(yōu)先的抓取順序如圖2右邊顯示，如果A是一個網(wǎng)站的主頁的話，如果輸入一個詞后，爬行程序開始檢索A網(wǎng)站，并且爬行其所有的鏈接直到鏈接的末端，如A網(wǎng)站的F層到F層的下一層G層，則是如此進行。E也是如此，有E層進入其下一層網(wǎng)頁即H，再有H進入下一層即I，依次爬行下去，直到找到該網(wǎng)站的所有有匹配的頁面，如此爬行，工作量無疑太大，但是卻提高了檢索率。SPIDER程序是搜索引擎的核心，SPIDER數(shù)據(jù)的結(jié)果直接影響到搜索引擎的評價指標，第一個SPI

人人文庫> 全部分類> 辦公材料 > 思想?yún)R報

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎的原理及spider程序淺析

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎的原理及spider程序淺析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔