搜索引擎的原理及spider程序淺析_第1頁
搜索引擎的原理及spider程序淺析_第2頁
搜索引擎的原理及spider程序淺析_第3頁
搜索引擎的原理及spider程序淺析_第4頁
搜索引擎的原理及spider程序淺析_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1/7搜索引擎的原理及SPIDER程序淺析搜索引擎的原理及SPIDER程序淺析摘要當(dāng)今世界,互聯(lián)網(wǎng)在人們的生活中扮演著越來越重要的角色。通過互聯(lián)網(wǎng),企業(yè)可以隨時發(fā)布各種信息,使得企業(yè)借助互聯(lián)網(wǎng),可以取得不斷的發(fā)展;而普通的互聯(lián)網(wǎng)的用戶,則可以通過互聯(lián)網(wǎng)方便的查詢各種各樣的信息。尤其是3G手機的普及及應(yīng)用,搜索引擎更是受到人們的青睞,該文就搜索引擎的原理及核心程序SPIDER做下簡要分析。關(guān)鍵詞互聯(lián)網(wǎng);搜索引擎;SPIDER中圖分類號TP393文獻標識碼A文章編號10093044201625611802搜索引擎是一個為因特網(wǎng)用戶提供信息搜索服務(wù)的網(wǎng)站,它使用一些些程序和算法把因特網(wǎng)上的所有信息歸類,以幫助人們在浩瀚的“網(wǎng)?!敝兴巡檎宜枰男畔?。隨著互聯(lián)網(wǎng)的不斷發(fā)展和日益普及,網(wǎng)上的信息量在爆炸性的增長,全球WEB頁面的數(shù)目已經(jīng)超過40億以上,中國的網(wǎng)頁數(shù)目估計也超過了3億以上。由于信息的飛速增長,用戶通過互聯(lián)網(wǎng)一個一個查找已不可能。新的信息查詢技術(shù)搜索引擎技術(shù)就應(yīng)運而生,并得到了飛速發(fā)2/7展。搜索引擎以一定的算法在互聯(lián)網(wǎng)中搜集發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務(wù)。另一方面,由于互聯(lián)網(wǎng)的發(fā)展,隨著更多的網(wǎng)民迫切需要通過網(wǎng)絡(luò)了解更多的公司及產(chǎn)品,國內(nèi)外眾多企業(yè)也逐漸意識到網(wǎng)絡(luò)對于自身發(fā)展的重要性。企業(yè)為了推廣自己的產(chǎn)品,就需要讓更多的人知道、訪問自己公司的網(wǎng)站,尤其是被潛在的客戶瀏覽,就需要借助專業(yè)的網(wǎng)站推廣手段,而搜索引擎,正是網(wǎng)站推廣中最廉價、最高效的方式。搜索引擎是目前最重要、效果最明顯的網(wǎng)站推廣方式,也是最為成熟的一種網(wǎng)絡(luò)營銷方法。搜索引擎的搜索排名也成了搜索引擎公司的新亮點。目前比較流行的“搜索引擎”主要有百度、谷歌等。下面就其中的幾個簡要介紹一下百度百度是全球最大的中文搜索網(wǎng)站,在中文檢索方面處于絕對領(lǐng)先地位,百度除提供網(wǎng)頁搜索外,還提供MP3、文檔、地圖、視頻、新聞等多樣化的搜索服務(wù),率先創(chuàng)造了以百度貼吧、知道為代表的搜索社區(qū),將無數(shù)網(wǎng)民頭腦中的智慧融入了搜索。另外近幾年還推出了百度百科,搜集新詞匯新名詞,成了新的亮點?!鞍俣纫幌隆币呀?jīng)成為了人們進行搜索的新動詞。谷歌“谷歌搜索引擎”由美國谷歌公司開發(fā)研制。3/7谷歌的使命就是要為您提供網(wǎng)上最好的查詢服務(wù),促進全球信息的交流。谷歌開發(fā)出了世界上最大的搜索引擎,提供了最便捷的網(wǎng)上信息查詢方法。通過對0多億以上網(wǎng)頁進行整理,谷歌可為世界各地的用戶提供適需的搜索結(jié)果,而且搜索時間通常不到半秒。現(xiàn)在,谷歌每天需要提供2億次以上查詢服務(wù)。谷歌近期推出的谷歌地球、地圖、衛(wèi)星等服務(wù),使用戶足不出戶便知天下。從搜索引擎的工作原理來區(qū)分,搜索引擎有兩種基本類型一類是純技術(shù)型的全文檢索搜索引擎,如百度、GOOGLE等,其原理是通過爬行程序到各個網(wǎng)站收集、存儲信息,并通過一定的算法建立索引數(shù)據(jù)庫供用戶查詢。另一類稱為分類目錄,這種搜索引擎并不采集網(wǎng)站的任何信息,而是利用各網(wǎng)站向搜索引擎提交網(wǎng)站信息時填寫的關(guān)鍵詞和網(wǎng)站描述等資料,經(jīng)過人工審核編輯后,如果符合網(wǎng)站登錄的條件,則人工輸入數(shù)據(jù)庫以供查詢。分類目錄的好處是,用戶可以根據(jù)目錄有針對性地逐級查詢自己需要的信息,而不是像技術(shù)性搜索引擎一樣同時反饋大量的信息。搜索引擎的實現(xiàn)原理,根據(jù)搜索引擎的工作原理不同而不同,若是通過SPIDER來實現(xiàn)的,則分下邊四個過程首先在互聯(lián)網(wǎng)上搜索網(wǎng)頁搜索完網(wǎng)頁后建立相應(yīng)的索引數(shù)據(jù)庫然后在索引數(shù)據(jù)庫中搜索最后通過一定算法對搜索結(jié)4/7果進行處理和排序。具體過程是從互聯(lián)網(wǎng)上抓取網(wǎng)頁,首先使用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的爬行程序,遍歷整個網(wǎng)絡(luò),并沿著任何網(wǎng)頁中的所有鏈接爬到其它網(wǎng)頁,不斷的重復(fù)這過程,并把爬過的所有網(wǎng)頁收集到服務(wù)器中并建立索引數(shù)據(jù)庫。由索引數(shù)據(jù)庫中的相關(guān)語言將收集回來的網(wǎng)頁進行分析,提取相關(guān)信息,根據(jù)一定的算法計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈接中每一個關(guān)鍵詞的相關(guān)度,然后用這些相關(guān)信息建立索引數(shù)據(jù)庫,在索引數(shù)據(jù)庫中檢索,當(dāng)用戶輸入關(guān)鍵詞后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁,按一定算法對搜索結(jié)果進行處理排序。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來顯示給用戶。圖1是一個典型的搜索引擎系統(tǒng)架構(gòu)圖,搜索引擎的各部分都會相互交錯、相互依賴。下邊就SPIDER即網(wǎng)絡(luò)蜘蛛程序做下簡要分析蜘蛛程序即就是把互聯(lián)網(wǎng)形容成一個大的蜘蛛網(wǎng),那么SPIDER程序就是在網(wǎng)絡(luò)上的蜘蛛。網(wǎng)絡(luò)蜘蛛就是在互聯(lián)網(wǎng)上尋找鏈接點,然后沿著鏈接點一個一個爬行下去尋找所有的鏈接點,最后提取出爬行過的鏈接點進入一定的數(shù)據(jù)庫。網(wǎng)絡(luò)蜘蛛一般有兩種搜索方法廣度優(yōu)先遍歷法和深度優(yōu)先遍歷法。廣度優(yōu)先是指從圖中某個頂點A出發(fā),5/7在訪問了A之后依次訪問A的各個未曾訪問過的鄰接點,然后分別從這些鄰接點出發(fā)依次訪問它們的鄰接點,并使“先被訪問的頂點的鄰接點”先于“后被訪問的頂點的鄰接點”被訪問,直至圖中所有已被訪問的頂點的鄰接點都被訪問到。若此時圖中尚有頂點未被訪問,則另選圖中一個未曾被訪問的頂點作起始點,重復(fù)上述過程,直至圖中所有頂點都被訪問到為止。廣度優(yōu)先用于網(wǎng)絡(luò)搜索則是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。深度優(yōu)先遍歷是指如下右圖首先訪問出發(fā)點A,并將其標記為已訪問過;然后依次從A出發(fā)搜索A的每個鄰接點如E。若E未曾訪問過,則以E為新的出發(fā)點繼續(xù)進行深度優(yōu)先遍歷,直至圖中所有和源點A有路徑相通的頂點均已被訪問為止。若此時圖中仍有未訪問的頂點,則另選一個尚未訪問的頂點作為新的源點重復(fù)上述過程,直至圖中所有頂點均已被訪問為止。深度優(yōu)先用于網(wǎng)頁是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網(wǎng)絡(luò)蜘蛛在設(shè)計的時候比較容易。對于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的。下邊就簡單介紹下兩種抓取順序的個人理解。6/7廣度優(yōu)先的抓起順序如上分析,如果上邊A是一個網(wǎng)站的主頁的話,SPIDER為了提高搜索效率,SPIDER會首先爬行其主頁,如果主頁有用戶匹配的信息,即顯示出來。如沒有則搜索該網(wǎng)站的B、C、D、E、F鏈接,然后再爬行B、C、D、E、F網(wǎng)頁如果有,則抽取其中一個顯示,如果沒有則在爬行該網(wǎng)頁的下一層鏈接,即圖2中的H、G,如果有則顯示出該鏈接。依次類推。這樣的爬行無疑省去了大量的時間和存儲空間。例如搜索“論文”如果主頁有該詞則主動提取出來,如果主頁無出現(xiàn),則深入該網(wǎng)站的下一層,依次類推。深度優(yōu)先的抓取順序如圖2右邊顯示,如果A是一個網(wǎng)站的主頁的話,如果輸入一個詞后,爬行程序開始檢索A網(wǎng)站,并且爬行其所有的鏈接直到鏈接的末端,如A網(wǎng)站的F層到F層的下一層G層,則是如此進行。E也是如此,有E層進入其下一層網(wǎng)頁即H,再有H進入下一層即I,依次爬行下去,直到找到該網(wǎng)站的所有有匹配的頁面,如此爬行,工作量無疑太大,但是卻提高了檢索率。SPIDER程序是搜索引擎的核心,SPIDER數(shù)據(jù)的結(jié)果直接影響到搜索引擎的評價指標,第一個SPI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論