版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、搜索引擎的算法及工作原理搜索引擎算法及工作原理(Google)C1爬行和抓?。核阉饕嬷┲胪ㄟ^(guò)跟蹤鏈接訪問(wèn)頁(yè)面,獲取頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。2預(yù)處理:搜索引擎對(duì)抓取來(lái)的頁(yè)面數(shù)據(jù)文字進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。3排名:用戶輸入關(guān)鍵字后,排名調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。 ONTENTS搜索引擎算法及工作原理(Google)C搜索引擎的工作的過(guò)程非常復(fù)雜,而簡(jiǎn)單的講搜索引擎的工作過(guò)程大體可以分成三個(gè)階段。爬行和抓取爬行和抓取 完成數(shù)據(jù)收集任務(wù)。搜索引擎用來(lái)爬行和訪問(wèn)頁(yè)面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。跟蹤鏈接為了
2、抓取網(wǎng)上盡量多的頁(yè)面,搜索引擎蜘蛛會(huì)跟蹤頁(yè)面上的鏈接,從一個(gè)頁(yè)面爬到下一個(gè)頁(yè)面,就好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這也就是搜索引擎蜘蛛這個(gè)名稱的由來(lái)。最簡(jiǎn)單的爬行遍歷策略分為兩種,一是深度優(yōu)先,二是廣度優(yōu)先。深度優(yōu)先搜索深度優(yōu)先搜索就是在搜索樹(shù)的每一層始終先只擴(kuò)展一個(gè)子節(jié)點(diǎn),不斷地向縱深前進(jìn)直到不能再前進(jìn)(到達(dá)葉子節(jié)點(diǎn)或受到深度限制)時(shí),才從當(dāng)前節(jié)點(diǎn)返回到上一級(jí)節(jié)點(diǎn),沿另一方向又繼續(xù)前進(jìn)。這種方法的搜索樹(shù)是從樹(shù)根開(kāi)始一枝一枝逐漸形成的。深度優(yōu)先搜索亦稱為縱向搜索。由于一個(gè)有解的問(wèn)題樹(shù)可能含有無(wú)窮分枝,深度優(yōu)先搜索如果誤入無(wú)窮分枝(即深度無(wú)限),則不可能找到目標(biāo)節(jié)點(diǎn)。所以,深度優(yōu)先搜索策略是不完備的
3、。另外,應(yīng)用此策略得到的解不一定是最佳解(最短路徑)。廣度優(yōu)先搜索在深度優(yōu)先搜索算法中,是深度越大的結(jié)點(diǎn)越先得到擴(kuò)展。如果在搜索中把算法改為按結(jié)點(diǎn)的層次進(jìn)行搜索, 本層的結(jié)點(diǎn)沒(méi)有搜索處理完時(shí),不能對(duì)下層結(jié)點(diǎn)進(jìn)行處理,即深度越小的結(jié)點(diǎn)越先得到擴(kuò)展,也就是說(shuō)先產(chǎn)生 的結(jié)點(diǎn)先得以擴(kuò)展處理,這種搜索算法稱為廣度優(yōu)先搜索法。預(yù)處理 “預(yù)處理”也被簡(jiǎn)稱為“索引”,因?yàn)樗饕穷A(yù)處理最主要的步驟。 搜索引擎蜘蛛抓取的原始頁(yè)面,并不能直接用于查詢排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)都在數(shù)萬(wàn)億級(jí)別以上,用戶輸入搜索詞后,靠排名程序?qū)崟r(shí)對(duì)這么多頁(yè)面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來(lái)的頁(yè)面
4、必須經(jīng)過(guò)預(yù)處理,為最后的查詢排名做好準(zhǔn)備。 和爬行抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。 1.提取文字:搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁(yè)面文字內(nèi)容。 2.中文分詞:搜索引擎存儲(chǔ)和處理頁(yè)面及用戶搜索都是以詞為基礎(chǔ)的。中文詞與詞之間沒(méi)有任何分隔符,搜索引擎必須首先分辨哪幾個(gè)字組成一個(gè)詞,哪些字本身就是一 個(gè)詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個(gè)詞。 3.去停止詞:無(wú)論是英文還是中文,頁(yè)面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很 高,卻對(duì)內(nèi)容沒(méi)有任何影響的詞,助詞,感嘆詞,副詞或介詞。 這些詞被稱為停止詞,因?yàn)樗鼈儗?duì)
5、頁(yè)面的主要意思沒(méi)什么影響。英文中的常見(jiàn)停止詞有the,a,an,to,of等。 4.消除噪聲:絕 大部分頁(yè)面上還有一部分內(nèi)容對(duì)頁(yè)面主題也沒(méi)有什么貢獻(xiàn),比如導(dǎo)航條、廣告等。這些區(qū)塊都屬于噪聲。搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。 5.去重:在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過(guò)程就稱為“去 重”。 6.正向索引 7.倒排索引 8.鏈接關(guān)系計(jì)算:Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。 9.特殊文件處理:目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。對(duì)圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容。PR的兩個(gè)比喻模型P
6、R值全稱為PageRank(網(wǎng)頁(yè)級(jí)別),PR值是Google用于標(biāo)識(shí)網(wǎng)頁(yè)的等級(jí)、重要性、網(wǎng)站的好壞的重要標(biāo)準(zhǔn)之一。級(jí)別從0到10級(jí)為滿分。PR值越高說(shuō)明該網(wǎng)頁(yè)越受歡迎。關(guān)于PR有兩個(gè)著名的比喻。一個(gè)比喻是投票。鏈接就像民主投票一樣,A頁(yè)面鏈接到B頁(yè)面,就意味著A頁(yè)面對(duì)B頁(yè)面投了一票,使得B頁(yè)面的重要性提高。同時(shí),A頁(yè)面本身的PR。值決定了A所能投出去的投票力,PR值越高的頁(yè)面,投出的票也更重要。在這個(gè)意義上,傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁(yè)面自己說(shuō)頁(yè)面內(nèi)容是什么,基于鏈接的PR則是看別人怎么評(píng)價(jià)一個(gè)頁(yè)面。第二個(gè)比喻是隨機(jī)沖浪比喻。假設(shè)一個(gè)訪問(wèn)者從一個(gè)頁(yè)面開(kāi)始,不停地隨機(jī)點(diǎn)擊鏈接,訪問(wèn)下一個(gè)頁(yè)面。有時(shí)候這個(gè)用戶感到無(wú)聊了,不再點(diǎn)擊鏈接,就隨機(jī)跳到了另外一個(gè)網(wǎng)址,再次開(kāi)始不停地向下點(diǎn)擊。所謂PR。值也就是一個(gè)頁(yè)面在這種隨機(jī)沖浪訪問(wèn)中被訪問(wèn)到的概率。一個(gè)頁(yè)面導(dǎo)入鏈接越多,被訪問(wèn)到的概率也越高,因此PR值也越高。 排名 經(jīng)過(guò)搜索
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 皮膚周護(hù)理的專家建議
- 白血病患者的家庭護(hù)理和家庭照顧
- (新教材)2026年滬科版八年級(jí)下冊(cè)數(shù)學(xué) 17.3 一元二次方程根的判別式 課件
- 阿爾茨海默癥患者的心理護(hù)理
- 中醫(yī)外科護(hù)理團(tuán)隊(duì)建設(shè)與管理
- 水路改造與管道安裝施工技術(shù)規(guī)程
- 復(fù)核流程動(dòng)態(tài)調(diào)整
- 2025年AI珠寶設(shè)計(jì)軟件與AR試戴技術(shù)協(xié)同應(yīng)用
- 2025年智能外語(yǔ)作文批改系統(tǒng)語(yǔ)法錯(cuò)誤識(shí)別準(zhǔn)確率新突破
- 基于深度學(xué)習(xí)的惡意代碼檢測(cè)模型優(yōu)化
- 2025年山西大地環(huán)境投資控股有限公司社會(huì)招聘116人備考題庫(kù)有答案詳解
- 2026元旦主題晚會(huì)倒計(jì)時(shí)快閃
- 物理試卷答案浙江省9+1高中聯(lián)盟2025學(xué)年第一學(xué)期高三年級(jí)期中考試(11.19-11.21)
- 2025年交管12123學(xué)法減分考試題附含答案
- 俄語(yǔ)口語(yǔ)課件
- 2025廣西自然資源職業(yè)技術(shù)學(xué)院下半年招聘工作人員150人(公共基礎(chǔ)知識(shí))綜合能力測(cè)試題帶答案解析
- django基于Hadoop的黑龍江旅游景點(diǎn)系統(tǒng)-論文11936字
- 2025-2026學(xué)年廣東省深圳市福田中學(xué)高一(上)期中物理試卷(含答案)
- 口腔解剖生理學(xué)牙的一般知識(shí)-醫(yī)學(xué)課件
- 施工現(xiàn)場(chǎng)安全、文明考核管理辦法
- 香蕉購(gòu)買協(xié)議書(shū)模板
評(píng)論
0/150
提交評(píng)論