版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章網(wǎng)絡(luò)信息檢索4.1網(wǎng)絡(luò)信息檢索的含義4.2搜索引擎4.3谷歌4.4AltaVista2025/11/1914.1網(wǎng)絡(luò)信息檢索的含義 網(wǎng)絡(luò)信息檢索一般是指因特網(wǎng)檢索,是通過網(wǎng)絡(luò)接口軟件實(shí)現(xiàn)信息檢索,如百度和谷歌等。用戶可以在一個(gè)終端查詢各地上傳到網(wǎng)絡(luò)的信息資源。這一類網(wǎng)絡(luò)檢索系統(tǒng)都是基于互聯(lián)網(wǎng)的分布式特點(diǎn)開發(fā)和應(yīng)用的,即:數(shù)據(jù)是分布式存儲的,大量的數(shù)據(jù)可以分散存儲在不同的服務(wù)器上;用戶分布式檢索,任何地方的終端用戶都可以訪問存儲數(shù)據(jù);數(shù)據(jù)分布式處理,任何數(shù)據(jù)都可以在網(wǎng)上的任何地方進(jìn)行處理。2025/11/1924.2搜索引擎4.2.1搜索引擎的工作原理4.2.2搜索引擎的組成4.2.3搜索引擎的分類4.2.4搜索引擎的信息檢索模型4.2.5搜索引擎檢索技巧4.2.6網(wǎng)上著名搜索引擎2025/11/1934.2.1搜索引擎的工作原理 搜索引擎的工作原理,即搜索工作的過程:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。
1.從互聯(lián)網(wǎng)上抓取網(wǎng)頁 利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的蜘蛛(Spider)系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。
2.建立索引數(shù)據(jù)庫 由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
3.在索引數(shù)據(jù)庫中搜索排序 當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度已計(jì)算完成,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。2025/11/1944.2.2搜索引擎的組成 搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個(gè)部分組成。
1.搜索器 其功能是負(fù)責(zé)在互聯(lián)網(wǎng)中漫游,抓取網(wǎng)頁信息的工作,將抓取的網(wǎng)頁內(nèi)容進(jìn)行切詞處理并自動進(jìn)行標(biāo)引,建立索引數(shù)據(jù)庫。
2.索引器 其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。
3.檢索器 其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔,進(jìn)行相關(guān)度評價(jià),對將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息。
4.用戶接口 其作用是根據(jù)用戶查詢條件檢索索引數(shù)據(jù)庫并對檢索結(jié)果進(jìn)行排序和集合運(yùn)算,如并集、交集運(yùn)算,再提取網(wǎng)頁簡單摘要信息反饋給查詢用戶,同時(shí)提供個(gè)性化查詢項(xiàng)。2025/11/1954.2.3搜索引擎的分類1.全文搜索引擎
全文搜索引擎是名副其實(shí)的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。2.目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有OpenDirectoryProject(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。
3.元搜索引擎(METASearchEngine) 元搜索引擎在接受用戶查詢請求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo等。2025/11/1964.2.4搜索引擎的信息檢索模型1.經(jīng)典模型
經(jīng)典模型是以文檔中的關(guān)鍵詞為搜索依據(jù)的。經(jīng)典模型將文檔用一組關(guān)鍵詞(專業(yè)名叫索引詞)來代替。索引詞來自于文檔,是文檔中的詞匯摘錄。索引詞集合能表達(dá)文檔的主題。索引詞常用于編制索引和概括文檔的內(nèi)容。 經(jīng)典模型又可以分為三個(gè):布爾模型、向量空間模型和概率模型。
2.代數(shù)模型 代數(shù)模型也有兩種:廣義向量空間模型和神經(jīng)網(wǎng)絡(luò)模型。3.其他模型 其他常見的模型還有貝葉斯模型、推理網(wǎng)絡(luò)模型、信任度網(wǎng)絡(luò)模型等。2025/11/1974.2.5搜索引擎檢索技巧與操作 一般搜索引擎需要在多個(gè)關(guān)鍵字之間加上“”,而另外一些則不需要。Google就是其中之一,它無需用明文的“”來表示邏輯“與”操作,只要在搜索關(guān)鍵字之間用空格隔開即可。如想知道汽車的發(fā)展歷史,我們可以在Google中這么輸入:“汽車歷史”,馬上就能得到搜索結(jié)果。2025/11/1984.2.5搜索引擎檢索技巧“非”操作
如果想排除一些干擾項(xiàng),可以使用“A-B”的格式來表達(dá)“非”操作。如搜索“中國歷史”,會看到很多和歷史以及文化相關(guān)的結(jié)果,現(xiàn)在想一次性去掉文化類內(nèi)容,就可以輸入“中國歷史–文化”。注意,“-”前必須加上空格。2025/11/1994.2.5搜索引擎檢索技巧“或”操作
邏輯“或”操作可以用格式“AORB”來實(shí)現(xiàn)。例如想知道搜索引擎的發(fā)展歷史,尤其是含有網(wǎng)絡(luò)蜘蛛的部分,則可以使用以下的方式。2025/11/19104.2.5搜索引擎檢索技巧通配符 合理使用通配符也能大大縮小搜索范圍。很多搜索引擎支持通配符,如用“*”代替一個(gè)字符串,而“?”則代替單個(gè)字符等。不過Google對通配符支持有限,目前只能用“*”來替代字符串,而且包含“*”必須用""(注意這里的符號是英文的)引起來。例如搜索“"以*為家"”,表示搜索一個(gè)短語,且以“以”開頭,以“為家”的結(jié)尾,中間的“*”可以為任何字符或字符串。2025/11/19114.2.5搜索引擎檢索技巧空格的處理 搜索時(shí)還需要注意,一般的英文是不區(qū)分大小寫的。同時(shí),以短語作為搜索關(guān)鍵字,如中間有空格則需用“”引起來,否則空格會被當(dāng)成“與”運(yùn)算符。例如想查找英文的二戰(zhàn)資料,則需要輸入“worldwarII”。2025/11/19124.2.5搜索引擎檢索技巧“site” “site”表示搜索結(jié)果局限于某個(gè)具體網(wǎng)站或者網(wǎng)站頻道,例如需要在著名IT門戶網(wǎng)站ZDNET和CNET搜索一下關(guān)于搜索引擎技巧方面的資訊,則可以輸入:“"searchengine"tipssite:ORsite:”。2025/11/19134.2.5搜索引擎檢索技巧“filetype:”使用“filetype:”不僅能搜索一般的文字頁面,還能對某些二進(jìn)制文檔進(jìn)行檢索。例如想查找一些有關(guān)搜索引擎技巧的PDF文檔則可以用:“”searchengine“tipsORtutorialfiletype:pdf”。2025/11/19144.2.5搜索引擎檢索技巧“l(fā)ink”
“l(fā)ink”語法就能讓用戶搜索所有鏈接到某個(gè)URL地址的網(wǎng)頁,這個(gè)功能多用于查看某個(gè)URL被引用的情況。例如搜索所有含指向狗狗首頁這個(gè)地址的網(wǎng)頁,就可以輸入:“l(fā)ink:”。2025/11/19154.2.6網(wǎng)上著名搜索引擎常用的國外搜索引擎
AltaVista:http://
Lycos:http://
Excite;
Magellan:
InfoSeek:
Yahoo!:http://
What'sNew:/whatsnew
AmazingEnironmentOrganizationWeb: CUIW3Catalog:http://cuiwww.unige.ch
EINet
Galaxy:
100HotWebsite: C/Net'sShare:
Webcrawker:
2025/11/19164.2.6網(wǎng)上著名搜索引擎國內(nèi)常用搜索引擎 百度:http:/// 悠悠:http://
雅虎中文:http://
北極星搜索引擎:http:/// 華好景導(dǎo)航:http://
人民網(wǎng)絡(luò)檢索引擎:http:// 若比鄰中文搜索引擎:http://
司南YIPPEE:
天網(wǎng)中英文搜索引擎::8000/gbindex.htm 網(wǎng)現(xiàn)引擎:http://
中國頻道導(dǎo)航中心:
中國熱點(diǎn):http://
中文網(wǎng)絡(luò)索引Hello:.tw
搜狐:http://
網(wǎng)易:http://2025/11/19174.2.6網(wǎng)上著名搜索引擎常用的中文導(dǎo)航站點(diǎn)、搜索引擎指南 CBI商貿(mào)網(wǎng)絡(luò)站點(diǎn)集:http:///list/tradeweb.html
ChinaNet國內(nèi)導(dǎo)航:/bta/map04.htm
Chilna國外站點(diǎn)導(dǎo)航:/bta/map05.htm
2025/11/19184.3谷歌圖片搜索 (1)進(jìn)入圖片搜索:點(diǎn)擊主頁左上角的“圖片”,進(jìn)入Google圖片搜索2025/11/19194.3谷歌 (2)輸入搜索關(guān)鍵字:在搜索框中輸入“張國榮”就能得到大量的圖片預(yù)覽和鏈接。2025/11/19204.3谷歌 (3)高級搜索:我們想得到一些張國榮的大圖作為桌面用(寬屏顯示器),同時(shí)又希望是JPG格式的圖片,于是就可以點(diǎn)搜索欄旁邊的“高級”按鈕,進(jìn)入高級圖片搜索
2025/11/19214.3谷歌谷歌地圖 Google地圖則提供了地圖搜索功能,包括道路、公交、建筑等的查詢。2025/11/19224.3谷歌
(1)所在地查詢:使用Google地圖,可以進(jìn)入全世界的任一城市地區(qū),查找相關(guān)地理信息。例如查找武漢軟件工程職業(yè)學(xué)院所在地,只需要在地圖搜索欄中輸入“武漢軟件工程職業(yè)學(xué)院”即可。2025/11/19234.3谷歌 (2)縮放地圖:如果覺得路不夠詳細(xì),可以拉動左上角的滑塊,或直接波動鼠標(biāo)滾輪,就能放大或縮小地圖,更詳細(xì)的路況資料就會顯現(xiàn)出來。2025/11/19244.3谷歌
(3)衛(wèi)星地圖:點(diǎn)選右上角的“衛(wèi)星”按鈕,還能查看該地區(qū)的衛(wèi)星圖片,雖然是民用級衛(wèi)星圖片,但是清晰度仍然很
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年投資顧問業(yè)務(wù)合同
- 2026年兒科保健服務(wù)合同
- 2026年菜品供貨合同
- 2025年人工智能數(shù)據(jù)分析平臺研發(fā)項(xiàng)目可行性研究報(bào)告
- 2025年在線零售平臺升級項(xiàng)目可行性研究報(bào)告
- 2025年網(wǎng)站建設(shè)與搜索引擎優(yōu)化的結(jié)合可行性研究報(bào)告
- 2025年人工智能助手應(yīng)用項(xiàng)目可行性研究報(bào)告
- 2025年清潔生產(chǎn)技術(shù)開發(fā)項(xiàng)目可行性研究報(bào)告
- 現(xiàn)簽協(xié)議再簽合同
- 消防備案合同范本
- 計(jì)算思維與人工智能 課件 第8章 智能圖像處理
- 探索絲綢之路課件
- 2025秋季國開《經(jīng)濟(jì)學(xué)(本)》期末考試題庫及答案
- (新教材)2026年人教版八年級下冊數(shù)學(xué) 24.3 數(shù)據(jù)的四分位數(shù) 課件
- 2025年甘肅省武威市涼州區(qū)大柳鎮(zhèn)選聘專業(yè)化管理大學(xué)生村文書筆試考試備考試題及答案解析
- 2025國家開放大學(xué)《小學(xué)語文教學(xué)研究》形考任務(wù)1-5答案
- 硫化黑生產(chǎn)工藝
- 火力發(fā)電企業(yè)作業(yè)活動風(fēng)險(xiǎn)分級管控清單(參考)
- 作物栽培學(xué)各論-玉米栽培
- 超濾膜技術(shù)介紹及應(yīng)用課件(PPT 36頁)
- 【課件】第四單元主題三人居與環(huán)境——詩意的棲居課件-2021-2022學(xué)年高中美術(shù)人美版(2019)美術(shù)鑒賞
評論
0/150
提交評論