華水大信息資源檢索與應(yīng)用課件第4章 網(wǎng)絡(luò)信息檢索_第1頁
華水大信息資源檢索與應(yīng)用課件第4章 網(wǎng)絡(luò)信息檢索_第2頁
華水大信息資源檢索與應(yīng)用課件第4章 網(wǎng)絡(luò)信息檢索_第3頁
華水大信息資源檢索與應(yīng)用課件第4章 網(wǎng)絡(luò)信息檢索_第4頁
華水大信息資源檢索與應(yīng)用課件第4章 網(wǎng)絡(luò)信息檢索_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第4章網(wǎng)絡(luò)信息檢索4.1網(wǎng)絡(luò)信息檢索的含義4.2搜索引擎4.3谷歌4.4AltaVista2025/11/1914.1網(wǎng)絡(luò)信息檢索的含義 網(wǎng)絡(luò)信息檢索一般是指因特網(wǎng)檢索,是通過網(wǎng)絡(luò)接口軟件實(shí)現(xiàn)信息檢索,如百度和谷歌等。用戶可以在一個(gè)終端查詢各地上傳到網(wǎng)絡(luò)的信息資源。這一類網(wǎng)絡(luò)檢索系統(tǒng)都是基于互聯(lián)網(wǎng)的分布式特點(diǎn)開發(fā)和應(yīng)用的,即:數(shù)據(jù)是分布式存儲的,大量的數(shù)據(jù)可以分散存儲在不同的服務(wù)器上;用戶分布式檢索,任何地方的終端用戶都可以訪問存儲數(shù)據(jù);數(shù)據(jù)分布式處理,任何數(shù)據(jù)都可以在網(wǎng)上的任何地方進(jìn)行處理。2025/11/1924.2搜索引擎4.2.1搜索引擎的工作原理4.2.2搜索引擎的組成4.2.3搜索引擎的分類4.2.4搜索引擎的信息檢索模型4.2.5搜索引擎檢索技巧4.2.6網(wǎng)上著名搜索引擎2025/11/1934.2.1搜索引擎的工作原理 搜索引擎的工作原理,即搜索工作的過程:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。

1.從互聯(lián)網(wǎng)上抓取網(wǎng)頁 利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的蜘蛛(Spider)系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。

2.建立索引數(shù)據(jù)庫 由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

3.在索引數(shù)據(jù)庫中搜索排序 當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度已計(jì)算完成,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。2025/11/1944.2.2搜索引擎的組成 搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個(gè)部分組成。

1.搜索器 其功能是負(fù)責(zé)在互聯(lián)網(wǎng)中漫游,抓取網(wǎng)頁信息的工作,將抓取的網(wǎng)頁內(nèi)容進(jìn)行切詞處理并自動進(jìn)行標(biāo)引,建立索引數(shù)據(jù)庫。

2.索引器 其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。

3.檢索器 其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔,進(jìn)行相關(guān)度評價(jià),對將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息。

4.用戶接口 其作用是根據(jù)用戶查詢條件檢索索引數(shù)據(jù)庫并對檢索結(jié)果進(jìn)行排序和集合運(yùn)算,如并集、交集運(yùn)算,再提取網(wǎng)頁簡單摘要信息反饋給查詢用戶,同時(shí)提供個(gè)性化查詢項(xiàng)。2025/11/1954.2.3搜索引擎的分類1.全文搜索引擎

全文搜索引擎是名副其實(shí)的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。2.目錄索引 目錄索引雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo雅虎。其他著名的還有OpenDirectoryProject(DMOZ)、LookSmart、About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。

3.元搜索引擎(METASearchEngine) 元搜索引擎在接受用戶查詢請求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo等。2025/11/1964.2.4搜索引擎的信息檢索模型1.經(jīng)典模型

經(jīng)典模型是以文檔中的關(guān)鍵詞為搜索依據(jù)的。經(jīng)典模型將文檔用一組關(guān)鍵詞(專業(yè)名叫索引詞)來代替。索引詞來自于文檔,是文檔中的詞匯摘錄。索引詞集合能表達(dá)文檔的主題。索引詞常用于編制索引和概括文檔的內(nèi)容。 經(jīng)典模型又可以分為三個(gè):布爾模型、向量空間模型和概率模型。

2.代數(shù)模型 代數(shù)模型也有兩種:廣義向量空間模型和神經(jīng)網(wǎng)絡(luò)模型。3.其他模型 其他常見的模型還有貝葉斯模型、推理網(wǎng)絡(luò)模型、信任度網(wǎng)絡(luò)模型等。2025/11/1974.2.5搜索引擎檢索技巧與操作 一般搜索引擎需要在多個(gè)關(guān)鍵字之間加上“”,而另外一些則不需要。Google就是其中之一,它無需用明文的“”來表示邏輯“與”操作,只要在搜索關(guān)鍵字之間用空格隔開即可。如想知道汽車的發(fā)展歷史,我們可以在Google中這么輸入:“汽車歷史”,馬上就能得到搜索結(jié)果。2025/11/1984.2.5搜索引擎檢索技巧“非”操作

如果想排除一些干擾項(xiàng),可以使用“A-B”的格式來表達(dá)“非”操作。如搜索“中國歷史”,會看到很多和歷史以及文化相關(guān)的結(jié)果,現(xiàn)在想一次性去掉文化類內(nèi)容,就可以輸入“中國歷史–文化”。注意,“-”前必須加上空格。2025/11/1994.2.5搜索引擎檢索技巧“或”操作

邏輯“或”操作可以用格式“AORB”來實(shí)現(xiàn)。例如想知道搜索引擎的發(fā)展歷史,尤其是含有網(wǎng)絡(luò)蜘蛛的部分,則可以使用以下的方式。2025/11/19104.2.5搜索引擎檢索技巧通配符 合理使用通配符也能大大縮小搜索范圍。很多搜索引擎支持通配符,如用“*”代替一個(gè)字符串,而“?”則代替單個(gè)字符等。不過Google對通配符支持有限,目前只能用“*”來替代字符串,而且包含“*”必須用""(注意這里的符號是英文的)引起來。例如搜索“"以*為家"”,表示搜索一個(gè)短語,且以“以”開頭,以“為家”的結(jié)尾,中間的“*”可以為任何字符或字符串。2025/11/19114.2.5搜索引擎檢索技巧空格的處理 搜索時(shí)還需要注意,一般的英文是不區(qū)分大小寫的。同時(shí),以短語作為搜索關(guān)鍵字,如中間有空格則需用“”引起來,否則空格會被當(dāng)成“與”運(yùn)算符。例如想查找英文的二戰(zhàn)資料,則需要輸入“worldwarII”。2025/11/19124.2.5搜索引擎檢索技巧“site” “site”表示搜索結(jié)果局限于某個(gè)具體網(wǎng)站或者網(wǎng)站頻道,例如需要在著名IT門戶網(wǎng)站ZDNET和CNET搜索一下關(guān)于搜索引擎技巧方面的資訊,則可以輸入:“"searchengine"tipssite:ORsite:”。2025/11/19134.2.5搜索引擎檢索技巧“filetype:”使用“filetype:”不僅能搜索一般的文字頁面,還能對某些二進(jìn)制文檔進(jìn)行檢索。例如想查找一些有關(guān)搜索引擎技巧的PDF文檔則可以用:“”searchengine“tipsORtutorialfiletype:pdf”。2025/11/19144.2.5搜索引擎檢索技巧“l(fā)ink”

“l(fā)ink”語法就能讓用戶搜索所有鏈接到某個(gè)URL地址的網(wǎng)頁,這個(gè)功能多用于查看某個(gè)URL被引用的情況。例如搜索所有含指向狗狗首頁這個(gè)地址的網(wǎng)頁,就可以輸入:“l(fā)ink:”。2025/11/19154.2.6網(wǎng)上著名搜索引擎常用的國外搜索引擎

AltaVista:http://

Lycos:http://

Excite;

Magellan:

InfoSeek:

Yahoo!:http://

What'sNew:/whatsnew

AmazingEnironmentOrganizationWeb: CUIW3Catalog:http://cuiwww.unige.ch

EINet

Galaxy:

100HotWebsite: C/Net'sShare:

Webcrawker:

2025/11/19164.2.6網(wǎng)上著名搜索引擎國內(nèi)常用搜索引擎 百度:http:/// 悠悠:http://

雅虎中文:http://

北極星搜索引擎:http:/// 華好景導(dǎo)航:http://

人民網(wǎng)絡(luò)檢索引擎:http:// 若比鄰中文搜索引擎:http://

司南YIPPEE:

天網(wǎng)中英文搜索引擎::8000/gbindex.htm 網(wǎng)現(xiàn)引擎:http://

中國頻道導(dǎo)航中心:

中國熱點(diǎn):http://

中文網(wǎng)絡(luò)索引Hello:.tw

搜狐:http://

網(wǎng)易:http://2025/11/19174.2.6網(wǎng)上著名搜索引擎常用的中文導(dǎo)航站點(diǎn)、搜索引擎指南 CBI商貿(mào)網(wǎng)絡(luò)站點(diǎn)集:http:///list/tradeweb.html

ChinaNet國內(nèi)導(dǎo)航:/bta/map04.htm

Chilna國外站點(diǎn)導(dǎo)航:/bta/map05.htm

2025/11/19184.3谷歌圖片搜索 (1)進(jìn)入圖片搜索:點(diǎn)擊主頁左上角的“圖片”,進(jìn)入Google圖片搜索2025/11/19194.3谷歌 (2)輸入搜索關(guān)鍵字:在搜索框中輸入“張國榮”就能得到大量的圖片預(yù)覽和鏈接。2025/11/19204.3谷歌 (3)高級搜索:我們想得到一些張國榮的大圖作為桌面用(寬屏顯示器),同時(shí)又希望是JPG格式的圖片,于是就可以點(diǎn)搜索欄旁邊的“高級”按鈕,進(jìn)入高級圖片搜索

2025/11/19214.3谷歌谷歌地圖 Google地圖則提供了地圖搜索功能,包括道路、公交、建筑等的查詢。2025/11/19224.3谷歌

(1)所在地查詢:使用Google地圖,可以進(jìn)入全世界的任一城市地區(qū),查找相關(guān)地理信息。例如查找武漢軟件工程職業(yè)學(xué)院所在地,只需要在地圖搜索欄中輸入“武漢軟件工程職業(yè)學(xué)院”即可。2025/11/19234.3谷歌 (2)縮放地圖:如果覺得路不夠詳細(xì),可以拉動左上角的滑塊,或直接波動鼠標(biāo)滾輪,就能放大或縮小地圖,更詳細(xì)的路況資料就會顯現(xiàn)出來。2025/11/19244.3谷歌

(3)衛(wèi)星地圖:點(diǎn)選右上角的“衛(wèi)星”按鈕,還能查看該地區(qū)的衛(wèi)星圖片,雖然是民用級衛(wèi)星圖片,但是清晰度仍然很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論