華科大現(xiàn)代信息檢索課件06網(wǎng)絡(luò)信息檢索_第1頁
華科大現(xiàn)代信息檢索課件06網(wǎng)絡(luò)信息檢索_第2頁
華科大現(xiàn)代信息檢索課件06網(wǎng)絡(luò)信息檢索_第3頁
華科大現(xiàn)代信息檢索課件06網(wǎng)絡(luò)信息檢索_第4頁
華科大現(xiàn)代信息檢索課件06網(wǎng)絡(luò)信息檢索_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章

網(wǎng)絡(luò)信息檢索

本章的主要內(nèi)容為:網(wǎng)絡(luò)信息系統(tǒng)及網(wǎng)絡(luò)信息資源的特征

、網(wǎng)絡(luò)信息檢索的原理與方法、常用的網(wǎng)絡(luò)信息檢索工具、網(wǎng)絡(luò)信息檢索技巧和專業(yè)性信息的網(wǎng)絡(luò)檢索。

1第一節(jié)網(wǎng)絡(luò)信息系統(tǒng)及網(wǎng)絡(luò)信息資源的特征

一、Internet網(wǎng)絡(luò)信息系統(tǒng)TCP/IP協(xié)議DN域名和IP地址

全球資源定位器URL

2二、網(wǎng)絡(luò)信息系統(tǒng)的組織方式

文件方式數(shù)據(jù)庫方式主題樹方式超媒體方式元數(shù)據(jù)方式3三、網(wǎng)絡(luò)信息資源的特征

以網(wǎng)絡(luò)為傳播媒體

以多媒體為內(nèi)容特征

傳播方式具有多樣性、交互性

數(shù)量巨大,增長迅速

信息共享程度高

使用成本低

動態(tài)性強,管理難度較大

4第二節(jié)

網(wǎng)絡(luò)信息檢索的原理與方法

一、網(wǎng)絡(luò)信息檢索的特征存取范圍覆蓋Internet上的幾乎所有資源傳統(tǒng)檢索方法與全新檢索技術(shù)相結(jié)合用戶界面友好且操作方便具備良好的導(dǎo)航和編輯功能網(wǎng)絡(luò)透明度高5二、網(wǎng)絡(luò)信息檢索的方法

網(wǎng)絡(luò)信息檢索一般有以下幾種方法:瀏覽通過資源指南來查找相應(yīng)的信息利用網(wǎng)絡(luò)信息檢索工具使用檢索軟件充分利用E-mail獲取信息資源6第三節(jié)

常用的網(wǎng)絡(luò)信息檢索工具

一、網(wǎng)絡(luò)信息檢索工具及其使用為了準確、及時、方便地查找到存儲于Internet的數(shù)據(jù)資料,網(wǎng)絡(luò)工作者為各類網(wǎng)絡(luò)信息資源研制了相應(yīng)的檢索工具。網(wǎng)絡(luò)信息檢索工具主要是指在Internet上提供信息檢索服務(wù)的計算機系統(tǒng),其檢索對象是存在于Internet信息空間中各種類型的網(wǎng)絡(luò)信息資源。WWW開發(fā)最晚,但發(fā)展最迅速。

7(一)搜索引擎

1.搜索引擎的構(gòu)成:搜索器索引器檢索器用戶接口8搜索引擎基本結(jié)構(gòu)

92.搜索引擎的工作原理首先由搜索器,即網(wǎng)絡(luò)機器人從Internet上收集各信息站點的摘要信息;再由搜索器對該網(wǎng)頁上的某些字或全部字作上索引,建立本地數(shù)據(jù)庫;然后用戶在檢索時,通過搜索引擎的用戶接口訪問摘要信息數(shù)據(jù)庫;檢索器根據(jù)用戶的查詢條件快速檢出文檔,并對將要輸出的結(jié)果進行排序和相關(guān)性處理;最后再通過用戶接口將檢索結(jié)果反饋給用戶。10(二)搜索引擎的功能和分類

1.搜索引擎的功能

搜索引擎的第一個功能是收集信息建立索引數(shù)據(jù)庫,并自動跟蹤信息源的變動,不斷更新索引記錄,定期維護數(shù)據(jù)庫。它的第二個功能是提供網(wǎng)絡(luò)的信息導(dǎo)航與檢索服務(wù),這也是搜索引擎最主要的功能。112.搜索引擎的分類

根據(jù)信息覆蓋范圍及適用用戶群,搜索引擎可以劃分為綜合性搜索引擎和專用性搜索引擎兩種類型。根據(jù)信息檢索方式的不同,搜索引擎可以劃分為分類搜索引擎和關(guān)鍵詞搜索引擎兩種類型。

根據(jù)網(wǎng)絡(luò)信息搜索范圍的差異,搜索引擎可以劃分為獨立搜索引擎和集成搜索引擎兩種類型。

12

自動索引程序robot廣泛搜集網(wǎng)絡(luò)信息資源數(shù)據(jù),經(jīng)過一系列判斷、選擇、標引、分類等處理后形成供檢索用的數(shù)據(jù)庫,并以Web頁面的形式向用戶提供有關(guān)的資源導(dǎo)航、目錄索引以及檢索界面。

(三)自動索引程序13二、搜索引擎的運作和檢索

(一)搜索引擎技術(shù)的運作發(fā)現(xiàn)并搜集網(wǎng)頁信息對信息進行提取并建立索引庫用戶檢索利用14搜索引擎在使用中也有一些明顯的缺陷:

數(shù)據(jù)量方面:索引能力越來越落后于網(wǎng)絡(luò)的快速增長速度,最好的搜索引擎也只能搜索到三分之一的網(wǎng)頁信息。內(nèi)容相關(guān)性的評定方面:難以判斷多義詞的具體含義,網(wǎng)絡(luò)信息太多,查準和排序難度較大。實效性方面:更新數(shù)據(jù)的周期要花費較長的時間。個性化與智能化方面:智能技術(shù)很難得到應(yīng)用。15(二)搜索引擎的檢索方法

簡單搜索(SimpleSearch)

詞組搜索(PhraseSearch)

高級搜索(AdvancedSearch)

16三、萬維網(wǎng)搜索引擎

萬維網(wǎng)搜索引擎(WebSearchEngines)的主體是全文搜索引擎(FulltextSearchEngine),具有代表性的全文搜索引擎是Google、AlltheWeb、AltaVista、Inktomi、Teoma、WiseNut、百度、慧聰?shù)?。它們都是從互?lián)網(wǎng)上提取各個網(wǎng)站的信息,建立索引數(shù)據(jù)庫,并在用戶檢索時予以匹配響應(yīng),然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。這里重點介紹四大Google、Yahoo!、Ask和百度。17(一)Google(http://www.google.com)

Google的核心技術(shù)稱為PageRank(TM),它是LarryPage和SergeyBrin在斯坦福大學(xué)開發(fā)的一套用于網(wǎng)頁評級的系統(tǒng)。該系統(tǒng)以PageRank技術(shù)為基礎(chǔ),這項技術(shù)可以確保將搜索結(jié)果首先呈現(xiàn)給用戶。Google使用一組獨特的硬件和軟件,制造出了一部超高速搜索引擎。

18Googled

的檢索方法

簡單檢索詞組檢索高級檢索19Google的特殊功能

圖像搜索

信息挖掘

手氣不錯

網(wǎng)頁快照

類似網(wǎng)頁

按鏈接搜索

指定網(wǎng)域

語句搜索

20(二)Yahoo!(http:)

Yahoo!是世界上最早的搜索引擎之一。它擁有第一流的Web目錄和最佳的新聞鏈接以及許多附加服務(wù)。Yahoo!支持簡單檢索和詞組檢索,具有良好的性能。Yahoo!特色搜索:目錄搜索與專門搜索

21(三)Ask

()

Ask是以實現(xiàn)自然語言檢索為特色的全文搜索引擎Ask的搜索功能包括:支持簡單檢索、支持詞組檢索、支持高級檢索。Ask支持自然語言檢索的實現(xiàn)方式是支持自然語言提問,它的數(shù)據(jù)庫里已經(jīng)存儲了1000多萬個問題的答案。只要用英文輸入一個問題,它就會給出問題的答案。22(四)百度(http://www.baidu.com/)

百度每天響應(yīng)來自138個國家超過數(shù)億次的搜索請求。用戶可以通過百度主頁,在瞬間找到相關(guān)的搜索結(jié)果,這些結(jié)果來自于百度超過10億的中文網(wǎng)頁數(shù)據(jù)庫,并且,這些網(wǎng)頁的數(shù)量每天正以千萬級的速度在增長。23百度的搜索特色

百度快照相關(guān)搜索拼音提示錯別字提示英漢互譯詞典計算器和度量轉(zhuǎn)換專業(yè)文檔搜索股票、列車時刻表和飛機航班查詢高級搜索語法天氣查詢

24四、元搜索引擎(MetasearchEngine)

元搜索引擎是一種建立在普通搜索引擎基礎(chǔ)之上的搜索引擎。它自己不進行WWW的遍歷,也沒有自己的索引數(shù)據(jù)庫,當用戶提出查詢請求時,它將用戶的檢索要求進行轉(zhuǎn)換處理后,提交給預(yù)定的搜索引擎進行檢索,然后將各搜索引擎返回的結(jié)果經(jīng)處理、組織后提供給用戶。25(一)元搜索引擎的基本特征

在多個搜索引擎中搜索,使用戶在盡可能短的時間內(nèi)得到更多的結(jié)果。元搜索引擎在檢索的精度、檢索的范圍、檢索功能等方面仍存在許多局限性。26(二)元搜索引擎的評價標準

目前,對元搜索引擎的評價主要使用的是以下幾個指標:對檢索語法的支持網(wǎng)絡(luò)資源的覆蓋對檢索結(jié)果的處理

27(三)元搜索引擎的使用方法

基于Web的元搜索引擎建立在一個有網(wǎng)址的頁面上,用戶可以連接到任何有Internet的地方調(diào)用。另外一類元搜索引擎是一種終端搜索引擎軟件,下載安裝后可直接在用戶計算機上運行。28第四節(jié)

網(wǎng)絡(luò)信息檢索技巧

本節(jié)的主要的內(nèi)容為:網(wǎng)絡(luò)信息檢索的策略

網(wǎng)絡(luò)信息檢索的技巧

29一、網(wǎng)絡(luò)信息檢索的策略

(一)明確搜索目標,確定檢索項分析檢索課題的主題,選擇適當?shù)臋z索關(guān)鍵詞對檢索項進行邏輯組配,構(gòu)造檢索表達式

30(二)選定適合的檢索工具

掌握網(wǎng)上檢索工具的類型與特點

熟悉要使用的檢索工具

注意收集具體的檢索網(wǎng)址

31(三)正確對待檢索結(jié)果

可以只閱讀搜尋結(jié)果的前幾條信息

縮小搜索的范圍

找不到網(wǎng)頁的對策

32(四)提高上網(wǎng)速度,選擇最佳上網(wǎng)時間

建立書簽體系,使用緩存,設(shè)置瀏覽器起始位置,選擇距離最近的網(wǎng)站,避免裝載圖像選擇合適的數(shù)據(jù)庫試查。

錯開熱點訪問時間,選擇流量較低時段訪問網(wǎng)絡(luò)。33二、網(wǎng)絡(luò)信息檢索的技巧

擴大檢索范圍

縮小檢索范圍

Ctrl+F

給檢索結(jié)果做標簽

右切斷URL

猜測站點的URL

34第五節(jié)

專業(yè)性信息的網(wǎng)絡(luò)檢索本節(jié)的主要的內(nèi)容為:國外專業(yè)性信息的網(wǎng)絡(luò)檢索

國內(nèi)專業(yè)性信息的網(wǎng)絡(luò)檢索網(wǎng)絡(luò)信息檢索的發(fā)展趨勢

35一、國外專業(yè)性信息的網(wǎng)絡(luò)檢索

(一)博士、碩士論文數(shù)據(jù)庫

PQDD(ProQuestDigitalDissertations)是美國ProQuest公司出版的博碩士論文數(shù)據(jù)庫,網(wǎng)址為:http://wwwlib.umi.com/dissertation。PQDD是目前世界上規(guī)模最大,使用最廣泛的學(xué)位論文數(shù)據(jù)庫。它收錄了歐美1?000余所學(xué)校的150多萬篇學(xué)位論文,涉及理、工、農(nóng)、醫(yī)、人文以及社會科學(xué)等領(lǐng)域。其收錄年代從1961年至今。

36PQDD學(xué)位論文數(shù)據(jù)庫檢索基本檢索高級檢索檢索式的構(gòu)造檢索結(jié)果的標記、顯示與下載37(二)數(shù)學(xué)評論(http://www.ams.org/mathscinet)

美國《數(shù)學(xué)評論》(MathematicalReviews,MR)是由美國數(shù)學(xué)協(xié)會(AmericanMathe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論