版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、打開網(wǎng)絡(luò)知識(shí)寶庫(kù)的鑰匙,網(wǎng)絡(luò)信息的檢索和利用,第三章搜索引擎3.1搜索引擎的含義和類型(p36 ) 3.2搜索引擎的工作原理3.3搜索引擎的搜索功能3.4常用搜索引擎及其使用3.4.2中文常用搜索引擎及其使用3.4.3專業(yè)第三章網(wǎng)絡(luò)搜索引擎(search engines) 3.1搜索引擎的含義和類型(p37 )搜索引擎的收集整理網(wǎng)上的信息資源,向用戶提供查詢的系統(tǒng),包括信息收集、信息整理、用戶檢索(查詢)。 搜索引擎是利用網(wǎng)絡(luò)自動(dòng)檢索技術(shù)等對(duì)網(wǎng)絡(luò)信息資源進(jìn)行指標(biāo)、組織和檢索的檢索工具。 類型: 1 )搜索引擎機(jī)制: (1)純技術(shù)型全文搜索引擎,如:google、AltaVista等;(2)分類
2、目錄型搜索引擎,如yahoo等。 2 )不同的搜索引擎操作方式:獨(dú)立搜索引擎多元搜索引擎網(wǎng)絡(luò)搜索軟件,多元搜索引擎與源搜索引擎的主要區(qū)別在于,不像全文搜索引擎那樣具有自己的索引數(shù)據(jù)庫(kù),而是在用戶提交搜索申請(qǐng)時(shí)綜合多個(gè)獨(dú)立搜索引擎由美國(guó)專業(yè)搜索引擎咨詢網(wǎng)站評(píng)估的2003年最優(yōu)多重搜索引擎集成了多個(gè)獨(dú)立的搜索引擎,提供統(tǒng)一的搜索界面,將一個(gè)搜索問(wèn)題同時(shí)發(fā)送到多個(gè)搜索引擎,同時(shí)搜索、聚合和重用多個(gè)數(shù)據(jù)庫(kù)、(1)Dogpile ()、(2)Vivisimo ()、3.2搜索引擎的工作原理:網(wǎng)絡(luò)自動(dòng)索引軟件被稱為Robots、Spiders或Worm等,實(shí)際上它們?cè)趪?guó)內(nèi)通常被解釋為“網(wǎng)絡(luò)機(jī)器人” 由收集
3、器、建筑設(shè)備、索引區(qū)域、備用復(fù)制器構(gòu)成的機(jī)制主要有(3)M ()、1 )。 信息的收集和存儲(chǔ):搜索引擎一般自動(dòng)地收集和存儲(chǔ)網(wǎng)絡(luò)上的信息資源,即使用“網(wǎng)絡(luò)機(jī)器人”自動(dòng)運(yùn)行的軟件,追蹤網(wǎng)絡(luò)上的鏈接,找到網(wǎng)頁(yè),收集它們,將發(fā)現(xiàn)的網(wǎng)頁(yè)信息通過(guò)網(wǎng)絡(luò)信息索引的建立:搜索引擎分析收集到的頁(yè)面信息,從中提取有搜索價(jià)值的信息內(nèi)容頁(yè)面中的關(guān)鍵詞,對(duì)關(guān)鍵詞進(jìn)行數(shù)值修正。 該模塊建立了索引查詢系統(tǒng),是該數(shù)據(jù)庫(kù)系統(tǒng)建立的子系統(tǒng),確定索引布爾邏輯操作、公式匹配、結(jié)構(gòu)化和非結(jié)構(gòu)化文件處理、語(yǔ)言匹配、匹配關(guān)聯(lián)排序等。 建立信息索引是制作文章信息的特征記錄(標(biāo)題、負(fù)責(zé)人、關(guān)鍵詞、期刊名等),使用戶能夠迅速檢索必要的信息。 建立
4、索引時(shí),需要進(jìn)行yahoo (1)信息語(yǔ)切分和語(yǔ)法解析(2)詞性標(biāo)注以及相關(guān)的自然語(yǔ)言處理(3)檢索工具索引(標(biāo)題、負(fù)責(zé)人、主題、刊行名等的索引),3 ) 檢索界面的制作:檢索引擎檢索界面接受用戶提出的詢問(wèn)要求(詢問(wèn)內(nèi)容和邏輯關(guān)系),檢索引擎根據(jù)用戶輸入的關(guān)鍵詞檢索其索引,找到一致的網(wǎng)頁(yè)地址。 搜索接口是將用戶與搜索引擎、相關(guān)網(wǎng)頁(yè)地址連接起來(lái)的中介,需要強(qiáng)烈的易用性。 /谷歌的搜索界面。 搜索結(jié)果的相關(guān)處理:搜索引擎可以按文件的相關(guān)度排序,最相關(guān)的文件通常排在上面,用戶可以快速查詢相關(guān)信息。正如百度搜索網(wǎng)頁(yè)上的“google個(gè)人簡(jiǎn)介”一樣,搜索引擎確定關(guān)聯(lián)性的方法:概率方法根據(jù)關(guān)鍵詞在文章中出
5、現(xiàn)的頻率來(lái)判定文章的關(guān)聯(lián)性。 位置方法根據(jù)關(guān)鍵字出現(xiàn)在句子中的位置判定文檔的相關(guān)性。 關(guān)鍵字越上位,文檔的關(guān)聯(lián)度越高。 摘要方法是搜索引擎為每個(gè)文件自動(dòng)生成摘要,以便用戶可以自己選擇和確定結(jié)果的關(guān)聯(lián)性。分類或聚類方法是指搜索引擎采用分類或聚類技術(shù),并將查詢結(jié)果自動(dòng)分類到不同的類中。 (并用幾種方法):例如,在“yahoo”上點(diǎn)擊“知識(shí)”獲取知識(shí)分類:3.3搜索引擎的搜索功能(p38 )許多搜索引擎提供布爾邏輯搜索、模糊搜索、切片搜索功能(結(jié)合第2章網(wǎng)絡(luò)信息搜索技術(shù)進(jìn)行論述) 邏輯積:假設(shè)a和b是兩個(gè)檢索詞,A*B表示a和b必須同時(shí)存在。 檢索的文獻(xiàn)很少。 利用百度檢索關(guān)于教育心理學(xué)的信息檢索詞
6、:教育心理學(xué)教育心理學(xué)檢索式:教育學(xué)and心理學(xué)檢索式:教育心理學(xué)檢索結(jié)果分別為177,000篇872,000篇,(2)邏輯“or:a或b的任何一個(gè)詞都可以存在,A B是a或b的任何一個(gè)詞“邏輯和”式有助于提高調(diào)查率。搜索的文獻(xiàn)很多。 例如,檢索關(guān)于“教育學(xué)和心理學(xué)”兩方面的論文檢索詞:教育學(xué)心理學(xué); 教育心理學(xué)檢索式:教育學(xué)or心理學(xué)or教育心理學(xué)檢索式:教育學(xué)or心理學(xué)檢索結(jié)果分別為9,520篇43,400篇,(3)邏輯“非”: a必須存在,但b不能存在。 邏輯否定式A-B主要用于排除與檢索意圖無(wú)關(guān)的文獻(xiàn)檢測(cè)文獻(xiàn)的信息量較少。 采用邏輯“and”、邏輯“not”通過(guò)縮小檢索范圍提高專業(yè)性、
7、提高對(duì)照率的邏輯“or”擴(kuò)大檢索范圍、提高全檢查率。 例如,“從教育心理學(xué)中排除關(guān)于心理學(xué)的信息檢索詞:教育心理學(xué)檢索式:教育心理學(xué)not心理學(xué)檢索結(jié)果分別為9,650篇、2 )切片檢索:是為了文獻(xiàn)檢索的效率化而發(fā)展的檢索技術(shù),利用檢索詞的詞干或不完整的詞進(jìn)行檢索。 有后截詞檢索(前方一致)、前截詞檢索(后方一致)、中截詞檢索(前后一致)、前后截詞檢索(中間一致)四個(gè)基本模式。 截距符號(hào)的使用能夠減少檢索詞的輸入量,簡(jiǎn)化檢索步驟,提高檢查效率的同時(shí),還能夠節(jié)約機(jī)器,提高檢索效率。 (1)后切斷例: motor? 什么? (馬達(dá))可以同時(shí)檢索包含motor和motors的文獻(xiàn)。 由此,可以避免檢
8、索詞的單復(fù)變化引起的漏檢。 (2)前截止前截止表示在檢索詞的左側(cè)放置截距符號(hào),在其左側(cè)可以存在多個(gè)字符的變化。 例: 計(jì)算機(jī)可以同時(shí)檢測(cè)包括計(jì)算機(jī)、微型計(jì)算機(jī)(小型校正計(jì)算機(jī))的文獻(xiàn)。 (3)前后同時(shí)在截?cái)鄼z索詞的兩側(cè)放置截面記號(hào),允許詞干兩側(cè)有限個(gè)或無(wú)限個(gè)文字的變化。 例: wave? 關(guān)于wave、waves、小波、微波、波長(zhǎng)等的文獻(xiàn)。 中途截?cái)嗟慕財(cái)嗍窃跈z索詞的中間放置截?cái)喾?hào)。 檢索時(shí),如果截尾符號(hào)兩側(cè)的文字相同,包含該詞的文獻(xiàn)就會(huì)命中。 這種方法可以解決英美的不同拼法和不規(guī)則的單個(gè)復(fù)數(shù)變化。 analy? s相尋找analysis (分析)和analyses (調(diào)查)。 其他還有“位
9、置詞”等方法。 3 )全文檢索(1)全文檢索系統(tǒng)概念全文檢索是通過(guò)利用全文檢索系統(tǒng)來(lái)實(shí)現(xiàn)的。 全文檢索系統(tǒng)由全文數(shù)據(jù)庫(kù)、全文檢索技術(shù)兩部分組成。用戶可以利用自然語(yǔ)言檢索全文檢索系統(tǒng),并且可以直接取得有關(guān)原文的章、節(jié)、段、句等信息。 全文數(shù)據(jù)庫(kù)是指使用全文檢索技術(shù),將文獻(xiàn)信息全文存儲(chǔ)在數(shù)據(jù)庫(kù)中,提供多條檢索路徑,實(shí)現(xiàn)超鏈接原始文獻(xiàn)信息的檢索。 全文檢索是指對(duì)文獻(xiàn)信息的全文內(nèi)容進(jìn)行字符串匹配檢索,包括字符串檢索、切片檢索、同義詞等控制和后控表等技術(shù)。 (3)全文檢索系統(tǒng)的特點(diǎn)(與以往的檢索系統(tǒng)相比):(1)檢索結(jié)果的直接性、原始性、可靠性直接面向最終用戶。 (2)系統(tǒng)的制作效率高:一個(gè)是不需要控制
10、指標(biāo),另一個(gè)是縮短出版時(shí)間(3)檢索的詳細(xì)性,徹底性,3.4常用檢索引擎及其使用(P39.-40.) 3.4.1西文常用檢索引擎及其使用 Yahoo (, Yahoo,3.4 )。 是www上最著名的目錄搜索引擎之一,也是目前最常用的網(wǎng)絡(luò)搜索工具。 1994年4月,美國(guó)斯坦福大學(xué)的電子工程博士研究生David Filo和Jerry yang (楊致遠(yuǎn))開發(fā)。 現(xiàn)在,除了母站(Wother Yahoo ),還有美國(guó)的城市子站(Yahoo Cities,例如芝加哥子站)、國(guó)別子站(例如Yahoo中國(guó))、國(guó)際地區(qū)子站(例如Yahoo Asia )。 無(wú)論是形式上還是內(nèi)容上
11、質(zhì)量都非常高。 1998年5月4日,雅虎! 公司首次正式發(fā)布了在中文網(wǎng)上搜索的網(wǎng)站Yahoo (),成為網(wǎng)上搜索中文信息的重要搜索工具。 搜索功能和方法:雅虎! 提供“分類”和“關(guān)鍵詞”的搜索分類搜索:Yahoo是目錄式的綜合搜索引擎,將收錄的內(nèi)容分為29種: 360(360度)健康和醫(yī)藥Music (音樂) Travel (旅行) Answers (回答) 金融; 本地新聞,房地產(chǎn),y! 國(guó)際體育運(yùn)動(dòng)Games地圖購(gòu)物消息發(fā)件人體育班成年男子健康健康健康健康健康健康健康健康健康關(guān)于“婦女更年期”的信息檢索課題:婦女更年期(woman ),如體重減少膽固醇、緊張、消化系統(tǒng)健康等(更多的話題)
12、更年期婦女更年期婦女更年期更年期更年期更年期. 搜索結(jié)果: 13條相關(guān)信息中國(guó)的“可用”和“與”、“進(jìn)行邏輯”和“運(yùn)算,OR“進(jìn)行邏輯”或“運(yùn)算,NOT”、“NOT”邏輯的搜索語(yǔ)法:標(biāo)識(shí)符語(yǔ)法語(yǔ)義說(shuō)明“ ” 短語(yǔ)完全匹配查詢包含與關(guān)鍵字列完全匹配的網(wǎng)站, 空格“and”或“and”的前后兩個(gè)詞是“and”的邏輯關(guān)系“not”的前后兩個(gè)詞是“not”的邏輯關(guān)系t: Title的檢索課題: woman climacteric檢索結(jié)果:全文:點(diǎn)擊、2 )搜索規(guī)則:如果可以執(zhí)行嚴(yán)格匹配的查詢,則可以使用“”,但是默認(rèn)情況下,AltaVista在不使用“”的情況下也會(huì)以嚴(yán)格匹配的方式執(zhí)行查詢。雖然不支持
13、自動(dòng)連字查詢,但是可以使用通配符“*” 區(qū)分大小寫。 在執(zhí)行大寫查詢時(shí),默認(rèn)值是完全匹配的。 也就是說(shuō),如果查詢結(jié)果不包含小寫關(guān)鍵字,則搜索時(shí)會(huì)同時(shí)搜索大小寫。 搜索課題: woman climacteric :點(diǎn)擊: Menopause Relief,點(diǎn)擊:“All Products”按鈕:“5 -”2000年被西班牙的因特網(wǎng)集團(tuán)收購(gòu),網(wǎng)站的評(píng)論和圖像, Lycos還提供了包含許多內(nèi)容的主題搜索,允許用戶限制要搜索的對(duì)象。 所謂的“對(duì)內(nèi)容敏感的檢索”。 2 )檢索功能和方法: (1)關(guān)鍵詞檢索: (2)分類檢索:檢索功能:詞組檢索,用“”括住檢索詞。 可以使用問(wèn)題搜索、自然語(yǔ)言搜索進(jìn)行任意或正確的搜索??梢允褂猛ㄅ浞啊焙途涮?hào)“.”替換和限制單詞字符。默認(rèn)情況下,在布爾邏輯and關(guān)系中進(jìn)行搜索(如果在正常搜索時(shí)沒有特別限制)。 支持“”和“-”號(hào)碼。 檢索課題: woman climacteric檢索: 20295件women climacteric檢索: 35426件“women climacteric”檢索: 1593件、3.4.4標(biāo)準(zhǔn)剛大學(xué)畢業(yè)的6名學(xué)生決定開發(fā)能夠管理互聯(lián)網(wǎng)上信息資源的軟件,經(jīng)過(guò)3年的努力,他們開發(fā)了將超文本檢索技術(shù)和自動(dòng)提取文摘技術(shù)一體化的Architext軟件。 1995年10月Excite成立,開始在互聯(lián)網(wǎng)上提供
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年湖北輕工職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試真題匯編
- 2024年四平農(nóng)村成人高等??茖W(xué)校馬克思主義基本原理概論期末考試真題匯編
- 2025年吉林職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試真題匯編
- 2025年(新)保安員技能考核題含答案解析
- 滅火器檢測(cè)維修合同
- 應(yīng)急管理廳安全生產(chǎn)培訓(xùn)課件
- 家族企業(yè)知識(shí)產(chǎn)權(quán)許可合同協(xié)議
- 獨(dú)立董事2026年職責(zé)條款
- 企業(yè)員工培訓(xùn)與素質(zhì)發(fā)展目標(biāo)路徑制度
- 應(yīng)急安全培訓(xùn)文案課件
- DL-T 5117-2021水下不分散混凝土試驗(yàn)規(guī)程-PDF解密
- 審計(jì)署研究型審計(jì)案例
- 名著《紅樓夢(mèng)》知識(shí)考試題及答案
- 大氣道狹窄護(hù)理課件
- 水電廠電氣自動(dòng)化監(jiān)控系統(tǒng)功能分析
- DB11T 381-2023 既有居住建筑節(jié)能改造技術(shù)規(guī)程
- 計(jì)算機(jī)應(yīng)用數(shù)學(xué)基礎(chǔ) 教學(xué) 作者 王學(xué)軍 計(jì)算機(jī)應(yīng)用數(shù)學(xué)課件 第10章 圖論
- DF6205電能量采集裝置用戶手冊(cè)-2
- 電子電路基礎(chǔ)-電子科技大學(xué)中國(guó)大學(xué)mooc課后章節(jié)答案期末考試題庫(kù)2023年
- 四年級(jí)科學(xué)上冊(cè)期末試卷及答案-蘇教版
- 懷仁縣肉牛養(yǎng)殖產(chǎn)業(yè)化項(xiàng)目可行性研究報(bào)告
評(píng)論
0/150
提交評(píng)論