版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第2,1,4章網(wǎng)絡信息搜索,4.1網(wǎng)絡信息搜索的含義4.2搜索引擎4.3 Google 4.4 altavista,www . ZG-www . SKF-www . SKF-www . NSK-www . fag-。用戶可以在一個終端查詢上傳到各地網(wǎng)絡的信息資源。這種類型的網(wǎng)絡搜索系統(tǒng)是作為基于internet的分布式功能開發(fā)和應用的。這意味著數(shù)據(jù)可以分散存儲,大量數(shù)據(jù)可以分布在不同的服務器上。用戶分布式搜索,允許最終用戶訪問存儲的數(shù)據(jù);數(shù)據(jù)分布式處理,任何數(shù)據(jù)都可以在線上的任何位置處理。2,3,4.2搜索引擎,4.2.1搜索引擎工作原理4.2.2搜索引擎配置4.2.3搜索引擎分類4.2.4搜
2、索引擎信息搜索模型4.2.5搜索引擎搜索技術4.2.6在線著名搜索引擎,www . ZG-www . SKF-www . NSK1.使用可在互聯(lián)網(wǎng)上捕獲網(wǎng)頁的Spider系統(tǒng)程序自動訪問互聯(lián)網(wǎng),沿著某個網(wǎng)頁的所有URL上傳到另一個網(wǎng)頁,重復此過程,然后重新收集上傳的所有網(wǎng)頁。2.構建索引數(shù)據(jù)庫分析索引系統(tǒng)程序收集的網(wǎng)頁,提取相關網(wǎng)頁信息(網(wǎng)頁所在的URL、編碼類型、頁面內(nèi)容中包含的關鍵字、關鍵字位置、創(chuàng)建時間、大小、與其他網(wǎng)頁的鏈接關系等),根據(jù)一定的關聯(lián)算法進行大量復雜計算,確定每個網(wǎng)頁與頁面內(nèi)容和超鏈接中每個關鍵字的關聯(lián)(或重要性),然后使用這些相關信息對網(wǎng)頁進行索引3.在索引數(shù)據(jù)庫中,搜
3、索排序用戶輸入關鍵字搜索時,搜索系統(tǒng)程序會在web索引數(shù)據(jù)庫中查找與該關鍵字匹配的所有相關網(wǎng)頁。已計算所有相關網(wǎng)頁與該關鍵字的相關性,因此立即可用的相關度也按值排序,相關度越高,排名越高。2,5,4.2.2搜索引擎包含4個部分:搜索、索引器、瀏覽器和用戶界面。1.瀏覽器的功能包括internet漫游、web信息捕獲、捕獲的web內(nèi)容搜索和自動索引,以及索引數(shù)據(jù)庫構建。2.索引器的功能是了解搜索者搜索的信息,在這里表示文檔,提取用于生成文檔庫中的索引表的索引項。3.瀏覽器的功能是根據(jù)用戶的查詢在索引庫中快速搜索文檔、評估相關程度、對要輸出的結果進行排序,并根據(jù)用戶的查詢要求合理地反饋信息。4.用
4、戶界面根據(jù)用戶查詢標準搜索索引數(shù)據(jù)庫,排序和收集搜索結果(如并集、交集運算),提取有關網(wǎng)頁的簡單摘要信息,向查詢用戶提供反饋,同時提供個性化查詢條目。2,6,4.2.3搜索引擎分類,1 .全文搜索引擎全文搜索引擎是名副其實的搜索引擎,國外代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)有名的是Baidu。它們都是真正的搜索引擎,因為在通過從internet提取的個別網(wǎng)站上的信息(基于web文本)構建的數(shù)據(jù)庫中搜索與用戶查找標準匹配的相關記錄,然后按照一定的排序順序將結果返回給用戶。2.目錄查找目錄查找有搜索功能,但嚴格
5、地說,它不是真正的搜索引擎,而是目錄特定的網(wǎng)站鏈接列表。用戶無需查詢關鍵字(Keywords),只需分類目錄即可查找所需信息。目錄查找中最具代表性的是著名的雅虎雅虎。其他有名的是Open Directory Project(DMOZ)、LookSmart和About。國內(nèi)Sohu,Sina,網(wǎng)絡搜索也屬于這一類別。3.META Search Engine元搜索引擎在接受用戶查詢請求的同時,同時在多個其他引擎中執(zhí)行搜索并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、vivivi等(元搜索引擎列表),在中國元搜索引擎中有代表性的搜索引擎。在搜索結果排序中,您可以直接按來源
6、引擎(如Dogpile)對搜索結果排序,也可以根據(jù)自定義規(guī)則(如Vivisimo)對結果重新排序。2,7,4.2.4搜索引擎的信息搜索模型,1 .經(jīng)典模型經(jīng)典模型基于文檔的關鍵字進行搜索。經(jīng)典模型用一組關鍵字(索引單詞)替換文檔。索引詞源自文檔,是文檔中詞匯的摘錄。索引單詞集合可以表示文檔的主題。索引術語通常用于索引和匯總文檔的內(nèi)容。經(jīng)典模型可分為布爾模型、向量空間模型和概率模型三種。代數(shù)模型代數(shù)模型也有廣義向量空間模型和神經(jīng)網(wǎng)絡模型兩種。3.其他模型其他典型模型包括貝葉斯模型、推理網(wǎng)絡模型、信任網(wǎng)絡模型等。2,8,4.2.5搜索引擎搜索技術和常規(guī)搜索引擎操作需要在多個關鍵字之間添加“”,其他
7、搜索則不需要。Google不需要將邏輯“and”操作顯示為純文本“”,只需在搜索關鍵字之間用空格分隔即可。如果想知道汽車的歷史,在谷歌上輸入“汽車歷史”,就會得到搜索結果。2,9,4.2.5搜索引擎搜索技術,要排除部分“非”任務碰撞項目,可以使用“A -B”格式表示“非”任務。搜索“中國史”,會看到很多與歷史和文化相關的結果?,F(xiàn)在,如果想一次去掉文化內(nèi)容,可以輸入“中國史-文化”。必須在“-”前加上空格。2,10,4.2.5搜索引擎搜索技術、“工作邏輯”或“工作可采用“A OR B”格式。例如,如果你想知道搜索引擎的發(fā)展歷史,特別是包含網(wǎng)絡蜘蛛的部分,可以使用以下方法。2,11,4.2.5搜索
8、引擎搜索技術,合理使用通配符可大大縮小搜索范圍。許多搜索引擎使用“*”而不是一個字符串“?”支持通配符,如,替換單個字符等。但是,Google對通配符的支持有限,現(xiàn)在可以使用“*”代替字符串,必須包含“*”(其中符號為英語)。例如,如果將“*”搜索為“house”,則球體將以“house”開頭,以“house”結尾,中間的“*”可以是任何文字或字符串。2,12,4.2.5搜索引擎搜索技術,空格處理搜索時還要注意,普通英語不區(qū)分大小寫。還使用短語作為搜索關鍵字。如果中間有空格,則需要“”。否則,空格將用作“and”運算符。例如,要查找英語的第二次世界大戰(zhàn)資料,必須輸入“世界大戰(zhàn)II”。2,13,
9、4.2.5搜索引擎搜索技術,“sITe”表示搜索結果僅限于特定網(wǎng)站或網(wǎng)站頻道。例如,如果需要在著名的it門戶ZDNET和CNET中搜索有關搜索引擎技術的信息,您可以輸入“search engine site”(搜索引擎站點)“site : or site :”。2,14,4.2.5搜索引擎搜索技術,“filetype:”可以使用“filetype:”搜索某些二進制文檔以及純文本頁面。例如,要查找有關搜索引擎技術的一些PDF文檔,請使用“search engine”tips or tutorial filetype : PDF”。2,15,4.2.5搜索引擎搜索技術,使用“l(fā)ink”語法搜索鏈接
10、到URL地址的所有網(wǎng)頁。此功能主要用于引用URL。例如,要搜索包含指向個主頁的地址的所有頁面,請輸入“l(fā)ink:”。2,16,4.2.6網(wǎng)上有名的搜索引擎,常用的國外搜索引擎alta vista:lycos:exite;Magellan : infoscaeek : Yahoo! whats tnew : amazing eniro nment organization web 3360 Cui w3 catalog 33603http:/Cui www . unige . ch einet galaxy : 100 hot website 3http:/Cui www . unige . c
11、h einet galaxy : 國內(nèi)通用搜索引擎百度:長:雅虎中文:北極星搜索引擎:火星好導航:人民網(wǎng)絡搜索引擎: ruobo中文搜索引擎: sinan YIPPEE:天空網(wǎng)絡英語搜索引擎333636363636363636360000/GB index . htm網(wǎng)絡搜索引擎指南CBI業(yè)務網(wǎng)絡站點集: ChinaNet國內(nèi)導航: Chilna海外站點導航:2,19,4.3 Google,照片搜索(1)照片搜索輸入:單擊主頁左上角的“圖片”搜索Google照片,www . ZG- ,2,21,4.3 Google,(3)高級搜索:要查找用作桌面(寬屏顯示)的大圖片并需要JPG格式的圖片,請單
12、擊搜索欄旁邊的“高級”按鈕,進行高級圖像搜索,2,22,4.3 Google,Google map Google map位于道路上,2,23,4.3 Google,(1)位置查詢:使用Google地圖,您可以進入世界上任何一個城市地區(qū),查找相關的地理信息。例如,要找到武漢軟件工程職業(yè)學院所在的地方,只需在地圖搜索欄中輸入“武漢軟件工程職業(yè)學院”。2,24,4.3 Google,(2)縮放貼圖:如果您認為道路不詳細,可以通過拖動左上角的滑塊或直接波動鼠標滾輪來放大或縮小地圖,從而顯示更多詳細的交通信息。2,25,4.3谷歌,(3)衛(wèi)星地圖:點擊右上角的“衛(wèi)星”按鈕還可以看到該地區(qū)的衛(wèi)星照片,盡管是民用衛(wèi)星照片,但清晰度仍然很高。2,26,4.3 Google,Google信息如果您想了解最新信息,可以轉至當前包含最新信息的“Google信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年三明醫(yī)學科技職業(yè)學院馬克思主義基本原理概論期末考試模擬題附答案
- 2025山西省公務員考試《公共基礎知識》題庫及答案一套
- 露天礦物開采輔助工安全文化競賽考核試卷含答案
- 履帶運輸車司機崗前實操熟練考核試卷含答案
- 拉床工崗前班組建設考核試卷含答案
- 浸漬干燥工變革管理知識考核試卷含答案
- 縮放排工安全培訓強化考核試卷含答案
- 2025年樂山市稅務系統(tǒng)遴選筆試真題匯編附答案
- 2024年潮州市特崗教師筆試真題題庫附答案
- 2024年鶴壁市直屬機關遴選公務員考試真題匯編附答案
- 2026年及未來5年市場數(shù)據(jù)中國金剛石工具行業(yè)投資分析及發(fā)展戰(zhàn)略咨詢報告
- 2025-2026學年總務主任年度述職報告
- 2026屆北京東城55中高一數(shù)學第一學期期末質(zhì)量檢測試題含解析
- 2026年遼寧醫(yī)藥職業(yè)學院單招職業(yè)技能考試參考題庫附答案詳解
- 2026年湖南大眾傳媒職業(yè)技術學院單招綜合素質(zhì)考試備考試題附答案詳解
- 醫(yī)療AI輔助治療決策支持
- 穴位貼敷的運用課件
- 2026《初中英語?優(yōu)翼學練優(yōu)》八上早讀本
- 鋼拱架加工技術規(guī)范
- 移動式腳手架培訓課件
- 2025年快遞行業(yè)快遞行業(yè)發(fā)展現(xiàn)狀分析報告
評論
0/150
提交評論