信息海洋中的搜索引擎技術(shù)_第1頁(yè)
信息海洋中的搜索引擎技術(shù)_第2頁(yè)
信息海洋中的搜索引擎技術(shù)_第3頁(yè)
全文預(yù)覽已結(jié)束

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息海洋中的搜索引擎技術(shù)

1提取搜索關(guān)鍵詞1.1查詢意圖內(nèi)容的識(shí)別難表達(dá)搜索根據(jù)用戶提出的搜索詞在自己的數(shù)據(jù)庫(kù)中搜索,并將搜索結(jié)果返回給用戶。要獲得希望的結(jié)果,查詢?cè)~就必須準(zhǔn)確地表達(dá)查詢意圖。一個(gè)不能準(zhǔn)確表達(dá)查詢意圖的查詢?cè)~只能得到另類結(jié)果。例如,要查找以道德治理國(guó)家的論述,查詢?cè)~可以概括為“以德治國(guó)”,但如果把查詢?cè)~換成“以德制國(guó)”,搜索結(jié)果就大不相同。另外當(dāng)查詢?cè)~中包含錯(cuò)別字時(shí),也難以得到預(yù)期的結(jié)果。如要查找肇慶學(xué)院的有關(guān)資料,正確的是用“肇慶學(xué)院”作為查詢?cè)~,如果打錯(cuò)字,變成“趙慶學(xué)院”,就不能獲得正確的結(jié)果。1.2查詢?cè)~的效果查詢?cè)~要緊扣主題,去除無(wú)關(guān)內(nèi)容,以排除干擾。例如,某高中三年級(jí)學(xué)生想查找一些關(guān)于人生的名人名言,如果使用“高中三年級(jí)關(guān)于人生的名人名言”這樣的查詢?cè)~去搜索,是繁雜的且效果不好。因?yàn)閷?duì)人生的認(rèn)識(shí)是一個(gè)普適的概念,并不特別針對(duì)哪一個(gè)時(shí)段,查詢?cè)~里出現(xiàn)“高中三年級(jí)”這個(gè)限定詞會(huì)使搜索引擎丟掉大量的有用信息。另外“關(guān)于”、“的”、“名人”也是多余的,應(yīng)當(dāng)在查詢?cè)~中去除。因此,上述查詢意圖的查詢?cè)~應(yīng)概括為:“人生名言”。1.3用文章的文本進(jìn)行查詢現(xiàn)在的搜素引擎都具有一定的自然語(yǔ)言理解能力,查詢?cè)~可以是一句話甚至是一段文字,當(dāng)我們要查詢特定的內(nèi)容時(shí),用文章的標(biāo)題或文章中的一句話作為查詢?cè)~,往往可以直接得到結(jié)果。例如,可以用“中華人民共和國(guó)刑法”找到相應(yīng)的文件;用“鴉片戰(zhàn)爭(zhēng)前中國(guó)的經(jīng)濟(jì)狀況”找到自己感興趣的內(nèi)容;用“一江春水向東流”找到詩(shī)詞的原文及相關(guān)資料。2邏輯運(yùn)算符的應(yīng)用2.1查詢和查詢其他網(wǎng)點(diǎn)的文字邏輯“與”運(yùn)算用于查詢同時(shí)包括兩個(gè)以上關(guān)鍵詞的情形,可以限制搜索結(jié)果,提高查準(zhǔn)率。邏輯“與”運(yùn)算符為“AND”,某些網(wǎng)點(diǎn)也使用十”、“&”或空格(注意,這里及以后凡是用于構(gòu)造查詢?cè)~的輔助符號(hào),均需用英文表示)。例如,要查詢同時(shí)包含“北京大學(xué)”和“清華大學(xué)”的網(wǎng)頁(yè),使用的查詢語(yǔ)句可以是:“北京大學(xué)and清華大學(xué)”;或者“北京大學(xué)+清華大學(xué)”;或者“北京大學(xué)&清華大學(xué)”;或者“北京大學(xué)清華大學(xué)”。2.2提高查全率的情形邏輯“或”運(yùn)算(有些搜索引擎不支持此運(yùn)算)用于查詢包括多個(gè)關(guān)鍵詞之一的情形,可以提高查全率。邏輯“或”運(yùn)算符為“OR”。例如,人名、地名可能有多種叫法,這時(shí)可以用“或”運(yùn)算將各種稱謂同時(shí)列出,網(wǎng)頁(yè)中只要包含一種,就是所要搜素的對(duì)象,可以使查詢結(jié)果較為完整。2.3詞匯或婦人的頁(yè)面邏輯“非”運(yùn)算用于從結(jié)果中排除那些包括特定單詞或短語(yǔ)的頁(yè)面。邏輯“非”運(yùn)算符通常用減號(hào)“-”表示。例如,要查找包含孟子,但不包括孔子的頁(yè)面,查詢?cè)~為:“孟子–孔子”。3匹配與模糊研究3.1信息輸入的風(fēng)險(xiǎn)使用雙引號(hào)將查詢?cè)~括起來(lái),可以告知搜索引擎將包含在雙引號(hào)內(nèi)部的關(guān)鍵詞組合作為一個(gè)整體字母串進(jìn)行精確匹配,在其數(shù)據(jù)庫(kù)中進(jìn)行搜索,這樣會(huì)大幅度縮小搜索返回的結(jié)果。例如,當(dāng)輸入的查詢?cè)~為:“”楊開慧””時(shí),只有包含有“楊開慧”的網(wǎng)頁(yè)中才被命中,而類似“楊開惠”或”楊開”等則不會(huì)命中,減少了雜亂信息的出現(xiàn)。又例如,要查詢關(guān)于第一次世界大戰(zhàn)的英文資料,直接在輸入的查詢?cè)~;“worldwar1”,則搜索引擎會(huì)將英文單詞之間的空格視作邏輯“與”運(yùn)算來(lái)處理,會(huì)得到很多不相干的結(jié)果,此時(shí)的查詢?cè)~應(yīng)該是:“”worldwar1””。3.2個(gè)字符的搜索通配符包括星號(hào)“*”和問(wèn)號(hào)“?”,可以進(jìn)行模糊查詢,前者表示匹配一組字符,后者表示匹配的一個(gè)字符,主要用在英文搜索中。例如,輸入:“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入:“comp?ter”,則只能找到“computer、compater、competer”等單詞。4限制文檔的類別和來(lái)源4.1限制搜索網(wǎng)站當(dāng)我們要將搜索范圍限定在某類或某個(gè)具體的網(wǎng)站時(shí),在查詢語(yǔ)句里可以用“site:<網(wǎng)站域名>”短語(yǔ)加以說(shuō)明。4.2文件的格式當(dāng)我們要將搜索對(duì)象限定在某特定文檔類別時(shí),在查詢語(yǔ)句里可以用“filetype:<文檔擴(kuò)展名>”短語(yǔ)來(lái)加以說(shuō)明。例如,搜索有關(guān)肇慶學(xué)院學(xué)科建設(shè)的Word文檔,查詢語(yǔ)句為:“肇慶學(xué)院學(xué)科建設(shè)filetype:doc”4.3查詢特征提取每個(gè)網(wǎng)頁(yè)都用一個(gè)標(biāo)題來(lái)表示其主題,因此,通過(guò)查詢網(wǎng)頁(yè)的標(biāo)題,往往可以找到與我們需要的內(nèi)容高度相關(guān)的專題頁(yè)面。基于此,搜素引擎通常都支持用引導(dǎo)詞“intitle:”來(lái)指明在網(wǎng)頁(yè)的標(biāo)題欄中進(jìn)行搜索。例如,要搜索有關(guān)“教育信息化”的論述,在以“教育信息化”為主題的頁(yè)面中搜索,得到的資料往往更專業(yè)、精深,這時(shí),查詢語(yǔ)句應(yīng)表達(dá)為:“intitle:教育信息化”(注意:冒號(hào)與和后面內(nèi)容之間不能留空格;這里將“教育信息化”用雙引號(hào)括起來(lái),表示精確檢索,即頁(yè)面標(biāo)題中必須包含“教育信息化”這個(gè)關(guān)鍵詞)。5垂直開展優(yōu)化,提升行業(yè)整體能力垂直搜索引擎采用了針對(duì)某一專門領(lǐng)域進(jìn)行信息搜索的方式,具有“專、精、深”的行業(yè)特點(diǎn),相比較通用搜索引擎信息的雜亂化,垂直搜索引擎則顯得更加專注、具體和深入。例如,百度和google兩大搜索引擎都支持了網(wǎng)頁(yè)、新聞、地圖、視頻、圖片、MP3、詞典、生活常用信息等類別的垂直搜索,極大的提高了查詢的便利性。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論