文獻(xiàn)檢索與利用2_第1頁
文獻(xiàn)檢索與利用2_第2頁
文獻(xiàn)檢索與利用2_第3頁
文獻(xiàn)檢索與利用2_第4頁
文獻(xiàn)檢索與利用2_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

信息存儲(chǔ)與檢索劉佳其次章網(wǎng)絡(luò)信息檢索的方法與技術(shù)第一節(jié)網(wǎng)絡(luò)信息檢索的基本方法信息檢索方法的分類1.干脆法不利用檢索系統(tǒng)(工具),干脆通過原文或文獻(xiàn)指引來獲得相關(guān)信息的方法。閱讀法:干脆通過閱讀、查閱文獻(xiàn)原文來獲得所需信息的方法。追溯法:利用已知文獻(xiàn)的某種指引來獲得所需信息的方法。2.工具法是最常用的方法,利用各種檢索系統(tǒng)(工具)來檢索信息。順查法:依據(jù)時(shí)間依次由遠(yuǎn)及近地查找信息的方法。倒查法:依據(jù)時(shí)間依次由近及遠(yuǎn)地逐年查找所需信息。抽查法:依據(jù)檢索需求的特點(diǎn)和學(xué)科發(fā)展的實(shí)際狀況,抽取這一段時(shí)間的文獻(xiàn)進(jìn)行檢索。3.綜合法綜合利用上述各種方法來查找信息的方法。第一節(jié)網(wǎng)絡(luò)信息檢索的基本方法

布爾邏輯檢索(booleanlogicsearching)布爾邏輯檢索是多個(gè)檢索項(xiàng)(可以是單詞、詞組或檢索式)之間通過運(yùn)用布爾邏輯算符來精確的表達(dá)檢索提問的檢索技術(shù)。(1)邏輯“與”—AND或*同時(shí)含有兩個(gè)檢索詞才能被命中用于交叉概念或限定關(guān)系概念之間的組配,可以縮小檢索范圍,提高檢準(zhǔn)率。(2)邏輯“或”—OR或+,或|表示只要含有其中一個(gè)檢索詞或同時(shí)含有這兩個(gè)檢索詞的文獻(xiàn)都將被命中。用于并列關(guān)系的概念組配,相當(dāng)于增加了檢索詞主題的同義詞或近義詞,有助于擴(kuò)大檢索范圍,提高查全率。(3)邏輯“非”–NOT或-表示被檢索文獻(xiàn)在含有檢索詞A而不含有檢索詞B時(shí)才能被命中。用于排斥與選擇關(guān)系的組配,能夠縮小命中文獻(xiàn)的范圍,增加檢索的精確性。例:北京除冬季外汽車和可吸入顆粒物造成的空氣污染狀況”這一主題的檢索。北京*空氣污染*(汽車+可吸入顆粒物)-冬季鄰近檢索(proximitysearch)又稱為位置限制檢索,是用一些特定的算符(位置算符)來表達(dá)檢索詞與檢索詞之間的依次和詞間距的檢索。(1)(W)在此算符兩側(cè)的檢索詞必需按此前后的依次排列,依次不能顛倒,兩個(gè)檢索詞之間不許有其他的詞或字母,但允許有空格或標(biāo)點(diǎn)符號(hào)。例:information(W)retrievalInformationretrieval,information-retrieval(2)(nW)在此算符兩側(cè)的檢索詞之間最多不超過n個(gè)(最大數(shù)量)實(shí)詞或虛詞(非用詞),兩個(gè)檢索詞的詞序不許顛倒。例1:electronic(1W)resourceselectronicresources,electronicinformationresourses例2:JilinMedical

University,Jilin

Agricultural

University,JilinTechnology

UniversityJilin(1W)University(3)(N)在此算符兩側(cè)的檢索詞必需緊密相連,但詞序可顛倒。例:information(N)retrievalinformationretrieval,retrievalinformation(4)(nN)表示兩個(gè)詞位置可以顛倒,兩個(gè)詞間插入詞的最多數(shù)目是n個(gè)。

例:informationretrieval,retrievalinformationretrievalofinformation,retrievaloflawinformation,retrievalofChineselawinformationinformation(3N)retrieval(5)(F)表示在此運(yùn)算符兩側(cè)的檢索詞必需同時(shí)出現(xiàn)在文獻(xiàn)記錄的同一字段內(nèi)。兩個(gè)詞的前后依次不限,夾在兩個(gè)詞之間的詞的個(gè)數(shù)也不限。(6)(S)表示在此運(yùn)算符兩側(cè)的檢索詞只要出現(xiàn)在文獻(xiàn)記錄的同一子字段或同一段內(nèi),此文獻(xiàn)即被命中,兩個(gè)詞詞序不限,兩個(gè)詞中間可間隔若干個(gè)詞。(7)NOTNOT與鄰接運(yùn)算符組合運(yùn)用,而產(chǎn)生相反的含義。NOTW表示其后的詞不能緊跟其前的詞NOTN表示兩個(gè)詞不能相鄰NOTS表示其后的詞不應(yīng)出現(xiàn)在同一子字段中NOTF表示兩個(gè)詞不應(yīng)出現(xiàn)在同一字段中短語檢索(phrasesearch)用“”表示,檢索出與“”內(nèi)形式完全相同的短語,以提高檢索的精度和精確度,也稱為“精確檢索”(exactsearch)。GeorgeW.WashingtonGeorgeW.BushspokeatWashingtonD.C.abouthumanrights“GeorgeW.Washington”截詞檢索(truncation/wildcats)用截詞符號(hào)加在檢索詞的前后或中間,以檢索一組概念相關(guān)或同一詞根的詞,即在檢索標(biāo)識(shí)中保留相同的部分,用相應(yīng)的截詞符代替可變更部分??梢詳U(kuò)大檢索范圍,提高查全率,主要用于西文數(shù)據(jù)庫檢索,中文數(shù)據(jù)庫通常不運(yùn)用。?代表0至1個(gè)字符*代表0至多個(gè)字符(1)前截詞(詞首截詞)截詞符在檢索詞的開頭。例:*ologybiology,geology,physiology,sociology(2)中間截詞wom?n(3)后截詞(詞尾截詞)①詞尾的有限截詞?!??”幾個(gè)問號(hào)連在一起時(shí),問號(hào)的個(gè)數(shù)代表可變更的字符數(shù)的上限。②詞尾的無限截詞。“*”允許有0至隨意個(gè)字符的變更。例:cat*cat,cats,catalog,catalogue,categoryeconom*economy,economic,economics,economical,economist,economize等字段限制檢索(fieldlimiting)

在信息檢索過程中,為提高查全率或查準(zhǔn)率,檢索范圍限制在特定的字段中,即字段限制檢索?;舅饕侄危╞asicindexfields)

一篇記錄中主要用來表達(dá)文獻(xiàn)內(nèi)容特征的字段。如篇名、文摘、主題詞、關(guān)鍵詞基本索引字段的限定由“/”與一個(gè)基本索引字段代碼組成,又稱后綴限定。

字段名字段代碼中譯名AbstractAB文摘DescriptorDE敘詞(主題詞)KeywordKW關(guān)鍵詞TitleTI題名常用基本索引字段及代碼表例:地震/TI幫助索引字段(additionalindexfields)表達(dá)文獻(xiàn)外部特征的字段。如著者、機(jī)構(gòu)名稱、語種、刊名、來源、出版年。幫助檢索字段由幫助字段代碼和“=”組成,一般將幫助索引字段代碼置于檢索詞前,稱為前綴。字段名字段代碼中譯名AuthorAffiliationAA著者單位Author,InventorAU著者,發(fā)明者ConferenceTitleCT會(huì)議名稱JournalNameJN刊名PublisherPU出版者PublicationYearPY出版年常用幫助索引字段及其代碼表例:PY=2000例1:檢索“吉林高?!毙彰恰巴趿Α钡淖髡叩奈墨I(xiàn)。AU=王力AND(AA=吉林高校)例2:檢索“2010年”出版的關(guān)于“人壽保險(xiǎn)”的資料。人壽(N)保險(xiǎn)ANDPY=2010例3:檢索主題內(nèi)容是情報(bào)的2000年的文獻(xiàn)。情報(bào)/DEANDPY=2000文獻(xiàn)書目型數(shù)據(jù)庫記錄的字段:存取號(hào)、篇(題)名、文摘、敘詞、自由詞、著者、著者機(jī)構(gòu)、刊名、出版年、語種、分類號(hào)網(wǎng)絡(luò)檢索工具的字段:標(biāo)題(title)、圖像(image)、文本(text)、主機(jī)名(host)、域名(domain)、鏈接(link)、統(tǒng)一資源地址(URL)、新聞組(newsgroup)、電子郵件(E-mail)Title(ti):JilinUniversityurl:govLink:admissionANDsite:Py>=2010La=englishAU=WangliAND(AA=JilinUniv.)Title:JilinUniversityurl:gov括號(hào)檢索(parentheses)用于變更運(yùn)算的先后次序,括號(hào)內(nèi)的運(yùn)算優(yōu)先進(jìn)行。自然語言檢索(naturallanguagesearch)干脆接受自然語言中的字、詞、句進(jìn)行提問式檢索,又稱為“智能檢索”(intelligentsearch)。多語種檢索(multilingualsearch)供應(yīng)多種語言的檢索環(huán)境供用戶選擇,系統(tǒng)按用戶選定的語種進(jìn)行檢索并反饋結(jié)果。模糊檢索(fuzzysearch)又稱概念檢索,是指運(yùn)用某一檢索詞進(jìn)行檢索時(shí),能同時(shí)對(duì)該詞的同義詞、近義詞、上位詞、下位詞進(jìn)行檢索,以達(dá)到擴(kuò)大檢索范圍、避開漏檢索的目的。區(qū)分大小寫的檢索(casesensitive)china--china,China,CHINAChina--China加權(quán)檢索(termweighting)音形一樣檢索(phoneticsearch)詞根檢索(stemming)思索題查找2010年發(fā)表的題名中含有信息檢索系統(tǒng)評(píng)價(jià)的英文論文其次節(jié)信息檢索的主要技術(shù)一.全文檢索技術(shù)全文檢索必需具有一個(gè)全文數(shù)據(jù)庫,全文數(shù)據(jù)庫是將一個(gè)完整的信息源的全部內(nèi)容轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別、處理的信息單元而形成的數(shù)據(jù)集合。特點(diǎn):信息量大,基本上是未經(jīng)加工的、詳盡的、客觀的原始信息;信息檢索的靈敏性和適應(yīng)性;檢索語言的自然性;數(shù)據(jù)相對(duì)穩(wěn)定。問題:查準(zhǔn)率低。全文檢索系統(tǒng)在檢索過程中可能對(duì)同一頁面重復(fù)檢索,即同一檢索詞檢出的多條檢索結(jié)果可能是同一個(gè)地址,影響查準(zhǔn)率;只要檢索詞出現(xiàn)在文本中就能被檢出,導(dǎo)致查準(zhǔn)率不高。二.多媒體信息檢索技術(shù)音頻信息檢索語音檢索:以語音為中心的檢索音樂檢索:以音樂為中心的檢索音頻檢索:以波形聲音為對(duì)象

視頻信息檢索基于關(guān)鍵幀檢索基于鏡頭和視頻對(duì)象的時(shí)間特征檢索三.超文本及超媒體檢索技術(shù)即把有關(guān)的信息或資源通過超鏈接聯(lián)系起來,檢索時(shí)可以借助超鏈接實(shí)現(xiàn)相關(guān)信息的閱讀。特點(diǎn):不但留意所要管理的信息,而且更留意信息之間關(guān)系的建立與表示。缺陷:信息以超文本方式鏈接,導(dǎo)致檢索過程含有極大的盲目性和偶然性,簡潔偏離檢索目標(biāo)。四.智能信息檢索技術(shù)智能檢索技術(shù)就是接受人工智能進(jìn)行信息檢索的技術(shù)??梢阅M人腦的思維方式,分析用戶以自然語言表達(dá)的檢索懇求,自動(dòng)形成檢索策略進(jìn)行智能、快速、高效的信息檢索。特點(diǎn):在檢索過程中引入了資源對(duì)象的語義處理。可視化信息檢索技術(shù)是將信息資源、用戶提問、信息檢索模型、檢索過程以及檢索結(jié)果中各種不行見的內(nèi)部語義關(guān)系轉(zhuǎn)換成圖形,顯示在一個(gè)二維、三維或多維的可視化空間中,幫助用戶理解檢索結(jié)果、把握檢索方向,以提高信息檢索的效率與性能。

跨語言檢索技術(shù)允許用戶運(yùn)用其熟悉的某一種語言來構(gòu)造檢索式,以此檢索出另外一種或幾種語言表達(dá)的信息,即跨越語言限制進(jìn)行檢索的技術(shù)。技術(shù)實(shí)現(xiàn)的核心問題:翻譯文本聚類技術(shù)依據(jù)學(xué)問之間的相像性,即它們?cè)趯?duì)應(yīng)的特征空間的親疏遠(yuǎn)近來確定其類別,即是聚類。聚類過程:特征選擇文本表示聚類處理第三節(jié)信息檢索的技巧檢索策略(retrievalstrategy)是為實(shí)現(xiàn)檢索目標(biāo)而制訂的全盤支配或方案,是就一個(gè)問題檢索一個(gè)或多個(gè)數(shù)據(jù)庫所輸入的全部檢索式的集合。信息檢索流程(一)分析信息需求精確了解所要查詢的目的和要求,確定檢索問題的關(guān)鍵詞及涉及的學(xué)科或主題范圍、地域范圍、語種范圍、資源的時(shí)間范圍、須要的信息類型、查詢方式、資源的性質(zhì)等。(二)選擇合適的檢索工具檢索問題對(duì)須要運(yùn)用的檢索工具具有干脆影響,檢索工具的選擇正確與否對(duì)檢索效率起著特殊重要的作用。檢索工具的類型、收錄范圍、檢索問題的類型、檢索問題的具體要求、數(shù)據(jù)庫的檢索功能。數(shù)據(jù)庫的選擇:4CContent(數(shù)據(jù)庫的內(nèi)容)、Coverage(數(shù)據(jù)庫收錄資源的范圍)、Currency(數(shù)據(jù)庫內(nèi)容的新穎 性、更新的頻率)、Cost(數(shù)據(jù)庫的費(fèi)用)(三)確定檢索點(diǎn)與檢索詞檢索點(diǎn)對(duì)應(yīng)數(shù)據(jù)庫中的字段,其基本構(gòu)成單位是檢索詞。檢索詞是用戶或檢索人員檢索時(shí)輸入的字、詞、字符或短語。包括關(guān)鍵詞和各種符號(hào)。關(guān)鍵詞是出現(xiàn)在文獻(xiàn)的標(biāo)題、關(guān)鍵詞、摘要或正文中,對(duì)表達(dá)文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語詞。(四)正確構(gòu)造檢索式檢索式是檢索策略的具體體現(xiàn),是要求檢索系統(tǒng)執(zhí)行的檢索語句。有效的信息檢索要充分利用搜尋工具支持的檢索運(yùn)算、允許運(yùn)用的檢索標(biāo)識(shí)、各種限定。建議運(yùn)用高級(jí)查詢和進(jìn)階檢索。積木型檢索式

例1:(1)informationANDr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論