中科大文獻(xiàn)檢索課件第3章 信息檢索基本技術(shù)_第1頁(yè)
中科大文獻(xiàn)檢索課件第3章 信息檢索基本技術(shù)_第2頁(yè)
中科大文獻(xiàn)檢索課件第3章 信息檢索基本技術(shù)_第3頁(yè)
中科大文獻(xiàn)檢索課件第3章 信息檢索基本技術(shù)_第4頁(yè)
中科大文獻(xiàn)檢索課件第3章 信息檢索基本技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章信息檢索基本技術(shù)

一、概述

從檢索手段看,信息檢索可分為手工檢索和計(jì)算機(jī)檢索。手工檢索使用的檢索工具主要是印刷型(書本式)的檢索工具;計(jì)算機(jī)檢索則運(yùn)用現(xiàn)代通信技術(shù)、網(wǎng)絡(luò)技術(shù),利用光盤檢索、聯(lián)機(jī)檢索、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、Internet網(wǎng)絡(luò)檢索等多種形式來獲取信息。

檢索手段信息載體存儲(chǔ)方式檢索途徑檢索策略實(shí)現(xiàn)檢索效率手檢紙張印刷型較少人腦低機(jī)檢磁盤光盤等電子型較多計(jì)算機(jī)高

二、計(jì)算機(jī)檢索

一)原理計(jì)算機(jī)將輸入機(jī)檢系統(tǒng)的檢索提問特征標(biāo)識(shí)(檢索詞)或用布爾邏輯運(yùn)算符(and、or、not)聯(lián)結(jié)起來的檢索提問式與已存儲(chǔ)在系統(tǒng)中的文獻(xiàn)特征標(biāo)識(shí)(如:主題詞、分類號(hào)、作者姓名等)進(jìn)行機(jī)械性匹配比較,凡符合給定的比較原則和邏輯運(yùn)算條件者即為命中文獻(xiàn)。二)計(jì)算機(jī)檢索特點(diǎn)

1.內(nèi)容廣泛信息量大;2.速度快,效率高;3.檢索途徑多;4.用戶界面友好,使用方便;5.資源更新快;6.直接輸出檢索結(jié)果。三)計(jì)算機(jī)信息檢索系統(tǒng)分類

按信息訪問模式劃分:

聯(lián)機(jī)檢索系統(tǒng)

光盤檢索系統(tǒng)

網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Internet網(wǎng)絡(luò)檢索

聯(lián)機(jī)檢索

聯(lián)機(jī)檢索(onlineretrieval)是指用戶利用計(jì)算機(jī)終端設(shè)備,通過通訊線路,從信息中心的計(jì)算機(jī)(主機(jī))數(shù)據(jù)庫(kù)中檢索出所需要的信息的過程。它允許用戶以人機(jī)對(duì)話、聯(lián)機(jī)會(huì)話這樣交互的方式(interactive)直接訪問系統(tǒng)及數(shù)據(jù)庫(kù),檢索是實(shí)時(shí)(realtime)、在線(online)進(jìn)行的。用戶的提問一旦傳到主機(jī)被接收后,機(jī)器便立刻執(zhí)行檢索運(yùn)算,很快將檢索結(jié)果傳送到用戶終端,用戶可反復(fù)修改檢索式,最后獲得較滿意的檢索結(jié)果。

聯(lián)機(jī)檢索傳統(tǒng)上采用命令檢索方式(commandsearch),通過一些系統(tǒng)能夠識(shí)別的命令(指令),完成對(duì)檢索式的運(yùn)算,實(shí)施檢索。命令方式能比較恰當(dāng)?shù)姆从硻z索詞之間的概念范圍,表達(dá)檢索各概念間的關(guān)系。檢索靈活、簡(jiǎn)捷、快速、利落,檢索的精度較高。由于聯(lián)機(jī)檢索的機(jī)時(shí)通常被計(jì)入收費(fèi),因此,準(zhǔn)確、快速的檢索十分必要。但在另一方面,它對(duì)檢索技能的要求也相應(yīng)較高,常需要掌握檢索技能、熟悉命令的有經(jīng)驗(yàn)的人員來執(zhí)行,以發(fā)揮命令檢索的優(yōu)勢(shì),避免把過多的經(jīng)濟(jì)負(fù)擔(dān)轉(zhuǎn)嫁給用戶。DIALOG

美國(guó)DIALOG系統(tǒng)是世界上最大的聯(lián)機(jī)檢索系統(tǒng),該系統(tǒng)始建于1963年,原隸屬于美國(guó)洛克希德導(dǎo)彈與宇航公司,于1972年正式向公眾提供聯(lián)機(jī)檢索服務(wù)。

DIALOG系統(tǒng)目前已在全世界100多個(gè)國(guó)家和地區(qū)擁有10余萬(wàn)個(gè)聯(lián)機(jī)終端,數(shù)據(jù)庫(kù)量已從最初的100多個(gè)發(fā)展為今天的450多個(gè),數(shù)據(jù)庫(kù)的內(nèi)容涉及自然科學(xué)、社會(huì)科學(xué)、工程技術(shù)、人文科學(xué)、商業(yè)經(jīng)濟(jì)等各個(gè)領(lǐng)域,是一個(gè)綜合性檢索系統(tǒng),其數(shù)據(jù)庫(kù)數(shù)量之多、范圍之廣、用戶之多均堪稱世界之最。

光盤檢索

光盤(opticaldisc)應(yīng)用計(jì)算機(jī)技術(shù)、激光技術(shù)、多媒體技術(shù)存取數(shù)字信息。光盤檢索通常采用菜單方式(menusearch),根據(jù)菜單提示、指引,通過選擇、確定或鍵入填寫以及一些功能鍵的使用,一步一步地執(zhí)行檢索,修改檢索提問,直至完成全過程。光盤檢索界面友好,允許人機(jī)對(duì)話,不需要專門的學(xué)習(xí)和培訓(xùn),只要認(rèn)真遵循界面的指示做下去,總能達(dá)到檢索目的。

因其操作方式簡(jiǎn)單,使用時(shí)間寬松,因此稱之為easy-to-use檢索。面對(duì)眾多的光盤生產(chǎn)廠商的品種各異的數(shù)據(jù)庫(kù)產(chǎn)品,使用菜單方式就避免了用戶不知所措、寸步難行的困惑,菜單檢索在這方面的優(yōu)勢(shì)是明顯的。但它因此帶來的不足是煩瑣,檢索步驟多,反復(fù)操作,檢索的時(shí)間開銷大,檢索精度一般也不如命令檢索。

網(wǎng)絡(luò)數(shù)據(jù)庫(kù)

國(guó)際互聯(lián)網(wǎng)(Internet)也稱因特網(wǎng),它具有全球性的分布結(jié)構(gòu)、開放性的信息環(huán)境及跨國(guó)界的信息流?;ヂ?lián)網(wǎng)的檢索可同時(shí)使用網(wǎng)上多個(gè)主機(jī),甚至所有主機(jī)的某種資源而并不需要用戶預(yù)先知道它們的具體地址。這就極大擴(kuò)寬了其檢索的空間和信息量,包括各種文獻(xiàn)信息資源及其指向的網(wǎng)絡(luò)頁(yè)面。而傳統(tǒng)的聯(lián)機(jī)檢索、光盤檢索只局限在對(duì)一臺(tái)或幾臺(tái)主機(jī)上的特定數(shù)據(jù)庫(kù)的檢索。但在另一方面,互聯(lián)網(wǎng)信息龐雜,正式與非正式信息及其交流渠道共存,信息缺乏有效的組織管理,因此很難用一般意義上的查全、查準(zhǔn)這些概念來衡量其檢索。

基于Web方式的聯(lián)機(jī)檢索是指Web版本的數(shù)據(jù)庫(kù)檢索,它使用WWW瀏覽器在windows界面下交互作業(yè),給用戶揭示到一篇篇文章的信息,有很強(qiáng)的直觀性,也可以檢索多媒體信息。

Internet

網(wǎng)絡(luò)檢索Internet是國(guó)際互聯(lián)網(wǎng),也稱因特網(wǎng),它是一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)的網(wǎng)絡(luò)。Internet將世界上不計(jì)其數(shù)的計(jì)算機(jī)及計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián)起來,它們共同遵循TCP/IP通訊協(xié)議。Internet是信息高速公路的原形。

INTERNET上主頁(yè)的數(shù)量以10億計(jì),其信息量十分驚人。目前為止,INTERNET提供了數(shù)十種不同的檢索工具,他們各自有各自的(特點(diǎn))數(shù)據(jù)庫(kù)、語(yǔ)言、檢索功能和顯示方式。對(duì)INTERNET的檢索者來說,最重要的就是要熟悉它的性能,并且運(yùn)用有效的檢索策略,只有這樣才不至于淹沒在無關(guān)信息中而無所收獲。三、計(jì)算機(jī)檢索系統(tǒng)中常用算符

命令檢索用于聯(lián)機(jī)檢索系統(tǒng),應(yīng)用于許多Web版數(shù)據(jù)庫(kù)的檢索。檢索式由若干檢索詞組配形成。這些檢索詞的擴(kuò)展、限定的字段,它們之間的邏輯關(guān)系、位置關(guān)系等均可由算符的連接來表示。盡管不同的聯(lián)機(jī)系統(tǒng)有各自定義的算符表示,命令形式不盡相同,但都有許多一致的檢索功能。常用算符

算符(operator)即組配符,它們與檢索詞互聯(lián)組成檢索式,表達(dá)檢索策略。常用的算符有:截詞符、檢索字段符、邏輯算符、位置算符等。

(1)截詞符

截詞符(truncationoperator),也稱統(tǒng)配符(wildcard),用來對(duì)檢索詞(干)進(jìn)行擴(kuò)展。在Dialog系統(tǒng)中用?號(hào)表示。?號(hào)加在不完整的詞或詞干之后,或是插在一個(gè)詞的中間來表示詞后或詞中可添加的隨機(jī)字符。其作用是減少檢索詞的輸入而保證相關(guān)檢索概念的涵蓋,同時(shí)也方便解決語(yǔ)言文字拼寫方面的差異(如美式英語(yǔ)和英式英語(yǔ)),避免漏檢。截詞有:非限定性截詞、限定性截詞和中間截詞等。

非限定性截詞

截詞符(truncationoperator),是在一個(gè)詞尾加一個(gè)?號(hào),表示在其后可添加任意多個(gè)字符,這些字符都被作為檢索詞進(jìn)行檢索。

如:smok?

它將對(duì)若干詞進(jìn)行檢索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。

Chin?

限定性截詞

限定性截詞(limitedtruncation),是在一個(gè)詞尾加有限個(gè)?號(hào),n個(gè)?號(hào)表示其后可添加的字符數(shù)少于等于n個(gè)。

如:smok??

將對(duì)smoke,smoky,smoked,smoker,smokes等進(jìn)行檢索。對(duì)于最多允許添加一個(gè)字符的情況,則用??的形式表示。

如;smok??

將只對(duì)smoke,smoky進(jìn)行檢索。“Mine???

中間截詞

中間截詞(embeddedtruncation),是在一詞中間出現(xiàn)若干個(gè)?號(hào),表示可插入若干個(gè)字符。

如:ioni?ation

它將對(duì)ionisation和ionization進(jìn)行檢索。

如:cent??line

它將對(duì)centerline和centreline進(jìn)行檢索。

Wom?n

(2)檢索字段符

檢索字段符(rangesearching)是對(duì)檢索詞出現(xiàn)的字段范圍進(jìn)行限定,執(zhí)行時(shí),機(jī)器只對(duì)指定的字段進(jìn)行檢索,經(jīng)常應(yīng)用于檢索結(jié)果的調(diào)整。檢索字段符分作兩類;后綴式和前綴式。后綴式對(duì)應(yīng)基本索引(basicindex),反映文獻(xiàn)的主題內(nèi)容;前綴式對(duì)應(yīng)輔助索引(additionalindex),反映文獻(xiàn)的外部特征。

后綴式

后綴式(suffixcode),是將字段代碼放在檢索詞之后,并用/號(hào)連接,如:后綴代碼

/TI表示Title(篇名)

/AB表示Abstract(文摘)

/DE表示Descriptor(敘詞,規(guī)范詞)

/ID表示Identifier(標(biāo)識(shí)詞,專用詞)

如:electron/ti

表示electron一詞須出現(xiàn)在篇名字段,

electron/ti,ab

表示electron一詞須出現(xiàn)在篇名或文摘字段。

ID(identifier)是識(shí)別詞,或稱專用詞,它們?cè)趯I(yè)領(lǐng)域中常用、共識(shí),但并不規(guī)范。

另外,還有一些限定性參數(shù)(limiting)也用后綴方式,

/ENG英語(yǔ)出版物

/NONENG非英語(yǔ)出版物

/MAJ/前面的詞為主敘詞,出現(xiàn)在規(guī)范詞字段,有*號(hào)標(biāo)志

/19981998年的出版物

/1995:19991995至1999的出版物

前綴式

前綴式(prefixcode),往往是用于表達(dá)文獻(xiàn)外部特征的字段,即一些輔助性檢索字段,將前綴代碼放在檢索詞之前,用=號(hào)連接,常見的前綴代碼,見下表。

(3)邏輯算符

邏輯算符(logicaloperator),也稱布爾算符(Booleanoperator),用來表示兩個(gè)檢索詞之間的邏輯關(guān)系,常用的有三種;邏輯與(and)、邏輯或(or)和邏輯非(not)。這里用A和B分別代表兩個(gè)檢索詞,它們的邏輯關(guān)系由下表和圖說明。

如果一個(gè)檢索式中包含若干邏輯關(guān)系,則其執(zhí)行優(yōu)先順序?yàn)?NOT,AND,NOT,最可靠的辦法是將需先執(zhí)行的部分放在括號(hào)內(nèi)。(4)位置算符

位置算符(proximationoperator),表示其連接的兩個(gè)檢索詞之間的位置關(guān)系,常用的有(W),(nW),(N),(nN),(L),(S),(F)等。

(W)與(nW)算符

W是with的縮寫。(W)或用()表示其連接的兩個(gè)檢索詞必須按序出現(xiàn),中間不允許插詞,只能有一空格或標(biāo)點(diǎn)、符號(hào)。

如:high(W)class

命中的記錄中出現(xiàn)的匹配詞可能有:

highclass或high-class。

(nW)與(W)類似,只是它允許插詞,插詞量小于或等于n個(gè)。

如:silicon(1W)sensor

命中的記錄中出現(xiàn)的匹配詞除siliconsensor外,還可能有:

siliconintegratedsensor,siliconimagesensor,silicon-basedsensor等。

如:silicon(2W)sensor

命中的記錄中出現(xiàn)的匹配詞除上例的外,還可能會(huì)有:

siliconangularratesensor,silicon-basedchemicalsensor等等。

input(w)output

input(1w)output

(N)與(nN)算符

N是near的縮寫。(N)表示其連接的兩個(gè)檢索詞的順序可以互易,但兩詞間不允許插詞。(nN)中的n表示允許插詞量少于或等于n個(gè)。

如:internet(N)accessing

命中記錄中出現(xiàn)的匹配詞可能有:

internetaccessing,accessinginternet。

如:internet(1N)accessing

命中記錄中除上例的外,還會(huì)可能有:

accessinginternet,accessingtheinternet,internet/intranetaccessing等。

building(N)constructionbuilding(1N)construction

(F)算符

F是Field的縮寫。(F)表示其連接的兩個(gè)檢索詞必須出現(xiàn)在同一字段中,字段不限,詞序不限。

以上所有算符的書寫用大小寫均可。算符執(zhí)行的優(yōu)先順序是按檢詞之間的關(guān)系緊密程度確定的,越緊的關(guān)系越先執(zhí)行。一般將需要先執(zhí)行的部分可放在括號(hào)內(nèi)。四、數(shù)據(jù)庫(kù)

一)計(jì)算機(jī)信息檢索系統(tǒng)數(shù)據(jù)庫(kù):一定專業(yè)范圍內(nèi)信息記錄及其索引的集合體。

二)結(jié)構(gòu)

字段:是數(shù)據(jù)庫(kù)中最基本單元。記錄:是數(shù)據(jù)庫(kù)中一個(gè)完整的信息單元文檔:是機(jī)讀記錄的有序集合,包括順排文檔和倒排文檔。字段—〉記錄—〉文檔—〉數(shù)據(jù)庫(kù)

三)數(shù)據(jù)庫(kù)的記錄格式

1

存取號(hào)字段

2基本索引字段篇名字段(TI)文摘字段(AB)

敘詞字段(DE)

3輔助索引字段著者字段(AU)

期刊名稱字段(JN)

語(yǔ)種字段

(LA)五、Internet網(wǎng)絡(luò)檢索

一)Internet基本概念

Internet是國(guó)際互聯(lián)網(wǎng),也稱因特網(wǎng),它是一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)的網(wǎng)絡(luò)。Internet將世界上不計(jì)其數(shù)的計(jì)算機(jī)及計(jì)算機(jī)網(wǎng)絡(luò)互聯(lián)起來,它們共同遵循TCP/IP通訊協(xié)議。Internet是信息高速公路的原形。

Internet是一個(gè)龐大的數(shù)據(jù)資源網(wǎng),它將全世界各部門、領(lǐng)域的信息資源集成為一體,供全人類享用。Internet是一個(gè)面向公眾的社會(huì)團(tuán)體,它是一個(gè)全球性論壇,允許人們?cè)趇nternet上來進(jìn)行信息查詢、交流與獲取,并將自己的資源加入其中。

作為全球internet網(wǎng)絡(luò)的一個(gè)組成部分,我國(guó)正在推進(jìn)中國(guó)信息基礎(chǔ)設(shè)施CII(ChinaInformationInfrastructure)的建設(shè)。1994年我國(guó)全面開通了Internet服務(wù),建立了四大網(wǎng)絡(luò)體系。一些商業(yè)公司也開始建立自己的網(wǎng)絡(luò)服務(wù)中心,通過租用專線與CHINANET連接,越來越多的單位和個(gè)人進(jìn)入了互聯(lián)網(wǎng)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心已于1997年6月成立,并實(shí)現(xiàn)了國(guó)內(nèi)各大互聯(lián)網(wǎng)絡(luò)之間的互聯(lián)。

(1)中國(guó)科技網(wǎng)CSTnet

/item13/cncnet/cncmain.htm(2)中國(guó)教育科研網(wǎng)CERNET

http://(3)中國(guó)公用計(jì)算機(jī)互聯(lián)網(wǎng)CHINANET

/(4)中國(guó)金橋信息網(wǎng)

http://,Internet網(wǎng)絡(luò)上蘊(yùn)藏著非常豐富的信息資源,從電子期刊、電子工具書、商業(yè)信息、新聞、大學(xué)和專業(yè)機(jī)構(gòu)介紹、軟件、數(shù)據(jù)庫(kù)、圖書館資源、國(guó)際組織和政府出版物,到娛樂性信息等等。它已經(jīng)成為全球范圍內(nèi)傳播科研、教育、商業(yè)和社會(huì)信息的最主要的渠道。但要從這個(gè)信息海洋中準(zhǔn)確迅速地找到并獲得自己所需的信息,卻往往比較困難。正是為了解決這個(gè)問題,從20世紀(jì)80年代起人們就開發(fā)了各種網(wǎng)絡(luò)信息檢索工具。其中,搜索引擎成為檢索多類網(wǎng)絡(luò)信息資源的集成化工具。

二)搜索引擎概述

搜索引擎(SearchEngines)是指對(duì)WWW站點(diǎn)資源和其他網(wǎng)絡(luò)資源進(jìn)行標(biāo)引和檢索的一類檢索系統(tǒng)機(jī)制。搜索引擎最根本的任務(wù)是向網(wǎng)絡(luò)訪問者提供一個(gè)高效的訪問機(jī)制。搜索引擎本身是個(gè)網(wǎng)站,但搜索引擎的數(shù)據(jù)庫(kù)中存放的是其他網(wǎng)站的信息,而不是自己的信息。搜索引擎不僅接受用戶的訪問,還根據(jù)用戶的搜索要求,在龐大的數(shù)據(jù)庫(kù)中搜索出滿足用戶需要的站點(diǎn)。

搜索引擎常用的檢索方法有關(guān)鍵詞檢索和目錄瀏覽兩種形式。

關(guān)鍵詞檢索:用戶直接輸入檢索詞,搜索引擎通過查找索引數(shù)據(jù)庫(kù)中包含有檢索詞的記錄來提供用戶所需的信息資源。檢索方便直接,而且可以使用邏輯算符、位置算符、截詞符等來構(gòu)成檢索式,可以限制檢索對(duì)象的地區(qū)、數(shù)據(jù)類型、時(shí)間等,因而可準(zhǔn)確檢索滿足特定條件的網(wǎng)絡(luò)資源。

目錄瀏覽:用戶通過瀏覽層次型的目錄來尋找相關(guān)的信息資源。目錄按一定的主題分類體系組織,并輔之年代、地區(qū)等分類。用戶一般采取逐層瀏覽目錄、逐步細(xì)化來尋找合適的類別直至具體資源。檢索和瀏覽在信息查詢過程中各有其功用。一般地說,檢索便于有的放矢,直接獲取檢索結(jié)果;瀏覽利于邊查邊看,發(fā)現(xiàn)未曾預(yù)料的結(jié)果。

(三)幾種常用的搜索引擎1.一種典型的搜索引擎介紹———Yahoo!

(1)分類瀏覽

(2)關(guān)鍵詞檢索

在檢索輸入框中直接輸入檢索詞或詞組,Yahoo!將在索引數(shù)據(jù)庫(kù)中進(jìn)行檢索。

中文yahoo()

中文yahoo則是yahoo為中文用戶開發(fā)的中文網(wǎng)站查詢系統(tǒng),它收集了數(shù)以萬(wàn)計(jì)的中文網(wǎng)站,不論你要找的網(wǎng)站是用國(guó)標(biāo)碼簡(jiǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論