版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第二章 計(jì)算機(jī)檢索基本原理,1計(jì)算機(jī)檢索系統(tǒng) 2計(jì)算機(jī)檢索的基本原理與技術(shù) 3計(jì)算機(jī)檢索策略及其調(diào)整,1計(jì)算機(jī)檢索系統(tǒng),1.1計(jì)算機(jī)檢索系統(tǒng)組成 計(jì)算機(jī)硬件,計(jì)算機(jī)軟件,數(shù)據(jù)庫(kù) 1.2數(shù)據(jù)庫(kù) 1.2.1定義:包含書(shū)目以及與文獻(xiàn)有關(guān)數(shù)據(jù)的機(jī)讀記錄的有組織的集合。機(jī)讀記錄是文獻(xiàn)的代替物,一條記錄對(duì)應(yīng)一篇文獻(xiàn),數(shù)據(jù)庫(kù)由若干條記錄組成。 1.2.2類(lèi)型 1.2.3構(gòu)成,1.2.2文獻(xiàn)數(shù)據(jù)庫(kù)類(lèi)型(據(jù)數(shù)據(jù)庫(kù)所含信息內(nèi)容 ),1)文獻(xiàn)數(shù)據(jù)庫(kù):存儲(chǔ)文獻(xiàn)型數(shù)據(jù),如一次文獻(xiàn)或二次文 獻(xiàn) 書(shū)目數(shù)據(jù)庫(kù)(二次文獻(xiàn)數(shù)據(jù)庫(kù)):包括各種文摘、索引、目錄。存貯某個(gè)領(lǐng)域原始文獻(xiàn)的書(shū)目。組成記錄的 字段一般有文獻(xiàn)的標(biāo)題、作者、出處
2、、文摘、主題 詞等。 全文數(shù)據(jù)庫(kù):存貯文獻(xiàn)全文或其中主要部分的數(shù)據(jù)庫(kù)。 能使用戶(hù)獲得最終的一次文獻(xiàn)。 2)源數(shù)據(jù)庫(kù):存儲(chǔ)事實(shí)、數(shù)值、概念、圖形等非文獻(xiàn)數(shù) 據(jù)的數(shù)據(jù)庫(kù),數(shù)值數(shù)據(jù)庫(kù):提供以數(shù)值方式表示信息的一種源數(shù)據(jù)庫(kù),其檢索結(jié)果可能只是單一的值或一組數(shù)據(jù)。數(shù)值數(shù)據(jù)庫(kù)能提供產(chǎn)品價(jià)格等數(shù)值信息,也可提供物質(zhì)的物理化學(xué)性質(zhì)、結(jié)構(gòu)、頻譜等數(shù)據(jù)。 事實(shí)數(shù)據(jù)庫(kù):自原始文獻(xiàn)或社會(huì)調(diào)查中獲得并經(jīng)過(guò)處理的各種事實(shí),如機(jī)構(gòu)、人物、產(chǎn)品、資源等數(shù)據(jù)。常見(jiàn)的有指南數(shù)據(jù)庫(kù)、產(chǎn)品數(shù)據(jù)庫(kù)等。 概念數(shù)據(jù)庫(kù):庫(kù)內(nèi)存儲(chǔ)各種名詞術(shù)語(yǔ)或語(yǔ)言資料,如詞典數(shù)據(jù)庫(kù)、語(yǔ)料庫(kù)等。 多媒體數(shù)據(jù)庫(kù):將各種類(lèi)型的信息集中在CDROM上,是視頻、音頻、
3、文字、圖像、動(dòng)畫(huà)等的集合體,如一些互動(dòng)性的百科全書(shū)。,1.2.3數(shù)據(jù)庫(kù)的構(gòu)成,1)記錄:是數(shù)據(jù)庫(kù)的基本單元,是對(duì)某一實(shí)體屬性進(jìn)行描述的結(jié)果。一個(gè)數(shù)據(jù)庫(kù)由若干條記錄構(gòu)成。每條記錄相當(dāng)于文摘型或題錄型檢索刊物的一條著錄款目。 文獻(xiàn)記錄格式(以Dialog系統(tǒng)中EICompendexPlus數(shù)據(jù)庫(kù)為例)如下:,AN DIALOG NO:03883137 EI Monthly NO;EIP94031231114 TI Title:LaserLight imaging for underwater use AU= Author:Caimin,F(xiàn)rank M SO= Source:Sca Technolo
4、gy,V34 NO12 Dec1993P22-27 PY= Publication Year:1993 CO,SN=CODEN:SEATAD ISSN:0993-3651 LA= LanguageEnglish DT,TC=Document Type:JA(Joumal Article);Treatment code X(Experimental); AB Abstract:Conventional undersea imaging limitationsave Pointed out and several imaging systems are described,in particula
5、r the range galed imaging,fieldlimited imaging,and 3-D Structured inter ferometric illumination systems DE Description: * Imaging techniques: Laser application; engineering;Vision ID Identifiers:Laser light imaging;Underwater technology CC= EI Classification Codes;,AN:Dialog存取號(hào)(Dialog Access Number)
6、。在一個(gè)數(shù)據(jù)庫(kù)中,每條記錄只有一個(gè)存取號(hào),兩者一一對(duì)應(yīng)。 TI:篇名字段(Title)。 AU=:作者字段(Author)。 CS=:作者所在單位字段(Corporate Source)。 SO=:文獻(xiàn)來(lái)源字段(Source Publication)。包括期刊名稱(chēng)、年,卷、 期、頁(yè)等,或包括會(huì)議事項(xiàng)。 PY=:出版年份(Publication Year)。 CO=:期刊代碼字段(CODEN)。 LA=:語(yǔ)種字段(Language),表示原文的語(yǔ)種。,DT:文獻(xiàn)類(lèi)型字段(Document Type)。 TC=:處理碼字段(Treatment Code)表示論文的性質(zhì),A表示應(yīng)用,X表示實(shí)驗(yàn),T表
7、示理論,等等 AB:文摘字段(Abstract)。 DE:敘詞字段(Descriptor),選自敘詞表、主題詞表中的詞。 ID:自由標(biāo)引詞字段(Identifier),非系統(tǒng)詞表中的詞,由標(biāo)引人員確定。 CC=:分類(lèi)代碼字段(Classification Code)。 對(duì)于不同檢索系統(tǒng)、不同數(shù)據(jù)庫(kù)來(lái)說(shuō),其記錄格式、字段代碼、字段數(shù)目可能不完全相同。,2)字段:是文獻(xiàn)記錄的基本單元。一條記錄有若干個(gè)字段,一個(gè)字段有時(shí)還可分為幾個(gè)子字段(Subfield)。在書(shū)目數(shù)據(jù)庫(kù)中,一條記錄應(yīng)包含原始文獻(xiàn)的篇名、作者、刊名、出版時(shí)間、分類(lèi)號(hào)、文摘、主題詞等字段。 數(shù)據(jù)庫(kù)的字段可分為基本字段和輔助字段: 基本
8、字段主要是描述文獻(xiàn)內(nèi)容特征的字段,如篇名、文 摘、敘詞、自由標(biāo)引詞等字段; 輔助字段主要是描述文獻(xiàn)外表特征的字段,如著者、機(jī) 構(gòu)名稱(chēng)、語(yǔ)種、文獻(xiàn)來(lái)源等字段。,3)文檔(File):若干條邏輯記錄構(gòu)成的信息集合。文檔 是書(shū)目數(shù)據(jù)庫(kù)和文獻(xiàn)檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。 根據(jù)數(shù)據(jù)庫(kù)的內(nèi)部結(jié)構(gòu),一個(gè)數(shù)據(jù)庫(kù)至少包含一個(gè)順排文檔和一個(gè)倒排文檔。,順排文檔:是按文獻(xiàn)記錄的輸入順序(即文獻(xiàn)序號(hào))排列的文檔。相當(dāng)于印刷型檢索工具的正文部分。 在順排文檔中,記錄按順序一個(gè)接一個(gè)地存放,一個(gè)存取號(hào)對(duì)應(yīng)一條記錄,存取號(hào)愈大,對(duì)應(yīng)的記錄就愈新。由于它存貯有記錄的最完整的信息,所以,通常又把它稱(chēng)之為主文檔(Master
9、File)。 這種存貯方式?jīng)Q定了對(duì)記錄的存取只能按順序進(jìn)行。如果在順排文檔中檢索,對(duì)每個(gè)檢索式都得按順序從頭到尾進(jìn)行掃描,存貯的記錄愈多,掃描的時(shí)間愈長(zhǎng),從而嚴(yán)重影響了檢索的速度。 主要供用戶(hù)輸出和打印文獻(xiàn)記錄用。,倒排文檔:把順排文檔中的標(biāo)引詞抽出,按標(biāo)引詞的字母順序依次排列而成的文檔。倒排文檔實(shí)際上相當(dāng)于印刷型檢索工具中的輔助索引。 倒排文檔與順排文檔的區(qū)別: 順排文檔以完整記錄作為處理和檢索的單元,倒排文檔以記錄中的字段作為處理和檢索的單元。,2 計(jì)算機(jī)檢索的基本原理與技術(shù),2.1檢索原理,2.2檢索功能,布爾邏輯檢索功能 詞間位置檢索功能 截詞檢索功能 限定字段檢索功能 禁用詞 其他功
10、能,1)Boolean Search(布爾邏輯檢索),邏輯“與”:AND ;and;*,A and B;A*B,定義:用于交叉概念或限定關(guān)系的組配,即被命中的文獻(xiàn)必須同時(shí)含有檢索項(xiàng)A和B。 作用:可縮小檢索范圍,提高查準(zhǔn)率。 要求:運(yùn)用時(shí),把出現(xiàn)頻率低的檢索詞置于“與”的左端,可使否定答案盡早出現(xiàn),節(jié)省機(jī)時(shí)。,1)Boolean Search(布爾邏輯檢索),邏輯“或”:OR;or;+,A or B;A+B;computer or robot,定義:表示兩個(gè)概念的并列,即被命中的文獻(xiàn)含有兩詞之一或同時(shí)包含兩詞。 作用:可擴(kuò)大檢索范圍,提高查全率。 要求:組構(gòu)檢索式時(shí),可將估計(jì)出現(xiàn)頻率高的詞置于
11、“或”的左面,可使選中的答案盡早出現(xiàn)。,1)Boolean Search(布爾邏輯檢索),邏輯“非”:NOT;not; -,A not B;A-B;,定義:表示兩個(gè)概念的排除,即被檢索文獻(xiàn)在含有檢索詞A而不含有檢索詞B時(shí)才被命中。 作用:用于排斥關(guān)系的組配,即從原來(lái)的檢索范圍排除不需要的概念或影響檢索結(jié)果的概念,提高查準(zhǔn)率。 注意:往往會(huì)把切題的文獻(xiàn)給丟掉,運(yùn)用時(shí)要非常慎重。,2)位置檢索:,表達(dá)檢索詞之間位置關(guān)系的一種檢索 位置算符,(W)與(nW) (W)算符是“word”或“with”的縮寫(xiě),表示此算符兩邊的檢索詞詞序不能顛倒,兩個(gè)詞之間可有一個(gè)空格、或一個(gè)標(biāo)點(diǎn)符號(hào)、或一個(gè)連接號(hào); (n
12、W)則表示兩個(gè)檢索詞之間最多嵌入n個(gè)詞。,位置算符,例如,檢索“CD-ROM”,可用 CD(W)ROM;,而用price(2W)inflation , 則可能檢出price levels and inflation。,位置算符,(N)與(nN) (N)算符是“near”的縮寫(xiě),表示此算符兩邊的檢索詞必須緊密相連,此間不允許插入其他單詞或字母,但詞序可以顛倒,而(nN)算符則表示在兩個(gè)檢索詞之間最多可以插入n個(gè)單詞,且詞序可以顛倒。 如: economic(2N)recovery,可以檢出:economic recovery, recovery of the economy, recovery
13、from economic troubles。,位置算符,(X)與(nX) (X)算符要求其兩邊的檢索詞完全一致,并以指定的順序相鄰,中間不允許插入任何單詞或字母; (nX)算符則表示兩邊的檢索詞之間最多可以插入n個(gè)單元詞,但兩邊的檢索詞也必須一致。,詞位置檢索是很有用的檢索技術(shù),它可以規(guī)定詞組中各詞的前后次序,防止錯(cuò)誤的搭配和輸出;它也可以替代詞組中的禁用詞。DIALOG系統(tǒng)有9個(gè)禁用詞:AND、FOR、THE、AN、FROM、TO、BY、OF、WITH,如果在編制檢索式時(shí)碰到禁用詞,就要用詞位置算符代替它。,3)截詞檢索:*;?,定義:允許檢索詞有一定范圍的變化。檢索時(shí)將截詞符置于檢索詞允
14、許變化的部位,只要檢索詞和標(biāo)引詞的詞干相同即為命中文獻(xiàn)。 作用:減少檢索詞的輸入量,擴(kuò)大檢索范圍 ,提高檢索效率。 注意:使用截詞檢索必須慎重,一是詞干不要太短,以免檢出許多與原來(lái)檢索詞不相關(guān)的文獻(xiàn)記錄,二是英美不同拼法的詞,如變化字母數(shù)不同則不能使用中間截詞檢索,必須詳細(xì)寫(xiě)出并用OR組配后輸入。,分類(lèi): 按截詞位置:前截?cái)?;后截?cái)啵恢虚g截?cái)?按截詞方式:無(wú)限截詞;有限截詞;中間截詞,前截?cái)啵簩⒔卦~符放在詞根前邊,后方一致,表示在詞根前方有有限個(gè)或無(wú)限個(gè)字符。 如*magnetic 能夠檢出含有magnetic、ctromagnetic、paramagnetic等詞的記錄。 后截?cái)啵簩⒔卦~符放
15、在詞根后邊,前方一致,表示在詞根后方有有限個(gè)或無(wú)限個(gè)字符。 如metal*,能夠檢出含有metal、metals、metaled、metalist等詞的記錄。 中間截?cái)啵簩⒔卦~符放在詞的中間,詞的前后方一致。 如colo*r,能夠檢出含有colour、color的記錄。,無(wú)限截詞:指允許截去的字符數(shù)量不限,也稱(chēng)開(kāi)放式截?cái)?。如前截?cái)嗪秃蠼財(cái)?有限截詞:允許截去有限個(gè)字符。如dye*(n*) ,能夠檢出含有dyer、dye、dyed、dyeing等詞的記錄。 中間截詞:如中間截?cái)唷?4)限定字段檢索:,定義:將檢索過(guò)程限定在記錄的特定的字段中進(jìn)行。 作用:縮小或約束檢索結(jié)果 ,提高檢索效率。 檢索
16、符號(hào):in、 、 等。,computerTI,AB:表示在TI和AB字段中檢索computer。 AUWang fang and PY 2000:表示查找王芳于2000年以來(lái)發(fā)表的文章。,5)禁用詞(stop words):,以下單詞作為檢索詞時(shí),系統(tǒng)將自動(dòng)忽略并用空格取代之進(jìn)行檢索。 also、an、and、are、as、be、been、between、both、but、by、did、from、has、have、into、not、of、or、should、some、such、than、that、the、their、them、themselves、these、they、this、those、t
17、hrough、to、using、were、when、which、with、would,6)其他功能:,整體檢索: 在詞組的兩端加上“ ”,如“wheat powdery mildew” 優(yōu)先級(jí)檢索:在一個(gè)復(fù)雜的邏輯提問(wèn)中,使用括號(hào)(單層或多層)來(lái)指定運(yùn)算的先后順序。 (A*B+C)*(D+E)+F,3計(jì)算機(jī)檢索策略及其調(diào)整,3.1計(jì)算機(jī)檢索策略 1)最專(zhuān)指面優(yōu)先策略 2)最少記錄面優(yōu)先策略 3)積木型概念組面策略 4)引文珠形增長(zhǎng)策略 5)逐次分餾策略 3.2計(jì)算機(jī)檢索策略調(diào)整 擴(kuò)檢 縮檢,1)最專(zhuān)指面優(yōu)先策略:指在檢索時(shí),首先選擇最專(zhuān)指的概念組面進(jìn)行檢索,如果檢索命中的文獻(xiàn)相當(dāng)少,那么其他概
18、念組面就不再加到檢索提問(wèn)式中去;如果檢索命中的文獻(xiàn)較多,就把其他概念組面加到檢索提問(wèn)式中,以提高查準(zhǔn)率。 2)最少記錄面優(yōu)先策略:與最專(zhuān)指面優(yōu)先策略類(lèi)似,即先從估計(jì)檢中的文獻(xiàn)記錄數(shù)量最少的概念組面人手,如果檢中的文獻(xiàn)記錄相當(dāng)少,則不必檢索其他概念組面,反之,則將其他概念組面加到檢索提問(wèn)式中去,提高檢索結(jié)果的查準(zhǔn)率。,3)積木型概念組面策略:把檢索課題分解成若干個(gè)概念組面,并分別先對(duì)這幾個(gè)概念組面進(jìn)行檢索,在每個(gè)概念組面中盡可能全地列舉同義詞、相關(guān)詞、近義詞,并用布爾算符“OR”連接成子檢索式,然后再用布爾算符“AND”把所有概念組面的子檢索式連接起來(lái)構(gòu)成一個(gè)總檢索式。,4引文珠形增長(zhǎng)策略:從直接檢索課題中最專(zhuān)指的概念組面開(kāi)始,以便至少檢出一篇命中文獻(xiàn)。檢索人員從這一條或數(shù)條記錄中找到新的規(guī)范詞或自由詞,補(bǔ)充到檢索式中去,然后再檢索就能重新查出更多的文獻(xiàn)。 5逐次分餾策略:先確定一個(gè)較大的、范圍較廣的初始文獻(xiàn)集,然后逐步提高檢索式的專(zhuān)指度,從而逐步縮小命中文獻(xiàn)集,直到得到數(shù)量適宜、用戶(hù)滿(mǎn)意的文獻(xiàn)集合為止。,擴(kuò)檢時(shí),即提高查全率時(shí),調(diào)整檢索式的主要方法有:(1) 選全同義詞并以“OR”方式與原詞連接后加入到檢索式中。(2) 降低檢索詞的專(zhuān)指度,從詞表或檢出文獻(xiàn)中選一些上
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職學(xué)前教育應(yīng)用技術(shù)基礎(chǔ)(教育應(yīng)用)試題及答案
- 2025年中職口腔醫(yī)學(xué)技術(shù)(義齒修復(fù)工藝)試題及答案
- 2026年農(nóng)村教育(教育模式)試題及答案
- 2025年大學(xué)認(rèn)證認(rèn)可管理(認(rèn)證認(rèn)可管理)試題及答案
- 2025年大學(xué)歷史教育(歷史教學(xué)方法)試題及答案
- 2025年中職林業(yè)生產(chǎn)技術(shù)(苗木培育)試題及答案
- 2025年中職(城市軌道交通運(yùn)營(yíng)管理)地鐵票務(wù)管理專(zhuān)項(xiàng)測(cè)試試題及答案
- 2026年漢堡食品加工機(jī)維修(加工機(jī)調(diào)試技術(shù))試題及答案
- 2025年中職藥物化學(xué)(藥物化學(xué)基礎(chǔ))試題及答案
- 2025年中職(鐵道運(yùn)輸服務(wù))列車(chē)乘務(wù)服務(wù)試題及答案
- 廣東高校畢業(yè)生“三支一扶”計(jì)劃招募考試真題2024
- 膠帶機(jī)硫化工藝.課件
- 種雞免疫工作總結(jié)
- 河南省商丘市柘城縣2024-2025學(xué)年八年級(jí)上學(xué)期期末數(shù)學(xué)試題(含答案)
- 河南省信陽(yáng)市2024-2025學(xué)年高二上學(xué)期1月期末英語(yǔ)試題(含答案無(wú)聽(tīng)力原文及音頻)
- 給女朋友申請(qǐng)書(shū)
- 八下《桃花源記》《小石潭記》全文背誦(原文+譯文)
- 【8地RJ期末】安徽省蕪湖市2024-2025學(xué)年八年級(jí)上學(xué)期期末考試地理試卷+
- 智能法理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 長(zhǎng)護(hù)險(xiǎn)護(hù)理培訓(xùn)課件
- 福建省廈門(mén)市2023-2024學(xué)年高二上學(xué)期期末考試英語(yǔ)試題(解析版)
評(píng)論
0/150
提交評(píng)論