現(xiàn)代信息檢索教程第二章(中文專業(yè)10春)_第1頁
現(xiàn)代信息檢索教程第二章(中文專業(yè)10春)_第2頁
現(xiàn)代信息檢索教程第二章(中文專業(yè)10春)_第3頁
現(xiàn)代信息檢索教程第二章(中文專業(yè)10春)_第4頁
現(xiàn)代信息檢索教程第二章(中文專業(yè)10春)_第5頁
已閱讀5頁,還剩77頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

現(xiàn)代信息檢索教程第二章(中文專業(yè)10春)第二章信息檢索的基本方法和基本技術(shù)第一節(jié)信息檢索的原理、類型和方式第二節(jié)信息檢索語言與工具第三節(jié)信息檢索的方法和途徑第四節(jié)計(jì)算機(jī)信息檢索思考題一、信息檢索的原理通過對大量的、分散無序的文獻(xiàn)信息進(jìn)行搜集、加工、組織、存儲,建立各種各樣的檢索系統(tǒng),并通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標(biāo)識(特征標(biāo)識是指從自然語言中精選出來的并加以規(guī)范化處理的一套特殊符號或代碼)達(dá)到一致,以便有效地獲得和利用信息源。

第一節(jié)信息檢索的原理、類型和方式返回目錄廣義的信息檢索包括信息的存儲和檢索兩個過程。信息的存儲:將搜集到的一次信息,經(jīng)過著錄其特征(如題名、著者、主題詞、分類號等)而形成款目,并將這些款目組織起來成為二次信息的過程。信息的檢索:針對已存儲好的二次信息庫進(jìn)行的,是存儲的逆過程。返回目錄一次信息信息特征檢索語言信息特征標(biāo)識信息檢索工具檢索結(jié)果分析標(biāo)引輸入輸出信息需求檢索提問分析檢索提問標(biāo)識標(biāo)引檢索存儲過程檢索過程信息檢索原理:返回目錄檢索原理實(shí)例操作分析存儲過程:11/gdn/admin/admin_login.asp檢索過程

11/gdn/可見,在檢索過程中檢索語言的選擇尤為重要!二、信息檢索類型1.按照使用不同的工具和手段劃分手工檢索:簡稱“手檢”,是指人們通過手工的方式來存儲和檢索信息。計(jì)算機(jī)檢索:簡稱“機(jī)檢”,是指人們在計(jì)算機(jī)檢索網(wǎng)絡(luò)或終端上,使用特定的檢索指令、檢索詞和檢索策略,從計(jì)算機(jī)檢索系統(tǒng)的數(shù)據(jù)庫中檢索出所需要的信息的過程。返回目錄2.按照信息檢索內(nèi)容劃分文獻(xiàn)信息檢索:利用目錄、文摘或索引等二次信息查找有關(guān)信息以及這些信息的出處和收藏單位等。數(shù)據(jù)信息檢索:利用參考工具書、數(shù)據(jù)庫等檢索工具檢索包含在文獻(xiàn)中的某一數(shù)據(jù)、參數(shù)、公式或化學(xué)分子式。事實(shí)信息檢索:利用百科全書、數(shù)據(jù)庫等檢索工具從存儲事實(shí)的信息系統(tǒng)中查找出特定事實(shí)的過程。返回目錄例如:利用“圖書館的檢索機(jī)”檢索“某一書刊的館藏地”,屬于文獻(xiàn)檢索。利用“百科全書”檢索“第一屆奧運(yùn)會舉辦的時(shí)間和地點(diǎn)”,屬于事實(shí)檢索。利用“廣西教育年鑒”檢索“廣西2006年大學(xué)畢業(yè)生的人數(shù)”,屬于數(shù)據(jù)檢索。三、信息檢索方式1.直接檢索直接檢索:從瀏覽、閱讀文獻(xiàn)中(主要指一次文獻(xiàn))獲取所需要的信息過程。2.間接檢索間接檢索:以檢索工具(主要是二次文獻(xiàn)和部分三次文獻(xiàn))為導(dǎo)向,進(jìn)而查找原始文獻(xiàn)以獲得所需信息的過程。返回目錄一、信息檢索語言1.信息檢索語言及其作用⑴檢索語言的概念檢索語言:應(yīng)文獻(xiàn)信息的加工、存儲和檢索的共同需要而編制的專門語言,是表達(dá)一系列概括文獻(xiàn)信息內(nèi)容和檢索課題內(nèi)容的概念及其相互關(guān)系的一種概念標(biāo)識系統(tǒng)。概而言之,描述文獻(xiàn)信息特征和表達(dá)檢索提問的人工語言!

第二節(jié)信息檢索語言與工具返回目錄⑵檢索語言的作用檢索語言是溝通信息存儲與信息檢索兩個過程的橋梁。在信息存儲過程中,用它來描述信息的內(nèi)容和外部特征,從而形成檢索標(biāo)識;在檢索過程中,用它來描述檢索提問,從而形成提問標(biāo)識;當(dāng)提問標(biāo)識與檢索標(biāo)識完全匹配或部分匹配時(shí),結(jié)果即為命中文獻(xiàn)。返回目錄檢索語言分類檢索語言主題檢索語言古代分類法現(xiàn)代分類法人大法科圖法中圖法四部分類法中圖法通用復(fù)分表關(guān)鍵詞和敘詞(《漢語主題詞表》)代碼檢索語言四庫全書總目檢索語言的種類2.檢索語言的類型經(jīng)史子集2.檢索語言的類型⑴按照標(biāo)識的性質(zhì)與原理劃分①分類語言分類語言:以數(shù)字、字母(即分類號)或字母與數(shù)字結(jié)合作為基本字符,采用字符直接連接并以圓點(diǎn)(或其他符號)作為分隔符的書寫法,以基本類目作為基本詞匯,以類目的從屬關(guān)系來表達(dá)復(fù)雜概念的一類檢索語言。

返回目錄●解釋概念:也稱分類法和分類表。是根據(jù)文獻(xiàn)信息的內(nèi)容、形式、體裁和讀者用途等,在一定的哲學(xué)思想指導(dǎo)下,根據(jù)科學(xué)學(xué)科之間的邏輯歸屬關(guān)系,采用層次型或樹杈型結(jié)構(gòu),列舉人類所有的知識類別,并對每一知識分別標(biāo)以相對固定的類碼,從而形成的類表?!裉攸c(diǎn)----從總到分、從一般到具體、層層劃分、逐級展開,具有某種符號代碼體系的知識體系。●優(yōu)點(diǎn)----檢索到某學(xué)科或?qū)I(yè)的所有文獻(xiàn),有較高的查全率?!袢秉c(diǎn)----相對于當(dāng)前研究狀況的跨學(xué)科或?qū)I(yè)的檢索十分困難。我國廣泛應(yīng)用的分類法:《中國圖書館分類法》(簡稱《中圖法》)《中國科學(xué)院圖書館圖書分類法》(簡稱《科圖法》)《中國人民大學(xué)圖書館圖書分類法》(簡稱《人大法》)國外應(yīng)用最多的分類法:《國際十進(jìn)分類法》《杜威十進(jìn)分類法》《美國國會圖書館圖書分類法》返回目錄●介紹《中國圖書館分類法》(簡稱《中圖法》)《中圖法》是1971年由北京圖書館倡議,全國36個單位組成的編寫組集體編制的,于1975年正式出版,1980年、1990年、1997年先后修訂三次?!吨袌D法》是我國當(dāng)代具有代表性的圖書分類法,被推薦為我國標(biāo)準(zhǔn)圖書分類法.廣泛使用于圖書館和情報(bào)部門?!吨袌D法》是為實(shí)現(xiàn)全國圖書資料統(tǒng)一分類而編制的,是一部大型的綜合性的圖書分類法?!吨袊鴪D書館分類法》的基本構(gòu)成:五大基本部類二十二個基本大類(一級類目)一級以下設(shè)有:

二級類目、三級類目、四級類目、

五級類目(共53811個類目)。中圖法5個基本部類馬克思主義、列寧主義、毛澤東思想哲學(xué)綜合性圖書社會科學(xué)自然科學(xué)基本部類

中圖法22個基本大類(一級類目)A、馬克思主義、列寧主義、毛澤東思想B、哲學(xué)C、社會科學(xué)總論D、政治、法律E、軍事F、經(jīng)濟(jì)G、文化科學(xué)、教育、體育H、語言I、文學(xué)基本大類

中圖法22個基本大類(一級類目)J、藝術(shù)K、歷史、地理N、自然科學(xué)總論O、數(shù)學(xué)科學(xué)和化學(xué)P、天文學(xué)Q、生物科學(xué)R、醫(yī)藥、衛(wèi)生S、農(nóng)業(yè)科學(xué)基本大類

I文學(xué)(一級類目)I0文學(xué)理論I1世界文學(xué)I2中國文學(xué)I3/7各國文學(xué)二級類目I2中國文學(xué)(二級類目)

I21作品集

I22詩歌、韻文

I23戲劇文學(xué)

I24小說三級類目I24小說(三級類目)

I242古代至近代作品(--1919年)

I246現(xiàn)代作品(1919——1949年)

I247當(dāng)代作品(1949年——)四級類目I247當(dāng)代作品(1949——)(四級類目)I247.4章回小說I247.5新體長篇、中篇小說I247.7新體短篇小說I247.8故事、微型小說五

目小結(jié):

可見,為了反映學(xué)科之間屬分關(guān)系,《中圖法》的類號每增加一位字母或數(shù)字代表增加一級分類,體現(xiàn)了學(xué)科之間的邏輯歸屬關(guān)系。我們學(xué)院圖書館的圖書就是根據(jù)《中圖法》分類的,每本圖書均有一個索書號,索書號是由分類號和作者號構(gòu)成。例如:書名:《三國演義》

I242.43/L939-3統(tǒng)稱索書號分類號作者號●熟悉《中圖法》中與本專業(yè)相關(guān)的分類號的作用因?yàn)檫\(yùn)用分類號檢索可以檢索到某學(xué)科或某專業(yè)的所有文獻(xiàn),有較高的查全率。所以,熟悉《中圖法》中與本專業(yè)相關(guān)的分類號:能較快確定檢索目標(biāo)的入口,提高查準(zhǔn)率!想了解《中圖法》的具體內(nèi)容,可上我們學(xué)院圖書館主頁的超星數(shù)字圖書館檢索《中國圖書館分類法》獲得。②主題語言主題語言:以自然語言的字符為字符,以名詞術(shù)語為基本詞匯,用一組名詞術(shù)語作為檢索標(biāo)識的一類檢索語言。標(biāo)題詞:指從自然語言中選取并經(jīng)過規(guī)范化處理,表示事物概念的詞、詞組或短語。元詞:又稱單元詞,是指從文獻(xiàn)中抽取出來的,能表達(dá)文獻(xiàn)主題的最基本、不能再分的單元詞語。敘詞:從文獻(xiàn)內(nèi)容中抽出來,能概括表達(dá)文獻(xiàn)內(nèi)容基本概念的并經(jīng)過規(guī)范化的名詞或術(shù)語。關(guān)鍵詞:是自然語言,直接取自文獻(xiàn)的題名、文摘等,或者取自全文。返回目錄③代碼語言代碼語言:指對事物的某方面特征,用某種代碼系統(tǒng)來表示和排列事物概念,從而提供檢索的檢索語言。返回目錄(2)按照表達(dá)文獻(xiàn)的特征劃分①表達(dá)文獻(xiàn)外部特征的檢索語言表達(dá)文獻(xiàn)外部特征的檢索語言:指文獻(xiàn)的題名、責(zé)任者、文獻(xiàn)編號等。②表達(dá)文獻(xiàn)內(nèi)容特征的檢索語言表達(dá)文獻(xiàn)內(nèi)容特征按其結(jié)構(gòu)原理可劃分為分類語言、主題語言和代碼語言三大類型。返回目錄

文獻(xiàn)的外部特征

文獻(xiàn)的內(nèi)部特征注意:文獻(xiàn)的外部特征與文獻(xiàn)是一一對應(yīng)關(guān)系,即一組外表特征只對應(yīng)一篇唯一的文獻(xiàn),而文獻(xiàn)的內(nèi)部特征與文獻(xiàn)卻是一種模糊的對應(yīng)關(guān)系!因此,利用外表特征只能檢出很少的文獻(xiàn),利用內(nèi)容特征一次能檢出一批文獻(xiàn)。檢索語言題名(書名、刊名、篇名等)題名索引責(zé)任者(著者、譯者、編者等)著者索引文獻(xiàn)編號(ISBN、ISSN、專利號、標(biāo)準(zhǔn)編號)分類途徑分類索引主題途徑主題索引代碼途徑分子式索引、環(huán)系索引二、信息檢索工具1.檢索工具的含義檢索工具:指用以報(bào)導(dǎo)、存儲和查找文獻(xiàn)線索的工具。它是附有檢索標(biāo)識的某一范圍文獻(xiàn)條目的集合,是二次文獻(xiàn)。返回目錄2.檢索工具的類型⑴按檢索手段劃分①手工檢索工具:亦稱傳統(tǒng)檢索工具,它是由人直接參與查找文獻(xiàn)的檢索工具。②機(jī)器檢索工具:借助于某些機(jī)器設(shè)備(主要是電子計(jì)算機(jī)和數(shù)據(jù)庫)查找文獻(xiàn)和信息的檢索系統(tǒng)。返回目錄⑵按載體形式劃分①書刊型檢索工具:以圖書、刊物形式出版的常用檢索工具。②卡片型檢索工具:將文獻(xiàn)的主題、分類、著者和文獻(xiàn)題名等檢索標(biāo)識著錄在卡片上,并將這些卡片按一定的方法排列成邏輯有序的傳統(tǒng)檢索工具。③機(jī)讀型檢索工具:以光、電、磁等作為存儲和傳遞的介質(zhì),以計(jì)算機(jī)為主要手段進(jìn)行信息檢索的工具。④縮微型檢索工具:縮微型檢索工具又稱COM式的檢索工具,它是指計(jì)算機(jī)輸出縮微品目錄。返回目錄⑶按照著錄格式的不同劃分。①目錄型檢索工具:記錄具體出版單位、收藏單位及其他外表特征的工具。(如《玉林師院圖書館書目檢索系統(tǒng)》)②題錄型檢索工具:以單篇文獻(xiàn)為基本著錄單位來描述文獻(xiàn)外表特征(如文獻(xiàn)題名、著者姓名、文獻(xiàn)出處等),無內(nèi)容摘要,是快速報(bào)道文獻(xiàn)信息的一類檢索工具。(如《全國報(bào)刊索引》)注意:目錄著錄的對象是單位出版物,題錄的著錄對象是單篇文獻(xiàn)!返回目錄③文摘型檢索工具:將大量分散的文獻(xiàn),選擇重要的部分,以簡煉的形式做成摘要,并按一定的方法組織排列起來的檢索工具。(如《高校文科學(xué)報(bào)文摘》)④索引型檢索工具:根據(jù)一定的需要,把特定范圍內(nèi)的某些重要文獻(xiàn)中的有關(guān)款目或知識單元,如書名、刊名、人名、地名、語詞等,按照一定的方法編排,并指明出處,為用戶提供文獻(xiàn)線索的一種檢索工具。返回目錄一、信息檢索方法1.直接法直接法:指直接利用檢索工具(系統(tǒng))檢索文獻(xiàn)信息的方法。順查法:指按照時(shí)間的順序,由遠(yuǎn)及近地利用檢索系統(tǒng)進(jìn)行文獻(xiàn)信息檢索的方法。倒查法:由近及遠(yuǎn),從新到舊,逆著時(shí)間的順序利用檢索工具進(jìn)行文獻(xiàn)信息檢索的方法。抽查法:指針對項(xiàng)目的特點(diǎn),選擇有關(guān)該項(xiàng)目的文獻(xiàn)信息最可能出現(xiàn)或最多出現(xiàn)的時(shí)間段,利用檢索工具進(jìn)行重點(diǎn)檢索的方法。第三節(jié)信息檢索的方法和途徑返回目錄2.追溯法追溯法:指不利用一般的檢索工具,而是利用已經(jīng)掌握的文獻(xiàn)末尾所列的參考文獻(xiàn),進(jìn)行逐一地追溯查找“引文”的一種最簡便的擴(kuò)大情報(bào)來源的方法。它還可以從查到的“引文”中再追溯查找“引文”,像滾雪球一樣,依據(jù)文獻(xiàn)間的引用關(guān)系,獲得越來越多的內(nèi)容相關(guān)文獻(xiàn)。返回目錄3.綜合法綜合法:又稱為循環(huán)法,它是把上述兩種方法加以綜合運(yùn)用的方法。綜合法既要利用檢索工具進(jìn)行常規(guī)檢索,又要利用文獻(xiàn)后所附參考文獻(xiàn)進(jìn)行追溯檢索,分期分段地交替使用這兩種方法。綜合法兼有常用法和追溯法的優(yōu)點(diǎn),可以查得較為全面而準(zhǔn)確的文獻(xiàn),是實(shí)際中采用較多的方法。返回目錄二、信息檢索途徑●概念:信息檢索途徑是指數(shù)據(jù)庫中哪些字段和數(shù)據(jù)元素可作為檢索入口。例如,在《圖書館書目檢索系統(tǒng)中》檢索途徑的入口點(diǎn)為“檢索類型”返回目錄●類型:由于不同的檢索途徑,從不同的角度揭示文獻(xiàn)信息的內(nèi)涵,所以檢索途徑類型劃分如下:1.分類途徑分類途徑:依照規(guī)定的分類表(如《中圖法》),按文獻(xiàn)學(xué)科屬性查找文獻(xiàn)的途徑。例如在《圖書館數(shù)目檢索系統(tǒng)》中選擇的“檢索類型”為“分類號”,那么檢索途徑為“分類途徑”。優(yōu)缺點(diǎn):利用這種途徑便于查找某一學(xué)科或某一專業(yè)的文獻(xiàn)。但是隨著科學(xué)多元化的發(fā)展,對于交叉學(xué)科文獻(xiàn)的檢索困難較大。2.主題途徑主題途徑:指通過文獻(xiàn)信息的內(nèi)容主題進(jìn)行檢索的途徑,它依據(jù)的是各種主題索引或關(guān)鍵詞索引,檢索者只要根據(jù)項(xiàng)目確定檢索詞(主題詞或關(guān)鍵詞),便可以實(shí)施檢索。例如在《圖書館數(shù)目檢索系統(tǒng)》中選擇的“檢索類型”為“主題詞”,那么“檢索途徑”為“主題途徑”。優(yōu)缺點(diǎn):能滿足特性檢索要求,專指性強(qiáng);能適應(yīng)新興學(xué)科及多學(xué)科文獻(xiàn)檢索.只要根據(jù)新學(xué)科的出現(xiàn)、發(fā)展及多學(xué)科的需要,隨時(shí)增加主題詞,就能快速檢出所需文獻(xiàn)。但是主題詞選擇必須準(zhǔn)確,否則無法進(jìn)行查找;由于主題詞的規(guī)范性.輸入的主題詞必須完全正確.查找主題詞表較費(fèi)時(shí)間。為了迎合大眾需要,有些數(shù)據(jù)庫的檢索類型的“關(guān)鍵詞”選項(xiàng)也屬于“主題途徑”。這種關(guān)鍵詞是不加規(guī)范或略加規(guī)范的自然語言,又叫自由詞。因此,用戶可根據(jù)自己的需要,選擇熟悉的詞語進(jìn)行檢索,不用特意記憶或事先查找詞匯,比較方便。其缺點(diǎn)是容易漏檢,因而使用這種途徑進(jìn)行檢索時(shí),必須同時(shí)考慮多個同義詞、近義詞,以減少漏檢。3.著者途徑著者途徑:指根據(jù)已知文獻(xiàn)著者(指責(zé)任者、譯者、編者、撰者等)來查找文獻(xiàn)的途徑。例如在《圖書館數(shù)目檢索系統(tǒng)》中選擇的“檢索類型”為“責(zé)任者”,那么選擇途徑為“著者途徑”。4.其他途徑其他途徑:包括利用檢索工具的各種專用索引來檢索的途徑。專用索引的種類很多,常見的有各種號碼索引(如專利號、入藏號、報(bào)告號等),專用符號代碼索引(如元素符號、分子式、結(jié)構(gòu)式等),專用名詞術(shù)語索引(如地名、機(jī)構(gòu)名、商品名、生物屬名等)。返回目錄5.題名途徑(補(bǔ)充)題名途徑,是利用檢索入口點(diǎn)的“題名”項(xiàng)進(jìn)行檢索的一種檢索途徑。從檢索者角度來理解,“題名途徑”是根據(jù)文獻(xiàn)書名、刊名或者篇名來檢索的一種檢索途徑。《圖書館書目檢索系統(tǒng)中》的檢索入口點(diǎn)的檢索類型默認(rèn)為“題名”?!駥τ跓o法確定檢索所用的檢索詞是否是規(guī)范化的主題詞還是不規(guī)范的關(guān)鍵詞,可采取如下辦法:1、將檢索者自擬的檢索課題的標(biāo)題中的主要概念(也叫核心概念)抽取出來,調(diào)整位置,反復(fù)試查。例如研究課題為“數(shù)字藝術(shù)在影視作品中的展現(xiàn)”的主要概念是“數(shù)字藝術(shù)”、“影視作品”2、將擬定的標(biāo)題進(jìn)行切分、提取和擴(kuò)展⑴、概念的切分主要指的是詞語的切分,這種切分的一般方法是去掉課題表述中的虛詞和泛指的詞語,然后按照概念單元分成不能拆分的詞語。如“數(shù)字藝術(shù)在影視作品中的展現(xiàn)”可以分成“數(shù)字”、“藝術(shù)”、“影視作品”。利用中知網(wǎng)的期刊網(wǎng)(或者維普)檢索看看效果如何。⑵、提取主要檢索詞,少用輔助檢索詞,不用禁用詞主要檢索詞指與課題所研究的對象、方法有關(guān)的特指性事物名詞。如“數(shù)字藝術(shù)”、“影視作品”;輔助檢索詞指泛指性名詞,它們只在檢索結(jié)果過多需要限制時(shí)候使用。如“展現(xiàn)”;禁用詞指介詞、連詞等虛詞。如“關(guān)”“在”“的”等。分析提取“關(guān)于中國唐詩的韻律研究”的主要檢索詞:“唐詩”和“韻律”.⑶、概念的擴(kuò)展

①同義詞擴(kuò)展如“腳踏車、單車和自行車”,“internet與因特網(wǎng)”,“漢語與中文”,“畫畫與繪畫”等②反義詞擴(kuò)展如“安全與危險(xiǎn)”,“廉潔與腐敗”、“獎勵與懲罰”等概念擴(kuò)展——又分為“上位概念擴(kuò)展”、“下位概念擴(kuò)展”與“隱含概念擴(kuò)展”⑶、概念的擴(kuò)展③“上位概念擴(kuò)展”主要用于分析檢索對象的學(xué)科屬性,如“唐詩與古詩”,“剪紙與民間藝術(shù)”等;“下位概念擴(kuò)展”又稱概念分析的樹形展開法,例如,

民間藝術(shù):剪紙、中國結(jié)、剪刻、木偶、魔術(shù)、皮影戲“隱含概念擴(kuò)展”主要指那些隱含在課題標(biāo)題中與課題相關(guān)的概念,例如“外資管理”中的“管理”隱含“法規(guī)”等具體的管理方法。對于多數(shù)課題,同時(shí)使用顯見的概念和隱含概念,可以提高檢索的查全率。例如:檢索課題

“廣告語言修辭藝術(shù)研究”分析并提取概念詞:廣告;廣告詞、廣告語、廣告語言;修辭,修辭藝術(shù),修辭格。檢索課題“中學(xué)語文課課改探索”分析并提取概念詞:中學(xué),初中,高中;語文課;教學(xué),課改,教改。注意:分析并提取主題概念是進(jìn)行檢索的第一步,輸入到檢索框去的檢索詞就是從這些主題概念入手!

補(bǔ)充內(nèi)容:檢索策略一、檢索策略定義檢索策略是為達(dá)到檢索目標(biāo)而制定的具體檢索方案或?qū)Σ?。在?shí)際檢索過程中,僅需一個檢索詞就能滿足檢索要求的情況并不很多。通常要使用多個檢索詞構(gòu)成檢索策略,以滿足由多概念組配而成的較為復(fù)雜課題的要求。

因此,檢索策略,又稱提問式,就是對多個檢索詞之間的相互關(guān)系和檢索順序作出的某種安排.

在計(jì)算機(jī)檢索中,構(gòu)成檢索策略就是運(yùn)用計(jì)算機(jī)信息檢索系統(tǒng)可以接受的方法,包括布爾邏輯算符、優(yōu)先算符、位置算符、截詞算符等方法,表達(dá)課題檢索要求的過程。(將在第四節(jié)“計(jì)算機(jī)檢索”中詳細(xì)分析)

三、信息檢索程序返回目錄一、計(jì)算機(jī)信息檢索基本知識1.檢索原理計(jì)算機(jī)信息檢索:指人們在計(jì)算機(jī)或網(wǎng)絡(luò)終端上使用特定的檢索指令、檢索詞和檢索策略,從計(jì)算機(jī)檢索系統(tǒng)的數(shù)據(jù)庫中檢索出所需的信息,然后再由終端設(shè)備顯示、打印的過程。計(jì)算機(jī)信息檢索廣義上講包括信息的存儲和檢索兩個方面。第四節(jié)計(jì)算機(jī)信息檢索返回目錄計(jì)算機(jī)信息存儲過程:將收集到的原始文獻(xiàn)進(jìn)行主題概念分析,根據(jù)一定的檢索語言抽取出主題詞、分類號以及文獻(xiàn)的其他特征進(jìn)行標(biāo)識或者寫出文獻(xiàn)的內(nèi)容摘要。然后再把這些經(jīng)過處理的數(shù)據(jù)按一定格式輸入計(jì)算機(jī)存儲起來,形成機(jī)讀數(shù)據(jù)庫,存儲在存儲介質(zhì)(如磁帶、磁盤或光盤)上,完成信息的加工存儲過程。返回目錄計(jì)算機(jī)信息檢索過程:指用戶對檢索課題加以分析,明確檢索范圍,弄清主題概念,然后用系統(tǒng)檢索語言來表示主題概念,形成檢索標(biāo)識及檢索策略,輸入到計(jì)算機(jī)進(jìn)行檢索。計(jì)算機(jī)按照用戶的要求將檢索策略轉(zhuǎn)換成一系列提問,在專用程序的控制下進(jìn)行高速邏輯運(yùn)算,選出符合要求的信息輸出。返回目錄2.檢索系統(tǒng)的組成計(jì)算機(jī)通信網(wǎng)絡(luò)檢索終端設(shè)備數(shù)據(jù)庫計(jì)算機(jī)信息檢索系統(tǒng)返回目錄3.數(shù)據(jù)庫的類型與構(gòu)成⑴數(shù)據(jù)庫的類型按照數(shù)據(jù)庫所含信息的內(nèi)容可以劃分為以下幾種類型:①文獻(xiàn)書目數(shù)據(jù)庫(二次文獻(xiàn)數(shù)據(jù)庫),如“圖書館書目檢索系統(tǒng)”②信息指南數(shù)據(jù)庫(事實(shí)數(shù)據(jù)庫),如“天涯在線書庫—人物傳記”③數(shù)值型數(shù)據(jù)庫(各種調(diào)查數(shù)據(jù)或統(tǒng)計(jì)數(shù)據(jù)),如,“CNKI數(shù)字搜索”④全文數(shù)據(jù)庫,如“CNKI數(shù)據(jù)庫”⑤多媒體數(shù)據(jù)庫,如“超星名師講壇”返回目錄⑵數(shù)據(jù)庫的構(gòu)成①文檔:是書目數(shù)據(jù)庫和文獻(xiàn)檢索系統(tǒng)中數(shù)據(jù)組成的基本形式,是由若干個邏輯記錄構(gòu)成的信息集合。②記錄:是數(shù)據(jù)庫文檔的基本單元,是對某一實(shí)體屬性進(jìn)行描述的結(jié)果。③字段(重點(diǎn)掌握,參看課本表2-1):是構(gòu)成記錄的最小信息單元?!鸨憩F(xiàn)文獻(xiàn)內(nèi)容特征的字段有哪些?表現(xiàn)文獻(xiàn)外表特征的字段有哪些?○中國期刊全文數(shù)據(jù)庫的字段中哪些是表現(xiàn)文獻(xiàn)的內(nèi)容特征的?哪些是表現(xiàn)外表特征的?返回目錄4.檢索類型⑴聯(lián)機(jī)檢索:是由一臺主機(jī)帶多個終端的信息檢索類型。⑵光盤檢索:指利用計(jì)算機(jī)設(shè)備對只讀式光盤數(shù)據(jù)庫(CD-ROM)進(jìn)行檢索。⑶網(wǎng)絡(luò)檢索:指利用計(jì)算機(jī)設(shè)備和國際互聯(lián)網(wǎng)(Internet)檢索網(wǎng)上各服務(wù)器站點(diǎn)的信息類型。返回目錄二、計(jì)算機(jī)信息檢索基本技術(shù)1.布爾檢索⑴邏輯“與”:用AND或“*”“并且”表示,是用于概念之間相交關(guān)系運(yùn)算。意思是:檢索同時(shí)含有A和B的記錄,它是表示概念交叉和限定關(guān)系的一種組配。運(yùn)算結(jié)果是陰影部分。這種組配可以縮小檢索范圍,有利于提高查準(zhǔn)率。返回目錄ABA=中國,B=文學(xué);AandB=中國并且文學(xué);檢索“中國”和“文學(xué)”的交集記錄。⑵邏輯“或”:用OR或“+”表示,是用于概念之間相并關(guān)系運(yùn)算。意思是:檢索或者含有A,或者含有B,或者同時(shí)含有A和B的記錄。運(yùn)算結(jié)果是陰影部分。這種組配可以擴(kuò)大檢索范圍,防止漏檢,提高查全率。返回目錄ABA=兒歌,B=童謠;AORB=兒歌或者童謠;檢索“兒歌”和“童謠”的并列集合記錄。⑶邏輯“非”:用NOT或“-”“不包含”表示,是用于從某一檢索范圍中排除不需要的概念。它是表示概念刪除關(guān)系的一種組配。運(yùn)算結(jié)果是陰影部分。這種組配可以縮小檢索范圍,使檢索結(jié)果更準(zhǔn)確。返回目錄ABA=專利,B=德國;ANOTB=專利不包含德國;檢索“專利”中不包含“德國”的記錄。需要指出的是,由于布爾邏輯運(yùn)算符的優(yōu)先級別不同,三者當(dāng)中:邏輯非的優(yōu)先級最高,邏輯與的優(yōu)先級次之,邏輯或的優(yōu)先級別最低。因此必要時(shí)可在提問式中添加括號,以改變運(yùn)算的優(yōu)先級。請比較:

計(jì)算機(jī)or自動化and圖書館

(計(jì)算機(jī)or自動化)and圖書館

因此利用三個邏輯運(yùn)算符加括號,可以將檢索詞組配成較為復(fù)雜的邏輯提問式。布爾邏輯檢索是一種被廣泛應(yīng)用的計(jì)算機(jī)檢索方法。2.位置檢索⑴鄰近位置算符(W)或()—With:表示算符兩側(cè)的檢索詞相鄰,且兩者之間允許只有一個空格或標(biāo)點(diǎn)符號,不允許有任何字母或詞,順序不能顛倒。如:經(jīng)濟(jì)()數(shù)學(xué)→經(jīng)濟(jì)數(shù)學(xué),Aircraft()design→Aircraftdesign,Computer()aided()design→Computeraideddesign⑵鄰詞位置算符(nW)—nWords:表示在此算符兩側(cè)的檢索詞之間最多允許間隔n個詞(實(shí)詞或虛詞),且兩者的相對位置不能顛倒。返回目錄如:laser(1w)printer→laserprinter和lasercolorprinter⑶(N)—Near:表示該算符兩側(cè)的檢索詞相鄰,但兩者的相對位置可以顛倒。如:computer(N)network→computernetwork、networkcomputer⑷(nN)—nNear:表示此算符兩側(cè)的檢索詞之間允許間隔最多n個詞,且兩者的順序可以顛倒。如:computer(2N)system→computercodesystem,computeraideddesignsystem,systemusingmoderncomputer

返回目錄注意:(N)與(nN)算符的區(qū)別。(N)是near的縮寫,表示其連接的兩個檢索詞必須相鄰,詞序不限,兩詞間不允許插詞,但允許有一空格或標(biāo)點(diǎn)符號。(nN)表示兩詞間允許插入最多n個詞,詞序不限.如:internet(N)accessing;命中記錄中出現(xiàn)的匹配詞可能有:internetaccessing,accessinginternet。而:internet(1N)accessing;命中記錄中除上例的外,還會可能有:accessingtheinternet,internet/intranetaccessing等。⑸(S)—Subfield:表示其兩側(cè)的檢索詞必須是在文獻(xiàn)記錄的同一子字段中,而不限定它們在該子字段中的相對次序和相對位置的距離。如:computer()control(S)system→Thispaperisconcernedwithanapplicationofthecomputercontroltechniqueinaintelligentsystemfortestinginnerwallsofpipes.

⑹字段位置算符(F)—Field:表示其兩側(cè)的檢索詞必須是在文獻(xiàn)記錄的同一字段中,如標(biāo)題詞字段、敘詞字段、文摘字段等,而它們在該字段中的相對次序和相對位置的距離不限。如:water()pollution(F)control→在同一字段中同時(shí)含有waterpollution和control返回目錄⑺(L)—Link:表示其兩側(cè)的檢索詞之間有主從關(guān)系,前者為主,后者為副??捎脕磉B接主、副標(biāo)題詞。它們出現(xiàn)在記錄的規(guī)范詞字段。命中記錄的規(guī)范詞字段如:television(L)highdefinition→可能出現(xiàn)的匹配詞是:TELEVISION-Highdefinition⑻(C)—Citation:表示算符兩側(cè)的檢索詞可以不分字段、不按順序,只要檢索詞出現(xiàn)在一篇文獻(xiàn)記錄即算命中。如:computer(c)design等同于computer

anddesign3.截詞檢索截詞檢索:就是用截?cái)嗟脑~的一個局部進(jìn)行的檢索。按截?cái)嗟奈恢脕矸?,截詞可有后截?cái)?、前截?cái)?、中截?cái)嗳N類型。按截詞的長度可分為有限截?cái)嗪蜔o限截?cái)?。常用的截詞符有?、$、*等。返回目錄⑴、后截?cái)唷3謾z索詞前方的一致性。后方截?cái)?,也稱前方一致。它是將截詞符號置于檢索詞干的右方,用以表示其右方可以有有限個字符或無限個字符的變化。因此,后方截?cái)嘤址譃橛邢藿財(cái)嗪蜔o限截?cái)鄡煞N情況。例如:system??可以同時(shí)檢索出含有system和systems的文獻(xiàn)。這樣就可以避免因檢索詞的單復(fù)數(shù)變化而造成的漏檢。⑵、前截?cái)唷3謾z索詞后方的一致性。如:computer如果要把含有這些詞的文獻(xiàn)microcomputer記錄全部檢索出來,可輸入:minicomputer?computer⑶、中截?cái)唷獧z索詞中有一部分不一致。如:organisationwomanorganizationwomen

如果要把含有這些詞的文獻(xiàn)記錄全部檢索出來,可輸入:

organi?ation

wom?n4.字段限定檢索字段限定檢索:指限定檢索詞在數(shù)據(jù)庫記錄中的一個或幾個字段范圍內(nèi)查找的一種檢索方法。字段檢索可分為兩類:后綴式(Suffix)和前綴式(Pref

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論