第二講文獻(xiàn)信息檢索的基本原理和過程.ppt_第1頁
第二講文獻(xiàn)信息檢索的基本原理和過程.ppt_第2頁
第二講文獻(xiàn)信息檢索的基本原理和過程.ppt_第3頁
第二講文獻(xiàn)信息檢索的基本原理和過程.ppt_第4頁
第二講文獻(xiàn)信息檢索的基本原理和過程.ppt_第5頁
已閱讀5頁,還剩195頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、科技文獻(xiàn)檢索,套用阮岡納贊的圖書館定律 為信息找人 為人找信息 為信息找需要的人 為人找需要的信息,文獻(xiàn)檢索基本原理圖,文獻(xiàn)信息檢索 的基本原理和過程,1檢索的本質(zhì) 一種搜索過程 從已存儲(chǔ)的文獻(xiàn)資源中找出與需求相關(guān)的文獻(xiàn) 匹配: 信息需求信息集合,信息檢索的原理(示意圖),信息集合,需求集合,特征化,表示,表示,特征化,選擇與匹配,存儲(chǔ),查詢,信息檢索的過程往往需要一個(gè)評(píng)價(jià)反饋途徑,多次比較匹配,以獲得最終的檢索結(jié)果。其圖示如下:,檢索系統(tǒng),檢索工具: 目錄、索引,字典,漢語拼音音節(jié)索引,部首檢字表,用拼音著錄漢字,用部首著錄漢字,檢索途徑,檢索語言,漢字,文獻(xiàn)檢索的概念(p20),2 檢索工

2、具的概念 報(bào)道、存貯和查找文獻(xiàn)的工具 兩方面的職能: 存儲(chǔ)職能:著錄文獻(xiàn)的特征,依據(jù)一定的規(guī)律組織排列,使文獻(xiàn)由無序變?yōu)橛行颉?檢索職能:能夠從中檢出所需要的文獻(xiàn)線索“ 書海指南”,3 檢索工具的類型,目錄(bibliography,catalogue) 題錄(title) 文摘(abstract) 索引(index) 文獻(xiàn)數(shù)據(jù)庫(database),3.1 目錄,特點(diǎn):以單位出版物為著錄對(duì)象只著錄外部特征 著錄款目為:書名,刊名,著者或編者,出版項(xiàng),頁數(shù)等。如全國(guó)總書目全國(guó)新書目 公共書目查詢 OPAC系統(tǒng)online public access catalog 反映圖書館的館藏情況及收藏地

3、點(diǎn) 目前圖書、期刊(包括電子期刊)及多媒體光盤等資源均統(tǒng)一編目,可以在同一個(gè)檢索界面下得到館藏信息。 聯(lián)合目錄 反映多個(gè)圖書館的館藏情況,是解決本館缺藏資料的有用工具 全國(guó)西文期刊聯(lián)合目錄,目錄(Bibliography Catalogue) 它是歷史上出現(xiàn)較早的一種檢索工具。我國(guó)西漢的劉向、劉歆的別錄、七略是我國(guó)歷史上最早的目錄。 出版發(fā)行目錄:為圖書發(fā)行與銷售而編制的目錄,其目的是預(yù)告即將出版的新書,通報(bào)在版的圖書和書商的存書。 館藏目錄:它是反映某個(gè)圖書館藏書情況,是幫助讀者查找和借閱圖書的工具。 有分類目錄、書名目錄、著者目錄。 聯(lián)合目錄:指由一批圖書館合作編制的,綜合反映各成員館某一

4、方面圖書收藏情況的目錄。如圖書聯(lián)合目錄,期刊聯(lián)合目錄。 資料來源目錄:就是文摘刊物所摘錄過的一次情報(bào)源目錄(又稱資料來源索引和引用期刊目錄),通過Internet 查詢館藏聯(lián)機(jī)公共書目,1、OPAC 原意:開放的公共查詢目錄(Open Public Access Catalogue) 現(xiàn)意:聯(lián)機(jī)公共查詢目錄(Online Public Access Catalogue) 聯(lián)機(jī)公共書目(Online Public Access Catalogue,OPAC)查詢是網(wǎng)上圖書館提供的一項(xiàng)最基本的、也是最重要的信息查詢服務(wù)。 通過查詢圖書館OPAC ,了解圖書館是否收藏所需期刊以及其流通借閱狀況,以決

5、定自己是否去圖書館借閱。,聯(lián)機(jī)書目的用途,TIPS:,分類號(hào)是分類檢索的重要線索,TIPS:,查看借閱狀態(tài)以決定是否到館借閱,?,用分類號(hào)檢索與用關(guān)鍵詞/主題詞檢索的各自的優(yōu)缺點(diǎn),3.2 題錄,以單篇文獻(xiàn)為著錄對(duì)象只著錄外部特征 著錄項(xiàng)目及格式: 順序號(hào).正題名=并列題名類型,文種/主要著者;其它著者/文獻(xiàn)出處項(xiàng)(出版物名稱. 年,卷,期,. 頁) 例如:200008568 我國(guó)食品與包裝機(jī)械市場(chǎng)預(yù)測(cè)刊 /田恒真(中國(guó)農(nóng)機(jī)院食品研究所)/包裝與食品機(jī)械. 2000, 18(1) . 1-5,3.3 文 摘,是以“篇”為單位描述文獻(xiàn)的外部特征和簡(jiǎn)介文獻(xiàn)的內(nèi)容要點(diǎn)、由許多文摘款目構(gòu)成并經(jīng)過組織編排

6、的一種檢索工具。又稱文摘雜志(abstract journal,abstracting journal)、文摘刊物,可以看作一種帶有摘要的題錄,它是二次文獻(xiàn)的核心。如美國(guó)的化學(xué)文摘、 CNKI的中國(guó)期刊全文數(shù)據(jù)庫。,037840 Algorithm for fuzzy multi-criteria decision-making. This paper presents a new algorithm for solving the general fuzzy multi-criteria decision making(MCDM) problem involving fuzzy data e

7、xpressed by means of linguistic terms. (Author abstract) 14 Refs,English. Yeh,Chung-hsing(Monash Univ,Clayton,Aust);Deng,Hepu. Proc IEEE Int Conf Intell Process Syst ICIP v.2.1998 Proceeding of Systems,ICIPS. Part 2(of 2), Beijing,China,IEEE,Piscataway,NJ,USA,p1564-1568.,索引,確切地說,索引是將文獻(xiàn)的各種知識(shí)單元按一定的原則和

8、方法組織編制而成的檢索工具;或是將文獻(xiàn)中具有檢索意義的文獻(xiàn)特征標(biāo)識(shí)(文獻(xiàn)題名、著者、分類號(hào)、主題詞、序號(hào)等)加以編排,并注明文獻(xiàn)地址供檢索使用的檢索工具。一般作為目錄、文摘、題錄等檢索工具的輔助索引而存在,如全國(guó)報(bào)刊索引后附的“作者索引”、CA的“Keyword Index” 等。但也可單獨(dú)出版,如十三經(jīng)索引。 有時(shí),索引與題錄、文摘名稱混用,如全國(guó)報(bào)刊索引、美國(guó)“四大索引”(四大檢索工具) 四大檢索工具:指SCI(Science Citation Index,科學(xué)引文索引) 、EI(The Engineering Index,工程索引)、ISTP(Index to Scientific &

9、Technical Proceedings,科技會(huì)議錄索引)和 ISR(Index to Science Review,科學(xué)評(píng)論索引) ,是國(guó)際公認(rèn)的四大權(quán)威(索引)檢索工具。 三大檢索工具: SCI、 EI、 ISTP。,為什么要編索引? 目錄、題錄、文摘的款目相當(dāng)多,查起來很不方便。 索引是怎樣產(chǎn)生的:是將文摘款目、題錄款目、目錄款目中的知識(shí)單元,如題名、著者、主題詞、地名、符號(hào)等分別摘錄下來,并按一定的順序排列,注明相應(yīng)的頁碼、文摘號(hào)或題錄號(hào)?!皺z索工具之需要索引猶如行船需要舵”,船沒有舵就不能航行,檢索工具沒有索引很快就會(huì)成為一堆廢紙,甚至就不能成其為檢索工具了。,幾種常用的索引:,題

10、名索引: 這種索引就是把每篇文獻(xiàn)的題名抽出來,按一定的順序排列起來,并注明出處(頁碼或文摘號(hào)),一般按題名的漢語拼音音序排列,第一個(gè)字相同時(shí),再按第二個(gè)字排列,以此類推。 例如:輪船技術(shù)的發(fā)展 (l) 3頁 汽車的后輪定位 (q、ch) 1頁 汽缸的保養(yǎng) (q、g) 6頁,著者索引:,這種索引就是把每一篇文獻(xiàn)的著者抽出來,按一定的順序排列起來,并注明相應(yīng)的頁碼或文摘號(hào)。 我國(guó)編制的著者索引多是按著者姓名的第一個(gè)字的漢語拼音音序排列。第一個(gè)字相同時(shí),再按第二個(gè)字順序排列,以此類推,外文名字按外文字母順序排列,主題索引,什么是主題詞:主題詞就是用規(guī)范化的詞語來標(biāo)引文獻(xiàn)的主題概念的詞,這個(gè)詞就叫主題

11、詞(后面講檢索語言時(shí)要詳細(xì)介紹)。 主題索引:就是把每一篇文獻(xiàn)的主題詞分別抽出來,按一定的順序排列起來,一般是用詞的第一個(gè)字母的漢語拼音順序排列,然后注明出處(頁碼或文摘號(hào))。,分類索引,分類索引是把每一篇文獻(xiàn)的分類號(hào)(用分類號(hào)標(biāo)引文獻(xiàn)主題內(nèi)容)抽出來,按照特定分類法的類目體系進(jìn)行編排的一種索引。并在類號(hào)后面注明相應(yīng)的出版 國(guó)內(nèi)外絕大多數(shù)檢索工具都編有此種索引,檢索時(shí)首先根據(jù)所查課題內(nèi)容確定分類號(hào),利用分類索引找到相對(duì)應(yīng)的出處(頁),然后根據(jù)出處到正文中查到所需文獻(xiàn)的線索,著者索引為,ch 陳志國(guó) 9607055 h 黃忠輝 9607082 m 毛榮華 9607071 s 孫淑香 960705

12、5,題名索引,G F 高坊嶺互通式立交橋設(shè)計(jì) 9607055 G L 公路工程造價(jià)控制淺議 9607071 N 南北高架道路 9607082,主題索引,高架橋 9607082 公路工程 9607055 互通立交 9607071,4檢索的手段 手工檢索檢: 書本型工具(目錄索 引)計(jì)算機(jī)檢索: 文獻(xiàn)數(shù)據(jù)庫系統(tǒng),5檢索的類型 事實(shí)檢索 事實(shí)fact 數(shù)據(jù)data (直接, 確定) Reference book Numeric Database Property Database Textual-numeric Database Full-text Database 目錄檢索 目錄 catalog

13、文獻(xiàn)索引index, 文摘abstracts (間接相關(guān)) 圖書/報(bào)刊/資料目錄 :中國(guó)國(guó)家書目 全國(guó)總書目 Book in Print 美國(guó)Bowker 收藏: 館藏目錄 聯(lián)合目錄(Union Catalog) 媒體: 印刷型目錄 機(jī)讀型目錄 MARC Online Public Access Catalog(OPAC) 聯(lián)機(jī)公共檢索目錄 OCLC: Online Computer Library Center全文檢索 全文數(shù)據(jù)庫檢索(full-text database) 如:中國(guó)期刊網(wǎng),1)事實(shí)檢索,事實(shí)檢索是對(duì)包括事實(shí)(fact)、數(shù)值(numeric data)與全文(full-te

14、xt)的檢索,提供原始信息,給出直接、確定性的答案。它回答的問題諸如: “我國(guó)最近一年在SCI上被收錄的文獻(xiàn)量是多少?” “有哪些海外華人得過諾貝爾獎(jiǎng)?” 工具: 字典、詞典(dictionary) 百科全書(encyclopedia) 年鑒(annual, yearbook, almanac) 手冊(cè)(handbook, manual) 名錄(biography)和書目指南(directory) 數(shù)據(jù)庫屬于源數(shù)據(jù)庫:全文數(shù)據(jù)庫、數(shù)值數(shù)據(jù)庫、文本數(shù)值數(shù)據(jù)庫、術(shù)語數(shù)據(jù)庫、圖象數(shù)據(jù)庫、多媒體數(shù)據(jù)庫,2)目錄檢索:目錄檢索是間接的、相關(guān)性檢索,給出來源文獻(xiàn)線索,指引原始文獻(xiàn)。,按性質(zhì):登記書目(出版、

15、館藏情況)、科學(xué)通報(bào)書目等;按所涉的學(xué)科范圍:綜合書目、專科書目、專題書目等;按所涉的時(shí)間范圍:回溯書目、在版書目、新書書目等;按收錄的文獻(xiàn)類型:圖書目錄、報(bào)刊目錄、來源目錄等;按所涉的地域:國(guó)家書目、聯(lián)合目錄和館藏目錄等;按其媒體:卡片目錄、書本目錄、磁帶目錄和機(jī)讀目錄等。 目錄檢索系統(tǒng)數(shù)據(jù)庫屬參考數(shù)據(jù)庫。 經(jīng)常使用的目錄有:館藏目錄、聯(lián)合目錄、機(jī)讀目錄等,3)文摘索引檢索,文摘索引檢索是一種參考型、相關(guān)性的檢索,提供相關(guān)參考文獻(xiàn)的線索,包括文獻(xiàn)來源出處(source),也常帶有文獻(xiàn)的內(nèi)容摘要,但不是文獻(xiàn)原文。EI、SCI、INSPEC等 文摘索引檢索是能揭示到文章、論文級(jí)(article-

16、level)的檢索,這些文章大量的是來自期刊及會(huì)議論文集。按其報(bào)道的學(xué)科范圍:綜合性和專業(yè)性檢索工具;按其取材范圍:多種出版物類型和單一出版物類型工具;按其著錄方式:題錄型和文摘型檢索工具;按其媒體:書本型、電子型檢索工具等。,6 檢索途徑(檢索點(diǎn)),用文獻(xiàn)各種內(nèi)外特征,作為檢索出發(fā)點(diǎn), 從不同角度來檢索文獻(xiàn)信息. 作者(文章的責(zé)任者)根據(jù)著者姓名檢索文獻(xiàn)的途徑 篇名(或題名)根據(jù)文獻(xiàn)篇名檢索文獻(xiàn)的途徑。 機(jī)構(gòu)(如浙江工業(yè)大學(xué)) 關(guān)鍵詞(如污水處理、高層建筑)利用關(guān)鍵詞索引,根據(jù)關(guān)鍵詞字順檢索文獻(xiàn)的途徑。關(guān)鍵詞是不加規(guī)范或略加規(guī)范的自然語言。 主題詞(規(guī)范化的主題概念,如用激光不用雷射)通過文

17、獻(xiàn)的內(nèi)容主題檢索文獻(xiàn)的途徑。主題詞是規(guī)范化的名詞術(shù)語,其規(guī)范工具是主題詞表。 文摘(論文或圖書的摘要或內(nèi)容提要) 引文(即參考文獻(xiàn)) 基金(如國(guó)家自然科學(xué)基金項(xiàng)目) 刊名(期刊的名稱) 全文(或者全記錄),EI的檢索實(shí)例,檢索標(biāo)識(shí)種類,反映文獻(xiàn)外部特征 檢索標(biāo)識(shí),反映文獻(xiàn)內(nèi)容特征 檢索標(biāo)識(shí),著者,文獻(xiàn)序號(hào),篇名 出版社,分類號(hào),主題詞,關(guān)鍵詞,人工語言,自然語言,分類語言,7 檢索語言及標(biāo)引方法,概念及原理 描述文獻(xiàn)信息特征和表達(dá)檢索提問的人工語言。 檢索語言在標(biāo)引和檢索過程中的作用見下圖:,不同的檢索語言構(gòu)成不同的標(biāo)目及其索引系統(tǒng),提供各種檢索點(diǎn)。,檢索語言的種類,中國(guó)圖書館分類法(第4版)

18、,中圖法簡(jiǎn)表,O 數(shù)理化 一級(jí)類目 O1 數(shù)學(xué) 二級(jí)類目 O3 力學(xué) 二級(jí)類目 O31 理論力學(xué) 三級(jí)類目 O311 運(yùn)動(dòng)學(xué) 四級(jí)類目 .1 質(zhì)點(diǎn)運(yùn)動(dòng) 五級(jí)類目 O4 物理學(xué) 二級(jí)類目,中國(guó)圖書館分類法樣例,中圖法基本類表和輔助表,(1) 基本類表:用于類分圖書。 (2) 輔助表:又分通用復(fù)分表和專用復(fù)分表二種。 通用復(fù)分表又分: 總論復(fù)分表 中國(guó)時(shí)代表 世界地區(qū)表 世界種族與民族表 中國(guó)地區(qū)表 中國(guó)種族與民族表 國(guó)際時(shí)代表 通用時(shí)間、地點(diǎn)表。 專用復(fù)分表是僅適用于某一大類或?qū)iT學(xué)科的復(fù)分表,編制“專類復(fù)分表”,供需要復(fù)分的各類仿照復(fù)分。,分類標(biāo)引方法: 崔文風(fēng)著 心理與人生發(fā)展心理教子成長(zhǎng)

19、心理與人生完善心理事事成功 心理與人生調(diào)節(jié)心理強(qiáng)身治病 分別分入: G78、 B848.4 和R395.6-49,圖書的排架順序: 分類號(hào):先英文字母排,后阿拉伯?dāng)?shù)字按小數(shù)制排 書次號(hào): 分類號(hào)相同的,再按書次號(hào)的順序排 H31,H313,H313-44,H313.1, ; H315, ; H316,;H32,H326,;H33, ;H336,索書號(hào)(call number) 又稱為排架號(hào),反映了某種圖書在整個(gè)圖書組織中的排列次序和在書庫中的具體位置(架位) 組成:分類號(hào)書次號(hào) 分類號(hào):按學(xué)科分類圖書 書次號(hào):同類書的排列 O13/245, O175/25, O189.1/2,中國(guó)圖書館圖書分

20、類法,杜威十進(jìn)分類法 (DDC) ( Dawey Decimal Classification and Related Index ) 是世界上比較流行,也比較權(quán)威的一種圖書分類方法。由美國(guó)圖書館學(xué)家麥維爾杜威于1876年首創(chuàng),它由大類、門、綱、目、子目等組成。 它將全部學(xué)科的書刊分為九大類,用1到9間的數(shù)字表示,不屬于這九類中的圖書為第0類。每一大類下再分1到9個(gè)子類,依此類分下去。,000 總論 100 哲學(xué) 宗教 社會(huì)科學(xué) 語言學(xué) 純粹科學(xué) 技術(shù)科學(xué) 美術(shù) 800 文學(xué) 900 歷史,國(guó)際十進(jìn)分類法(UDC),UDC已有23種語言的版本。 UDC的類目表主要由主表與輔助符號(hào)、輔助表組成。

21、UDC的主表把全部知識(shí)分為十大門類,每一類下分大綱、目、分目。UDC基本分類如,0 總論 1 哲學(xué)、心理學(xué) 2 宗教、神學(xué) 3 社會(huì)科學(xué)、法律、行政 4 語言學(xué) 5 數(shù)學(xué)、自然科學(xué) 6 應(yīng)用科學(xué)、醫(yī)學(xué)、工學(xué)、農(nóng)學(xué) 7 藝術(shù)、美術(shù)、攝影、音樂、娛樂、競(jìng)技 8 語言學(xué)、文學(xué) 9 地理、傳記、歷史,美國(guó)國(guó)會(huì)圖書館分類法各大類及其順序如下: AGeneral Works (總類) BPhilosophy. Psychology. Religion (哲學(xué)/心理學(xué)/宗教) CAuxiliary Sciences of History (歷史輔助科學(xué)) D-FHistory (歷史) GGeography

22、. Maps. Anthropology. Recreation (地理/地 圖/人類學(xué)/休閒娛樂) HSocial Sciences (社會(huì)科學(xué)) JPolitical Science (政治科學(xué)) KLaw (法律) LEducation (教育) MMusic (音樂) NFine Arts (美術(shù)) PLiterature & Linguistics (文學(xué)/語言學(xué)) QScience (自然科學(xué)) RMedicine (醫(yī)學(xué)) SAgriculture (農(nóng)業(yè)) TTechnology (技術(shù)) UMilitary Science (軍事學(xué)) VNaval Science (海事科學(xué)

23、) ZBibliography. Library Science (書目學(xué)/圖書館學(xué)),直接查找法 熟悉分類表,按學(xué)科體系從大類開始逐級(jí)查找 l 對(duì)于只存在一個(gè)主題的課題,方法就較簡(jiǎn)單。如“機(jī)械手”。當(dāng)要求的主題過于狹窄,沒有相應(yīng)類目存在,可歸屬在其上位類。 l 對(duì)于包含有兩個(gè)以上主題內(nèi)容的課題,如“機(jī)械手的控制系統(tǒng)”涉及“機(jī)械手”和“控制系統(tǒng)”兩個(gè)主題概念,這時(shí)應(yīng)考慮它們的主從關(guān)系,在這個(gè)課題中研究的是僅針對(duì)機(jī)械手而言的控制系統(tǒng),可以說是控制系統(tǒng)在機(jī)械手中的應(yīng)用,當(dāng)研究某種理論、方法、工藝等在某領(lǐng)域的應(yīng)用時(shí),應(yīng)分在其應(yīng)用的類目,即“機(jī)械手”所在類目。,確定分類號(hào)的方法有以下二種:,l 對(duì)有兩

24、個(gè)主題,又沒有主次或應(yīng)用關(guān)系的課題,則在檢索相關(guān)文獻(xiàn)時(shí)應(yīng)分別在兩個(gè)分類號(hào)或兩個(gè)主題領(lǐng)域中查找。如加入WTO對(duì)我國(guó)紡織業(yè)的影響。 間接獲取分類號(hào)法 當(dāng)手頭有現(xiàn)成的對(duì)口文獻(xiàn)或通過其它方法如主題方法查到的對(duì)口文獻(xiàn),則可利用該文獻(xiàn)標(biāo)出的分類號(hào),進(jìn)行分類查找。,我館館藏中“英語”方面的藏書情況,(2)主題法,主題整序的步驟通常是依據(jù)信息單元的內(nèi)容選取38個(gè)主題詞,然后再將各信息單元按主題詞字順為序排列。主題詞的選取必須滿足以下要求:必須從被整序的信息單元所包含的內(nèi)容中選??;必須是能夠代表信息單元主題的詞語,盡可能地使其概念單一、準(zhǔn)確;盡可能地選擇規(guī)范詞,學(xué)術(shù)性文獻(xiàn)應(yīng)選擇正式出版的漢語主題詞表中所列的規(guī)范

25、詞,公文用主題詞應(yīng)選擇國(guó)務(wù)院辦公廳發(fā)布的國(guó)務(wù)院公文主題詞表中所列的規(guī)范詞。,如果實(shí)在沒有規(guī)范詞,或不熟悉主題詞表,可采用本學(xué)科內(nèi)使用比較通用的、使用頻率較高的詞語。這些非規(guī)范的詞被稱為“關(guān)鍵詞”。,主題語言,由主題詞匯構(gòu)成,即將自然語言中的名詞術(shù)語經(jīng)過規(guī)范化后直接作為信息標(biāo)識(shí),揭示主題概念之間的關(guān)系。 主題語言表達(dá)的概念比較準(zhǔn)確,具有專指性,不同的專業(yè)領(lǐng)域或不同的數(shù)據(jù)庫(一般為外文數(shù)據(jù)庫)有自己的主題詞表。,主題語言,1 關(guān)鍵詞 2 敘詞 3 標(biāo)題詞,屬規(guī)范化詞匯,屬自然語言,關(guān)鍵詞,關(guān)鍵詞檢索為大多數(shù)計(jì)算機(jī)檢索系統(tǒng)采用。 使用直接來自文獻(xiàn)或用戶提問的一類檢索語言。 優(yōu)點(diǎn):關(guān)鍵詞檢索文獻(xiàn)既方便

26、又準(zhǔn)確,不受詞表控制,能及時(shí)檢索到最新概念的各類文獻(xiàn)??扇我膺x取專指性強(qiáng)的詞語,提高查準(zhǔn)率。詞量大。 缺點(diǎn):容易產(chǎn)生的誤檢、漏檢。原因有: 1.取名的多樣:同物異名、全名與簡(jiǎn)稱、異稱(學(xué)名、俗名、音譯名。) 2. 構(gòu)詞的多樣:派生詞、單復(fù)數(shù)、拼寫變體 3. 大量的復(fù)合詞,例有一篇名為“計(jì)算機(jī)在神經(jīng)生物學(xué)與行為學(xué) 中的應(yīng)用”的文獻(xiàn)(文獻(xiàn)號(hào)為0007) 析出三個(gè)關(guān)鍵詞:計(jì)算機(jī)、神經(jīng)生物、行為學(xué) 將這三個(gè)款目按漢語拼音字母順序分別排在 “J”、“S”、“X”等字順里 輪排關(guān)鍵詞 計(jì)算機(jī)、神經(jīng)生物、行為學(xué) 0007 神經(jīng)生物、計(jì)算機(jī)、行為學(xué) 0007 行為學(xué)、計(jì)算機(jī)、神經(jīng)生物 0007 檢索時(shí)無論從哪

27、個(gè)關(guān)鍵詞入手都可查找到這 一文獻(xiàn),規(guī)范化主題詞(敘詞、標(biāo)題詞),敘詞是主題語言的高級(jí)形式。是以較正規(guī)和正式的科學(xué)名稱為基礎(chǔ)組織而成一種主題法檢索標(biāo)識(shí)系統(tǒng)。由在概念上不可再分的基本概念單元詞匯組成,檢索時(shí)可以利用這些單元詞進(jìn)行組配,以表達(dá)一個(gè)復(fù)雜的概念。敘詞表作為檢索過程必不可少的輔助工具,由檢索工具出版單位編制,專書專用。是由二次文獻(xiàn)編撰單位出版的限制使用的主題詞體系。 如:課題: 太陽能熱水器研究 漢語主題詞表中正式主題是太陽能利用、太陽能加熱等代替。,敘詞表(字順表、等級(jí)表),字順表如: acoustic wave velocity UF acoustic velocity NT ultr

28、asonic velocity (Narrower Term) BT velocity (Broader Term) TT velocity Top Term RT acoustic dispersion Related Term acoustic impedance CC A4300 A5140 Classification Code DI January 1973 Date of Input,詞族表 computer applications administrative data processing distributive data processing computerized s

29、ignal processing computerized pattern recognition computerized picture processing computer-generated holography,什么是概念組配,概念組配是敘詞語言的基本原理。 概念組配與字面組配在形式上有時(shí)相同,有時(shí)不同;而從性質(zhì)上來看兩者區(qū)別是很大的。字面組配是詞的分析與組合(拆詞);概念組配是概念的分析與綜合(拆義)。例如:,字面組配 模擬+控制-模擬控制 香蕉+蘋果-香蕉蘋果,概念組配 模擬+控制-模擬控制 香蕉味食品+蘋果-香蕉蘋果,漢語主題詞表簡(jiǎn)介:,該詞表是目前世界上最大的一部敘詞表,它

30、可供科技情報(bào)部門和圖書館標(biāo)引、存貯和檢索圖書文獻(xiàn)資料之用,是文獻(xiàn)情報(bào)工作者和讀者之間的思維橋梁。 漢語主題詞表包括主表、附表、詞族索引、范疇索引和英漢對(duì)照索引五部分。 主表與附表的主題詞之和構(gòu)成了漢語主題詞表的全部主題詞。 附表中的詞匯按一定的范疇集中的。 范疇索引中的主題詞并不包括附表中的主題詞,詞表共分三卷十分冊(cè),第一卷 社會(huì)科學(xué) 第一分冊(cè) 主表(字順表AZ) 第二分冊(cè) 索引(詞族、范疇和英漢對(duì)照索引) 第二卷 自然科學(xué) 第一分冊(cè) 主表(字順表AF) 第二分冊(cè) 主表(字順表GL) 第三分冊(cè) 主表(字順表MT) 第四分冊(cè) 主表(字順表UZ) 第五分冊(cè) 詞族索引 第六分冊(cè) 范疇索引 第七分冊(cè)

31、英漢對(duì)照索引 第三卷 附表,漢語主題詞表 10個(gè)分冊(cè),a) 主表中收錄的主題詞分為正式主題詞和非正式主題詞兩類,其正式主題詞用于文獻(xiàn)標(biāo)引和檢索,非正式主題詞是標(biāo)引和檢索文獻(xiàn)的導(dǎo)引詞,即指引使用者從該表不采用的主題詞去找采用的主題詞(非正式主題詞是正式主題詞的同義詞、準(zhǔn)義詞等)。表中全部主題詞款目均按漢語拼音字順排列,并在每一個(gè)主題詞款目下,根據(jù)不同需要分別設(shè)有“Y”(用)、“D”(代)、“F”(分)、“S”(屬)、“Z”(族)、“C”(參)等參照項(xiàng),作為選詞和擴(kuò)大檢索的依據(jù)。,如漢語主題詞表(簡(jiǎn)稱漢表)中的例子: Taocijiezhi dianrongqi 陶瓷介質(zhì)電容器54RG Ceram

32、ic dielectric capacitor D 陶瓷電容器 F 半導(dǎo)體瓷介電容器 穿心式瓷介電容器 大功率瓷介電容器 獨(dú)石瓷介電容器 S 無機(jī)介質(zhì)電容器 Z 電容器,附助索引:,詞族索引:又稱族系索引,是把主表中具有種屬關(guān)系,部分與整體關(guān)系和包含關(guān)系的正式主題詞;按其本質(zhì)關(guān)系展開全顯示的一種詞族系統(tǒng)。索引以族首詞主題字順組織排序。 范疇索引:范疇索引又稱分類索引,它是按照學(xué)科范疇并結(jié)合詞匯分類的需要,把主表中全部主題詞編列成分類系統(tǒng),以便從分類的角度查找與某一范疇內(nèi)容有關(guān)的主題詞,它是主表的一種附助索引。 英漢對(duì)照索引:該索引按主題詞英文譯名排列,是標(biāo)引和查找英文圖書資料時(shí),通過英文譯名來

33、選擇漢語主題詞的一種輔助工具。,附表: 附表是從主表派生出來的一種專用詞匯表,包括:世界各國(guó)政區(qū)名稱、自然地理區(qū)劃名稱、組織機(jī)構(gòu)名稱和人名。它是主表不可分割的組成部分。,主題詞表的作用是:,(1)確定課題的檢索用主題詞 主題詞表的字順表用標(biāo)識(shí)符號(hào)將非主題詞指引到其主題詞,如:義務(wù)教育 用 普及教育。 對(duì)于無法利用字順表確定檢索用主題詞時(shí),可采取如下辦法: A 將檢索者自擬的標(biāo)題倒置,再試查。 B 利用擬定概念詞的同義詞試查。 C 利用擬訂概念詞的上位詞試查。 D 利用詞表范疇表,由上向下逐級(jí)試查。 (2)調(diào)整檢索范圍 A 利用字順表的相關(guān)參照提示,擴(kuò)大檢索范圍。 B 利用范疇表(詞表分類表)調(diào)

34、整檢索范圍。,EI中的詞表功能,文獻(xiàn)檢索方法分類表,檢索方法,追溯法,工具法,交替法,傳統(tǒng)追溯法,引文追溯法,順查法,倒查法,抽查法,直接交替法,間隔交替法,1工具法(常用法),直接法是指直接利用檢索工具(系統(tǒng))檢索文獻(xiàn)信息的方法,這是文獻(xiàn)檢索中最常用的一種方法。它又分為順查法、倒查法和抽查法。 順查法順查法是指按照時(shí)間的順序,由遠(yuǎn)及近地利用檢索系統(tǒng)進(jìn)行文獻(xiàn)信息檢索的方法。這種方法能收集到某一課題的系統(tǒng)文獻(xiàn),它適用于較大課題的文獻(xiàn)檢索。例如,已知某課題的起始年代,現(xiàn)在需要了解其發(fā)展的全過程,就可以用順查法從最初的年代開始,逐漸向近期查找。 倒查法倒查法是由近及遠(yuǎn),從新到舊,逆著時(shí)間的順序利用檢

35、索工具進(jìn)行文獻(xiàn)檢索的方法。此法的重點(diǎn)是放在近期文獻(xiàn)上。使用這種方法可以最快地獲得最新資料。 抽查法抽查法是指針對(duì)項(xiàng)目的特點(diǎn),選擇有關(guān)該項(xiàng)目的文獻(xiàn)信息最可能出現(xiàn)或最多出現(xiàn)的時(shí)間段,利用檢索工具進(jìn)行重點(diǎn)檢索的方法。,2 追溯法(引文法),追溯法是指利用已經(jīng)掌握的文獻(xiàn)末尾所列的參考文獻(xiàn),進(jìn)行逐一地追溯查找“引文”的一種最簡(jiǎn)便的擴(kuò)大信息來源的方法。它還可以從查到的“引文”中再追溯查找“引文”,像滾雪球一樣,依據(jù)文獻(xiàn)間的引用關(guān)系,獲得越來越多的內(nèi)容相關(guān)文獻(xiàn)。 缺點(diǎn):查全率、查準(zhǔn)率較低,易誤檢漏檢,追溯法原始文獻(xiàn),追溯法原始文獻(xiàn)所附的參考文獻(xiàn),傳統(tǒng)追溯法,利用參考文獻(xiàn) 使用時(shí)最好先查找出幾篇與課題有關(guān)的專

36、著或述評(píng),這類文獻(xiàn)往往附有大量的參考文獻(xiàn)。以此作為起點(diǎn)進(jìn)行追溯: 述評(píng) 參考文獻(xiàn) 原始文獻(xiàn) 參考文獻(xiàn) 這樣步步回溯,直到滿足檢索需要為止。 這種方法不依賴檢索工具,但文獻(xiàn)信息越查越舊。,引文追溯法,這是一種依靠引文索引工具進(jìn)行追蹤查找文獻(xiàn)的方法。從被引文獻(xiàn)入手查到引用文獻(xiàn): 被引文獻(xiàn) 引用文獻(xiàn)(被引文獻(xiàn)) 引用文獻(xiàn)(被引文獻(xiàn)) 如此循環(huán),直到滿足檢索需要為止。 這種方法依賴引文索引工具,但文獻(xiàn)信息越查越新。,返回,3交替法,綜合法又稱為循環(huán)法,它是把上述兩種方法加以綜合運(yùn)用的方法。綜合法既要利用檢索工具進(jìn)行常規(guī)檢索,又要利用文獻(xiàn)后所附參考文獻(xiàn)進(jìn)行追溯檢索,分期分段地交替使用這兩種方法。即先利用

37、檢索工具(系統(tǒng))檢到一批文獻(xiàn),再以這些文獻(xiàn)末尾的參考目錄為線索進(jìn)行查找,如此循環(huán)進(jìn)行,直到滿足要求時(shí)為止。 綜合法兼有常用法和追溯法的優(yōu)點(diǎn),可以查得較為全面而準(zhǔn)確的文獻(xiàn),是實(shí)際中采用較多的方法。,直接交替法,是指先使用檢索工具查出一批有用文獻(xiàn),然后利用這些文獻(xiàn)內(nèi)的參考文獻(xiàn)或引用文獻(xiàn)線索追溯查找,獲得更多的有用文獻(xiàn)(即先用工具法,后用追溯法,不斷交替使用)。 反之,也可以先用追溯法,后用工具法,不斷交替使用。,間隔交替法,因?yàn)橐脜⒖嘉墨I(xiàn)有這樣一個(gè)特點(diǎn):五年之內(nèi)的重要文獻(xiàn),一般都會(huì)被引用。所以,可以跳過五年左右,再用工具法查找,查出一批有用文獻(xiàn),再進(jìn)行追溯。如此循環(huán),間隔的交替使用兩種檢索方法,

38、直到滿足課題檢索要求為止。,9數(shù)字資源的檢索技術(shù),1.布爾邏輯檢索技術(shù),布爾邏輯檢索是指通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系算符來表達(dá)檢索詞與檢索詞間的邏輯關(guān)系的檢索方法 主要的布爾邏輯關(guān)系詞有:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT),三、信息檢索常用方法,(一)布爾邏輯: 用布爾邏輯算符來表達(dá)檢索詞間的邏輯組配關(guān)系,是最基本、最常用的檢索技術(shù)。 -邏輯或(+,OR):表達(dá)檢索詞間的并列關(guān)系??蓴U(kuò)大檢索范圍,提高查全率。如:A+B,表明結(jié)果中含有A或B都為檢索命中,A,B,-邏輯與(*,AND):表達(dá)檢索詞間的交叉關(guān)系。可縮小檢索范圍,提高查準(zhǔn)率。如:A*B,表明結(jié)果必須同時(shí)含有A和B才為命中

39、-邏輯非(-,NOT):表達(dá)檢索詞間的排除關(guān)系??煽s小檢索范圍,提高查準(zhǔn)率,但要慎用。如:A-B,表明結(jié)果是A中不包含B的那部分,A,B,A,B,邏輯與,邏輯乘: “and”或“*”表示 組配方式:A*B或者A and B 表示兩個(gè)概念的交叉和限定關(guān)系,只有同時(shí)含有這兩個(gè)概念的記錄才算命中信息 作用:增加限制條件,即增加檢索的專指性,以縮小提問范圍,減少文獻(xiàn)輸出量,提高查準(zhǔn)率。,邏輯或,又稱邏輯和:“or”、“+” 組配方式:A OR B或者AB,表示檢索含有A詞,或含有B詞,或同時(shí)包含A、B兩詞的文章。 作用:放寬提問范圍,增加檢索結(jié)果,起擴(kuò)檢作用,提高查全率。,邏輯非,又稱邏輯差: “no

40、t” “-” 組配方式:AB,表示檢索出含有A詞而不含有B 詞的文章。 作用:邏輯非用于排除不希望出現(xiàn)的檢索詞,它和“*”的作用相似,能夠縮小命中文獻(xiàn)范圍,增強(qiáng)檢索的準(zhǔn)確性。,例如檢索:“打印機(jī)驅(qū)動(dòng)程序” 查詢關(guān)鍵詞:打印機(jī)、驅(qū)動(dòng)程序 檢索表達(dá)式:打印機(jī) AND 驅(qū)動(dòng)程序 例如檢索:“微型計(jì)算機(jī)”方面的有關(guān)信息 查詢關(guān)鍵詞:微型計(jì)算機(jī)、微機(jī) 檢索表達(dá)式:微型計(jì)算機(jī)OR 微機(jī),布爾邏輯檢索例子,布爾運(yùn)算符優(yōu)先級(jí)比較 有括號(hào)時(shí):括號(hào)內(nèi)的先執(zhí)行; 無括號(hào)時(shí):NOT AND OR 例:檢索“唐宋詩歌”的有關(guān)信息。 關(guān)鍵詞:唐、宋、詩歌; 檢索表達(dá)式: (唐 OR 宋)AND 詩歌; 唐 AND 詩歌

41、OR 宋 AND 詩歌; 錯(cuò)誤表達(dá)式: 唐 OR 宋AND詩歌; 唐 AND 宋AND詩歌; 唐 OR 宋OR詩歌; 唐AND 宋OR詩歌;,布爾邏輯運(yùn)算符優(yōu)先級(jí),請(qǐng)注意 在不同的數(shù)據(jù)庫中,所使用的邏輯符號(hào)可能是不同的,有的用“and、or、not” 有的用“*、+、-”。 一些檢索工具會(huì)完全省略任何符號(hào)和關(guān)系,直接把布爾邏輯關(guān)系隱含在菜單中。 一些網(wǎng)絡(luò)檢索工具如搜索引擎甚至用“、,、-”(即空格、逗號(hào)、減號(hào))來表示。,2.截詞檢索技術(shù),主要應(yīng)用于西文數(shù)字資源的檢索 定義:是指在檢索式中用專門的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化。 作用:主要是提高查全率 截詞符一般用“?

42、”或“*”表示,截詞位置,按截詞位置可分為前截詞、后截詞、前后截詞和中間截詞; 按截?cái)嘧址麛?shù)的不同,可分為有限截?cái)嗪蜔o限截?cái)唷?截詞位置,右截詞,又稱后截詞、前方一致。允許檢索詞尾有若干變化。例如comput*將檢索出computer 、computing、computerised、computerized、computerization等結(jié)果。 中間截詞,又稱前后方一致。允許檢索詞中間有若干變化。例如wom*n,檢索到woman、women的結(jié)果。英美的不同拼法,defen*e可同時(shí)檢出defence和defense的結(jié)果。 左截詞,又稱前截詞、后方一致,允許檢索詞前有若干變化,例如*phy

43、sics就可檢索到physics、astrophysics、biophysics、chemophysics、geophysics等詞的結(jié)果。 ?Computer可檢索computer、minicomputer、microcomputer等結(jié)果。,前后截詞:詞干的前后各有一個(gè)截詞符,允許檢索詞的前端和尾部各有若干變化形式。如?computer?可檢索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等結(jié)果。,請(qǐng) 注 意

44、 在不同的數(shù)據(jù)庫和聯(lián)機(jī)檢索系統(tǒng)中,所使用的截詞符號(hào)沒有統(tǒng)一的標(biāo)準(zhǔn),有的用“?”,有的用“*”,有的用“#”,用的用“”等。 即便常用的“?”和“*”在不同的數(shù)據(jù)庫中其用法也是不一定相同的。 在允許截詞的檢索工具中,一般是指右截詞,部分支持中間截詞,左截詞比較少見。 我們將要使用的一些數(shù)據(jù)庫,一般用“*”代表一個(gè)字符串,用“?”代表任意一個(gè)字符。,3.鄰近檢索技術(shù),鄰近檢索又稱位置檢索,主要是通過檢索式中的專門符號(hào)來規(guī)定檢索詞在結(jié)果中的相對(duì)位置。 例如檢索“生物防治”的文獻(xiàn),若用檢索式“biological*control”檢索,則會(huì)將“抑制生物”(control biological)的文獻(xiàn)也

45、查出來,這顯然不是所需文獻(xiàn)。 主要有相鄰位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F),(L),(W) 算符,(W)算符:(W)是with(word)的縮寫,可簡(jiǎn)寫為“( )”,表示此算符兩側(cè)的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。 如biological (W) control相當(dāng)于檢索biological control, CD (W) ROM相當(dāng)于檢索CD ROM或CD-ROM。,(nW) 算符,(nW) 算符:(nW)是n words的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入最多n個(gè)詞,且詞

46、序不可變。 如wear (1W) material相當(dāng)于檢索wear materials、wear of materials等詞。,(N)和(nN)算符,(N)是near的縮寫,表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變,詞間不允許插入其他詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào)。 (nN)表示兩詞間可插入最多n個(gè)詞,詞序可變,如檢索式environment (2N) protection 就可檢索出包含“environment protection”、“environment of the protection ”、“environment of water protection”、“prote

47、ction of forest environment”等內(nèi)容的結(jié)果。 information(1N)retrieval 可檢出: information retrieval retriveal of information,4.字段檢索技術(shù),字段檢索是限定檢索詞在記錄中出現(xiàn)的字段范圍,檢索時(shí),計(jì)算機(jī)只對(duì)限定字段進(jìn)行查找。,字段檢索技術(shù),字段檢索分后綴方式和前綴方式。 TI(題名)、AB(摘要)、DE(主題詞)、ID(標(biāo)識(shí)詞) su (主題詞)KW(關(guān)鍵詞) AU(著者)、BN(國(guó)際標(biāo)準(zhǔn)書號(hào))、SN(國(guó)際標(biāo)準(zhǔn)刊號(hào))、CC(分類類目)、CS(機(jī)構(gòu))、DT(文獻(xiàn)類型)或PT(出版物類型)、JN(刊

48、名)或JA(刊號(hào))、LA(語種)、PY(出版年)、SO(來源出版物) 注意:不同的數(shù)據(jù)庫其字段代碼可能不同。,舉例,在EBSCO數(shù)據(jù)庫檢索中,某一用戶需檢索有關(guān)“數(shù)字圖書館與信息檢索、參考咨詢”方面的文獻(xiàn)信息,檢索要求:題名或文摘中包含數(shù)字圖書館digital library,數(shù)字圖書館要求考慮單復(fù)數(shù),主題為信息檢索information retrieval或參考咨詢r(jià)eference,請(qǐng)編制其檢索策略(檢索式)。 (ti:digital librar* or ab:digital librar*) and su:(reference or information 2n retrieval),

49、10 檢索步驟,分析研究課題,明確查 閱要求 選擇檢索工具和檢索方法 確定檢索途徑和檢索語言 制定檢索式 獲取原文獻(xiàn),利用計(jì)算機(jī)進(jìn)行信息檢索的步驟,確定檢索目標(biāo) 選擇數(shù)據(jù)庫 編制檢索提問式 上機(jī)檢索 整理檢索結(jié)果并對(duì)檢索效率進(jìn)行評(píng)價(jià),1確定檢索目標(biāo),要進(jìn)行信息檢索,首先必須確定信息檢索的目標(biāo),即對(duì)信息用戶的需求進(jìn)行具體的分析,這種分析應(yīng)主要包括以下內(nèi)容: 明確檢索的目的 明確用戶是要查新、查參考資料還是查詢論文被收錄或引用情況等,以便對(duì)檢索的查準(zhǔn)、查全和時(shí)間范圍的指標(biāo)要求有一個(gè)大致的了解,從而制定出符合情況的檢索策略。 課題分析 對(duì)課題內(nèi)容進(jìn)行分析,找出核心概念和隱含概念,排除無關(guān)的概念,明確

50、概念之間相互的邏輯關(guān)系。,課題分析直接從項(xiàng)目名稱中確定檢索概念,例1:項(xiàng)目“聚乙烯的合成(synthesis of polyethylene) ” 主要概念:聚乙烯、合成(synthesis、 polyethylene ) 檢索式: 聚乙烯 and 合成 Synthesis and polyethylene,課題分析找出隱含概念,例2:項(xiàng)目“灌溉用的橡塑多孔管” Rubber-Plastic Porous Pipe For Irrigation 橡塑多孔管也稱為橡塑滲灌管,其主要原料為橡膠粉(由廢舊輪胎制得)和塑料(如粉狀聚乙烯)。隱含概念:橡膠、塑料 該產(chǎn)品主要用于農(nóng)林、園藝等方面的灌溉。

51、主要概念:橡膠、塑料、多孔管、灌溉 檢索式:(橡膠 or 塑料 or橡塑) and 多孔管 and 灌溉,課題分析泛指概念具體化,例3:項(xiàng)目“唐山綜合防災(zāi)的研究” 由于唐山是一個(gè)城市,因此該項(xiàng)目實(shí)際上是“城市綜合防災(zāi)的研究”。 該項(xiàng)目針對(duì)的主要災(zāi)害是地震、洪水和火災(zāi), 所采用的研究手段是決策支持系統(tǒng)和專家系統(tǒng)。 防災(zāi) 地震、洪水、火災(zāi) 研究決策支持系統(tǒng)、專家系統(tǒng) 主要概念:城市、地震、洪水、火災(zāi) 、決策支持系統(tǒng)、專家系統(tǒng) 檢索式:城市 and (地震 or 洪水 or 火災(zāi))and (決策支持系統(tǒng) or 專家系統(tǒng)),排除重復(fù)無關(guān)的概念,可避免漏檢,節(jié)省檢索費(fèi)用。 例4:項(xiàng)目“河豚毒素的液相色譜

52、分析” 從項(xiàng)目名稱上看,其主要概念為 “河豚毒素”、“液相色譜”和“分析”,但由于液相色譜本身就是一種分析方法,它隱含了“分析”這一概念 主要概念: 河豚毒素、液相色譜 檢索式:河豚毒素 and 液相色譜,2.選用合適數(shù)據(jù)庫,根據(jù)檢索目標(biāo)分析所確定的檢索目的、涉及的學(xué)科范圍和信息類型,選擇合適的數(shù)據(jù)庫。 具體選擇過程中還應(yīng)考慮數(shù)據(jù)庫的類型(參考、全文還是電子期刊)、內(nèi)容(專利、標(biāo)準(zhǔn)、會(huì)議)、收錄的數(shù)據(jù)學(xué)科范圍、數(shù)據(jù)庫的更新周期,收錄文獻(xiàn)的語種等因素。 例如,要查新就要選擇收錄文獻(xiàn)最全,更新周期快的數(shù)據(jù)庫;要看全文就要選用全文數(shù)據(jù)庫或電子期刊;要查標(biāo)準(zhǔn)或?qū)@鸵x擇標(biāo)準(zhǔn)庫或?qū)@麕臁?3.使用適當(dāng)

53、的檢索語言,構(gòu)造檢索表達(dá)式,分析各個(gè)檢索詞之間的位置關(guān)系和邏輯組配關(guān)系 分析檢索詞應(yīng)該限定在哪個(gè)字段中檢索(是在所有基本索引中檢索還是限定在分類、主題、自由詞、文摘還是其他輔助索引字段中檢索?),4.上機(jī)檢索,上機(jī)檢索是用戶的實(shí)際操作過程,檢索策略輸入檢索系統(tǒng)后,系統(tǒng)響應(yīng)的檢索結(jié)果通常很難一次就能滿足課題的要求,例如,有時(shí)輸出的篇數(shù)太多,而且不相關(guān)的文獻(xiàn)所占的比例很大,而有時(shí)輸出的文獻(xiàn)數(shù)量太少,甚至為零。因此在檢索的過程中用戶需要不斷地根據(jù)檢索結(jié)果對(duì)檢索策略進(jìn)行調(diào)整和修改,包括檢索詞的重新選取以及檢索提問式的重新構(gòu)造,經(jīng)過反復(fù)的檢索最終獲得比較滿意的檢索結(jié)果。,(1)輸出篇數(shù)過多時(shí),此時(shí)多數(shù)是

54、由誤檢造成的,原因主要有以下幾點(diǎn): 1)沒有對(duì)檢索詞進(jìn)行限制。包括字段限制,時(shí)間限制,分類限制等。如在cnki中進(jìn)行全文檢索,結(jié)果肯定多很多。 2)主題概念不夠具體或具有多義性導(dǎo)致誤檢。例如,僅使用mathematics進(jìn)行檢索結(jié)果很多,就需要整檢索策略,將概念具體化。 如:mathematics and economic 再如,檢索世界貿(mào)易組織僅輸入“WTO”,系統(tǒng)可能會(huì)檢索出“World Tourism Organization”(世界旅游組織) 3) 對(duì)所選的檢索詞截詞截得過短。例如, 使用math? 將有太多的檢索結(jié)果。,(2)輸出篇數(shù)過少時(shí),此時(shí)多數(shù)是由漏檢造成的,原因可能有以下幾點(diǎn)

55、: 1)選用了不規(guī)范的主題詞或某些產(chǎn)品的俗稱、商品名作為檢索詞。 例如,沒有使用學(xué)名“馬鈴薯”而使用了俗名“土豆” 又如,沒有使用“表面活性濟(jì)”而使用了商品名稱“迪恩普”,都會(huì)造成漏檢。 2)同義詞沒有充分考慮。 例如,“檢索物理化學(xué)”,沒有考慮到“物理有機(jī)化學(xué)”,“物化”等同義詞,導(dǎo)致漏檢。 3)上位概念或下位概念沒有完整運(yùn)用。 例如,“燃料”是上位概念,下位概念可以有“固體燃料”、“液體燃料”、“氣體燃料”,甚至還有“煤”、“油”、“煤氣”、“天然氣”等,這些概念在檢索“燃料”時(shí)都應(yīng)該加以考慮。,5.整理檢索結(jié)果并對(duì)檢索效率進(jìn)行評(píng)價(jià),對(duì)檢索結(jié)果進(jìn)行整理,包括存盤、打印。包括全文的下載瀏覽,

56、題錄信息的保存和記錄。 若是參考型數(shù)據(jù)庫要想獲取原文還必須記錄文獻(xiàn)的來源信息,如:題名,作者,來源期刊的刊名,年、卷、期、起止頁等。,獲取全文的途徑,1.直接找全文數(shù)據(jù)庫 2.到圖書館(可以是黑龍江大學(xué)圖書館、也可以是其他你能夠使用的圖書館,如哈工大圖書館、遼寧省圖書館、國(guó)家圖書館、各高校圖書館)借閱印刷版全文 3.到網(wǎng)上找免費(fèi)資源,如專利、法律法規(guī)、新聞、一些電子期刊和科技報(bào)告等。國(guó)家科技圖書文獻(xiàn)中心 ( 4.發(fā)動(dòng)同學(xué)。讓同學(xué)利用他周圍的資源檢索,將全文mail給你。 5.給作者寫信,表明希望拜讀的心愿,讓作者給你提供全文。 6.館際互借。,檢索出的相關(guān)文獻(xiàn)量,數(shù)據(jù)庫中的全部相關(guān)文獻(xiàn),查全率

57、R= (recall ratio),x100%,檢索出的相關(guān)文獻(xiàn)量,檢出的文獻(xiàn)總量,查準(zhǔn)率P= (precision ratio),x100%,最理想的檢索結(jié)果是查全率和查準(zhǔn)率都達(dá)到100。 R100表示數(shù)據(jù)庫中收錄的全部相關(guān)文獻(xiàn)都被檢索出來 P100表示檢索出來的文獻(xiàn)全部都是相關(guān)文獻(xiàn) 但事實(shí)上,檢索中有許多因素使這個(gè)指標(biāo)很難達(dá)到。,衡量檢索效果的指標(biāo),R,0,P,查全率R與查準(zhǔn)率P的關(guān)系曲線,C,A,D,B,C.W.Cleverdon(英)進(jìn)行 Granfield試驗(yàn),得出 查全率R與查準(zhǔn)率P曲線。 RP之間存在著互逆關(guān)系 A點(diǎn) 檢索詞數(shù)量多,泛指性強(qiáng), 查全率較高但查準(zhǔn)率卻非常低 B點(diǎn) 檢

58、索詞專指性較強(qiáng),查準(zhǔn)率就高 查全率因此降低 C,D兩點(diǎn) 兩種極端的折衷。 查全率一般在6070 查準(zhǔn)率一般在4050 無論怎樣調(diào)整檢索策略和改進(jìn)系 統(tǒng)效率,都無法使P和R同時(shí)接近100。,11、檢索效果評(píng)價(jià),檢索效果(retrieval effectiveness)是指檢索系統(tǒng)檢索的有效程度,它反映檢索系統(tǒng)的能力,這是對(duì)機(jī)檢提出,有些指標(biāo)對(duì)手檢也有意義。 技術(shù)效果主要指系統(tǒng)的性能和服務(wù)質(zhì)量,它是由檢索系統(tǒng)實(shí)現(xiàn)其功能的能力所確定的; 經(jīng)濟(jì)效果主要指檢索系統(tǒng)服務(wù)所花費(fèi)的成本和時(shí)間,它是由檢索系統(tǒng)完成其檢索服務(wù)的代價(jià)所確定的。 6項(xiàng)評(píng)價(jià)檢索效果的指標(biāo): 收錄范圍、查全率、查準(zhǔn)率、響應(yīng)時(shí)間、用戶負(fù)擔(dān)、

59、 輸出形式。,查全率 R(Recall ratio)查準(zhǔn)率 P(precision ratio),檢索結(jié)果涉及四個(gè)方面:相關(guān)文獻(xiàn)、非相關(guān)文獻(xiàn)、被檢出的文獻(xiàn)和未被檢出的文獻(xiàn)。,實(shí)驗(yàn)結(jié)果表明查全率與查準(zhǔn)率之間存在互逆關(guān)系,提高檢索質(zhì)量的措施,提高檢索系統(tǒng)的質(zhì)量:對(duì)用戶而言,則要選擇適合課題的學(xué)科覆蓋范圍的、優(yōu)質(zhì)的檢索工具,包括其收錄的全面、著錄的清楚、標(biāo)引的準(zhǔn)確、完善等等。 提高用戶使用檢索系統(tǒng)的能力:充分發(fā)揮檢索系統(tǒng)的功能。這里涉及到下一章要討論的檢索策略問題。檢索語言、檢索技術(shù)、方法的正確、靈活的使用,以使檢索者(用戶)能更好地與檢索系統(tǒng)協(xié)調(diào)、配合。另外,要根據(jù)不同的檢索課題的需要,適當(dāng)調(diào)整對(duì)查全率和查準(zhǔn)率的要求,比如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論