檢索語言與檢索技術(shù)_第1頁
檢索語言與檢索技術(shù)_第2頁
檢索語言與檢索技術(shù)_第3頁
檢索語言與檢索技術(shù)_第4頁
檢索語言與檢索技術(shù)_第5頁
已閱讀5頁,還剩74頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

檢索語言與檢索技術(shù)第1頁/共79頁信息環(huán)境改變了,我們痛并快樂著第2頁/共79頁德國柏林圖書館門前有這樣一段話:“這里是知識的寶庫,你若掌握了它的鑰匙,這里的全部知識都是屬于你的。”這里所說的“鑰匙”即是指信息檢索的方法,包括信息檢索語言和信息檢索技巧。

第3頁/共79頁主要內(nèi)容信息檢索語言信息檢索途徑信息檢索技術(shù)信息檢索一般步驟第4頁/共79頁我們在社會生活中必須學(xué)習(xí)運用自然語言,學(xué)程序設(shè)計必須掌握各種程序設(shè)計語言,同理,學(xué)檢索就必須對“檢索語言”有較為深入的了解。第5頁/共79頁信息檢索語言檢索語言是根據(jù)信息檢索的需要而創(chuàng)造的專供信息存儲和信息檢索使用的規(guī)范化的一種人工語言,是溝通信息存儲和信息檢索的一種約定語言。第6頁/共79頁信息檢索語言基本功能對文獻信息內(nèi)容(及某些外表特征)加以標引;對內(nèi)容相同及相關(guān)的信息加以集中或揭示其相關(guān)性;對大量信息加以系統(tǒng)化或組織化;便于將標引用語和檢索用語進行相符性比較。第7頁/共79頁信息檢索語言整個信息檢索過程刻畫為三個方面:即信息的存儲與組織、信息的檢索實施、信息的展示。其中的關(guān)系如下圖所示:第8頁/共79頁信息檢索對象數(shù)據(jù)庫編排結(jié)構(gòu):文檔-記錄-字段文檔(file):數(shù)據(jù)庫中一部分記錄的有序集合。記錄(record):數(shù)據(jù)庫的信息單元,每條記錄描述了一個原始信息的外部特征和內(nèi)部特征。字段(field):比記錄更小的單位,是組成記錄的數(shù)據(jù)項目。第9頁/共79頁存取號基本索引字段輔助索引字段第10頁/共79頁基本索引字段表達文獻內(nèi)容特征輔助索引字段表達文獻外部特征第11頁/共79頁檢索語言有多種分類方式,其中就其描述文獻的有關(guān)特征而言,可分為描述文獻外部特征的“外部特征語言”和描述文獻內(nèi)容特征的“內(nèi)容特征語言”,這兩大范疇的語言又可細分為若干具體的語言。檢索語言的類型表述文獻外表特征的語言表述文獻內(nèi)容特征的語言題名責(zé)任者號碼……分類語言主題語言關(guān)鍵詞標題詞單元詞敘詞第12頁/共79頁分類語言是一種用“分類號”來表達各種概念,將各種概念按學(xué)科性質(zhì)進行系統(tǒng)排列。它集中體現(xiàn)學(xué)科的系統(tǒng)性,反映事物的從屬、派生關(guān)系,由上至下,從總體到局部層層展開,是一種等級體系。由類目(語言文字)及其相對應(yīng)的類號(字母、數(shù)字或其組合)來表達各種概念,構(gòu)成一個完整的分類類目表。如《中國圖書館分類法》、《國際專利分類表》等都屬于分類檢索語言。第13頁/共79頁中圖法

所謂圖書分類是按照圖書內(nèi)容的學(xué)科性質(zhì)或其他特征將館藏圖書予以揭示并分門別類組織排列的一種手段。圖書分類法則是將許多類目根據(jù)一定原則組織起來,通過標記符號代表各級類目和固定先后次序的分類體系。它是圖書館收藏并揭示館藏文獻的依據(jù)。我館文獻采用《中國圖書館圖書分類法》進行分類排架。第14頁/共79頁中圖法簡表第15頁/共79頁第16頁/共79頁《中國圖書館分類法》子類目隸屬與派生關(guān)系為例:

T工業(yè)技術(shù)

TP自動化技術(shù)、計算機技術(shù)

TP3計算技術(shù)、計算機技術(shù)

TP31計算機軟件

TP311軟件工程

TP311.1程序設(shè)計

TP311.11程序設(shè)計方法

TP311.12數(shù)據(jù)結(jié)構(gòu)

TP311.13數(shù)據(jù)庫理論與系統(tǒng)

TP311.132數(shù)據(jù)庫系統(tǒng):按類型分

TP311.132.1層次數(shù)據(jù)庫

TP311.132.2網(wǎng)狀數(shù)據(jù)庫

TP311.132.3關(guān)系數(shù)據(jù)庫

TP311.132.4面向?qū)ο髷?shù)據(jù)庫

級級派生層層隸屬信息存儲過程:信息主題分類號信息檢索過程:分類號信息主題第17頁/共79頁《中圖法》從大類到小類,層層展開,不斷細分,形成完整的知識體系。舉例:要查找“研究《紅樓夢》”方面的文獻,我們應(yīng)該遵循以下步驟:第1步:“研究《紅樓夢》”所屬類別應(yīng)該是社會科學(xué)中的“文學(xué)”(I大類);第2步:通過見表進一步查找所需文獻的二級分類號和類目名稱,即I2中國文學(xué)第18頁/共79頁第3步:通過主題逐級詳細查閱便可找到其準確的類號和類名:

I207文學(xué)評論和研究

I207.4小說研究

I207.41古代小說研究

I207.411《紅樓夢》研究與評論所以“研究《紅樓夢》”方面的文獻的分類號即為I207.411第4步:利用標引的結(jié)果(分類號I207.411)就去查找館藏,圖書館書庫里的書都是按分類號進行排架,同學(xué)們在檢索到這本書的信息后,根據(jù)分類號在書庫中找到它的位置。第19頁/共79頁索書號是圖書館賦予每一種館藏圖書的號碼。這種號碼具有一定結(jié)構(gòu)并帶有特定的意義。在館藏系統(tǒng)中,每種圖書的索書號是唯一的,可借以準確地確定館藏圖書在書架上的排列位置,是讀者查找圖書非常必要的代碼信息。在通常情況下,索書號由兩部分組成:分類號+流水號分類號流水號V2-49/1030-4第20頁/共79頁2、圖書在書架上的排序:由左至右,由上至下

如何通過索書號找到圖書?1、索書號的排序:以單個字母或數(shù)字為單位,先左后右,先橫后點,先上后下

第21頁/共79頁第22頁/共79頁OPAC使用——簡單檢索第23頁/共79頁書目信息:題名作者出版社出版年代索書號第24頁/共79頁第25頁/共79頁第26頁/共79頁第27頁/共79頁第28頁/共79頁我的圖書館第29頁/共79頁30讀者薦購第30頁/共79頁主題語言主題語言不像“分類語言”那樣需要借助于分類號來標識信息,而是直接以代表信息內(nèi)容特征和科學(xué)概念的主題詞來表達各種概念,并將這些概念詞按字順方式組織起來的一種檢索語言。特點:按主題(信息所論述涉及的事物)集中以自然語言作為標識符號,概念與標識合二為一,不存在轉(zhuǎn)換工序主題語言又可進一步細分為關(guān)鍵詞語言、標題詞語言、單元詞語言、敘詞語言以及。第31頁/共79頁①關(guān)鍵詞語言是直接選用文獻中的自然語言作基本詞匯,并將那些能夠揭示文獻題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進行標引的一種檢索語言。例如:“國際聯(lián)機檢索概論”中的“國際聯(lián)機檢索”、“國際聯(lián)機”、“聯(lián)機”、“檢索”都是能描述這篇文獻主題的關(guān)鍵詞,都可以作為檢索詞。第32頁/共79頁②標題詞語言是最早使用的一種主題語言,它以規(guī)范化的自然語義作為標識,來表達信息涉及的主題概念,并將全部標識按字母順序排列。例如:一篇文章用“微型計算機”這個術(shù)語來敘述它的研究對象,另一篇文章用“微型電腦”來敘述,第三篇文章用“微機”來敘述,雖然都表示同一概念,這時就不能直接用“微型電腦”或“微機”來作標題詞,這三篇文章都必須用“微型計算機”作標題詞(實際上是“主標題詞”,根據(jù)主題詞表決定)。第33頁/共79頁③單元詞語言是在標題詞語言基礎(chǔ)上發(fā)展起來的一種規(guī)范化檢索語言。單元詞(uniterm)是一種最基本的、不能再分的詞匯單位,亦稱元詞。它也是從文獻內(nèi)容中抽出,并經(jīng)過規(guī)范化處理,代表一個獨立的概念。例如:“計算機”、“軟件”、“固相”、“相”。第34頁/共79頁④敘詞語言是以自然語言為基礎(chǔ),以概念組配為基本原理,并經(jīng)過規(guī)范化處理,表達主題的最小概念單元,作為信息存儲和檢索依據(jù)的一種檢索語言。只有經(jīng)過規(guī)范化處理,滿足一詞一義一型要求的詞才能稱為敘詞(descriptor)。例如:在敘詞語言的檢索系統(tǒng)中用“計算機”這個詞進行檢索,即使題名字段沒有“計算機”這個詞(如有同義詞“電腦”)的文章,也可以被檢索出來,不必進行同義詞替換即可查全。第35頁/共79頁主題語言(標題詞、單元詞、敘詞)的規(guī)范化處理:

①詞義規(guī)范:對同義詞(如計算機與電腦)、近義詞(如實驗與試驗)、學(xué)名和俗名(如發(fā)動機與馬達)、不同譯名(激光與萊塞)、簡稱與全稱(如中國與中華人民共和國)、不同寫法(如X射線與愛克斯射線)等進行選擇;對多義詞、同形異義詞進行限定說明,如杜鵑既表示一種鳥,也表示一種花,就須限定說明為,杜鵑(動物)、杜鵑(植物)。第36頁/共79頁②詞類規(guī)范:即確定詞類的范圍。能用作敘詞的詞類一般要求控制在具有實質(zhì)意義的名詞或動名詞的范圍之內(nèi)。③詞形規(guī)范:即對詞的繁簡體、詞序、字母符號等的規(guī)定。第37頁/共79頁著錄者需要使用該詞表、規(guī)范進行著錄,用戶檢索時可以使用詞表提供的規(guī)范詞。舉例:《漢語主題詞表》是我國第一部大型綜合性主題詞表。全表共分3卷10分冊,由主表、詞族索引、范疇索引、英漢對照索引等組成。是我國應(yīng)用最廣的一部主題標引和檢索的工具。其款目(條目)格式如下:

XianXiangGuan(款目主題詞的漢語拼音)顯象管(款目主題詞)[56CE]Picturetube(款目主題詞的英文譯名)同義D電視顯象管監(jiān)視管下位F彩色顯象管固體顯象管黑白顯象管上位S電子束管詞族的族首詞Z電子管相關(guān)的其他敘詞C顯示管指示管第38頁/共79頁其他檢索語言自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。抽取出來的詞包括自由詞、關(guān)鍵詞、事物名稱、科學(xué)術(shù)語、俗名、商品型號和縮寫等,及時跟上事物發(fā)展,準確表達事物新概念,選詞靈活方便,專指性強,標引和檢索速度快等優(yōu)點。第39頁/共79頁主題語言和分類語言的區(qū)別①揭示對象不同主題法揭示文獻論述的具體事物或主題概念(“是什么”);分類法揭示的是文獻內(nèi)容的學(xué)科屬性(“屬什么”)。②使用標識主題法直接用詞語表示文獻主題;分類法則以抽象化的類目代號——“分類號”作為文獻內(nèi)容標識和檢索標識。前者直觀易懂,后者較簡潔,但也較費解。第40頁/共79頁主題語言和分類語言的區(qū)別③排列方式主題法按詞語字順排列,如同詞典,易學(xué)易查;分類法按分類號(學(xué)科或?qū)I(yè)門類的代號)排列,系統(tǒng)性較強,但不熟悉有關(guān)分類表則難以有效地利用.④用途主題法較適合于對單篇文獻的組織和檢索,且更適于計算機組織和檢索;分類法則比較適合于圖書或文集的組織和檢索.第41頁/共79頁檢索途徑:又稱檢索點或檢索入口,包括信息源外表特征與內(nèi)容特征外表特征:從構(gòu)成文獻信息源的載體、符號系統(tǒng)和記錄方式三要素中提取出的特征構(gòu)成。內(nèi)容特征:由分析構(gòu)成文獻信息源的信息內(nèi)容要素的特征與學(xué)科屬性形成。信息檢索途徑第42頁/共79頁

第43頁/共79頁

文獻外部特征的檢索途徑:題名途徑即直接利用圖書的書名、期刊的刊名、標準文獻的標準名來查找所需信息的方法途徑。著者途徑即從個人著者名或者團體著者名出發(fā),查找他們所發(fā)表或者主持的文獻。代碼途徑如專利號、標準書號(ISBN)、標準刊號(ISSN)、館藏號等。在已知文獻特定代碼的前提下,利用代碼途徑檢索文獻是最為快捷的方法之一。第44頁/共79頁

文獻外部特征的檢索途徑:機構(gòu)名稱途徑主要包括作者所在的單位,以及圖書期刊的出版發(fā)行單位等。信息源類型途徑即直接利用信息資源的類型作為檢索入口的方法。其他途徑根據(jù)某些信息的特殊標識進行檢索的方法,如化學(xué)分子式,地域名稱等。第45頁/共79頁

內(nèi)容特征檢索途徑

分類途徑指按照文獻所屬的類別來檢索文獻的途徑。優(yōu)點:能夠從學(xué)科或?qū)I(yè)角度廣泛地獲得較系統(tǒng)的文獻,能夠達到較高的查全率。主題途徑指通過能表達文獻內(nèi)容的主題詞來檢索文獻的一種途徑。主題檢索的實施,需要用到各種主題詞索引,如主題索引、關(guān)鍵詞索引、敘詞索引等。優(yōu)點:主題途徑表達概念直接、準確、靈活,適合于檢索復(fù)雜、專深或較為具體的文獻資料。第46頁/共79頁

內(nèi)容特征檢索途徑關(guān)鍵詞途徑把對信息主題內(nèi)容起關(guān)鍵作用的詞抽取出來,并利用它來檢索文獻的一種途徑。優(yōu)點:由于關(guān)鍵詞是一種很靈活的單詞或詞組,它不需規(guī)范詞表,使用比較方便。在計算機檢索系統(tǒng)中應(yīng)用比較廣泛。第47頁/共79頁信息檢索技術(shù)第48頁/共79頁檢索用詞信息來源檢索結(jié)果檢索題目的詞語切分檢索技術(shù)第49頁/共79頁布爾邏輯檢索截詞檢索短語檢索限域檢索常用的檢索技術(shù)第50頁/共79頁

布爾邏輯檢索

通過布爾邏輯運算符來表達檢索詞與檢索詞間邏輯關(guān)系第51頁/共79頁布爾邏輯運算符檢索包含所有關(guān)鍵字的數(shù)據(jù)。TOPIC:“stemcell*”ANDlymphoma返回含有詞語“stemcell”及“l(fā)ymphoma”的文檔,等效于檢索“stemcell*”lymphoma檢索的數(shù)據(jù)中必須至少含有一個所給關(guān)鍵字??捎脕頇z索變體及同義詞。TOPIC:aspartameORsaccharineORsweetener*返回至少含有一個關(guān)鍵字的文檔。排除含有某一特定關(guān)鍵字的數(shù)據(jù)TOPIC:aidsNOThearing返回含有“aids”的文檔,排除含有“hearing”的部分。第52頁/共79頁用截詞符號表示檢索詞的某一部分允許有詞形的變化,廣泛用于西文檢索截詞檢索第53頁/共79頁截詞符/通配符符號意義*零個或多個字符gene*-->gene,genetics,generation$零個或一個字符colo$r-->color,colour?只代表一個字符en?oblast-->entoblast,endoblast第54頁/共79頁◆有限截斷“?”◆無限截斷“*”organi?tion:organization;orgnasation…econom*:economic;economics;economism;economize…第55頁/共79頁右截詞中間截詞左截詞physic*:physicphysicalphysician…Defen?e:defencedefense…*magnetic:Magnetic;electro-magnetic…第56頁/共79頁通常用雙引號“”將一個詞組括起,作為一個不可分的檢索整體來進行檢索短語檢索第57頁/共79頁近似運算符關(guān)鍵字檢索希望精確地檢索某個短語,將其放置在引號內(nèi)。范例:“stemcell”Same不同關(guān)鍵字必須在同一句話內(nèi)?!拔木洹蓖ǔJ且粋€有限長度的字串,關(guān)鍵字前后順序不限。在檢索時,“SAME”運算符將檢索含有所有關(guān)鍵字且這些關(guān)鍵字均出現(xiàn)在同一句話中的文檔。范例:stemSAMEcell第58頁/共79頁第59頁/共79頁運用位置算符表示兩個檢索詞間的位置鄰近關(guān)系,又叫鄰接檢索。這種檢索技術(shù)通常只出現(xiàn)在西文數(shù)據(jù)庫中,在全文檢索中應(yīng)用較多。如果說布爾邏輯算符是表示兩個概念之間的邏輯關(guān)系的話,位置算符表示的是兩個概念在信息中的實際物理位置關(guān)系。位置算符檢索第60頁/共79頁算符

功能

表達式

檢索結(jié)果

W,with兩詞相鄰,按輸入時順序排列(也有數(shù)據(jù)庫允許順序顛倒)

Education(W)school,或EducationwithschoolEducationschoolEducationschools(schoolofeducationschoolsofeducation)

nW同上,兩詞中間允許插入n個詞Education(1W)schoolEducationschoolEducationschoolsEducationandmusicschoolSchoolofcontinuededucationPre兩詞相鄰,按輸入順序排列

EducationPreschoolEducationschoolEducationschoolsN,near兩詞緊密相鄰,中間不能插入其他詞,順序可以顛倒

Education(N)school,或EducationnearschoolEducationschoolEducationschoolsSchoolofeducationnN同上,兩詞中間可以插入n個詞

Education(1N)schoolEducationschoolSchoolofeducationEducationandmusicschoolF兩個詞同在一個字段中Education(F)school例如同時出現(xiàn)在題名或文摘字段中Same兩個詞同在一個段落中EducationSameschool同時出現(xiàn)在一個段落中第61頁/共79頁限域檢索

如:riceinti(只在題目字段中查找文獻)

riceinde(只在主題詞字段中查找)

riceinab(只在文摘字段中查找)

利用字段代碼來限制檢索詞出現(xiàn)的字段,以提高檢索速度和命中率。第62頁/共79頁信息檢索一般步驟第63頁/共79頁選擇信息來源五步走確定檢索題目分析檢索題目實施檢索調(diào)整檢索第64頁/共79頁檢索結(jié)果太少檢索結(jié)果太多第65頁/共79頁檢索結(jié)果太少擴展檢索詞同義詞上位詞和下位詞相關(guān)詞參考文獻第66頁/共79頁檢索結(jié)果太少擴展檢索詞同義詞意義相近、相同;縮寫與全稱、學(xué)名與俗名、名稱的更迭、數(shù)字與日期的不同表達方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論