第二章 信息檢索基礎_第1頁
第二章 信息檢索基礎_第2頁
第二章 信息檢索基礎_第3頁
第二章 信息檢索基礎_第4頁
第二章 信息檢索基礎_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1本章要求1.了解信息檢索系統(tǒng)的發(fā)展及組成;

2.理解分類語言和主題語言;3.掌握各種檢索途徑的利用及其區(qū)別;4.掌握常用的信息檢索技術;5.掌握信息檢索策略的制定;6.掌握查全率、查準率的概念及提高檢索效果的措施。2第一節(jié)信息檢索系統(tǒng)一、信息檢索系統(tǒng)是根據特定的信息需求而建立起來的一種有關信息收集、加工、存儲和檢索的服務工作系統(tǒng)??煞譃槭止z索系統(tǒng)

計算機檢索系統(tǒng)3脫機檢索聯(lián)機檢索網絡檢索(光盤檢索)一、信息檢索系統(tǒng)手工檢索系統(tǒng)計算機檢索系統(tǒng)4

1.脫機檢索階段

20世紀50~60年代

又稱脫機批處理檢索,用戶提出的信息需求是委托式的,交專業(yè)人員統(tǒng)一安排,必須等待成批或定期處理。缺點:檢索結果延誤。優(yōu)點:無網絡通訊費,檢索費用由用戶平攤,價格便宜。5

2.聯(lián)機檢索階段

20世紀60~70年代

是用戶利用終端設備,通過通信網絡或通信線路與檢索系統(tǒng)聯(lián)機,采用分時技術,多個用戶可以同時與主機“對話”,從檢索中心的數(shù)據庫查找所需要的文獻信息過程。優(yōu)點:檢索的速度快,檢索質量高。缺點:檢索費用高,技術復雜。6光盤檢索階段

20世紀80年代中期

3.

網絡信息檢索階段

20世紀80年代末—

優(yōu)點:存儲量大、使用方便、費用低、利用微機就可以進行檢索,支持多用戶。7二、信息檢索系統(tǒng)的組成(一)計算機硬件(二)計算機軟件(三)數(shù)據庫

按一定方式存儲在磁盤、磁帶或光盤上的相互關聯(lián)的數(shù)據集合。8字段1字段2字段3記錄1記錄2記錄3文檔1文檔2文檔3數(shù)據庫9記錄與字段

記錄(Record)是構成數(shù)據庫的信息單元,每條記錄都描述了一原始信息的外表和內容特征。

字段(Field)是記錄的下級數(shù)據單位,用來描述實體的某一屬性。10數(shù)據庫的組成數(shù)據庫由文檔、記錄和字段組成。11數(shù)據庫類型(按內容分型)(一)書目數(shù)據庫(BibliographicDatabases)(二)事實數(shù)據庫(FactDatabases)(三)數(shù)值數(shù)據庫(NumericDatabases)(四)全文數(shù)據庫(FullTextDatabases)

(五)圖像數(shù)據庫(ImageDatabases)

12數(shù)據庫類型(按內容分型)(一)書目數(shù)據庫(BibliographicDatabases)

是機讀形式的二次文獻數(shù)據庫,包括:目錄、題錄、文摘等書目線索。(二)事實數(shù)據庫(FactDatabases)

也稱指南數(shù)據庫,存儲描述人物、機構、事物的等非文獻信息源的數(shù)據庫。(三)數(shù)值數(shù)據庫(NumericDatabases):為用戶直接提供所需的數(shù)據信息,無需再追查原文。13(四)全文數(shù)據庫(FullTextDatabases)

:存儲文獻全文或節(jié)選其中主要部分的數(shù)據庫??梢灾苯荧@取原始資料。(五)圖像數(shù)據庫(ImageDatabases):以圖像為信息主體,配有文字解釋。數(shù)據庫類型(按內容分型)14第二節(jié)信息檢索語言又稱標引語言、索引語言、概念標識系統(tǒng)等。是為信息加工、存儲和檢索共同需要而編制的專業(yè)語言。是信息檢索系統(tǒng)存儲和檢索信息時共同使用的一種約定性語言,以達到信息存儲和檢索的一致性,提高檢索效率。15檢索語言分類語言主題語言標題詞元詞敘詞關鍵詞描述信息內容特征的語言描述信息外表特征的語言書/刊名著者/團體著者出版事項代碼/序號16我國古代第一部成型的圖書分類法是西漢劉向、劉歆(xin)父子編制的《七略》。西晉,荀勖(xu)創(chuàng)立了四部分類法,即甲、乙、丙、丁四大部。從隋唐起,圖書的四部分類法已經基本定型?;始覉D書館及秘書省、翰林院等重要典藏圖書之所,都是按照經、史、子、集分四庫貯藏圖書的,名為"四庫書"。輯略六藝略諸子略詩賦略兵書略數(shù)術略方技略1.分類語言171.分類語言按文獻的學科性質給予相應的分類號,用分類號來表達文獻的主題概念,根據分類表中的順序編排成分類索引,提供分類途徑供檢索文獻使用。分類語言是按照邏輯分類原理,按文獻內容的學科、專業(yè)集中文獻,從知識分類的角度揭示各類文獻在內容上的區(qū)別和聯(lián)系,將性質相同的文獻聚集在一起,性質相近的聯(lián)系在一起,性質不同的予以分開。18《中國圖書館分類法》

是我國建國后編制出版的一部具有代表性的大型綜合性分類法,簡稱《中圖法》。英文譯名為ChineseLibraryClassification,英文縮寫為CLC。將學科劃分為5個基本部類,22個基本大類,再進行層層劃分,逐級展開,形成一個嚴格有序的直線性知識門類等級體系。19馬克思主義、列寧主義、毛澤東思想、鄧小平理論A馬克思主義、列寧主義、毛澤東思想、鄧小平理論哲學、宗教B哲學、宗教社會科學C社會科學總論D政治、法律E軍事F經濟G文化、科學、教育、體育H語言、文字I文學J藝術K歷史、地理自然科學N自然科學總論O數(shù)理科學和化學P天文學、地球科學Q生物科學R醫(yī)藥、衛(wèi)生S農業(yè)科學T工業(yè)技術U交通運輸V航空、航天X環(huán)境科學、安全科學綜合性圖書Z綜合性圖書體系結構20R醫(yī)藥、衛(wèi)生R1預防醫(yī)學、衛(wèi)生學

2中國醫(yī)學3基礎醫(yī)學

4臨床醫(yī)學5內科學6外科學71婦產科學72兒科學73腫瘤學

R74神經病學與精神病學75皮膚病學與性病學76耳鼻咽喉科學77眼科學78口腔科學79外國民族醫(yī)學8特種醫(yī)學

9藥學

2121R44診斷學R441癥狀診斷學R443物理診斷學(體檢診斷)R444電診斷R445影像診斷學R446實驗室診斷R447鑒別診斷學R448機能診斷學R45治療學R47護理學R48臨終關懷學R49康復醫(yī)學R441癥狀診斷學R443物理診斷學(體檢診斷)R444電診斷R445影像診斷學R446實驗室診斷R447鑒別診斷學R448機能診斷學R449預后及勞動鑒定R4臨床醫(yī)學R441.1疼痛R441.2眩暈R441.3發(fā)熱R441.4心動過速R441.5咳嗽、咳痰R441.6嘔血、黑便R441.7咯血R441.8呼吸困難R441.9休克R442.1厭食、惡心、嘔吐R442.2便秘、腹脹、腹瀉R442.3肝脾腫大R442.4黃疸R442.5腹水、水腫R442.6痙攣R442.7出血R442.8綜合征R442.9其他2222R44診斷學R441癥狀診斷學R443物理診斷學(體檢診斷)R444電診斷R445影像診斷學R446實驗室診斷R447鑒別診斷學R448機能診斷學R45治療學R47護理學……R441癥狀診斷學R443物理診斷學(體檢診斷)R444電診斷R445影像診斷學R446實驗室診斷R447鑒別診斷學R448機能診斷學R449預后及勞動鑒定R4臨床醫(yī)學R446.1生物化學檢驗、臨床檢驗R446.5微生物學檢驗R446.6免疫學檢驗R446.8組織學檢驗R446.9其他R446.11血液學檢驗R446.12尿液檢驗R446.13糞便檢驗R446.14腦脊髓液檢驗R446.19其他R446.111血液一般(常規(guī))檢驗R446.112血液生物化學檢驗R446.113血液細胞學檢驗R446.119其他23缺點:

專指性較差,不能充分揭示信息資源中大量存在的細小專深主題。分類表中的類目不能隨時更改,因而不能及時反映新的科學技術。按照直線序列設置類目,對邊緣學科課題只能標引在一門學科的類目之下,檢索時可能漏檢。體現(xiàn)了學科和專業(yè)的系統(tǒng)性,便于族性檢索,提高查全率。優(yōu)點:

242.主題語言是從文獻題名和內容中抽取具有實際意義、并能概括文獻內容的詞或詞組,按字順排列,并使用參照系統(tǒng)來間接表達各概念之間的關系的一種檢索語言。特點:直觀性強,專指度高,適合特性檢索,查準率高。根據抽詞原則、編制方法及使用規(guī)則不同,可分為標題詞、元詞、敘詞、關鍵詞。25

敘詞是用能表達文獻主題并經過嚴格規(guī)范化處理的詞語,又稱主題詞。特點:具有概念性、描述性、組配性。如:我國《漢語主題詞表》(1980出版)美國《標準主題詞表》(1954年出版),后改名《醫(yī)學主題詞表》(1961年)對同義詞、詞間關系進行控制---查全率、制定標引規(guī)則---查準率。26美國《醫(yī)學主題詞表》

(MeSH,MedicalSubjectHeadings)

特點:

a.詞義、詞類、詞形規(guī)范保證詞語與概念的唯一對應關系,具有專指性;27

b.采用參照系統(tǒng)顯示詞語之間的相關關系用代參照:

見——see代——

X如:艾滋病見獲得性免疫缺陷綜合征獲得性免疫缺陷綜合征代艾滋病

CancerseeNeoplasmsNeoplasmsXCancer

相關參照:參——seerelated被參——XR

28

c.采用主題詞分類索引(范疇表或樹狀結構)顯示詞語之間的等級(從屬)關系,增強了族性檢索能力。

如:MetabolicDiseases(代謝疾病)Acid-BaseImbalance(酸堿失衡)Achlorhydria(胃酸缺乏)Acidosis(酸中毒)Acidosis,Lactic

(酸中毒,乳酸性)29

d.具有組配(組合)功能:

概念相交組配:

胃潰瘍+消化性潰瘍出血出血性胃潰瘍

30關鍵詞語言是直接從文獻的標題、文摘或全文中抽選具有實質意義、能表達文獻主題概念,未經規(guī)范化處理的自然語言詞匯。優(yōu)點:

①易于實現(xiàn)自動抽詞和編制索引;②表達主題直觀,檢索入口多,能及時反映新事物新概念。缺點:檢索質量難以保證。31一、分類途徑

是按文獻內容所屬的學科類別來檢索文獻的途徑,檢索標識是分類號或分類詞。

檢索方法:需掌握一定的分類法,了解分類表或分類目次,從中確定所查文獻的學科類別,找到相應類目的分類號,即可。第三節(jié)信息檢索途徑32分類檢索—輔助性33二、主題途徑是通過反映文獻內容主題的語詞來檢索文獻的途徑。檢索方法:利用主題索引,按語詞字順查找,即可找到相應主題的文獻。三、關鍵詞途徑是最常用的一種檢索途徑。優(yōu)點:利于新課題、新事物的檢索。缺點:沒有嚴格的語法規(guī)范,個人使用的愛好不同自由詞選擇不同,要查全,需考慮同義詞等。34檢索舉例:冠心病的治療自由詞-關鍵詞冠心病冠狀動脈疾病冠狀動脈粥樣硬化性心臟病冠狀動脈心臟病冠狀動脈疾病主題詞文獻治療治療35四、著者檢索是按文獻的著者、編者、譯者的姓名或機構團體名稱字順檢索文獻的途徑。書寫格式中文:姓名全稱

外文:姓前(全稱)、名后(縮寫,即用首字母)

如:WillianHenryHarrison

→HarrisonWHRenShuMin→RenSM36五、題名檢索

按書名、刊名或文章篇名的字順進行檢索,檢索時按題名字順查找。六、號碼途徑利用文獻代碼、序號編排成的“號碼索引”檢索文獻。如ISBN、ISSN等。七、其他檢索途徑化學物質登記號檢索、分子式檢索等。37第四節(jié)信息檢索技術

計算機檢索過程中,用戶檢索提問的邏輯表達式由檢索詞和各種布爾邏輯算符、位置算符以及系統(tǒng)規(guī)定的其他組配連接符號組成,以便更加全面、準確的表達用戶需求。

隨著研究的進展,不斷有新的技術出現(xiàn),以提升檢索效果。38

1.邏輯與

運算符為“and”

或者“*”。檢索詞A與檢索詞B用and組配,提問式可寫為:

AandB或者A*B

表示:檢索結果中每條記錄必須同時含有A和B檢索詞,增強檢索的專指性,縮小檢索范圍,提高了查準率。一、布爾邏輯檢索39舉例:邏輯運算AND糖尿病and飲食402.邏輯或

運算符為“OR”

或者“+”

。檢索詞A與B用or組配,提問式可寫為:

AorB或者A+B

表示:包含檢索詞A的文獻或包含檢索詞B的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論