第2章 信息檢索原理課件_第1頁
第2章 信息檢索原理課件_第2頁
第2章 信息檢索原理課件_第3頁
第2章 信息檢索原理課件_第4頁
第2章 信息檢索原理課件_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2章信息檢索基本原理

第2章信息檢索原理2.1信息檢索的基本概念2.2數(shù)字信息檢索工具

2.3計(jì)算機(jī)信息檢索技術(shù)2.4信息檢索的基本步驟第2章信息檢索原理2.1信息檢索概述2.1.1信息檢索的含義與實(shí)質(zhì)2.1.2信息檢索的類型和特點(diǎn)第2章信息檢索原理2.1.1信息檢索的含義與實(shí)質(zhì)信息檢索是指從任何方式組成的信息集合中,查找特定用戶在特定時(shí)間和條件下所需信息的方法與過程。因此,完整的信息檢索應(yīng)包括以下兩個(gè)方面:1.信息的標(biāo)引和存儲過程2.信息的檢索過程

第2章信息檢索原理2.1.1信息檢索的含義與實(shí)質(zhì)廣義地講,信息檢索包含信息儲存和信息查找兩個(gè)過程。狹義地講,信息檢索僅僅指信息查找的過程,即解決特定的信息需求和滿足信息用戶的需要。信息檢索是指從一定結(jié)構(gòu)的信息儲存集合中,查找出用戶所需的特定信息的方法與過程。第2章信息檢索原理其實(shí)質(zhì)將描述特定用戶所需信息的提問特征,與信息存儲的檢索標(biāo)識進(jìn)行異同的比較,從中找出與提問特征一致或基本一致的信息。第2章信息檢索原理示例高性能聚芳硫醚(PAS)樹脂的合成本課題涉及的提問特征有兩個(gè)主要的概面第一概面聚芳硫醚涉及的主題詞或關(guān)鍵詞有:1.聚芳硫醚2.聚苯硫醚3.聚芳硫醚砜4.聚苯硫醚砜5.聚芳硫醚酮6.聚苯硫醚酮7.聚芳硫醚酰胺8.聚苯硫醚酰胺等第二概面合成涉及的主題詞或關(guān)鍵詞有:9.合成10.制備11.生產(chǎn)等第2章信息檢索原理提問特征是指從欲檢索課題中選擇出能代表信息需求的概面以及涉及到的主題詞或關(guān)鍵詞等。結(jié)論:利用信息的檢索系統(tǒng),查找特指相關(guān)信息的過程。第2章信息檢索原理一些基本概念字段:字段是文獻(xiàn)著錄的基本單元,反映文獻(xiàn)外部特征和內(nèi)容特征的每一個(gè)項(xiàng)目,如題名字段、著者字段、刊名字段、文摘字段、主題詞字段、關(guān)鍵詞字段等。第2章信息檢索原理一些基本概念元數(shù)據(jù):是一種在電子環(huán)境中使用的著錄數(shù)據(jù)。與傳統(tǒng)文獻(xiàn)中的著錄款目性質(zhì)相同,不同之處在于傳統(tǒng)文獻(xiàn)的著錄是相對完整的、靜止的信息內(nèi)容進(jìn)行處理。元數(shù)據(jù)著錄的對象,不僅包括圖書、期刊、磁帶、錄像帶、縮微品、論文、科技報(bào)告,還包括各種形式的網(wǎng)絡(luò)信息資源等。著錄的數(shù)據(jù)既書目信息、文摘、索引、綜述等,也包括文檔名、URL等信息源數(shù)據(jù)。第2章信息檢索原理一些基本概念記錄:是對某一實(shí)體屬性進(jìn)行描述的信息單元。每個(gè)信息單元由諸如著者、標(biāo)題、出版日期等若干個(gè)數(shù)據(jù)元組成。在書目數(shù)據(jù)庫中,被描述的實(shí)體是某一特定的文獻(xiàn),這類記錄通常被稱作文獻(xiàn)記錄。第2章信息檢索原理數(shù)字信息檢索類型文獻(xiàn)信息檢索數(shù)據(jù)信息檢索事實(shí)信息檢索。第2章信息檢索原理數(shù)字信息檢索類型(1)文獻(xiàn)信息檢索文獻(xiàn)信息檢索(DocumentInformationRetrieval)是將存儲于數(shù)據(jù)庫中關(guān)于某一主題文獻(xiàn)的線索查找出來的檢索。它通常通過目錄、索引、文摘等二次文獻(xiàn)信息為工具,以原始文獻(xiàn)的出處為檢索目的,可以向用戶提供有關(guān)原文獻(xiàn)的信息。文獻(xiàn)信息檢索是利用檢索工具查出相關(guān)文獻(xiàn)的過程。檢索系統(tǒng)不直接解答用戶提出的問題,而是提供與之相關(guān)的文獻(xiàn)名稱及出處,供用戶篩選使用。第2章信息檢索原理數(shù)字信息檢索類型(2)數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索(DataInformationRetrieval)是將經(jīng)過選擇、整理、鑒定的數(shù)值數(shù)據(jù)存入數(shù)據(jù)庫中,根據(jù)需要查出可回答某一問題的數(shù)據(jù)的檢索。數(shù)據(jù)信息檢索的對象是數(shù)值性數(shù)據(jù),即具有數(shù)量性質(zhì)并以數(shù)值形式表示的量化信息。這些數(shù)值型數(shù)據(jù)各種各樣,包括物理性能數(shù)據(jù)、化學(xué)物質(zhì)數(shù)據(jù)、環(huán)境監(jiān)測數(shù)據(jù)、各種統(tǒng)計(jì)數(shù)據(jù)、自然資源數(shù)據(jù)、經(jīng)濟(jì)和社會數(shù)據(jù)等。數(shù)據(jù)檢索不僅能查出數(shù)據(jù),而且能提供一定的運(yùn)算、推導(dǎo)能力。用戶可通過使用經(jīng)過選擇、整理、鑒定的數(shù)值數(shù)據(jù)庫檢索獲得一些量化信息,從而為定量分析提供依據(jù)。第2章信息檢索原理數(shù)字信息檢索類型(3)事實(shí)信息檢索事實(shí)信息檢索(FactInformationRetrieval)是將存儲于數(shù)據(jù)庫中的關(guān)于某一事件發(fā)生的時(shí)間、地點(diǎn)、經(jīng)過等信息查找出來的檢索。它既包含數(shù)值數(shù)據(jù)的檢索、運(yùn)算、推導(dǎo),也包括事實(shí)、概念等的檢索、比較、邏輯判斷。事實(shí)信息檢索的對象是已經(jīng)存在的各種事實(shí)的有關(guān)資料,它是數(shù)值信息和系統(tǒng)數(shù)據(jù)信息的混合。一般先從系統(tǒng)中檢索出所需信息后,再加以邏輯推理才能給出結(jié)論。例如MIS數(shù)據(jù)庫中包含大量公司管理中有關(guān)人員、工資、銷售統(tǒng)計(jì)預(yù)測、產(chǎn)品規(guī)模等信息,這類信息主要是用于管理決策的。事實(shí)信息檢索比數(shù)值數(shù)據(jù)信息檢索復(fù)雜。第2章信息檢索原理數(shù)字信息檢索基本原理數(shù)字信息檢索基本原理是將用戶的檢索提問詞與數(shù)據(jù)庫文獻(xiàn)記錄中的標(biāo)引詞進(jìn)行比對,當(dāng)提問詞與標(biāo)引詞匹配一致時(shí),即為命中,檢索成功。由此可見,能否準(zhǔn)確地檢索出用戶所需的信息,關(guān)鍵在于能否準(zhǔn)確地選擇檢索詞。這里所謂的“準(zhǔn)確”,是指用戶所選用的檢索詞必須與數(shù)據(jù)庫中標(biāo)引文獻(xiàn)記錄所用的標(biāo)引詞相一致。檢索語言就是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語言,也是連接信息存儲和檢索兩個(gè)過程中標(biāo)引人員與檢索人員雙方思路的渠道,是用于文獻(xiàn)標(biāo)引和檢索提問的約定語言。第2章信息檢索原理數(shù)字信息檢索基本原理信息檢索語言、文獻(xiàn)特征、信息檢索途徑對應(yīng)關(guān)系。著者(個(gè)人著者、團(tuán)體著者)——著者途徑表述文獻(xiàn)外表特征的語言文獻(xiàn)號(專利號、報(bào)告號、標(biāo)準(zhǔn)號等)——序號途徑其它(日期、地名、引文數(shù)等)——其它途徑信息檢索語言分類號——分類途徑表述文獻(xiàn)內(nèi)容特征的語言主題詞(關(guān)鍵詞、標(biāo)題詞、單元詞、敘詞)——主題途徑其它(分子式、雜原子等)——其它途徑第2章信息檢索原理數(shù)字信息檢索基本原理分類檢索語言:用分類號來表達(dá)各種概念,以學(xué)科體系為基礎(chǔ),將各種概念按學(xué)科性質(zhì)進(jìn)行分類和系統(tǒng)排列?!吨袌D法》第2章信息檢索原理數(shù)字信息檢索基本原理主題語言所使用的語詞統(tǒng)稱為主題詞,主題詞來自自然語言,多半經(jīng)過規(guī)范化處理,形成主題詞表,作為標(biāo)引與檢索的依據(jù)。關(guān)鍵詞語言是直接選用文獻(xiàn)中的自然語言作基本詞匯,并將那些能夠揭示文獻(xiàn)題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進(jìn)行標(biāo)引的一種檢索語言。所謂關(guān)鍵詞是指那些出現(xiàn)在文獻(xiàn)的標(biāo)題(篇名、章節(jié)名)以至摘要、正文中,對表征文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語詞,亦即對揭示和描述文獻(xiàn)主題內(nèi)容來說是重要的、帶關(guān)鍵性的(可作為檢索“入口”的)那些詞語。第2章信息檢索原理2.1.2信息檢索的類型和特點(diǎn)1.書目信息檢索2.全文信息檢索3.數(shù)據(jù)信息檢索4.事實(shí)信息檢索

5.

小結(jié)第2章信息檢索原理書目信息檢索以標(biāo)題、作者、原文來源、摘要及收藏地點(diǎn)為檢索對象,是一種相關(guān)性檢索。特點(diǎn):檢索結(jié)果不直接解答課題用戶提出的技術(shù)問題,只提供與之相關(guān)的線索。一般以目錄、索引、文摘數(shù)據(jù)庫為檢索工具。

例如:查找有關(guān)“聚苯硫醚的合成與應(yīng)用”方面的國內(nèi)外信息有那些?

檢索工具:

中文科技期刊數(shù)據(jù)庫、萬方數(shù)據(jù)資源系統(tǒng)、EI、CAonCD等。

第2章信息檢索原理全文信息檢索以論文或?qū)@f明書的全文為檢索對象,也屬相關(guān)性檢索的范疇。特點(diǎn):是在書目信息檢索基礎(chǔ)上更深層次的內(nèi)容檢索。例如:檢索由王華東等撰寫,發(fā)表在《高分子材料科學(xué)與工程》2003年第3期“高性能結(jié)構(gòu)材料聚苯硫醚砜”一文檢索工具:中文科技期刊數(shù)據(jù)庫等第2章信息檢索原理數(shù)據(jù)信息檢索以具有數(shù)量性質(zhì)并以數(shù)值形式表示的數(shù)據(jù)為檢索對象,是一種確定性檢索。檢索的結(jié)果是經(jīng)過測試和評價(jià)過的各種數(shù)據(jù),可用于比較分析和定量分析。它一般以數(shù)據(jù)大全、手冊、年鑒等為檢索工具。例如:2003年申請中國發(fā)明專利和獲得授權(quán)發(fā)明專利最多的國家有哪些?檢索工具:中國統(tǒng)計(jì)年鑒第2章信息檢索原理事實(shí)信息檢索

以事項(xiàng)為檢索對象,檢索結(jié)果是有關(guān)某一事物的具體答案,也是一種確定性檢索。一般利用字詞典、年鑒、百科全書、手冊等為檢索工具。第2章信息檢索原理示例:

問題:世界上是誰在什么年代、用什么方法首先合成了聚苯硫醚?

檢索工具:工程塑料手冊(材料卷)第2章信息檢索原理小結(jié):書目信息和全文信息檢索是利用各種目錄、題錄、文摘和全文數(shù)據(jù)庫獲取有關(guān)信息的線索或全文。第2章信息檢索原理將向同學(xué)們推薦實(shí)現(xiàn)書目和全文信息檢索數(shù)據(jù)庫有:國內(nèi)數(shù)據(jù)庫中文期刊數(shù)據(jù)庫:中國期刊全文數(shù)據(jù)庫萬方數(shù)據(jù)庫:中國專利數(shù)據(jù)庫:中國國家知識產(chǎn)權(quán)局專利數(shù)據(jù)庫:第2章信息檢索原理國外數(shù)據(jù)庫Eivillage2ISIWebofScienceCambridgeScientificAbstractsProQuestDigitalDissertationsElsevierScience美國專利文獻(xiàn)數(shù)據(jù)庫:加拿大專利數(shù)據(jù)庫:歐洲專利數(shù)據(jù)庫:日本專利數(shù)據(jù)庫:第2章信息檢索原理數(shù)據(jù)和事實(shí)檢索是利用各種參考工具書獲取有關(guān)的確定性數(shù)據(jù)或事實(shí)信息。例如:各種百科全書、年鑒、手冊等。第2章信息檢索原理2.2信息檢索方法

2.2.1信息需求分析

2.2.2制定檢索策略

2.2.3實(shí)施檢索策略第2章信息檢索原理2.2.1信息需求分析信息需求是人們在客觀或主觀上就課題所需信息的要求,是人們檢索信息的基本出發(fā)點(diǎn),也是評價(jià)檢索效果的依據(jù)。它主要包括兩個(gè)方面:1.明確檢索的目的和要求

2.對主題進(jìn)行分析第2章信息檢索原理示例課題名稱:難降解制藥廢水處理

一、檢索目的和要求:目的:科技立項(xiàng)要求:國內(nèi)有無

1.難降解制藥廢水處理的研究報(bào)道;2.已采用的技術(shù)有哪些?第2章信息檢索原理二、主題分析第一概面:制藥第二概面:廢水處理—生物法、電化學(xué)法、化學(xué)氧化、溶劑萃取、光催化等第三概面:難降解—鹵代烴類、酚類、醇類、芳香族等

第2章信息檢索原理2.3信息檢索技術(shù)及其應(yīng)用信息檢索技術(shù)是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機(jī)數(shù)據(jù)庫、光盤數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫檢索有關(guān)信息而采用的相關(guān)技術(shù),常用的有布爾、詞位、截詞和限制技術(shù)。第2章信息檢索原理2.3.1布爾檢索常用的有:(1)邏輯與(2)邏輯或(3)邏輯非第2章信息檢索原理邏輯與1.含義:是一種具有概念交叉或概念限定關(guān)系的組配。2.算符:“*”或“AND”或“并且”等。3.特點(diǎn):增強(qiáng)專指度,提高查準(zhǔn)率。4.舉例:聚甲醛AND增韌,表示兩個(gè)概念應(yīng)同時(shí)包含在一條記錄中。第2章信息檢索原理邏輯或1.含義:是一種具有概念相同、概念相關(guān)或概念并列關(guān)系的組配。2.算符:“

+”

或“

OR”或“或者”等。3.特點(diǎn):擴(kuò)大檢索范圍,提高查全率。4.舉例:廢水OR污水,表示這兩個(gè)相關(guān)概念分別在一條記錄中出現(xiàn)或同時(shí)在一條記錄中出現(xiàn)。第2章信息檢索原理邏輯非1.含義:是一種具有概念排除關(guān)系的組配。2.算符:“

-”

或“

NOT”或“不包含”等。3.特點(diǎn):提高查準(zhǔn)率,影響查全率。4.舉例:制藥廢水NOT放射廢水,表示檢索出的記錄中要排除含有“放射廢水”的記錄。第2章信息檢索原理2.3.2詞位檢索1.含義:具有限定檢索詞詞間位置關(guān)系的組配功能,可彌補(bǔ)布爾邏輯組配只是定性規(guī)定檢索詞的范圍,2.算符:(W)與(nW)用于Dialog聯(lián)機(jī)和光盤系統(tǒng),相鄰兩詞詞序不能顛倒;

SAME用于ISIWebofScience

系統(tǒng)中,相鄰兩詞在同一句子中,詞序任意。3.特點(diǎn):達(dá)到提高檢準(zhǔn)率的效果。4.舉例:gas(w)chromatograph;airSAMEpollution第2章信息檢索原理2.3.3截詞檢索1.含義:是指在檢索詞的合適位置進(jìn)行截?cái)?,然后使用截詞符進(jìn)行處理,可節(jié)省輸入的字符,又可達(dá)到較高的查全率。較常用的是后截詞和中截詞。按所截?cái)嗟淖址麛?shù)分,有無限截詞和有限截詞兩種。2.算符:?、*、$等。3.特點(diǎn):預(yù)防漏檢提高查全率4.舉例:building??、building?、building*、building$第2章信息檢索原理2.3.4限制檢索1.含義:使用截詞檢索,僅簡化了布爾檢索中的邏輯或功能,并沒有改善布爾檢索的性質(zhì)。使用詞位檢索,只能限制檢索詞之間的相對位置,不能完全確定檢索詞在數(shù)據(jù)庫中出現(xiàn)的字段位置,需要使用限制檢索縮小查找的范圍。常用的限制檢索有:字段、文獻(xiàn)類型、語種以及年代等限制。2.字段限制常用的符號符號:標(biāo)題(TI)、文摘(AB)、作者(AU)、刊名(JN)等。3.特點(diǎn):限制查找的范圍,滿足課題對查全、查準(zhǔn)的要求。4.舉例第2章信息檢索原理2.3.5信息檢索方法及技術(shù)應(yīng)用實(shí)例檢索課題:高層建筑結(jié)構(gòu)優(yōu)化設(shè)計(jì)1.信息需求分析(1)明確檢索目的與要求

1)檢索目的:碩士學(xué)位論文開題查新

2)檢索要求:國內(nèi)外關(guān)于高層建筑結(jié)構(gòu)優(yōu)化設(shè)計(jì)方面的相關(guān)信息

3)確定檢索類型:屬書目及全文信息檢索(2)主題分析第一概面:高層建筑第二概面

結(jié)構(gòu)設(shè)計(jì)第三概面

:優(yōu)化設(shè)計(jì)第2章信息檢索原理2.制定檢索策略

(1)選擇檢索詞根據(jù)主題分析確定的主題范圍,選擇檢索詞如下:

高層建筑tallbuilding*

高層建筑highrisebuilding*高層建筑highrisebui

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論