信息管理學基礎(chǔ)5.信息組織6.信息檢索課件_第1頁
信息管理學基礎(chǔ)5.信息組織6.信息檢索課件_第2頁
信息管理學基礎(chǔ)5.信息組織6.信息檢索課件_第3頁
信息管理學基礎(chǔ)5.信息組織6.信息檢索課件_第4頁
信息管理學基礎(chǔ)5.信息組織6.信息檢索課件_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

5 信息組織5.1.1信息組織的概念與內(nèi)容

信息組織,也叫信息整序,是利用一定的規(guī)則、方法和技術(shù)對信息的外部特征和內(nèi)容特征進行揭示和描述,并按給定的參數(shù)和序列公式排列,使信息從無序集合轉(zhuǎn)換為有序集合的過程。外部特征:信息的物理載體直接反映的信息對象,構(gòu)成信息的外在的、形式的特征(題名、作者、出版社、日期等)內(nèi)部特征:信息包含的內(nèi)容,由主題詞、關(guān)鍵詞或其它知識單元表達5.1信息組織的基本原理(1)信息選擇從采集到的無序的信息流中甄別出有用的信息,剔除無用信息。(2)信息分析按一定邏輯關(guān)系從語義、語用和語法上對選擇過的信息內(nèi)、外部特征進行細化、挖掘、加工整理并歸類。(3)信息描述與揭示根據(jù)信息組織和檢索的需要,對信息的主題內(nèi)容、形式特征、物質(zhì)形態(tài)等進行分析和記錄。(4)信息存貯將經(jīng)過加工整理序化后的信息按一定格式與順序存儲在特定的載體中。5.1.1信息組織的概念與內(nèi)容按信息表現(xiàn)形式劃分

文字信息組織、圖像信息組織、

聲音信息組織、視頻信息組織按信息加工程度劃分一次信息組織、二次信息組織、三次信息組織按信息的傳播載體劃分

文獻信息組織、非文獻信息組織5.1.2信息組織的類型客觀性原則系統(tǒng)性原則目的性原則現(xiàn)代化原則5.1.3信息組織的原則語言學邏輯學知識分類系統(tǒng)論耗散結(jié)構(gòu)理論協(xié)同論自組織理論5.1.4信息組織的理論基礎(chǔ)5.2.1分類法

信息的分類組織是構(gòu)建有序化信息系統(tǒng)的常用方法,是指根據(jù)信息資源的內(nèi)容屬性和其他特征,將資源分門別類地、系統(tǒng)地組織和揭示的方法。它用分類號來表達各種概念,將各種概念按學科性質(zhì)進行分類和系統(tǒng)排列。分類法的特征:

第一,是按照信息內(nèi)容特征的相互關(guān)系進行組織的。

第二,是從一定角度出發(fā)組織和揭示信息資源。5.2信息組織的思想方法

國內(nèi)外主要的分類法《杜威十進制分類法》((DeweyDecimalClassification,簡稱DDC)),由美國圖書館學專家麥維爾·杜威(MelvilDewey,1851-1931)所創(chuàng)。《國際十進制分類法》((UniversalDecimalClassification,簡稱UDC)))也稱《通用十進分類法》,由比利時的奧特勒(P.Otlet)和拉封丹(H.Lafontaine)在《杜威十進制分類》的基礎(chǔ)上擴充而成?!吨袊鴪D書館分類法》簡稱《中圖法》,原名《中國圖書館圖書分類法》,是我國建國后編制出版的一部具有代表性的大型綜合性分類法,是當今國內(nèi)圖書館使用最廣泛的分類法體系。5.2.1分類法根據(jù)文獻主題特征來組織排列信息的一種方法,由受控的自然語言語詞直接表達主題概念。

主題法的特征:

第一,以特定事物、問題、對象,即主題為中心集中信息資源。

第二,直接以語詞作為信息的組織和檢索標識。

第三,以字順作為主要檢索途徑。主題法可分為:

標題法、單元詞法、敘詞法、關(guān)鍵詞法5.2.2主題法分類法系統(tǒng)性強,滿足族性檢索,符合人們的思維與檢索習慣,分類目錄瀏覽。主題法直觀,滿足特性檢索,提供了一種直接面向?qū)ο?、事實或概念的信息組織方法。族性檢索與特性檢索相結(jié)合搜索引擎在分類檢索的同時添加了關(guān)鍵詞索引手段,而一些主題檢索的搜索引擎也輔助以分類索引功能

CNKI中的組織法搜索引擎的分類搜索5.2.3分類-主題一體化為了確保信息組織的質(zhì)量,提高信息檢索的效率,我們要對信息進行描述和揭示,正確判斷、表達信息的特征和內(nèi)容,既不遺漏有價值的信息內(nèi)容,又不將無價值的內(nèi)容或信息對象中根本不存在的東西作為分析結(jié)果。一般來說,信息組織的深度和質(zhì)量取決于對信息揭示的深度和水平,為此,人們創(chuàng)造了多種技術(shù)、方法、規(guī)則和標準對信息進行描述和揭示。5.3信息的描述與揭示(1)標引的基本概念信息標引,是指分析信息對象的內(nèi)容屬性(特征)及相關(guān)外表屬性,并用特定語言表達分析出的屬性或特征,作為信息存儲和檢索依據(jù)的處理過程。它是在對文獻信息對象分析基礎(chǔ)上發(fā)展起來的,故又稱為文獻標引。信息標引過程一般包括兩個環(huán)節(jié):一是主題分析,二是轉(zhuǎn)換標識。(2)標引語言標引語言是表達文獻主題概念和檢索需求主題概念的簡明性、單義性和關(guān)聯(lián)性的概念標識系統(tǒng),是根據(jù)標引和檢索需要而編制的一種專用語言或標識系統(tǒng)。5.3.1信息標引分類標引是指對文獻進行主題分析,用特定的分類語言表達分析出的主題,賦予文獻分類檢索標識(分類號)的過程。習慣上,分類標引被稱為分類。文獻分類是指根據(jù)文獻內(nèi)容及其他相關(guān)屬性,以分類語言(分類法)為工具,分門別類地系統(tǒng)揭示和組織文獻的過程和方法。主題標引是指對文獻進行主題分析,用主題語言(主題法)表達分析出的主題,賦予文獻主題檢索標識(標題詞、敘詞等)的過程。5.3.1信息標引(3)信息標引的類型MARC(MachineReadableCatalogue)機器可讀目錄,是一種計算機能夠識別和閱讀的目錄特點伸縮性強,適應(yīng)面廣包括001-999個字段字段內(nèi)容著錄詳盡,作用強化每條記錄可分為頭標區(qū)、目次區(qū)、數(shù)據(jù)區(qū)USMARC(美國國會圖書館機讀目錄通信格式UNIMARC(國際機讀目錄通信格式)CNMARC(中國機讀目錄格式)5.3.2機器可讀目錄(MARC)001000663115

00520091224112412.0

010|a978-7-5354-3093-9|dCNY14.00

099|aCAL012009189818

100|a20091223d2007

ekmy0chiy50

ea

1011|achi|beng|cger

102|aCN|b420000

105|aaf

z

000fy

106|ar

2001|a格林童話

|Agelintonghua|f(丹麥)格林兄弟著

|d=Grimm'sfairytales|fGrimmBrothers|g蔡昌卓譯

|zeng

205|a插圖本

210|a武漢

|c長江文藝出版社

|d2007

215|a[8],270頁,[5]頁圖版

|c圖

|d21cm

2252|a世界文學名著典藏

|Ashijiewenxuemingzhudiancang

330|a本書收錄格林兄弟童話作品《青蛙王子》《貓和老鼠交朋友》《忠實的約翰》《小母雞之死》等等。

4100|12001

|a世界文學名典藏

5101|aGrimm'sfairytales|zeng

6060|a童話

|Atonghua|y德國

|z近代

|j選集

690|aI516.88|v4

7011|a格林

|Agelin|g(Grimm,Jakob),|f1785-1863|4著

7011|a格林

|Agelin|g(Grimm,Wilhelm),|f1786-1859|4著

7020|a蔡昌卓

|Acaichangzhuo|4譯

8010|aCN|bWUL|c20091223

905|aZT|dI516.88|eG284|i格林

|sI516.88/G284b

《格林童話》(格林兄弟著;蔡昌卓譯.長江文藝出版社,2007年)這本圖書在武漢大學圖書館書目檢索系統(tǒng)中的MARC記錄格式5.3.2機器可讀目錄(MARC)(1)元數(shù)據(jù)的概念關(guān)于數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)元數(shù)據(jù)(Medadata)是組織信息的基本工具,是為標和著錄網(wǎng)上信息資源而產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),它是用來描述網(wǎng)上信息資源,加強對網(wǎng)上信息資源的搜集、開發(fā)、組織與利用的網(wǎng)絡(luò)數(shù)據(jù)集合元數(shù)據(jù)是組織數(shù)據(jù)、各種數(shù)據(jù)域及它們之間相互關(guān)系的信息5.3.3元數(shù)據(jù)數(shù)據(jù)類型元素名稱(Elementnames)元素描述(Elementdescription)元素標識(Elementrepresentation)元素代碼(Elementcoding)元素語義(Elementsemantics)元素分類(Elementclassification)5.3.3元數(shù)據(jù)

元數(shù)據(jù)的作用描述:對信息對象的內(nèi)容、特征和位置進行描述定位:提供信息資源位置的信息,以便用戶訪問時使用搜尋:將信息對象中重要內(nèi)容抽取并加以組織,賦予語義,建立數(shù)據(jù)之間的聯(lián)系,指出相關(guān)數(shù)據(jù)的地址和存取方法評價:提供有關(guān)信息對象的名稱、年代、格式、制作者等基本屬性,作為用戶存取與利用的參考選擇:通過記錄信息資源的特征,供用戶對信息資源的使用價值進行判斷,決定是否使用5.3.3元數(shù)據(jù)(2)都柏林核心集(

DublinCore)

描述網(wǎng)絡(luò)信息資源的一種簡單元數(shù)據(jù),其目的是提供一種Internet資源的描述規(guī)范,以便發(fā)掘西文電子資源,包括15個數(shù)據(jù)單元(element)。特點:通俗易懂,運用靈活,國際通用,可擴展性5.3.3元數(shù)據(jù)資源內(nèi)容描述類元素資源知識產(chǎn)權(quán)描述類元素資源外部屬性描述類元素題名(Title)作者或創(chuàng)作者(AuthororCreator)日期(Date)主題和關(guān)鍵詞(Subject)出版者(Publisher)類型(Type)描述(Description)其他責任者(Contributors)格式(Format)來源(Source)權(quán)限管理(Rights)資源標識符(Identifier)語種(Language)

關(guān)聯(lián)(Relation)

覆蓋范圍(Coverage)

表5-3都柏林核心集元素類別DC的15個元素可分為三種類型:與資源內(nèi)容有關(guān)的元素、與資源知識產(chǎn)權(quán)有關(guān)的元素和與資源外部屬性有關(guān)的元素。5.3.3元數(shù)據(jù)(3)其他元數(shù)據(jù)規(guī)范目前,數(shù)字圖書館常用的元數(shù)據(jù)標準有:MARC(美國的USMARC、國際標準UNIMARC、中國的CNMARC、日本的JMARC、英國的UKMARC、加拿大的CANMARC、東南亞的SEA-MARC)、都柏林核心數(shù)據(jù)(DublinCore)、VRA核心類目(VRACoreCategory)、藝術(shù)作品著錄類目(CategoriesfortheDescriptionofWorksofArts)、CDWA、REACH著錄單元集合(REACHelementset)、PICS、WebCollections、CDF、MCF、RDF等。另外,還有《政府信息定位服務(wù)》(GovernmentInformationLocatorService,簡稱GILS)、《聯(lián)合地理數(shù)據(jù)委員會的數(shù)字地球空間元數(shù)據(jù)》(ContentStandardDigitalGeospatialMetadata,簡稱CSDGM)、《可視資源核心范疇》(CoreCategoriesfor-visualResources,簡稱CCVR)、《編碼檔案描述》(EncodedArchivalDescription,簡稱EDA)、《博物館信息的計算機交換》(ComputerInterchangeofMuseumInformation,簡稱CIMI)等描述規(guī)范。5.3.3元數(shù)據(jù)通用置標語言標準SGML(StandardGeneralizedMarkupLanguage)

超文本置標語言HTML(Hyper-textMarkupLanguage)

可擴展的置標語言XML(eXtensibleMarkupLanguage)MARCXML5.3.4通用標記語言及相關(guān)標準5.4.1網(wǎng)絡(luò)信息組織的特點

(1)海量網(wǎng)絡(luò)信息及信息生產(chǎn)、傳播速度的加快,對傳統(tǒng)信息加工方式提出了挑戰(zhàn)。(2)信息種類增多,數(shù)據(jù)庫成分復雜化,過去主要適用于文本信息的信息組織方法適用性降低。(3)不同于以往信息用戶,網(wǎng)絡(luò)信息用戶的信息行為對信息組織有專門需求,他們要求信息組織方式透明化、易用化,希望信息傳播快速便捷,組織方式簡便實用。(4)網(wǎng)絡(luò)信息形式上的非線性、交互性和動態(tài)性,需要信息組織方法及時而靈活。5.4網(wǎng)絡(luò)應(yīng)用:

網(wǎng)絡(luò)信息資源組織傳統(tǒng)分類組織是一種比較成熟的信息組織方法,在網(wǎng)絡(luò)信息組織中仍得到普遍的應(yīng)用。目前,網(wǎng)絡(luò)上的信息分類組織主要采用兩種方式來進行:一是沿用傳統(tǒng)的文獻分類方法,主要以學術(shù)資源為主;二是采用自編的分類系統(tǒng),在門戶網(wǎng)站上較為常用。5.4.2網(wǎng)絡(luò)信息的分類組織

傳統(tǒng)文獻分類法的應(yīng)用英國國內(nèi)綜合性網(wǎng)上資源的BUBLsubjecttree(http://bubl.ac.uk/),按照DDC分類體系將網(wǎng)絡(luò)資源進行組織圖5-4BUBLLINK

CatalogueofInternetResources的網(wǎng)絡(luò)資源目錄5.4.2網(wǎng)絡(luò)信息的分類組織“加拿大學科資源”(CanadianInformationbySubject)網(wǎng)站(http://www.collectionscanada.gc.ca/caninfo/ecaninfo.htm

)也依據(jù)DDC分類構(gòu)建了學科主題樹瀏覽目錄(subjecttree)圖5-5CanadianInformationbySubject的主題樹(采用DDC分類體系)5.4.2網(wǎng)絡(luò)信息的分類組織維普資訊的《中文科技期刊數(shù)據(jù)庫》的分類體系就是以《中國圖書館分類法》為標準圖5-6《中文科技期刊數(shù)據(jù)庫》的分類體系(采用《中圖法》)5.4.2網(wǎng)絡(luò)信息的分類組織

自編分類系統(tǒng)的應(yīng)用Yahoo!目錄(Yahoo!Directory)將Yahoo!所收錄的信息分為16個大類(如表5-4所示)。其中前面14個大類包括了藝術(shù)人文、商業(yè)經(jīng)濟、計算機與互聯(lián)網(wǎng)等不同的主題領(lǐng)域;后面的2個大類與前面14個大類有所不同,不是按照主題領(lǐng)域設(shè)置,而更側(cè)重于應(yīng)用功能。Arts&HumanitiesRecreation&SportsBusiness&EconomyReferenceComputer&InternetRegionalEducationScienceEntertainmentSocialScienceGovernmentSociety&CultureHealthNewAdditionsNews&MediaTheSparkBlog表5-4Yahoo!目錄中的分類大類5.4.2網(wǎng)絡(luò)信息的分類組織與英文Yahoo!相比較,臺灣Yahoo!奇摩的分類目錄就有所差異,圖5-8中顯示了Yahoo!奇摩的分類目錄。圖5-8臺灣Yahoo!奇摩的分類目錄5.4.2網(wǎng)絡(luò)信息的分類組織

網(wǎng)絡(luò)自編分類體系作為一種新型的體系,與傳統(tǒng)的文獻分類法相比,具有以下特點:①

重視以事物為中心設(shè)置類目。②

類目收錄范圍寬泛。③

多重列類、重復反映。④

直接以語詞作為分類標識。⑤

更新迅速。5.4.2網(wǎng)絡(luò)信息的分類組織主題法是網(wǎng)絡(luò)信息組織的另一種主要方式,主要可分為兩種形式:一是采用現(xiàn)有的詞表(如敘詞表,即主題詞表),主要應(yīng)用于學科專業(yè)型數(shù)據(jù)庫中;二是采用關(guān)鍵詞法,在搜索引擎等網(wǎng)站中使用較普遍。5.4.3網(wǎng)絡(luò)信息的主題組織

敘詞表的應(yīng)用敘詞表,又稱主題詞表,是敘詞法的詞匯管理工具,是為采用敘詞法標引和檢索信息的用戶提供規(guī)范化的敘詞及其語義關(guān)系信息的一種索引詞匯表。按照功能和有用性,網(wǎng)絡(luò)環(huán)境下的敘詞表可分為兩種類型:①獨立敘詞表,此類敘詞表不附屬于某個信息系統(tǒng),如《ASIS圖書館和信息科學敘詞表》、《藝術(shù)與建筑敘詞表》(Art&ArchitectureThesaurus,AAT)等;②集成在數(shù)據(jù)庫或信息檢索系統(tǒng)中的敘詞表,如美國教育資源信息數(shù)據(jù)庫使用的《教育資源敘詞表》(ERIC)、美國國立醫(yī)學圖書館編制的《醫(yī)學主題詞表》(MedicalSubjectHeadings,MeSH)等。5.4.3網(wǎng)絡(luò)信息的主題組織

關(guān)鍵詞法的應(yīng)用在網(wǎng)絡(luò)環(huán)境中,用戶迫切需要采用自然語言,關(guān)鍵詞法成為網(wǎng)絡(luò)信息組織中的一種常見方法。與敘詞相比,關(guān)鍵詞是一種不受控或者受控程度較低的標引語言。因而,關(guān)鍵詞技術(shù)在網(wǎng)絡(luò)搜索引擎和自他信息系統(tǒng)的信息組織中被廣泛采用。應(yīng)用:網(wǎng)絡(luò)搜索引擎中的自動索引軟件,如Robot、Spider、Crawler等都采用了關(guān)鍵詞技術(shù),從網(wǎng)站、網(wǎng)頁的題名、地址、摘要,甚至網(wǎng)頁的正文中抽取關(guān)鍵詞作為索引詞。Google、Baidu、Bing等搜索引擎都采用了關(guān)鍵詞法來組織網(wǎng)絡(luò)信息。一些文獻數(shù)據(jù)庫(如中國期刊網(wǎng)CNKI、重慶維普數(shù)據(jù)庫等),也廣泛使用了詞語標識系統(tǒng)5.4.3網(wǎng)絡(luò)信息的主題組織

語義網(wǎng)語義網(wǎng)(SemanticWeb)是萬維網(wǎng)的一個延伸,是一個由大量機器可理解的數(shù)據(jù)所構(gòu)成的一個分布式的萬維網(wǎng)。它通過在現(xiàn)有萬維網(wǎng)基礎(chǔ)之上加入可被機器“理解和處理”的內(nèi)容,從而使得現(xiàn)有的萬維網(wǎng)具有一定的智能。5.4.4基于本體的網(wǎng)絡(luò)信息組織圖5-9語義網(wǎng)信息組織結(jié)構(gòu)模型

語義網(wǎng)的信息組織機制核心由兩大模塊組成:①以XML與RDF為手段的信息描述模塊,管理信息,具備部分語義;②以本體為手段的語義注釋模塊,提供“意義”,實現(xiàn)機器間的語義互操作。

本體的概念與構(gòu)成本體是共享概念模型的明確的形式化規(guī)范說明。上述定義揭示了四層含義:①概念模型(conceptualization)②明確(explicit)③形式化(formal)④共享(share)就理論層面而言,可以認為本體由概念(concept)、屬性(property)、公理(Axiom)、取值(value)及名義(Nominal)這五要素構(gòu)成。5.4.3網(wǎng)絡(luò)信息的主題組織基于本體的網(wǎng)絡(luò)信息組織的特點主要表現(xiàn)在:①直接體現(xiàn)語義。②分布式共享。③多維、網(wǎng)狀的信息組織方式。④對推理的支持。5.4.3網(wǎng)絡(luò)信息的主題組織(1)文件方式:簡單方便,是存貯非結(jié)構(gòu)化信息的天然單元

適用于非結(jié)構(gòu)化信息,不涉及信息之間的內(nèi)在邏輯聯(lián)系,無法處理海量信息

(2)數(shù)據(jù)庫方式:將所有已獲得的網(wǎng)絡(luò)信息資源以固定的記錄格式存貯,用戶通過關(guān)鍵詞及其組配查詢5.4.5網(wǎng)絡(luò)信息組織方式

(3)主題樹方式:

按事先確定的概念體系結(jié)構(gòu)分類進行組織,用戶以瀏覽方式層層遍歷(4)超媒體方式:超文本+多媒體資源形成網(wǎng)狀結(jié)構(gòu)如網(wǎng)絡(luò)過于龐雜和復雜,用戶易迷航5.4.5網(wǎng)絡(luò)信息組織方式(1)Web2.0環(huán)境下的網(wǎng)絡(luò)信息特征第一,信息創(chuàng)建具有草根性和分散性。第二,用戶具有信息獲取者和信息提供者的雙重身份,交互功能被著重強調(diào)。第三,信息的個性化與社會性并存。(2)Web2.0的信息組織技術(shù)Blog、RSS、Wiki、Tag5.4.6Web2.0環(huán)境下的信息組織在我們呼吁“信息爆炸”、“信息貧瘠”的時候,那是由于我們掌握的或者找到的知識太少。信息易找而知識難尋的現(xiàn)象幾乎是每一個信息用戶都會碰到的。信息是知識的原料或半成品,知識是經(jīng)過整序和提煉的信息,是系統(tǒng)化的信息。在知識經(jīng)濟時代,我們對知識的需求越來越強烈,對信息組織的要求也越來越高,知識組織的自動化、集成化和智能化越發(fā)顯示出它的優(yōu)越性和時代性。知識組織是信息組織的高級形式,是信息組織的發(fā)展方向。5.5信息組織的發(fā)展方向

——知識組織狹義:文獻的分類、標引、編目、文摘、索引等廣義:針對知識的兩要素進行組織,知識因子(結(jié)點)的有序化和知識關(guān)聯(lián)(結(jié)點間的聯(lián)系)布魯克斯提出的“知識地圖”:

對文獻內(nèi)容進行知識分析與組織,找到人們在知識創(chuàng)造過程中相互影響及聯(lián)系的結(jié)點,從而深入揭示知識的有機結(jié)構(gòu),為用戶提供純情報。5.5.1知識組織的含義及特征知識表示,是指把知識客體中的知識因子和知識關(guān)聯(lián)表示出來,以便人們識別和理解知識。知識表示是知識組織的基礎(chǔ)與前提,任何知識組織方法都要建立在知識表示的基礎(chǔ)上。5.5.2知識表示主觀知識的表示客觀知識的表示①邏輯表示法②產(chǎn)生式規(guī)則表示法③語義網(wǎng)絡(luò)表示法④框架表示法⑤面向?qū)ο蟮闹R表示①分類標引法②主題標引法分類法和主題法是客觀知識組織的基本工具數(shù)據(jù)倉庫、知識挖掘和主題圖是主觀知識組織的基本工具

數(shù)據(jù)倉庫的組織過程:

數(shù)據(jù)抽?。瓟?shù)據(jù)存貯和管理-數(shù)據(jù)表現(xiàn)

知識挖掘技術(shù)包括聯(lián)機分析處理(OLAP)、知識發(fā)現(xiàn)(KDD)和數(shù)據(jù)挖掘(DM)

主題圖用于描述信息資源的知識結(jié)構(gòu)的數(shù)據(jù)格式,它可以定位某一知識概念所在的資源位置,也可以表示知識概念間的相互聯(lián)系。5.5.3知識組織技術(shù)與方法信息組織是信息管理流程的重要環(huán)節(jié),目的是通過相應(yīng)的技術(shù)手段將雜亂無序的信息實現(xiàn)有序化,以方便后續(xù)的檢索服務(wù)利用。第4章首先介紹了信息組織的基本原理(包括信息組織的概念、類型、原則、理論基礎(chǔ)等),詳細闡述了信息組織的基本思想方法(分類法、主題法、分類-主題一體化),而后對機器可讀目錄、元數(shù)據(jù)、通用標記語言等信息描述和揭示的標準進行了介紹。在網(wǎng)絡(luò)應(yīng)用部分,結(jié)合本章前面的基本內(nèi)容,分析了網(wǎng)絡(luò)信息組織的特點,討論了網(wǎng)絡(luò)信息的分類組織、主題組織問題,反映出傳統(tǒng)分類法、主題法在網(wǎng)絡(luò)環(huán)境下的繼承和新發(fā)展,并對基于本體的網(wǎng)絡(luò)信息組織、Web2.0環(huán)境下的信息組織進行了專門的論述。最后,指出知識組織是信息組織的發(fā)展方向。本章內(nèi)容提要本章的重點包括:1、掌握信息組織的概念,理解什么是信息的外部特征和內(nèi)部特征,以及信息組織的目的;2、信息組織的兩種基本思想方法(分類法和主題法)及其在網(wǎng)絡(luò)環(huán)境下的應(yīng)用和發(fā)展;3、了解信息描述和揭示的一些主要標準,如MARC、元數(shù)據(jù)、通用標記語言;4、掌握知識組織的含義和特征,了解知識組織的技術(shù)與方法。本章重點6信息檢索

信息組織是指按照一定的規(guī)則來描述信息資源或信息對象,以便于能被需要它們的人高效地利用。信息檢索則是指為了個人或他人的需要,去發(fā)現(xiàn)適當?shù)男畔①Y源或信息對象。信息組織和信息檢索是一對互逆過程。

6信息檢索

6.1.1信息檢索的涵義滿足信息用戶的信息需求而建立的、存貯經(jīng)過加工了的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝備,提供一定存貯與檢索方法及檢索服務(wù)功能的一種相對獨立的服務(wù)實體(包括人和檢索工作單位),統(tǒng)稱為信息檢索系統(tǒng)(InformationRetrievalSystem,簡稱IRS)。信息檢索系統(tǒng)的三個基本要素:

人、檢索工具(包括設(shè)備)和信息資料6.1信息檢索的基本概念與原理潛在的相關(guān)信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則=主題索引規(guī)則+辭典(包括詞匯表和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示6.1信息檢索的基本概念與原理圖6-1信息檢索系統(tǒng)體系結(jié)構(gòu)按存貯和檢索的內(nèi)容劃分

①文獻檢索①文本檢索。

②數(shù)據(jù)檢索②數(shù)值檢索。

③事實檢索③音頻與視頻檢索。

按檢索系統(tǒng)中信息的組織方式劃分

①全文檢索②多媒體檢索③超媒體檢索6.1.2信息檢索的類型與特性信息檢索的特性信息檢索的相關(guān)性

信息檢索時規(guī)定的一篇正文與表示信息提問的另一篇正文的符合程度。相關(guān)性表明用戶是否認為一文獻與一提問吻合。信息檢索的不確定性

標引的不確定性是指不同標引員在給同一篇信息對象進行標引時會選用不同的標引詞,即標引詞選用的不一致性。信息檢索的邏輯性檢索語言、檢索策略6.1.2信息檢索的類型與特性6.1.3信息檢索的基本原理(1)信息資源集合(2)信息需求集合(3)匹配與選擇布爾邏輯檢索模型

(BooleanRetrievalModel,簡稱BRM)向量空間檢索模型

(VectorRetrievalModel,簡稱VRM)概率檢索模型

(ProbabilityRetrievalModel,簡稱PRM)模糊檢索模型

(FuzzyRetrievalModel,簡稱FRM)6.1.4信息檢索的模型(1)布爾邏輯檢索模型是一種比較成熟、較為流行的檢索技術(shù)。邏輯檢索的基礎(chǔ)是邏輯運算

布爾邏輯運算符:

與(and/*)、或(or/+)、非(not/-)AandB(A*B):同時含有A、B這兩個檢索詞才能被命中AorB(A+B):只要含有其中一個檢索詞或同時含有兩個檢索詞都將被命中AnotB(A-B):含有檢索詞A但不含有檢索詞B才能被命中6.1.4信息檢索的模型(2)向量空間檢索模型基本前提是將文獻和查詢用向量表示,這樣將文獻與查詢的匹配問題轉(zhuǎn)化為一個關(guān)于向量空間的計算問題計算的結(jié)果是相似系數(shù),將相似系數(shù)超過一定值的文獻作為檢索結(jié)構(gòu)輸出6.1.4信息檢索的模型(3)概率檢索模型建立在相關(guān)性理論基礎(chǔ)上,當文件按相關(guān)概率遞減原則排列時可以獲得最大的檢索性能。基于對相關(guān)性的不同理解客建立不同的模型,由此可導出不同的排序輸出原則相關(guān)性原理及排序原理是該模型的理論核心,有關(guān)概率的計算及其數(shù)據(jù)來源是PRM的技術(shù)難點6.1.4信息檢索的模型(4)模糊檢索模型建立在模糊集合論、模糊邏輯及可能性理論基礎(chǔ)上來處理各種不確定性的模型將文獻論述標引詞所達到的程度用0和1之間的數(shù)值t來表示,0為不相關(guān),1為完全相關(guān),t越大,則相關(guān)性越高,被檢索出來的可能性就越大6.1.4信息檢索的模型6.2.1手動信息檢索階段正規(guī)的參考咨詢工作是由美國的公共圖書館和大專院校圖書館于19世紀下半葉首先發(fā)展起來的?!皡⒖甲稍児ぷ鳌碑a(chǎn)生的標志是1876年召開的美國圖書館協(xié)會第一屆大會。1883年,波士頓公共圖書館首次設(shè)置了專職參考館員和參考閱覽室;6.2信息檢索的發(fā)展歷程20世紀初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成答案。

40年代進一步包括回答事實性咨詢,編制書目、文摘,進行專題文獻檢索,提供文獻代譯等?!靶畔z索”從此成為一項獨立的用戶服務(wù)工作,并逐漸從單純的經(jīng)驗工作向?qū)I(yè)化方向發(fā)展。成果:第一,大批高質(zhì)量的文摘性檢索工具陸續(xù)被編制并投入使用。第二,檢索語言的創(chuàng)建和試驗活動十分活躍6.2.1手工信息檢索階段6.2.2機械信息檢索階段機械信息檢索兩種基本類型機電信息檢索系統(tǒng)(打孔機、分類機)光電信息檢索系統(tǒng)(縮微技術(shù))機械信息檢索并沒有發(fā)展信息檢索語言,只是采用單一的方法對固定的存貯形式進行檢索,而且過分依賴于設(shè)備,檢索復雜,成本較高,檢索效率和質(zhì)量都不理想。脫機批處理檢索(Off-lineBatchProcessing,1954-1964年)不能對檢索策略進行及時調(diào)整聯(lián)機實時檢索(On-lineRealTime,1965-1975年)高密度海量隨即存儲器——磁盤及磁盤機的問世和投入使用,信息檢索進入了人機對話式的聯(lián)機實時檢索時期聯(lián)機網(wǎng)絡(luò)化信息檢索(1975-1990年)DIALOG、ORBIT、OCLC等6.2.3計算機信息檢索階段信息處理從傳統(tǒng)模式向新型模式的轉(zhuǎn)變,信息結(jié)構(gòu)從結(jié)構(gòu)化發(fā)展到非結(jié)構(gòu)化,系統(tǒng)功能從單純信息檢索發(fā)展到綜合信息管理和服務(wù)一方面,新興的機遇Web的搜索引擎系統(tǒng)得到日益廣泛的應(yīng)用,另一方面,傳統(tǒng)的聯(lián)機檢索系統(tǒng)、各類數(shù)據(jù)庫檢索系統(tǒng)及其信息服務(wù)業(yè)務(wù),也逐漸擴展、轉(zhuǎn)移到具有分布式網(wǎng)絡(luò)結(jié)構(gòu)特性的Web平臺上6.2.4網(wǎng)絡(luò)信息檢索階段6.3.1手工信息檢索的技術(shù)與方法

(1)手工信息檢索工具

目錄:圖書或其他單獨出版物規(guī)律化、系統(tǒng)化的記載索引:把一種或多種書刊里的具體內(nèi)容按一定的方式分別摘錄,并注明出處,以便檢索的一種工具文摘:把文獻資料的主要內(nèi)容,由有一定水平和經(jīng)驗的編者將其準確簡要地摘錄出來,并注明出處后,經(jīng)分類排序而編制成的檢索工具年鑒:以描述和統(tǒng)計的方式逐年提供某年度某一領(lǐng)域信息的工具書手冊:匯集某一學科領(lǐng)域或業(yè)務(wù)部門專門知識的工具書百科全書:薈萃一切門類或某一門類知識、以概要方式介紹為主的多功能工具書6.3信息檢索的技術(shù)與方法(2)手工信息檢索工具的排檢技術(shù)字順排檢技術(shù):將檢索工具的內(nèi)容按字、詞的一定順序或規(guī)律,有系統(tǒng)地組織排列起來的技術(shù)。分類排檢技術(shù):將信息素材按學科或事物性質(zhì)系統(tǒng)地加以排列。主題排檢技術(shù):以規(guī)范化的自然語言為標識符號來標引信息內(nèi)容的排檢技術(shù)。時序排檢技術(shù):按時間的順序組合信息素材的技術(shù),多用于編制年表、年譜等檢索工具。地序排檢技術(shù):按一定時期的行政區(qū)域來排列信息素材的技術(shù)。

6.3.1手工信息檢索的技術(shù)與方法(3)手工信息檢索方法

順查法:一種以信息檢索課題起始年代為起點,按時間順序由遠而近地查找信息的方法。倒查法:一種逆時間順序由近而遠地查找信息的方法。抽查法:一種針對研究課題發(fā)展的特點,抓住學科發(fā)展迅速、發(fā)表文獻較多的年代進行查找的方法。追溯法:又叫回溯法,是以某一篇文獻末尾所附的參考文獻為依據(jù),由近及遠進行逐一追蹤的查找方法。循環(huán)法:先利用檢索工具查出一批有用文獻,然后再利用這些文獻末尾所附參考文獻的線索進行追溯查找。6.3.1手工信息檢索的技術(shù)與方法機電信息檢索系統(tǒng)繼手檢穿孔卡片之后,出現(xiàn)了機檢穿孔卡片和選卡機。這就形成了機電信息檢索系統(tǒng)。光電信息檢索系統(tǒng)主要是以縮微膠卷(片)檢索方式出現(xiàn)的??s微膠卷(片)的檢索方式大致可以分為兩種類型:①尋址檢索方式②編碼檢索方式6.3.2機械信息檢索的技術(shù)與方法(1)聯(lián)機信息檢索

信息用戶利用終端設(shè)備,通過通訊網(wǎng)絡(luò)與世界各地的信息檢索系統(tǒng)聯(lián)機,進行人機對話,從檢索系統(tǒng)的數(shù)據(jù)庫中查找出用戶所需信息的全過程。優(yōu)點:①檢索速度快;②檢索范圍廣而全面;③檢索途徑多、質(zhì)量高;④檢索內(nèi)容新、實時性強;⑤檢索輔助功能完善、使用方便,檢索結(jié)果輸出方式靈活、實用。缺陷:①主機負擔重,一旦出現(xiàn)故障,則整個網(wǎng)絡(luò)都將癱瘓;②信息組織方式以線性為主,不夠靈活;③聯(lián)機檢索不像Internet是面向最終用戶的,操作也沒有后者方便。6.3.3計算機信息檢索的技術(shù)和方法聯(lián)機信息檢索系統(tǒng)的結(jié)構(gòu):由檢索服務(wù)機構(gòu)、國際通訊網(wǎng)絡(luò)及終端三部分構(gòu)成。聯(lián)機信息檢索的技術(shù)原理:一個典型的計算機信息系統(tǒng),能完成數(shù)據(jù)收集、分析、加工處理、存儲、傳遞通信和檢索信息的全過程。聯(lián)機信息檢索的服務(wù)方式:a定題信息提供b專題回溯檢索c聯(lián)機訂購原文d電子郵件6.3.3計算機信息檢索的技術(shù)和方法(2)光盤信息檢索

特點:

使用光盤檢索系統(tǒng),可免除聯(lián)機檢索系統(tǒng)所必須使用的電訊設(shè)備,節(jié)省了電訊費和聯(lián)機系統(tǒng)使用費,還可免除由通信線路傳輸過程中所造成的失誤光盤系統(tǒng)向用戶隨盤提供相當于聯(lián)機信息檢索系統(tǒng)功能的軟件,并提供菜單驅(qū)動與命令驅(qū)動兩種方式光盤存貯容量大、耐用、復制費用低可以把文本、圖形、圖像、聲音及動態(tài)形象結(jié)合在一起如果光盤數(shù)據(jù)庫量不夠多,則信息資源就顯得有限,購買大量光盤數(shù)據(jù)庫,又要受到經(jīng)費限制在信息需求的適時性上,光盤檢索不如聯(lián)機檢索系統(tǒng),因為光盤只能定期提供數(shù)據(jù)庫費用大6.3.3計算機信息檢索的技術(shù)和方法(2)光盤信息檢索光盤信息檢索系統(tǒng)由微機、驅(qū)動器及連接設(shè)備、CDROM數(shù)據(jù)庫(光盤)及其檢索軟件構(gòu)成。選擇驅(qū)動器時主要考慮以下性能:a速度:一般在185ms~500ms之間b查找速度:一般在250ms~400ms之間c數(shù)據(jù)緩沖區(qū)越大,可直接從存儲器存取的數(shù)據(jù)就越多,節(jié)省查詢時間d數(shù)據(jù)傳送速度:有單速、雙速乃至40倍速以上的驅(qū)動器6.3.3計算機信息檢索的技術(shù)和方法特點:信息量更大需要處理各種不同的語言(大多是自然語言)信息檢索的范圍更寬(多學科、多領(lǐng)域)信息查詢的時效性要求更高檢全率較高,而檢準率較低網(wǎng)絡(luò)信息檢索模式有兩層含義:廣義理解狹義理解6.3.4網(wǎng)絡(luò)信息檢索的技術(shù)與方法6.4.1信息檢索的步驟(1)分析研究信息檢索課題

明確信息檢索課題所涉及的領(lǐng)域和范圍;明確所需信息的內(nèi)容及其內(nèi)容特征;明確所需信息的類型,包括文獻媒體、出版類型、所需文獻量、年代范圍、涉及的語種、有關(guān)著者及機構(gòu)明確信息檢索課題對查新、查準和查全的指標要求6.4信息檢索的步驟與策略(2)選擇信息檢索工具信息檢索工具是人們?yōu)榱顺浞?、準確、有效地利用已有的信息資源而加工編制的用來報道、揭示、存貯和查找信息資源的卡片、表冊、計算機信息系統(tǒng)和特定出版物。指示線索型檢索工具(二次文獻)提供具體信息的工具書(三次文獻)6.4.1信息檢索的步驟(3)確定信息檢索方法

每一種信息檢索方法都有自己的特點,在實踐中可以根據(jù)信息檢索要求選擇使用或配合使用,以快速、準確地完成信息檢索任務(wù),實現(xiàn)預期的目標。常用的信息檢索方法:順查法倒查法抽查法追溯法循環(huán)法6.4.1信息檢索的步驟(4)掌握獲取原始信息的線索

在獲取信息線索時要仔細閱讀,判斷所檢出的信息是否符合檢索的要求,不僅看篇名,還要閱讀整個著錄格式,進行綜合分析。6.4.1信息檢索的步驟(5)獲取原始信息

判斷文獻的出版類型。根據(jù)文獻出處中已有的信息,判斷其出版類型。整理文獻出處。將文獻出處中有縮寫語、有音譯刊名的還原成全稱或原刊名。根據(jù)出版類型在圖書館或信息機構(gòu)查找館藏目錄或聯(lián)合目錄確定館藏,原則上說應(yīng)該按“由近及遠”的順序逐步擴大查找館藏的范圍。盡可能多渠道、多方式地獲取原始信息。6.4.1信息檢索的步驟信息檢索策略是針對檢索提問、運用檢索方法和技術(shù)而設(shè)計的信息檢索方案,其目的是要達到一定的查全率和查準率。信息檢索策略制定是要確定每一個步驟中的具體問題,并選擇優(yōu)化的方案,取得優(yōu)良的檢索效果對特定系統(tǒng)、特定數(shù)據(jù)以及某一類型課題的檢索策略的研究具體表現(xiàn)在以下兩方面:(1)是某一系統(tǒng)、某一數(shù)據(jù)庫檢索策略;

(2)是某一類型課題檢索策略。在檢索表達式重構(gòu)專家系統(tǒng)中,把知識庫分為領(lǐng)域知識庫和規(guī)則庫。6.4.2信息檢索策略信息檢索語言是根據(jù)信息檢索需要創(chuàng)制的一種人工語言,是信息檢索系統(tǒng)存儲和檢索信息時共同使用的一種約定性語言,以達到信息存儲和檢索的一致性,提高檢索效率。檢索語言突出的特點是:具有必要的語義和語法規(guī)則;具有表達概念的唯一性;具有檢索標識和提問特征進行比較和識別的方便性;既適用于手工檢索系統(tǒng),也適用于計算機檢索系統(tǒng)。6.4.3信息檢索語言6.4.3信息檢索語言文獻信息主題用戶信息主題信息檢索語言標引標識檢索標識檢索系統(tǒng)檢索結(jié)果主題分析主題分析信息存儲信息檢索圖6-3信息檢索語言的作用6.4.3信息檢索語言圖6-4信息檢索語言類型檢索效率是指全、準、快、便、省(檢全率、檢準率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全

和準。在評價信息檢索效率過程中,主要通過檢全率、檢準率、漏檢率和誤檢率四個評價指標進行評價,其中重點是檢全率和檢準率。6.4.4信息檢索效率的評價查全率是指系統(tǒng)在進行某一檢索時,檢出的相關(guān)文獻量與系統(tǒng)文獻庫中相關(guān)文獻總量的比率,它反映該系統(tǒng)文獻庫中實有的相關(guān)文獻量在多大程度上被檢索出來

查全率=(檢出的相關(guān)文獻量/文獻庫內(nèi)相關(guān)文獻總量)×100%6.4.4信息檢索效率的評價影響查全率的因素信息收集和加工的角度來看,包括:文獻庫收錄文獻不全;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關(guān)系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當從檢索方面來看,包括:檢索策略過于簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索系統(tǒng)不具備截詞功能和反饋功能,檢索時不能全面描述檢索要求等6.4.4信息檢索效率的評價查準率是指系統(tǒng)在進行某一檢索時,檢出的相關(guān)文獻量與檢出的文獻總量的比率,它反映該系統(tǒng)文獻庫中實際檢出的全部文獻中有多少是相關(guān)的

查準率=(檢出的相關(guān)文獻量/檢出文獻總量)×100%6.4.4信息檢索效率的評價影響查準率的因素信息收集和加工的角度來看,包括:索引詞不能準確描述文獻主題和檢索要求;組配規(guī)則不嚴密;選詞及詞間關(guān)系不正確;標引過于詳盡;組配錯誤從檢索方面來看,包括:檢索詞專指度不夠,檢索面寬于檢索要求;檢索系統(tǒng)不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數(shù)量有限;截詞部位不當,檢索式中使用邏輯“或”不當?shù)?.4.4信息檢索效率的評價圖6-5檢全率與檢準率的互逆相互曲線1008040601008040202060檢

R檢準率%P6.4.4信息檢索效率的評價③

作為查全率的補數(shù),漏查率O(OmissionRatio)的計算方法為:Omission=未檢出的相關(guān)文獻量/檢索系統(tǒng)中的相關(guān)文獻總量

作為查準率的補數(shù),誤查率E(ErrorRatio)的計算方法為:Error=檢出的非相關(guān)文獻量/檢出的文獻總量

顯然,查全率、查準率與漏檢率、誤檢率之間存在以下關(guān)系:Recall+Omission=1Precision+Error=16.4.4信息檢索效率的評價6.5.1網(wǎng)絡(luò)信息檢索的特點(1)信息豐富,檢索空間拓寬(2)信息資源的異構(gòu)式分布(3)檢索趨于簡單方便,適合非專業(yè)用戶6.5網(wǎng)絡(luò)應(yīng)用:網(wǎng)絡(luò)信息檢索(1)非web資源檢索工具①FTP類的檢索工具。②Telnet類的檢索工具。③

基于菜單式的檢索工具。(2)Web資源檢索工具①

關(guān)鍵詞檢索工具。即搜索引擎②

目錄型檢索工具。③

混合型檢索工具。6.5.2網(wǎng)絡(luò)信息檢索工具FTP類檢索工具——Archie基于菜單式的檢索工具——Gopher關(guān)鍵詞搜索工具——AltaVista目錄型搜索工具——雅虎

搜索引擎(SearchEngine)是一種在互聯(lián)網(wǎng)上提供給用戶進行關(guān)鍵詞、詞組或自然語言檢索信息的工具。最早的信息檢索工具:FTP類檢索工具隨著萬維網(wǎng)(WorldWideWeb)的進一步發(fā)展,“機器人(Robot)”一詞變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論