版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第二章 信息檢索概述,一 信息與信息源,1、信息 信息的含義:信息原指消息的傳遞,現(xiàn)指應用文字、數(shù)據(jù)或信號等形式通過一定的傳遞和處理,來表現(xiàn)各種相互聯(lián)系的客觀事物在運動中所具有的特征性內(nèi)容的總稱。信息不是指事物本身,而是事物存在的方式和運動狀態(tài)的表現(xiàn)形式,是客觀事物經(jīng)過感知或認識后的再現(xiàn)。,信息的特征 客觀性:信息不是虛無飄渺的事物,它的存在可以被人們感知、獲取、傳遞和利用 依附性:信息必須依附于一定的載體(如聲波、紙張、化學材料、磁性材料等)才能流通和傳遞。 可傳遞性:不同載體的信息可以通過計算機、人際交流、文獻交流或大眾傳媒等手段傳遞給信息用戶,最大化的利用信息 可塑性:信息在流通和使用過
2、程中,人們借助于先進的技術,可以對其進行綜合、分析及加工處理 時效性:由于事物是在不斷變化著的,因此表征事物存在方式和運動狀態(tài)的信息也必然會隨之改變 共享性:信息可以多次傳播,不失其內(nèi)容,與實物交易不同。,信息 知識 情報與文獻 知識:人類在改造世界的過程中所獲得的認識和經(jīng)驗的總和。 信息被人類所感知并被提煉加工即成為知識。 知識是信息升華的結(jié)果,是一種濃縮的系統(tǒng)化的信息。 信息是知識的基礎,知識是信息的核心。,情報:是人們在一定時間內(nèi)為一定目的而傳遞的有使用價值的知識或信息,它有明確的接受對象,屬于人工知識或信息的范疇,它來源于信息與知識,是激活了的知識、動態(tài)的信息。 文獻:是記錄知識或信息
3、的一切載體。即用文字、圖形、符號、聲頻、視頻等技術手段記錄人類知識的一種載體。實際上文獻是由知識內(nèi)容、信息符號和載體材料三個不可分割的基本要素構(gòu)成。知識是文獻的實質(zhì)內(nèi)容,符號、文字、聲音是人體感覺信息的媒介,載體是文獻的外在形式。,它們之間的邏輯關系和范疇關系,思考題,偶爾從別人那里聽到一個未經(jīng)證實的事,是不是信息?為什么? 農(nóng)諺是直接關系農(nóng)業(yè)的耕種、收獲和其他農(nóng)事的諺語,它們是長期以來勞動人民農(nóng)業(yè)生產(chǎn)知識、經(jīng)驗的總結(jié)。下面看幾條有關氣象的農(nóng)諺: 朝霞不出門,晚霞走千里/蜘蛛結(jié)網(wǎng),雨必晴;螞蟻搬家,雨必下/天上鉤鉤云,地下雨淋淋/天上鯉魚斑,明天曬谷不用翻/云往東,刮陣風;云往西,披蓑衣 指出
4、每一條諺語中,哪些是信息,哪些是知識?從中可以得到什么啟示?,2、信息源,文獻信息源(具體內(nèi)容見第三章) 有信息價值,被人為記錄和保存,能夠被傳播,接收端可以反復重現(xiàn)其內(nèi)容 非文獻信息源 有信息價值但不具有或并不明顯具有其他要素特征。強調(diào)是通過人的感官獲取的實時信息,或者說第一手的知識信息。,非文獻信息源可分為實物信息、口頭信息和實情信息 實物信息就是現(xiàn)實存在的物化了的各種物質(zhì)形態(tài)的信息。包括實物、樣品或展覽會的展品。 口頭信息是指存在于人腦記憶中,通過交談、談論、報告等方式交流傳播的信息,實情信息是現(xiàn)實存在的自然現(xiàn)象和社會現(xiàn)象的信息。它的表現(xiàn)形式不是實物,而是自然現(xiàn)象或者社會現(xiàn)象的狀態(tài)及其發(fā)
5、展過程。 自然現(xiàn)象(氣候、水文、物理、化學、生物等的演進和反應的狀態(tài)和過程) 社會現(xiàn)象(政治法律事務、軍事行動、企業(yè)、商業(yè)和事業(yè)機構(gòu)運行狀態(tài)、工程現(xiàn)象、演出現(xiàn)場、經(jīng)濟交易的實時交互過程、人機運動過程等),思考題,以下詞條可代表不同類型的信息源,請按文獻信息源和非文獻信息源為他們分類 汽車、敦煌石窟、四庫全書、一年內(nèi)的天氣變化數(shù)據(jù)、上市公司年報、經(jīng)濟新聞、地震儀測得的數(shù)據(jù)、圖書縮微膠片、甲骨文、古時候的陶片、記錄片、古籍 我國氣象專家根據(jù)多種信息,預測出2008年可能出現(xiàn)像1998年那樣的大洪水,結(jié)果該年自6月中旬以來,浙江、福建、江西、湖南、廣東、廣西等地部分地區(qū)遭受強暴雨襲擊,造成嚴重洪澇、
6、山體滑坡和泥石流災害,預言變成現(xiàn)實。請問專家預測可能會用到哪些信息?分別屬于什么信息類型?,“信息分析與預測”是競爭情報領域一項很重要的手段。例如:通過檢索競爭對手在某一技術領域的專利申請,并對其信息內(nèi)容進行深入分析,便可以判斷出競爭對手的R&D(研究與發(fā)展)方向、經(jīng)營策略、產(chǎn)品和技術優(yōu)勢。請問專利屬于什么類型的信息源?為什么可以通過搜集和分析所掌握的信息預測出競爭對手的發(fā)展狀態(tài)和趨勢?,案例分析: 為了在極短的時間內(nèi)盡快開發(fā)出一系列馳騁全球的名牌摩托車產(chǎn)品,1968年日本集中了全國各摩托車修理廠200名具有豐富專業(yè)知識和研究能力的工程技術人員和情報人員,分成12個小組,用了一年的時間,走遍世
7、界上所有重要的摩托車生產(chǎn)廠家,對世界摩托車工業(yè)進行了有史以來最廣泛的全球性調(diào)查。在訂貨、幫助建廠的幌子下,他們搜集了大量的信息,并帶回170多部樣機。他們每種樣機購回兩部,一部解剖,一部做運行試驗,并結(jié)合搜集到的信息,對全部廠家各種型號的摩托車及其零部件的質(zhì)量、優(yōu)缺點等進行比較、分析和綜合,博采眾家之長,最后設計出一種輕便耐用、性能優(yōu)良、價格便宜的摩托車,并迅速占領國內(nèi)市場。,1)通過以上案例你得到什么啟示? 2)例子中日本從世界各地帶回來的摩托車是否屬于信息?如果不是請說明理由,如果是請說明屬于什么類型的信息? 3)如果你是試驗小組成員,除了摩托車你還會搜集哪些信息?為什么?,3、信息社會的
8、基本內(nèi)容:3I、3C、3A、3R,3I: Information(信息)、Intelligence(智能)、 Integration(集成、綜合) 3C:Computer(計算機)、Communication(通訊)、Control(控制) 3A:Factory Automation(工廠自動化)、Office Automation(辦公自動化) Home Automation(家庭自動化) 3R:Material Revolution(材料革命)、Energy Revolution(能源革命)、 Information Revolution(信息革命),二、信息檢索的基本內(nèi)容,1、概念: 1
9、)信息檢索(information retrieval) 是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關信息的過程。所以,它的全稱又叫信息存儲與檢索(information storage and retrieval), 這是廣義的信息檢索。狹義的信息檢索則僅指該過程的后一步,即從信息集合中找出所需要信息的過程。相當于我們所說的信息查詢(information search)。,2)檢索語言:檢索語言是把信息的存儲與檢索聯(lián)系起來,把標引人員與用戶聯(lián)系起來,以便取得共同的理解、實現(xiàn)交流的語言。有人工語言(主題語言和分類語言)、自然語言之分。(第三章詳細介紹)3)檢索方法:常用
10、法、追溯法和循環(huán)法 (第四章詳細介紹),檢索詞、檢索式、檢索策略(第四章詳細介紹) 檢索詞是用戶或檢索人員給出的字、詞、字符或短語,用于查找含有它(它們)的記錄。 檢索式也稱檢索提問式,是要求系統(tǒng)執(zhí)行的檢索語句。簡單的檢索式由一個檢索詞和一個字段名構(gòu)成,復雜的檢索式由多個檢索詞和字段名通過關系算符連接而成。如:要利用英文搜索引擎查找網(wǎng)絡信息檢索方面的資料,檢索式為(Web OR Internet OR WWW) AND (Search* OR Retrieval*)。,檢索策略: 所謂檢索策略,就是在分析課題內(nèi)容具有哪些概念單元的基礎上,確定檢索系統(tǒng)、學科領域、檢索文檔、檢索途徑和檢索詞,并科
11、學安排各檢索詞之間的位置關系和邏輯關系以及查找步驟等。也就是為滿足信息需求所制定的一系列檢索方案。,5)檢中結(jié)果、查全率、查準率(第四章詳細介紹)檢中結(jié)果又稱檢索結(jié)果集,是數(shù)據(jù)庫中滿足(檢索式(即符合檢索條件)的那些記錄的集合查全率:是指檢出文獻中合乎需要的文獻數(shù)量占數(shù)據(jù)庫中存在的合乎該需要的所有文獻的比例查準率:是指檢出文獻中合乎需要的文獻數(shù)量占檢出文獻全部數(shù)量的比例,2、信息檢索的類型:(1)根據(jù)檢索手段的不同,分為手工檢索、計算機檢索(光盤檢索、聯(lián)機檢索和網(wǎng)絡檢索)(2)根據(jù)檢索對象、形式的不同,分為文獻型信息檢索、數(shù)據(jù)型信息檢索、事實型信息檢索。,文獻型信息檢索(Document Re
12、trieval):以文獻(包括題錄、文摘)為檢索對象的檢索。凡是查找某一主題、時代、地區(qū)、著者、文種的有關文獻,以及回答這些文獻的出處和收藏處所等,都屬于文獻型信息檢索的范疇。完成文獻型信息檢索主要借助于各種書目型數(shù)據(jù)庫。,數(shù)據(jù)型信息檢索(Data Retrieval):以數(shù)值或數(shù)據(jù)為對象的一種檢索,包括文獻中的某一數(shù)據(jù)、公式、圖表,以及某一物質(zhì)的化學分子式等,數(shù)據(jù)檢索分為數(shù)值型與非數(shù)值型。完成數(shù)據(jù)型信息檢索主要借助于各種數(shù)值數(shù)據(jù)庫和統(tǒng)計數(shù)據(jù)庫。,事實型信息檢索(Fact Retrieval):以某一客觀事實為檢索對象,查找某一事物發(fā)生的時間、地點及過程的檢索,其檢索結(jié)果主要是客觀事實或為說明
13、事實而提供的相關資料。如:2001年7月通過的奧運會主辦城市的結(jié)果與過程。完成事實型信息檢索主要借助于各種指南數(shù)據(jù)庫和全文數(shù)據(jù)庫。,3、信息檢索的發(fā)展歷程3.1基本方向:手工檢索向計算機檢索(如穿孔、縮微、自動化)發(fā)展,但是手工檢索與計算機檢索將長期并存。因為計算機檢索有其缺陷:(1)硬件條件不足:沒有計算機,不能上網(wǎng),(2)數(shù)據(jù)庫不完善,(3)網(wǎng)絡慢或網(wǎng)絡故障等等。,3.2計算機信息檢索的的產(chǎn)生和發(fā)展,分為五個階段:(1)脫機批處理檢索:1954一64。定期由專職檢索人員把許多用戶課題匯總,批量處理提問要求,并把結(jié)果提供給用戶。直接在計算機旁檢索,不需要遠程終端設備及通信網(wǎng)絡。用戶在計算機處
14、理成批檢索課題之后才知道檢索結(jié)果,不能直接、及時修改檢索策略,查全率和查準率受到一定限制。,(2)聯(lián)機情報檢索:20世紀70年代投入商業(yè)運營。用戶在計算機檢索系統(tǒng)的終端上,通過通信網(wǎng)絡,使用特定的指令和算符,以人機對話方式,查詢遠程計算機檢索系統(tǒng)核心的數(shù)據(jù)庫,從中獲取所需信息的計算機檢索系統(tǒng)。,聯(lián)機檢索系統(tǒng)由三個部分組成:主機系統(tǒng)、通訊系統(tǒng)和終端設備 主機系統(tǒng)是聯(lián)機檢索系統(tǒng)的核心,它具備處理速度快、多道程序和分時功能,內(nèi)存容量大,多樣化的輸入輸出設備。 通訊系統(tǒng)是指終端設備與主機系統(tǒng)進行通信的設備。通信線路分為兩種:專用的直達線路;通過撥號選擇對方的交換線路。前者是特定通信線路,后者使用電話網(wǎng)
15、和用戶電報網(wǎng),聯(lián)機系統(tǒng)使用的通信線路就屬于后一種。 終端系統(tǒng)是人與系統(tǒng)的接口設備。它能將字符、聲音以及人類的信息表現(xiàn)形式轉(zhuǎn)換成系統(tǒng)的機器代碼。反之,將系統(tǒng)的結(jié)果還原成字符、聲音等形式,傳送給終端用戶。,(3)國際聯(lián)機檢索:70年代中后期 國際聯(lián)機檢索是指用戶利用終端設備,通過通信網(wǎng)與地球上任何地方的大型計算機信息檢索系統(tǒng)的主機進行直接人機對話式的計算機檢索 。,國際聯(lián)機檢索系統(tǒng)一般由通信網(wǎng)絡、國際聯(lián)機檢索中心、用戶終端等三部分組成。 國際聯(lián)機檢索系統(tǒng)的服務方式有:回溯檢索、定題服務、聯(lián)機訂購原文、電子郵件服務以及光盤服務五種方式。,幾種主要的國際聯(lián)機檢索系統(tǒng),Dialog國際聯(lián)機檢索系統(tǒng) ES
16、A/IRS國際聯(lián)機檢索系統(tǒng) ORBIT國際聯(lián)機檢索系統(tǒng) STN國際聯(lián)機檢索系統(tǒng) OCLC國際聯(lián)機檢索系統(tǒng) 這是目前世界著名的五大聯(lián)機檢索系統(tǒng),目前世界上最大的國際聯(lián)機檢索信息系統(tǒng)??偛吭O在美國舊金山附近的帕洛 阿爾托市。此系統(tǒng)現(xiàn)有近600個數(shù)據(jù)庫,信息總量超過5億條,其中包括50多種語言、6萬多種期刊,數(shù)據(jù)庫內(nèi)容涉及綜合性學科、自然科學、應用科學和社會科學等,文獻類型有圖書、報紙、期刊、學位論文、會議錄研究報告、政府文件、專利文獻、標準文獻、年鑒、市場行情和廠商名錄等。,DIALOG,ORBIT,ORBIT的全稱為online retrieval of bibliographic inform
17、ation timeshared即文獻目錄信息分時聯(lián)機檢索。是第二大國際聯(lián)機檢索系統(tǒng),擁有200多個數(shù)據(jù)庫。以化工、石油、生物、化學、環(huán)境科學、醫(yī)學、運動科學和安全科學等深入文獻比較齊全而著稱。其特色數(shù)據(jù)庫有SAE(汽車、飛機等交通工具)TULSA(石油、天然氣開采與勘探)等30多個數(shù)據(jù)庫,為該系統(tǒng)獨有。,ESA/IRS,是歐洲最大的聯(lián)機檢索中心。也是世界上大型的國際聯(lián)機檢索系統(tǒng)之一,僅次于美國的DIALOG和ORBIT聯(lián)機檢索系統(tǒng)。 涉及的專業(yè)范圍有:科技、農(nóng)業(yè)、衛(wèi)生、管理、社會科學和宇航工程及技術等方面。有120多個數(shù)據(jù)庫,其中,酸雨(ACIDRAIN)、鑄造(BIIPAM-CTIF)、原
18、材料價格(PRICEDATA)、衛(wèi)星遙感圖象(LEDA)、宇航及高技術軟件(SPACESOFT)等為特色數(shù)據(jù)庫。,STN,STN(The Scientific and Technical Information Network International)是國際科學技術信息網(wǎng)絡系統(tǒng)的簡稱。是由德國卡爾斯魯厄能源、物理、數(shù)學專業(yè)信息中心(FIT)、美國化學文摘社(CAS)和日本國際化學信息協(xié)會(JAICI)三家合作經(jīng)營的國際聯(lián)機檢索系統(tǒng)。 涉及的專業(yè)范圍:化學、化工、生物、醫(yī)學、數(shù)學、物理、能源、冶金、建筑等方面。其特色數(shù)據(jù)庫有:CAS化學物質(zhì)結(jié)構(gòu)圖形數(shù)據(jù)庫(REGISTRY)、德國專利數(shù)據(jù)庫(
19、PATDPA)、碳13核磁共振和紅外光譜數(shù)值圖形數(shù)據(jù)庫(C13-NMR/IR)。,STN的特點,合作建網(wǎng),分布式管理 多文檔檢索,方便實用 字段限定檢索時,只使用后綴碼,無前綴碼 擁有世界上第一批聯(lián)機圖象數(shù)據(jù)庫,OCLC,OCLC(Online Computer Library Center)即聯(lián)機計算機圖書館中心。是世界上最大的文獻信息服務機構(gòu)之一??偛吭O在美國俄亥俄州,1971年建成聯(lián)機系統(tǒng),擁有370多種語言、3400多萬條聯(lián)合書目記錄數(shù)據(jù)庫,OCLC的“第一檢索系統(tǒng)”(First Search)提供聯(lián)機信息檢索系統(tǒng)目前有70多個數(shù)據(jù)庫,涉及13個主題領域。不僅有書目信息而且絕大部分可以
20、直接獲取全文。,(4)光盤檢索:80年代初期,其全稱為高密度光盤(Compact Disk),主要是利用激光、計算機及光電集成等技術實現(xiàn)信息存儲的數(shù)字化。以光盤為介質(zhì)的光盤數(shù)據(jù)庫檢索系統(tǒng)由于信息存儲量大,簡單易用而取勝。,(5)網(wǎng)絡信息檢索: 網(wǎng)絡信息檢索是通過標準通信方式將世界各地的計算機網(wǎng)絡連接起來,形成一個基于客戶機-服務器模式的網(wǎng)絡分布數(shù)據(jù)庫結(jié)構(gòu)。它在全球范圍內(nèi)把科技信息、商貿(mào)信息、經(jīng)濟信息、時事新聞以及日常生活信息通過互聯(lián)網(wǎng)絡合在一起,向億萬聯(lián)網(wǎng)用戶提供廣泛的信息檢索與服務。它是信息化社會應用最廣泛、最活躍的領域。,網(wǎng)絡信息檢索服務的特點: 1)信息檢索服務的開放性。網(wǎng)絡信息系統(tǒng)中包
21、含信息資源、信息設備、信息通道、信息檢索軟件及信息終端等子系統(tǒng),各個子系統(tǒng)都是開放的,其信息資源面向所有用戶。 2)超文本的多鏈接性。以超文本技術為基礎鏈結(jié)構(gòu)將不同地方的相關信息有機聯(lián)系起來,使用戶可通過點擊文本或圖表中的超文本鏈接點訪問另一個相關的文檔。 3)操作的簡易性。采用客戶機/服務器結(jié)構(gòu),通過交互式的圖形界面,為用戶提供友好的信息查詢要求,系統(tǒng)就會自動向適當?shù)姆掌魈岢稣埱?。正是這一特點,使Internet能廣泛深入學校、家庭、辦公室乃至每一個人。,4、網(wǎng)絡信息檢索的發(fā)展趨勢智能化可視化簡單化多樣化個性化商業(yè)化,(1)智能化智能化是網(wǎng)絡信息檢索未來主要的發(fā)展方向。智能檢索是基于自然語
22、言的檢索形式,機器根據(jù)用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索。目前已有一些搜索引擎支持智能檢索,但其智能化程度不高。而近年來internet上不斷涌現(xiàn)的人工智能產(chǎn)品,如智能搜索引擎、智能瀏覽器、智能代理、知識共享智能體等,都將提高網(wǎng)絡信息檢索的智能化程度。,(2)可視化可視化的優(yōu)點在于圖象的表達方式生動、形象、準確、效果更高,能從多角度揭示,而純文字的表達方式是模糊、一維的。信息檢索中的可視化是將數(shù)據(jù)庫中不可見的語義關系用圖象形式可視化顯示并表達用戶檢索過程。在可視化空間展示的信息可以看見它們是二維的或三維的。(信息檢索中,實現(xiàn)語義控制是人們的理想,而現(xiàn)實的信息檢索是基于“字符串”的檢索、匹配與表達),(3)簡單化未來家用電腦將朝著智能化、網(wǎng)絡化、人性化和綠色環(huán)保的方向發(fā)展;操作系統(tǒng)的用戶友好性將不斷增加,如微軟和蘋果公司都在致力于操作系統(tǒng)網(wǎng)絡化研究,以便使其中的任意應用程序都能“連接”進行“網(wǎng)絡檢索”,并與網(wǎng)絡“交互”;各搜索引擎檢索界面更加“傻瓜化”,使用戶學習和進行網(wǎng)絡信息檢索更加容易;網(wǎng)上自動標引、自動文摘、自動跟蹤、自動漫游、機器翻譯、多媒體技術、動態(tài)鏈技術、數(shù)據(jù)挖掘和信息推
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 富源供電局常態(tài)安全培訓課件
- 家長食品安全培訓課件
- 2026年裝修工程借款合同書范本
- 2026年視頻廣告投放效果評估合同協(xié)議
- 解除2026年銷售合同協(xié)議
- 2026年商場油煙管道專業(yè)維護合同
- 2026年化妝品代理銷售保密合同
- 2026年軟件系統(tǒng)開發(fā)授權(quán)合同
- 2026年物流管理培訓合同
- 2026年建筑外墻涂料合同
- 2024年中國誠通控股集團有限公司所出資企業(yè)招聘真題
- DB37-T4975-2025分布式光伏直采直控技術規(guī)范
- 畫框制作合同范本
- 2025年河北邯鄲武安市公開招聘食品檢測專業(yè)技術人員4名備考考試題庫及答案解析
- 反霸凌宣傳課件
- 民航空管局面試題及答案
- 2026年海南衛(wèi)生健康職業(yè)學院單招綜合素質(zhì)考試題庫參考答案詳解
- 陜西省專業(yè)技術人員繼續(xù)教育2025公需課《黨的二十屆三中全會精神解讀與高質(zhì)量發(fā)展》20學時題庫及答案
- 腫瘤內(nèi)科靜脈給予抗腫瘤藥物評價標準
- (2023春)簡明新疆地方史教程學習通課后章節(jié)答案期末考試題庫2023年
- 停車場施工施工組織方案
評論
0/150
提交評論