版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
《網(wǎng)絡(luò)信息資源開發(fā)與利用》
第2章信息檢索基礎(chǔ)知識
北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社1/13/202311信息檢索的基本概念1.1信息檢索的涵義從廣義上講,信息檢索包括兩個過程,一是信息存儲(informationstorage),即信息的標(biāo)引、加工和存儲過程:二是信息檢索(informationretrieval),即信息用戶的查找過程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質(zhì)是一個匹配的過程即用戶的信息需求和信息存儲的信息集合進行比較和選擇的過程1/13/2023信息存儲和檢索過程的基本原理
輸出一次信息信息特征檢索語言信息特征標(biāo)識檢索結(jié)果信息需求檢索提問檢索提問標(biāo)識分析標(biāo)引標(biāo)引輸入檢索信息檢索系統(tǒng)(工具)存儲過程檢索過程分析1/13/2023
計算機信息檢索是對信息進行收集、分類、標(biāo)引、著錄,并加以有序化組織,將信息儲存到計算機存儲信息系統(tǒng)中,編制出一個信息檢索系統(tǒng)或信息檢索工具以及從檢索系統(tǒng)或工具中檢索所需信息的過程。1.2計算機信息檢索1/13/2023用戶輸入檢索需求分析轉(zhuǎn)換處理需求數(shù)據(jù)庫檢索=概念詞的相關(guān)匹配運算概念詞典控制詞表信息源篩選錄入分類、詞索引文檔預(yù)處理
計算機信息檢索的基本原理1/13/20231.3信息檢索的類型按信息檢索的內(nèi)容劃分文獻檢索數(shù)據(jù)檢索事實檢索概念檢索按信息檢索的組織方式劃分全文本檢索多媒體檢索超文本檢索超文本檢索是對每個節(jié)點中儲存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強調(diào)中心節(jié)點之間的語義聯(lián)結(jié)結(jié)構(gòu),靠系統(tǒng)提供的工具進行圖示穿行和節(jié)點展示,提供瀏覽式查詢,可進行跨庫檢索。
WWW1/13/20232檢索系統(tǒng)
檢索系統(tǒng)(retrievalsystem)是指根據(jù)特定的信息需求而建立起來的一種有關(guān)信息搜集、加工、存儲和檢索的程序化系統(tǒng),其主要目的是為人們提供信息服務(wù)。1/13/20232.1檢索系統(tǒng)的功能模塊信息源選擇與采集子系統(tǒng)——對通常的計算機檢索系統(tǒng)來說,信息選擇與采集主要由人工完成,但對于網(wǎng)絡(luò)信息檢索系統(tǒng)來說,則主要通過網(wǎng)絡(luò)搜索機器人Robot自動進行,并且可以定期更新。標(biāo)引子系統(tǒng)——標(biāo)引處理的類型:人工賦詞標(biāo)引、機器標(biāo)引、無標(biāo)引(或全標(biāo)引);標(biāo)引要求:不漏標(biāo)(全面)、不錯標(biāo)(準(zhǔn)確)、不濫標(biāo)(簡練)。建庫子系統(tǒng)——工作流程主要包括數(shù)據(jù)錄入、錯誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成并定期更新各種文檔。1/13/20232.1檢索系統(tǒng)的功能模塊詞表管理子系統(tǒng)——主要功能:管理維護系統(tǒng)中已有詞表的結(jié)構(gòu)、詞匯,使它與標(biāo)引、建庫、檢索等多個子系統(tǒng)相連接;支持用戶的各種詞匯查詢操作;輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品等。用戶接口子系統(tǒng)——一般有5種界面風(fēng)格:命令/指令語言(commandlanguage)、菜單選擇(menuselection)、表格填充(formfill-in)、直接操縱(directmanipulation)、自然語言(naturallanguage)。提問處理子系統(tǒng)——檢索系統(tǒng)(數(shù)據(jù)庫)的核心,負(fù)責(zé)處理用戶輸入的檢索詞或提問式,并將它們與數(shù)據(jù)庫中存儲的數(shù)據(jù)進行匹配運算,然后把運算結(jié)果返回給用戶。1/13/20232.2文檔——記錄——字段
檢索系統(tǒng)的基本組織形式由三個層次構(gòu)成。文檔(file):檢索系統(tǒng)至少包括一個順排文檔(sequentialfiles)。有的還包括一個倒排文檔(invertedfiles)。記錄(record):文檔的基本單元,由若干字段組成的信息單元,是對某一信息實體的全部屬性進行描述的結(jié)果。字段(field):是記錄的基本單元,它是對信息實體的具體屬性進行描述的結(jié)果。
1/13/20232.2文檔——記錄——字段
檢索系統(tǒng)的基本組織結(jié)構(gòu)關(guān)系:數(shù)據(jù)庫database
文檔file,archive
順排文檔
記錄Record
字段Field
倒排文檔(索引index)
1/13/20233檢索語言
檢索語言(retrievallanguage)是文獻信息標(biāo)引和檢索提問而約定的人工語言。
檢索語言是為溝通文獻標(biāo)引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標(biāo)引人員與檢索人員雙方思路的渠道?!诖鎯Φ倪^程中用于標(biāo)引信息稱為標(biāo)引語言;——用于編制索引就稱為索引語言;——用于信息檢索則稱為檢索語言。1/13/20233.1檢索語言的種類
分類語言(classificationlanguage)是用分類號表達(dá)各種概念的檢索標(biāo)識,將各種概念按學(xué)科性質(zhì)進行系統(tǒng)排列,反映科學(xué)知識分類體系的檢索語言。主題分類語言
其特征是一個主題充當(dāng)一個類目,類目象主題詞表一樣按字順排列,而不是按邏輯順序排列。優(yōu)點:以事物分類,能將相關(guān)的內(nèi)容全部集中在一起。對交叉學(xué)科的主題揭示非常有利。
科學(xué)分類語言學(xué)科分類語言是以知識分類為基本,按照學(xué)科性質(zhì)及從屬、層次關(guān)系來組織資源,類目排序以字順為標(biāo)準(zhǔn)。優(yōu)勢:類目容量大,內(nèi)容更有針對性,學(xué)術(shù)性更強,符合科技工作者族性檢索的要求。圖書分類語言
目前采用的主要有杜威十進分類法(DDC)、國際十進分類法(UDC)、美國國會圖書館分類法(LCC)和中國圖書館圖書分類法(中圖法)1/13/2023主題語言(subjectlanguage)是直接以表達(dá)文獻主題的語詞作為檢索標(biāo)識,按字順編排并通過參照系統(tǒng)等方法提示詞間關(guān)系的檢索語言。代碼語言(codelanguage)是對事物的某一方面特征用某種代碼系統(tǒng)來加以標(biāo)引和排列的檢索語言。例如,根據(jù)化合物的分子式這種代碼語言,可以構(gòu)成分子式索引系統(tǒng),允許用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的文獻信息。自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。1/13/2023檢索語言的類型描述內(nèi)容特征語言描述外表特征語言主題語言分類語言代碼語言責(zé)任者題名其他自然語言受控語言關(guān)鍵詞語言——(keyword)標(biāo)題詞語言——(heading)單元詞語言——(uniterm)敘詞語言——(descriptor)1/13/2023分類語言分類語言中最常見的是體系分類語言,它按照學(xué)科體系由上至下,從總體到局部,由一般到具體,從低級到高級,從簡單到復(fù)雜的邏輯次序逐級展開。專利分類表中國科學(xué)院圖書分類法中國圖書館圖書分類法杜威十進分類法(國外)1/13/2023中國圖書館圖書分類法基本部類:1、馬克思主義、列寧主義、毛澤東思想、鄧小平理論2、哲學(xué)3、社會科學(xué)4、自然科學(xué)5、綜合性圖書基本大類:(22個)A馬列主義毛澤東思想鄧小平理論N自然科學(xué)總論B哲學(xué)O數(shù)理化科學(xué)C社會科學(xué)總論P天文學(xué)、地理D政治、法律Q生物科學(xué)E軍事R醫(yī)學(xué)、衛(wèi)生F經(jīng)濟S農(nóng)業(yè)科學(xué)G文化、科學(xué)、教育、體育T工業(yè)技術(shù)H語言、文字U交通運輸I文學(xué)V航空、航天J藝術(shù)X環(huán)境科學(xué)K歷史、地理Z綜合性圖書
1/13/2023中國圖書館圖書分類法F經(jīng)濟
F1世界各國經(jīng)濟概況、經(jīng)濟史、經(jīng)濟地理
F11世界經(jīng)濟、國際經(jīng)濟關(guān)系
F12中國經(jīng)濟
F13/17各國經(jīng)濟
F2經(jīng)濟計劃與管理
F20國民經(jīng)濟管理
F21經(jīng)濟計劃
F22經(jīng)濟計算、經(jīng)濟數(shù)學(xué)方法
F23會計
F239審計
F24勞動經(jīng)濟
F25物資經(jīng)濟
1/13/2023F27企業(yè)經(jīng)濟
F29城市與市政經(jīng)濟
F3農(nóng)業(yè)經(jīng)濟
F4工業(yè)經(jīng)濟
F7貿(mào)易經(jīng)濟
F72中國國內(nèi)貿(mào)易經(jīng)濟
F73世界各國國內(nèi)貿(mào)易經(jīng)濟
F74國際貿(mào)易
F75各國對外貿(mào)易
F8財政、金融
F81財政、國家財政
F82貨幣
F83金融、銀行
F84保險
1/13/2023中國圖書館圖書分類法
T工業(yè)技術(shù)TB一般工業(yè)技術(shù)TL原子能技術(shù)TD礦業(yè)工程TM電工技術(shù)TE石油、天然氣工業(yè)TN無線電電子學(xué)、電訊技術(shù)TF冶金工業(yè)TP自動化技術(shù)、計算機TG金屬學(xué)、金屬工藝TQ化學(xué)工業(yè)TH機械、儀表TS輕工業(yè)、手工業(yè)TJ武器工業(yè)TU建筑科學(xué)TK動力工程TV水利工程
1/13/2023圖書館的藏書都是按分類號排架的。分類號的排列采用由左至右逐位對比的方法進行排列,先比較字母部分,再比較數(shù)字部分?!帜覆糠职从⑽淖帜腹逃械拇涡蚺帕?。例:B2中國哲學(xué)B3世界哲學(xué)E27各種武裝力量E512蘇聯(lián)軍事TM92電氣化、電能應(yīng)用TU201建筑設(shè)計原理——分類號中的阿拉伯?dāng)?shù)字依小數(shù)制排列。例:B021辯證唯物主義的物質(zhì)論B022辯證唯物主義的意識論B022.2客觀規(guī)律性與主觀能動性D035.37交通公安管理D035.4監(jiān)察、監(jiān)督分類號的排列次序
1/13/2023分類號的排列次序
(續(xù))
——數(shù)字之后如還有字母,則在前部類號相同的基礎(chǔ)上,再按字母順序排列。例:TP312ALALGOL程序語言TP312BABASIC程序語言TP312COCOBOL程序語言——總論復(fù)分號“-”要排在數(shù)字“0”的前面。例:H-61,H0,…,H31-61,H310,…——總論復(fù)分號“-”要排在組配符號“:”的前面。例:H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…1/13/2023讀者實際利用圖書館時,往往需要知道書刊的分類號和索書號(又稱索取號)。索書號是圖書館賦予每一種館藏圖書的號碼,是讀者查找圖書非常必要的代碼信息。它的第一部分是分類號,第二部分是書次號。索書號的兩部分之間有一個空格或一條斜線“/”。書次號或者是按照圖書作者姓名所編排的著者號碼,或者是按照圖書進入館藏時間的先后所取用的順序號碼?!煌乃鲿柎_定排列先后順序的步驟是,先比較分類號碼;如分類號碼相同再比較著者號碼或順序號碼。分類號比較:先英文字母排,后阿拉伯?dāng)?shù)字按小數(shù)制排。分類號中“-”排在0之前,例如:先排F-43再排F0。分類號的數(shù)字排列比較采用對位比較法,字符序列以ASCII字符集為依據(jù)。比如:B11、B111、B112、B12,書次號的數(shù)字排列比較采用自然順序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分類號和索書號1/13/2023重新排列以下索取號的順序TP3/1044
TP3-43/3060TP311.13/1713
TP311.13/9091
TP393/4027
TP393/7732
TP393-43/4723
1/13/2023主題語言
①關(guān)鍵詞語言是直接選用文獻中的自然語言作基本詞匯,并將那些能夠揭示文獻題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進行標(biāo)引的一種檢索語言。例如:“國際聯(lián)機檢索概論”中的“國際聯(lián)機檢索”、“國際聯(lián)機”、“聯(lián)機”、“檢索”都是能描述這篇文獻主題的關(guān)鍵詞,都可以作為檢索詞。②標(biāo)題詞語言是最早使用的一種主題語言,它以規(guī)范化的自然語義作為標(biāo)識,來表達(dá)信息涉及的主題概念,并將全部標(biāo)識按字母順序排列。例如:一篇文章用“微型計算機”這個術(shù)語來敘述它的研究對象,另一篇文章用“微型電腦”來敘述,第三篇文章用“微機”來敘述,雖然都表示同一概念,這時就不能直接用“微型電腦”或“微機”來作標(biāo)題詞,這三篇文章都必須用“微型計算機”作標(biāo)題詞(實際上是“主標(biāo)題詞”,根據(jù)主題詞表決定)。1/13/2023主題語言
③單元詞語言是在標(biāo)題詞語言基礎(chǔ)上發(fā)展起來的一種規(guī)范化檢索語言。單元詞(uniterm)是一種最基本的、不能再分的詞匯單位,亦稱元詞。它也是從文獻內(nèi)容中抽出,并經(jīng)過規(guī)范化處理,代表一個獨立的概念。例如:“計算機”、“軟件”、“固相”、“相”。④敘詞語言是以自然語言為基礎(chǔ),以概念組配為基本原理,并經(jīng)過規(guī)范化處理,表達(dá)主題的最小概念單元,作為信息存儲和檢索依據(jù)的一種檢索語言。只有經(jīng)過規(guī)范化處理,滿足一詞一義一型要求的詞才能稱為敘詞(descriptor)。例如:在敘詞語言的檢索系統(tǒng)中用“計算機”這個詞進行檢索,即使題名字段沒有“計算機”這個詞(如有同義詞“電腦”)的文章,也可以被檢索出來,不必進行同義詞替換即可查全。1/13/2023主題語言主題語言(標(biāo)題詞、單元詞、敘詞)的規(guī)范化處理:①詞義規(guī)范:對同義詞(如計算機與電腦)、近義詞(如實驗與試驗)、學(xué)名和俗名(如發(fā)動機與馬達(dá))、不同譯名(激光與萊塞)、簡稱與全稱(如中國與中華人民共和國)、不同寫法(如X射線與愛克斯射線)等進行選擇;對多義詞、同形異義詞進行限定說明,如杜鵑既表示一種鳥,也表示一種花,就須限定說明為,杜鵑(動物)、杜鵑(植物)。②詞類規(guī)范:即確定詞類的范圍。能用作敘詞的詞類一般要求控制在具有實質(zhì)意義的名詞或動名詞的范圍之內(nèi)。③詞形規(guī)范:即對詞的繁簡體、詞序、字母符號等的規(guī)定。1/13/2023代碼語言代碼語言是指對事物的某方面特征,用某種代碼系統(tǒng)來表示和排列事物概念,從而提供檢索的檢索語言。例如:根據(jù)化合物的分子式這種代碼語言,可以構(gòu)成分子式索引系統(tǒng),允許用用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的信息。1/13/2023自然語言自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。抽取出來的詞包括自由詞、關(guān)鍵詞、事物名稱、科學(xué)術(shù)語、俗名、商品型號和縮寫等,具有不用編制詞表,及時跟上事物發(fā)展,準(zhǔn)確表達(dá)事物新概念,選詞靈活方便,專指性強,標(biāo)引和檢索速度快等優(yōu)點。例如:如有人輸入:howtocontroldriversofharddisk,檢索系統(tǒng)會自動提取檢索詞,然后進行過濾和檢索。注意:Google和專業(yè)數(shù)據(jù)庫的檢索語言區(qū)別。1/13/2023
4檢索方法及檢索途徑
4.1檢索方法
查找(Searching)就是實施檢索策略、搜尋所得文獻信息的過程。以下幾種方法,無論是計算機還是手工檢索,都是常用的方法。
“拉網(wǎng)法”
在不了解查詢某一專題信息的URL地址時,可從提供信息總目的Web頁面開始瀏覽,沿著專題鏈接層層查找,直至找到有關(guān)的內(nèi)容為止。然后用“書簽”保存這個頁面的URL,轉(zhuǎn)向另一個分支。這種方法可以迅速獲得較多的相關(guān)地址,然后進行篩選。就使用引擎而言,國外專家也建議先用鏈接頁面多、響應(yīng)時間快的引擎。1/13/2023引文法(跟蹤法)
文獻之間的引證和被引證關(guān)系揭示了文獻之間存在的某種內(nèi)在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻后所附的參考文獻、相關(guān)書目、推薦文章和引文注釋查找相關(guān)文獻的方法。這些材料指明了與用戶需求最密切的文獻線索,往往包含了相似的觀點、思路、方法,具有啟發(fā)意義。
1/13/2023
引文法又可分為兩種,一種是由遠(yuǎn)及近地搜尋,即找到一篇有價值的論文后進一步查找該論文被哪些其它文獻引用過,以便了解后人對該論文的評論、是否有人對此作過進一步研究、實踐結(jié)果如何、最新的進展怎樣等等。由遠(yuǎn)及近地追尋,越查資料越新,研究也就越深入,但這種查法主要依靠專門的引文索引,如《科學(xué)引文索引》、《社會科學(xué)引文索引》。1/13/2023
另一種較為普遍的查法是由近及遠(yuǎn)地追溯,這樣由一變十,由十變百地獲取更多相關(guān)文獻,直到滿足要求為止。這種方法適合于歷史研究或?qū)Ρ尘百Y料的查詢,其缺點是越查材料越舊,追溯得到的文獻與現(xiàn)在的研究專題越來越疏遠(yuǎn)。因此,最好是選擇綜述、評論和質(zhì)量較高的專著作為起點,它們所附的參考文獻篩選嚴(yán)格,有時還附有評論。1/13/2023常規(guī)法
所謂常規(guī)法就是利用常規(guī)檢索工具查找有關(guān)文獻的方法,是信息時代應(yīng)掌握的最基本的信息查找方法?,F(xiàn)在對文獻的書目控制手段已日趨完善,各種印刷版、縮微版、光盤版和網(wǎng)絡(luò)版的檢索工具層出不窮,有很大的挑選余地。用戶應(yīng)根據(jù)自己的檢索知識和條件選用一種或幾種檢索工具。常規(guī)法可分為順查法、逆查法和抽查法。
1/13/2023排除、限定和合取法
這實際上是將信息加工的方法融入檢索中去。思維中使用排除這一概念,是指對查找對象的產(chǎn)生和存在的狀態(tài)在時間和空間上加以外在否定。把這一方法移植到檢索中,就是在時間或空間上極大地收縮檢索范圍。限定法是相對于排除法而言的,指對查找對象在時間和空間上加以內(nèi)在的肯定。排除的結(jié)果必然是限定,反之亦然。1/13/20234.2信息檢索的途徑所謂檢索途徑就是檢索時切入信息群體的路徑。檢索途徑有兩大類,一類是用信息的外部特征,如題名、責(zé)任者、某種序號、機構(gòu)名等作為檢索標(biāo)識;另一類是用能夠描述信息內(nèi)容的分類號、關(guān)鍵詞、主題詞等作為檢索標(biāo)識。在數(shù)據(jù)庫中檢索時,幾乎所有的字段都可以作為檢索的途徑。1/13/2023檢索語言與檢索途徑的關(guān)系
1/13/2023分類檢索
這種檢索是根據(jù)信息內(nèi)容的學(xué)科分類來進行的。最大的優(yōu)點能保證信息的系統(tǒng)性,而且具有較好的族性檢索功能。分類檢索的要點:1。對待檢課題的概念及學(xué)科間的各種關(guān)系清楚;2。正確掌握相關(guān)課題的分類名稱、分類號,手工檢索中掌握工具的分類排檢。
1/13/2023分類檢索的步驟:1。分析待檢課題,確定其學(xué)科,并弄清學(xué)科間的各種關(guān)系。2。查出待檢課題的分類號(工具簡單時可以省略)3。選擇適當(dāng)?shù)臋z索工具4。進入檢索系統(tǒng)后選擇分類號途徑,并在對話框內(nèi)輸入分類號,開始檢索。5。對比題目,閱覽相關(guān)信息,選出所需信息,并下載相關(guān)信息6。原文的索取1/13/2023詞匯檢索與分類號檢索相比,詞匯檢索具有直觀、靈活、專指性和適應(yīng)性好的特點,同時檢索速度也比分類檢索快。
詞匯檢索的要點:首先是要選好檢索詞,正確理解詞間關(guān)系,檢索中還要注意詞間關(guān)系的正確表達(dá)。常用的詞匯檢索有關(guān)鍵詞檢索和主題檢索。計算機檢索時,選擇任意字段檢索時,檢索項也可以是各種詞匯。1/13/2023
詞匯檢索的步驟:a、分析課題,確定檢索詞及詞間關(guān)系b、選擇適當(dāng)?shù)臋z索工具c、選擇詞匯檢索途徑,在對話框內(nèi)輸入檢索詞(注意詞間關(guān)系的表達(dá))d、根據(jù)快捷顯示,選出有用信息并下載。e、原文的索取1/13/2023責(zé)任者途徑:①姓前名后,名縮寫;②姓名中的“De”、“Von”、“Della”等前綴,與姓一起按字順排,如DeLeferore,AlfredVonKampf;③團體機構(gòu)名稱名按名稱字順排。號碼途徑:號碼包括編號(number)、代碼(code)等,特定的號碼如:技術(shù)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)號,專利說明書的專利號,科技報告的報告號,學(xué)會的會議論文連續(xù)號,或合同號、任務(wù)號、國際標(biāo)準(zhǔn)書號(ISBN)、國際標(biāo)準(zhǔn)刊號(ISSN),以及文獻收藏單位編的館藏號、索取號、排架號等,都可以此作為檢索點。1/13/2023其他檢索途徑1、題名檢索
包括書名、刊名、篇名和其他信息的標(biāo)題等2、機構(gòu)3、來源4、其他特殊途徑1/13/20235常用的檢索技術(shù)
檢索技術(shù)是指應(yīng)用于信息檢索過程的原理、技術(shù)、方法、策略的總稱,是檢索系統(tǒng)為了提高檢索效率,從概念相關(guān)性、位置相關(guān)性等方面對檢索提問進行組配、加權(quán)、擴展、截詞、位置、限定的比較和運算處理技術(shù)。
1/13/20235.1布爾檢索
布爾檢索(booleanretrieval)是用布爾邏輯算符將檢索詞、短語或代碼進行邏輯組配的一種技術(shù),也是目前最常用的一種檢索技術(shù)。1/13/2023邏輯“與”具有概念交叉或概念限定關(guān)系的組配,用“*”或“AND”算符表示。
檢索詞A和檢索詞B用“與”組配,檢索式為:
AANDB,或者A*B它表示檢出同時含有A、B兩個檢索詞的記錄。
1/13/2023邏輯“或”邏輯“或”是一種具有概念并列關(guān)系的組配,用“+”或“OR”算符表示。檢索詞A和檢索詞B用“或”組配,檢索式為:
AORB,或者A+B它表示檢出所有含有A詞或者B詞的記錄。
1/13/2023邏輯“非”
邏輯“非”是一種具有概念排除關(guān)系的組配,用“–”或“NOT”算符表示。檢索詞A和檢索詞B用“非”組配,檢索式為:
ANotB,或者A-B它表示檢出含有A詞,但同時不含B詞的記錄。
1/13/2023
5.2截詞檢索
截詞檢索(truncationretrieval)是指在檢索詞的適當(dāng)位置截斷,用截斷的詞的一個局部進行的檢索。由于檢索詞與數(shù)據(jù)庫所存儲信息字符是部分一致性匹配,所以又稱部分一致檢索。檢索時,計算機會將所有含有相同部分標(biāo)識的記錄全部檢索出來。截詞符多采用通配符“?”、“$”、“*”等,因此,截詞檢索有時也稱為通配符(wildcard)檢索。按截斷的位置來分;按截斷的字符數(shù)量來分。1/13/2023后截斷中截斷前截斷無限截斷如:economic???有限截斷截詞檢索與截詞檢索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen一般僅允許有限截斷如:?lish
sul*ursulfursulphur無限截斷有限截斷前后截斷如:?computer?可檢出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers
1/13/2023位置檢索是一種可以不依賴敘詞表而直接使用自由詞進行檢索的一種技術(shù),它以數(shù)據(jù)庫原始記錄中詞語的相對次序或者位置關(guān)系為對象進行組配運算。5.3位置檢索
1/13/2023(W)與(nW)算符
(W)算符是“With”的縮寫,表示此算符兩側(cè)的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,而且檢索詞之間不允許有其他的詞或字母,但允許有空格或連字符號。例如:輸入gas(W)condensate可檢索出包含gascondensate和gas-condensate的記錄。1/13/2023(nW)算符是“nWords”的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入n個實詞或虛詞,但兩個檢索詞的次序還是不能顛倒。例如:laser(1W)printer可檢索出包含“l(fā)aserprinter”、“l(fā)asercolorprinter”和“l(fā)aserandprinter”的記錄。1/13/2023(N)與(nN)算符
(N)算符是“Near”的縮寫,表示此算符兩側(cè)的檢索詞彼此必須相鄰接,但兩個檢索詞的前后關(guān)系可以顛倒,即查找兩個連在一起的單詞,但兩詞之間不能插入任何詞。例如:money(N)supply可檢索出包含moneysupply和supplymoney兩個詞組的記錄。1/13/2023(nN)算符是“nNear”的縮寫,表示此算符兩邊的檢索詞之間插入詞的最多數(shù)目是n個,且兩個檢索詞的次序可以任意顛倒。例如:economic(2N)recovery可以檢出包含economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles的記錄。1/13/2023(S)算符
(S)算符是“Sub-field/Sentence”的縮寫,表示在此運算符兩側(cè)的檢索詞只要出現(xiàn)在記錄的同一個子字段內(nèi)(例如在文摘中的一個句子就是一個子字段),此信息即被命中。要求被連接的檢索詞必須同時出現(xiàn)在記錄的同一句子(同一子字段)中,不限制它們在此子字段中的相對次序,中間插入詞的數(shù)量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中檢索出含有“highstrength和steel”形式的均為命中記錄。
1/13/2023(F)算符
(F)算符是“Field”的縮寫,表示在此運算符兩側(cè)的檢索詞必須同時出現(xiàn)在文獻記錄的統(tǒng)一字段內(nèi),如出現(xiàn)在篇名字段、文摘字段、敘詞字段、自由詞字段,但兩個詞的前后順序不限,夾在兩個詞之間的詞的個數(shù)也不限。要求被連接的檢索詞出現(xiàn)在統(tǒng)一的字段中,字段類型和詞序均不限。例如:environmental(F)impact/DE,TI表示這兩個詞必須同時出現(xiàn)在敘詞字段和篇名字段中。1/13/20235.4字段限定檢索
字段限定檢索(fieldlimitingretrieval)是用于限定提問關(guān)鍵詞在數(shù)據(jù)庫記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,是提高檢索效果的一種有效檢索方法。(字段標(biāo)識符:TI、AU、AB、SO、PY、LA、DE、TN、ID)1/13/2023
例如:(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English這個檢索式所表達(dá)的檢索要求是:查找2008年出版的關(guān)于微電腦或者個人電腦的英文文獻,并要求“微電腦”一詞在命中文獻的敘詞字段、標(biāo)題字段出現(xiàn),“個人電腦”一詞在命中文獻的自由詞字段出現(xiàn)。1/13/20235.5其他限定檢索(1)限定網(wǎng)站【實例】輸入“金庸古龍site:”搜索包含“金庸”和“古龍”的中文新浪網(wǎng)站頁面。
(2)限定網(wǎng)頁【實例】輸入“inurl:midi滄海一聲笑”查找MIDI曲“滄海一聲笑”?!緦嵗枯斎搿癷nurlecuritywindows2000site:”查找微軟網(wǎng)站上關(guān)于windows2000的安全課題資料。1/13/2023(3)限定文件類型filetype的用法:filetype:格式關(guān)鍵詞OR關(guān)鍵詞filetype:格式
例如:
服務(wù)器安全filetype:doc
filetype:doc服務(wù)器安全搜索包含“策劃方案”關(guān)鍵詞的Office文件。
關(guān)鍵詞:“策劃方案filetype:docORfiletype:ppt”。
1/13/2023
5.6加權(quán)檢索這種檢索是對檢索詞之間的關(guān)系從量上加以限制。通過判定檢索詞或字符串在檢索中對信息命中與否的影響程度,根據(jù)權(quán)值的大小依序輸出結(jié)果。
5.7字符串檢索(詞組檢索或短語檢索)這種檢索將字符串當(dāng)作一個獨立的運算單元,進行嚴(yán)格地匹配。
5.8概念檢索同時對同義詞、近義詞、廣義詞、狹義詞進行檢索。
5.9深入檢索(二次檢索)指在檢索結(jié)果中作進一步查詢,以得到更精確的結(jié)果。
5.10模糊檢索與精確匹配5.11自然語言檢索(AskJeeves)、實名檢索(3721)
5.12組合檢索:
檢索項組合、檢索途徑組合、分次檢索結(jié)果組合等、1/13/20236信息檢索的基本步驟
分析檢索課題1.主題概念2.信息類型3.時間范圍4.檢索目的構(gòu)造檢索式(試驗性檢索)1.簡單提問式2.上下文提問式3.復(fù)合提問式4.結(jié)構(gòu)性提問式調(diào)整檢索策略(正式檢索)1,信息量過多時2.信息量太少時輸出檢索結(jié)果1.文摘2.全文選擇檢索系統(tǒng)1.學(xué)科范圍2.系統(tǒng)類型3.系統(tǒng)功能
確定檢索詞
1.切分2.刪除3.替補4.組合5.增加用戶評價
1/13/20231分析檢索課題
例如:查找有關(guān)消防的文獻。所有的“消防”文獻?還是只需有關(guān)“消防事業(yè)”、“消防隊伍”、“消防設(shè)施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文獻?(主題分析和檢索目的)需要一般的文獻資料?還是比較專深的文獻?需要科技論文?還是專利、標(biāo)準(zhǔn)、數(shù)據(jù)等?(信息類)需要新穎的信息?或者是與別人的研究進行先進性比較?還是系統(tǒng)的學(xué)科知識?(時間范圍)。1/13/2023——需要系統(tǒng)地掌握某學(xué)科的知識,可以選擇
圖書;——需要撰寫研究項目的開題報告、論文,開
展技術(shù)攻關(guān),可以選擇研究報告、科技論
文、學(xué)位論文、會議文獻等;——需要進行發(fā)明創(chuàng)造、工藝改革、新產(chǎn)品設(shè)
計、引進設(shè)備、簽訂合同,可以選擇專利
說明書、標(biāo)準(zhǔn)文獻、產(chǎn)品資料等1/13/20232選擇檢索系統(tǒng)
學(xué)科范圍。對于交叉學(xué)科、新興學(xué)科、應(yīng)用研究、綜合研究,不應(yīng)局限于某一學(xué)科范圍,可根據(jù)情況適當(dāng)擴大檢索系統(tǒng)的學(xué)科范圍。系統(tǒng)類型。首先,在文摘、索引系統(tǒng)和全文數(shù)據(jù)庫系統(tǒng)之間選擇。其次,在專業(yè)性數(shù)據(jù)庫中去查找。第三,在不同的文獻類型系統(tǒng)中選擇。系統(tǒng)功能。一般說來,使用分類語言、主題語言的檢索系統(tǒng),要優(yōu)于使用自然語言的檢索系統(tǒng),專業(yè)檢索系統(tǒng)要優(yōu)于搜索引擎。檢索途徑、檢索方式(如分類瀏覽、簡單檢索、高級檢索、專家檢索、自然語言檢索)多,收錄時間跨度長,來源語種、國別多,文本(數(shù)據(jù))質(zhì)量高,附加個性化服務(wù),檢索系統(tǒng)就更值得選擇。1/13/20233確定檢索詞
1.切分切分是對課題的語句以自由詞為單位進行拆分,轉(zhuǎn)換為檢索的最小單元。自由詞切分僅適用于自然語言檢索。例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻。直接切分:婦女|吸煙|與|肺癌|的|關(guān)系|研究)注意,當(dāng)詞切分后將失去原來的意思時,不應(yīng)再切分,如“中國科學(xué)院”、“電子郵件”1/13/2023確定檢索詞2.刪除刪除是對自然語言中不具有實質(zhì)性檢索意義的虛詞(如介詞、連詞、副詞等),或者使用頻率較低的詞,或者專指性太高、過分寬泛的詞,或者過分具體的限定詞、禁用詞,或者不能表達(dá)課題實質(zhì)的高頻詞,或者存在蘊含關(guān)系可以合并的詞,一律予以刪除,使自然語言轉(zhuǎn)換成為關(guān)鍵詞和主題詞的集合。1/13/2023例2:檢索“中國IT業(yè)的發(fā)展前景研究”方面的相關(guān)文獻。進行拆分以后,發(fā)展、前景、研究這三個自由詞具有一定的檢索意義,但是由于或者是意義過于寬泛、或者是不能表達(dá)課題實質(zhì)、或者是存在蘊含關(guān)系的原因,沒有必要全部作為檢索詞,根據(jù)需要可以保留1-2個作為檢索詞。1/13/2023確定檢索詞3.替補替補就是在進行切分、刪除后,對檢索詞進行替換和補充?!肮弧睉?yīng)替換為:公共交通;“綠色包裝”中的“綠色”,應(yīng)替換為:環(huán)保、無污染、可降解;“煤氣中毒”應(yīng)替換為:一氧化碳中毒;“非典”應(yīng)考慮補充:SARS、非典型肺炎、傳染性非典型肺炎、嚴(yán)重急性呼吸綜合征(severeacuterespiratorysyndrome);1/13/2023確定檢索詞4.組合
①概念相交組合。這個新概念是原來用以組合的兩個概念的下位概念,如曲柄連桿機構(gòu)*發(fā)動機=汽車發(fā)動機。②概念限定組合。這個新概念可用來表示這一事物的某一屬性或某一個方面。如電視機*數(shù)字化=數(shù)字電視機。以上兩種組配方式,所得到的新概念,都是原組和概念的下位概念,縮小了檢索范圍,提高了概念的專指度,達(dá)到提高檢準(zhǔn)率的目的。
1/13/2023③概念并列組合。具有概念并列關(guān)系的自由詞間的組配,其結(jié)果使概念檢索的范圍擴大,如環(huán)境污染+環(huán)境保護=環(huán)境污染和環(huán)境保護。④概念刪除組合。是指兩個具有上下位關(guān)系的自由詞間的組合,其結(jié)果使概念檢索的范圍縮小,如信息處理-模擬信息處理=數(shù)字信息處理。1/13/2023確定檢索詞5.增加增加“限義詞”。有兩種方法:直接增加限義詞、挖掘隱含詞、提取潛在的檢索詞;把限義詞以邏輯的方式加入,可采用邏輯“與”或邏輯“非”的方法增加限義詞。分析隱含概念。挖掘潛在的主題詞還可以通過對上位詞、下位詞、同類詞關(guān)系的分析得到其它相關(guān)主題詞。如例1:“婦女吸煙與肺癌的關(guān)系研究”,切分、刪除后得:吸煙、肺癌兩個檢索詞,分析、補充上位詞可增加檢索詞:煙、癌癥、惡性腫瘤。1/13/2023確定檢索詞從上述實例可以看出,提取檢索詞首先是切分、刪除,其次是進行替補、組合和增加。在提取檢索詞時,若所選的數(shù)據(jù)庫具有規(guī)范化詞表時,應(yīng)優(yōu)先選用該數(shù)據(jù)庫詞表中與檢索課題相關(guān)的規(guī)范化主題詞(檢索詞)。1/13/20234構(gòu)造檢索式(試驗性檢索)
所謂的檢索提問式(query,searchformulation),是信息檢索中用來表達(dá)用戶檢索提問的邏輯表達(dá)式,主要是使用各種布爾邏輯算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年財務(wù)管理專業(yè)考試模擬試題及答案
- 2026年音樂表演專業(yè)學(xué)生樂器演奏與作品演繹能力測試
- 2026年國際貿(mào)易中的風(fēng)險評估與應(yīng)急處理外貿(mào)行業(yè)專業(yè)知識題集
- 2026年科技前沿探索人工智能與未來科技趨勢題集
- 2026年市場營銷策略實操題目
- 2026年經(jīng)濟學(xué)原理與應(yīng)用模擬題集
- 2026年音樂基礎(chǔ)知識與鑒賞能力自測題集
- 2026年人工智能算法基礎(chǔ)測試
- 2026年經(jīng)濟學(xué)基礎(chǔ)知識考試題集
- 2026年法律職業(yè)資格考試沖刺法條與案例分析題
- 醫(yī)院培訓(xùn)課件:《頸椎病》
- 佛山市離婚協(xié)議書范本
- HG+20231-2014化學(xué)工業(yè)建設(shè)項目試車規(guī)范
- 工地春節(jié)停工復(fù)工計劃安排方案
- 中學(xué)檔案室管理職責(zé)范文(3篇)
- 連接員題庫(全)題庫(855道)
- 單元學(xué)習(xí)項目序列化-選擇性必修下冊第三單元為例(主題匯報課件)-統(tǒng)編高中語文教材單元項目式序列化研究
- 黑布林英語漁夫和他的靈魂
- 電站組件清洗措施及方案
- 冀教版五年級英語下冊全冊同步練習(xí)一課一練
- 城鎮(zhèn)土地估價規(guī)程
評論
0/150
提交評論