信息檢索的基本技巧與方法.ppt_第1頁
信息檢索的基本技巧與方法.ppt_第2頁
信息檢索的基本技巧與方法.ppt_第3頁
信息檢索的基本技巧與方法.ppt_第4頁
信息檢索的基本技巧與方法.ppt_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息檢索的基本技巧與方法,“新的力量源泉不是少數(shù)人手中的金錢,而是多數(shù)人手中的信息?!?約翰.奈斯比特,主講:何艷平Email:hyp,避免重復研究,促進科技創(chuàng)新(查全),信息檢索在科研中的作用,節(jié)省科研時間,提高工作效率(查準),提高自身的信息素養(yǎng),據(jù)美國科學基金會統(tǒng)計,一個科研人員花費在查找和消化科技資料上的時間需占全部科研時間的51%,計劃思考占8%,實驗研究占32%,書面總結(jié)占9%。由上述統(tǒng)計數(shù)字可以看出,科研人員花費在科技出版物上的時間為全部科研時間的60%。美國科學基金會NSF(NationalScienceFoundation):,信息檢索在科研中的作用,文獻的類型,基本內(nèi)容,檢索詞的選擇,信息檢索基本技術(shù),信息檢索案例分析,信息檢索步驟,5,文獻的基本類型,按文獻的載體形式按文獻信息內(nèi)容加工的深淺按文獻的出版類型,文獻的類型,根據(jù)載體材料、存儲技術(shù)和傳遞方式的不同,美國斯坦福大學胡佛研究中心珍藏的蔣介石日記的縮微膠卷樣品,零次文獻是指未以公開形式進入社會流通使用的實驗記錄、會議記錄、內(nèi)部檔案、論文草稿、設(shè)計草稿等。具有信息內(nèi)容新穎、不公開交流、難以獲得、不成熟、不定型的特點。一次文獻(原始文獻):是科研人員根據(jù)科研成果撰寫的文獻,具有創(chuàng)造性,新穎性,先進性,是文獻檢索的主要對象。,按加工深度劃分,二次文獻:(參考性文獻)對一次文獻進行加工,歸納,簡化,將其組織成為系統(tǒng)的、便于查找的資料,也就是目錄,題錄,文摘,索引等檢索工具,以提供一次文獻的線索。,三次文獻(工具書):是根據(jù)一定的需要與目的對一次文獻、二次文獻進行深度加工、綜合濃縮,提煉出來的成果,如百科全書、詞典、年鑒、手冊等工具書。,最基本的信息源,零次文獻一次文獻,二次文獻,收集、整理,三次文獻,高度濃縮,綜合分析,書目、題錄索引、文摘,檢索工具,檢索利用對象檢索工具,綜述性學科總結(jié):綜述、評論、述評、進展、動態(tài)、教材等,參考工具書:百科全書、手冊、年鑒、指南等,圖2:文獻結(jié)構(gòu)示意圖,特種文獻,科技報告會議文獻專利文獻學位論文標準文獻政府出版物產(chǎn)品樣本技術(shù)檔案等,特種文獻通常指那些出版發(fā)行方式或獲取途徑比較特殊的文獻。,檢索詞的定義與類型定義:表達信息需求和檢索課題內(nèi)容的基本單元,也是與系統(tǒng)中有關(guān)數(shù)據(jù)庫進行匹配運算的基本單元,檢索詞選擇洽當與否,直接影響檢索效果。類型:常用的檢索詞包括表示主題的檢索詞(主題詞關(guān)鍵詞標題詞敘詞),表示作者的檢索詞,表示分類的檢索詞和表示特殊意義的檢索詞(ISBN、ISSN、引文標引詞等).,檢索詞的選擇,檢索詞選擇技巧,項目名稱:乙型病毒性肝炎的中醫(yī)藥研究篇名=乙型病毒性肝炎*(中醫(yī)藥+中藥)乙型病毒性肝炎的同義詞:乙型肝炎乙肝HB篇名=(乙型病毒性肝炎+乙型肝炎+乙肝+HB)*(中醫(yī)藥+中藥),1.不忘全稱與簡稱,項目名稱:電阻焊在汽車生產(chǎn)中的應用篇名=電阻焊*汽車*生產(chǎn)電阻焊F點焊縫焊凸焊對焊篇名=(電阻焊+點焊+縫焊+凸焊+對焊)*(汽車+機動車+客車+轎車)*生產(chǎn),2.注意檢索詞的上下位類擴展,波爾茲曼54歐幾里德290玻耳茲曼109歐幾里得197玻爾茲曼214歐基里德5波耳茲曼12歐幾理德3波爾茨曼2歐氏幾何135Boltzmann659Euclid351注意:上例中用英文名檢索出的中文文獻最多!,3.注意外來詞的譯寫變化,4.注意檢索詞的詞義變化,漢詞與英語等西方語言的詞匯相比較:漢詞的字與詞界線比較模糊,一個字也許就是一個詞,英語基本上沒有這種現(xiàn)象。漢詞無固定的詞頭、詞尾和性、數(shù)的變化。而英語構(gòu)詞時這種情況很多。漢語的構(gòu)詞一般與語義有關(guān),一個詞后加上一個字就派生出另一個新的詞,而英語的情況與此有很大的不同,5.少用或不用對課題意義不大的詞,不用詞義泛指過大的詞,如展望、趨勢、現(xiàn)狀、近況、動態(tài),應用、作用、利用、用途、用法,開發(fā)、研究、影響、效率。少用詞義延伸過大的詞,若一定要用,必須將它們盡可能全地用“或”組合起來,以免漏檢,如:“制造”制備(preparation)、生產(chǎn)(manufacture)、合成(synthesis)、加工、工藝;“提煉”精煉、提取、回收、利用、萃?。弧靶阅堋盤roperty(ies),Performance,Behavior。,6.多主題概念的課題應以“簡”為主,如:課題“利用基因工程的手段提高植物中淀粉含量”,基因工程*淀粉基因*淀粉利用“最專指面優(yōu)先”(MostSpecificFaceFirst)方法,7.少用無法定性定量的詞,如:課題“冷、溫復合擠壓連續(xù)成形技術(shù)”(冷擠壓or溫擠壓)and連續(xù)and成型(冷or溫)and擠壓and連續(xù)and成型冷=常溫以下溫=45C600Cor800C處理結(jié)果:取消:冷、溫二詞深化處理:增加:擠壓對象的詞。如塑料、金屬等詞或其他如有助于限制范圍的有效實詞如:擠壓時用的潤滑材料:石墨。,應以課題提供的關(guān)鍵詞為參考,根據(jù)檢索要求復核、篩選、補充、精煉檢索用詞。選定的檢索詞應符合檢索主題;確認檢索詞是否為規(guī)范詞;并應列出常用中外文同義詞、縮寫詞,以及核心詞的上下位類詞。應充分利用詞表、辭海、術(shù)語標準、詞典等工具書,以及從已檢出的文獻中,擴展檢索用詞。,小結(jié):,信息檢索的基本技術(shù),查全率與查準率,查全率,指檢出的相關(guān)文獻量與檢索系統(tǒng)中的相關(guān)文獻總量之比,查準率,指檢出的相關(guān)文獻量和檢出的文獻總量之比,布爾邏輯檢索通配符與截詞符位置算符字段限制檢索,常用信息檢索技術(shù),指采用布爾邏輯表達式來表達用戶的檢索要求,并通過一定的算法和實現(xiàn)手段進行檢索的過程。,I.布爾邏輯檢索(邏輯組配檢索Booleanlogical),邏輯與,AND,邏輯或,OR,邏輯非,NOT,三種類型,運算符:AND或*檢索式:AANDB或A*B含義:檢出的信息中必須同時含有“A”和“B”兩個檢索詞。提高檢準率,增強檢索專指性。,A,B,邏輯“與”,如:檢索“匯率風險管理”方面的文獻,運算符:OR或+檢索式:AORB或A+B含義:數(shù)據(jù)庫記錄中任何一條記錄,只要含有“A”或“B”中任何一個檢索詞即為命中的文獻。提高檢全率,擴大檢索范圍如:“微機+電腦+計算機”“微機or電腦or計算機”,A,B,邏輯“或”,運算符:NOT或檢索式:ANOTB或AB在含檢索詞A的記錄中,去掉含檢索詞B的記錄例如:“經(jīng)濟危機”亞洲,A,B,邏輯“非”,II.通配符與截詞符,截詞檢索是在詞干的不同位置添加截詞符“?”、“*”或“$”,以此代表詞的可變部位,以檢索一組概念相關(guān)或同一詞根的詞,從而減少相同詞干的檢索詞的輸入數(shù)量,提高檢全率的一種常用檢索方法。,提高查全率防止漏檢的有力手段,由于西文的構(gòu)詞特性:單復數(shù)形式不一致、英美拼寫不一致、詞干前綴、詞干后綴。,前截斷中截斷后截斷,按截詞的位置劃分,按截詞的數(shù)量劃分:,有限截斷無限截斷,注:不同的數(shù)據(jù)庫所用的截詞符不一樣,使用應先查一下各數(shù)據(jù)庫的幫助加以確認。,前截段,表示其左邊不管截去有限或無限個字符,只要數(shù)據(jù)庫中具有與截詞符號后面部分字符串相同的檢索詞的信息,即為命中信息。,如:檢索式:?computer,中間截段,中間截詞是在一詞中間出現(xiàn)若干個截詞符號,表示可插入若干個字符,只允許有限截詞。,如:檢索式:analy?er,36,例如:檢索式:comput?,后截段,是前方一致檢索,又稱右截斷,截詞符放在被截詞的右邊,是最常用的截詞檢索技術(shù)。,37,有限截段,放在詞中間或末尾,限制被截斷的字符數(shù)量,一個符號表示一個字符。,例如:檢索式:educat?表示截斷處有0-2個字母變化,可檢出educate、educated、educator,例如:檢索式:comput*,無限截詞,放在詞的末尾,不限制被截斷的字符數(shù)量,一個符號表示任意多個字符。,檢索字段符(字段代碼)是對檢索詞出現(xiàn)的字段范圍(檢索點)進行限定,執(zhí)行時,機器只對指定的字段進行檢索,經(jīng)常應用于檢索結(jié)果的調(diào)整。,常見的檢索字段:題名(Title,TI)著者(Author,AU)文摘(Abstract,AB)關(guān)鍵詞(Keyword,KW)文獻類型(DocumentType,DT)主題詞(DE)刊名(Journal,JN)語種(Language,LA)全文(Full-text)等,IV、限制檢索,如:“TI”表示Title(篇名)“AB”表示Abstract(文摘)“KY”表示keyword(關(guān)鍵詞)“electronti”“electronti,ab”,后綴式,后綴式是將字段代碼放在檢索詞之后,并用“”號或“in”、或“within”連接,字段代碼符號:前綴式與后綴式,前綴式是將前綴代碼放在檢索詞之前,用=號連接,常見的前綴代碼“:”、“=”等,前綴式,如:查找李光耀發(fā)表在湖南大學學報上的文獻AU=李光耀*JN=湖南大學學報,檢索式:(minicomputer/kwORpersonalcomputer/TI)ANDPY=2008ANDLA=English,舉例,這個檢索式所表達的檢索要求是:查找2008年出版的關(guān)于微電腦或者個人電腦的英文文獻,并要求“微電腦”一詞在命中文獻的關(guān)鍵詞字段,“個人電腦”一詞在命中文獻的題名字段出現(xiàn)。,在互聯(lián)網(wǎng)搜索引擎中,限定字段也是常用的語法。例如,“filetype:”表示在某種文件類型(如doc、pdf)中查找資料。詳細的介紹請參見搜索引擎部分。,V.詞組檢索(精確匹配和模糊檢索),不同的數(shù)據(jù)庫,檢索途徑設(shè)定的檢索規(guī)則有所不同.中文數(shù)據(jù)庫中“任意一致”、“模糊檢索”、“前方一致”類似外文數(shù)據(jù)庫中的截詞檢索;”完全一致”、“精確匹配”類似于詞組檢索。,“完全一致”即精確匹配,要求輸入的檢索詞,與數(shù)據(jù)庫中的文獻標識完全匹配,才能命中。一般在使用網(wǎng)上搜索引擎進行檢索時,可以用雙引號“”,把輸入的檢索詞括起來,就可以達到“完全一致”的檢索效果。,嵌套檢索技術(shù)大小寫敏感禁用詞擴檢縮檢,包括介詞、冠詞、代詞、連接詞、某些形容詞或副詞等,如a、and、for、in、she、should、the、well、only,其它檢索技術(shù),優(yōu)先級運算:()NOTANDOR,學習目標掌握文獻信息檢索的基本步驟,并能運用于實踐。,文獻信息檢索的基本步驟,文獻信息檢索的基本步驟,圖3:文獻信息檢索分析示意圖,課題分析,選擇檢索系統(tǒng)與檢索手段,確定檢索途徑與擬定檢索式,實施試檢索,檢索結(jié)果的評價與獲取原始文獻,確定檢索方法:手工檢索?計算機檢索?選擇信息源(檢索系統(tǒng)),查找文獻,做好記錄,進行再分析,再分析的過程,課題的專業(yè)、主題詞;所需信息的類型(數(shù)據(jù)?事實)、時間范圍、語種范圍、檢索目的等,主題途徑?分類途徑?著者途徑?書名途徑?布爾邏輯關(guān)系,信息檢索步驟,主題分析和檢索目的信息類型:需要一般的文獻資料?還是比較專深的文獻?需要科技論文?還是專利、標準、數(shù)據(jù)等?時間范圍:需要新穎的信息?或者是與別人的研究進行先進性比較?還是系統(tǒng)的學科知識?語種范圍,第一步:分析研究課題,明確檢索要求,檢索誤區(qū)1過分依賴搜索引擎。檢索誤區(qū)2忽略摘要數(shù)據(jù)庫。,第二步:選擇檢索系統(tǒng),檢索文獻目前來說最主要的來源還應是專業(yè)數(shù)據(jù)庫,即正規(guī)的出版物上發(fā)表的文獻。原則是:以商業(yè)數(shù)據(jù)庫為主,搜索引擎和網(wǎng)上其他的免費資源作補充,先找到文章線索再根據(jù)線索查找印刷版的全文是一項不錯的組合。,第三步:提煉檢索詞,制定檢索式,1.切忌把整個題名輸入到檢索框中。如:網(wǎng)絡(luò)數(shù)據(jù)庫的安全性研究,提練檢索詞遵循“五步法”:切分、刪除、替補、組合與增加,第三步:提煉檢索詞,制定檢索式,第三步:提煉檢索詞,制定檢索式,第三步:提煉檢索詞,制定檢索式,第三步:提煉檢索詞,制定檢索式,檢索式:,檢索式:,特點:思路清晰,檢索全面適用:每個檢索詞的專指度都不太高,都可檢索出較多的文獻。,第三步:提煉檢索詞,制定檢索式,第四步:試檢索,再分析,再檢索第五步:檢索結(jié)果的評價與獲取原始文獻,計算機信息檢索的策略,成功!,例如:有關(guān)“企業(yè)知識產(chǎn)權(quán)研究”檢索式檢索結(jié)果(*表示AND,+表示OR,限定篇名字段)(2004-2006)1.企業(yè)知識產(chǎn)權(quán)191篇(準確度最高漏檢大)2.企業(yè)*知識產(chǎn)權(quán)404篇(漏檢率較高)3.(企業(yè)+集團+公司)*知識產(chǎn)權(quán)466篇(適合綜述性文獻)4.(企業(yè)+集團+公司)*(知識產(chǎn)權(quán)+專利權(quán)+商標權(quán)+著作權(quán)+名稱權(quán))520篇(查全率查準率較高)5.(企業(yè)+集團+公司)*(知識產(chǎn)權(quán)+專利權(quán))137篇(縮小范圍效果最佳),信息檢索案例分析,1.查找課題“乙型病毒性肝炎的中醫(yī)藥研究”相關(guān)文獻,請列出最佳檢索式。,檢索式1:篇名=乙型病毒性肝炎*(中醫(yī)藥+中藥)分析:乙型病毒性肝炎的同義詞:乙

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論