中南大文獻信息檢索教案_第1頁
中南大文獻信息檢索教案_第2頁
中南大文獻信息檢索教案_第3頁
中南大文獻信息檢索教案_第4頁
中南大文獻信息檢索教案_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

教案科目:文獻信息檢索任課教師姓名:授課對象:四年制專業(yè):醫(yī)學信息學學年制:4年級:20級人數(shù):次數(shù):1授課章節(jié)、內(nèi)容:第一章文獻信息檢索基礎(chǔ)授課時數(shù):150分鐘學時:3[目的與要求]了解文獻、知識、信息的概念及其相互關(guān)系。了解文獻信息數(shù)據(jù)庫的類型、結(jié)構(gòu)及檢索途徑。熟悉科技文獻信息的特點。熟悉文獻信息檢索的類型和檢索途徑掌握文獻的類型和級別。掌握文獻信息檢索的涵義、原理掌握文獻信息檢索技術(shù)和檢索策略。[重點]文獻的類型、級別。信息檢索技術(shù)及檢索策略的構(gòu)建。[難點]文獻信息檢索的原理信息檢索技術(shù)及檢索策略的構(gòu)建。[板書設(shè)計的要求]第一章文獻信息檢索基礎(chǔ)第一節(jié)信息檢索概述(50分鐘)一、文獻、信息概述(20分鐘)二、信息檢索概述(30分鐘)第二節(jié)信息檢索原理(40分鐘)一、信息檢索工具(20分鐘)二、信息檢索模型(10分鐘)三、信息檢索效率(10分鐘)第三節(jié)檢索途徑與技術(shù)(30分鐘)一、檢索途徑(10分鐘)二、檢索技術(shù)(20分鐘)第四節(jié)檢索策略(30分鐘)一、檢索策略的涵義(5分鐘)二、檢索策略的構(gòu)建(15分鐘)三、檢索策略的調(diào)整與修正(10分鐘)[教學教具]多媒體教學課件直接上網(wǎng)[詳細教案]第一章文獻信息檢索基礎(chǔ)第一節(jié)信息檢索概述一、文獻、信息概述(P1)1.文獻、知識和信息的概念(P1)文獻(Literature,Document):是記錄有知識的一切載體。記錄知識的具體內(nèi)容記錄知識的手段:如文字、圖像、符號、聲頻、視頻等;記錄知識的物質(zhì)載體:如紙張、光盤、錄像帶等記錄知識的表現(xiàn)形態(tài):如圖書、期刊、專利說明書等知識(Knowledge):是人們在認識和改造客觀世界的實踐中所獲得的認識和經(jīng)驗的總和。是人們對客觀事物的本質(zhì)和規(guī)律的認識。信息(Information):是物質(zhì)存在的一種方式、形態(tài)或運動狀態(tài),是事物的一種普遍屬性。2.文獻的類型(P1)(1)按載體類型劃分:印刷型、電子型、視聽型和縮微型。(2)按出版類型將文獻劃分:圖書、期刊、專利文獻、會議文獻、學位論文、科技報告等。圖書(P275)期刊專利文獻(P184)會議文獻(P199)學位論文(P193)科技報告(P211)同一研究常存在不同的出版類型如湘雅醫(yī)學院徐紹銳博士對黑胸大蠊的研究就先后以會議論文、博士學位論文、期刊論文、專利文獻等多種形式出現(xiàn)。博士論文:《黑胸大蠊生物學特性及藥用價值研究》專利:如CN200510031439.1《黑胸大蠊提取物在制備抗炎免疫藥物中的應(yīng)用》期刊論文:如《黑胸大蠊室內(nèi)繁殖發(fā)育的生物學特性研究》會議論文:如《黑胸大蠊特異性抗原生化免疫學特性分析》3.文獻的級別(P3)(1)零次文獻(ZeroDocument)零次文獻指未經(jīng)正式發(fā)表或未進入學術(shù)交流的最原始的文獻。(2)一次文獻(PrimaryDocument):是指作者以其本人的研究成果(如實驗、觀察、調(diào)查研究等的結(jié)果)為基本素材寫成的原始創(chuàng)作,如專著、期刊論文、科技報告、學位論文等。(3)二次文獻(SecondaryDocument):是將大量無序、分散的一次文獻收集、整理、加工、著錄其特征,如著者、篇名、分類、主題、出處等,并按一定的順序加以編排,形成供讀者檢索所需一次文獻線索的新的文獻形式,如索引、文摘、目錄以及其相應(yīng)的數(shù)據(jù)庫等。因其具有的檢索功能而稱之為檢索工具或檢索系統(tǒng)。(4)三次文獻(TertiaryDocument):是科技人員圍繞某一專題,借助于二次文獻,在充分研究與利用大量一次文獻的基礎(chǔ)上,經(jīng)過閱讀、分析、歸納、概括,撰寫而成的新的文獻。表現(xiàn)形式主要有:綜述(Review)、述評(Comment)、進展(Progress、Advance)、現(xiàn)狀(Update)、發(fā)展趨勢(Trend)等期刊文獻和百科全書、年鑒、手冊等參考工具書。4.科技文獻信息的特點(P4)數(shù)量龐大,增長迅速。文種繁多,但呈明顯的英文化趨勢。文獻分布既集中又分散,但呈專題化或?qū)<厔?。知識老化加快,文獻壽命(半衰期)縮短。交流傳播速度加快。二、信息檢索概述(P5)1.概念廣義的信息檢索包括信息的存儲和檢索兩個過程(StorageandRetrieval)。信息存儲是指將大量無序的文獻信息集中起來,根據(jù)信息源的形式特征和內(nèi)容特征,經(jīng)過整理、分類、濃縮、標引等處理,使其系統(tǒng)化、有序化,并按一定的技術(shù)要求建成一個具有檢索功能的工具或檢索系統(tǒng).信息檢索是指運用編制好的檢索工具或檢索系統(tǒng),查找出滿足用戶需求的特定信息。狹義的信息檢索是指根據(jù)用戶的需求,利用檢索工具或檢索系統(tǒng),查找出符合用戶特定需要信息的過程。2.類型(P5)(1)檢索手段手工檢索計算機檢索聯(lián)機檢索光盤檢索網(wǎng)絡(luò)檢索(2)數(shù)據(jù)格式和檢索技術(shù)文本信息檢索多媒體信息檢索超媒體和超文本檢索3.意義與作用(P6)是獲取科學知識的最佳捷徑。避免科研工作重復、少走彎路。提高科研、生產(chǎn)的效率,節(jié)省時間。提高信息素養(yǎng)。第二節(jié)信息檢索原理一、信息檢索工具(P6)(一)印刷型檢索工具1.主要類型目錄檢索工具:《全國新書目》、《全國總書目》、館藏目錄、資料來源目錄。題錄檢索工具:美國《醫(yī)學索引》(IM)。文摘檢索工具:BA、CA、EM。參考工具書:詞(辭)典、字典、百科全書、年鑒、手冊、名錄。2.結(jié)構(gòu)編輯說明部分正文部分輔助索引部分附錄部分3.常用印刷型檢索工具(二)計算機檢索工具1.系統(tǒng)構(gòu)成邏輯構(gòu)成:信息選擇與采集子系統(tǒng)、標引子系統(tǒng)、建庫子系統(tǒng)、詞表管理子系統(tǒng)、用戶接口子系統(tǒng)、提問處理子系統(tǒng)。物理構(gòu)成:硬件、軟件、數(shù)據(jù)庫、通訊網(wǎng)絡(luò)。例:Dialog(P109)中的CA文檔例:文檔說明例:記錄例:字段2.數(shù)據(jù)庫類型(1)書目數(shù)據(jù)庫(bibliographicdatabase):是二次文獻數(shù)據(jù)庫,主要存貯相關(guān)主題領(lǐng)域的各類文獻資料的書目信息,包括機讀版的文摘、題錄、目錄、索引等。用戶可從大量文獻記錄中篩選出有參考價值的文獻源,并依據(jù)記錄提供的來源指示獲取一次文獻。舉例:中國生物醫(yī)學文獻數(shù)據(jù)庫(P74)、PubMed(P84)、EMBASE(P93)等。(2)事實型數(shù)據(jù)庫(FactDatabase):提供有關(guān)事物、人物、機構(gòu)等方面的事實性信息。舉例:ClinicalTrials(臨床試驗數(shù)據(jù)庫)是通過對自愿接受試驗患者的臨床研究,觀測藥物、診斷方法、疫苗和其他治療方法對某一種疾病或癥狀是否安全和有效。(P258)(3)數(shù)據(jù)型數(shù)據(jù)庫(NumericDatabase):提供數(shù)值性信息,包括各種統(tǒng)計數(shù)據(jù)、科學實驗數(shù)據(jù)、各種測量數(shù)據(jù)等。舉例:WHOSIS:可以獲取以下統(tǒng)計數(shù)據(jù)和資料:疾病負擔統(tǒng)計、死亡原因統(tǒng)計、世界衛(wèi)生報告年度統(tǒng)計、衛(wèi)生從業(yè)人員統(tǒng)計、人口統(tǒng)計、HIV/AIDS信息與數(shù)據(jù)、精神病死亡率統(tǒng)計、免疫接種統(tǒng)計等統(tǒng)計數(shù)據(jù),以及疾病負擔計劃、國際疾病分類法及WHO術(shù)語信息系統(tǒng)、衛(wèi)生系統(tǒng)成就、全球酒精數(shù)據(jù)庫(GlobalAlcoholDatabase)等與衛(wèi)生和衛(wèi)生統(tǒng)計有關(guān)的資料。(P264)美國疾病控制與預防中心(CDC)的DataandStatistics等。(P266)(4)全文型數(shù)據(jù)庫(Full-textDatabase):收錄有原始文獻全文的數(shù)據(jù)庫,以期刊論文、會議論文、政府出版物、研究報告、法律條文和案例、商業(yè)信息等為主。優(yōu)點:集文獻檢索和全文提供于一體;提供全文字段檢索。舉例:中國學術(shù)期刊全文數(shù)據(jù)庫(CNKI)、萬方數(shù)據(jù)資源的數(shù)字化期刊、OVID全文數(shù)據(jù)庫、ElsevierScience的SDOS等。(5)多媒體數(shù)據(jù)庫(MultimediaDatabase):是數(shù)據(jù)庫技術(shù)與多媒體技術(shù)相結(jié)合的產(chǎn)物,是文本、圖像、聲頻、視頻等多媒體信息的集合。舉例:NLM的可視人計劃(TheVisibleHumanProject)、哈佛大學醫(yī)學院的全腦圖譜(TheWholeBrainAtlas)、Utah大學的病理學圖譜(WebPath)等。(P252)(6)知識庫(Knowledgebase):是按一定要求存貯在計算機中的相互關(guān)聯(lián)的某種事實、知識的集合,是經(jīng)過分類和組織、序化的知識集合,是構(gòu)造專家系統(tǒng)(ES)的核心和基礎(chǔ)。舉例:基因百科全書的GenCard。二、信息檢索模型(P10-12)1.定義:信息檢索模型是反映信息檢索過程及相關(guān)因素之間規(guī)律的一種抽象的數(shù)學表達。2.作用:用數(shù)學表達式定量地闡述其本質(zhì)的特征、運行機制和變化發(fā)展規(guī)律。揭示檢索系統(tǒng)的信息與用戶信息需求之間的復雜的匹配、計算和比較規(guī)則。分析和預測信息檢索各種相關(guān)影響因素及作用的大小,以此來指導用戶提出和設(shè)計最佳的信息存儲形式及信息檢索提問。使信息檢索系統(tǒng)能最大程度地便利用戶檢索,用戶的信息檢索需求能獲得最大程度地滿足,促進檢索效率的提高。3.類型布爾檢索模型(BooleanLogicRetrievalModel)向量空間模型(VectorSpaceModel)概率檢索模型(ProbabilisticRetrievalModel)模糊檢索模型(FuzzyRetrievalModel)邏輯檢索模型(LogicRetrievalModel)概念檢索模型(Concept-basedRetrievalModel)案例檢索模型(Case-basedreasoningRetrievalModel)三、信息檢索效率(P12-13)信息檢索效率是研究信息檢索原理的核心,是評價一個信息檢索系統(tǒng)性能優(yōu)劣的質(zhì)量標準,它始終貫穿信息存儲和檢索的全過程。衡量信息檢索效率的指標:查全率、查準率、漏檢率、誤檢率。理想的檢索效果是查全率和查準率同時達到100%。但事實上很難達到全部檢出和全部檢準的要求,而只能達到某個百分比。第三節(jié)檢索途徑與技術(shù)一、檢索途徑檢索途徑為檢索系統(tǒng)的檢索入口,即檢索系統(tǒng)所提供的、用以查尋獲取資源的各種標識,在計算機檢索中通常表現(xiàn)為字段檢索。常見的計算機檢索途徑有以下8種:1.缺省途徑指自動在檢索系統(tǒng)預先設(shè)定的多個字段中同時進行檢索。如CBMDisc的缺省字段包括中文題名、關(guān)鍵詞、主題詞、文摘、刊名、特征詞等字段進行檢索。2.分類途徑分類途徑是利用文獻在分類體系中的位置(類目名稱或分類號)作為檢索入口查找文獻的途徑,可滿足用戶從學科、專業(yè)等內(nèi)容出發(fā)獲取文獻的需要。3.主題詞途徑是利用主題詞(SubjectHeadings)作為檢索入口查找文獻的途徑。主題詞是經(jīng)過優(yōu)選和規(guī)范化處理的詞匯,由主題詞表來控制,常見的醫(yī)學主題詞表有美國國立醫(yī)學圖書館編制的《MedicalSubjectHeadings》及《中醫(yī)藥學主題詞表》主題詞途徑有助于提高查全率與查準率,但維護成本高。目前支持主題詞檢索的檢索系統(tǒng)主要有CBMDisc和Pubmed.4.自由詞途徑自由詞途徑是利用自由詞(TextWord)作為檢索入口查找文獻的途徑.自由詞是檢索工具中所出現(xiàn)的任意詞匯(通常除開無實質(zhì)意義的詞匯),主要包括題名詞、關(guān)鍵詞、文摘詞和全文詞等有實質(zhì)意義的詞。自由詞檢索用詞靈活、自由、直觀、符合用戶習慣,因而應(yīng)用廣泛。但自由詞不能反映概念間的一一對應(yīng)關(guān)系,也不能反映概念間的等級從屬關(guān)系,因而自由詞檢索時應(yīng)同時考慮使用所選自由詞的同義詞、近義詞、專指詞等相關(guān)詞進行檢索,避免漏檢文獻。5.著者途徑是利用文獻上署名的作者、編者或機關(guān)團體名稱作為檢索入口查找文獻的途徑。查外文數(shù)據(jù)庫時,須注意外文數(shù)據(jù)庫對著者姓名的特殊處理方式。6.題名途徑利用題名(如書名、刊名、篇名)作為檢索入口的查找文獻的途徑。檢索方式有題名瀏覽和提問檢索兩種方式7.引文途徑從參考文獻入手查找文獻的途徑。8.序號途徑利用文獻特有序號查找文獻的途徑.常見序號有專利號、報告號、化學物質(zhì)登記號等。二、檢索技術(shù)1.布爾邏輯檢索邏輯與(AANDB)、邏輯或(AORB)A、邏輯非(ANOTB)、邏輯異或(AXORB)2.截詞檢索用截詞符號“?”、“*”或“$”加在檢索詞的前后或中間,以檢索一組概念相關(guān)或同一詞根的詞。這種檢索方式可以擴大檢索范圍,提高查全率。主要用于西文數(shù)據(jù)庫檢索。中文數(shù)據(jù)庫通常不使用這種技術(shù)。舉例查找“全臉移植術(shù)”相關(guān)的研究文獻“變臉”后“變臉”前(帕斯卡爾·科勒,6歲,神經(jīng)纖維瘤)法國頂尖整形醫(yī)生勞倫特·藍提耶利的杰作(2008,3,新華網(wǎng))3.限定檢索4.相關(guān)反饋檢索5.跨庫檢索第四節(jié)檢索策略一、檢索策略的涵義廣義的檢索策略是指用戶根據(jù)檢索需求選擇相應(yīng)的數(shù)據(jù)庫、確定檢索方式、檢索途徑及相應(yīng)檢索表達式進行檢索的一系列操作或方案,是用戶檢索目標的體現(xiàn)。狹義的檢索策略指用戶確定檢索表達式進行檢索的系列操作。檢索策略的重要性二、檢索策略的構(gòu)建1.分析課題,明確實質(zhì)需求2.選擇合適的檢索工具或數(shù)據(jù)庫選擇檢索工具時要考慮是否與文獻需求緊密結(jié)合、學科專業(yè)對口、覆蓋信息面廣、報道及時、揭示信息內(nèi)容準確、有一定深度的工具以及檢索系統(tǒng)的檢索功能是否完善等。根據(jù)檢索需求,選擇數(shù)據(jù)庫:(1)強調(diào)“準確”:這類檢索需求的針對性強,多是解決某個具體問題,此時應(yīng)選擇提供的數(shù)據(jù)比較準確、權(quán)威的數(shù)據(jù)庫。(2)強調(diào)“全面”:這類檢索需求要求全面了解某一特定領(lǐng)域的基本知識、現(xiàn)狀及發(fā)展趨勢,因而應(yīng)選擇覆蓋文獻年限長、收錄某一特定領(lǐng)域文獻較多的數(shù)據(jù)庫,必要情況下還需要選擇多個相關(guān)數(shù)據(jù)庫。(3)強調(diào)“全文”:可選擇全文數(shù)據(jù)庫或提供全文傳遞服務(wù)的數(shù)據(jù)庫。(4)強調(diào)“新穎”:即需獲取最新的信息,檢索年限不要太長,應(yīng)選擇數(shù)據(jù)更新快、包含最新信息的數(shù)據(jù)庫。(5)強調(diào)“深入”地獲取某數(shù)據(jù)庫信息,應(yīng)選擇單庫檢索,強調(diào)“廣泛”地獲取某方面的信息,應(yīng)選擇跨庫檢索,節(jié)省檢索時間。(6)強調(diào)“類型”:即用戶想獲取某一特定類型的文獻,如期刊論文、學位論文、專利文獻、循證醫(yī)學證據(jù),應(yīng)根據(jù)需求靈活地選擇包含相應(yīng)資源的數(shù)據(jù)庫。3.概念分析并轉(zhuǎn)換成系統(tǒng)檢索詞4.擬定檢索提問式和檢索途徑擬定好檢索式后,就要選擇檢索途徑或檢索入口或檢索字段,常用的檢索入口有題名、著者、主題詞、關(guān)鍵詞、引文、文摘、全文、出版年、分類號等。檢索途徑正確與否決定著檢索結(jié)果的數(shù)量和質(zhì)量,如使用全文檢索,結(jié)果數(shù)量大,但相關(guān)性差;使用題名或文摘檢索,結(jié)果數(shù)量少但較準確。三、檢索策略的調(diào)整與修正優(yōu)化檢索策略的方法P19擴檢:對檢索數(shù)量比較少的結(jié)果,擴大檢索范圍,提高查全率。增加補充檢索詞及近義詞、同義詞、上位詞、縮寫、全稱等;擴大概念組配范圍,變邏輯“與”為邏輯“或”;取消或放寬檢索限定,如年限或核心刊與否;增加或修改檢索途徑,如改題名檢索為文摘檢索或全文檢索等。縮檢:對檢索數(shù)量過多的結(jié)果,縮小檢索范圍,提高查準率。細化主題與分類,更多地采用下位詞或下位類;通過瀏覽結(jié)果選擇更專指的詞;縮小概念組配范圍,利用and,not,with,near等加以限制或排除;指定檢索字段,及從年代和地理及語言,文獻類型上進行限制??颇浚何墨I信息檢索任課教師姓名:胡德華授課對象:本科生專業(yè):醫(yī)學信息學學年制:4年年級:2006級人數(shù):53次數(shù):1次授課章節(jié)、內(nèi)容:第二章文獻信息檢索語言授課時數(shù):150分鐘學時:3學時【目的與要求】了解文獻信息檢索語言的定義、表現(xiàn)形式、功能和種類。熟悉分類檢索語言及其應(yīng)用。熟悉主題描述語言及其應(yīng)用。熟悉醫(yī)學信息檢索語言及其應(yīng)用。了解UMLS的歷史沿革、目標及主要組成部分。掌握超級敘詞表的結(jié)構(gòu)、收詞特點、概念間關(guān)系的表達模式。掌握語義網(wǎng)絡(luò)、語義類型和語義關(guān)系。熟悉UMLS在醫(yī)學信息檢索中的應(yīng)用。熟悉UMLSKS的使用。掌握本體的概念、組成、作用。熟悉本體與分類表、主題表的聯(lián)系與區(qū)別。熟悉本體表示語言和本體構(gòu)建工具。掌握本體開發(fā)步驟?!局攸c】UMLS的結(jié)構(gòu)、收詞特點、概念間關(guān)系的表達模式;本體表示語言和本體構(gòu)建工具。UMLS和本體語言在文獻信息檢索系統(tǒng)中的應(yīng)用【難點】UMLS的結(jié)構(gòu)、收詞特點、概念間關(guān)系的表達模式;語義網(wǎng)絡(luò)、語義類型和語義關(guān)系;本體的開發(fā)步驟?!景鍟O(shè)計的要求】第二章文獻信息檢索語言文獻信息檢索語言及其應(yīng)用(50分鐘)文獻檢索語言及其種類(10分鐘)二、分類檢索語言及其應(yīng)用(15分鐘)三、主題檢索語言及其應(yīng)用(15分鐘)四、醫(yī)學信息編碼及其應(yīng)用(10分鐘)第二節(jié)一體化醫(yī)學語言系統(tǒng)(50分鐘)一體化醫(yī)學語言系統(tǒng)概述(5分鐘)超級敘詞表(15分鐘)語義網(wǎng)絡(luò)(10分鐘)專家詞典(10分鐘)知識源服務(wù)器的使用(5分鐘)一體化醫(yī)學語言系統(tǒng)在信息檢索中的應(yīng)用(5分鐘)第三節(jié)本體語言及本體的構(gòu)建(45分鐘)一、本體(Ontology)的概念(5分鐘)二、本體(Ontology)的組成(5分鐘)三、Ontology的作用(5分鐘)四、本體與分類表、敘詞表的聯(lián)系與區(qū)別(5分鐘)五、本體與知識庫(5分鐘)六、本體表示語言(5分鐘)七、本體構(gòu)建工具(5分鐘)八、本體的開發(fā)步驟(10分鐘)[教學教具]多媒體教學課件直接上網(wǎng)[詳細教案]文獻信息檢索語言第一節(jié)文獻信息檢索語言基礎(chǔ)知識及其應(yīng)用一、文獻信息檢索語言及其種類1.定義檢索語言是用于描述信息系統(tǒng)中信息的內(nèi)容特征或外表特征和表達用戶信息提問的專門語言,是人與信息系統(tǒng)對話的基礎(chǔ)。文獻檢索語言就是文獻信息檢索系統(tǒng)中的標識系統(tǒng),能提供多種多樣的檢索點,如著者名、分類號、主題詞、關(guān)鍵詞等。2.表現(xiàn)形式一套詞匯(如主題詞表)一套分類代碼(如分類法)一套代碼(如代表化合物的多種代碼)3.作用對文獻和網(wǎng)絡(luò)信息的內(nèi)容進行邏輯分類、主題標引特定信息的描述和揭示提供檢索點,如分類號,主題詞等4.種類(1)文獻外表特征檢索語言文獻題名索引系統(tǒng),如書名目錄,收錄期刊一覽表著者索引系統(tǒng),如著者索引、專利權(quán)人索引文獻序號索引系統(tǒng),專利號索引、技術(shù)標準號索引引文索引系統(tǒng),如美國SCI、中國科學引文數(shù)據(jù)庫(2)文獻內(nèi)容特征檢索語言分類檢索語言主題描述語言二、分類檢索語言及其應(yīng)用1.定義:將各種知識領(lǐng)域(學科及其研究問題)的類目按知識分類原理進行系統(tǒng)排列,以代表類目的分類號(如字母符號、數(shù)字等)作為文獻標識的一類檢索語言。2.主要分類法《中國圖書館分類法》(《中圖法》)美國《國會圖書館分類法》(LibraryofCongressClassification,LCC)、《杜威十進分類法》(DeweyDecimalClassificationandRelativeIndex,DDC)《美國國立醫(yī)學圖書館分類法》(NLMC)3.應(yīng)用圖書館藏書排架組織目錄體系其它文獻如期刊論文的分類文獻數(shù)據(jù)庫和數(shù)字圖書館聯(lián)機信息檢索系統(tǒng)的組織與檢索網(wǎng)絡(luò)信息資源的組織與檢索4.自創(chuàng)分類法的代表:Yahoo的類目體系根據(jù)大類擁有的信息量及知識組織的需要,每一個基本類目下又細分為不同層次的次一級類目,形成“樹狀”分類結(jié)構(gòu),級別越低的類目中的網(wǎng)站其主題越明確;再根據(jù)不同用戶的習慣,以及不同的分類方式,把不同類目下“相關(guān)”的類目用參見“@”鏈接起來,形成“網(wǎng)狀”分類體系,從而構(gòu)成“縱向成枝、橫向成網(wǎng)”的類目體系。5.缺陷和不足,類目涵蓋面窄;類目劃分標準模糊;未設(shè)分類標記;三、主題描述語言及其應(yīng)用1.定義:用于表達文獻主題內(nèi)容的詞語標識系統(tǒng),應(yīng)用較多的是主題詞法和關(guān)鍵詞法。2.主題詞法特點:采用指定的詞語;采用參照系統(tǒng)指向意義相關(guān)關(guān)系;多方面顯示詞間關(guān)系;主題詞不斷有增刪修訂定期更新。最具代表性的主題詞法:MeSH(《醫(yī)學主題詞表》)3.關(guān)鍵詞法(1)關(guān)鍵詞(Keyword)是指出現(xiàn)在文獻或網(wǎng)頁的標題(篇名、章節(jié)名)或文摘、全文中,能表達文獻實質(zhì)內(nèi)容的,或者能被人們作為檢索入口的關(guān)鍵性名詞術(shù)語。在計算機檢索系統(tǒng)中,關(guān)鍵詞法得到更廣泛深入的應(yīng)用。提供更多的檢索入口。(2)優(yōu)點語詞直接采用出現(xiàn)在最新文獻或網(wǎng)頁中的專業(yè)自然語言,一些在科學發(fā)展中最新出現(xiàn)的專業(yè)名詞術(shù)語能及時進入索引系統(tǒng)。計算機編制關(guān)鍵詞索引還具有速度快、時差短。(3)缺陷:①關(guān)鍵詞法用詞不作規(guī)范或稍作規(guī)范,未標明其等同關(guān)系,從而導致同一主題文獻信息因為用詞不同而分散,容易造成漏檢;②若平均每篇文獻信息標引的關(guān)鍵詞較多,誤檢的可能性會增大;③關(guān)鍵詞法難以準確揭示文獻實質(zhì)內(nèi)容,檢索的準確性較差。四、醫(yī)學信息檢索語言及其應(yīng)用1.定義:表達醫(yī)學信息的語言、文字、圖形、圖像等都必須賦予有一定規(guī)律性、易于人和計算機識別與處理的代碼,即數(shù)字、字母、字符等符號。2.主要的醫(yī)學信息編碼系統(tǒng):國際疾病分類(ICD)國際系統(tǒng)醫(yī)學術(shù)語集(SNOMED)當代操作術(shù)語集(CurrentProceduralTerminology,CPT)UMLS第二節(jié)一體化醫(yī)學語言系統(tǒng)(UMLS)一、基本概況1.UMLS的全稱UnifiedMedicalLanguageSystem-開始于1986年-主持機構(gòu):NLM2.目標:提高計算機程序“理解”生物醫(yī)學詞匯涵義的能力,并運用這種理解幫助用戶通過多種交互檢索程序,克服由于不同系統(tǒng)語言差異性和不同數(shù)據(jù)庫相關(guān)情報的分散性所造成的諸多情報檢索問題。3.組成超級敘詞表(Metathesaurus)語義網(wǎng)絡(luò)(SemanticNetwork)專家詞典(SpecialistLexicon)二、超級敘詞表1.收錄了1,268,035概念(concepts)5,963,467概念名稱(uniqueconceptnames(AUIs))概念間關(guān)系(Inter-conceptrelations)2.來源于133詞表約80個術(shù)語表多種譯本(e.g.,MeSH,ICPC,ICD-10)變異本(variants)(American-Englishequivalents,Australianextension/adaptation)不同版本(ICD:9-10;DSM:IIIR-IV)一般術(shù)語表解剖學術(shù)語表(UWDA,Neuronames)藥物術(shù)語表(RxNorm,FirstDataBank,Micromedex)醫(yī)療機械術(shù)語表(UMD,SPN)學科專業(yè)術(shù)語表臨床術(shù)語(SNOMEDCT)信息科學(MeSH,CRISP)管理科學術(shù)語(ICD-9-CM,CPT-4)數(shù)據(jù)交換術(shù)語(HL7,LOINC)護理學(NIC,NOC,NANDA,Omaha,PCDS)牙科學(CDT)精神病學(DSM,APA)不良反應(yīng)(COSTART,WHOART)保健(ICPC)基因組學(GO,OMIM,HUGO)-知識庫(AI/Rheum,DXplain,QMR)3.組織形式Concept(~1.2M) CUI-同義概念Term(~4.2M) LUI-正式名稱String(~4.8M) SUI-不同概念名稱Atom(~5.6M) AUI-某一來源詞表的概念4.概念的變更概念永不變更(原則上)-CUIs是概念永久標識碼概念消失(現(xiàn)實中)概念可能合并或分離導致新概念的產(chǎn)生和舊概念的刪除4.概念間關(guān)系同義關(guān)系:~9Mpairsofconcepts統(tǒng)計關(guān)系:~7Mpairsofconcepts

(co-occurringconcepts)映射關(guān)系:100,000pairsofconcepts分類:概念與語義類型之間的關(guān)系來自于語義網(wǎng)絡(luò)SymbolicrelationsRelationPairof“atom”identifiersTypeAttribute(ifany)Listofsources(fortypeandattribute)Semanticsoftherelationship:definedbyitstype[andattribute]5.概念組織概念間關(guān)系:來自各詞表的體系冗余:多個路徑一張圖替代多棵樹(多重繼承)三、語義網(wǎng)絡(luò)1.語義類型(135種)樹型結(jié)構(gòu)2個頂層Entity(物)PhysicalObject(實體物)ConceptualEntity(概念物)Event(事)Activity(活動)PhenomenonorProcess(現(xiàn)象或過程)2.語義關(guān)系語義關(guān)系(54種)等級關(guān)系(isa=isakindof)amongtypesAnimalisaOrganismEnzymeisaBiologicallyActiveSubstanceamongrelationstreatsisaaffects非等級關(guān)系SignorSymptomdiagnosesPathologicFunctionPharmacologicSubstancetreatsPathologicFunction語義關(guān)系繼承3.語義結(jié)構(gòu)4.語義網(wǎng)絡(luò)四、專家詞典處理和管理醫(yī)學術(shù)語的詞匯變異主要詞典工具NormalizationIndexesLexicalVariantGenerationprogram(lvg)知識源服務(wù)器的使用超級敘詞表的查詢語言義網(wǎng)絡(luò)的查詢專家詞典的查詢數(shù)據(jù)下載六、在信息檢索中的應(yīng)用在生物醫(yī)學文獻數(shù)據(jù)庫中的應(yīng)用PubMedNLMGatewayEntrez2.在醫(yī)學專業(yè)搜索引擎中的應(yīng)用本體語言及本體的構(gòu)建一、本體(Ontology)概念1.起源于哲學領(lǐng)域Ontology是研究“存在”(Being)的科學,包括研究“存在”的本質(zhì)和“對客觀世界存在的系統(tǒng)化描述”。本體論,又叫存在論2.人工智能領(lǐng)域1991/Neches等:本體是由一些術(shù)語、術(shù)語間關(guān)系和規(guī)則組成,其中術(shù)語和術(shù)語間關(guān)系是用來描述相關(guān)領(lǐng)域的知識,而規(guī)則是用于術(shù)語和術(shù)語間關(guān)系的推理。1993/Gruber:概念模型的明確的規(guī)范說明;1997/Borst:共享概念模型的形式化規(guī)范說明;1998/Studer:共享概念模型的明確的形式化規(guī)范說明3.特征(1)概念模型(conceptualization)通過抽象出客觀世界中一些現(xiàn)象(Phenomenon)的相關(guān)概念而得到的模型,其表示的含義獨立于具體的環(huán)境狀態(tài)(2)明確(explicit)所使用的概念及這些概念的約束都有明確的定義。(3)形式化(formal)Ontology是計算機可讀的。(4)共享(share)體現(xiàn)的是共同認可的知識,是相關(guān)領(lǐng)域中公認的概念集,它所針對的是群體而不是個體。二、本體(Ontology)的組成一個本體的組成:類(classes)或概念(concepts)及其關(guān)系屬性(properties)或槽(slots)屬性限制條件(restrictions)或分面(facts)實例(instances)或個體(individual)公理(規(guī)則)三、Ontology的作用Tosharecommonunderstandingofthestructureofinformationamongpeopleorsoftwareagents(在用戶或軟件代理之間共享信息組織結(jié)構(gòu)的共同理解)Toenablereuseofdomainknowledge(有助于專業(yè)領(lǐng)域知識的復用)Tomakedomainassumptionsexplicit(使專業(yè)領(lǐng)域內(nèi)的假設(shè)更加明確)Toseparatedomainknowledgefromtheoperationalknowledge(將專業(yè)領(lǐng)域知識從操作性知識中分離出來)Toanalyzedomainknowledge(有助于分析專業(yè)知識)四、本體與分類表、敘詞表的聯(lián)系與區(qū)別1.聯(lián)系均是一種知識組織、知識管理的方式分類表和敘詞表能實現(xiàn)的功能,本體均能實現(xiàn)2.區(qū)別本體具有知識推理功能:智能查詢、自然語言問答、機器翻譯、知識預測等;本體比分類表、敘詞表對概念(術(shù)語)、關(guān)系刻畫得更全面、深入、細致;本體的組織結(jié)構(gòu)是立體的、網(wǎng)狀的和多維的,而分類表、敘詞表是線性的。五、本體與知識庫20世紀80年代中期,知識庫成為人工智能和數(shù)據(jù)庫界研究熱點,注重知識表示和推理機制研制。在某一專題領(lǐng)域或規(guī)模較小的系統(tǒng)有效,但是對于大型知識庫系統(tǒng)卻無能為力。本體提供一組術(shù)語和概念來描述某一領(lǐng)域,知識庫則是使用這些術(shù)語來表達該領(lǐng)域的知識(事實)。例如:突發(fā)公共衛(wèi)生事件本體包含“鼠疫”、“傳染性非典型肺炎”等術(shù)語的名稱、定義…..,但它不會包含某一具體事件的具體內(nèi)容,而這些是知識庫所要表達的內(nèi)容。理想的領(lǐng)域知識庫應(yīng)該是建立在領(lǐng)域本體的基礎(chǔ)之上的,而且本體為人們描述目標世界提供了一組通用詞匯,而這種通用的詞匯正是實現(xiàn)知識系統(tǒng)化的基礎(chǔ)。通用詞匯和知識的系統(tǒng)化有利于實現(xiàn)知識的標準化。在一定程度上,本體庫就是一種知識庫。六、本體表示語言1.作用為本體的構(gòu)建提供建模語言作為本體轉(zhuǎn)換標引的工具:自然語言格式的本體轉(zhuǎn)換成機器可讀的邏輯格式;作為本體交換的標準格式;形式化語言表示,利用機器可讀的形式化表示語言表示本體,可以直接被計算機存儲、加工、利用,或不同系統(tǒng)之間的相互操作目前本體表示語言有20多種?;贏I(人工智能)的本體表示語言KIF、Ontolingua、CycL、Loom、OCML、FLogic等?;赪eb的本體表示語言SHOE、XOL、RDF、RDF-S、OIL、DAML、DAML+OIL、OWL等?;赪eb的本體表示語言的產(chǎn)生盡管Ontolingua、CycL、Loom等本體表示語言在知識推理方面具有各自明顯的優(yōu)點,但是與現(xiàn)有的web語言沒有聯(lián)系,逐漸淡出了web本體表示語言的選擇行列。Web的發(fā)展,搜索引擎的缺陷瀏覽器和搜索引擎的智能太低,基本上還是采用關(guān)鍵字匹配的辦法;不能理解用戶的需要不能理解概念,從而進行語義關(guān)聯(lián)。解決的根本方法就是變無序數(shù)據(jù)為有序知識,讓計算機能夠理解Web信息,同時理解用戶的需求?;赪eb的本體表示語言的發(fā)展基于Web的本體表示語言層次關(guān)系基于Web的本體表示語言-OWLOWL(WebOntologyLanguage,Web本體語言)是W3C推薦的本體描述語言的標準。OWL是在DAML+OIL的基礎(chǔ)上發(fā)展起來的,作為RDF(S)的擴展,目的是提供更多的元語以支持更加豐富的語義表達,并更好的支持推理。針對不同的需求,OWL有三個子語言:OWLLite、OWLDL和OWLFull。七、本體構(gòu)建工具達90多種,成熟的、知名度較高的、較常用的不足10種。常見的構(gòu)建工具有:OntolinguaOntoSaurusWebOntoProtégé3.1beta本體構(gòu)建工具-Protégé3.1beta(1)Protégé3.1beta由斯坦福大學為知識獲取而開發(fā)的一個工具。是目前較活躍的本體工具,Protégé3.1beta可以免費下載,已經(jīng)有16500多注冊用戶使用。它用Java語言開發(fā),通過各類插件支持多種本體格式,甚至已經(jīng)能夠支持剛剛發(fā)布的,也是目前最有前途的W3C的OWL本體語言。(2)它提供了基于圖形和交互式的知識本體設(shè)計開發(fā)環(huán)境,協(xié)助知識工程師和領(lǐng)域?qū)<疫M行知識管理。本體開發(fā)人員可以直接實施導航和管理本體的操作。樹型控制實現(xiàn)了在類層次結(jié)構(gòu)中進行迅速和簡單的導航。Protégé采用表單作為輸入槽值的界面。Protégé3.1beta的知識模型與OKBC兼容,支持類和類層次結(jié)構(gòu)的多繼承,模板和私有槽,槽的任意面和定義的明確說明,明確說明包括值、基數(shù)約束、默認值、逆轉(zhuǎn)槽、元類和元類的層次結(jié)構(gòu)。(3)Protégé3.1beta兩個重要特征:可伸縮性和可擴展性。Protégé3.1beta可以構(gòu)建和使用包括150,000個框架的本體。Protégé3.1beta體系結(jié)構(gòu)最主要的優(yōu)勢是它的開放的模塊化的設(shè)計?;诮M件的體系結(jié)構(gòu)使系統(tǒng)開發(fā)者可以通過生成恰當?shù)牟寮嗽黾有碌墓δ?。Protégé3.1beta將開發(fā)的本體可以轉(zhuǎn)換成多種本體表示語言,如XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等。八、本體的開發(fā)步驟構(gòu)建Ontology是一項持續(xù)的研究。Ontology包括構(gòu)成所有領(lǐng)域知識表示基礎(chǔ)的最普通的術(shù)語和特定領(lǐng)域?qū)S玫男g(shù)語。例如:空間、時間等術(shù)語;而新發(fā)傳染病、傳染性非典型肺炎等醫(yī)學領(lǐng)域。工具的選擇Protégé3.1beta本體描述語言的選擇OWL本體構(gòu)建過程(1)確定本體領(lǐng)域與范圍本體涵蓋的專業(yè)領(lǐng)域?開發(fā)該本體的目的和用途?本體應(yīng)該能回答哪些類型問題?這些問題可隨時調(diào)整,并要保持相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論