基于概念匹配度模型的文獻檢索系統.doc_第1頁
基于概念匹配度模型的文獻檢索系統.doc_第2頁
基于概念匹配度模型的文獻檢索系統.doc_第3頁
基于概念匹配度模型的文獻檢索系統.doc_第4頁
基于概念匹配度模型的文獻檢索系統.doc_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

西南交通大學碩士學位論文基于概念匹配度模型的文獻檢索系統姓名:李靜申請學位級別:碩士專業(yè):應用數學指導教師:宋振明20090101西南交通大學碩士研究生學位論文第頁,。,西南交通大學碩士研究生學位論文第頁;西南交通大學曲南父逋大字學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,同意學校保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權西南交通大學可以將本學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。本學位論文屬于、保密口,在年解密后適用本授權書;、不保密囹,適用本授權書。(請在以上方框內打“)學位論文作者簽名:爹靜指導教師虢擦酬日期:如年月,日日期:弘年月力西南交通大學學位論文創(chuàng)新性聲明本人鄭重聲明:所呈交的學位論文,是在導師指導下獨立進行研究工作所得的成果。除文中已經注明引用的內容外,本論文不包含任何其他個人或集體已經發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體,均已在文中作了明確的說明。本人完全意識到本聲明的法律結果由本人承擔。本學位論文的主要創(chuàng)新點如下:構建頻繁檢索集(,),即針對用戶經常檢索的主題和檢索出的文獻,經過內容抽取與預處理后保存起來構成的集合,作為本文文獻檢索系統的一個組成部分;當用戶輸入一個關鍵詞,從中搜索與用戶查詢相關的題目,如果能夠在頻繁檢索集中查找到相應的題目,就可以直接將相應的文獻返回給用戶,而不需要經過文獻檢索相關的復雜的處理過程,這樣不僅可以提高效率,而且也能提高精度;如果沒有或者答案不滿足用戶的需求,再通過搜索引擎從中搜索相關的文獻,然后使用搜索引擎返回的前個文檔,構建概念格;最后利用概念匹配度模型來抽取最佳文獻;同時考慮到用文檔作為形式概念的對象,關鍵詞作為屬性,為整個待查詢文檔集建立一個單一的規(guī)模較大的概念格,在計算上花費很大、格的建立算法非常復雜以及格之間移動開銷非常大等問題。因此,本文最后提出了基于概念格匹配度模型的文獻檢索系統。通過實例證明,改進后的匹配模型更符合人腦的思維方式,符合人們對概念的理解,具有可行性。學位論文作者簽名:夸贛。日期:,、,。西南交通大學碩士研究生學位論文第頁第章緒論論文選題的背景和意義面對信息社會這浩瀚的信息海洋,人們常會陷入窘迫的兩難境地:一方面是“信息過載”,即收到的或已經下載的信息難以消化,導致用戶的查詢訪問經常存在著大量無關的信息;另一方面就是“信息迷失”,即用戶不知道如何貼切表達真正想要的網上資源的需求,因為目前技術并沒有提供合適的表達手段,而且用戶也不知道如何去更準確有效的尋找。海量的可用信息和用戶對信息的駕馭能力形成強烈的反差,最終用戶盼望出現一些能夠協助其理解、尋找所需信息的軟件助手??梢哉f網上的信息收集和獲取面臨著嚴重的效率和質量問題。因此,開發(fā)可以在文獻信息網空間上輔助人們智能的分析、過濾、獲取所需文獻信息的工具一基于概念匹配度模型的文獻檢索系統,是實現及時、準確、方便獲取所需文獻的有力手段??茖W研究的基本過程是確立研究題目檢索相關文獻綜述文獻并確立研究的創(chuàng)新點設計科學實驗,取得科學數據總結、討論、研究數據一撰寫研究論文。文獻檢索是科研工作中不可缺少的一個環(huán)節(jié),一項科研課題無論是在立題之前,還是在研究過程中,甚至在研究完成后成果的評價方面,都離不開查閱有關的文獻資料。據統計,科研人員每完成一項科研成果,其從命題到成果評價,他們在查閱有關的科技文獻信息方面所花時間相當于整個科研工作的。如果沒有掌握一定的科學檢索方法,則所需文獻查閱時間還會更長。更有甚者,因為沒有得到相關的文獻資料和準確及時的信息,使得整個科研工作都變成了“重復勞動,最終研究成果也失去了意義。就像二十世紀年代美國為了搞“繼電器接點電路合成研究,曾聯合幾家實驗室研究了年,耗資萬美元終于成功,但當他們發(fā)表成果時才發(fā)現該研究項目早已被其他人完成。這個例子說明,如果在研究課題之前先利用科技文獻檢索技術,檢索有關的文獻資料,了解該項目當時在世界各國的研究動態(tài)及其水西南交通大學碩士研究生學位論文第頁平如何,就可揚長避短,可拓展思路,在一個新的起點做出努力。在科研工作中,科研課題的選題立項是科學研究的重要組成部分和開始階段,它包含選題、論證、投標或審批、簽訂合同等幾個環(huán)節(jié)。其中選題和論證是兩個關鍵環(huán)節(jié),而這兩個環(huán)節(jié)都離不開文獻資料的檢索。選題立項是確定研究與開展工作的內容和對象,要研究一個新課題或開發(fā)一個新項目,首先要收集大量的有關信息,積累、繼承、借鑒、檢索世界范圍內前人的研究成果。這對于科研人員來說是至關重要的一步。作為研究人員在著手研究開發(fā)每一項課題之前,要懂得利用科學的文獻檢索方法來了解這個課題是如何提出來的,前人在這些方面做過些什么工作,是如何做的,有何成果和經驗、教訓,還存在什么問題,相鄰學科的發(fā)展對研究這項課題提供了哪些有利條件,對目前市場的影響有多大等。這樣才能正確的選好課題,制定研究方案,避免重復研究并少走彎路,使自己的研究能站在一個較高的起點上。這也正如牛頓所說;“假如我比別人看的遠一點,那是因為我站在了巨人的肩膀上”。選題確立后,應進行的工作就是對選題的論證,選題的論證是立項階段的核心部分,論證質量的優(yōu)劣與選題的成敗密切相關。所以,應根據檢索的資料對課題進行分析、預測和評價,以提高課題的申報質量,增加課題的審批率。由此可見,撰寫論文離不開科技文獻的檢索。同時文獻檢索還有如下作用:啟迪創(chuàng)新思維文獻檢索是人們打開知識寶庫的一把金鑰匙,是開發(fā)智力資源的有力工具。通過科技文獻檢索,可以讓科技工作者獲得大量相關信息,最大限度地吸收他人成功經驗和失敗教訓,既可有效地開展創(chuàng)新性、探索性的工作,又可獲得更全面、更有價值的論證依據,應用到科技論文寫作之中。避免重復報道信息資源的有效利用,可保證研究工作人員在盡可能高的層次上起步,并縮短研究周期,獲得預期的經濟效果??茖W研究具有繼承和創(chuàng)造兩重性,科學研究的兩重性要求科研人員在探求未知或從事研究工作之前,應該盡可能地占有與之相關的信息,即利用信息檢索的方法,充分了解國內、國外、前人和他人對擬探索或研究的問題做過哪些工作,取得了什么成就,發(fā)展動向如何,等等。這樣才能做到心中有數,防止重復研究,將西南交通大學碩士研究生學位論文第頁有限的時間和精力用于創(chuàng)造性的研究中。因此文獻檢索是科學研究不可缺少的前期工作。提升論文質量評價科研成果和科技論文的依據,一是內容質量是否勝人一籌,二是發(fā)表時間是否先人一步,三是同類課題是否有高人之處,這些問題只有通過對大量文獻信息的比較、分析才能做出客觀科學的評價。因此,科技文獻檢索可提升科研工作者論文寫作的質量。檢索和利用文獻是科技工作者獲取文獻信息、創(chuàng)作成果的重要手段,而撰寫論文則是科技工作者總結科研成果、增添科學知識、交流學術思想、探討學術問題、顯示個人成就的重要途徑。在當今信息社會中,科研工作者只有掌握科技文獻檢索方法,善于利用社會各種信息資源查找文獻資料,才能撰寫出高水平的論文。信息檢索的類型與發(fā)展信息檢索(,),是指將信息按一定的方式組織和存儲起來,并根據信息用戶的需要找出有關信息的過程和技術,所以它的全稱又叫信息的存儲與檢索(),這是廣義的信息檢索。狹義的信息檢索則僅指該過程的后半部分,即給出信息檢索需求從而檢索相關文檔集,從中找出所需要信息的過程,相當于人們通常所說的信息查尋()。信息檢索的類型信息檢索可以按照不同的標準劃分成各種類型。按檢索內容區(qū)分信息檢索可以分為文獻信息檢索、數據信息檢索和事實信息檢索。()文獻信息檢索文獻信息檢索()是以文獻(包括題錄、文獻和全文)為檢索對象的信息檢索。即利用相應的方式與手段,在存儲文獻的檢索工具或文獻數據庫中,查詢用戶在特定的時間和條件下所需文獻的過程。凡是查找某一主題、時代、地區(qū)、著者、文種的有關文獻,以及回答這些文獻的出處和收藏處所等,都屬于文獻型信息檢索的范疇。它為用戶提西南交通大學碩士研究生學位論文第頁供的是與用戶信息需求相關的文獻信息。這些文獻可以是涉及某一主題、學科、著者、文種、年代的文獻;文獻的收藏范圍可以是一館、一地、一國直至全世界。文獻檢索的結果提供與課題相關的數篇文獻的線索或原文供用戶參考,這些相關文獻的相關程度隨檢索系統和檢索技術的優(yōu)劣有很大區(qū)別。文獻檢索是信息檢索的核心部分,它較數據檢索和事實檢索內容更為豐富,方法更為多樣。文獻檢索根據檢索內容不同又可分為書目檢索和全文檢索。書目檢索是以文獻線索為檢索對象的文獻檢索,即檢索系統存儲的是“二次文獻”。它們是文獻的外表特征與內容特征的描述,是文獻的“濃縮體”。信息用戶通過檢索獲得的是與檢索課題有關的一系列文獻線索,然后再通過閱讀決定取舍。與全文檢索、數據檢索、事實檢索比較,書目檢索產生較早,發(fā)展也較完善。()數據信息檢索數據信息檢索()是以數值或圖表形式表示的數據為檢索對象的信息檢索,又稱“數值檢索”。即檢索系統中存儲的是大量的數據,它包括物質的各種參數、電話號碼、銀行賬號、觀測數據、統計數據等數字數據,也包括圖表、圖譜、市場行情、化學分子式、物質的各種特性等非數字數據,并提供一定的運算推導能力。數據檢索是一種確定性檢索,信息用戶檢索到的各種數據是經過專家測試、評價、篩選過的,可直接用來進行定量分析。數據檢索與文獻檢索有許多共同之處,文獻檢索的許多方法也適用于數據檢索。完成數據信息檢索主要借助于各種數值數據庫和統計數據庫。()事實信息檢索事實信息檢索()是以從文獻中抽取的事項為檢索內容的信息檢索,又稱“事項檢索。其檢索對象既包括事實、概念、思想、知識等非數值信息,也包括一些數據信息,但要針對查詢要求,由檢索系統進行分析、推理后,再輸出最終結果。事實檢索是信息檢索中最復雜的一種,要求檢索系統必須有一定的邏輯推理能力和自然語言理解功能。目前許多事實檢索課題仍需靠人工完成,但已有一些試驗性的計算機事實檢索系統。事實檢索也是一種確定性檢索,用戶獲得的是有關某一事物的具體答案。完成事實信息檢索主要借助于各種指南數據庫和全文數據庫。西南交通大學碩士研究生學位論文第頁按檢索方式區(qū)分信息檢索一般分為手工檢索和計算機檢索。()手工檢索手工檢索()是指用人工來處理和查找所需信息的檢索方式。手工檢索是檢索者與檢索工具直接“對話”,它依靠檢索者手翻、眼看、腦子判斷而進行,不需要借助任何輔助設備。手工檢索的特點是方便、靈活、判別直觀,可隨時修改檢索策略,查準率較高。不足的是檢索速度較慢,漏檢現象比較嚴重,不便于進行復雜概念課題的檢索。()計算機檢索計算機檢索()是利用計算機和一定的通信設備查找所需信息的檢索方式。它需要計算機、通信硬件設施、系統軟件和應用軟件。利用這種方式能對大量的信息進行存儲,并可以根據用戶要求從已存儲的信息中迅速抽取特定信息,并提供插入、刪除、修改等功能。計算機檢索的特點是速度快、效率高、查全率較高。不足之處是成本高、費用大,查準率通常不盡如人意。目前廣泛使用的計算機件系統包括光盤檢索系統、聯機檢索系統和因特網上檢索系統。信息檢索的發(fā)展從信息檢索的發(fā)展歷史看,信息檢索經歷了手工檢索、計算機檢索到目前的網絡化、智能化檢索等多個發(fā)展階段。它起源于世紀后期,當時主要用于圖書館參考文獻咨詢和文摘索引工作,使用信息檢索的用戶較少,隨著計算機和網絡的出現,促進了信息檢索科學的發(fā)展,人們越來越依靠信息檢索工具來查找自己所需信息,特別是網絡信息檢索。手工檢索手工檢索指以普通卡片目錄和書本式文獻、索引等檢索工具為基礎的檢索方式,它是計算機檢索的基礎和先聲。目前手工檢索工具在所有的檢索工具中仍占有相當大的比重,某些學科和科研課題的檢索利用手工檢索也較為方便。手工檢索工具主要由三部分組成:()文摘部分對收錄文獻的詳細介紹,包括文摘號、文獻標題、作者、作者工作單位、文獻來源(如期刊、會議錄、專利等)、文摘等。西南交通大學碩士研究生學位論文第頁()索引部分將所有文獻按一定的文獻特征(如主題詞、分類號、作者等)以一定的次序(如字母順序、拼音順序等)歹,每一個文獻特征對應一個或幾個文摘號或其它號碼。從索引中獲取的文摘號等可以過渡到文摘部分從而了解該文獻。重要的索引包括主題索引、分類索引和作者索引等。()附錄部分包括主題詞表(供選擇主題詞用)、縮略語表、期刊來源索引等?,F在計算機檢索的基本理論和檢索方法都是從手工檢索發(fā)展而來的,而且手工檢索與計算機檢索相比查準率更高,所需費用相對較低,所以了解重要的手工檢索工具及其檢索方法仍有其必要。計算機檢索隨著計算機技術、通信技術和高密度存儲技術的迅速發(fā)展,利用計算機進行信息檢索已成為人們獲取文獻信息的重要手段。計算機信息檢索能夠跨越時空,在短時間內查閱各種數據庫,而且大多數檢索系統數據庫中的信息更新速度很快,檢索者隨時可以檢索到所需的最新信息資源。計算機信息檢索是指利用計算機存儲和檢索信息。具體地說,就是指人們在計算機或計算機檢索網絡的終端機上,使用特定的檢索指令、檢索詞和檢索策略,從計算機檢索系統的數據庫中檢索出所需的信息,繼而再由終端設備顯示或打印的過程。計算機信息檢索廣義上講包括信息的存儲和檢索兩個方面,在使用計算機檢索前先要對信息進行加工處理。抽取出主題詞、分類號以及文獻的其它特征進行標識或者寫出文獻的內容摘要,再將處理的數據存儲起來。信息被存儲后,用戶就可根據自己所要的信息進行分析,然后輸入檢索主題,計算機就可根據用戶輸入的主題在數據庫中進行查找匹配,然后將查找到的信息顯示給用戶。網絡信息檢索隨著的飛速發(fā)展,網上資源日新月異。面對如此巨大的海量信息,人們迫切希望利用這些多媒體、跨語種、數字化的信息資源。目前對網絡信息的檢索主要有兩種檢索形式:目錄式檢索(也稱主題指南)和搜索引墼產。目錄式檢索是人工建立的、結構化的網址主題類目和子類目,按照字母、西南交通大學碩士研究生學位論文第頁時間、地點、主題等順序進行排列,使用戶通過瀏覽網絡站點列表,檢索有關信息。它是一種導航式的檢索,用戶根據所要查找的信息所屬的類目逐級進行查找,較為典型有、等。目錄式檢索的主要優(yōu)點是人工干預提高了返回結果的相關性,缺點是很難檢索到較深的信息,對主題類目和子類目的維護困難。搜索引擎是目前網絡信息檢索應用最普遍的一種檢索形式,它是繼電子郵件服務之后的第二大網絡服務。搜索引擎是一種能夠通過接受用戶的查詢指令,并向用戶提供符合其查詢要求的信息資源網址的系統。搜索引擎按檢索功能可分為獨立搜索引擎和元搜索引擎。獨立搜索引擎是指搜索引擎之間沒有嵌套,是單一搜索引擎。元搜索引擎綜合了多個搜索引擎,它將用戶的查詢分別送給多個搜索引擎搜索,這樣能提高檢索的查全率()。按檢索的語種可分為單一語言搜索引擎和跨語言搜索引擎。隨著網民使用互聯網的熟練程序的不斷增加,用戶對網絡信息的需求越來越廣泛而多樣化。因而搜索引擎正在向多媒體、個性化、智能化等方向發(fā)展。智能化信息檢索傳統的搜索引擎使用方法是被動搜索,將來可以利用智能代理技術進行主動信息檢索。智能化信息檢索就是利用智能代理技術進行主動的信息檢索,并通過對用戶的查詢計劃、意圖、興趣方向進行推理預測為用戶提供有效的搜索結果的一種新的信息檢索方式。它是用自動獲得的知識進行信息搜集過濾,并自動地將用戶感興趣的信息通過電子郵件或其它方式,提交給用戶。隨著人們對現在的搜索引擎的查準率的不滿,搜索引擎?zhèn)€性化已成為一個熱點。個性化搜索引擎通過跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。這是一種正在發(fā)展中的很有前途的搜索引擎人機界面技術,它通過搜索行為分析技術提高搜索效率。國內外研究動態(tài)文獻檢索的發(fā)展現狀目前,數字化圖書館的設計方興未艾,大多數文獻情報單位還處于計算西南交通大學碩士研究生學位論文第頁機檢索初中級階段。為提高文獻檢索的水平,滿足當今信息社會迅速發(fā)展的要求,我們必須加快計算機檢索和網絡搜索的步伐,向聯機文獻信息服務網絡化方面邁進。我國計算機文獻檢索系統的研發(fā)始于上世紀年代,由中國科技情報研究所和一些研究機構、情報機構及高等院校,分別對計算機檢索的軟件設計、數據庫建設、上級檢索等環(huán)節(jié)開展了廣泛的研究與試驗。年交通部科技情報研究所成功研制了微機單機文獻檢索系統、微機非文獻檢索系統及縮微文獻檢索系統,實現了利用微機檢索書目、事實和數據。在文獻檢索自動化理論及時間方面達成了共識近年來,我國文獻信息界對文獻檢索自動化的作用、地位、建設方法、發(fā)展方向等關鍵問題進行多層次、全方位的探討、研究和實驗,并且在此過程中,大家一致認定:中國的文獻檢索要走一個知識型、數字化、網絡化的發(fā)展道路。同時,在實現有中國特色的文獻檢索自動化、網絡化過程中,要走與國際共同的發(fā)展、資源共享的道路?!爸袊叩冉逃墨I保障系統()”就是一個在教育部統一領導下,正在不斷完善建設的文獻信息保障系統。它以數十多所重點高校圖書館為主干,逐步建立起全國高校用戶的文獻信息服務計算機網絡系統。向用戶提供可查詢、檢索和利用的各種類型文獻數據庫,提供網上文獻檢索與源文獻服務,國內出版文獻的用戶需求滿足率可達到,國外出版文獻達。同時,自動化水平的提高,帶動高校圖書館在管理體制水平、新技術應用、人員素質和服務質量等方面也上了一個新臺階,向全世界先進水平靠攏。圖書館自動化系統的開發(fā)得到很大程度的提高世紀年代以后,圖書館自動化系統的研制由開發(fā)階段開始進入實際應用階段,國內開發(fā)的一些管理系統軟件走上了商品化發(fā)展道路。如:由文化部委托深圳圖書館研制開發(fā)的“圖書館自動化集成系統()”已在全國多家圖書館使用,并且可用于平臺操作,并可直接上網。北京圖書館的“文津圖書館綜合管理系統”、廣東中山圖書館的“中國圖書館電腦管理集成系統”以及由大連“博菲特”、北京息洋電子信息研究所共同開發(fā)的“息洋系統等,它們都在不斷完善升級,向網絡化方向發(fā)展,以期與國際先進的文獻信息系統發(fā)展相接軌。也有一些圖書館引西南交通大學碩士研究生學位論文第頁進國外先進軟件系統,經漢化、改造后使用,在實現圖書館自動化管理方面顯示出了雄厚實力,如:清華大學圖書館、中國科學院文獻情報中心、上海圖書館、西安交大圖書館等使用的軟件?,F在,在我國大中型圖書館以及一些小型圖書館和情報單位,都基本上有這個自動化管理系統。數據庫建設成績顯著文獻數據庫是文獻檢索的基礎,也是文獻信息單位自動化與網絡化資源共享的根本保證。所以只有建立相應的通用型、標準型的數據庫,才能實現文獻檢索工作的自動化,才能借助于通訊網絡,對計算機數據庫的資源進行利用、共享。同時它可以實現一次輸入、反復使用,一家輸入、多家使用。自上世紀年代末期起,我國數據庫建設取得了較大進步,各種參考數據庫、源數據庫、全文數據庫不斷涌現,為實現文獻檢索自動化、網絡化提供了保證。目前,數據庫的建設已由各自為政逐步走向規(guī)范化、標準化、合作化的發(fā)展道路。文獻檢索自動化、網絡化得到很大程度的普及和發(fā)展計算機在文獻信息單位的運用,多媒體數據庫、全文數據庫、數據庫、網上圖書館、電子圖書館等紛紛出現,這一切都使用戶的檢索更加簡易、方便,獲得的信息也更加豐富、全面和準確。而一些大型的聯合文獻數據庫的建立,可以實現地區(qū)性文獻機構的聯合,利用聯合數據庫實現“一地多檢”、“一建多用”,不僅方便了用戶,而且給工作人員帶來了諸多方便。有相當一部分文獻單位已經建立起了自己的書目數據庫,采用較先進的文獻管理自動化系統,把公共檢索、聯機編目、館際互借、多媒體應用系統、遠程通訊等網絡化系統的開發(fā)作為自己的發(fā)展目標,同時把自己的文獻信息送向網絡,向文獻檢索自動化邁進。目前,我國廣大大專院校、科研院所、圖書館、情報機構等都已在自建和引進系統的基礎上,逐步實現了信息和文獻檢索的自動化和網絡化。文獻檢索的發(fā)展趨勢服務內容個性化信息服務結構通過網絡按照單個特定用戶的偏好、習慣等開展個性化信息服務,進而滿足用戶的個性化需求。西南交通大學碩士研究生學位論文第頁早在年美國康奈爾大學圖書館就開發(fā)了網絡個性化服務平臺系統口】,并于年投入使用。該系統有個性化鏈接,并于年投入使用。該系統由個性化鏈接()和個性化更新()兩個部分組成,用戶可以通過收集和組織自己常用的電子資源,建立一個真正屬于自己的個性化數字空間:每周向用戶提供其個人需要的新書、期刊和其他加入到圖書館目錄中的媒介通告,用戶無需耗費精力去查找資料,相關資料會主動持續(xù)的找到相應用戶。我國這方面的研發(fā)比較晚,但也有一定成果,如已投入使用的在年初推出的由深圳市深思朗圖信息技術公司開發(fā)網絡版中捆綁的個性化服務子系統。另外由清華大學和清華同方主辦的中國知識基礎設施工程工程也做出決定,正式向社會各類機構和個人開始實施個性化服務,這其中對個人的服務除了提供內部整體的知識信息需求的采集、制作的專業(yè)知識庫,還提供個人全面獲取、處理知識信息的工具個人數字圖書館和在網上協同工作平臺。此外還有不少單位對個性化服務進行研究,如中科院文獻信息情報中心的個性化服務項目、中國數字圖書館的企業(yè)在線情報服務項目、中國農業(yè)大學圖書館的個性化服務系統等。顯而易見,隨著我國網絡基礎設施及社會環(huán)境的改善,用戶的個性化信息需求日益強烈,個性化服務在我國也會逐漸普遍開來。服務模式一體化一體化服務要求“一步到位。所謂一步到位的服務是指用戶可以在一個信息服務商處,利用一種網絡界面,使用一個檢索指令找到他所需要的全部的、確切的信息。不僅包括信息查詢途徑,還應包括具體的內容;不僅可查詢該信息服務商自行建立的數據庫,還可以查詢其他信息上提供的數據庫。在這種情況下網絡聯機服務就有更大范圍的擴展,以使用戶能更全面、更準確的獲得有關信息,盡管目前網絡聯機服務在世界電子信息服務市場中已占有很大的份額。顯然,要想高效的完成這種一體化的服務,不僅要有齊全的硬件設施,還應有完善的軟件設施。目前我們國內的軟件設施建設主要表現在數據庫建設上,數據庫是現在最重要的信息資源,我國的數據庫研發(fā)和國外相比還比西南交通大學碩士研究生學位論文第頁較落后,因此我們應加強數據庫的建設。一方面我們應加強實體數據庫的建設,另一方面我們要對網上豐富的信息資源進行發(fā)掘,按主題加強虛擬數據庫的建設,通過虛擬數據庫給用戶提供涉及多數據源的統一的查詢機制,讓用戶可以用統一的方式使用來自不同數據源的數據。服務手段智能化伴隨著個性化服務越來越為人們所需,服務手段也就愈加的要求智能化。智能化的服務手段需要智能檢索系統的應用來實現。智能檢索系統可以有效的解決“信息過載”和“資源迷向”的問題,它能根據用戶的需求或意愿代替用戶查找所需信息,或主動推薦給用戶所需要信息并能主動及時的向用戶報告最新信息。另外系統還可以根據其獲取的用戶知識,為每個用戶建立用戶模型檔案。它還為每個用戶建立個人目錄,該目錄中所存儲的信息能為用戶以后的檢索和瀏覽提供幫助。顯然,我們能利用智能軟件搜尋相關信息,并定時向用戶發(fā)送,以完成用戶的個人定制服務。當前其主要的應用就是在信息推送服務上,目前信息推送服務的研究與應用都有很大成果,產生了一些推送軟件。本文的主要工作本文的主要工作是研究文獻檢索系統中文獻檢索部分的文檔匹配方法。根據文檔匹配的基本原理,使用概念格的理論來對文檔進行表示,首先提出了基于概念匹配度模型的文獻檢索系統。同時為了更加合理的表達文檔的內容,根據新的文檔形式化表示,提出了與之更適合的文檔與用戶查詢的匹配操作基于概念格匹配度模型的文獻檢索系統,以便提高文獻檢索的質且里本文的主要結構如下:第章緒論。介紹了論文選題的背景和意義、信息檢索的類型與發(fā)展、文獻檢索的發(fā)展現狀、文獻檢索的發(fā)展趨勢和本文的主要工作。第章文獻信息檢索模型。介紹了信息檢索的基本概念和三種基本文獻信息檢索模型:布爾檢索模型、向量空間檢索模型和概率檢索模型。西南交通大學碩士研究生學位論文第頁第章基于概念匹配度模型的文獻檢索系統。首先介紹了概念格的相關概念及應用,隨后提出了基于概念匹配度模型的文獻檢索系統,最后用實例論證了該模型的有效性。第章基于概念格匹配度模型的文獻檢索系統??紤]到前章給出模型的不足,本章采用了一種新的文檔表示,建立了與之符合的概念格匹配度模型,并用實例驗證了該模型的可行性。第章結論與展望。西南交通大學碩士研究生學位論文第頁第章文獻信息檢索模型文獻是信息知識傳播與記錄的載體,即知識信息必須通過文獻載體進行存儲和傳遞,用戶往往通過信息機構查找信息知識滿足其需要。構成文獻的三個最基本要素:一是文獻含有知識信息;二是負載知識信息的物質載體;三是記錄知識信息的符號和技術。文獻中信息的表示和存儲方式是文獻檢索的基礎,原始的文本文獻不能直接進行檢索,需要從這些原始數據中抽取邏輯視圖,以支持信息檢索。用戶則用查詢來表示信息需求,用自然語言表示的信息需求同樣需要抽取邏輯視圖,便于計算機的表示和計算。檢索系統根據用戶的查詢的表示,搜索經過抽象表示后的文獻集合,獲取與用戶查詢相關的文獻,并對查詢的結果與查詢的相關程度進行相關性排序。換言之,文獻信息檢索模型是指如何對查詢和文檔進行表示,然后對它們進行相似度計算的框架和方法,本質上是對相關度建模。信息檢索模型是瓜中的核心內容之一。由此可見,文獻信息檢索涉及三個過程:文獻的邏輯表示、查詢的邏輯表示、相似度匹配計算及結果集的排序。文獻信息檢索模型的定義文獻信息檢索主要研究對整個文檔信息的表示、存儲、組織和訪問。一個好的信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能根據用戶的意圖、興趣和特點自適應和智能化的調查匹配機制,獲得用戶滿意的檢索輸出。最常用的文獻信息檢索性能尺度是文獻信息檢索的查準率和查全率。文獻信息檢索的查準率為檢索結果中有用的相關文檔數與檢索到的查詢結果總數之比,而文獻信息檢索的查全率為滿足用戶查詢要求或相關于查詢要求的信息與被檢索出的結果集信息比率。一個文獻信息檢索模型是將文檔表示、查詢表示以及他們之間的關系進行建模的框架,可以把信息檢索模型看作一個三元體:,(,)()西南交通大學碩士研究生學位論文第頁其中,表示檢索系統的檢索結果,刃是文獻集合中一組文獻的邏輯視圖,稱為文獻的表示;是一組用戶信息需求的邏輯視圖表示,稱為查詢;(,;)是一個排序函數,該函數的輸出是查詢;和;的相關程度的實數,這樣就在文獻表示之間根據查,定義了一個順序。基本概念關鍵詞關鍵詞是從文獻中抽取出來,用來表示文獻的內容并標引一篇文獻的詞,一篇文獻可以用關鍵詞的集合來表示,其語意可以用來揭示文獻的主題,又稱標引詞。從文獻中抽取的關鍵詞一般是有實際語意的名詞,起修飾作用的形容詞、副詞、連詞很少用作標引詞。權值權值是用來表示關鍵詞對文獻內容的揭示程度的實數值。一篇文獻中關鍵詞的集合中的關鍵詞描述文獻內容的作用不盡相同,根據關鍵詞對文獻內容描述的重要程度賦予關鍵詞的權值也有所不同,權值不但標識了關鍵詞對文獻內容的描述程度,還是區(qū)分文獻在集合中所屬類別的一個特征。如果一篇文獻中的關鍵詞把文獻從文獻集合中明顯地區(qū)分開來,則應賦予此關鍵詞高的權值。只是為了標識關鍵詞在文獻中出現與否,可以用二值(和)作為關鍵詞的權值就足夠了,要體現關鍵詞的重要程度就要為關鍵詞的權值賦予一個連續(xù)的非離散值。停用詞在文獻集合中出現的關鍵詞只有能深入地揭示文獻的內容,并把文獻從文獻集合里區(qū)分開來,才可以用來標引文獻,成為檢索文獻的依據。在文獻集合中出現在大部分文獻中,不能區(qū)分文獻的詞就是停用詞。關鍵詞成為停用詞在不同的文獻集合中有所不同,例如:“計算機一詞,在計算機的文西南交通大學碩士研究生學位論文第頁獻集合中就應該作為停用詞處理,而在生物科學文獻的集合中就不是停用詞。關鍵詞和權值的集合表示。,:,。)是關鍵詞的集合,表示文獻集合中關鍵詞的數目,。表示關鍵詞集合中第個關鍵詞;文獻,可以用關鍵詞向量表示為乃(,),是文獻中關鍵詞;的權值,表示關鍵詞;沒有出現在文獻,中;查詢也可以用關鍵詞向量表示為:(,)。文獻檢索原理文獻檢索是依據一定的方法,從已經組織好的大量有關文獻集合中,迅速、準確查找出所需文獻的過程。因此,查出來的文獻也只是關于文獻的信息或文獻線索,如果要真正獲取文獻中所記錄的信息,那么還要依據檢索取得的文獻線索或關于特定文獻的信息去索取和查閱文獻的原文。文獻檢索就是從大量的科技文獻中迅速、準確、沒有重大遺漏的查出與特定的科學研究課題有關的資料。開展文獻檢索工作是一項繼承前人成果,開展新的科學研究,避免重復勞動的工作。當今文獻爆炸帶來的后果更突出了文獻檢索的意義,用戶可以根據自己的需要來選擇文獻,以掌握巨大的文獻財富,推動科研、教學、醫(yī)療、生產的發(fā)展。廣義地講,文獻信息檢索包含文獻信息儲存和文獻信息檢索兩個過程。信息儲存是對大量的、分散無序的文獻進行收集、標引及著錄,并加以有序化編排,編制信息檢索的工具的過程;信息檢索是從大量的信息中查找出用戶所需的特定信息的過程。我們可以建立各種各樣的檢索系統,通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標識達到一致,以便有效地獲得和利用信息源。其實存儲是為了檢索,而檢索又必須先進行存儲。如圖所示。文獻信息儲存西南交通大學碩士研究生學位論文第頁信息儲存的工作內容,主要是由標引人員通過對原始文獻的閱讀分析,對文獻中的信息進行鑒別、提煉和濃縮,并采用特定的方式予以整理、保存起來。它大致有如下幾個步驟:選擇文獻根據信息檢索系統的主題、性質及任務等,結合原始文獻本身的研究水平、角度及其信息質量,對原始文獻進行適當的評價,從中篩選出符合要求的文獻。文獻的概念分析對所選文獻進行仔細的主題分析,提煉出文獻所論述的內容主題,歸納為代表文獻內容的若干主題概念,并確定這些主題概念之間的關系。詞匯轉換把文獻的主題概念轉換為適當的文獻標識(或稱為標引詞),并以這些標識來表達文獻的主題內容。這種轉換需要嚴謹地建立在兩個依據之上:一是必須以對文獻的主題概念分析為依據,二是必須以信息檢索語言為依據。前者主要決定轉換的問題,即需要對文獻中的哪些信息主題做出轉換;后者主要決定怎樣轉換的問題,即把主題概念轉換為哪些標識。信息檢索工具的編制概括地講,檢索工具是信息檢索系統的核心和概括,它主要包括兩個有序化的序列,即文獻序列和文獻標識序列。文獻序列是由文獻描述體或文獻本身按照一定的方式組織形成的有序化序列,構成文獻庫。文獻描述體是對原始文獻內容的濃縮,常見的有文摘、題錄等,這是信息檢索所采用的傳統和主要的方式。其主要作用是使用戶能夠對文獻內容有較為全面和準確的了解,進而做出是否需要獲取原始文獻的選擇。隨著計算機技術和通信技術的發(fā)展,現在已經越來越多的信息檢索系統采用全文本的方式,直接把原始文獻本身組織為有序化的序列,尤其是因特網的迅猛發(fā)展,為全文本檢索拓展了更大的發(fā)展空間。文獻標識的序列,是由文獻標識按照特定的順序形成的有序化序列,構成文獻庫的索引。最常見的排序方式為字順,即按照字母順序或漢語拼音,排列為文獻標識的序列。其作用主要依靠字順組織,提供對文獻標識的快速查找,并與提問標識加以比較,據此做出文獻是否與提問相符的判斷。這個標識比較的過程,也稱為檢索的匹配。文獻信息檢索西南交通大學碩士研究生學位論文第頁信息檢索的工作內容,主要是由檢索人員接受用戶的檢索提問分析,對提問進行細致的主題分析,提煉出用戶檢索的主題概念,并編制出相應的檢索策略。其工作步驟如下:用戶提問在特定的條件下,用戶會把頭腦中信息需求轉變?yōu)榫唧w的檢索行為;提問的概念分析分析檢索提問,識別檢索的真正主題內容,把檢索主題分解為若干概念,并明確這些概念之間的關系;詞匯轉換把檢索提問的主題概念轉換為相應的提問標識(或稱為檢索詞),并以這些標識來表達檢索提問的主題內容。其依據同樣有兩個方面:一是對提問的主題概念分析,二是信息檢索語言;檢索的實施根據所得到的提問標識,在文獻標識序列中,按照其排序的規(guī)則,迅速地進行查找,并對文獻標識與提問標識進行匹配比較。如果文獻標識與提問標識相同,那就表明包含有該標識的文獻與用戶提問相符合,該文獻被作為命中文獻而進行檢索輸出;如果文獻標識與提問標識不相同,則表明文獻與用戶提問不相符合,該文獻被作為不命中的文獻而予以排除。文獻信息的存儲和檢索的全過程可用圖表示:存儲寸捍檢震遼崔圖文獻檢索的原理示意圖綜合上述文獻信息存儲和檢索兩個方面,文獻檢索的原理是:由標引人員以文獻或文獻描述體構成文獻庫,同時把文獻壓縮轉換為文獻標識,以此表達文獻的特征和主題內容,并對這些文獻庫和文獻標識,按一定的方式分別予以有序化組織,從而形成信息檢索系統即信息儲存的過程。檢索時,把成斗成斗墼墼一素言臼稱范一一慵豁和貅髓一,引錄一傭一墅罵圓國圈圈西南交通大學碩士研究生學位論文第頁用戶的檢索提問壓縮轉換為提問標識(檢索詞),以此表達提問的特征和主題內容,并將提問標識與信息檢索系統中的文獻標識進行對比,進而依據匹配與否,做出文獻是否符合檢索提問的判斷即信息檢索的過程。因此文獻檢索的原理就是提問標識與文獻標識的對比。布爾檢索模型布爾檢索模型在信息檢索中是一種使用最普遍也是最簡單的模型,它是基于集合論與布爾代數的一種簡單檢索模型,為使用信息檢索系統的普通用戶提供了一種便于掌握,信息檢索系統的設計者易于實現的模型,為許多系統所使用。標準的布爾邏輯模型使用二元邏輯,被檢索的文獻要么和查詢相關,要么不相關。布爾模型的關鍵詞權值都是二元的,即心,)。布爾檢索模型的理論基礎布爾檢索模型的理論基礎是布爾邏輯和集合論,是以布爾邏輯運算:與(),或(),非()作為運算基礎,文獻和查詢中關鍵詞的表示也是以或的形式表示,只表示詞語的出現與否,檢索結果也是二值的。一篇文獻要么和查詢相關(用表示),要么和查詢不相關(用表示)。布爾檢索模型中文獻的表示文獻集合空間用刃表示,其中包含四篇文獻,分別用,:,。來表示;文獻集合空間中出現的關鍵詞全體用集合丁來表示,其中包含,個關鍵詞,。,文獻集合中的文獻為:(,),其中為關鍵詞;在文獻,中的權值:,如果文獻,中包含關鍵詞”,如果文獻,中不包含關鍵詞幺。()布爾檢索模型中查詢的表示西南交通大學碩士研究生學位論文第頁在布爾檢索系統中,根據用戶提出的檢索要求,選取適當的檢索標識,與布爾運算符共同構成與查詢相符的檢索提問式,查詢口由連接詞、連接起來的多個關鍵詞組成。因此查詢口是一個常規(guī)的布爾表達式,可以表示為多個合取向量的析取,即析取范式。例如。(八乞)可以表示為析取范式的形式為:掰(,)(,)(,),其中每一個分量都是三元組(乞,乙,)的二值加權向量。布爾檢索模型的匹配函數布爾模型中應用的匹配函數就是布爾邏輯和集合運算,用幽,表示查詢的析取范式,。表示掰的任意合取向量,則文獻,和查詢的相似度為:州砌矗囂刊砌烈爝)“列)如果砌(嘭,),則表示文獻哆和查詢相關,否則不相關,回文獻向量中第個詞的權值。布爾檢索模型的優(yōu)缺點及其改進()函數用來返這種傳統的布爾模型的主要優(yōu)點有兩點:一是實現起來比較容易,速度快,計算的代價相對較少:二是查詢語言表達簡單,用戶可以使用任意復雜的查詢表達式,易于表示同義關系(如計算機電腦)和詞組(如:數據挖掘系統)。但是布爾模型的查詢式的構造對不懂邏輯數學的人來說就比較困難,為克服這一不足,針對用戶的自然語言查詢,可以設計自動構造查詢式的方法【,】。法定檢索的基本原理是逐步減少布爾檢索式的邏輯乘項目,從而逐步提高命中的文獻量,達到或接近用戶指定的數量為止。法定數檢索算法是根據檢索詞在文獻數據庫中的登錄數來確定檢索詞的權重。檢索詞在文獻數據庫中登錄的文獻數越小,專指度就大,對于提問的重要性就越大。反之,檢索詞的文獻登錄數越大,對于提問的重要性就越小【】。西南交通大學碩士研究生學位論文第頁逐步求精算法的基本思想是先構造一個檢索范圍較寬的提問式。然后通過不斷對提問式中的檢索詞加以限定而逐步減小檢索范圍,直到檢出的文獻量達到或接近用戶指定的文獻數為止。兩種算法均存在兩點不足:()檢索詞權重的計算只依賴于檢索詞在數據庫中的文獻登錄數,而沒有考慮它在用戶提問的重要性。因此,不能反映用戶提問的特殊性。()提問式的形成與修正以用戶指定的檢出文獻數為基礎,而對用戶來說,這種事先確定檢索文獻數的方法是很難接受的。在此基礎上提出了一種新的算法,基于樣本文獻提問構造布爾檢索提問式算法。該算法以樣本文獻提問為基礎計算檢索詞的權重,根據檢索詞權重值的分布規(guī)律來構造布爾檢索提問式。簡化用戶在檢索中與情報檢索系統的交互過程,從而提高檢索效率,并利用檢索系統對算法進行了驗證,結果顯示該算法在相同的查全水平上的查準率普遍高于手編提問式的檢索結果。針對傳統布爾模型無權重計算的缺點提出了礦范式模型【】。對于檢索系統,影響其性能的主要環(huán)節(jié):特征項的選擇;權重的計算方法;查詢的表示形式;查詢的調整(優(yōu)化);查詢一文獻相似度的計算方法。文獻中主要對:權重的計算方法;查詢的表示形式;查詢一文獻相似度的計算方法進行了優(yōu)化。向量空間檢索模型向量空間檢索模型,是將文獻和查詢表示為關鍵詞向量的形式,向量的項是關鍵詞在文獻中或查詢中的權值。這些詞語的權值用于計算文獻集合和用戶查詢之間的相似度,檢索系統根據計算出的相似度來排序文獻集合,排序后的結果集就是和特定查詢相關的文獻的集合。向量空間檢索模型的文獻空間在文獻集合中,每一篇文獻都可以用公式()來表示,所有由公式()表示的文獻向量組成的向量集合:西南交通大學碩士研究生學位論文第頁(。,以)就構成文獻向量空間模型中的向量空間,其中可以作為一個文獻向量,也可以看作在文獻空間刃中的權值,這一權值反映了文獻諺在文獻空間刃中的重要程度。標引詞空間一個文獻向量可以包含多個標引詞,一個標引詞可以作為不同文獻向量中的某個分量。既然可以通過標引詞定義一個文獻空間來表示文獻向量,那么也可以定義標引詞空間,文獻中的一篇文獻就是標引詞空間的一維。項的權值在文獻空間的構成中,為關鍵詞賦予權值是信息檢索過程中最重要的一個環(huán)節(jié),是向量檢索中首先要考慮的問題。為關鍵詞賦予權值主要涉及到三個因素:詞頻、詞的文獻頻率和向量規(guī)范化。詞頻是指關鍵詞在文獻中出現的頻數,反映了詞在文獻中的重要程度,常用礦來表示。原始詞頻只是反映了詞語在文獻中出現的次數,原始詞頻在長文獻中會比短文獻大。因此在用關鍵詞標引文獻時,需要對關鍵詞進行規(guī)范化處理,常見的規(guī)范化處理方法有:最大礦規(guī)范:老()其中是文獻中出現頻率最大的詞的詞頻,可以把詞的權值限制在(,)之間,著名的和系統都是使用最大規(guī)范的一種變形來表示詞的權值的,如下式:,紗其中()西南交通大學碩士研究生學位論文第頁這樣得到的關鍵詞的權值是一個相對量。最大礦規(guī)范一個潛在的不足是:文獻的規(guī)范化因子僅僅依賴文獻中出現的最為頻繁的詞的詞頻,是規(guī)范化的范圍限制在一篇獨立的文獻中,不能和整個文獻集合空間發(fā)生聯系。對數礦規(guī)范對詞頻礦取對數,然后加上一個常數:(廠)()這一方法雖然能降低詞的權值異常高的情況,但未能明確地考慮文獻長度和向量表示中的最大詞頻,只是用對數運算在一定程度上減少原始詞頻受文獻長度大的文獻中詞語出現次數偏多的負面影響。余弦規(guī)范化余弦規(guī)范化是向量空間模型中最為常用的一種規(guī)范化方法,余弦規(guī)范化的規(guī)范因子為:其中孵,是逆文獻頻率:磷:型()其中是文獻集合空間中文獻的總數,表示包含關鍵詞的文獻數。軸規(guī)范文獻被檢出的概率與文獻的規(guī)范因子成反比,在對大量文獻試驗的基礎上發(fā)現,在用幾種傳統的規(guī)范化方法規(guī)范的文獻集合中,短文獻被檢出的概率大,長文獻被檢出的概率?。禾岢隽艘环N軸規(guī)范方法,把規(guī)范因子調整為:軸規(guī)范因子原規(guī)范因子(一)。相似度計算集合中的每一篇文獻在向量空間里形成了相應的向量表示,查詢也用向量表示好了,就可以計算查詢和向量的相似度來排序整個文獻集合。文獻向量表示為:(,),查詢向量表示為:(,嵋:,)。西南交通大學碩士研究生學位論文第頁相似度的計算有以下幾種:內積相似度運算在文獻向量空間中,內積相似度計算公式是最常使用的相似度計算公式:(,),()公式中權值的選擇有多種方法,若選擇的二值權值,即,)則可簡單計算成:(,)()其中表示同時出現在文獻和查詢中的項的個數。余弦相似度余弦相似度來源于點積運算的規(guī)范化,它的規(guī)范化是基于向量一范數函余弦相似可以定義:(,)一扛()基于向量范數的相似度計算查詢向量和文獻向量的差由()可以反映文獻向量和查詢向量的相似程度,這一相似程度的計算可以用由的礦范數來表示:。一(,)(,)窆一,()文獻】中指出一般通過向量空間模型建立的矩陣都比較大,主要是由于兩個原因造成的:一是文獻的大量增加,二是文獻空間中的詞匯太多造成的。并且每篇文獻中出現的詞和文獻空間相比很少,因此文獻一詞頻矩陣是西南交通大學碩士研究生學位論文第頁一個稀疏矩陣。文中使用了潛語義模型對文獻空間進行了降秩分解,通過奇異值分解不但能使矩陣簡化,還可以使被檢索到的有關信息與使用者的查詢不一定具有共同使用的術語,解決同義詞的存在使檢索信息丟失的現象,通過對檢索詞一文獻矩陣降秩,可以去掉矩陣表示的數據庫中的無關信息和噪聲。但是潛語義模型難于理解,很難解釋計算的實際含義,很多結果是靠實驗結果來證實的,理論解釋困難,并且一些中間結果難于解釋。文獻給出了一種理解潛語義模型的理論模型,指出矩陣被分解成的形式中,丁是詞詞矩陣,其中的元素表示了詞和詞之間的相關性,通過丁得到和,的關聯性則能發(fā)現丁中不相關的詞的相關值明顯增大,這時由于詞詞間的傳遞相關造成的,就是說詞厶和,同現,和如同現,通過四嬲得到和,的關聯性。文獻】中用大量試驗驗證了一次乘積找到的相關詞最多。向量空間檢索模型的優(yōu)勢與不足向量空間檢索模型的優(yōu)勢在于將文本和查詢簡化為特征項及權值集合的向量表示,從而把檢索操作變成向量空間上的向量運算。向量的權重可以通過簡單的統計來完成,即通過定量的分析對查詢和文本進行匹配,利用計算得到的相似度可以對獲取的文檔按照相似度排序。許多實驗表明,向量空間檢索模型比布爾檢索模型能夠得到更加正確的結果。但在這種模型中的基本假設、關鍵詞向量之間被假設為相互無關的,而實際是有時它們之間大多是依賴關系,如在自然語言中,詞或短語之間存在著十分密切的聯系。所以這一假設對計算結果的可靠性造成一定的影響。另外,在查詢中,也不能像布爾模型一樣使用關鍵詞之間的邏輯運算關系。概率檢索模型事件空間概率模型的事件空間為:,其中代表所有可能的查詢組成的集合,西南交通大學碩士研究生學位論文第頁為文獻集合,各種概率模型之間的不同就在于它們使用了不同的方法來表示和描述查詢和文獻,從而得到不同的查詢表示和文獻表示。對給定的查詢和集合中的文獻,概率模型試圖估計出用戶查詢和文獻,的相關程度,并認為這個相關概率依賴于查詢和文獻的表示。此外概率模型還假定文獻集合中存在一個子集尼給定一個用戶查詢,存在一個文獻集合,集合月只包含和查詢相關的文獻,而不包含和不相關的文獻,我們把這個文獻集合斤稱為理想結果集合。相似度的計算對于概率模型來說,標引詞的權值都是二值的,即嘞,)。查詢是標引詞的子集,用月表示已知的相關文獻,用一表示刀的補集,即不相關的文獻。同時,條件概率尸(乃)表示文獻嘭與查詢相關的概率,(天阿)表示文獻與查詢口不相關的概率,因此文獻與查詢的相似度砌(嘭,)可以定義為:,(,):()(一)()根據貝葉斯定理:砌(,):()()(一)(尸(尺)尸(嘭)表示從相關文獻集合月中隨機選擇文獻嘭的概率,(尺)表示從整個文獻集合中隨機選擇文獻的相關概率,(尺)表示從相關文獻集合尺西南交通大學碩士研究生學位論文第頁中隨機選擇文獻的概率,()表示從整個文獻集合中隨機選擇文獻的不相關概率。在概率模型中,為了使問題簡化,討論項在相關和不相關文獻中的分布情況時,常常使用獨立的二元假設,也就是說,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論