基于本體的Web信息檢索系統(tǒng)研究

上傳人：7*** IP屬地：湖北上傳時間：2022-05-25 格式：DOC 頁數(shù)：56 大?。?.21MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩51頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、摘要隨著信息技術(shù)的發(fā)展，特別Internet的廣泛應(yīng)用，網(wǎng)絡(luò)上信息已是海量，并以幾何級數(shù)的速度增長，面對浩如煙海的信息資源，人們迫切需要能夠快速、準確地查找有關(guān)某個主題的全部信息資料。目前，Google, Yahoo, baidu等已經(jīng)提供了信息檢索服務(wù)。在現(xiàn)實中，不同用戶由于知識背景不同、興趣愛好不同,需求的信息也不同，他們訪問的往往都只是Web上某一個特定的資源子集，是關(guān)于某一特定領(lǐng)域的。但是，大多數(shù)的信息檢索系統(tǒng)采用關(guān)鍵詞輸入方式進行檢索，對于任何用戶，只要輸入的關(guān)鍵詞相同，返回的檢索結(jié)果都是千篇一律，完全相同的，沒有考慮用戶的差異。為了解決不同用戶的不同信息需求的問題，本文針對現(xiàn)有信

2、息檢索模型存在的問題，考慮用戶在興趣方面的差異，將本體技術(shù)應(yīng)用于信息檢索，建立了一種基于本體的Web信息檢索系統(tǒng)模型。在本文給出的信息檢索系統(tǒng)模型中，增加了一個基于本體的用戶興趣模塊用于存儲和處理用戶的興趣信息，在信息檢索過程中，依據(jù)用戶興趣模塊中提供的用戶興趣信息，有針對性地向不同類型的用戶推薦盡可能符合其意圖的信息資源。此外，信息檢索系統(tǒng)還可根據(jù)瀏覽器的歷史記錄、用戶瀏覽網(wǎng)頁的瀏覽行為等方面的信息來更新用戶興趣模塊中的興趣信息，例如刪除用戶興趣模塊中長期不被檢索的興趣信息等，使用戶興趣模塊中的興趣信息隨著用戶興趣的變化而變化。最后通過實驗驗證了模型的可行性，該模型在一定程度上實現(xiàn)了根據(jù)不同

3、用戶的不同信息需求向用戶推薦符合用戶意圖的信息資源。關(guān)鍵詞本體；本體構(gòu)建；信息檢索；用戶興趣；用戶信息存儲 AbstractAbstractWith the development of information technology, especially in the promotion of Internet , the information of the network is massive, and growing at a geometric progression.In this situation, people urgently need to fast find all

4、the information on a topic. At present, Google, Yahoo and baidu have provided information retrieval services.In reality, because users have different knowledge, different backgrounds, different interests and hobbies, they need different information, they tend to visit only Web resources on a particu

5、lar subset which is on a particular area. But most of the retrieval system uses keywords to retrieve information, if users enter the same keywords ,they will get the same results. In order to solve the problem that different users have the different information needs, based on existing information r

6、etrieval problems, taking into account differen-ces in user interest ,this paper uses the ontology technology in information retrieval, and establishes a Ontology-based Web Information Retrieval System Model, in the information retrieval system model, adds a ontology-based user profile module which

7、stores and processes user interest information. In the information retrieval process, based on the user interest information provided by user interest module, targeted to different types of users to recommend the information resources which they really need. In addition, according to the browsing hi

8、story and the browsing behavior of the users, the information retrieval system can also update the information in the user profile module ,such as deleting the information not be retrieved for the long time ,so that the information in the user profile module varies with the user interested. At last,

9、 the experiments verify the feasibility of the model, the model can recommends infor-mation resources in a certain extent for different users which they really need.Key words ontology; ontology building; information retrieval; user profile;use information storageII目錄目錄摘要IAbstractII目錄IIIContentsV第

10、1章緒論11.1 論文研究的背景及意義11.2 國內(nèi)外研究現(xiàn)狀11.2.1 國外基于本體信息檢索的研究現(xiàn)狀21.2.2 國內(nèi)基于本體信息檢索的研究現(xiàn)狀21.3 本文的主要研究工作和內(nèi)容安排31.3.1 本文的主要研究工作31.3.2 本文的結(jié)構(gòu)3第2章本體理論及其技術(shù)42.1 本體的概念42.2 本體的分類52.3 本體的建模元語62.4 本體的表示語言以及開發(fā)工具72.5 本體開發(fā)工具72.6 本章小結(jié)9第3章信息檢索概述103.1 信息檢索的含義103.2 信息檢索模型113.2.1 布爾模型113.2.2 向量空間模型113.2.3 概率模型123.3 信息檢索方法123.3.1

11、數(shù)據(jù)檢索123.3.2 全文檢索123.3.3 知識檢索123.4 檢索的評價指標(biāo)133.5 本體在信息檢索中的應(yīng)用143.6 本章小結(jié)16第4章領(lǐng)域本體的構(gòu)建研究164.1 領(lǐng)域本體構(gòu)建中存在的問題164.2 領(lǐng)域本體構(gòu)建的原則164.3 現(xiàn)有的領(lǐng)域本體構(gòu)建方法184.4 本文的本體構(gòu)建方法224.5 本章小結(jié)25第5章基于本體的信息檢索系統(tǒng)模型研究265.1 基于本體的信息檢索系統(tǒng)模型265.2 系統(tǒng)模型模塊設(shè)計285.2.1 本體庫285.2.2 用戶查詢詞模塊285.2.3 用戶興趣模塊305.2.4 信息預(yù)處理模塊345.2.5 索引庫355.2.6 信息檢索模塊355.3 本章

12、小結(jié)35第6章基于本體的信息檢索實驗系統(tǒng)實現(xiàn)366.1 系統(tǒng)開發(fā)平臺以及工具366.2 Soccer領(lǐng)域本體的構(gòu)建366.3 系統(tǒng)檢索演示396.4 系統(tǒng)檢索評價416.5 本章小結(jié)41總結(jié)與展望42參考文獻44攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文47致謝48IIIContentsContentsAbstract(in chinese)IAbstractIIContents(in chinese)IIIContentsVChapter 1 Introduction11.1 The background and the meaning of studying the paper11.2 Domes

13、tic research and Foreign research11.2.1 Domestic research11.2.2 Foreign research21.3 The main research work and content of the paper31.3.1 The main research work of the paper31.3.2 The structure of the paper3Chapter 2 The theory and technology of ontology42.1 The concept of ontology42.2 The classifi

14、cation of ontology52.3 The modeling primitives of ontology62.4 Representation languages of ontology72.5 Development tools of ontology72.6 Summary9Chapter 3 An overview of Information Retrieval103.1 The meaning of information retrieval103.2 The models of information retrieval113.2.1 Boolean Model113.

15、2.2 Vector Space Model113.2.3 Probabilistic Model123.3 The methods of information retrieval123.3.1 Data retrieval123.3.2 Text retrieval123.3.3 Knowledge retrieval123.4 Retrieval evaluation133.5 Application of ontology in Information Retrieval143.6 Summary15Chapter 4 Construction of domain ontology16

16、4.1 Problems of constructing domain ontology164.2 Principles of constructing domain ontology164.3 Exsiting methods of constructing domain ontology184.4 The method of constructing domain ontology in paper224.5 Summary26Chapter 5 Resraech of Ontology-based Information Retrieval System Model265.1 Ontol

17、ogy-based Information Retrieval System Model265.2 Modules of System Model285.2.1 Ontology library 285.2.2 Query processing module285.2.3 User profile module305.2.4 Information pre-processing module345.2.5 Indexing library355.2.6 Information retrieva module355.3Summary35Chapter 6 Achieve of Ontology-

18、based Information Retrieval System366.1 Development platform and tools 366.2 Construction of Soccer domain ontology366.3 Retrieval demo396.4 Retrieval System Evaluation416.5 Summary41Conclusion and Outlook42References44Publication47Thanks48- 43 -第1章緒論第1章緒論1.1 論文研究的背景及意義隨著時代的進步和科技的發(fā)展，Internet獲得快速的發(fā)

19、展，滲入到我們?nèi)粘Ｉ畹姆椒矫婷妗＞W(wǎng)絡(luò)上信息資源已是海量,并以指數(shù)級數(shù)的速度增長，Internet真正地將我們帶入了信息時代。面對龐大的信息資源，我們感覺無從下手，因此，要想在短時間內(nèi)迅速找到自己需要的信息資料變得越來越困難。如何快速、準確地從龐大的信息“海洋”中尋找到符合用戶需要的信息資料已經(jīng)成為困擾網(wǎng)絡(luò)用戶的主要難題之一。目前，大多數(shù)用戶一般都是通過Google, Yahoo, baidu等已經(jīng)提供的信息檢索服務(wù)來從網(wǎng)絡(luò)上獲取信息資料。然而現(xiàn)有的信息檢索服務(wù)存在一定的局限性，這主要有以下幾個方面：(1) 過度追求查全率，查準率明顯降低。大多數(shù)檢索系統(tǒng)片面追求查全率，導(dǎo)致檢索出來的信息資料過

20、于龐大，查準率明顯降低，用戶根本沒有耐心、沒有興趣處理檢索到的所有信息資料。(2) 沒有考慮用戶的差異。大多數(shù)的信息檢索系統(tǒng)采用關(guān)鍵詞輸入方式進行檢索，對于任何用戶，只要輸入的關(guān)鍵詞相同，返回的檢索結(jié)果都是千篇一律，完全相同的，沒有考慮用戶的差異，然而在現(xiàn)實中，不同用戶由于知識背景不同、興趣愛好不同,需求的信息也不同，他們訪問的往往都只是Web上某一個特定的資源子集，是關(guān)于某一特定領(lǐng)域的。為了解決不同用戶的不同信息需求的問題，提高信息檢索的查準率，本文針對現(xiàn)有信息檢索模型存在的問題，考慮用戶在興趣方面的差異，將本體技術(shù)應(yīng)用于信息檢索，建立了一種基于本體的Web信息檢索系統(tǒng)模型。在本文給出的信息

21、檢索系統(tǒng)模型中，增加了一個基于本體的用戶興趣模塊用于存儲和處理用戶的興趣信息，在信息檢索過程中，依據(jù)用戶興趣模塊中提供的用戶興趣信息，有針對性地向不同類型的用戶推薦盡可能符合其意圖的信息資源。這樣，信息檢索系統(tǒng)就可以很好的解決了不同用戶的不同信息需求的問題，很好地提高了信息檢索的查準率。1.2 國內(nèi)外研究現(xiàn)狀目前，基于本體的信息檢索系統(tǒng)正在逐漸成為國內(nèi)外當(dāng)前研究的熱點之一。本體(Ontology)1作為一種能在語義層次上、知識層次上描述事物的一種工具，已經(jīng)被廣泛應(yīng)用于語義web、知識工程、信息處理、自然語言理解等領(lǐng)域之中。本體在計算機以及相關(guān)領(lǐng)域應(yīng)用，特別是信息檢索中的應(yīng)用，已經(jīng)在國內(nèi)外引起了

22、廣泛的關(guān)注，成為普遍關(guān)注的一個研究熱點，。1.2.1 國外基于本體信息檢索的研究現(xiàn)狀在國外，有關(guān)基于本體的信息檢索方面的研究開始比較早，成就也比較顯著，已經(jīng)出現(xiàn)了不少著名的項目，主要有Ontobroker、SKC、(Onto)Agent、和OntoSeek等。(1) Ontobroker2 是德國卡爾斯魯厄大學(xué)的應(yīng)用信息學(xué)與形式描述方法學(xué)院(AIFB)的一個研究課題，主要作用于互聯(lián)網(wǎng)上的網(wǎng)頁信息資源，目標(biāo)是為用戶提供所需要的網(wǎng)頁信息，提供了信息檢索等服務(wù)，可以用來處理HTML、XML和RDF格式的信息資源，充分利用本體的推理機制以及描述能力。(2) SKC3是一個尚未完成的一個課題，它建立了一

23、個基于本體的代數(shù)系統(tǒng)，通過這個代數(shù)系統(tǒng)來協(xié)調(diào)本體之間的互操作，進而實現(xiàn)了異構(gòu)系統(tǒng)之間的互操作。(3) (Onto)Agent4 主要是通過參照本體，為用戶提供所需要的本體。它的參照本體是以Internet上已經(jīng)存在的本體為對象建立起來的，并且保留了原有本體的元數(shù)據(jù)。 (4) OntoSeek5選用SENSUS來匹配用戶查詢信息和信息資料，主要用在黃頁和產(chǎn)品目錄的檢索。該系統(tǒng)的本體是在保留SENSUS本體作為框架的基礎(chǔ)上，并且用Wordnet中的主題詞和詞匯來填充這一框架。1.2.2 國內(nèi)基于本體信息檢索的研究現(xiàn)狀在國內(nèi)，雖然有關(guān)人士在基于本體的檢索系統(tǒng)方面進行了大量、細致的研究，但是，這些研究

24、無論在理論、實證，還是在實現(xiàn)和應(yīng)用等方面都遠遠落后于國外的研究。國內(nèi)的研究主要有：(1) 基于本體論和多主體的信息檢索服務(wù)器。它是中科院計算所智能信息處理開放研究實驗室的一個研究成果，是一種基于本體的多主體的信息檢索服務(wù)器。但是這項研究沒有使用形式化的本體語言，并且沒有實現(xiàn)本體在推理方面的優(yōu)勢。(2) 本體論與信息檢索6 是廖明宏在2000年發(fā)表的一篇有關(guān)基于本體的智能檢索的理論研究的論文。在這篇論文中，作者對本體做了形式化描述，進而提出了基于本體的信息檢索方法。 (3) 基于檢索相關(guān)性轉(zhuǎn)移的本體論檢索系統(tǒng)7 是韓毅在2003年發(fā)表的一篇有關(guān)基于檢索相關(guān)性轉(zhuǎn)移的本體論檢索研究的論文。在這篇論文

25、中，作者將本體技術(shù)應(yīng)用于情報檢索，建立了基于本體的情報檢索系統(tǒng)。1.3 本文的主要研究工作和內(nèi)容安排1.3.1 本文的主要研究工作本篇論文的主要研究內(nèi)容：對大量文獻進行分析、歸納和總結(jié)，為了解決不同用戶的不同信息需求的問題，本文針對現(xiàn)有信息檢索模型存在的問題，考慮用戶在興趣方面的差異，將本體技術(shù)應(yīng)用到信息檢索中的，建立了基于本體的信息檢索的框架結(jié)構(gòu)，詳細分析了各個模塊的流程，給出了相關(guān)解決辦法和策略，最后通過一個檢索實驗系統(tǒng)來驗證了這種檢索模型的可行性，在一定程度上實現(xiàn)了根據(jù)不同用戶的不同信息需求向用戶推薦符合用戶意圖的信息。本文的創(chuàng)新點：本文在進行系統(tǒng)模型設(shè)計時充分考慮了用戶在興趣方面的差異

26、，在基于本體的Web信息檢索系統(tǒng)中，增加了一個基于本體的用戶興趣模塊。在信息檢索過程中，依據(jù)用戶興趣模塊中提供的用戶興趣信息，有針對性地向不同類型的用戶推薦盡可能符合其意圖的信息資源，從而有效地提高信息檢索的查全率和查準率。1.3.2 本文的結(jié)構(gòu)論文各章節(jié)的組織安排如下：第一章為緒論。第二章詳細介紹了本體的基本概念和理論。分別介紹了本體的概念，本體的分類，本體的建模元語，以及本體表示語言和開發(fā)工具。第三章詳是信息檢索技術(shù)綜述，闡述了信息檢索的概念，介紹了信息檢索的模型、信息檢索的方法以及評價指標(biāo)，最后分析了本體在信息檢索中的應(yīng)用。第四章研究了領(lǐng)域本體的構(gòu)建。首先介紹現(xiàn)有領(lǐng)域本體構(gòu)建存在

27、的問題，本體構(gòu)建的原則，然后列出了現(xiàn)有本體的構(gòu)建方法，最后介紹了本文的本體構(gòu)建方法。第五章主要給出了一個基于本體的信息檢索系統(tǒng)模型。首先詳細介紹信息檢索框架設(shè)計思想，然后給出了基于本體的信息檢索系統(tǒng)模型，最后詳細闡述了系統(tǒng)的各個模塊。第六章實現(xiàn)了基于本體的信息檢索實驗系統(tǒng)。介紹了實驗系統(tǒng)的開發(fā)平臺以及工具，并且構(gòu)建了一個小型的足球領(lǐng)域本體，最后演示了實驗系統(tǒng)的檢索過程?？偨Y(jié)與展望?？偨Y(jié)了全文，說明了下一步的研究方向。第2章本體理論及其技術(shù)第2章本體理論及其技術(shù)2.1 本體的概念本體8的概念最早是用于哲學(xué)領(lǐng)域的。在哲學(xué)界，本體是客觀存在的一個系統(tǒng)的解釋或者說明，是物質(zhì)存在的一個系統(tǒng)解釋，

28、這個解釋不依賴于任何特定的語言，關(guān)心的是客觀現(xiàn)實的抽象本質(zhì)。在計算機界，本體的定義的形成是一個逐步完善的過程：Neches等人給出了本體的最早定義，他們認為本體應(yīng)該是“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系，以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”9 。即本體不但包括一個領(lǐng)域中的基本術(shù)語和關(guān)系，還包括結(jié)合這些基本術(shù)語和關(guān)系的外延規(guī)則。1993年，Gruber給出了引用比較廣泛的本體定義，即“本體是概念模型的明確的規(guī)范說明”10 。此后，Borst對Gruber的定義稍做修改，提出：“本體是共享概念模型的形式化規(guī)范說明”11 。以后，又有許多學(xué)者給出了各自不同版本的定義。Stud

29、er等人在前人的基礎(chǔ)上，給出了目前為止最完善的定義：共享概念模型的明確的形式化規(guī)范說明12。Fensel對Studer的定義進行深入分析，總結(jié)出本體概念的四個主要方面13：(1) 概念化。即概念系統(tǒng)的語義結(jié)構(gòu)，是對事實結(jié)構(gòu)的一組非正式的約束規(guī)則，可以描述成一組概念（如實體、屬性、過程）、定義和關(guān)系；(2) 明確。即概念以及這些概念的約束都有非常明確的定義；(3) 形式化。即本體可以被計算機所識別；(4) 共享。即是說本體是反映一個領(lǐng)域中人們都認可的知識和概念集，也就是說本體是對應(yīng)于社會范疇而不是個體之間的共識。形式地說，一個本體可以由概念、關(guān)系、函數(shù)、公理和實例等5種素組成14：(1) 概念。

30、概念是對現(xiàn)實世界中事務(wù)的抽象描述，含義很廣泛，如工作描述、功能、行為、策略和推理過程等。(2) 關(guān)系。關(guān)系描述n個概念對象之間的聯(lián)系，形式上定義為n維的笛卡兒積的子集。實踐中，本體中的關(guān)系往往可以和性質(zhì)、屬性、角色等通用。(3) 函數(shù)。函數(shù)是一組特殊的關(guān)系，其前n-1個元素可以唯一確定第n個元素。形式化的定義為。如函數(shù)“正方形的面積”定義正方形的面積是由邊長唯一確定的。(4) 公理。公理用于表示一些永真斷言，如地球?qū)儆谔栂怠?5) 實例。一個實例是現(xiàn)實世界中具體的和唯一的個體，它對應(yīng)著本體中的一個或多個概念。從以上不同研究者的定義，可以看出本體涉及到的概念為：術(shù)語(詞匯)、術(shù)語關(guān)系、規(guī)則、

31、概念化、形式化的規(guī)格說明、領(lǐng)域知識、表達和共享。其實，本體就是通過對于概念、術(shù)語及其相互關(guān)系的規(guī)范化描述，勾畫出某一領(lǐng)域的基本知識體系和描述語言。雖然不同研究者對本體定義不同，但是他們對本體的本質(zhì)理解都是相同的，即本體是用于某個領(lǐng)域內(nèi)進行交流的一種語義基礎(chǔ)。2.2 本體的分類根據(jù)分類標(biāo)準的不同，本體可以有很多種分類的方法。目前，大家所熟知的本體分類有以下幾種：(1) 根據(jù)描述對象的不同，Uschold15把本體分為四種，即特殊領(lǐng)域本體、一般世界知識本體、問題求解本體和知識表示語言本體。(2) 根據(jù)領(lǐng)域依賴程度的不同16，本體可以分為頂層本體、領(lǐng)域本體、任務(wù)本體以及應(yīng)用本體等四類。這四類本體可以

32、反映一定的層次關(guān)系。如圖2.1所示：圖2.1 本體的層次關(guān)系Fig 2.1 Ontological hierarchy頂層本體主要用于描述最通用的概念以及他們之間的關(guān)系，如空間、時間、事件、行為等，由于此類本體的通用性，頂層本體的共享范圍很廣。領(lǐng)域本體主要用于描述特定領(lǐng)域中的概念以及他們之間的關(guān)系。任務(wù)本體主要用于描述特定任務(wù)中的概念及以及他們之間的關(guān)系。應(yīng)用本體主要是描述特定的應(yīng)用。(3) Perez和Benjamins分析了前人的本體分類方法，總結(jié)出十種類型17：知識表示本體、通用本體、頂級本體、元(或核心)本體、領(lǐng)域本體、語言本體、任務(wù)本體、領(lǐng)域任務(wù)本體、方法本體和應(yīng)用本體。(4) 根據(jù)

33、本體推理功能的不同，中科院的李景博士將本體分為三種19：1)輕量級本體(Lightweight ontolgoy)，沒有邏輯推理功能的本體，例如敘詞表和WordNet；2)中級本體(Middle ontology)，有簡單的邏輯推理功能的本體，即本體可以識別一階謂詞邏輯的表達式；3)重量級本體(Heavyweight ontology)，有復(fù)雜的邏輯推理功能的本體，即本體可以識別二階謂詞邏輯的表達式，并且可以添加更加復(fù)雜的邏輯推理功能，如Cyc本體系統(tǒng)就是重量級本體。2.3 本體的建模元語傳統(tǒng)知識庫系統(tǒng)的開發(fā)采用的是概念化建模方法，但這種普通開發(fā)KBS的建模方法不能完全適用于本體建模。因為開發(fā)

34、知識本體的目的是用于人類、計算機對知識的共享和重用，它是相對穩(wěn)定的，獨立于具體應(yīng)用。因此在這種情況下，Perez等研究學(xué)者歸納出了5種最基本的建模元語20：(1) 概念。概念是對現(xiàn)實世界中事務(wù)的抽象描述，含義很廣泛，如工作描述、功能、行為、策略和推理過程等。(2) 關(guān)系。關(guān)系描述n個概念對象之間的聯(lián)系，形式上定義為n維的笛卡兒積的子集。實踐中，本體中的關(guān)系往往可以和性質(zhì)、屬性、角色等通用。(3) 函數(shù)。函數(shù)是一組特殊的關(guān)系，其前n-1個元素可以唯一確定第n個元素。形式化的定義為。如函數(shù)“正方形的面積”定義正方形的面積是由邊長唯一確定的。(4) 公理。公理用于表示一些永真斷言，如地球?qū)儆谔栂?/p>

35、。(5) 實例。一個實例是現(xiàn)實世界中具體的和唯一的個體，它對應(yīng)著本體中的一個或多個概念。概念的基本的關(guān)系主要有以下四種：(1) Part-of表示的是概念之間整體與部分的關(guān)系。(2) Kind-of表示的是概念之間的繼承關(guān)系，與面向?qū)ο笾懈割惻c子類之間的繼承關(guān)系相類似。(3) Instance-of表示的事概念特例與概念之間的關(guān)系，與面向?qū)ο笾袑ο笈c類之間的關(guān)系相類似。(4) Attribute-of:表示的是某個概念是另一個概念的屬性之一。例如：對一個人來說，“身高”是他的一個屬性。在構(gòu)造本體的過程中，沒必要嚴格遵循Perez等人提出的5個基本元素來構(gòu)造本體，同時概念之間的關(guān)系也不是僅僅只有

36、part-of、kind-of、instance-of和Attribute-of等這四種基本關(guān)系，為了應(yīng)用的需要，我們在特定情況下可以自己定義特定的關(guān)系來滿足需要。2.4 本體的表示語言由于歷代研究者的努力，現(xiàn)在出現(xiàn)了很多種本體表示語言，大約有28種之多。雖然本體表示語言很多，但目前使用最普遍的是Ontolingua、Cycl、Loom和OWL等。本文所使用的本體描述語言是OWL，下面簡要對其作一分析：OWL21 即Web本體語言，它的開發(fā)開始于2001年，是目前W3C的本體表示語言，兼容了原有DAML-ONT/OIL/RDFS，語義表達能力進一步強大，并且推理能力進一步大大提高。OWL提供了

37、三種不同的子語言，其表達能力由弱到強依次為：OWL-Lite、OWL-DL和OWL-FULL22。(1) OWL-Lite適用于只需要分類層次和簡單的屬性約束的使用者。例如它支持基數(shù)，不過只規(guī)定基數(shù)值是0或者1。(2) OWL-DL適用于需要在推理系統(tǒng)上進行最大程度表達的使用者，它包括了OWL語言的所有約束，具有最大的表現(xiàn)能力，計算能力(所有的推論都是可以計算)和確定性。比如當(dāng)一個類繼承與多個類，那么它就已經(jīng)被規(guī)定不能是別的類的實例。(3) OWL-FULL適用于想在計算保證低，沒有語法自由的RDF上進行表達的使用者。它規(guī)定本體可以在詞匯表上增加新的詞匯，這樣任何一種推理系統(tǒng)都不能兼容OWL-

38、FULL的所有屬性特征。例如OWL-FULL規(guī)定，一個類可以同時作為許多個體的一個集合，也可以作為這個集合中的某一個個體。開發(fā)者開發(fā)時應(yīng)該具體情況具體分析，選擇最適合于自己的子語言：(1)開發(fā)者要根據(jù)用戶要求表達能力、約束能力的程度來選擇OWL-Lite和OWL-DL。利用OWL-Lite設(shè)計出的推理器計算屬性大大提高，而在有具有確定性的子語言時，利用OWL-DL設(shè)計出的推理器自動按最壞的情況處理，推理器的子語言具有更高的復(fù)雜性。(2) 開發(fā)者要根據(jù)用戶要求建模工具的依賴程度來選擇OWL-DL和OWL-FULL。利用OWL-FULL設(shè)計出的推理器的支持具有不可預(yù)測性O(shè)WL本體的組成與Prot&

39、#233;gé提供的本體相似，基本上只是在對組成部分的稱呼有一些區(qū)別。例如OWL有類(Class)、屬性(Property)和個體(Individual)，而Protégé則分別稱它們?yōu)轭?Class)、槽(Slot)和實例(Instance)。(1) 類(Class)OWL中的類代表一些個體的集合，OWL使用形式化(數(shù)學(xué)的)的方法精確描述出該類中成員必須具有的條件，例如，領(lǐng)域中全部貓的個體都屬于Cat類。類可以通過繼承關(guān)系組成層次結(jié)構(gòu)，子類是父類中的特殊情況，OWL-DL的一個重要特征就是父類和子類之間的(包含)關(guān)系可以被推理機自動計算出來。概念(Concept

40、)這個詞有時被用來代替類，實際上，類是概念的一個具體表現(xiàn)。 (2) 屬性(Property)屬性是個體之間的二元關(guān)系，也就是說，屬性把兩個個體連接在一起。屬性可以有反向?qū)傩?Inverse)，屬性也可以被限制為只能擁有一個值，即所謂的函數(shù)屬性(functional)；屬性還可以是具有傳遞性(transitive)或是對稱性(symmetric)。這里所說的屬性即Protégé中槽(Slot)的概念，在描述邏輯中它們就是角色(Role)，在UML等面向?qū)ο蠓椒ㄖ兴鼈兙褪顷P(guān)系(Relation)。(3) 個體(Individual)個體代表領(lǐng)域中我們實際感興趣的那些對象， OW

41、L不使用唯一命名假設(shè)(Unique Name Assumption，UNA)，也就是說，兩個不同的名稱可以對應(yīng)到同一個個體。在OWL中，你必須明確的表達個體之間是否為相同的，否則它們可能相同也可能不相同。個體(Individual)有時也被稱作實例(Instance)，個體相當(dāng)于類的實例。這里所說的個體對應(yīng)于Protégé中的實例(Instance)。2.5 本體開發(fā)工具構(gòu)建本體首先要選擇構(gòu)建本體的工具，隨著研究者對本體研究的深入，以及本體在各個領(lǐng)域內(nèi)的應(yīng)用，目前已經(jīng)出現(xiàn)了很多種構(gòu)建本體的工具，例如Protégé、WebODE、OntoEdit、OilE

42、d等。本文將采用的本體編輯器是Protégé3.3.1，簡要對其分析如下：Protégé23是在Java環(huán)境下開發(fā)的，一種源代碼開放的本體編輯工具。Protégé具有大家所熟識的Windows界面風(fēng)格，它是具有樹形的結(jié)構(gòu)，使用者通過點擊就可以完成具體的操作，并且可以在概念層次上設(shè)計本體，所以使用者不需要具體學(xué)習(xí)本體的表示語言。Protégé構(gòu)建本體的步驟：(1) 通過各個途徑收集、整理領(lǐng)域中的術(shù)語和概念，并且確定概念之間的關(guān)系；(2) 打開Protégé3.3.1本體編輯器；(3) 選擇工程類型

43、(Project Type)。主要有Protégé File、Protégé Database、Experimental XML File、OWL/RDF Database、OWL/RDF Files、RDF Files。這里選擇OWL/RDF Files；(4) 選中OWLClasses，添加概念；(5) 選中Properties，添加屬性；(6) 選中Individuals，添加個體；(7) 反復(fù)重復(fù)(4) (6)，編輯完成本體，生產(chǎn)OWL本體文件；(8)退出Protégé3.3.1本體編輯器。本體編輯器Protég&#

44、233;3.3.1的操作界面如圖2.2所示：圖2.2 Protégé3.3.1操作界面Fig 2.2 Protégé3.3.1 Interface2.6 本章小結(jié)本章介紹了本體的基本概念和理論。分別介紹了本體的概念，本體的分類，本體的建模元語，以及本體表示語言和開發(fā)工具。第3章信息檢索概述第3章信息檢索概述人們主要通常從時間性通訊、信息處理和文獻查找等三種方面來認識信息檢索。時間性通訊的角度，把信息檢索看作是時間性的通訊一文中首次使用了信息檢索這一詞匯，并且提出信息檢索可以被認為是時間性的通訊形式。作者認為信息檢索主要在于把存儲的信息提供給用戶。這種

45、觀點強調(diào)了用戶需求的重要性，對于信息檢索的發(fā)展具有很強的理論和指導(dǎo)意義。信息處理的角度，認為信息檢索主要是信息的組織和存儲的。這種觀點強調(diào)了信息的管理，并且認為信息不僅包括文字的范圍，還包括圖像、聲音、數(shù)據(jù)等表達的信息。從信息處理的角度來認識信息檢索，強調(diào)了用什么形式來組織、存儲信息的問題。在Internet的廣泛應(yīng)用的今天，面對浩如煙海的信息資源，這種觀點隊友信息檢索系統(tǒng)的設(shè)計具有很強的指導(dǎo)意義。文獻查找的角度，這種認識強調(diào)了查找用戶所需信息的過程。在信息檢索領(lǐng)域種，支持這種認識的人數(shù)眾多，也是大家現(xiàn)在的公認的觀點。例如，英國著名學(xué)者維克利（BCVickery）提出信息檢索就是從查找出用戶在

46、特定情況、特定時間下所需要的信息資料的操作過程。美國著名情報學(xué)家蘭卡斯特（FWLancaster）提出信息檢索就是從某一個文獻庫找出有關(guān)某一各主題文獻的過程。，蘭卡斯特提出了最經(jīng)典的表述即信息檢索并不是檢索信息，因為信息存在于文獻這一介質(zhì)中，是無形的、看不見的。信息檢索的目的是滿足不同用戶的不同信息需要，信息檢索是檢索文獻，只有用戶閱讀了文獻，用戶的信息需要才得以滿足。3.1 信息檢索的含義從廣義上來說，信息檢索就是信息的存儲和檢索。從狹義上來說，信息檢索則是從信息資料中檢索出用戶所需要的信息的過程，也就是人們通常說的信息的搜索。信息檢索24就是把信息資料按照一定的組織結(jié)構(gòu)存儲起來，當(dāng)用戶需

47、要的時候，在從這些存儲起來的有組織、有結(jié)構(gòu)的信息資料中檢索出用戶所需要的特定的信息資料的過程。從以上的定義中，我們可以知道，信息檢索主要包括信息的存儲和信息的搜索兩個階段。信息的存儲就是把我們收集到得信息資料經(jīng)過特征分析后，按照一定組織、一定結(jié)構(gòu)存儲起來的過程；信息的搜索就是從信息存儲時存儲起來的資料中找到用戶需要的資料并且提供給用戶，它是信息存儲的逆過程。3.2 信息檢索模型信息檢索模型(Information Retrieval Model)是從數(shù)學(xué)模型的角度來區(qū)別信息檢索的，主要考慮的是數(shù)學(xué)模型。根據(jù)信息檢索采用的數(shù)學(xué)模型的不同，信息檢索的模型主要分為布爾信息檢索模型、向量空間信息檢索模

48、型以及概論信息檢索模型等三種信息檢索模型25,26。3.2.1 布爾模型在信息檢索模型中，最典型的就是布爾模型（Boolean Model），布爾信息檢索模型是在傳統(tǒng)的信息檢索過程中應(yīng)用十分廣泛。在布爾信息檢索模型中，首先從文獻中提取出索引的一系列關(guān)鍵詞，把這些關(guān)鍵詞組織成一系列的特征變量。然后用這些特征變量來表示文獻。Fi=( Fi1, Fi2, Fin)。其中，F(xiàn)i 表示文獻，n是特征變量的個數(shù)，F(xiàn)ik可以是0或者1，如果特征變量Fik在文獻Fi 中出現(xiàn)了，那么特征變量Fik的值為1，否則Fik就被置為0。在布爾信息模型中，檢索者可以根據(jù)關(guān)鍵次的邏輯關(guān)系使用與“”、或“”、非“”等邏輯運算

49、符在文獻中將眾多的關(guān)鍵詞組織成表達式，然后提交給查詢系統(tǒng)。3.2.2 向量空間模型向量空間檢索模型采用多元的權(quán)值來表示特征變量，避免了布爾信息檢索模型中權(quán)值的局限性。在向量空間檢索模型中，文獻和查詢詞采用空間向量的組織方式來表示。因此可以向量之間的距離來計算文獻和查詢詞的相似度，我們通常用向量的內(nèi)積來進行計算。相似度越大，就越能表示文獻和查詢詞的相關(guān)度也就越大。3.2.3 概率模型概率信息檢索模型是一種采用數(shù)學(xué)中的概率論作為數(shù)學(xué)模型的一種信息檢索模型，是隨著信息檢索中存在的不確定性而應(yīng)運而生的。在概率信息檢索模型中文獻和查詢詞的表示和布爾信息檢索模型類似，用查詢詞的特征變量在文獻中的分布概率來

50、計算查詢詞和文獻的概率值，然后，按照這些概率值將文獻排序輸出。概率信息檢索模型的好處在于形式的多樣性，能夠找到概率公式計算相關(guān)度。因此概率信息檢索模型的檢索效率明顯高于布爾信息檢索模型的檢索效率。3.3 信息檢索方法在信息檢索中，David Lewis和Karen Sparck Jones把信息檢索的方法分為數(shù)據(jù)信息檢索、全文信息檢索、以及知識信息檢索等三種信息檢索方法。3.3.1 數(shù)據(jù)檢索數(shù)據(jù)信息檢索(Data Information Retrieval)要求查詢詞和文獻都遵循某一種格式，主要對應(yīng)于具有結(jié)構(gòu)化的信息系統(tǒng)。數(shù)據(jù)信息檢索允許通過字段進行檢索，比如：作者姓名=“張三”。有代表性的數(shù)

51、據(jù)信息檢索一般都是商業(yè)中的數(shù)據(jù)庫28。數(shù)據(jù)信息檢索主要取決于編碼質(zhì)量的高低，因此檢索的帶價很大，檢索出的信息準確度高，并且很容易就漏掉相關(guān)的數(shù)據(jù)。數(shù)據(jù)信息檢索的性能的高低主要在于所采用的字段識別的方法，數(shù)據(jù)信息檢索的語義查找的能力也不高29。數(shù)據(jù)信息檢索中的數(shù)據(jù)包括文獻信息、數(shù)據(jù)信息，而且還包括事實檢索的對象30。3.3.2 全文檢索全文信息檢索(Text Information Retrieval)將查詢者的查詢詞和整篇文獻中的全部詞匯進行比較，這種檢索方式?jīng)]有考慮查詢詞和文獻之間語義上的匹配。全文信息檢索的性能主要取決于分詞技術(shù)的高低。采用全文信息檢索的信息檢索系統(tǒng)重要有Google和百度

52、等。這種檢索方式的缺點主要是檢索出的信息量過大，而且夾雜著很多無用的信息，增加了用戶從檢索結(jié)果中得到所需要信息的難度，也就是說全文信息檢索片面追求查全率，導(dǎo)致查準率過低。3.3.3 知識檢索知識信息檢索(Knowledge Information Retrieval)采用智能組織的方式，從知識庫中檢索出所需要的信息的過程是，一種智能化的信息檢索方式。知識信息檢索的特征主要有：(1) 具有一種在語義上的智能知識體系。這一體系是知識信息檢索的基礎(chǔ)，知識信息檢索性能也取決于這一職能知識體系。(2) 采用了基于元數(shù)據(jù)的方式，對信息資料進行了語義層次的標(biāo)注。元數(shù)據(jù)是智能知識體系的元素。信息資料只有經(jīng)過元

53、數(shù)據(jù)的語義標(biāo)注，才能被知識信息檢索所檢索。知識信息檢索主要是在知識上、語義上的檢索，因而檢索的查全率和查準率都明顯高于其他的檢索方法。目前，知識信息檢索是當(dāng)前信息檢索研究的重點，而基于本體的Web信息檢索更是信息檢索中的重中之重。3.4 檢索的評價指標(biāo)在信息檢索中，信息檢索系統(tǒng)返回的結(jié)果是否滿足用戶的需求，滿足的程度如何是評價信息檢索系統(tǒng)性能的主要評價依據(jù)。由于信息檢索的查詢具有模糊性，檢索結(jié)果是否準確只能用相關(guān)性來評價，因此信息檢索系統(tǒng)的評價是建立在檢索結(jié)果文檔集與相關(guān)文檔集比較的基礎(chǔ)之上的。下面介紹常用的性能評價指標(biāo)32。一般情況下，“查全”和“查準”是我們用來判定檢索性能的兩個常用標(biāo)準。

54、假設(shè)a為檢出有關(guān)信息數(shù)；b為檢出的無關(guān)信息數(shù)；c為沒有檢出的有關(guān)信息數(shù)，即遺漏的信息數(shù)：d為沒有檢出的無關(guān)信息數(shù)，即系統(tǒng)根據(jù)查詢條件而忽略的信息數(shù)。則有：(l) 查全率(Recall Ratio)定義為：檢出有關(guān)信息數(shù)/信息中相關(guān)信息總數(shù)，也可以表示為。(2) 查準率(Precision Ratio)定義為：檢出有關(guān)信息數(shù)/檢出的信息總數(shù)，也可以表示為。從上邊的定義中，我們知道查全率考察的是系統(tǒng)查找全部信息的能力，而查準率考察系統(tǒng)找到所需要的信息的能力，兩者相互影響，從兩個不同角度反映了系統(tǒng)性能的好壞。而且查全率和查準率是兩個相互矛盾的指標(biāo)，我們畫出recall-recision圖，就可以看到

55、隨著查全率的提高，查準率是不斷下降的。因此，在信息檢索時需要同時考慮查全率和查準率這兩個指標(biāo)，采用不同的檢索策略，以得到合乎我們需要的性能指標(biāo)。(3) F1測度，定義為：2查全率查準率/(查全率+查準率)。是一個把查準率和查全率結(jié)合起來的指標(biāo)。由Fl值的計算公式可知：當(dāng)結(jié)果文檔集合中不包含任何相關(guān)文檔時，F(xiàn)l值為0；當(dāng)所有結(jié)果集合中的文檔都是相關(guān)文檔時，F(xiàn)l值為1。只有當(dāng)查全率和查準率都較高時，F(xiàn)l值才能取得較大的值，因此，確定Fl值最大值的過程可以認為是在查全率與查準率間確定最佳折中方案的過程。(4) R-Precision：檢索返回的結(jié)果中排名前R的文檔的準確率。如果前十篇返回結(jié)果中有2篇

56、相關(guān)文檔，那么在R=10時R-Recision就是0.2。R-Preeision希望排名靠前的檢索結(jié)果中有更多的相關(guān)文檔，這也與用戶希望在檢索結(jié)果的第一頁中包含更多的相關(guān)文檔的主觀愿望一致。(5) P10：系統(tǒng)對于某查詢返回的前10個結(jié)果中相關(guān)結(jié)果所占的比率。(6) 用戶滿意度：對于查詢得到的網(wǎng)頁，如果是用戶最需要的，則該網(wǎng)頁的滿意度為2；如果是用戶需要的，則該網(wǎng)頁的滿意度為1；如果該網(wǎng)頁的內(nèi)容偏離了查詢，則該網(wǎng)頁的滿意度為0。3.5 本體在信息檢索中的應(yīng)用傳統(tǒng)意義上的信息檢索系統(tǒng)，采用關(guān)鍵詞作為信息檢索系統(tǒng)的檢索詞，也就是說把用戶輸入的關(guān)鍵詞經(jīng)過邏輯運算中與“”、或“”、非“”等邏輯運算組合

57、成的新關(guān)鍵詞作為檢索系統(tǒng)的檢索依據(jù)，通過檢索詞在一片文獻中的出現(xiàn)與否來判斷這篇文獻是不是用戶所需要的信息資料。這種傳統(tǒng)意義上的信息檢索系統(tǒng)忽略了關(guān)鍵詞內(nèi)以及關(guān)鍵詞與關(guān)鍵詞之間的語義上的信息，僅僅把關(guān)鍵詞作為信息檢索的一個入口，這樣，信息檢索系統(tǒng)帶來造成一系列的問題，例如：返回信息過多、漏檢有用的信息等。因此把信息檢索系統(tǒng)從目前基于關(guān)鍵詞層次提高到基于本體的語義層次，使檢索從原來的關(guān)鍵詞匹配提高到語義的匹配，從而克服關(guān)鍵詞形式上的匹配帶來的種種缺陷，加強人與計算機之間的交流能力。另外，在現(xiàn)實中，不同用戶由于知識背景不同、興趣愛好不同,需求的信息也不同，他們訪問的往往都只是Web上某一個特定的資源子集，是關(guān)于某一特定領(lǐng)域的。但是，大多數(shù)的信息檢索系統(tǒng)采用關(guān)鍵詞輸入方式進行檢索，對于任何用戶，只要輸入的關(guān)鍵詞相同，返回的檢索結(jié)果都是千篇一律，完全相同的，沒有考慮用戶的差異。為了解決不同用戶的不同信息需求的問題，考慮到用戶在興趣方面的差異，將本體技術(shù)應(yīng)用于信息檢索，增加一個基于本體的用戶興趣模塊用于存儲和處理用戶的興趣信息，在信息檢索過程中，依據(jù)用戶興趣模塊中提供的用戶興趣信息，就能有針對性地向不同類型的用戶推薦盡可能符

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于本體的Web信息檢索系統(tǒng)研究

文檔簡介

溫馨提示

最新文檔

評論