《信息存儲與檢索》課件(共九章)-上_第1頁
《信息存儲與檢索》課件(共九章)-上_第2頁
《信息存儲與檢索》課件(共九章)-上_第3頁
《信息存儲與檢索》課件(共九章)-上_第4頁
《信息存儲與檢索》課件(共九章)-上_第5頁
已閱讀5頁,還剩319頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第一章緒論《信息存儲與檢索》本章目錄第一節(jié)信息檢索基本理論第二節(jié)信息檢索系統(tǒng)第三節(jié)信息檢索研究《信息存儲與檢索》第一節(jié)信息檢索基本理論1.1.1信息檢索的概念11.1.2信息檢索的原理21.1.3信息檢索的類型3《信息存儲與檢索》1.1.1信息檢索的概念“信息檢索”(InformationRetrieval,IR,我國早期譯為“情報檢索”)一詞最早出現(xiàn)于1952年,由美國學者穆爾斯(C.W.Mooers)提出,從1961年開始在學術界和實踐領域中得到廣泛的應用[1]。信息檢索這一概念首先假設包含相關信息的文獻或記錄已經(jīng)按照某種有助于檢索的順序組織起來。信息檢索就是對信息項進行表示、存儲、組織和存取的全過程。對信息項的表示和組織應該能夠為用戶提供其感興趣信息的方便存取。遺憾的是,對用戶信息需求進行全面而準確的描述不是一件輕而易舉的事情。《信息存儲與檢索》1.1.2信息檢索的原理

信息檢索的基本原理可以用下圖表示信息資源信息搜集需求分析信息需求信息用戶信息分析信息表達詞語轉(zhuǎn)換需求表達詞語轉(zhuǎn)換數(shù)據(jù)庫檢索結果檢索語言信息存儲過程信息檢索過程圖1-1廣義信息檢索的基本原理《信息存儲與檢索》1.1.2信息檢索的原理

從上圖可以看出,信息存儲和信息檢索有兩個交匯處:一個是直接的,即表達信息主題內(nèi)容的詞語與表達需求主題內(nèi)容的詞語之間進行對比的交匯;另一個是間接的,即通過檢索語言進行溝通,確保把存儲用詞和檢索用詞都統(tǒng)一到同一個檢索語言體系中(對于自然語言檢索系統(tǒng)來說,不存在存儲與檢索的間接交匯處)?!缎畔⒋鎯εc檢索》從由此可見,信息存儲和信息檢索的直接交匯處是至關重要的,由此形成了信息檢索的一致性匹配作用機理,如圖1-2所示。1.1.2信息檢索的原理

比較判斷選擇符號化表示信息特征提取符號化表示需求特征提取現(xiàn)實的信息現(xiàn)實的需求輸出檢索結果圖1-2信息檢索的一致性匹配作用機理信息檢索的一致性匹配作用機理包括5個機理:(1)提取機理(2)表示機理(3)比較機理(4)判斷機理(5)選擇機理《信息存儲與檢索》1.1.3信息檢索的類型(一)按照信息檢索的對象性質(zhì)劃分(1)文獻檢索(2)數(shù)值檢索(3)事實檢索(二)按照計算機檢索技術劃分(1)脫機檢索(Off-lineRetrieval)(2)聯(lián)機檢索(On-lineRetrieval)(3)光盤檢索(CD-ROMRetrieval)(4)網(wǎng)絡檢索(InternetRetrieval)《信息存儲與檢索》第二節(jié)信息檢索系統(tǒng)1.2.1信息檢索系統(tǒng)的概念11.2.2信息檢索系統(tǒng)的類型21.2.3信息檢索系統(tǒng)的物理結構31.2.4信息檢索系統(tǒng)的邏輯結構4《信息存儲與檢索》1.2.1信息檢索系統(tǒng)的概念信息檢索過程的實現(xiàn)要依靠特定的系統(tǒng),這個系統(tǒng)就是信息檢索系統(tǒng)。系統(tǒng)是由兩個或兩個以上既相互區(qū)別又互相影響的各種要素構成的統(tǒng)一整體,信息檢索系統(tǒng)的構成包括六個要素:(1)目標(2)功能(3)資源(4)設備(5)方法(6)人員《信息存儲與檢索》1.2.1信息檢索系統(tǒng)的概念由此可見,信息檢索系統(tǒng)由若干個相互作用的部分構成,各部分的功能互異,設計的目的也各不相同,但它們之間相互聯(lián)系,共同實現(xiàn)系統(tǒng)的目標。狹義地講,這個目標就是檢索信息;廣義地講,則是提升用戶的知識水平。通常認為,信息檢索系統(tǒng)的任務是告知用戶他所需要的信息在哪里。也就是說,信息檢索系統(tǒng)并不告訴用戶他所詢問的主題(即不改變用戶的知識結構),它只是告訴用戶這一主題是否存在于數(shù)據(jù)庫中,相關的文獻都存在哪里?!缎畔⒋鎯εc檢索》1.2.2信息檢索系統(tǒng)的類型

(1)書本式檢索系統(tǒng)。(2)卡片式檢索系統(tǒng)。(3)機械式檢索系統(tǒng)。(4)縮微式檢索系統(tǒng)。(5)計算機檢索系統(tǒng)。(6)網(wǎng)絡檢索系統(tǒng)?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構(1)聯(lián)機檢索系統(tǒng)的物理結構所謂聯(lián)機檢索,是指用戶利用終端設備,通過通信網(wǎng)絡或通信線路與分布在世界各地的檢索系統(tǒng)中心的中央計算機連接,通過人機對話的方式,運用特定的檢索指令和檢索策略,訪問中央數(shù)據(jù)庫,從中檢索出所需信息的過程。聯(lián)機檢索系統(tǒng)也稱國際聯(lián)機檢索系統(tǒng),通常采用相對封閉的客戶機/服務器模式,屬于典型的主從式結構。如圖1-3所示,聯(lián)機檢索系統(tǒng)通常由聯(lián)機檢索中心、通信設施、檢索終端3個主要部分組成?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構資源子網(wǎng)通訊子網(wǎng)通信網(wǎng)絡數(shù)據(jù)庫中央計算機外設聯(lián)機檢索中心通信設備通信設備檢索終端檢索終端檢索終端用戶圖1-3聯(lián)機檢索系統(tǒng)的物理構成《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構聯(lián)機檢索系統(tǒng)的特點是:①檢索范圍廣,數(shù)據(jù)庫數(shù)量多,幾乎涉及到各個學科領域,世界上公開出版發(fā)行文獻的90%都可以通過幾種主要的聯(lián)機檢索系統(tǒng)查到。②檢索內(nèi)容新,數(shù)據(jù)庫更新及時,基本上是同步,能夠檢索到最新信息。③檢索功能強,一個聯(lián)機檢索系統(tǒng)中的所有數(shù)據(jù)庫通常使用統(tǒng)一的檢索命令,檢索途徑多、檢索效率高、檢索質(zhì)量好。《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構④數(shù)據(jù)庫質(zhì)量高,都是經(jīng)過嚴格加工、處理和組織的,通常是各個領域中核心的和權威的數(shù)據(jù)庫。⑤檢索較復雜,專業(yè)性太強,一般用戶不容易掌握檢索指令、規(guī)則和方法,通常依賴于專業(yè)檢索人員。⑥檢索費用高,要求熟練掌握檢索技巧和經(jīng)驗,普通用戶難以承受。⑦人機界面比較單一、呆板?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構目前,隨著光盤檢索和網(wǎng)絡檢索的興起,聯(lián)機檢索系統(tǒng)的最終用戶數(shù)量減少,大部分最終用戶都委托專業(yè)檢索人員進行代理檢索,但這種檢索方式和系統(tǒng)仍然存在,特別是對于科學研究更為重要。比較著名的聯(lián)機檢索系統(tǒng)有Dialog、ORBIT、BRS、ESA-IRS、STN、MEDLINE、DataStar、OCLC等?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構(2)光盤檢索系統(tǒng)的物理結構光盤檢索系統(tǒng)有兩種類型:單機光盤檢索系統(tǒng)和光盤網(wǎng)絡檢索系統(tǒng)。單機光盤檢索系統(tǒng)比較簡單,通常由計算機、光盤驅(qū)動器、光盤數(shù)據(jù)庫等硬件設備組成,自成一體,系統(tǒng)結構簡單,數(shù)據(jù)量少,利用率低,一次只能供一個用戶檢索,通常供單用戶、單機使用?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構光盤網(wǎng)絡檢索系統(tǒng)可以分為面向特定范圍對象的局域網(wǎng)的系統(tǒng)和依托Internet的面向所有用戶開放的系統(tǒng),其實質(zhì)是將光盤資源上網(wǎng),允許局域網(wǎng)、廣域網(wǎng)甚至Internet上的眾多用戶在同一時間、不同地點同時訪問一個或多個光盤數(shù)據(jù)庫。其局域網(wǎng)系統(tǒng)的物理結構如圖1-4所示。光盤塔服務器主域服務器數(shù)據(jù)庫數(shù)據(jù)庫鏡像光盤服務器光盤庫光盤庫PC機PC機館內(nèi)網(wǎng)校園網(wǎng)圖1-4光盤網(wǎng)絡檢索系統(tǒng)的物理結構《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構光盤檢索系統(tǒng)的特點是:①方便快捷,不受通信線路和網(wǎng)絡等因素的影響和限制,可以隨時啟動使用。②檢索費用低,一次購買、多次使用,不涉及遠程通信,分攤成本低,用戶心理上沒有費用的壓力。③操作界面友好,幫助信息、功能鍵、窗口式對話框、鼠標控制等,簡單易學,直接面向最終用戶,不需要對用戶進行專門的培訓?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構④輸出靈活,可以有拷盤、打印、套錄建庫以及網(wǎng)上傳輸?shù)榷喾N輸出形式。⑤融多種媒體為一身,結合激光技術、計算機技術和多媒體技術,將文字、聲音、圖像、視頻等多種媒體信息存儲在一起。⑥數(shù)據(jù)更新慢,周期較長,時效性差。⑦數(shù)據(jù)量有限,受到光盤容量的限制,通常局限于專業(yè)領域,范圍不夠廣泛?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構(3)網(wǎng)絡檢索系統(tǒng)的物理結構Internet路由器交換機服務器客戶機數(shù)據(jù)庫數(shù)據(jù)庫數(shù)據(jù)庫客戶機客戶機數(shù)據(jù)庫數(shù)據(jù)庫客戶機客戶機客戶機交換機路由器服務器圖1-5基于Internet的客戶機/服務器結構(C/S)數(shù)據(jù)庫《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構數(shù)據(jù)庫服務器Web服務器Internet瀏覽器瀏覽器瀏覽器圖1-6基于Internet的瀏覽器/服務器結構(B/S)《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構Web服務器檢索器索引器搜索器索引庫網(wǎng)絡網(wǎng)絡Web站點FTP站點Gopher站點Web站點新聞組站點搜索引擎圖1-7搜索引擎系統(tǒng)結構用戶用戶用戶用戶用戶頁面庫《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構檢索請求與結果檢索代理接口檢索式處理檢索結果處理單搜索引擎單搜索引擎用戶單搜索引擎用戶用戶圖1-8元搜索引擎系統(tǒng)結構《信息存儲與檢索》1.2.3信息檢索系統(tǒng)的物理結構網(wǎng)絡檢索系統(tǒng)的特點是:①檢索空間無限,檢索范圍覆蓋了全球性、開放性Internet所能延伸到的世界各地,用戶不必知道某種資源的具體地址。②檢索內(nèi)容極其豐富,包括網(wǎng)上所有領域、各種類型、各種媒體(文本、圖像、聲音、視頻、動畫等)的信息資源,如Web、FTP、Telnet、Usenet、Gopher等。③超文本瀏覽,檢索結果是完全可以直接閱讀的Web頁面,可以非線性地隨時從一個頁面跳到另一個頁面?!缎畔⒋鎯εc檢索》1.2.3信息檢索系統(tǒng)的物理結構④界面最友好,屏蔽了各個局域網(wǎng)之間的各種物理差異(如硬件系統(tǒng)、軟件平臺、地理位置、存儲方式、通信協(xié)議等),極大地提高了系統(tǒng)的透明度,用戶使用通用的圖形窗口檢索界面,即可訪問和檢索各種異構系統(tǒng)的數(shù)據(jù)庫,在通過Web瀏覽器訪問過程中,無需關心一些技術細節(jié)。⑤操作最簡便,良好的交互式作業(yè)、多種導航和編輯功能、及時獲得在線幫助和指導以及符合大多數(shù)用戶檢索習慣的用戶接口使得檢索簡單易行,不必經(jīng)過太多的培訓即可操作。⑥檢索效率不高,網(wǎng)絡信息缺乏規(guī)范和統(tǒng)一管理,動態(tài)性強,重復率、冗余度高,無用信息較多,查準率差。《信息存儲與檢索》1.2.4信息檢索系統(tǒng)的邏輯結構系統(tǒng)的邏輯結構主要是指該系統(tǒng)所包括的子系統(tǒng)或功能模塊及其相互之間的邏輯關系。不管信息檢索系統(tǒng)的物理結構如何,它們的邏輯結構大體上都是相同或相似的,只有組成部分多與少的區(qū)別。如前所述,信息檢索系統(tǒng)的兩大基本功能是存儲和檢索,這兩大基本功能可以分解為6個子系統(tǒng)或功能模塊,它們共同構成了信息檢索系統(tǒng)邏輯結構。這6個子系統(tǒng)是采選子系統(tǒng)、詞語子系統(tǒng)、標引子系統(tǒng)、查詢子系統(tǒng)、交互子系統(tǒng)和匹配子系統(tǒng)。如圖1-9所示?!缎畔⒋鎯εc檢索》1.2.4信息檢索系統(tǒng)的邏輯結構詞語子系統(tǒng)匹配子系統(tǒng)采選子系統(tǒng)標引子系統(tǒng)交互子系統(tǒng)數(shù)據(jù)庫用戶群信息源查詢子系統(tǒng)圖1-9信息檢索系統(tǒng)邏輯結構《信息存儲與檢索》第三節(jié)信息檢索研究1.3.1信息檢索的研究內(nèi)容11.3.2信息檢索的相關學科21.3.3信息檢索的產(chǎn)生和發(fā)展31.3.4信息檢索的趨勢4《信息存儲與檢索》1.3.1信息檢索的研究內(nèi)容概括起來,信息檢索的研究內(nèi)容包括以下幾個方面:(1)信息檢索理論研究(2)信息檢索方法研究(3)信息檢索技術研究(4)信息檢索語言研究(5)信息檢索系統(tǒng)研究(6)信息檢索服務研究(7)信息檢索評價研究?!缎畔⒋鎯εc檢索》1.3.2信息檢索的相關學科

與信息檢索關系比較密切的相關學科和領域如下:(1)計算機科學與技術。(2)數(shù)學。(3)系統(tǒng)科學。(4)語言學。(5)認知科學?!缎畔⒋鎯εc檢索》1.3.3信息檢索的產(chǎn)生和發(fā)展從信息檢索的發(fā)展歷史來看,可以分為以下幾個時期(1)起步期(20世紀50年代)(2)成長期(20世紀60年代)

(3)發(fā)展期(20世紀70年代)

(4)成熟期(20世紀80年代)

(5)開放期(20世紀90年代以后)《信息存儲與檢索》1.3.4信息檢索的趨勢

概括地講,可以把信息檢索當前正在研究的主要課題和未來發(fā)展趨勢歸納如下:(1)跨語言信息檢索。(2)多媒體信息檢索。(3)信息檢索可視化。(4)信息檢索智能化。(5)信息檢索個性化。(6)信息檢索多樣化。第二章信息檢索模型《信息存儲與檢索》本章目錄第一節(jié)引言第二節(jié)經(jīng)典模型第三節(jié)集合理論模型第四節(jié)代數(shù)模型第五節(jié)結構化模型《信息存儲與檢索》第一節(jié)引言任何檢索策略都包含3個部分:文檔表示、查詢表示和匹配函數(shù)。文檔表示反映文檔在系統(tǒng)中的存儲形式描述,可用一組關鍵詞或標引詞表示;查詢表示反映對用戶信息需求的描述;匹配函數(shù)用于將經(jīng)過處理的文檔表示和查詢表示放入系統(tǒng)中進行匹配,以過濾輸出結果。信息檢索系統(tǒng)的實現(xiàn)首先要對文檔集進行索引和歸檔,以支持信息檢索。檢索式代表用戶的信息需求。檢索系統(tǒng)分析查詢與文檔表示,進行相似性匹配,排序返回查詢結果。因此文檔信息檢索過程實際上涉及文檔集的邏輯表示、用戶查詢表示、相似性匹配及其排序三個重要的處理?!缎畔⒋鎯εc檢索》第一節(jié)引言信息檢索模型主要從兩個方面抽象地研究信息檢索方法:一是確定在檢索模型中如何表示構成檢索系統(tǒng)的兩個要素,即文檔和檢索式;二是確定在模型中如何定義和計算文檔和檢索式之間的關系。檢索模型的重要作用主要體現(xiàn)在以下幾個方面:更精確地描述出文檔與文檔、文檔與查詢間的相關關系,使之能比較和計算;安排更合理、更便于檢索的文檔存儲形式;在此基礎上設計出合理的檢索方式;除信息檢索外,進行一些信息輔助分析工作。傳統(tǒng)的信息檢索模型(又稱經(jīng)典信息檢索模型)包括布爾模型、向量空間模型和概率模型?!缎畔⒋鎯εc檢索》第一節(jié)引言信息檢索模型到底是什么?其描述如下:

信息檢索模型是一個四元組/D,Q,F(xiàn),R(qi,dj)/:(1)D是文檔集中的一組文檔邏輯視圖(表示),稱為文檔的表示;(2)Q是一組用戶信息需求的邏輯視圖(表示),這種視圖(表示)稱之為查詢;(3)F是一種機制,用于構建文檔表示,查詢及它們之間關系的模型;(4)R(qi,dj)是排序函數(shù),該函數(shù)輸出一個與查詢qi∈Q和文檔表示dj∈D有關的實數(shù),這樣就在文檔之間根據(jù)查詢qi定義了一個順序?!缎畔⒋鎯εc檢索》第一節(jié)引言基于經(jīng)典布爾模型的信息檢索模型中,文檔和查詢用標引詞集合來表示,都是建立在集合理論的基礎之上,因此,我們稱該類模型為集合理論模型,包括模糊集合論模型、擴展布爾模型和粗糙集模型等?;诮?jīng)典向量模型的信息檢索模型中,文檔和查詢用t維空間的向量來表示,都是建立在代數(shù)理論的基礎之上,則稱該類模型為代數(shù)模型,包括廣義向量模型、潛語義標引模型和神經(jīng)網(wǎng)絡模型等。基于經(jīng)典概率模型的信息檢索模型中,用于構建文檔和查詢模型的機制是基于概率論的,則稱該類模型為概率模型,包括推理網(wǎng)絡模型和信任度網(wǎng)絡模型等?!缎畔⒋鎯εc檢索》第一節(jié)引言除經(jīng)典模型及其改進模式外,較重要的信息檢索模型還有結構化模型,主要包括:非重疊鏈表模型、鄰近結點模型、扁平瀏覽模型、結構導向模型和超文本模型等。在本章中,我們將討論以上所述的除推理網(wǎng)絡模型和信任度網(wǎng)絡模型外的各種信息檢索模型,推理網(wǎng)絡模型和信任度網(wǎng)絡模型的知識結構相對較為復雜,有興趣的同學可利用相關資料進行學習?!缎畔⒋鎯εc檢索》第二節(jié)經(jīng)典模型2.2.1布爾模型12.2.2向量模型22.2.3概率模型3《信息存儲與檢索》第二節(jié)經(jīng)典模型信息檢索的經(jīng)典模型認為,每篇文檔可以用一組有代表性的關鍵詞即標引詞集合來描述,標引詞(indexterm)是文檔中的詞,其語義可以幫助理解文檔的主題;因此,標引詞常用于編制索引和概括文檔的內(nèi)容。對于文檔中的標引詞集合來說,在描述文檔內(nèi)容時它們的作用是不盡相同的,因而應當明確標引詞與文檔內(nèi)容的密切程度?!缎畔⒋鎯εc檢索》第二節(jié)經(jīng)典模型用ki表示標引詞,dj表示文檔,wi,j≥0為二元組(ki,dj)的權值(weight),該權值可以用來衡量描述文檔語義內(nèi)容的標引詞的重要性。用t表示系統(tǒng)中標引詞的數(shù)目,K={k1,k2,...,kt}是所有標引詞的集合,wi,j>0是文檔dj中的標引詞ki的權值,對于沒有出現(xiàn)在文檔文本中的標引詞,其權值wi,j=0。文檔dj可以用標引詞向量dj來表示:dj=(w1,j,w2,j,…,wt,j)。此外,函數(shù)gi用以返回任何t維向量中標引詞ki的權值,即gi(dj)=wi,j。其中,標引詞的權重通常被認為是互相獨立的?!缎畔⒋鎯εc檢索》2.2.1布爾模型布爾模型(BoolenModel)是基于集合理論和布爾代數(shù)的一種簡單的檢索模型,它假定標引詞在文檔中要么出現(xiàn),要么不出現(xiàn)。因此,標引詞的權值全部被設為二值數(shù)據(jù),wi,j∈{0,1},查詢q由連接詞not、and、or連接起來的多個標引詞所組成,如“奧運會”、“奧運會”and“中國”、“奧運會”and(“中國”or(not“體操”))等,通過對標引詞與用戶給出的檢索式進行邏輯比較來檢索文本。

《信息存儲與檢索》2.2.1布爾模型設文本集D中某一文本i,該文本可表示為:Di

=(t1,t2,...,tm

),其中,t1,t2,?,tm

為標引詞,用以反映i的內(nèi)容。另設用戶某一檢索式如下:qj=(t1andt2)or(t3nott4)或者qj=(t1∧t2)∨(t3

t4)。對于該檢索式,系統(tǒng)響應并輸出的一組文本應為:它們都含有標引詞t1和t2,或者含有標引詞t3,但不含有標引詞t4?!缎畔⒋鎯εc檢索》2.2.1布爾模型如果sim(dj,q)=1,則布爾模型表示文檔與查詢相關(也可能不相關),否則文檔dj與查詢q不相關。定義對于布爾模型而言,標引詞權值變量都是二值的,即wi,j∈{0,1},查詢q是一個常規(guī)的布爾表達式。用qdnf表示查詢q的析取范式,qcc表示qdnf的任意合取分量。文檔dj和查詢q的相似度可以定義為:《信息存儲與檢索》2.2.1布爾模型例如檢索式是“圖書館”and“檔案館”,基于表2-1的內(nèi)容進行檢索,那么得到的結果是文檔2,假如檢索條件是“圖書館”or“檔案館”,則檢索結果是文檔1、文檔2和文檔3?!缎畔⒋鎯εc檢索》2.2.1布爾模型布爾檢索模型是最早提出的一個信息檢索模型,它具有簡單、易理解、易實現(xiàn)等優(yōu)點,故得到廣泛的應用。1967年后,布爾檢索正式被大型文檔檢索系統(tǒng)采用,并漸成為各種商業(yè)性聯(lián)機檢索系統(tǒng)的標準檢索模式,服務信息情報界30多年,直到現(xiàn)在,大多數(shù)商用檢索系統(tǒng)仍采用布爾檢索。盡管布爾模型有著種種的優(yōu)點,但是它的缺點仍然是明顯的,它存在的主要缺陷有以下幾點:(1)布爾邏輯式的構造不易全面反映用戶的需求。

(2)匹配標準存在某些不合理的地方。

(3)檢索結果不能按照用戶定義的重要性排序輸出?!缎畔⒋鎯εc檢索》2.2.2

向量模型向量模型又叫向量空間模型(VectorSpaceModel,簡稱VSM)。由于使用二值權值(binaryweight)的布爾檢索存在太多的局限,信息檢索研究中便提出了一種框架以便能夠進行部分匹配,即通過給查詢和文檔中的標引詞分配非二值權值(non-binaryweight)來實現(xiàn)這個目標。該權值用于計算存儲在系統(tǒng)中的文檔和用戶查詢之間的相似度,向量模型通過對檢出文檔按相似度降序排列的方式來實現(xiàn)文檔與查詢的部分匹配?!缎畔⒋鎯εc檢索》2.2.2

向量模型一個向量空間是由一組線性無關的基本向量組成,向量維數(shù)與向量空間維數(shù)一致,并可以通過向量空間進行描述。設文檔集D中某一文檔i,該文檔可表示為:Di

=(t1,t2,...,tm

),其中,t1,t2,?,tm

為標引詞,用以反映i的內(nèi)容。則相應的特征項tn能夠代表文檔Di能力的大小,體現(xiàn)了特征項在文檔中的重要程度,文檔Di的向量可以表示為Di(wi,1,wi,2,...,wi,m),其中wi,1,wi,2,...,wi,m分別代表文檔D特征項t1,t2,...,tm的特征項權重。相似度S指兩個文檔內(nèi)容相關程度的大小,當文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內(nèi)積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高?!缎畔⒋鎯εc檢索》2.2.2

向量模型由于查詢也可以在同一空間里表示為一個查詢向量,可以通過相似度計算公式計算出每個文檔向量與查詢向量的相似度,即:Sim(D1,D2)=或Sim(D1,D2)=cosθ=排序這個結果后與設立的閾值進行比較,如果大于閾值則頁面與查詢相關,保留該頁面查詢結果;如果小于則不相關,過濾此頁。這樣就可以控制查詢結果的數(shù)量,加快查詢速度《信息存儲與檢索》2.2.2

向量模型圖2-1文檔VSM及相似度Sim(D1,D2)《信息存儲與檢索》2.2.2

向量模型從向量空間模型的特點可以看出,在特征項確定的情況下,特征項的權重計算是文檔分類的關鍵,特征項權重計算常用的方法有布爾函數(shù)、開根號函數(shù)、對數(shù)函數(shù)、TFIDF函數(shù)等,其中TFIDF函數(shù)應用最為廣泛。設N表示系統(tǒng)中的文檔總數(shù),ni表示包含標引詞ki的文檔數(shù)目,freqi,j表示語詞ki在文檔dj中的初始頻率(如語詞ki在文檔dj文本中被提及的次數(shù))。則文檔dj中語詞ki的標準化頻率fi,j為:fi,j=《信息存儲與檢索》2.2.2

向量模型最大值是通過計算文檔dj文本中出現(xiàn)的所有語詞來獲得的。如果語詞ki不出現(xiàn)在文檔dj中,則fi,j=0,語詞ki的逆文檔頻率idfi為:fi,j=最著名的語詞加權方案為:wi,j=fi,j或者是這個公式的一個變形。對于查詢語詞的權值,Salton和Buckley指出可以采用如下方法,即wi,q=《信息存儲與檢索》2.2.2

向量模型VSM作為基于統(tǒng)計學方法的一個數(shù)學模型,充分發(fā)揮了計算機量化處理文檔的特長,由于它一開始并沒有對特征項的權值評價、文檔向量與提問向量的相似度計算等問題做出統(tǒng)一的規(guī)定,加之它對文本語種的無關性,使它在文本信息處理的研究與應用具有廣泛的適應性。30余年來,它在文本信息出來領域一直占據(jù)非常重要的地位,近乎成為文本處理領域的經(jīng)典方法,主要優(yōu)點在于:(1)標引詞加權改進了檢索效果;(2)其部分匹配策略允許檢出與查詢條件相接近的文檔;(3)余弦公式根據(jù)文檔資料與查詢之間的相似度對文檔進行排序?!缎畔⒋鎯εc檢索》2.2.2

向量模型在VSM的應用過程中也逐漸顯現(xiàn)出了它的不足(1)由于特征項在文檔中的不同位置代表不同的權重,而不同的關鍵詞長度也會影響權重的大小。在傳統(tǒng)的TFIDF

函數(shù)中,每增加一個文檔都要重新計算向量,導致查詢速度降低,同時由于使用頻率因子,在擴大查詢范圍時,不可避免地會影響到查詢的準確性。

(2)查詢和文檔向量間是依靠鏈接來判斷的,而且判斷的依據(jù)是兩者間相同關鍵詞的簡單比較,但實際情況是,大量的關鍵詞具有相同的語義,同一關鍵詞也會有多種語義的解釋描述(即產(chǎn)生了語義分歧)。

《信息存儲與檢索》2.2.3

概率模型概率模型的基本思想為:根據(jù)用戶的檢索q,可以將文檔集D中的所有文檔分為兩類:一類與檢索需求q相關(集合R),另一類與檢索需求不相關()。在同一類文檔中,各標引詞具有相同或相近的分布;而屬于不同類的文檔中,標引詞應具有不同的分布。因此,通過計算文檔中所有標引詞的分布,就可以判定該文檔與檢索的相關度。

經(jīng)典概率模型是由Roberson和SparckJones提出的,他對文檔與檢索相匹配的概率進行估計,估計值作為衡量文檔相關性的尺度。

《信息存儲與檢索》2.2.3

概率模型對于檢索q,任意文檔d∈D與其相關和不相關的概率分別表示為:,根據(jù)貝葉斯公式:上述兩式中的后兩項只與檢索需求q有關,而與每個文檔無關,可以不計算,則將計算P(R|d)轉(zhuǎn)化為計算P(d|R)。同理,對的的計算也將轉(zhuǎn)化為的計算?!缎畔⒋鎯εc檢索》2.2.3

概率模型由于標引詞的數(shù)目很大,因此常常在計算中引入一些假設,以簡化計算。對應不同的假設,就形成了三種不同的經(jīng)典概率模型,分別是:二元獨立模型(binaryindependentmodel)、二元一階相關概率模型(binaryfirstorderdependentmodel)和雙Poisson分布概率模型(twoPoissonindependentmodel)。

《信息存儲與檢索》2.2.3

概率模型(一)二元獨立模型二元獨立模型對文檔中標引詞的分布做了如下兩個假設:

假設1(二元屬性取值)任意一個文檔d可以表示為d(x1,x2,…,xi,…),其中二元隨機變量xi表示標引詞ti是否在該文檔中出現(xiàn),如果出現(xiàn),則xi=1;否則xi=0。

假設2(標引詞獨立性假設)在一個文檔中,任意一個標引詞的出現(xiàn)與否不會影響到其它標引詞的出現(xiàn),它們之間相互獨立。根據(jù)假設1和2有:《信息存儲與檢索》2.2.3

概率模型至此,我們可以定義文檔d與檢索q的相關度排序函數(shù)fr(q,d)為:

該值越大,表示文檔d與檢索q越相關,將第一式與第二式代入第三式,去掉常數(shù)并整理后有:《信息存儲與檢索》2.2.3

概率模型其中,。對上式右邊取對數(shù)并整理,就得到相關度排序函數(shù)的計算公式為:

上式中需要確定的參數(shù)為pi,qi,它們分別表示標引詞ti在兩類文檔R和中的出現(xiàn)概率,如果能夠預先得到一定數(shù)量的帶有標記(相關性標記)的文檔,則可以通過最大似然估計法來確定參數(shù)pi,qi的值。

《信息存儲與檢索》2.2.3

概率模型假設對給定的文檔集的統(tǒng)計結果如表2-2所示:表2-2二元獨立模型的參數(shù)估計表則《信息存儲與檢索》2.2.3

概率模型在實際應用中,一般無法預先給出帶有相關性標記的文檔集,所以常常通過相關反饋(RelevantFeedback)技術來獲取標記文檔:即先采用其它檢索技術,如全文檢索技術等獲得一批文檔,并有用戶對這些文檔進行相關性標記,然后再將這些標記后的文檔作為確定參數(shù)的文檔集?!缎畔⒋鎯εc檢索》2.2.3

概率模型(二)二元一階相關概率模型標引詞獨立性假設只是為了數(shù)學上處理方便,并不符合實際情況??梢钥吹?,一些標引詞在文檔中的出現(xiàn)往往不是相互獨立,而是存在某種關系,如某些標引詞經(jīng)常會同時出現(xiàn)在一篇文檔中,因此要想獲得更好的檢索結果,就必須考慮各個標引詞之間的相互依賴關系這一信息,這就是建立二元依賴模型的背景,與二元獨立模型相比,后者在假設1上與前者完全一致(也就是對文檔的表示兩者一致)。唯一的區(qū)別在于或者不承認假設2,從而對

的計算與前者不同。《信息存儲與檢索》2.2.3

概率模型(三)雙Poisson分布概率模型雙Poisson分布模型最先是由Harter在研究文檔標引時提出的,該模型的基本思想來源于如下的實驗觀察:文檔中的單詞可分為兩類:一類單詞與表達文檔的主題相關,稱為內(nèi)容詞(content-bearingwords);另一類只完成一些語法功能,成為功能詞(functionalwords),統(tǒng)計實驗發(fā)現(xiàn):功能詞在文檔中的分布與內(nèi)容詞不同,前者出現(xiàn)的概率比較穩(wěn)定,其波動情況可以近為泊松分布,即如果用x表示某個功能詞在文檔中的出現(xiàn)頻率,則:《信息存儲與檢索》2.2.3

概率模型

其中,u為該分布的均值,表示該功能詞的平均出現(xiàn)頻率??梢妰?nèi)容詞在文檔中的出現(xiàn)頻率,在一定意義上反映了一個文檔的主題。因此Harter假設:根據(jù)一個內(nèi)容詞可以將文檔從主題上分為兩類,同時該內(nèi)容詞在兩類文檔中的出現(xiàn)頻率也會很不相同:一類文檔的主題與該內(nèi)容詞相關,那么該內(nèi)容詞在其中的出現(xiàn)頻率應該比較高,其波動特征可以用一個Poisson分布表示;而另一類文檔的主題與內(nèi)容詞不相關,所以內(nèi)容詞在其中的出現(xiàn)頻率應該比較低,其波動特征也可以用一個Poisson分布表示。《信息存儲與檢索》2.2.3

概率模型綜合起來,一個內(nèi)容詞在文檔中的出現(xiàn)頻率x可以表示為兩個Poisson分布的加權組合:

其中,u,v分別為內(nèi)容詞在兩類文檔中出現(xiàn)頻率的均值,表示了任意一個文檔屬于第一類的概率,該假設被稱為雙Poisson分布假設。只要將所有的標引詞看作是內(nèi)容詞(其實,在實際的檢索中,標引詞一般都是內(nèi)容詞),則它們也滿足2-Poisson模型,則就形成了雙Poisson模型。與二元獨立模型相比,2-Poisson模型的不同在于不承認假設1,其余都相同?!缎畔⒋鎯εc檢索》2.2.3

概率模型概率模型的主要優(yōu)點在于:它利用概率論原理,通過賦予索引詞某種概率值來表示這些詞在相關文檔集合和非相關文檔集合中的出現(xiàn)概率,然后計算某一給定文檔與某一給定用戶體溫相關的概率并做出檢索決策。不同于布爾檢索和向量空間模型,概率模型具有一種內(nèi)在的相關反饋機制,它把檢索處理過程看作是一個不斷逼近并最終確認命中文檔集合特征的過程,并通過運用某種歸納式學習方法實現(xiàn)系統(tǒng)對檢索結果的優(yōu)化與完善,從理論上講,它吸收了相關反饋原理,將文檔根據(jù)它們相關的概率按遞減的順序排列。《信息存儲與檢索》2.2.3

概率模型概率模型雖然具有堅實的理論基礎,仍然存在一些局限,主要表現(xiàn)在:(1)需要最初把文檔分成相關的集合和不相關的集合;(2)這種方法并不考慮標引詞在文檔中出現(xiàn)的頻率,即所有的權值都是二值的;(3)假設標引詞相互獨立。然而如同VSM一樣,并不能明確標引詞的獨立性在實際情況中是否是一個不利假設?!缎畔⒋鎯εc檢索》第三節(jié)集合理論模型2.3.1模糊集合模型12.3.2擴展布爾模型22.3.3粗糙集模型3《信息存儲與檢索》2.3.1模糊集合模型模糊集合理論(Fuzzysettheory)研究的是邊界不明確的集合的表示,其中心思想是把隸屬函數(shù)(membershipfunction)和集合中的元素結合在一起。該函數(shù)的取值在區(qū)間[0,1]上,0對應于不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0和1之間表示集合中的邊際元素。因此,模糊集合中的隸屬關系與在傳統(tǒng)布爾邏輯中一樣是一個逐步派生出來的固有概念,而不是突然出現(xiàn)的。定義論域U的一個模糊子集A可以用隸屬函數(shù)來描述:→[0,1],為U的每個元素u分配一個數(shù)值,該數(shù)值在區(qū)間[0,1]上。《信息存儲與檢索》2.3.1模糊集合模型采用敘詞表來建立模型是信息檢索過程構建模型的一種常用方法,敘詞表可以通過定義一個詞-詞關聯(lián)矩陣(term-termcorrelationmatrix)C來構建,這個矩陣的行和列分別對應于文檔集合中的標引詞。在矩陣C中,語詞ki和kl之間的標準化關聯(lián)因子ci,l可以定義為:

其中ni表示包含語詞ki的文檔的數(shù)目,nl表示包含語詞kl的文檔的數(shù)目,ni,l表示同時包含語詞ki、kl的文檔的數(shù)目。《信息存儲與檢索》2.3.1模糊集合模型我們可以使用語詞關聯(lián)矩陣C來定義與每個標引詞ki相關聯(lián)的模糊集合,在這個集合中,文檔dj的隸屬度可以計算如下:

即計算文檔dj中所有語詞的代數(shù)和(在此是通過負代數(shù)積求補來實現(xiàn)的)。如果文檔dj自身的語詞與ki有關,則該文檔屬于語詞ki的模糊集合。只要文檔dj中至少有一個標引詞ki密切相關,則,且標引詞ki是文檔dj的一個很好的模糊索引;如果文檔dj中的所有標引詞與ki不是密切相關的,則標引詞ki不是文檔dj的一個好的索引(如)?!缎畔⒋鎯εc檢索》2.3.1模糊集合模型用戶通過一個布爾型的查詢表達式來闡述他的信息需求,模糊集合模型將查詢轉(zhuǎn)換為析取范式。例如查詢[q

=ka∧(kb∨kc)]可以寫成析取范式的形式:[qdnf=(1,1,1)∨(1,1,0)∨(1,0,0)],其中的每一個分量都是三元組(ka,kb,kc)的一個二值加權向量,這些二值加權向量是qdnf的合取分量。用cci表示第i個合取分量的參量,則qdnf=cc1∨cc2∨…∨ccp其中p是qdnf的合取分量的數(shù)目。計算文檔與查詢相關的過程類似于采用經(jīng)典布爾模型進行比較的過程。其區(qū)別在于:此處的集合是松散的集合而不是布爾集合?!缎畔⒋鎯εc檢索》2.3.1模糊集合模型重新考慮[q

=ka∧(kb∨kc)],用Da表示與索引ka相關聯(lián)的文檔模糊集合,比如該集合由隸屬度大于給定閾值K的文檔dj組成;此外,用表示Da的補集,模糊集合與相關聯(lián),它是標引詞ka的否定。類似地,我們可以分別定義標引詞kb的模糊集合Db和標引詞kc的模糊集合Dc,因為所有的集合都是模糊的,即使文檔dj的文本中并不包含索引ka,該文檔dj也有可能屬于集合Da?!缎畔⒋鎯εc檢索》2.3.1模糊集合模型查詢模糊集合Dq是與qdnf三個合取分量(就cc1、cc2、cc3而言)相關聯(lián)的模糊集合的并集,模糊結果集合Dq中文檔dj的隸屬度可以通過以下的公式來計算:,是與ki有關聯(lián)的模糊集合中文檔dj的隸屬度。析取模糊集合中的隸屬度是用代數(shù)和來計算的,而不是最常用的最大值函數(shù)。此外,合取模糊集合中的隸屬度是用代數(shù)積來計算的,而不是常見的最小值函數(shù)。采用代數(shù)和與代數(shù)積得出的隸屬度,比用最大值函數(shù)和最小值函數(shù)計算得出的隸屬度數(shù)值的變化更小,從而更適合于信息檢索系統(tǒng)。《信息存儲與檢索》2.3.2擴展布爾模型擴展布爾檢索模型,它是將向量檢索模型與布爾檢索模型融為一體,克服經(jīng)典布爾模型的一些缺點。主要原因是向量空間模型簡單、快捷,并能產(chǎn)生較好的檢索效果。用部分匹配和語詞加權功能來擴展布爾模型,可以使布爾查詢表達式與向量模型的特征結合在一起。下面我們用矢量的方法來討論擴展布爾模型?!缎畔⒋鎯εc檢索》2.3.2擴展布爾模型設文本集中每篇文本僅由兩個標引詞t1和t2標引,并且t1、t2允許賦以權值,其權值范圍為[0,1],權值越接近1,說明該詞越能反映文本的內(nèi)容,反之,越不能反映文本的內(nèi)容,在擴展布爾,上述情形用平面坐標系上某點代表某一文本和用戶給出的檢索式,見下圖。圖中的橫、縱坐標用t1、t2表示,其中A(0,1)表示詞t1權值為0,詞t2

權值為1的文本,B(1,0)表示詞t1權值為1,詞t2權值為0的文本,C(1,1)表示詞t1、t2的權值均為1的文本,文本集D中凡是可以用t1、t2標引的文本可以用四邊形OACB中某一點表示,同樣,用戶給出檢索式后,也可用四邊形OACB中某一點表示?!缎畔⒋鎯εc檢索》2.3.2擴展布爾模型對于由t1和t2構成的檢索式q=t1∨t2,在圖2-2中只有A、B、C三點所代表的各文本才是最理想的文本,對于某一文本D來說,當D點離A、B、C三點越接近時說明相似度越大,或者說,當D點離O點越遠時,相似度越大。因而D與O的距離:布爾檢索矢量表示法《信息存儲與檢索》2.3.2擴展布爾模型可以作為我們衡量一文本與查詢q的相關程度的一個尺度,顯然,為了使相似度控制在0與1之間,將相似度定義為:

對于由t1和t2構成的查詢q=t1∧t2,只有C點才是最理想的文本,用D與C的距離:

作為衡量一文本與查詢q的相關程度的一個尺度,于是,把相似度定義為:

《信息存儲與檢索》2.3.2擴展布爾模型上述兩式還可推廣到對檢索標引詞進行加權的情形,設檢索標引詞t1、t2的權值分別為a,b,0≤a,b≤1,則可進一步推廣為:擴展模型還給出了把標引詞推廣到n個時的相似度計算公式。設D=(d1,d2,…,dn),其中表示第i個標引詞ti的權值,0≤di≤1。由布爾運算符“∨”及“∧”所確定的檢索式分別為:《信息存儲與檢索》2.3.2擴展布爾模型其中ai表示第i個檢索標引詞ti的權值,0≤ai≤1,這里,p是一個可變的量,1≤q≤∞,在擴展布爾模型中,以前述推廣式作為基本的出發(fā)點,在n個標引詞生成的n維歐氏空間中應用LP矢量模公式進行歐氏模的計算,將文本和查詢的相似度定義為:《信息存儲與檢索》2.3.2擴展布爾模型擴展布爾模型是經(jīng)典布爾檢索模型精確匹配的嚴格性和向量處理模式提問的無結構性的折中,它用代數(shù)距離的方式來解釋并放松了布爾操作的要求,因而有效融合了傳統(tǒng)的布爾模型、向量空間模型的處理思想,它的主要特點有:①與傳統(tǒng)布爾檢索中的倒排檔技術相兼容,支持使用標準布爾檢索邏輯表達的提問式結構;②允許在穩(wěn)讜和提問式中進行詞加權處理;③支持按相似度的大小排序輸出檢索結果;④通過調(diào)整參數(shù)p的取值,可以靈活選擇并得到不同的檢索結果。《信息存儲與檢索》2.3.3粗糙集模型信息檢索的關鍵就是對相關文本進行檢索來回答用戶的查詢。提高檢索算法的有效性是一個很重要的研究目標。查詢提煉是信息檢索中的一個重要部分,它通過修改初始查詢產(chǎn)生一個更高效的查詢,對于那些查詢不完備,還不足以進行有效檢索的用戶來說,這一步是非常關鍵的。粗糙集模型在檢索和基于詞匯的查詢提煉之間提供了高度的完整性,因為任何時候考慮到用戶的信息需求,必須保證字眼算子關系的完整性。實際上,檢索操作是在查詢提煉之后進行的,在檢索開始之前字眼和關系被自動用來進行查詢提煉,粗糙集提供了一個在檢索之前對詞匯進行自動挖掘的方法?!缎畔⒋鎯εc檢索》2.3.3粗糙集模型粗糙集理論是波蘭科學家Pawlak于1982年提出的一種處理不精確、不相容和不完全數(shù)據(jù)的新的數(shù)學工具,它的獨到之處在于不需要先驗知識,就可以從數(shù)據(jù)中獲取潛在依賴規(guī)律。在粗糙集理論中,一個等價關系將一個非空集合劃分成互不相連的等價類,根據(jù)這個關系等價類中的對象是不可區(qū)分的。全集和等價關系一同定義了一個近似空間,等價類和空集被稱為這個近似空間的基本集或原子集。這樣一個近似空間可以用來描述全集的任意子集,這要用到兩個近似集:上近似集和下近似集,它們是這樣定義的:《信息存儲與檢索》2.3.3粗糙集模型設R是劃分非空全集U的一個等價關系,近似空間為aprR=(U,R),一個劃分被定義為U/R={C1,C2,…,Cn),這里Ci是U/R的一個等價類,對于U的任意一個子集S,上近似集和下近似集近似描述了近似空間(U,R)中的子集S,粗糙集就可以用這兩個近似集來描述?!缎畔⒋鎯εc檢索》2.3.3粗糙集模型利用粗糙集在信息檢索中可以將詞匯建立模型。該模型是將給定范圍的單詞(單個詞匯和段落)當作全集U,表示等價關系R的定義為字眼的相似關系,R對U產(chǎn)生一個劃分,這樣一個類中的字眼彼此都是同義的,用向量來表示文本和查詢,通過近似空間aprR=(U,R)中的上、下近似集進行比較。顯然文本和查詢是全集的子集,分別求出它們在近似空間aprR=(U,R)中的上、下近似集。下近似集中的屬性確定地描述了子集,而上近似集中的屬性可能地描述了子集,這些確定性和可能性當然很大程度上是由近似空間決定的,因此,下近似集自動向核心描述靠近,而上近似集在詞匯空間允許的范圍內(nèi)擴大了描述?!缎畔⒋鎯εc檢索》2.3.3粗糙集模型當對文本和查詢進行比較時,采用非自反的相似度方法,設U的兩個子集S1和S2,S2作為中心:這里|-|表示邊界差,然后計算:在比較中,保持S2為中心,如果上式為0,表示不匹配;上式為1,表示S2和S1之間的最大匹配。同樣:在實際比較中,可以把這兩個相似度結合到一個檢索狀態(tài)值中。

《信息存儲與檢索》2.3.3粗糙集模型粗糙集模型也有一些局限性,比如它不能使用用權值描述的文本和查詢,也不能利用除了同義詞之外的字眼關系。為了解決這個問題并且使粗糙集模型在檢索中更加靈活,一般將粗糙集和模糊集合理論結合起來進行擴展,使檢索模型適用的范圍更加廣泛,更進一步地提高檢索效率。《信息存儲與檢索》第四節(jié)代數(shù)模型2.4.1廣義向量空間模型12.4.2潛語義標引模型22.4.3神經(jīng)網(wǎng)絡模型3《信息存儲與檢索》2.4.1廣義向量空間模型如前所述,對VSM而言通常有如下解釋:用ki表示標引詞ki的一個向量,向量模型中標引詞的相互獨立意味著向量集合{k1,k1,…,kt}是線性獨立的,并構成了目標子空間的基。該空間的維數(shù)就是集合中標引詞的數(shù)目t。

通常,VSM中標引詞之間相互獨立性在某種更嚴格的意義上可以理解為標引詞向量兩兩正交,即ki·kj=0。然而在實際情況中,標引詞之間總存在著一定的相互關系,即不是兩兩正交的,一個詞的出現(xiàn)可能會引起另外一個相關詞的出現(xiàn)。因而,標引詞向量不能作為向量空間的正交基(在向量模型中常把{k1,k1,…,kt}作為目標子空間的基),這就導出了廣義向量空間模型。

《信息存儲與檢索》2.4.1廣義向量空間模型在廣義向量空間模型中,標引詞向量是線性獨立但不是兩兩正交的,標引詞向量由一組更小分量所組成的正交基向量來表示,詞與詞之間的關系可直接由基向量表示給出較為精確的計算。系統(tǒng)中的標引詞集合為{k1,k1,…,kt},其生成的布爾代數(shù)表示為<B,,∧,∨>。則文檔中詞出現(xiàn)的所有模式可以用最小項來表示。定義布爾代數(shù)<B,,∧,∨>上由x1,x2,…,xn產(chǎn)生的形如

的布爾表達式稱為由x1,x2,…,xn產(chǎn)生的最小項,其中當=1時

=xi;當=0時

?!缎畔⒋鎯εc檢索》2.4.1廣義向量空間模型t個標引詞生成2t個互不相同的最小項,在每個最小項中,ki和ki之一出現(xiàn)且只出現(xiàn)一次。最小項不能被進一步簡化,他們構成布爾代數(shù)的基本元素;其它的任何元素都可以由基本元素的析取范式表示。令表示B的元素,則每一個基本元素可以由布爾向量

唯一確定,即:標引詞也是B中的一個元素,則其可以表示成基本元素的析取式,即ki=m1∨m2∨…∨mr。

《信息存儲與檢索》2.4.1廣義向量空間模型標引詞ki的向量是通過把所有最小項mr的向量相加求和得出的:式中的關聯(lián)因子用于計算文檔dj中標引詞的權值之和,函數(shù)gi(mr)返回最小項mr中標引詞的權值(通常為1)?!缎畔⒋鎯εc檢索》2.4.1廣義向量空間模型在廣義向量空間模型中,把文檔和提問表示直接轉(zhuǎn)化成最小項向量的集合,然后利用標準余弦函數(shù)來計算文檔向量dj和提問向量q之間的相似度,并將文檔按相似度的大小以遞減順序排列輸出。這種方法既考慮了語詞之間的關系,又沒有陷入對相似函數(shù)的復雜討論中。

《信息存儲與檢索》2.4.1廣義向量空間模型向量空間模型和廣義向量空間模型都是用標引詞來概括文檔和提問文本的內(nèi)容,由于受到同義詞、多義詞的影響,語義的準確表達不僅取決于對詞匯的恰當選擇,而且也取決于上下文對語義概念的限定。如果沒有上下文的語境而孤立地依賴于標引詞的簡單組配,可能導致檢索效果低下,其準確性、完整性也不夠理想:許多不相關的文檔也有可能包括在結果集合中,沒有用任何關鍵詞進行標引的文檔有可能被遺漏掉。因此,文本的思想內(nèi)容雖然與標引詞有關聯(lián),但相比之下,它與其中的概念關系更為密切,基于概念匹配而不是標引詞匹配的潛語義標引模型較好地解決了這些問題?!缎畔⒋鎯εc檢索》2.4.2潛語義標引模型在傳統(tǒng)的向量空間模型中,文檔集合中的文檔被抽取成若干個標引詞,每個文檔由標引詞構成一個文檔向量空間,而每個特征項在文檔集合中的各個文檔中的權值集合則構成了一個特征項向量空間。兩者結合在一起構成了文檔集合的向量空間。但是,在檢索過程中,用標引詞集合來概括文檔和查詢的內(nèi)容可能降低檢索結果,其最終結果有兩種情況:(1)許多不相關的文檔可能包含在結果集合中;(2)沒有用任何查詢關鍵詞進行標引的相關文檔也有可能不被檢出。產(chǎn)生這兩種結果的原因是基于關鍵詞集合的檢索過程固有的模糊性。《信息存儲與檢索》2.4.2潛語義標引模型潛語義標引模型(latentsemanticindexingmodel)是將標引詞之間、文檔之間的依賴關系以及標引詞與文檔之間的語義關聯(lián)都考慮在內(nèi),將文檔向量和提問向量映射到與語義概念相關聯(lián)的較低維空間中,從而把文檔的標引詞空間向量轉(zhuǎn)化為語義概念空間;在降維的語義概念空間中,計算文檔向量和提問向量的相似度,然后根據(jù)所得的相似度把排列結果返回給用戶?!缎畔⒋鎯εc檢索》2.4.2潛語義標引模型設表示t行n列的關鍵詞-文檔矩陣,t表示系統(tǒng)中標引詞的數(shù)目,n為總的文檔數(shù)目,則:矩陣中的每一個元素Mi,j為關鍵詞-文檔(ki,dj)的權值,如上所示,該權值可以用傳統(tǒng)向量空間模型中普遍采用的tf-idf加權方案來確定。潛語義標引模型的思想是用數(shù)學方法把關鍵詞-文檔矩陣進行奇異值分解。奇異值分解是一種與特征值分解、因子分析緊密相關的矩陣方法?!缎畔⒋鎯εc檢索》2.4.2潛語義標引模型定義

M為t×n矩陣,MTM的特征值為:

為矩陣M的奇異值。定理任何矩陣均可以被分解成三個矩陣的乘積。所以,關鍵詞-文檔矩陣也可以分解成三個部分:

上式稱為M的奇異值分解,其中矩陣是由詞-詞關聯(lián)矩陣導出的t×t正交特征向量矩陣(kkt=ktk=E),稱為M的左奇異向量;是由文檔-文檔關聯(lián)矩陣導出的n×n正交特征向量矩陣(DDt=DtD=E),稱為M的右奇異向量;

《信息存儲與檢索》2.4.2潛語義標引模型是n×n奇異值對角矩陣,對角元為

,且,此對角為M的奇異值;r=min(t,n)是矩陣M的秩。奇異值分解允許用一個維度較小的矩陣做初始矩陣的最優(yōu)近似,選定一個合適的x值,保留S中的前x個最大奇異值,并保留K,D中對應的行和列,刪去其余的行和列。則矩陣M的秩—x近似矩陣Mx為:其中Kx是由K的前x列組成的t×t矩陣,Sx是由S的前x行、前x行列組成的x×x矩陣,是由Dt前x行組成的x×n矩陣?!缎畔⒋鎯εc檢索》2.4.2潛語義標引模型這樣,通過M的秩—r近似矩陣將文檔的關鍵詞向量空間轉(zhuǎn)化為語義概念空間,且語義概念空間的維度x≤t(t是文檔關鍵詞向量空間的緯度,也即系統(tǒng)中所使用的標引詞的數(shù)量),因而,次要的術語區(qū)別就被忽略了,有相似用法的關鍵詞,其向量也就相似,用法不同的關鍵詞,對應的向量也就不相似,從而降低了同義詞、多義詞的影響,減少了冗余。值x的選擇是折中的。首先,x必須足夠大,以能包括所有的實數(shù)結構;其次,x又必須足夠小,以便能忽略掉一些錯誤和不重要的描述細節(jié)。如果k值太小,那么分辨文檔或標引詞的能力不足;如果k值過高,則接近于傳統(tǒng)的向量空間模型,失去了它可以表示詞相互關系的能力?!缎畔⒋鎯εc檢索》2.4.2潛語義標引模型在維度為x的降維空間中,兩篇文檔的相似度等于的兩個相應列向量的點積:矩陣中的元素(i,j)是矩陣的第i、j行的點積,它量化了文檔di和dj之間的關系。同理,標引詞ki與文檔dj的相似度是Mx的第(i,j)元素。由于

則Mx的(i,j)元素可以由的第i行與的第j行的點積得出?!缎畔⒋鎯εc檢索》2.4.2潛語義標引模型為了對與用戶提問相關的文檔進行排序,我們通常把用戶提問向量Q作為初識詞-文檔矩陣的一個偽文檔向量(例如,假定查詢被構建成數(shù)值為0的文檔,那么矩陣的第一行即為關于提問的所有文檔的排序)。轉(zhuǎn)化為x維語義概念空間的向量后,才能在語義概念空間中進行文檔相似性的比較;用戶提問的轉(zhuǎn)化公式為:。然后計算文檔向量與提問向量的相似度,并根據(jù)相似度的計算結果,把文檔排列起來返回給用戶。潛語義標引模型將文檔和提問向量從t維關鍵詞向量空間轉(zhuǎn)化為x維語義概念空間,降低了空間的維度,消除了基于標引詞表示的描述的噪音,克服了多義詞和同義詞對檢索的影響,提高了檢索的精度?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型神經(jīng)網(wǎng)絡是大腦中相互連接的神經(jīng)元網(wǎng)絡結構的一種過于簡單化的圖形表示,圖中的結點(node)表示處理單元,邊表示突觸鏈接。為了模擬突觸鏈接在大腦中隨時間不斷變化的強度,為神經(jīng)網(wǎng)絡的每一條邊分配一定的權值;起初,結點的狀態(tài)根據(jù)它的活躍值(它是一個關于初狀態(tài)和接收信號的函數(shù))來定義,依據(jù)結點的活躍值,結點A可能向鄰近的結點B發(fā)送一個信號,結點B信號的強度取決于結點A和結點B之間的邊的權值。用于信息檢索的神經(jīng)網(wǎng)絡可以用下圖來描述,在圖中可以看出神經(jīng)網(wǎng)絡由三層所組成:一層表示查詢語詞,一層表示文檔語詞,第三層表示文檔本身?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型用于信息檢索的神經(jīng)網(wǎng)絡模型

《信息存儲與檢索》2.4.3神經(jīng)網(wǎng)絡模型查詢語詞結點通過向文檔語詞結點發(fā)出信號來開始推理過程,文檔語詞結點自身也可以向文檔結點發(fā)出信號。信號從查詢語詞結點到文檔結點(上圖中從左到右)就完成了第一個階段。神經(jīng)網(wǎng)絡在信號傳遞的第一個階段之后并沒有停頓下來。實際上,文檔結點依次直接向文檔語詞結點返回新的信號,這是由于文檔語詞結點和文檔結點之間是雙向邊的原因。一旦接受到這種信號,文檔語詞結點再次直接向文檔結點發(fā)出新的信號并重復這一過程。信號在每一次反復中會逐漸衰減,傳遞激活過程最終會停頓下來。即使文檔dl不包含任何的查詢語詞,它也有可能在這一過程中被激活。因此,這一過程可以解釋為內(nèi)置敘詞表的激活?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型為查詢語詞結點分配初始/固定的最大活躍值(activation),然后查詢語詞結點向文檔語詞結點發(fā)出信號,而文檔語詞結點已用規(guī)范化的查詢語詞權值來衰減:采用查詢向量的范數(shù)來規(guī)范化。《信息存儲與檢索》2.4.3神經(jīng)網(wǎng)絡模型一旦信號到達文檔語詞結點,這些結點就直接向文檔結點發(fā)出新的信號,這些信號已用規(guī)范化的文檔語詞結點的權值來衰減:采用文檔向量的范數(shù)來規(guī)范化?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型對到達文檔結點的信號進行求和,在信號傳播的第一個階段之后,與文檔dj相關聯(lián)的文檔結點的活躍值可以表示為:這是經(jīng)典向量模型的準確排序。然而,神經(jīng)網(wǎng)絡設計是一個復雜問題。其復雜性主要表現(xiàn)在兩個方面:第一,采用什么類型的網(wǎng)絡模型;第二,網(wǎng)絡結構和參數(shù)的確定?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型對于神經(jīng)網(wǎng)絡設計復雜性對應的第二個方面,基于進化算法的神經(jīng)網(wǎng)絡進化學習為解決該問題提供了一條新的更有潛力的途徑。進化算法(EA)是從自然進化的思想和理論發(fā)展而來的一類基于群體的隨機搜索算法,包括遺傳算法(GA)、進化策略(ES)、進化規(guī)劃(EP)、遺傳規(guī)劃(GP)。進化算法著重用于解決結構性優(yōu)化、非線性優(yōu)化、并行計算等復雜問題。在求解問題時,其根本目標是追求群體收斂性,保證算法趨于全局最優(yōu)。其中,遺傳算法是進化計算中提出得最早、應用最廣、研究得最深入的一種算法,它是最早用于神經(jīng)網(wǎng)絡自動設計的進化算法并且獲得的實驗結果也最多。《信息存儲與檢索》2.4.3神經(jīng)網(wǎng)絡模型遺傳算法主要是借助生物進化機制和遺傳學原理,按照自然選擇和適者生存的原則,利用簡單的編碼技術和繁殖機制,模擬自然界生物群體優(yōu)勝劣汰的進化過程,實現(xiàn)對復雜問題的求解,遺傳算法的運算過程是一個反復迭代過程。它操作的對象是一組編碼化的可行解,即由M個個體組成的集合(又稱為群體),通過三種遺傳算子——選擇算子、交叉算子和變異算子不斷地對其進行遺傳和進化操作,并且每次都是按照優(yōu)勝劣汰的規(guī)則,將適應度較高的個體以較大的概率更多地遺傳到下一代,這樣最終在群體中會得到一個優(yōu)良的個體,使得它能達到或接近于問題的最優(yōu)解。因此遺傳算法有著鮮明的優(yōu)點:全局優(yōu)化性和魯棒性;良好的并行性;可操作性和簡單性?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型遺傳算法的基本步驟如下:(1)初始化。設置最大進化代數(shù)T;隨機生成M個個體作為初識群體P(0)。(2)個體評價。計算群體P(t)中各個個體的適應度。(3)選擇運算。將選擇算子作用于群體。(4)交叉運算。將交叉算子作用于運算。(5)變異運算。將變異算子作用于群體。群體P(t)經(jīng)過選擇、交叉、變異運算之后得到下一代群體P(t+1)。(6)終止條件判斷。若t≦T,則:t→t+1,轉(zhuǎn)到(2),若t>T,則以進化過程所得到的具有最大適應度的個體作為最優(yōu)解輸出,終止計算?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型由于網(wǎng)絡提供了海量信息,因此用戶很難從中查找到自己感興趣信息,而遺傳算法在用戶興趣模型的提取與信息檢索方面有著得天獨厚的優(yōu)勢:(1)遺傳算法是一種基于自然選擇的自適應算法,它的這種特性使得它非常適合于動態(tài)環(huán)境中的應用,而通常用戶的興趣也是隨著時間的變化而變化的;(2)從某種意義上來說提取用戶興趣模型也是一個優(yōu)化問題;(3)遺傳算法中存在演化的隨機性,使得發(fā)現(xiàn)用戶沒能正確表達出來的興趣需求成為可能?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型在基于遺傳算法的信息檢索方面的研究,國際上已經(jīng)有了相當一些的成果,它們有許多共同點而又各有不同側重點。首先,在演化群體中的個體的含義方面,都是以用戶模型來表示一個個體,進行演化。但是在GA的應用中,有些主要應用于用戶興趣的提取,而有些是設計來支持一個在線的信息檢索的動態(tài)環(huán)境。最后在個體的適應值的評價方面,有些以適應值函數(shù)來計算值,而有些則以用戶反饋來取值,這樣后者的交互性更強,但同時用戶在演化過程中的介于也更多,通常為了達到一個平衡,使得群體規(guī)模比較小?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型一般說來用戶興趣模型可描述為:以一組含有權重的關鍵字來表示用戶興趣。Profile={(T1,W1),(T2,W2),…,(Tm,

Wm)},其中,Ti表示關鍵字,Wi表示權(表示用戶對該關鍵字的偏好)。并從中提取一組向量:P=(Wi)其次,用一個多維向量來表示W(wǎng)eb文檔的內(nèi)容:Di=(fij)其中fij表示關鍵字Tj在文檔Di中的出現(xiàn)頻率。兩個向量之間的相似度表示為:《信息存儲與檢索》2.4.3神經(jīng)網(wǎng)絡模型用Ri表示用戶對Web文檔Di的評分,則提取用戶興趣模型的問題就變成了找到一個P,使得對于任意的Web文檔Di,|Ri*Sim(P,Di)|都最小的優(yōu)化問題。下面對用戶興趣模型的提取算法進行描述和分析:(1)從用戶瀏覽的Web網(wǎng)頁中提取N篇{D1,D2,…,DN}作為文檔資源。文檔資源的大小N取值不能太大,否則增加用戶的干預負擔;也不能太小,太小就不能準確地從中提取用戶興趣,一般N取10。(2)由用戶分別給每篇文檔Di評分Ri,以表示用戶偏好。對文檔的評分Ri取值為0~1.0之間的實數(shù),最好是取一些固定的數(shù)值,如0.1,0.3,0.7和1.0等?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型(3)分別提取文檔Di的特征空間,表示為Di={(Ti1,F(xiàn)i1),(Ti2,F(xiàn)i2),…,(Tim,F(xiàn)im)},其中Tij表示Di中出現(xiàn)頻率最高的前m個單詞,F(xiàn)ij表示Tij的出現(xiàn)頻率。在提取文檔特征空間時,需要對文檔中單詞出現(xiàn)頻率進行分級,應用中取前4個等級的單詞來組成這個特征空間,并注意整個過程必須排除一些介詞、冠詞和定冠詞。(4)初始化群體P={Profile1,Profile2,?,Profilen}。Tij為隨機從文檔的特征空間中選取的單詞,Wij為一個-1~1之間的隨機數(shù)值,表示權重,并由這些權重組成一個向量Pi=(Wij)?!缎畔⒋鎯εc檢索》2.4.3神經(jīng)網(wǎng)絡模型

初始化群體時,每個個體的基因長度為可變量,它的長度可在初始化時隨機產(chǎn)生一個1~15之間的數(shù)值決定。在基因權值的選取上,保持有利的值占80%左右,若權值取得都過低,會使演化的收斂速度下降。(5)當演化代數(shù)小于Maxgen時,執(zhí)行下列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論