版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2章信息檢索模型2.1檢索模型定義2.2布爾模型2.3向量模型2.4概率模型2.5擴(kuò)展的布爾模型2.6擴(kuò)展的向量模型2.7擴(kuò)展的概率模型2.8小結(jié)思考題在現(xiàn)實(shí)生活中,社會(huì)成員的信息需求千差萬(wàn)別,獲取信息的方式與途徑也各式各樣,但通過(guò)信息檢索來(lái)獲取信息是最基本的手段。基于不同信息檢索系統(tǒng)的檢索,其基本原理是相同的,它們都是對(duì)用戶(hù)信息需求與系統(tǒng)存儲(chǔ)的信息資源所進(jìn)行的某種匹配與選擇。如何進(jìn)一步嚴(yán)密地表述和論證信息檢索過(guò)程,就需要從統(tǒng)計(jì)規(guī)律里抽象出數(shù)學(xué)模型,以便科學(xué)地進(jìn)行研究,這個(gè)過(guò)程就是建模。所謂數(shù)學(xué)模型,是指為了某種特定目的,通過(guò)對(duì)現(xiàn)實(shí)世界的某一特定對(duì)象做出一些必要的簡(jiǎn)化與假設(shè),運(yùn)用適當(dāng)?shù)臄?shù)學(xué)工具得到的一種數(shù)學(xué)結(jié)構(gòu)。數(shù)學(xué)模型可以在對(duì)對(duì)象屬性的學(xué)習(xí)中獲得,它具有保留本質(zhì)、抑制細(xì)節(jié)的作用,它或者能解釋特定現(xiàn)象的狀態(tài)和性質(zhì),或者能預(yù)測(cè)它的未來(lái)狀況,或者能提供對(duì)處理對(duì)象的最優(yōu)決策或控制。信息檢索中的數(shù)學(xué)模型,就是運(yùn)用數(shù)學(xué)語(yǔ)言和工具,對(duì)信息檢索系統(tǒng)中的信息及其處理過(guò)程加以抽象和描述,表述為某種數(shù)學(xué)公式,再進(jìn)行演繹、推斷、解釋和檢驗(yàn)。為了提高信息檢索的效果,研究信息檢索新技術(shù)新方法,建立數(shù)學(xué)模型是一種非常科學(xué)的方法。信息檢索模型是對(duì)真實(shí)的檢索過(guò)程的抽象概括。信息檢索的基本任務(wù)是找出與用戶(hù)需求匹配的相關(guān)文檔。因此信息檢索的核心問(wèn)題包括如何準(zhǔn)確地表示文檔與用戶(hù)查詢(xún),以及預(yù)測(cè)哪些文檔與用戶(hù)查詢(xún)相關(guān),哪些文檔不相關(guān)。圖2-1是信息檢索過(guò)程的一個(gè)示意圖,從圖中我們可以看出,檢索模型要解決的三個(gè)關(guān)鍵問(wèn)題是:查詢(xún)的表示方法、文檔的表示方法、查詢(xún)與文檔的匹配比較方法,概括成一句話就是“兩個(gè)表示,一個(gè)比較”。圖2-1信息檢索過(guò)程示意圖查詢(xún)與文檔的匹配比較方法通常取決于所采用的排序算法,排序算法可以對(duì)檢出的文檔進(jìn)行排序,排在最前面的文檔被認(rèn)為最相關(guān),因此,排序算法是信息檢索系統(tǒng)的核心。排序算法是根據(jù)“相關(guān)度”(relevance)來(lái)計(jì)算的。關(guān)于相關(guān)度的不同假設(shè)形成了不同的信息檢索模型,而所采用的信息檢索模型又決定了哪些文檔是相關(guān)的,哪些是不相關(guān)的。
人們已經(jīng)在集合論、代數(shù)論、概率論三個(gè)領(lǐng)域分別提出了布爾模型、向量模型、概率模型這三種經(jīng)典模型。經(jīng)典布爾模型的框架是由一組文檔集和該集合上的標(biāo)準(zhǔn)布爾運(yùn)算組成的;經(jīng)典向量模型的框架是由一個(gè)n維矢量空間和矢量之上的標(biāo)準(zhǔn)線性代數(shù)運(yùn)算組成的;經(jīng)典概率模型的框架則是集合、標(biāo)準(zhǔn)概率運(yùn)算和貝葉斯(Bayes)理論?;谶@些經(jīng)典模型,人們又提出了各種不同的改進(jìn)模式,稱(chēng)為擴(kuò)展模型。這些擴(kuò)展模型包括擴(kuò)展的布爾模型(如模糊集合論模型和擴(kuò)展布爾模型)、擴(kuò)展的向量模型(如廣義向量模型、潛語(yǔ)義標(biāo)引模型和神經(jīng)網(wǎng)絡(luò)模型)、擴(kuò)展的概率模型(如推理網(wǎng)絡(luò)模型、信任度網(wǎng)絡(luò)模型和語(yǔ)言模型)等。圖2-2是信息檢索模型的分類(lèi),本章將重點(diǎn)介紹這些基本的檢索模型和擴(kuò)展模型的原理以及應(yīng)用。圖2-2信息檢索模型分類(lèi)示意圖
2.1檢索模型定義
信息檢索模型需要描述清楚以下關(guān)鍵問(wèn)題:
(1)如何表示查詢(xún)和文檔,即從什么樣的視角去看待查詢(xún)和文檔;
(2)基于什么樣的理論和機(jī)制去看待查詢(xún)和文檔的關(guān)系;
(3)如何計(jì)算查詢(xún)和文檔之間的相似度。
因此一個(gè)信息檢索模型應(yīng)該包含幾個(gè)重要因素,即文檔和查詢(xún)的表示、文檔和查詢(xún)的關(guān)系,以及相關(guān)程度的排序方法。下面是信息檢索模型的形式化定義[1]。定義2-1
信息檢索模型是一個(gè)四元組(D,Q,F(xiàn),R(qi,dj)),其中:
(1)D是表示文檔集中的文檔的一組文檔邏輯視圖;
(2)Q是表示用戶(hù)需求的一組邏輯視圖,叫做查詢(xún);
(3)F是一種機(jī)制,用來(lái)模擬文檔表示、查詢(xún)和它們之間的關(guān)系;
(4)R(qi,dj)是排序函數(shù),該函數(shù)輸出一個(gè)表示查詢(xún)qi∈Q和文檔dj∈D相關(guān)程度的實(shí)數(shù),可用來(lái)對(duì)查詢(xún)結(jié)果排序。一般而言,“相關(guān)度”是一個(gè)很難定義的概念,因?yàn)橛脩?hù)的需求往往是模糊的、不斷變化的,另外,語(yǔ)言的復(fù)雜度也加深了信息檢索的匹配難度。為了解決這個(gè)問(wèn)題,檢索模型通常需要對(duì)文檔和查詢(xún)的表示方法進(jìn)行簡(jiǎn)化。首先假設(shè)句子中的詞與詞之間是相互獨(dú)立的,沒(méi)有任何語(yǔ)義聯(lián)系,詞與詞之間的順序也無(wú)關(guān)緊要,這就是通常所說(shuō)的“詞袋模型”(bagofwords)。詞袋方法把每個(gè)文檔看做一個(gè)裝滿(mǎn)詞的詞袋,它認(rèn)為信息檢索完全是文檔中的詞與查詢(xún)中的詞的匹配,“詞袋共享”假設(shè)則認(rèn)為,所有查詢(xún)和文檔的詞都來(lái)源于同一個(gè)詞庫(kù),如果查詢(xún)和文檔共享了一些詞,則它們是相關(guān)的?;谠~袋假設(shè),我們可以用一組有代表性的關(guān)鍵詞,稱(chēng)為索引項(xiàng)(indexterm)或稱(chēng)索引詞,來(lái)表示查詢(xún)和文檔。這些索引項(xiàng)或索引詞是最能夠表述文檔或查詢(xún)的主題的詞語(yǔ)。
定義2-2
索引項(xiàng)是從列表、文件或詞典中提取的關(guān)鍵性的字(word)或詞(phrase),可以反映對(duì)材料內(nèi)容的主要或次要層次上的描述。索引項(xiàng)通常從控制詞匯(controlledvocabulary)中選取,以保證相同的詞具有相同的含義。索引項(xiàng)的選擇還與具體的檢索應(yīng)用相關(guān),不同的檢索應(yīng)用選擇索引項(xiàng)的標(biāo)準(zhǔn)是不相同的。例如全文檢索把所有詞都囊括進(jìn)索引項(xiàng)的范圍之內(nèi),而一般的普通檢索則選擇名詞為索引項(xiàng),因?yàn)槊~本身具有語(yǔ)義,人們能夠比較容易理解它的意思,形容詞、副詞、連詞很少做索引項(xiàng),因?yàn)樗鼈冎饕鹧a(bǔ)充作用,不能單獨(dú)表示語(yǔ)義。這說(shuō)明不同的索引項(xiàng)的表達(dá)作用并不是完全相同的,即不同的索引項(xiàng)對(duì)查詢(xún)或文檔的貢獻(xiàn)不一樣,有些索引項(xiàng)比其他的詞語(yǔ)更重要。例如一個(gè)數(shù)百篇文檔的集合,若一個(gè)詞出現(xiàn)在每一篇文檔中,則這樣的詞通常是不能作為索引項(xiàng)的,因?yàn)樗荒軘⑹鑫臋n內(nèi)容;若某個(gè)詞僅出現(xiàn)在某幾篇文檔中,則它可能就非常有用,因?yàn)樗苡行^(qū)別這幾篇文檔和其他大量文檔。顯然,在描述文檔內(nèi)容時(shí),不同索引項(xiàng)具有不同的能力,因此在描述一篇文檔時(shí),可以給每個(gè)索引項(xiàng)賦予一個(gè)權(quán)重(termweight),不同的權(quán)重決定了一個(gè)索引項(xiàng)對(duì)文檔內(nèi)容描述的貢獻(xiàn)程度。如何確定權(quán)重也是檢索模型要解決的問(wèn)題。定義2-3給出了索引項(xiàng)的權(quán)重的形式化定義。
定義2-3
用t表示系統(tǒng)中索引項(xiàng)的數(shù)目,ki表示第i個(gè)索引項(xiàng),K={k1,k2,…,kt}是所有索引項(xiàng)的集合,wi,j是文檔dj中的索引項(xiàng)ki的權(quán)值,為非負(fù)實(shí)數(shù),當(dāng)ki沒(méi)有出現(xiàn)在文檔dj中時(shí),其對(duì)應(yīng)的權(quán)值wi,j=0。文檔dj可以用所有索引項(xiàng)對(duì)該文檔的權(quán)值向量來(lái)表示:dj=(w1,j,w2,j,…,wt,j)。此外,函數(shù)gi用來(lái)表示索引項(xiàng)ki和文檔dj之間的關(guān)系,即gi(dj)=wi,j。
2.2布爾模型
布爾模型是基于集合理論和布爾代數(shù)的一種簡(jiǎn)單的檢索模型。在布爾模型中,一個(gè)文檔被表示為索引項(xiàng)的集合,而查詢(xún)則被表示為索引項(xiàng)的布爾組合,用“與(AND)、或(OR)、非(NOT)”連接起來(lái),并可用括弧指示優(yōu)先次序,稱(chēng)為布爾查詢(xún)式。匹配過(guò)程則是:一個(gè)文檔當(dāng)且僅當(dāng)它能夠滿(mǎn)足布爾查詢(xún)式時(shí),才被檢索出來(lái)。
布爾模型是早期信息檢索系統(tǒng)最常用的檢索模型,這是因?yàn)樗母拍钪庇^,查詢(xún)簡(jiǎn)單,容易理解。另外,通過(guò)使用復(fù)雜的布爾表達(dá)式,還可以方便地控制查詢(xún)結(jié)果。布爾模型假定索引項(xiàng)在文檔中要么出現(xiàn),要么不出現(xiàn),因此,索引項(xiàng)的權(quán)值全部被設(shè)定為二值數(shù)據(jù),即wi,j∈{0,1},查詢(xún)q可由連接詞not、and、or連接起來(lái)的多個(gè)索引項(xiàng)組成。因此查詢(xún)q本質(zhì)上是一個(gè)常規(guī)的布爾表達(dá)式,它可以表示為多個(gè)合取向量的析取,即析取范式(DisjunctionNormalForm,DNF)[2]。
例如,查詢(xún)q=ka∧(kb∨┐kc)可以寫(xiě)成析取范式qdnf=(1,1,1)∨(1,1,0)∨(1,0,0)的形式,其中的每個(gè)分量都是三元組(ka,kb,kc)的二值加權(quán)向量,這些二值加權(quán)向量稱(chēng)為qdnf的合取分量。圖2-3列舉了查詢(xún)q的三個(gè)合取分量。圖2-3查詢(xún)式q=ka∧(kb∨┐kc)的三個(gè)合取分量
【例2-1】
將查詢(xún)式q=ka∧(kb∨┑kc)改寫(xiě)成析取范式。
解:推演過(guò)程如下:布爾模型的文檔與查詢(xún)的相似度定義如下:定義2-4
用qdnf表示查詢(xún)q的析取范式,qcc表示qdnf的任意合取分量,gi(dj)和gi(qcc)分別表示索引項(xiàng)ki在文檔dj和查詢(xún)q中的權(quán)重,文檔dj和查詢(xún)q的相似度可以定義為:
如果sim(dj,q)=1,則布爾模型表示文檔dj與查詢(xún)q相關(guān),否則不相關(guān)。即只要查詢(xún)析取范式中的任一合取分量是某一文檔的布爾向量表示,則這個(gè)文檔和查詢(xún)相關(guān)。
因此,用布爾模型進(jìn)行檢索的主要步驟如下所述。(2-1)
(1)將文檔集中的每個(gè)文檔表示為索引項(xiàng)的布爾向量;
(2)將查詢(xún)表示為析取范式;
(3)根據(jù)相似度計(jì)算公式(2-1)計(jì)算各文檔與查詢(xún)的相似度;
(4)如果相似度為1,表示匹配,可將該文檔作為結(jié)果輸出;如果相似度為0,表示不匹配,認(rèn)為該文檔不滿(mǎn)足用戶(hù)的需求。
【例2-2】
有一個(gè)由4個(gè)文檔(d1,d2,d3,d4)組成的文檔集,其中:d1=“computerinformationretrieval”;d2=“computerretrieval”;d3=“information”;d4=“computerinformation”?,F(xiàn)在有兩個(gè)查詢(xún)分別為:q1=“information∧retrieval”,q2=“information∧┒computer”,如果采用布爾檢索模型,則這兩個(gè)查詢(xún)q1和q2在該文檔集中分別可以檢索出哪些文檔?
解:首先注意到,該文檔集的索引項(xiàng)K={k1,k2,k3}={computer,information,retrieval}。
第一步:文檔表示,根據(jù)這些索引項(xiàng)是否出現(xiàn)在該文檔中,4個(gè)文檔分別表示為如下布爾向量:
d1={1,1,1};d2={1,0,1};d3={0,1,0};d4={1,1,0}第二步:查詢(xún)表示,兩個(gè)查詢(xún)分別可以表示為如下的析取范式:
q1={0,1,1}∨{1,1,1};q2={0,1,0}∨{0,1,1}
第三步:計(jì)算各文檔與查詢(xún)的相似度:
sim(d1,q1)=1,sim(d2,q1)=0,sim(d3,q1)=0,sim(d4,q1)=0;
sim(d1,q2)=0,sim(d2,q2)=0,sim(d3,q2)=1,sim(d4,q2)=0
第四步,輸出檢索結(jié)果:對(duì)查詢(xún)q1,檢索結(jié)果是d1;對(duì)于查詢(xún)q2,檢索結(jié)果是d3。一般認(rèn)為,布爾模型具有計(jì)算簡(jiǎn)單(simplicity)、容易理解(easyunderstanding)、簡(jiǎn)潔的形式化(cleanformalism)等突出優(yōu)點(diǎn)。所以早期的信息檢索系統(tǒng)很多采用布爾模型,但是布爾模型存在一些問(wèn)題,如:
(1)不支持部分匹配(partialmatch),檢索結(jié)果都是完全匹配的,要么相關(guān),要么不相關(guān)。而完全匹配可能導(dǎo)致返回太多或者太少的結(jié)果文檔。
(2)文檔和查詢(xún)表示采用布爾權(quán)重,是高度的概括,無(wú)法真實(shí)客觀地反映文檔和查詢(xún)。
(3)采用布爾模型的輸出結(jié)果無(wú)法進(jìn)行排序,如果輸出結(jié)果多,將導(dǎo)致用戶(hù)無(wú)法選擇。
2.3向量模型
向量模型[3-5]又叫向量空間模型(VectorSpaceModel,VSM),是基于代數(shù)的一種常用模型。向量模型試圖克服布爾模型的缺陷,它采用非布爾向量來(lái)表示文檔和查詢(xún),采用非二值實(shí)數(shù)表示相似度,這樣輸出結(jié)果就可以按照文檔和查詢(xún)的相似程度來(lái)進(jìn)行排序了,客觀上實(shí)現(xiàn)了部分匹配。采用向量空間模型最明顯的效果就是能提供排序的結(jié)果集,這個(gè)結(jié)果集比通過(guò)布爾模型得到的結(jié)果集要合理得多,從某種意義上說(shuō),能更好地匹配用戶(hù)的信息需求。定義2-5
對(duì)于向量模型,文檔向量和查詢(xún)向量可以分別表示如下:
dj=(w1,j,w2,j,…,wt,j)
q=(w1,q,w2,q,…,wt,q)
上面的定義中,t是系統(tǒng)中索引項(xiàng)(關(guān)鍵詞)的數(shù)目;wi,j是二元組(ki,dj)的權(quán)值,表示索引項(xiàng)ki在文檔dj中的權(quán)重,wi,j≥0;wi,q表示二元組(ki,q)的權(quán)值,表示索引項(xiàng)ki在查詢(xún)q中的權(quán)重,wi,q≥0。按照上述向量模型的定義,信息檢索系統(tǒng)中如果包含n個(gè)索引項(xiàng),則可以建立一個(gè)n維的向量空間,每一維都代表不同的索引項(xiàng),例如:(中國(guó),廣東,華南,理工,大學(xué),……)。文檔向量是一個(gè)n元組,其中的每個(gè)坐標(biāo)都通過(guò)對(duì)應(yīng)索引項(xiàng)的權(quán)重來(lái)表示。權(quán)重越大,則相應(yīng)索引項(xiàng)對(duì)該文檔來(lái)說(shuō)越重要。例如:(中國(guó):0.12,廣東:0.8,華南:1.6,理工:3.6,大學(xué):2.9,……)。查詢(xún)向量與文檔向量類(lèi)似,只不過(guò)查詢(xún)向量中的索引項(xiàng)的權(quán)重表示該索引項(xiàng)對(duì)于用戶(hù)而言的重要程度。一般說(shuō)來(lái),如果以[0,1]表示權(quán)重的取值范圍,權(quán)重1則表示期望在文檔中出現(xiàn)的詞條,而0表示不希望出現(xiàn)的詞條。2.3.1索引項(xiàng)權(quán)重
向量空間模型的關(guān)鍵是采用索引項(xiàng)權(quán)重將文檔或查詢(xún)表示成向量。索引項(xiàng)的權(quán)重代表著索引項(xiàng)的表述能力、相關(guān)度和重要性,它的取值直接影響檢索的結(jié)果。
向量模型本身沒(méi)有規(guī)定采用什么方法計(jì)算索引項(xiàng)的權(quán)重,下面介紹一些比較常用的計(jì)算權(quán)重的方法:
(1)二元法。索引項(xiàng)在文檔中出現(xiàn),其權(quán)重值計(jì)為1;索引項(xiàng)在文檔中不出現(xiàn),其權(quán)重值計(jì)為0。即采用布爾向量來(lái)表征文檔或查詢(xún),這時(shí),向量模型退化為布爾模型。
(2)TF法。權(quán)重值等于索引項(xiàng)在文檔中出現(xiàn)的頻率,即詞頻(TermFrequency,TF)。設(shè)ki表示給定的索引項(xiàng),dj表示文檔,則TF公式如下所示:(2-2)采用詞頻作為權(quán)重,在一定程度上客觀地反映了這樣一個(gè)事實(shí),即在某個(gè)文檔中出現(xiàn)次數(shù)越多的索引項(xiàng)對(duì)該文檔描述的內(nèi)容貢獻(xiàn)越大。但需要注意到,一些介詞、量詞、語(yǔ)氣詞如“的”、“呢”和“呀”等大量重復(fù)出現(xiàn)于文檔中,而這些詞對(duì)內(nèi)容的描述性不強(qiáng),因此需要考慮去除這些詞的影響。
(3)TFIDF法。只采用詞頻來(lái)計(jì)算權(quán)重值,有時(shí)并不能很好地在文檔之間進(jìn)行區(qū)分。比如一個(gè)索引項(xiàng)在一個(gè)文檔里經(jīng)常出現(xiàn),其TF值很高,但如果它在所有文檔中都頻繁出現(xiàn),則它并不能很好地代表這個(gè)文檔,不具有很好的區(qū)別能力。所以常常采用TFIDF來(lái)計(jì)算權(quán)重。IDF稱(chēng)為逆文檔頻率(InverseDocumentFrequency),它表示索引項(xiàng)的辨別能力,即這個(gè)索引項(xiàng)將某個(gè)文檔區(qū)別于其他文檔的能力。將TF和IDF結(jié)合起來(lái)表示文檔和查詢(xún)向量是目前最常用的方法。下面是IDF和TFIDF權(quán)重的定義:(2-3)(2-4)公式(2-3)中:N表示文檔集中文檔的個(gè)數(shù);ni表示包含索引項(xiàng)ki的文檔個(gè)數(shù)。從上面的定義可以看到,如果wi在很多文檔中普遍出現(xiàn),則ni值將會(huì)很大,而idfi值則相應(yīng)很小,這反映了普遍出現(xiàn)的單詞的區(qū)分能力低的事實(shí)。如果索引項(xiàng)只出現(xiàn)于一個(gè)文檔中,很有可能是這個(gè)文檔的代表詞,此時(shí)該索引項(xiàng)的idf值達(dá)到最大值,而wi的權(quán)重值wi,j也相應(yīng)很大,反映了該索引項(xiàng)的重要程度。
可以對(duì)公式(2-4)進(jìn)行適當(dāng)?shù)淖冃?。比如,tfi,j采用標(biāo)準(zhǔn)化頻率fi,j代替:(2-5)(2-6)(2-7)式中:freqi,j表示索引項(xiàng)ki在文檔dj中的出現(xiàn)頻率,即索引項(xiàng)ki在文檔dj中被提及的次數(shù)。式(2-4)、(2-6)和公式的一些變形[6],是最常用的索引項(xiàng)加權(quán)方案,稱(chēng)為T(mén)F-IDF方案(TF-IDFschema)。查詢(xún)中的索引項(xiàng)的權(quán)重可以用類(lèi)似的方法計(jì)算[6]:2.3.2相似度量
前面已經(jīng)介紹過(guò),在向量空間模型中,查詢(xún)和文檔都可用向量來(lái)表示,因此,在向量模型中,查詢(xún)和文檔的相似度計(jì)算就是比較查詢(xún)向量和文檔向量之間的相似程度,如圖2-4所示。
通過(guò)計(jì)算查詢(xún)和文檔之間的相似度,檢索系統(tǒng)可以根據(jù)相似度大小對(duì)文檔進(jìn)行排序,作為該查詢(xún)的檢索輸出;也可以通過(guò)設(shè)定閾值,控制被檢索出來(lái)的文檔的數(shù)量,把相似度低于閾值的文檔忽略,不輸出給用戶(hù);還可用于相關(guān)反饋中,以便對(duì)原始的查詢(xún)式進(jìn)行修正,這將在第5章講述。圖2-4余弦相似度的一個(gè)例子向量相似度的計(jì)算方法有很多,比較常用的方法有內(nèi)積和余弦方法。
(1)內(nèi)積(InnerProduct)法。文檔向量d和查詢(xún)向量q之間的相似度通過(guò)內(nèi)積進(jìn)行計(jì)算:(2-8)其中,wk,d是文檔d中的詞項(xiàng)k的權(quán)重,wk,q是查詢(xún)q中索引項(xiàng)k的權(quán)重。對(duì)于二值向量,內(nèi)積是查詢(xún)中的索引項(xiàng)和文檔中的索引項(xiàng)相互匹配的數(shù)量,對(duì)于加權(quán)向量,內(nèi)積是查詢(xún)式和文檔中相互匹配的索引項(xiàng)的權(quán)重乘積之和。下面是內(nèi)積計(jì)算的兩個(gè)例子:
【例2-3】
如果用二元法表示的文檔d和查詢(xún)向量q如下所示:
d=(1,1,1,0,1,1,0),q=(1,0,1,0,0,1,1)
試用內(nèi)積法計(jì)算d和q之間的相似度。
解:根據(jù)公式(2-8),可得:
sim(d,q)=1×1+1×0+1×1+0×0+1×0+1×1+0×1=3
得到的相似度結(jié)果說(shuō)明,有3個(gè)索引項(xiàng)(第1、第3和第6個(gè))既出現(xiàn)在查詢(xún)中,又出現(xiàn)在文檔中。
【例2-4】
如果用加權(quán)向量表示的文檔d1、d2和查詢(xún)q如下所示:
d1=(2,3,5),d2=(3,7,1),q=(0,0,2)
試用內(nèi)積法計(jì)算相似度,并說(shuō)明哪個(gè)文檔和查詢(xún)q更相似。解:根據(jù)公式(2-8)計(jì)算,分別得到d1和查詢(xún)q及d2和查詢(xún)q的相似度:得到的相似度結(jié)果表明,d1更接近查詢(xún)q,更符合用戶(hù)的查詢(xún)需求。要注意到,用內(nèi)積計(jì)算出來(lái)的相似度幾乎是沒(méi)有上限的。用內(nèi)積來(lái)計(jì)算相似度,相對(duì)來(lái)說(shuō),對(duì)長(zhǎng)文檔較有利,因?yàn)樗捎糜谟?jì)算的索引項(xiàng)更多。同時(shí),如果索引項(xiàng)多次出現(xiàn),用于計(jì)算的權(quán)值更大,導(dǎo)致計(jì)算結(jié)果增加,更容易被檢索出來(lái)。
(2)余弦(Cosine)法是計(jì)算相似度時(shí)經(jīng)常采用的一種方法,事實(shí)上,余弦相似度是利用向量長(zhǎng)度對(duì)內(nèi)積進(jìn)行歸一化的結(jié)果,它代表兩個(gè)向量之間的夾角的余弦,夾角較小的向量比較相近,因此夾角較小的查詢(xún)向量和文檔向量之間的相似度(余弦值)較大。余弦法相似度公式如下:(2-9)其中,wk,i表示文檔di中的索引項(xiàng)k的權(quán)重,wk,q表示查詢(xún)式q中索引項(xiàng)k的權(quán)重,t是文檔集中詞項(xiàng)的個(gè)數(shù)。
【例2-5】
如果用加權(quán)向量表示的文檔d1、d2和查詢(xún)q如下所示:
d1=(2,3,5),d2=(3,7,1),q=(0,0,2)
試用余弦法計(jì)算相似度,并說(shuō)明哪個(gè)文檔和查詢(xún)q更相似。
解:如果使用余弦法計(jì)算相似度,則根據(jù)公式(2-9),可得到:得到的相似度結(jié)果表明,d1更接近查詢(xún)q,更符合用戶(hù)的查詢(xún)。余弦法對(duì)內(nèi)積進(jìn)行了規(guī)范化處理,相似度結(jié)果值被控制在[0,1]區(qū)間。另外,從例2-4和例2-5可看出,用余弦計(jì)算相似度,d1和查詢(xún)q的相似度是d2和查詢(xún)q的相似度的6倍多,而用內(nèi)積計(jì)算,d1和查詢(xún)q的相似度是d2和查詢(xún)q的相似度的5倍,因此,余弦法提高了區(qū)分能力。
同時(shí),可以看出,內(nèi)積相似度比較偏向于長(zhǎng)文檔。為了降低文檔長(zhǎng)度對(duì)相關(guān)度的影響,采用余弦相似度更合適。2.3.3計(jì)算方法
前面介紹了基于索引項(xiàng)權(quán)重構(gòu)造文檔和查詢(xún)向量,以及文檔向量和查詢(xún)向量的相似度的計(jì)算方法,
在此基礎(chǔ)上就可以實(shí)現(xiàn)基于向量模型的信息檢索了。用向量模型進(jìn)行檢索的主要步驟如下所述。
(1)根據(jù)公式(2-4)或(2-6)計(jì)算文檔的索引項(xiàng)權(quán)重,用索引項(xiàng)向量表示文檔。
(2)根據(jù)公式(2-7)計(jì)算查詢(xún)的索引項(xiàng)權(quán)重,用索引項(xiàng)向量表示查詢(xún)。
(3)基于公式(2-8)或(2-9)計(jì)算每個(gè)文檔向量和查詢(xún)向量的相似度。
(4)按照文檔向量和查詢(xún)向量的相似度,排序輸出檢索結(jié)果。下面舉例說(shuō)明如何利用向量模型進(jìn)行檢索。
【例2-6】
文檔集中有4個(gè)文檔如下所示:
d1=“computerinformationretrieval”,d2=“computerretrieval”,
d3=“information”,d4=“computerinformation”;
對(duì)下述兩個(gè)查詢(xún),使用向量模型進(jìn)行檢索,排序輸出結(jié)果是什么?
q1=“information∧retrieval”,q2=“information∧computer”。
解:文檔集中的索引項(xiàng)K={k1,k2,k3}={computer,information,retrieval},索引項(xiàng)個(gè)數(shù)t為3,文檔數(shù)N為4。
第一步:采用TF-IDF式(2-4)分別表示4個(gè)文檔,得到文檔的向量表示為
計(jì)算過(guò)程如表2-1所示。第二步:采用來(lái)表示兩個(gè)查詢(xún)。計(jì)算過(guò)程如表2-2所示。第三步:采用余弦法計(jì)算相似度。
sim(d1,q1)=0.9946sim(d1,q2)=0.9794
sim(d2,q1)=0.9205sim(d2,q2)=0.8156
sim(d3,q1)=0.3636sim(d3,q2)=0.6
sim(d4,q1)=0.3850sim(d4,q2)=0.6353
第四步:排序輸出檢索結(jié)果,對(duì)于查詢(xún)q1,排序檢索結(jié)果為d1,d2,d4,d3;對(duì)于查詢(xún)q2,排序檢索結(jié)果為d1,d2,d4,d3。
通過(guò)上面的例子,可以看出向量模型的主要優(yōu)點(diǎn)有:
(1)一般來(lái)說(shuō),權(quán)重算法提高了檢索的性能。很多文檔用向量模型描述比用布爾模型能夠得到更加正確的結(jié)果;
(2)部分匹配的策略使得檢索的結(jié)果文檔集更接近用戶(hù)的檢索需求;
(3)可以根據(jù)相似度,對(duì)文檔進(jìn)行排序,把排序后的結(jié)果輸出給用戶(hù)。
向量模型也存在缺點(diǎn),主要表現(xiàn)在:在向量模型中,關(guān)鍵詞是被假設(shè)為相互獨(dú)立的,而實(shí)際上一個(gè)文檔中的索引項(xiàng)之間可能存在著一定的聯(lián)系;在查詢(xún)中,不能像布爾模型一樣使用邏輯關(guān)系來(lái)表示查詢(xún)請(qǐng)求。
盡管向量模型結(jié)構(gòu)簡(jiǎn)單,但其適應(yīng)性很強(qiáng),還可以通過(guò)查詢(xún)擴(kuò)展和相關(guān)反饋(見(jiàn)第5章),改善結(jié)果集合,重新排序輸出給用戶(hù),以更接近用戶(hù)的真實(shí)需求。因此,向量模型的性能相當(dāng)好,向量模型已經(jīng)成為目前流行的檢索模型。
2.4概率模型
與布爾模型、向量空間模型不同,概率模型[7]試圖在一個(gè)概率框架中處理信息檢索問(wèn)題。其基本的思路如下:給定一個(gè)用戶(hù)的查詢(xún),存在一個(gè)理想結(jié)果集(idealanswerset),這個(gè)集合里面包含完全相關(guān)的文檔,不包含任何不相關(guān)的文檔。檢索的過(guò)程,實(shí)際上就是追求理想結(jié)果集的過(guò)程。
理想結(jié)果集具有哪些屬性,檢索開(kāi)始的時(shí)候并不清楚。所以,需要利用索引項(xiàng)的語(yǔ)義來(lái)刻畫(huà)這些屬性,在查詢(xún)開(kāi)始的時(shí)候要對(duì)理想結(jié)果集的屬性作猜測(cè)。運(yùn)用這個(gè)初始猜測(cè)產(chǎn)生一個(gè)初步的對(duì)理想結(jié)果集的概率描述,用于檢索出初始的文檔集。然后引入用戶(hù)的交互,改善理想結(jié)果集的概率描述,以更接近用戶(hù)的信息檢索需求。用戶(hù)的交互過(guò)程如下:用戶(hù)瀏覽檢出的文檔,并決定哪些文本是相關(guān)的,哪些是無(wú)關(guān)的。然后,系統(tǒng)利用這個(gè)信息,修改理想結(jié)果集的描述。通過(guò)多次重復(fù)這個(gè)過(guò)程,使得這個(gè)描述逐步接近理想結(jié)果集。
經(jīng)典的概率模型是基于以下的概率原則的基本假設(shè):給定一個(gè)用戶(hù)查詢(xún)q和文檔集中的一個(gè)文檔dj,概率模型試圖估計(jì)用戶(hù)查詢(xún)q和文檔dj相關(guān)的概率,概率模型認(rèn)為該相關(guān)概率只依賴(lài)于查詢(xún)和文檔的表示;同時(shí),模型假設(shè)在文檔集中存在一個(gè)子集,它是查詢(xún)q的結(jié)果集。理想結(jié)果集記為R,它使得總體的相關(guān)概率最大。集合R中的文檔被認(rèn)為是與查詢(xún)相關(guān)的,不在集合R中的文檔則被認(rèn)為是不相關(guān)的。對(duì)于概率模型,索引項(xiàng)的權(quán)重變量都是二值(Binary)的,即wi,j∈{0,1},wi,q∈{0,1}。查詢(xún)q是索引項(xiàng)的一個(gè)子集。設(shè)R是已知的相關(guān)文檔集,是R的補(bǔ)集,即非相關(guān)文檔集。設(shè)P(R|dj)是文檔dj與查詢(xún)q相關(guān)的概率,P(
|dj)是文檔dj與查詢(xún)q不相關(guān)的概率。文檔dj與查詢(xún)q的相似度sim(dj,q)可用這兩個(gè)概率定義如下:(2-10)(2-11)根據(jù)貝葉斯定理,公式(2-10)變換成:式中:P(dj|R)表示從相關(guān)文檔集R中隨機(jī)選擇文檔dj的概率;P(R)代表從整個(gè)文檔集中隨機(jī)選擇一個(gè)文檔是相關(guān)的概率;P(dj|
)代表從中選擇文檔dj的概率;P(
)表示從整個(gè)文檔集中隨機(jī)選擇一個(gè)文檔是不相關(guān)的概率。
因?yàn)閷?duì)文檔集中的每一個(gè)文檔來(lái)說(shuō),P(R)和P(
)都是一樣的,于是相似度可改寫(xiě)成:(2-12)假設(shè)索引項(xiàng)ki是獨(dú)立的,則得到:(2-13)式中:P(ki|R)為索引項(xiàng)ki在R文檔集的某個(gè)文檔中隨機(jī)出現(xiàn)的概率,P(
|R)為索引項(xiàng)ki不在R文檔集的某個(gè)文檔中隨機(jī)出現(xiàn)的概率;P(ki|
)為索引項(xiàng)ki在文檔集的某個(gè)文檔中隨機(jī)出現(xiàn)的概率;P(
|
)為索引項(xiàng)ki不在文檔集的某個(gè)文檔中隨機(jī)出現(xiàn)的概率。顯然,這幾個(gè)概率之間存在如下的關(guān)系:(2-14)(2-15)應(yīng)用公式(2-14)和(2-15),且對(duì)式(2-13)取對(duì)數(shù),不計(jì)常數(shù)因子,得到:(2-16)公式(2-16)就是概率模型中用于排序計(jì)算的表達(dá)式。但在式(2-16)中,需要計(jì)算概率P(ki|R)和P(ki|
)的值。概率模型一般采取估計(jì)的方法獲得概率初值,然后采用相關(guān)反饋,不斷調(diào)整概率估計(jì)值,直至得到一個(gè)滿(mǎn)意的結(jié)果集。
估計(jì)P(ki|R)和P(ki|
)概率初值的方法基于以下簡(jiǎn)單假設(shè):
(1)假定P(ki|R)對(duì)于所有索引項(xiàng)ki是一定的,通常取值0.5。
(2)假定不相關(guān)的文檔中索引項(xiàng)的分布可以通過(guò)文檔集中的所有文檔的索引項(xiàng)分布來(lái)估計(jì)。
根據(jù)以上假設(shè),則可以得到P(ki|R)和P(ki|
):
(2-17)式中:ni表示包含索引項(xiàng)ki的文檔的數(shù)目;N表示集合中的文檔總數(shù)。
在得到概率初值后,就可以利用公式(2-16)計(jì)算查詢(xún)和文檔的相似度,并得到一個(gè)初始排序結(jié)果集,這個(gè)結(jié)果集也許還相當(dāng)粗糙,是個(gè)不準(zhǔn)確的集合。接下來(lái)的工作就是不斷調(diào)整概率,不斷逼近理想結(jié)果集和用戶(hù)的真正需求。
將檢索出的初始排序結(jié)果集記為V,它是文檔集的一個(gè)子集,用Vi表示V中包含索引項(xiàng)ki的子集,而|Vi|和|V|分別表示相應(yīng)集合中的文檔個(gè)數(shù),用以下公式改進(jìn)對(duì)P(ki|R)和P(ki|
)的估計(jì)。(2-18)
公式(2-18)將已檢出文檔中索引項(xiàng)的分布作為P(ki|R)的概率估計(jì);未檢出的文檔都是不相關(guān)的,且根據(jù)包含索引項(xiàng)的未檢出文檔在未檢出文檔集上的分布來(lái)估計(jì)P(ki|
),現(xiàn)在可以再次計(jì)算相似度了。這個(gè)過(guò)程可以重復(fù)遞歸進(jìn)行,直至得到用戶(hù)滿(mǎn)意的效果。
在利用公式(2-18)和(2-19)時(shí),如果|V|和|Vi|的值較小,如|V|=1和|Vi|=0時(shí),可能會(huì)引起一些計(jì)算問(wèn)題。為了避免這種問(wèn)題的發(fā)生,可以對(duì)這兩個(gè)公式作不同的變形,式(2-20)~式(2-23)是4個(gè)常用的變形公式。(2-19)(2-20)(2-21)(2-22)(2-23)綜上所述,用概率模型進(jìn)行檢索的主要步驟如下所述:
(1)用布爾向量表示文檔和查詢(xún);
(2)根據(jù)公式(2-17)設(shè)定概率初值,根據(jù)公式(2-16)計(jì)算每個(gè)文檔向量和查詢(xún)向量的相似度;
(3)按照文檔向量和查詢(xún)向量的相似度,排序輸出初始排序結(jié)果集;
(4)在初始結(jié)果集,用戶(hù)指定或按缺省約定選擇相關(guān)文檔,形成相關(guān)文檔集合;
(5)根據(jù)公式(2-18)和(2-19)或其變形公式,計(jì)算初始概率分布;
(6)重新計(jì)算各文檔與查詢(xún)的相似度,排序輸出最終結(jié)果集。
【例2-7】
文檔集中有3個(gè)文檔d1、d2、d3,還有一個(gè)查詢(xún)q,分別表示如下:
d1:“Shipmentofgolddamagedinafire”
d2:“Deliveryofsilverarrivedinasilvertruck”
d3:“Shipmentofgoldarrivedinatruck”
q:“goldsilvertruck”
問(wèn),利用概率模型,查詢(xún)q的檢索結(jié)果是什么?
解:先計(jì)算文檔中的所有索引項(xiàng)的逆文檔頻率(IDF),顯然N=3,則文檔集中詞項(xiàng)的IDF如下:
索引項(xiàng)a、in和of在3個(gè)文檔均有出現(xiàn),其ni=3,則其idf=lg(3/3)=0。索引項(xiàng)arrived、gold、shipment和truck只在兩個(gè)文檔中出現(xiàn),則其idf=lg(3/2)=0.176。
索引項(xiàng)damaged、delivery、fire和silver只在一個(gè)文檔中出現(xiàn),則其idf=lg(3/1)=0.477。
可見(jiàn),a、in和of在文檔集中的文檔分辨能力為零,將它們?nèi)サ?,只選擇其他8個(gè)詞項(xiàng)作為索引項(xiàng)。為了敘述方便,這些索引項(xiàng)被賦予一個(gè)序號(hào),即括號(hào)內(nèi)的數(shù):
arrived(1),damaged(2),delivery(3),fire(4),gold(5),silver(6),shipment(7),truck(8)
第一步:分別用布爾向量表示文檔和查詢(xún),向量中的“0”表示該索引項(xiàng)不在該文檔中出現(xiàn),向量中的“1”表示該索引項(xiàng)在該文檔中出現(xiàn),向量元素的位置就是索引項(xiàng)序號(hào)。則各文檔和查詢(xún)可表示為:
d1={0,1,0,1,1,0,1,0}
d2={1,0,1,0,0,1,0,1}
d3={1,0,0,0,1,0,1,1}
q={0,0,0,0,1,1,0,1}。
第二步:計(jì)算相似度。
初始假設(shè)如下:
p(ki|R)=0.5因此計(jì)算得:
第三步:利用相關(guān)反饋,修正概率,不斷逼近理想結(jié)果。相關(guān)反饋可以沒(méi)有用戶(hù)參加,也可以有用戶(hù)參加,下面分兩種情形來(lái)討論檢索的結(jié)果。
(1)考慮沒(méi)有用戶(hù)參與,即與用戶(hù)無(wú)交互。如果缺省假設(shè)檢出的首個(gè)文檔是相關(guān)的,其他是不相關(guān)的,則文檔d2是相關(guān)的,根據(jù)以下公式及表2-3:計(jì)算得:在這種情形下,系統(tǒng)向用戶(hù)輸出排序結(jié)果集:d2、d3、d1。
(2)考慮有用戶(hù)參與,即和用戶(hù)有交互的情形,例如用戶(hù)認(rèn)為檢出的兩個(gè)文檔d2和d1均相關(guān),則可計(jì)算得到下列表2-4。重新計(jì)算各文檔與查詢(xún)的相似度:在這種情形下,系統(tǒng)向用戶(hù)輸出排序結(jié)果集:d2、d3、d1。根據(jù)上面的介紹,將概率模型的主要優(yōu)點(diǎn)總結(jié)如下:結(jié)果集可以排序輸出,效果要明顯優(yōu)于布爾模型;可以將用戶(hù)的意愿加入到檢索過(guò)程中,更加逼近用戶(hù)的真實(shí)需求。概率模型也有如下缺點(diǎn):
(1)與向量模型一樣,假設(shè)關(guān)鍵詞之間相互獨(dú)立;
(2)需要最初把文檔分為相關(guān)和不相關(guān)的集合,這是一種粗略的估計(jì),可能存在較大的偏差;
(3)在對(duì)文檔和查詢(xún)進(jìn)行表示時(shí),采用的是布爾值,不考慮索引項(xiàng)在文檔中出現(xiàn)的次數(shù),即所有的權(quán)重都是二值的。
2.5擴(kuò)展的布爾模型
由于布爾模型存在一些固有缺陷,歷年來(lái),研究人員對(duì)它作了很多改進(jìn)和擴(kuò)展,本節(jié)主要介紹兩個(gè)擴(kuò)展模型:模糊集合模型和擴(kuò)展布爾模型。
2.5.1模糊集合模型
布爾模型中,文檔和查詢(xún)都是用布爾值來(lái)表示的,相似度也是二值化的,這樣雖然簡(jiǎn)化了操作,是一種高度的抽象,但實(shí)際上完全不符合客觀事實(shí)。模糊集合模型[8]試圖用隸屬度來(lái)取代布爾量,以更貼近所表示的客觀事實(shí)。其主要思想是:將每一個(gè)查詢(xún)?cè)~語(yǔ)(查詢(xún)的索引項(xiàng))定義為一個(gè)模糊集合,每個(gè)文檔在這個(gè)集合中都有一個(gè)隸屬度。隸屬度是模糊集合理論(FuzzySetTheory)[9]中的基本概念。模糊集合理論研究的是邊界不明確的集合的表示,其中心思想是把隸屬函數(shù)(membershipfunction)和集合中的元素結(jié)合在一起。該函數(shù)的取值在區(qū)間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0和1之間表示集合中的邊界元素。
定義2-6
論域U的一個(gè)模糊子集A可以用隸屬函數(shù)μA來(lái)描述,
μA∶→[0,1],為U的每個(gè)元素u分配一個(gè)數(shù)值μA(u),該數(shù)值在區(qū)間[0,1]上。
模糊集合中最常用的三種運(yùn)算分別為:模糊集合的補(bǔ)運(yùn)算、兩個(gè)或多個(gè)集合的并運(yùn)算、兩個(gè)或多個(gè)模糊集合的交運(yùn)算。其定義如下:定義2-7
U表示論域,A和B分別表示U的兩個(gè)模糊子集,是A關(guān)于U的補(bǔ)集,u表示U的元素,則有:(2-24)把系統(tǒng)中的所有索引項(xiàng)定義成一個(gè)詞-詞關(guān)聯(lián)矩陣(term-termcorrelationmatrix)C,該矩陣的行和列分別對(duì)應(yīng)文檔集中的索引項(xiàng),矩陣C的每個(gè)元素ci,l叫做索引項(xiàng)ki和kl的標(biāo)準(zhǔn)化關(guān)聯(lián)因子,定義如下:(2-25)式中:ni和nl分別表示包含索引項(xiàng)ki和kl的文檔數(shù)目;ni,l表示同時(shí)包含詞ki和kl的文檔數(shù)目。
文檔的表示現(xiàn)在可以使用關(guān)聯(lián)矩陣C來(lái)定義了。首先每個(gè)索引項(xiàng)ki都存在一個(gè)相關(guān)聯(lián)的模糊集合,在這個(gè)集合里,文檔dj的隸屬度定義如下:(2-26)上面的定義反映了索引詞ki和文檔dj的關(guān)系。如果文檔dj自身的語(yǔ)詞和ki有關(guān),則該文檔屬于ki的模糊集合。只要文檔dj中至少有一個(gè)索引詞kl與索引詞ki密切相關(guān)(如ci,l≈1),則μi,j≈1,且索引詞ki是文檔dj的一個(gè)很好的模糊索引。如果文檔所有索引詞與索引詞ki不是密切相關(guān)的,則索引詞ki不是文檔dj的一個(gè)很好的模糊索引詞(如μi,j≈0)。這樣,文檔dj即可以使用隸屬度而非布爾向量表示。查詢(xún)q用模糊集合Dq表示,是與查詢(xún)析取范式的各合取分量相關(guān)聯(lián)的模糊集合的并集。那么文檔dj在模糊集合Dq中的隸屬度定義如下:(2-27)其中,M是查詢(xún)析取范式的合取分量個(gè)數(shù),μcci,j是合取分量集合中文檔dj的隸屬度,它可以用與查詢(xún)?cè)~相關(guān)聯(lián)的文檔dj的隸屬度來(lái)表示。公式(2-27)可用來(lái)對(duì)相關(guān)文檔進(jìn)行排序,向用戶(hù)排序輸出與查詢(xún)相關(guān)的文檔。
【例2-8】
考慮查詢(xún)q=ka∧(kb∨┐kc),其析取范式是qdnf=(1,1,1)∨(1,1,0)∨(1,0,0)用cci表示第i個(gè)合取分量,則qdnf=cc1∨cc2∨cc3,試采用模糊集合理論分析查詢(xún)、文檔的表示。
解:用Da表示與索引項(xiàng)ka相關(guān)聯(lián)的文檔的模糊集合,該集合由隸屬度μa,j大于給定閾值M的文檔dj組成。用表示Da的補(bǔ)集,模糊集合與相關(guān)聯(lián),它是詞ka的否定。類(lèi)似地,我們可以分別定義詞kb的模糊集合Db和詞kc的模糊集合Dc。
圖2-5說(shuō)明了這一實(shí)例。因?yàn)樗屑隙际悄:?,即使文檔dj的文本中并不包含ka,該文檔也可能屬于集合Da。圖2-5查詢(xún)q=ka∧(kb∨┐kc)的模糊文檔集合查詢(xún)模糊集合Dq是與qdnf的三個(gè)合取分量相關(guān)聯(lián)的模糊集合的并集。模糊結(jié)果集合Dq中文檔dj的隸屬度可以通過(guò)下面公式來(lái)計(jì)算:
式中:μi,j(i∈{a,b,c})為文檔dj在與ki有關(guān)聯(lián)的模糊集合中Di(i∈{a,b,c})的隸屬度。2.5.2擴(kuò)展布爾模型
布爾模型存在固有缺陷。比如一個(gè)合取布爾查詢(xún)q=ka∧kb,根據(jù)布爾模型的觀點(diǎn),含有一個(gè)詞語(yǔ)(ka或kb)的文檔與不包含詞語(yǔ)ka和kb的文檔同樣無(wú)關(guān),這就去掉了部分匹配的可能,不符合客觀世界的多樣性。向量模型具有部分匹配和索引項(xiàng)加權(quán)功能,使其能產(chǎn)生較好的檢索效果,因此可以利用向量模型的這些特點(diǎn)來(lái)擴(kuò)充布爾模型。擴(kuò)展布爾模型(ExtendedBooleanModel)[10]便是這樣的一種模型。
考慮只有兩個(gè)索引項(xiàng)情形,則詞的分配可用一個(gè)二維圖來(lái)表示,如圖2-6所示,每個(gè)索引項(xiàng)分配一個(gè)坐標(biāo)軸。圖2-6擴(kuò)展布爾模型的詞匯空間(只有兩個(gè)索引項(xiàng))從圖中可以很清楚地發(fā)現(xiàn)兩個(gè)重要的特征:
(1)對(duì)于析取查詢(xún)qor=kx∨ky,(0,0)點(diǎn)是無(wú)效的點(diǎn),表示兩個(gè)索引項(xiàng)同時(shí)不存在的情形,因此文檔到點(diǎn)(0,0)的距離可以用來(lái)度量文檔與查詢(xún)qor的相似度。
(2)對(duì)于合取查詢(xún)qand=kx∧ky,(1,1)是最理想的點(diǎn),表示兩個(gè)索引項(xiàng)同時(shí)存在的情形,因此文檔到點(diǎn)(1,1)的距離可以用來(lái)度量文檔與查詢(xún)qand的相似度。
將這些距離進(jìn)行規(guī)范化:(2-28)(2-29)如果索引項(xiàng)的權(quán)值都是布爾型的,即文檔總是處在四個(gè)角(0,0)、(0,1)、(1,0)、(1,1)當(dāng)中的一個(gè)角中,則sim(qor,d)的值為1、1/、1,類(lèi)似地,sim(qand,d)的值為0、1-1/、1。
因此,對(duì)于有兩個(gè)索引項(xiàng)的查詢(xún),傳統(tǒng)和擴(kuò)展布爾模型的查詢(xún)差異可以表2-5來(lái)表示。擴(kuò)展布爾模型的權(quán)值還可以通過(guò)規(guī)范化的TF-IDF因子來(lái)計(jì)算:(2-30)式中:fx,j為詞語(yǔ)kx在文檔dj中出現(xiàn)的標(biāo)準(zhǔn)化頻率,idfi為對(duì)一般詞語(yǔ)ki的逆文檔頻率IDF。假定文檔集合中詞的數(shù)目是t,則上面的二維布爾模型的相似度表示可以用t維空間的歐幾里得距離來(lái)計(jì)算。更廣泛地,對(duì)于查詢(xún)中相似度的計(jì)算可采用向量范數(shù)(vectornorm)的理論。P-模型(p-normmodel)形成了距離的概念,不僅包括歐幾里得距離(p=2),也包括任意p距離,1≤p≤∞,其值在查詢(xún)時(shí)已確定。在P-模型中,廣義析取查詢(xún)可以表示為
qor=k1∨pk2∨p…∨pkm
類(lèi)似地,廣義合取查詢(xún)可以表示為
qand=k1∧pk2∧p…∧pkm
則廣義析取查詢(xún)和廣義合取查詢(xún)的各自相似度可表示為(2-31)(2-32)其中的xi表示二元組[ki,dj]的權(quán)值wi,d,p范數(shù)的取值可在1到∞之間選取。通過(guò)調(diào)節(jié)p的值,該擴(kuò)展布爾模型便可在不同的檢索模型之間轉(zhuǎn)換。當(dāng)p=1時(shí),公式(2-31)和(2-32)可變形為(2-33)當(dāng)p→∞時(shí),公式(2-31)和(2-32)可分別變形為(2-34)因此,當(dāng)p=1時(shí),可以通過(guò)索引項(xiàng)-文檔權(quán)值之和來(lái)求合取查詢(xún)及析取查詢(xún)的值,這就像在向量型的相似度公式中計(jì)算內(nèi)積一樣。當(dāng)p→∞時(shí),可根據(jù)模糊邏輯的形式來(lái)計(jì)算查詢(xún)的值。通過(guò)在1和無(wú)窮大之間改變參數(shù)p的值,我們可以把p-范數(shù)的排序操作從類(lèi)向量的排序轉(zhuǎn)變?yōu)轭?lèi)布爾的排序。下面是一個(gè)用擴(kuò)展布爾模型進(jìn)行計(jì)算的例子。
【例2-9】
對(duì)于查詢(xún)q=(k1∧pk2)∨pk3,試寫(xiě)出查詢(xún)和文檔間的相似度的計(jì)算公式。
解:按照查詢(xún)定義的順序?qū)\(yùn)算符進(jìn)行分組展開(kāi)計(jì)算,可得到計(jì)算文檔dj與該查詢(xún)之間的相似度的公式如下:
2.6擴(kuò)展的向量模型
當(dāng)前,主要的可供選擇的向量模型有廣義向量空間模型、潛語(yǔ)義標(biāo)引模型和神經(jīng)網(wǎng)絡(luò)模型。本節(jié)主要介紹一下各個(gè)模型的原理和主要特點(diǎn)。2.6.1廣義向量空間模型
向量模型假設(shè)索引項(xiàng)之間是相互獨(dú)立的,嚴(yán)格地講,相互獨(dú)立性指向量間兩兩正交。然而,Wong等人[12-13]于1985年提出了另外一種觀點(diǎn):索引項(xiàng)向量是線性獨(dú)立而不是兩兩正交的。這種說(shuō)法就導(dǎo)出了廣義向量空間模型(GeneralizedVectorSpaceModel,GVSM)。廣義向量空間模型的基本思想是:由索引項(xiàng)在文檔集合內(nèi)部同時(shí)出現(xiàn)的模式,可以推導(dǎo)出這些索引項(xiàng)之間的相互依賴(lài)關(guān)系。傳統(tǒng)的向量空間模型假定索引項(xiàng)之間是相互獨(dú)立的,即:令k是與索引項(xiàng)ki相關(guān)聯(lián)的向量,則{k1,k2,…,kt}之間是線性無(wú)關(guān)的,并形成一個(gè)向量空間的基。也就是說(shuō),傳統(tǒng)向量空間模型不考慮索引項(xiàng)之間的關(guān)聯(lián)。廣義向量空間模型GVSM放寬了對(duì)索引項(xiàng)向量的限制。在廣義向量空間模型中,兩個(gè)索引項(xiàng)向量可能不是正交的,這就意味著索引項(xiàng)向量是由更小的分量所組成的。定義2-8{k1,k2,…,kt}是文檔集合的索引項(xiàng)向量,定義詞項(xiàng)-文檔矩陣(TermDocumentMatrix),該矩陣的每個(gè)元素wi,j是一個(gè)二元權(quán)重,即如果索引項(xiàng)ki出現(xiàn)在文檔dj中則wi,j
=1,否則wi,j=0。索引項(xiàng)在文檔內(nèi)同時(shí)出現(xiàn)(co-occurrence)的所有可能模式可以用一個(gè)有2t個(gè)元素的最小項(xiàng)(minterm)集合來(lái)表示,在該集合中:m1=(0,0,…,0),m2=(1,0,…,0),m3=(0,1,…,0),m4=(1,1,…,0),…,m2t=(1,1,…,1)。其中m1指向不含有任何索引項(xiàng)的文檔,m2指向只含有索引項(xiàng)k1的文檔,以此類(lèi)推,m2t
指向含有全部索引項(xiàng)的文檔,函數(shù)gi(mj)返回在最小項(xiàng)mj中索引項(xiàng)ki的權(quán)重{0,1}。我們把向量mi的集合定義為如下形式:該組向量空間中的每一項(xiàng)都與一個(gè)最小項(xiàng)關(guān)聯(lián)。對(duì)于所有i≠j,有mi·mj=0。因此,根據(jù)定義,mi向量集合是兩兩正交的,所以,mi向量集合可以作為廣義向量空間模型的正交基。對(duì)每一個(gè)最小項(xiàng)向量mr,可以定義一個(gè)關(guān)聯(lián)因子ci,r:(2-35)文檔dj中的索引項(xiàng)ki和文檔dj的權(quán)值為wi,j,對(duì)詞語(yǔ)的出現(xiàn)模式與最小項(xiàng)mr的出現(xiàn)模式完全一致的所有文檔與索引項(xiàng)ki的權(quán)值wi,j進(jìn)行求和,即等于關(guān)聯(lián)因子ci,r的值。
這樣,索引項(xiàng)ki的向量ki可以表示為下式:(2-36)注意到以上向量的值已經(jīng)被規(guī)范化為1。內(nèi)積ki·kj可以用來(lái)計(jì)算索引項(xiàng)ki和kj之間的關(guān)聯(lián)度的值:(2-37)在經(jīng)典向量模型中,文檔dj和用戶(hù)查詢(xún)q分別用,和來(lái)表示,在廣義向量空間模型中,可通過(guò)式(2-36)把這些表達(dá)式直接映射到向量mr的最小項(xiàng)空間,向量dj和q的向量和可以用標(biāo)準(zhǔn)余弦相似函數(shù)來(lái)計(jì)算排序。
【例2-10】
假定有文檔向量D={d1,d2,d3,d4}和索引項(xiàng)向量k={k1,k2,k3},索引項(xiàng)對(duì)文檔的權(quán)重如下所示:設(shè)有一查詢(xún)q=k1+k2,試用廣義向量空間模型進(jìn)行檢索,并輸出排序結(jié)果。
解:可以得到8個(gè)最小項(xiàng):這些最小項(xiàng)可以用以下正交的基礎(chǔ)向量表示:m1={1,0,0,0,0,0,0,0},m2={0,1,0,0,0,0,0,0},m3={0,0,1,0,0,0,0,0},m4={0,0,0,1,0,0,0,0}m5={0,0,0,0,1,0,0,0},m6={0,0,0,0,0,1,0,0}m7={0,0,0,0,0,0,1,0},m8={0,0,0,0,0,0,0,1}每一個(gè)ki∈K可以用以下標(biāo)準(zhǔn)范式來(lái)表示:于是,得到如下的標(biāo)準(zhǔn)化索引項(xiàng)向量:而每一個(gè)文檔則可以表示為:d1=2k1+k3=2(0.55m1+0.83m2)+(0.32m1+0.95m3)=1.42m1+1.66m2+0.95m3d2=k1=0.55m1+0.83m2d3=k2+3k3=m3+3(0.32m1+0.95m3)=0.96m1+3.85m3d4=2k1=2(0.55m1+0.83m2)=1.1m1+1.66m2針對(duì)查詢(xún)向量:q=k1+k2,將其用標(biāo)準(zhǔn)化索引項(xiàng)向量代換后變?yōu)椋簈=(0.55m1+0.83m2)+(m3)=0.55m1+0.83m2+m3使用公式計(jì)算該查詢(xún)與各文檔向量之間的距離,最終結(jié)果如下:因此對(duì)于查詢(xún)q,輸出文檔的排序?yàn)閐1>d3>d2≥d4。
要注意到,由于詞-詞關(guān)聯(lián)的使用并不必然產(chǎn)生已改進(jìn)的檢索效果,所以廣義向量空間模型在哪些方面優(yōu)于經(jīng)典向量模型是不明確的。此外,由于計(jì)算向量時(shí)考慮的有效的最小項(xiàng)與集合中文檔的數(shù)目成正比,在大型集合中用廣義向量模型計(jì)算排序,其代價(jià)相當(dāng)高。但是,從理論上來(lái)看,廣義向量空間模型確實(shí)提出了相當(dāng)重要的新見(jiàn)解。廣義向量空間模型GVSM可以較好地應(yīng)用在如跨語(yǔ)言信息檢索中,其基本思想是基于雙語(yǔ)訓(xùn)練文檔集分別建立源語(yǔ)與目標(biāo)語(yǔ)的檢索詞-文檔關(guān)聯(lián)矩陣,在計(jì)算查詢(xún)條件和文檔的相似度時(shí),考慮將經(jīng)典的向量空間模型與兩個(gè)關(guān)聯(lián)矩陣相結(jié)合,在源語(yǔ)與目標(biāo)語(yǔ)之間實(shí)現(xiàn)映射關(guān)系,具體過(guò)程詳見(jiàn)第9章。2.6.2潛語(yǔ)義標(biāo)引模型
由于索引項(xiàng)集合的檢索過(guò)程固有的模糊性,導(dǎo)致了用索引項(xiàng)集合來(lái)概括文檔和查詢(xún)的內(nèi)容可能降低檢索效果,最終可能導(dǎo)致許多不相關(guān)的文檔在結(jié)果中,或者沒(méi)有包含查詢(xún)關(guān)鍵詞的相關(guān)文檔也不在結(jié)果中。因此,文檔與給定的關(guān)鍵詞匹配的過(guò)程,應(yīng)該是基于概念的匹配,而不是基于索引項(xiàng)的匹配,這樣即使文檔沒(méi)有包含索引項(xiàng),也有可能被檢索出來(lái)。潛語(yǔ)義標(biāo)引模型(LatentSemanticIndexing,LSI)[14]的主要思想是將文檔和查詢(xún)向量映射到與概念相關(guān)聯(lián)的空間,這可以通過(guò)把索引項(xiàng)向量映射到維數(shù)較低的空間來(lái)實(shí)現(xiàn)。這種觀點(diǎn)認(rèn)為,在維數(shù)降低了的空間中的檢索可能優(yōu)于在索引項(xiàng)集合中的檢索。潛在語(yǔ)義分析同向量空間模型類(lèi)似,都是采用空間向量表示文本,但通過(guò)奇異值分解(SingularValueDecomposition,SVD)等處理,消除了同義詞、多義詞的影響,提高了后續(xù)處理的精度。因而在信息檢索、信息過(guò)濾、相關(guān)反饋、信息聚類(lèi)/分類(lèi)、跨語(yǔ)言信息檢索、信息
理解和判斷及預(yù)測(cè)等方面都有廣泛的應(yīng)用。假設(shè)有一個(gè)文本集,包含n個(gè)文檔,用到了t個(gè)詞匯,構(gòu)造“詞項(xiàng)-文檔矩陣”(Term-Document-Matrix,TDM):對(duì)矩陣的每一個(gè)元素mi,j,可以為其分配一個(gè)權(quán)值wi,j,表示詞項(xiàng)ki在文檔dj中的權(quán)重。由于任意一個(gè)文檔總是由有限個(gè)詞匯,而不是由所有t個(gè)詞匯構(gòu)成的,所以M必是一個(gè)稀疏矩陣。潛語(yǔ)義標(biāo)引模型的關(guān)鍵思想是將文檔和詞匯映射到一個(gè)低維的向量空間,即潛在語(yǔ)義空間。潛語(yǔ)義標(biāo)引模型利用奇異分解SVD的方法實(shí)現(xiàn)這種降維。下面介紹SVD定理。定理2-1
任何一個(gè)矩陣Mt×n,M的秩記為r,r=min(t,n),M均可分解為兩個(gè)正交矩陣和一個(gè)對(duì)角矩陣的乘積:(2-38)M=KSDT式中:Kt×r是詞間關(guān)聯(lián)矩陣MMT導(dǎo)出的特征向量矩陣;Dn×r是由文檔間關(guān)聯(lián)矩陣MTM導(dǎo)出的特征向量矩陣;Sr×r=diag(σ1,σ2,…,σr)為對(duì)角矩陣,σ1,σ2,…,σr為M的所有奇異值,同時(shí)也是MMT所有特征值的平方根,并且滿(mǎn)足關(guān)系σ1≥σ2≥…σr≥0。如果矩陣S僅保留最大的s個(gè)奇異值,令Ss=diag(σ1,σ2,…,σs),Ks=Kt×s,Ds=Dn×s,則得到的結(jié)果矩陣是秩為s的Ms。
式中:s(s<r)是降維空間的維度。
將查詢(xún)向量映射到與概念相關(guān)聯(lián)的維數(shù)較低的空間:(2-39)(2-40)用標(biāo)準(zhǔn)的余弦相似度計(jì)算相似度:(2-41)潛語(yǔ)義標(biāo)引模型把同現(xiàn)詞條(Co-occurrenceTerm)映射到同一維空間上,而非同現(xiàn)詞條則被映射到不同的空間上。從這個(gè)意義來(lái)講,即使查詢(xún)字段和文檔沒(méi)有共同的索引項(xiàng),它們的余弦相似度可能仍然很高,其中的緣故就是同現(xiàn)分析,因?yàn)橥F(xiàn)詞條通常被認(rèn)為是語(yǔ)義相關(guān)的。所以降維的過(guò)程可以視為去除了語(yǔ)義空間中代表低信息量(即噪聲)的自由度,而保留了代表語(yǔ)義空間中主要信息的自由度。經(jīng)過(guò)潛在語(yǔ)義分析后生成的TDM矩陣,表明了文檔與索引項(xiàng)之間的潛在語(yǔ)義關(guān)系。根據(jù)這個(gè)矩陣,可以構(gòu)造每個(gè)文檔的新的向量空間。然后便可利用2.3節(jié)的向量空間模型的檢索方法,進(jìn)行檢索和排序輸出。
【例2-11】
下面文檔集合中共包括17個(gè)文檔,試用潛語(yǔ)義標(biāo)引模型進(jìn)行查詢(xún)“applicationtheory”的排序輸出。解:用潛語(yǔ)義標(biāo)引模型進(jìn)行分析的步驟:
(1)構(gòu)造詞項(xiàng)-文檔矩陣TDM矩陣M。將在文檔中出現(xiàn)的16個(gè)詞(已在圖2-10中用黑體和下劃線標(biāo)出),和17篇文檔構(gòu)成一個(gè)文檔-索引項(xiàng)矩陣,如表2-6所示。
(2)對(duì)M實(shí)施奇異值分解(這里需要用到數(shù)字分析的知識(shí)):{M}={K}{S}{D}T計(jì)算過(guò)程略。
(3)降維:選擇最大兩個(gè)奇異值(s=2),得到:
(4)映射查詢(xún)到概念空間。
先計(jì)算:對(duì)于查詢(xún)“applicationtheory”,先計(jì)算每個(gè)查詢(xún)?cè)~的IDF值:這樣可以得到映射后查詢(xún)向量為:
(5)計(jì)算文檔排序。
用式(2-40)計(jì)算文檔的相似度,如下表所示(只列出前10個(gè)文檔):2.6.3神經(jīng)網(wǎng)絡(luò)模型
在信息檢索系統(tǒng)中,文檔與查詢(xún)的索引詞必須進(jìn)行匹配和加權(quán)才能計(jì)算排序。由于神經(jīng)網(wǎng)絡(luò)是一種很好的匹配模式,人們很自然地想到可把它作為信息檢索可供選擇的一種模式。
神經(jīng)網(wǎng)絡(luò)是大腦中相互連接的神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)的一種過(guò)于簡(jiǎn)單化的圖形表示,神經(jīng)網(wǎng)絡(luò)圖中的節(jié)點(diǎn)表示處理單元,邊表示突觸連接。為了模擬突觸連接在大腦中隨時(shí)間不斷變化的強(qiáng)度,為神經(jīng)網(wǎng)絡(luò)的每一條邊分配一定的權(quán)值。起初,節(jié)點(diǎn)的狀態(tài)根據(jù)它的活躍值(一個(gè)關(guān)于初狀態(tài)和接收信號(hào)的函數(shù))來(lái)定義,依據(jù)節(jié)點(diǎn)的活躍值,節(jié)點(diǎn)A可能向鄰近的節(jié)點(diǎn)B發(fā)送一個(gè)信號(hào)。節(jié)點(diǎn)B信號(hào)的強(qiáng)度取決于節(jié)點(diǎn)A和節(jié)點(diǎn)B之間的邊的權(quán)值。信息檢索的神經(jīng)網(wǎng)絡(luò)模型[15]可以用一個(gè)圖來(lái)描述。由圖2-7可以看出這個(gè)網(wǎng)絡(luò)有三類(lèi)節(jié)點(diǎn):查詢(xún)?cè)~語(yǔ)節(jié)點(diǎn)、文檔詞語(yǔ)節(jié)點(diǎn)和文檔節(jié)點(diǎn)。最左邊的是查詢(xún)?cè)~語(yǔ)節(jié)點(diǎn),中間的是文檔詞語(yǔ)節(jié)點(diǎn),最右邊是文檔節(jié)點(diǎn)。在查詢(xún)?cè)~語(yǔ)和文檔詞語(yǔ)j之間有一個(gè)單向連接,連接的權(quán)重表示為wq,j,在文檔詞語(yǔ)節(jié)點(diǎn)j和文檔節(jié)點(diǎn)i之間有一個(gè)雙向連接,連接權(quán)重為wi,j,這個(gè)權(quán)重應(yīng)該反映該詞語(yǔ)在文檔中的重要性,可以采用TF-IDF的權(quán)重方法來(lái)計(jì)算出各個(gè)連接的權(quán)重。圖2-7神經(jīng)網(wǎng)絡(luò)模型推理過(guò)程共有兩個(gè)階段。其中,查詢(xún)?cè)~語(yǔ)節(jié)點(diǎn)通過(guò)向文檔詞語(yǔ)節(jié)點(diǎn)發(fā)出信號(hào)來(lái)開(kāi)始推理過(guò)程,文檔詞語(yǔ)節(jié)點(diǎn)本身也可向文檔節(jié)點(diǎn)發(fā)出信號(hào),信號(hào)從查詢(xún)?cè)~語(yǔ)節(jié)點(diǎn)到文檔節(jié)點(diǎn)就完成了第一個(gè)階段(在圖中為從左到右)。在第二個(gè)階段,由于文檔詞語(yǔ)節(jié)點(diǎn)和文檔節(jié)點(diǎn)之間連接是雙向的,因此收到信號(hào)的文檔節(jié)點(diǎn)依次直接向文檔詞語(yǔ)節(jié)點(diǎn)返回新的信號(hào)。當(dāng)接到這種信號(hào)后,文檔詞語(yǔ)節(jié)點(diǎn)再次直接向文檔節(jié)點(diǎn)發(fā)出新的信號(hào),并重復(fù)這個(gè)過(guò)程。信號(hào)在每次反復(fù)中會(huì)逐漸衰減,最終停止。在這樣的交互過(guò)程中,一個(gè)不含有任何查詢(xún)?cè)~語(yǔ)的文檔也有可能在這一過(guò)程中被激活,并出現(xiàn)在檢索結(jié)果列表中。神經(jīng)網(wǎng)絡(luò)模型的這種檢索效果,如同系統(tǒng)中內(nèi)嵌一個(gè)主題詞表,這是因?yàn)椤皟蓚€(gè)經(jīng)常出現(xiàn)在相同文檔中的詞語(yǔ)通常描述相同的主題”。在神經(jīng)網(wǎng)絡(luò)模型中,所有的激活水平(activationlevel)和連接權(quán)重(connectionweight)都?xì)w一化到[-1.0,1.0]。首先為查詢(xún)?cè)~語(yǔ)節(jié)點(diǎn)分配初始的最大活躍值(一般設(shè)為1),然后查詢(xún)?cè)~語(yǔ)節(jié)點(diǎn)向文檔詞語(yǔ)節(jié)點(diǎn)發(fā)出信號(hào),其信號(hào)強(qiáng)度可以由規(guī)范化的查詢(xún)?cè)~權(quán)值wi,q來(lái)表示。規(guī)范化的權(quán)值wi,q可以由下面公式中的向量模型所定義的權(quán)值wi,q導(dǎo)出。(2-42)(2-43)同樣地,文檔詞語(yǔ)節(jié)點(diǎn)向文檔節(jié)點(diǎn)傳遞信號(hào),其作用強(qiáng)度wi,j也可以用向量模型定義的權(quán)值wi,j導(dǎo)出。
最后,對(duì)到達(dá)文檔節(jié)點(diǎn)的信號(hào)進(jìn)行求和,在信號(hào)傳播的第一個(gè)階段之后,與文檔dj相關(guān)聯(lián)的文檔節(jié)點(diǎn)的激活水平值可以表示為:(2-44)顯然,各文檔節(jié)點(diǎn)的激活水平值正是經(jīng)典向量模型計(jì)算出的排序值。
為了改進(jìn)檢索效果,在第一個(gè)傳播階段之后神經(jīng)網(wǎng)絡(luò)繼續(xù)傳遞激活過(guò)程,這有點(diǎn)類(lèi)似用戶(hù)相關(guān)反饋循環(huán)。為了使得處理更加有效,可以定義一個(gè)最小激活閾值,處于該閾值之下的文檔節(jié)點(diǎn)不發(fā)出信號(hào),只有高于閾值的文檔節(jié)點(diǎn)才能夠繼續(xù)后面的信號(hào)傳遞。
Wilkinson和Hingston[15]引入了Rocchio[16]反饋方法來(lái)處理激活過(guò)程。第i個(gè)詞語(yǔ)的活躍值可以修改為:(2-45)式中:aj為第j個(gè)文檔的活躍值;Pos是滿(mǎn)足aj>T(T是最小閾值,介于0和1之間)文檔的集合;Neg是滿(mǎn)足aj<-T文檔的集合。
經(jīng)過(guò)若干次的信號(hào)傳遞后,網(wǎng)絡(luò)會(huì)逐步穩(wěn)定。一般一到兩次傳遞后,網(wǎng)絡(luò)可以很快地穩(wěn)定下來(lái)[15]。一些文檔節(jié)點(diǎn)的最終激活水平如果符合檢索閾值的要求,便可以把這些文檔節(jié)點(diǎn)的內(nèi)容以降序方式輸出。
人們至今沒(méi)有明確肯定神經(jīng)網(wǎng)絡(luò)對(duì)于一般的集合是否能產(chǎn)生較好的檢索效果,而實(shí)際上神經(jīng)網(wǎng)絡(luò)也沒(méi)有在大型文檔集合中得到廣泛的應(yīng)用。然而,神經(jīng)網(wǎng)絡(luò)確實(shí)提供了一個(gè)可供選擇的模型范式。此外,它還允許檢索最初與查詢(xún)?cè)~語(yǔ)無(wú)關(guān)的文檔,這是一個(gè)很有用的功能。
2.7擴(kuò)展的概率模型
擴(kuò)展的概率模型大多基于貝葉斯網(wǎng)絡(luò)。下面先簡(jiǎn)單介紹一下貝葉斯網(wǎng)絡(luò)。
貝葉斯網(wǎng)絡(luò)是一種有向無(wú)環(huán)圖(DirectedAcyclicGragh,DAG)G=(V,E)。V表示節(jié)點(diǎn)的集合,節(jié)點(diǎn)代表隨機(jī)變量,它可以是任何問(wèn)題的抽象。E是節(jié)點(diǎn)間有向邊的集合,表示隨機(jī)變量間的依賴(lài)關(guān)系,這些依賴(lài)關(guān)系的強(qiáng)度用條件概率表示。貝葉斯網(wǎng)絡(luò)蘊(yùn)涵了條件獨(dú)立性的假設(shè),每個(gè)節(jié)點(diǎn)與其非子孫節(jié)點(diǎn)條件獨(dú)立,因此網(wǎng)絡(luò)中所表示的相關(guān)性允許按照局部條件概率來(lái)表示聯(lián)合概率分布。每個(gè)網(wǎng)絡(luò)的根節(jié)點(diǎn)都沒(méi)有父節(jié)點(diǎn),沒(méi)有父節(jié)點(diǎn)的條件概率為其先驗(yàn)概率。
【例2-12】
圖2-8表示的是貝葉斯網(wǎng)絡(luò)的一個(gè)例子。該網(wǎng)絡(luò)的聯(lián)合概率分布為P(x1,x2,x3,x4,x5),其中的xi也指與節(jié)點(diǎn)xi相關(guān)的隨機(jī)變量的取值,根據(jù)相關(guān)性,這個(gè)聯(lián)合概率可用局部條件概率來(lái)表示,即有:
P(x1,x2,x3,x4,x5)=P(x1)P(x2|x1)P(x3|x1)P(x4|x2x3)P(x5|x3)
概率P(x1)稱(chēng)為網(wǎng)絡(luò)中的先驗(yàn)概率,它可用來(lái)模型化有關(guān)應(yīng)用語(yǔ)義的先驗(yàn)知識(shí)。圖2-8貝葉斯網(wǎng)絡(luò)例子2.7.1推理網(wǎng)絡(luò)模型
推理網(wǎng)絡(luò)(InferenceNetwork)[17-18]是一個(gè)直接的非循環(huán)因果網(wǎng)絡(luò),其節(jié)點(diǎn)表示命題變量或常量,連接表示命題之間的相關(guān)性聯(lián)系。推理網(wǎng)絡(luò)模型是基于貝葉斯可信度網(wǎng)絡(luò)(BeliefNetwork,BN)理論的模型,其原理是:用數(shù)學(xué)方法從文檔文本內(nèi)容推理得出該文檔滿(mǎn)足用戶(hù)信息需求的概率,這個(gè)概率被認(rèn)為是文檔與用戶(hù)信息需求的匹配程度,根據(jù)匹配程度可以對(duì)文檔進(jìn)行排序。推理網(wǎng)絡(luò)模型采用的是信息檢索認(rèn)識(shí)論的觀點(diǎn),把概率理解為一種信任度,并將隨機(jī)變量與索引詞語(yǔ),文檔以及用戶(hù)查詢(xún)聯(lián)系在一起。與文檔dj相關(guān)的隨機(jī)變量表示對(duì)這個(gè)文檔觀測(cè)的事件,即該模型假定這類(lèi)文檔是在檢索相關(guān)文檔時(shí)觀測(cè)到的。對(duì)文檔的觀測(cè)可以為索引詞的隨機(jī)變量給出一個(gè)信任度,因而索引詞變量不斷增加信任度是由于對(duì)文檔的觀測(cè)所導(dǎo)致的。圖2-9中所示基本文本推理網(wǎng)絡(luò)包括文檔網(wǎng)絡(luò)(DocumentNetwork)和查詢(xún)網(wǎng)絡(luò)(QueryNetwork)兩個(gè)子網(wǎng)。文檔網(wǎng)絡(luò)針對(duì)文檔集合建立,且在查詢(xún)過(guò)程中不變。查詢(xún)網(wǎng)絡(luò)由某個(gè)表達(dá)用戶(hù)查詢(xún)的節(jié)點(diǎn)以及一個(gè)或多個(gè)查詢(xún)表達(dá)節(jié)點(diǎn)組成。查詢(xún)網(wǎng)絡(luò)針對(duì)每個(gè)用戶(hù)查詢(xún)重建,且在查詢(xún)網(wǎng)絡(luò)中隨著查詢(xún)的提煉或新查詢(xún)的加入而不斷修正,從而能更好地描述查詢(xún)。文檔網(wǎng)絡(luò)和查詢(xún)網(wǎng)絡(luò)通過(guò)表達(dá)概念和查詢(xún)概念之間的連接結(jié)合起來(lái)。圖2-9一個(gè)簡(jiǎn)單的推理網(wǎng)絡(luò)模型索引詞變量和文檔變量用網(wǎng)絡(luò)中的節(jié)點(diǎn)來(lái)表示。文檔網(wǎng)絡(luò)包含文檔節(jié)點(diǎn)(di)、文檔表示節(jié)點(diǎn)(ti)和概念表示節(jié)點(diǎn)(rk)。定義D為文檔集合,T為文本表示集,R為概念表示集,這里相對(duì)應(yīng)的節(jié)點(diǎn)分別是nd、nt、nr,因此可以用Ed=D×T×R來(lái)表示文檔網(wǎng)絡(luò)的事件空間。文檔節(jié)點(diǎn)對(duì)應(yīng)于網(wǎng)絡(luò)信息庫(kù)中的文檔。網(wǎng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026浙江溫州市樂(lè)清市城衛(wèi)清潔服務(wù)有限公司長(zhǎng)期招聘考試備考題庫(kù)及答案解析
- 浙商銀行嘉興分行2026年一季度社會(huì)招聘筆試模擬試題及答案解析
- 2026陜西商洛柞水縣縣直部分空編單位選調(diào)(選聘)11人筆試參考題庫(kù)及答案解析
- 2026年新能源汽車(chē)維修技能提升課
- 2026年加油站員工應(yīng)急演練指南
- 2026內(nèi)蒙古通遼市扎魯特旗敦德諾爾露天煤業(yè)有限公司招聘12人筆試備考題庫(kù)及答案解析
- 2026年度安徽國(guó)際商務(wù)職業(yè)學(xué)院省直事業(yè)單位公開(kāi)招聘工作人員19名筆試備考試題及答案解析
- 2026上半年貴州事業(yè)單位聯(lián)考省農(nóng)業(yè)科學(xué)院招聘18人筆試備考試題及答案解析
- 2026年房地產(chǎn)中介帶看流程優(yōu)化
- 2026年體育賽事組織管理培訓(xùn)
- QGDW10384-2023輸電線路鋼管塔加工技術(shù)規(guī)程
- 《養(yǎng)老機(jī)構(gòu)智慧運(yùn)營(yíng)與管理》全套教學(xué)課件
- 2025年本科院校圖書(shū)館招聘面試題
- 電子商務(wù)畢業(yè)論文5000
- 2025-2026學(xué)年人教版(2024)初中生物八年級(jí)上冊(cè)教學(xué)計(jì)劃及進(jìn)度表
- 醫(yī)療衛(wèi)生輿情課件模板
- 高壓注漿施工方案(3篇)
- 高強(qiáng)混凝土知識(shí)培訓(xùn)課件
- (高清版)DB11∕T 1455-2025 電動(dòng)汽車(chē)充電基礎(chǔ)設(shè)施規(guī)劃設(shè)計(jì)標(biāo)準(zhǔn)
- 暖通工程施工環(huán)保措施
- 宗族團(tuán)年活動(dòng)方案
評(píng)論
0/150
提交評(píng)論