【畢業(yè)學(xué)位論文】(Word原稿)基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)-網(wǎng)絡(luò)與分布式系統(tǒng)_第1頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)-網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)-網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)-網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁(yè)
【畢業(yè)學(xué)位論文】(Word原稿)基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)-網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩69頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

北 京 大 學(xué) 碩士研究生學(xué)位論文 題目 : 基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià) 姓 名: 學(xué) 號(hào): 10208074 院 系 : 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計(jì)算機(jī)系統(tǒng)結(jié)構(gòu) 研究方向: 網(wǎng)絡(luò)與分布式 系統(tǒng) 導(dǎo) 師: 李曉明 教授 二零 年五月 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個(gè)人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。 摘 要 本文的工作是在 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室、北京大學(xué)計(jì)算語(yǔ)言所與北京大學(xué) 天網(wǎng)知名度系統(tǒng) (開展的 。 針對(duì) 原有系統(tǒng)名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)中存在的問題, 本文中 提出了一種基于概率模型的名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)模型。 首先,針對(duì) 統(tǒng)中名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)的特點(diǎn),構(gòu)建基本 相關(guān)度評(píng)價(jià)模型。構(gòu)建基礎(chǔ) 是 其基礎(chǔ)上引入 進(jìn) 式,彌補(bǔ)其沒有考慮 記的不足。 利用 統(tǒng) 數(shù)據(jù)集進(jìn)行評(píng)測(cè),實(shí)驗(yàn)結(jié)果表明 記系數(shù)的引入提高了系統(tǒng)相關(guān)度評(píng)價(jià)質(zhì)量,同時(shí)顯示該基本模型優(yōu)于原有系統(tǒng)中的相關(guān)度評(píng)價(jià)模型,提高了系統(tǒng)性能。 其次,由于不同領(lǐng)域名人的屬性信息對(duì)其相關(guān)度評(píng)價(jià)有不同的貢獻(xiàn),本文中構(gòu)建了區(qū)分領(lǐng)域的 多層次 實(shí)體模型,來更好 地 描述用戶的信息需求。同時(shí)在基本模型基礎(chǔ)上引入屬性信息權(quán)重系數(shù),使基本模型從不支持結(jié)構(gòu)化查詢需求改進(jìn)為支持 多層次 實(shí)體 模型。各領(lǐng)域的權(quán)重系數(shù)通過訓(xùn)練集訓(xùn) 練 的方式獲得,避免了人工賦予 方法 的不確 定 因素。選取對(duì)系統(tǒng)相關(guān)度性能提高最大的一組權(quán)重系數(shù)作為模型中的領(lǐng)域參數(shù),該套參數(shù)通過測(cè)試集的測(cè)試,證明有較好的適用性。 再次, 采用了偽反饋和用戶反饋兩種相關(guān)反饋方法,為實(shí)體屬性信息進(jìn)行 權(quán)重的 自動(dòng)調(diào)整,以 達(dá)到系統(tǒng) 相關(guān)度評(píng)價(jià)的進(jìn)一步 優(yōu)化 。通過實(shí)驗(yàn)得出的結(jié)論是:1)初始檢索的質(zhì)量 很大程度地 影響偽反饋的效果 。 應(yīng)該先對(duì)初始檢索模型進(jìn)行優(yōu)化,再使用偽反饋,這個(gè)順序很重要;同時(shí)初始檢索的質(zhì)量需要達(dá)到一定高度后,使用偽反饋才能提高系統(tǒng)檢索質(zhì)量,目前系統(tǒng) 的初始檢索質(zhì)量仍不適宜直接進(jìn)行偽反饋。 2)用戶反饋在總體上 自動(dòng) 優(yōu)化 了 屬性信息權(quán)重,提高了系統(tǒng)相關(guān)度評(píng)價(jià)質(zhì)量。 3)用戶反饋的效果受名人實(shí)體屬性信息詞數(shù)的影響,屬性信息越豐富,采用用戶反饋后評(píng)價(jià)質(zhì)量提高的概率越大。 關(guān)鍵詞: 信息檢索 , 相關(guān)度評(píng)價(jià), 概率模型, 相關(guān)反饋 s I is an to of a is in to of s a is on to a is to an to of is on s be to s to to an 1) of a to be is 2) in 3) of is to of in s of 目 錄 第一章 引言 . 1 目背景 . 1 關(guān)工作 . 3 網(wǎng)知名度原有系統(tǒng) . 3 . 6 家查找 . 7 文工作 . 9 文組織 . 10 第二章 天網(wǎng)知名度系統(tǒng) . 13 統(tǒng)流程 . 13 頁(yè)搜集模塊及改進(jìn) . 15 頁(yè)分析與索引模塊 . 15 頁(yè)評(píng)價(jià)模塊及改進(jìn) . 17 戶界面模塊 . 19 體 數(shù)據(jù)集及擴(kuò)容 . 21 章小結(jié) . 23 第三章 基于概率模型的相 關(guān)度評(píng)價(jià) . 24 率模型 . 24 典的概率模型 . 24 . 26 統(tǒng)名人網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)基本模型 . 27 本模型 . 27 型的實(shí)現(xiàn) . 29 統(tǒng)評(píng)測(cè)方法 . 31 統(tǒng)中原有的評(píng)測(cè)方法 . 31 . 32 本模型性能評(píng)測(cè) . 37 驗(yàn)設(shè)計(jì) . 37 驗(yàn)結(jié)果及分析 . 38 章小結(jié) . 41 第四章 支持多層次實(shí)體模型的相關(guān)度評(píng)價(jià) . 42 層次的實(shí)體模型 . 42 進(jìn)的評(píng)價(jià)模型 . 43 數(shù)的獲取 . 43 驗(yàn)設(shè)計(jì) . 44 數(shù)的訓(xùn)練 . 44 數(shù)的選定和 測(cè)試 . 47 章小結(jié) . 50 第五章 相關(guān)性反饋 . 51 關(guān)性反饋理論 . 51 網(wǎng)知名度系統(tǒng)中的相關(guān)性反饋 . 52 驗(yàn)與分析 . 54 反饋 . 54 戶反饋 . 56 章小結(jié) . 59 第六章 總結(jié)和展望 . 60 結(jié) . 60 望 . 61 參考文獻(xiàn) . 62 致 謝 . 64 圖 目 錄 圖 2天網(wǎng)知名度系統(tǒng)流程圖 .實(shí)體屬性信息注冊(cè)界面 . 2用戶檢索界面 . 2實(shí)體網(wǎng)頁(yè)的檢索排 . 3 2:2:1 . 3 4:2:1 . 3 5:2:1. 3 100:20:1. 3 100:20:4. 3 20:2:1 . 3 100:2:1 . 3. 3加入 評(píng)測(cè)方法 1 . 3加入 測(cè) . 3概率 3比模型 2相關(guān)度評(píng)價(jià)質(zhì)量的對(duì)比(評(píng)測(cè)方法 1) . 3模型 3比模型 2相關(guān)度評(píng)價(jià)質(zhì)量的對(duì)比( . 4姓名 . 4單位 . 4職務(wù) . 4兼職 . 4社會(huì)形象 . 4特征詞 . 4代表作 . 4模型 4初始選值后比模型 3的提高 . 4模型 4比模型 3的提高 . 5優(yōu)化初始檢索對(duì)偽反饋的提高 . 5模型 4 偽反饋后的漲幅 .圖 5用戶反饋后的漲幅 . 5反饋后增長(zhǎng)的概率與屬性詞個(gè)數(shù)的關(guān)系 . 目 錄 表 2原始網(wǎng)頁(yè)庫(kù)( 構(gòu) . 2網(wǎng)頁(yè) 實(shí)體評(píng)分庫(kù)( 構(gòu) . 2網(wǎng)頁(yè)屬性庫(kù)( 構(gòu) . 3天網(wǎng)搜索引擎中部分 . 4. 5用戶屬性信息詞數(shù) .京大學(xué)碩士學(xué)位論文 第一章 引 言 1 第一章 引 言 為一種全新的信息資源,獲得了極大的發(fā)展,為人類信息獲取提供了一個(gè)豐富的寶庫(kù)。信息的 有效檢索 隨之 變得 舉足輕重 。 目 背景 大量實(shí)驗(yàn)和研究表明, 整體網(wǎng)頁(yè)的數(shù)量以指數(shù)形式增長(zhǎng) 1, 2, 3。 根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心 2004年中國(guó)互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量 調(diào)查 報(bào)告” 4,截至 2004 年 12 月 31 日,全國(guó)域名數(shù)為 1852300 個(gè),與 2003 年同期相比增長(zhǎng)56%; 網(wǎng)站數(shù)為 668900 個(gè),同期相比增長(zhǎng) 網(wǎng)頁(yè)總字節(jié)數(shù)增長(zhǎng)最 快,同期相比增幅為 238%。網(wǎng)頁(yè)總數(shù)為 個(gè),同期相比增長(zhǎng) 平均每個(gè)網(wǎng)站的網(wǎng)頁(yè)數(shù)為 1297 個(gè),同期相比增長(zhǎng) 在線數(shù)據(jù)庫(kù)數(shù)為 306000 個(gè),同期相比增長(zhǎng) 截至 2005年 5月, 8,058,044,651 張網(wǎng)頁(yè) 5。 目前人們?cè)诰W(wǎng)上尋找信息時(shí),大部分還是基于傳統(tǒng)的信息瀏覽方式,主要工具是瀏覽器。通過瀏覽器獲取信息主要有三種方式 6: 1 ) 直 接 向 瀏 覽 器 輸 入 一 個(gè) 該 信 息 源 的 網(wǎng) 址 ( , 例如,, 瀏覽器 將返回所請(qǐng)求的網(wǎng)頁(yè),用戶可以 根據(jù)該網(wǎng)頁(yè)內(nèi)容及其包含的鏈接文本或圖像的引導(dǎo),獲得自己需要的內(nèi)容; 2) 登錄到 某個(gè)知名 門戶網(wǎng)站, 例如 , 根據(jù)該網(wǎng)站 提供的分類信息和 相關(guān) 鏈接, 進(jìn)行 網(wǎng)上“沖浪”, 尋找自己感興趣的內(nèi)容 ; 3) 訪問某個(gè) 搜索引擎 網(wǎng)站 , 例如, , 輸入 自己關(guān)心信息的關(guān)鍵詞,根據(jù)返回的相關(guān)網(wǎng)頁(yè)列表、摘要和鏈接,試探尋找自己需要的信息。 這三種方式各有特點(diǎn),各有相對(duì)最適合的應(yīng)用場(chǎng)合。第一種方式的應(yīng)用是最有針對(duì)性的,例如要了解北 京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室在做些什么工作,得知該實(shí)驗(yàn)室的網(wǎng)址是 , 于是直接把這個(gè) 第一章 引 言 2 方式。第二種方式的應(yīng)用類似于讀報(bào),用戶不一定有明確的目的,只是想看看網(wǎng)上有什么有意思的消息;當(dāng)然這其中也可能是關(guān)心某種主題,例如體育比賽、家庭生活等。第三種方式適用于用戶大概知道自己要關(guān)心的內(nèi)容,例如,“ 和諧社會(huì) ” ,但是不清楚哪里能夠找到相關(guān)信息(即不知道哪些 在這種場(chǎng)合,搜索引擎能夠?yàn)橛脩籼峁┛赡苁窍嚓P(guān)網(wǎng)頁(yè)的一個(gè)網(wǎng)址及其摘要的列表,由用戶一個(gè)個(gè) 試探 , 看是否是自己需要的?,F(xiàn)在的搜索引擎技術(shù)已經(jīng)能夠做到在多數(shù)情況下滿足用戶的這種需要。 然而,上述這些沒有覆蓋人們的所有信息需求。例如,一個(gè)人可能會(huì)關(guān)心最近半年來網(wǎng)上出現(xiàn)了哪些關(guān)于他(她)的信息,一個(gè)企業(yè) 可能要關(guān)心它做了一次大規(guī)模促銷活動(dòng)后一個(gè)月內(nèi)網(wǎng)上有什么反響,一個(gè)政府機(jī)構(gòu)可能會(huì)關(guān)心在一項(xiàng)政策法規(guī)頒布后網(wǎng)上的輿論。對(duì)于這樣的信息需求,目前的網(wǎng)上信息系統(tǒng)都不能很好地滿足。在上面三種信息獲取方式中,只有第三種方式可以勉強(qiáng)地、間接地提供這類信息服務(wù), 但是需要 通過不斷提供各種查詢?cè)~、反復(fù)試探,繁復(fù)、效率不高 而且 很不方便。 以一個(gè)例子來說明“繁復(fù)、效率不高、很不方便”。比如某著名“信息技術(shù)”公司的“總經(jīng)理”“王曉東”希望了解最近一段時(shí)間來網(wǎng)上有些什么關(guān)于他的信息(即他最近在網(wǎng)上的“知名度”如何)。為此,他登上某個(gè)搜索引擎,例如,輸入名字“王曉東”。極大的可能是,搜索引擎返回給他上萬(wàn)個(gè)條目,大致一看,許多雖然含有“王曉東”三個(gè)字,但和他一點(diǎn)關(guān)系都沒有。于是他下一步輸入“總經(jīng)理”,利用搜索引擎提供的“結(jié)果中查詢”功能,將上萬(wàn)個(gè)條目限制到上千個(gè),但是其中大部分仍然還是和他無(wú)關(guān)。他當(dāng)然 可以一個(gè)一個(gè) 查 看,記錄下確實(shí)和他相關(guān)的,然后仔細(xì)研究其內(nèi)容;但這顯然“繁復(fù)、效率不高、很不方便”。這里的問題在于,現(xiàn)在的搜索引擎一般都是通用 的 ,要準(zhǔn)備響應(yīng)用戶提出的任何查詢?cè)~,同時(shí)沒有預(yù)先保存關(guān)于查詢用戶的任何指定信息的特征,因此給出的返回信息只能盡量“包羅萬(wàn)象”,談不上針對(duì)性。利用多重關(guān)鍵字進(jìn)行限制能起到一些作用,但效果還是不夠好。 而且由于搜索引擎 是 把查詢作為一個(gè)無(wú)結(jié)構(gòu)的詞串來處理,會(huì)把 用戶輸入的多重 關(guān)鍵詞查詢到的文檔集合取 嚴(yán)格 交集返回,因此當(dāng)輸入查詢?cè)~比較多的時(shí)候,又常會(huì)導(dǎo)致找不到任何信息。 北京大學(xué)碩士學(xué)位論文 第一章 引 言 3 因此迫切需 要一種能夠?yàn)橛脩糇詣?dòng)收集、分析和整理具有預(yù)定特性信息的信息服務(wù)系統(tǒng) ,其特點(diǎn)是如下兩個(gè)方面的結(jié)合: 1)大規(guī)模網(wǎng)上信息的收集 (主要是 集和整理 ); 2)用戶預(yù)先提供盡量確定的目標(biāo)信息特性。 目前的 索引擎能夠較好地完成 1),而信息過濾、智能檢索等技術(shù)能夠?yàn)閷?shí)現(xiàn) 2)提供一定的基礎(chǔ)。將二者結(jié)合起來,有可能實(shí)現(xiàn)一種網(wǎng)上預(yù)定特性信息的收集、評(píng)價(jià)與分發(fā)系統(tǒng),其特點(diǎn)是:系統(tǒng)持續(xù)不斷地從 企業(yè)網(wǎng)內(nèi)部 )上收集和保存網(wǎng)頁(yè)(或任何指定格式的文件),并把滿足要求的網(wǎng)頁(yè)(或文件)以指定的方式加工、存儲(chǔ)和分 發(fā)(例如按照評(píng)分、更新時(shí)間、文件大小等指標(biāo)、進(jìn)行排序、分類、自動(dòng)摘要和 上述技術(shù)目標(biāo) 就 是 天網(wǎng)知名度項(xiàng) 目的立論動(dòng)機(jī)。為進(jìn)一步明確信息的預(yù)定特性,本項(xiàng)目限定用戶提供的預(yù)定信息為一個(gè)或多個(gè)實(shí)體(包括人和公司 /機(jī)構(gòu))的描述信息(例如人名、工作單位、行業(yè)與社會(huì)職務(wù)分類、或者公司 /機(jī)構(gòu)名稱、主要業(yè)務(wù)、產(chǎn)品等),這樣系統(tǒng)將自動(dòng)為用戶指定的實(shí)體對(duì)每個(gè)網(wǎng)頁(yè)進(jìn)行相關(guān)度評(píng)價(jià),并把相關(guān)的網(wǎng)頁(yè)進(jìn)行匯集、排序和加工。用戶可以由此定期和定量地獲得網(wǎng)上對(duì)其自身做了報(bào)道或描述的相關(guān)網(wǎng)頁(yè),由此可以產(chǎn)生一種優(yōu)質(zhì)的個(gè)性化網(wǎng)上知 名度信息服務(wù)。 2002年 7月始, 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室、北京大學(xué)計(jì)算語(yǔ)言所與北京大學(xué) 網(wǎng)知名度項(xiàng)目在天網(wǎng)搜索引擎的基礎(chǔ)上, 結(jié)合 中文信息處理的資源和先進(jìn)技術(shù), 以名人 實(shí)體 為起點(diǎn), 針對(duì)名人 特點(diǎn),創(chuàng)建用于表示其特征的用戶屬性信息表示,建立相關(guān)度評(píng)價(jià)模型,進(jìn)行名人網(wǎng)頁(yè)的過濾和評(píng)價(jià)工作,并提供個(gè)性化檢索和定制信息的主動(dòng)推送服務(wù)。 相關(guān)工作 網(wǎng)知名度 原 有系統(tǒng) 查詢輸入、文檔表示和相關(guān)度評(píng)價(jià)是信息檢索模型的三個(gè)基本方面。在天網(wǎng)北京大學(xué)碩士學(xué)位論文 第一章 引 言 4 知名度系統(tǒng)中,查詢是 用戶在注冊(cè)時(shí)填寫的名人屬性信息,系統(tǒng)中為了對(duì)其進(jìn)行更好的描述建立了名人實(shí)體模型,包括 8類屬性信息:領(lǐng)域、姓名、工作單位、職業(yè) /職務(wù)、兼職、社會(huì)形象、特征詞、代表作;文檔是系統(tǒng)收集的網(wǎng)頁(yè);本文基于概率模型,通過改進(jìn)相關(guān)度評(píng)價(jià)算法和 采用 相關(guān)反饋來提高名人網(wǎng)頁(yè) 相關(guān)度評(píng)價(jià)的 質(zhì)量 。 相關(guān)網(wǎng)頁(yè) 排序結(jié)果的優(yōu)劣是系統(tǒng)服務(wù)質(zhì)量的最根本體現(xiàn),因此名人網(wǎng)頁(yè)的相關(guān)度評(píng)價(jià)算法是系統(tǒng)的關(guān)鍵所在。相關(guān)度,在本系統(tǒng)中認(rèn)為是用戶注冊(cè)信息 (代表用戶信息需求 )與網(wǎng)頁(yè)的匹配程度。 原有系統(tǒng)中 有兩個(gè) 相關(guān)度評(píng)價(jià)模型 6: 1) 基于信息提取的布爾加權(quán) 模型, 簡(jiǎn)稱模型 1。其評(píng)價(jià)方法是 對(duì)網(wǎng)頁(yè)表示庫(kù)中的每一個(gè)網(wǎng)頁(yè),檢查其人名列表,檢索用戶信息庫(kù),對(duì)其中已注冊(cè)的人名(實(shí)體名)建立一個(gè)該網(wǎng)頁(yè)對(duì)該人名的相關(guān)度評(píng)分初值;對(duì)檢索出的注冊(cè)名人實(shí)體列表,檢查該網(wǎng)頁(yè)中的二元關(guān)系和實(shí)體信息庫(kù),對(duì)符合匹配的關(guān)系為該網(wǎng)頁(yè)的相關(guān)度評(píng)分增加一定分值,同時(shí)利用排除詞表過濾掉重名的無(wú)關(guān)網(wǎng)頁(yè);對(duì)網(wǎng)頁(yè)分詞中的有效詞(對(duì)語(yǔ)義理解有效的大部分實(shí)詞)分別檢索實(shí)體信息庫(kù)的八類信息,分不同情況為該網(wǎng)頁(yè)對(duì)名人的相關(guān)度評(píng)分增加不同分值;對(duì)網(wǎng)頁(yè)分詞中的有效詞檢查其 記,分不同情況為該網(wǎng)頁(yè)對(duì)名人的相關(guān)度 評(píng)分增加不同分值;根據(jù)網(wǎng)頁(yè)長(zhǎng)度、網(wǎng)頁(yè)中的人名個(gè)數(shù)等因素調(diào)整其相關(guān)度評(píng)分值。 2) 組合向量空間模型( 簡(jiǎn)稱模型2。其評(píng)價(jià)方法是, 對(duì)于實(shí)體屬性的八類信息分別創(chuàng)建八個(gè)向量,每個(gè)向量的維數(shù)是該類信息包含的詞的個(gè)數(shù)。相應(yīng)的,根據(jù)實(shí)體屬性對(duì)應(yīng)的八個(gè)向量對(duì)實(shí)體相對(duì)應(yīng)的網(wǎng)頁(yè)分別提取相應(yīng)的八類信息的向量表示,分別計(jì)算這八對(duì)向量中兩兩之間的相似度,然后根據(jù)每類信息各自對(duì)相關(guān)度的貢獻(xiàn)大小對(duì)這些相似度加權(quán)求和,形成最后的網(wǎng)頁(yè)信息與實(shí)體屬性的相關(guān)度評(píng)價(jià)結(jié)果。網(wǎng)頁(yè)文檔 向量各個(gè)維的權(quán)重根據(jù)該詞的絕對(duì)詞頻及其 在 對(duì)相關(guān)度評(píng)價(jià)結(jié)果的 評(píng)測(cè)中, 模型 2 優(yōu)于模型 1, 原有系統(tǒng)的相關(guān)度評(píng)價(jià)質(zhì)量以模型 2為準(zhǔn)。本文中對(duì)原有系統(tǒng)相關(guān)度質(zhì)量進(jìn)行改進(jìn)的參照為模型 2。 模型 2 相關(guān)度評(píng)價(jià)結(jié)果與 人名 +單位 +職業(yè) 和 人名 +單位 等信息作為查詢關(guān)鍵詞返回的結(jié)果,采用 P20 進(jìn)北京大學(xué)碩士學(xué)位論文 第一章 引 言 5 行的評(píng)測(cè)比較 ,結(jié)果顯示 該項(xiàng)指標(biāo)下,與 檢索結(jié)果基本相當(dāng),并優(yōu)于 檢索結(jié)果 6。 但是, 從多層次的相關(guān)度判別角度出發(fā)(本系統(tǒng)中網(wǎng)頁(yè)的相關(guān)度分為高、中、低三個(gè)層次),對(duì)網(wǎng)頁(yè)不再僅進(jìn)行二元的相關(guān)或不相關(guān)的判斷時(shí),高相關(guān)度的網(wǎng)頁(yè)排在前面才是一個(gè)實(shí)用的檢索系統(tǒng)質(zhì)量的更可靠指標(biāo)。 原 有系統(tǒng)中,高相關(guān)度網(wǎng)頁(yè)被排到后面的情況仍較常見。 通過 分析 , 系統(tǒng)中 原 有相關(guān)度評(píng)價(jià)模型 2 主要存在下列三個(gè) 不足 : 1) 向量空間模型的思想是測(cè)量 量和文檔向量之間的相似度。但是向量空間基本模型中并沒有給出相似度的計(jì)算公式。通常使用向量之間夾角的余弦或向量?jī)?nèi)積作為相似度衡量標(biāo)準(zhǔn) , 無(wú)論采用哪種方法向量中每個(gè)緯度的權(quán)重要如何 計(jì)算都是對(duì)檢索質(zhì)量致關(guān)重要 的 7。 模型 2 采用 算相似度時(shí)主要依據(jù)是屬性信息詞的詞頻( 記。沒有考慮 逆 文檔頻( 文檔長(zhǎng)度( 作用。很多研究和實(shí)驗(yàn)表明二者在相關(guān)度評(píng)價(jià)中是非常重要的因素。 tf,有 大部分搜索引擎在 權(quán)重計(jì)算方法中 都 包含 的因素 8。 大量文檔中都出現(xiàn)的詞與僅在少量文檔中出現(xiàn)的詞對(duì)網(wǎng)頁(yè)相關(guān)度評(píng)價(jià)的貢獻(xiàn)是不同的。 文檔長(zhǎng)度 對(duì)相關(guān)度評(píng)價(jià)也是有 影響 的, 一個(gè)查詢?cè)~在一篇內(nèi)容重復(fù)冗長(zhǎng)的文檔中出現(xiàn) 2次,與在一篇簡(jiǎn) 要精煉 的文檔中 出現(xiàn) 2次,對(duì)相關(guān)度的貢獻(xiàn)是不同的,如果不考慮文檔長(zhǎng)度,那么就會(huì) 使 評(píng)價(jià)標(biāo)準(zhǔn)偏向于內(nèi)容重復(fù)冗長(zhǎng)的文檔。因此需要在網(wǎng)頁(yè)的相關(guān)度評(píng)價(jià)中加入對(duì) 素的考慮 ( 同時(shí)還要考慮到文檔集合中所有文檔的平均長(zhǎng)度 , 為比較依據(jù) ) 。 2) 不同領(lǐng)域名人 的 實(shí)體模型沒有 進(jìn)行 區(qū)別 。 通過觀察和實(shí)驗(yàn)發(fā)現(xiàn), 不同 領(lǐng)域的名人,其高相關(guān)度 網(wǎng)頁(yè)的內(nèi)容有比較明顯的差別, 且 有一定規(guī)律可循 ,體現(xiàn)了 各類屬性對(duì)相關(guān)度評(píng)價(jià)質(zhì)量的貢獻(xiàn)不同 。 這與名人的領(lǐng)域有關(guān),不同的領(lǐng)域性質(zhì),決定了輿論的不同特性。 其中政府類名人的高相關(guān)網(wǎng)頁(yè)往往比較正式,關(guān)于其出席 某次會(huì)議、發(fā)表某個(gè)講話等,關(guān)于其個(gè)人的專門報(bào)道比較少,這與其工作性質(zhì)的要求有關(guān), 其相關(guān)網(wǎng)頁(yè)中 職業(yè)、職務(wù)的出現(xiàn)率較高;科教類名人的高相關(guān)網(wǎng)頁(yè)內(nèi)容也比較正規(guī),其職業(yè)、職務(wù)類屬性在其相關(guān)網(wǎng)頁(yè)中出現(xiàn)率較高,而且其相關(guān)網(wǎng)頁(yè)往往圍繞其科研領(lǐng)域這個(gè)主題,即特征詞屬性;而媒體、演藝類名人的高相關(guān)網(wǎng)頁(yè)則常常圍繞他們的代表作、特征詞類屬性展開,比如對(duì)演藝類名人 相北京大學(xué)碩士學(xué)位論文 第一章 引 言 6 關(guān)網(wǎng)頁(yè)的 主題往往離不開其拍的電影、推出的專輯等。 因此 在實(shí)體模型中需要 根據(jù)領(lǐng)域 對(duì) 名人的 屬性 信息進(jìn)行區(qū)別對(duì)待, 根據(jù)領(lǐng)域 提高 其相應(yīng)“ 精華 ” 屬性對(duì)相關(guān)度評(píng)價(jià)的 作用力 。 3) 參 數(shù)問題。 首先,模型 2 即組合 向量空間模型中引入八個(gè)向量,因此也引入了 8 個(gè) 屬性信息詞權(quán)重系 數(shù), 其取值由人工賦予,存在一定不確定因素 ;其次屬性信息詞權(quán)重系數(shù)的調(diào)節(jié)需要人工參與,該模型中的屬性信息詞權(quán)重由文檔集決定,是固定值, 實(shí)際系統(tǒng)需要 根據(jù)使用效果自動(dòng)調(diào)節(jié)內(nèi)部參數(shù),實(shí)現(xiàn)進(jìn)一步的優(yōu)化。 要使系統(tǒng)具備參數(shù)自動(dòng)調(diào)節(jié)以實(shí)現(xiàn)自動(dòng)優(yōu)化的功能, 首先需要改變賦值方式,用訓(xùn)練的方式替代人工賦予,減少不確定因素;其次需要提供屬性信息詞權(quán)重的自動(dòng)調(diào)節(jié)機(jī)制。 本文中將針對(duì)模型 2 的以上三個(gè)不足,提出基于概率模型的相關(guān)度評(píng)價(jià)模型,以提高 統(tǒng) 的 相關(guān)度評(píng)價(jià) 質(zhì)量 。 2004年 8月 , 加了名人智能搜索 “, 該功能 是為了 滿足 大量搜索用戶關(guān)于名人信息的搜索請(qǐng)求而推出 ?!?名人搜索 ” 包括搜索音樂家、電影明星,政治家,運(yùn)動(dòng)明星,歷史人物及其他被關(guān)注人群。 根據(jù)用戶輸入的人名, 將 人物圖片,背景傳記或者新聞 等 不同 類型的 信息資源綜合成一個(gè)結(jié)果 ,形成對(duì)該名人的一個(gè) 答案返回給用戶 。例如, 輸入 會(huì) 返回 英國(guó)現(xiàn)任女王的信息,包括圖片、傳記及女王的官方網(wǎng)站,但是結(jié)果也會(huì)同時(shí)給出 16 世紀(jì)英國(guó)女王 的鏈接。 “收錄了 2, 000 多位世界著名人物的信息 9, 它 的目標(biāo)是對(duì) 已收錄的 名人給出一個(gè)包括其傳記等信息的答案 ,所有查詢同一個(gè)名人的用戶會(huì)得到相同的答案 。 天網(wǎng)知名度系統(tǒng)中則是由用戶來預(yù)定目標(biāo)名人特性, 不同用戶查詢的同一個(gè)名人在天網(wǎng)知名度系統(tǒng)中是被當(dāng)做不同實(shí)體的, 系統(tǒng)根據(jù)用 戶對(duì)目標(biāo)名人的信息描述, 對(duì)網(wǎng)頁(yè)進(jìn)行相關(guān)度評(píng)價(jià),返回其相關(guān)網(wǎng)頁(yè),按相關(guān)度從高到低的順序或按時(shí)間順序等,是 根據(jù)用戶的需求提供個(gè)性化名人檢索服務(wù) ,目前只針對(duì) 頁(yè)資源進(jìn)行評(píng)價(jià) 。 北京大學(xué)碩士學(xué)位論文 第一章 引 言 7 家查找 在相關(guān)研究和系統(tǒng)中,專家查找系統(tǒng)是信息檢索、知識(shí)管理、計(jì)算機(jī)支持協(xié)作工作( 幾個(gè)領(lǐng)域的交叉研究點(diǎn) 10。目前已經(jīng)存在一些專家查找系 統(tǒng) 4。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論