已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
北 京 大 學(xué) 碩士研究生學(xué)位論文 題目 : 基于概率模型的名人網(wǎng)頁相關(guān)度評價 姓 名: 劉曉莉 學(xué) 號: 10208074 院 系 : 信息科學(xué)技術(shù)學(xué)院 專 業(yè): 計算機(jī)系統(tǒng)結(jié)構(gòu) 研究方向: 網(wǎng)絡(luò)與分布式 系統(tǒng) 導(dǎo) 師: 李曉明 教授 二零零五年五月 版權(quán) 聲明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。 摘 要 本文的工作是在 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室、北京大學(xué)計算語言所與北京大學(xué) 天網(wǎng)知名度系統(tǒng) (開展的 。 針對 原有系統(tǒng)名人網(wǎng)頁相關(guān)度評價中存在的問題, 本文中 提出了一種基于概率模型的名人網(wǎng)頁相關(guān)度評價模型。 首先,針對 統(tǒng)中名人網(wǎng)頁相關(guān)度評價的特點(diǎn),構(gòu)建基本 相關(guān)度評價模型。構(gòu) 建基礎(chǔ)是 其基礎(chǔ)上引入 進(jìn) 式,彌補(bǔ)其沒有考慮 記的不足。 利用 統(tǒng) 數(shù)據(jù)集進(jìn)行評測,實(shí)驗(yàn)結(jié)果表明 記系數(shù)的引入提高了系統(tǒng)相關(guān)度評價質(zhì)量,同時顯示該基本模型優(yōu)于原有系統(tǒng)中的相關(guān)度評價模型,提高了系統(tǒng)性能。 其次,由于不同領(lǐng)域名人的屬性信息對其相關(guān)度評價有不同的貢獻(xiàn),本文中構(gòu)建了區(qū)分領(lǐng)域的 多層次 實(shí)體模型,來更好 地 描述用戶的信息需求。同時在基本模型基礎(chǔ)上引入屬性信息權(quán)重系數(shù),使基本模型從不支持結(jié)構(gòu)化查詢需求改進(jìn)為支持 多層 次 實(shí)體模型。各領(lǐng)域的權(quán)重系數(shù)通過訓(xùn)練集訓(xùn) 練 的方式獲得,避免了人工賦予 方法 的不確 定 因素。選取對系統(tǒng)相關(guān)度性能提高最大的一組權(quán)重系數(shù)作為模型中的領(lǐng)域參數(shù),該套參數(shù)通過測試集的測試,證明有較好的適用性。 再次, 采用了偽反饋和用戶反饋兩種相關(guān)反饋方法,為實(shí)體屬性信息進(jìn)行 權(quán)重的 自動調(diào)整,以 達(dá)到系統(tǒng) 相關(guān)度評價的進(jìn)一步 優(yōu)化 。通過實(shí)驗(yàn)得出的結(jié)論是:1)初始檢索的質(zhì)量 很大程度地 影響偽反饋的效果 。 應(yīng)該先對初始檢索模型進(jìn)行優(yōu)化,再使用偽反饋,這個順序很重要;同時初始檢索的質(zhì)量需要達(dá)到一定高度后,使用偽反饋才能提高系統(tǒng)檢索質(zhì)量,目 前系統(tǒng)的初始檢索質(zhì)量仍不適宜直接進(jìn)行偽反饋。 2)用戶反饋在總體上 自動 優(yōu)化 了 屬性信息權(quán)重,提高了系統(tǒng)相關(guān)度評價質(zhì)量。 3)用戶反饋的效果受名人實(shí)體屬性信息詞數(shù)的影響,屬性信息越豐富,采用用戶反饋后評價質(zhì)量提高的概率越大。 關(guān)鍵詞: 信息檢索 , 相關(guān)度評價, 概率模型, 相關(guān)反饋 s I is an to of a is in to of s a is on to a is to an to of is on s be to s to to an 1) of a to be is 2) in 3) of is to of in s of 目 錄 第一章 引言 . 1 目背景 . 1 關(guān)工作 . 3 網(wǎng)知名度原有系統(tǒng) . 3 . 6 家查找 . 7 文工作 . 9 文組織 . 10 第二章 天網(wǎng)知名度系統(tǒng) . 13 統(tǒng)流程 . 13 頁搜集模塊及改進(jìn) . 15 頁分析與索引模塊 . 15 頁評價模塊及改進(jìn) . 17 戶界面模塊 . 19 體 數(shù)據(jù)集及擴(kuò)容 . 21 章小結(jié) . 23 第三章 基于概率模 型的相關(guān)度評價 . 24 率模型 . 24 典的概率模型 . 24 . 26 統(tǒng)名人網(wǎng)頁相關(guān)度評價基本模型 . 27 本模型 . 27 型的實(shí)現(xiàn) . 29 統(tǒng)評測方法 . 31 統(tǒng)中原有的評測方法 . 31 . 32 本模型性能評測 . 37 驗(yàn)設(shè)計 . 37 驗(yàn)結(jié)果及分析 . 38 章小結(jié) . 41 第四章 支持多層次實(shí)體模型的相關(guān)度評價 . 42 層次的實(shí)體模型 . 42 進(jìn)的評價模型 . 43 數(shù)的獲取 . 43 驗(yàn)設(shè)計 . 44 數(shù)的訓(xùn)練 . 44 數(shù)的選定和 測試 . 47 章小結(jié) . 50 第五章 相關(guān)性反饋 . 51 關(guān)性反饋理論 . 51 網(wǎng)知名度系統(tǒng)中的相關(guān)性反饋 . 52 驗(yàn)與分析 . 54 反饋 . 54 戶反饋 . 56 章小結(jié) . 59 第六章 總結(jié)和展望 . 60 結(jié) . 60 望 . 61 參考文獻(xiàn) . 62 致 謝 . 64 圖 目 錄 圖 2天網(wǎng)知名度系統(tǒng)流程圖 .實(shí)體屬性信息注冊界面 . 2用戶檢索界面 . 2實(shí)體網(wǎng)頁的檢索排 . 3 2:2:1 . 3 4:2:1 . 3 5:2:1. 3 100:20:1. 3 100:20:4. 3 20:2:1 . 3 100:2:1 . 3. 3加入 評測方法 1 . 3加入 測 . 3概率 3比模型 2相關(guān)度評價質(zhì)量的對比(評測方法 1) . 3模型 3比模型 2相關(guān)度評價質(zhì)量的對比( . 4姓名 . 4單位 . 4職務(wù) . 4兼職 . 4社會形象 . 4特征詞 . 4代表作 . 4模型 4初始選值后比模型 3的提高 . 4模型 4比模型 3的提高 . 5優(yōu)化初始檢索對偽反饋的提高 . 5模型 4 偽反饋后的漲幅 .圖 5用戶反饋后的漲幅 . 5反饋后增長的概率與屬性詞個數(shù)的關(guān)系 . 目 錄 表 2原始網(wǎng)頁庫( 構(gòu) . 2網(wǎng)頁 實(shí)體評分庫( 構(gòu) . 2網(wǎng)頁屬性庫( 構(gòu) . 3天網(wǎng)搜索引擎中部分 . 4. 5用戶屬性信息詞數(shù) .京大學(xué)碩士學(xué)位論文 第一章 引 言 1 第一章 引 言 為一種全新的信息資源,獲得了極大的發(fā)展,為人類信息獲取提供了一個豐富的寶庫。信息的 有效檢索 隨之 變得 舉足輕重 。 目 背景 大量實(shí)驗(yàn)和研究表明, 整體網(wǎng)頁的數(shù)量以指數(shù)形式增長 1, 2, 3。 根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心 2004年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量 調(diào)查 報告” 4,截至 2004 年 12 月 31 日,全國域名數(shù)為 1852300 個,與 2003 年同期相比增長56%; 網(wǎng)站數(shù)為 668900 個,同期相比增長 網(wǎng)頁總字節(jié)數(shù) 增長最快,同期相比增幅為 238%。網(wǎng)頁總數(shù)為 個,同期相比增長 平均每個網(wǎng)站的網(wǎng)頁數(shù)為 1297 個,同期相比增長 在線數(shù)據(jù)庫數(shù)為 306000 個,同期相比增長 截至 2005年 5月, 8,058,044,651 張網(wǎng)頁 5。 目前人們在網(wǎng)上尋找信息時,大部分還是基于傳統(tǒng)的信息瀏覽方式,主要工具是瀏覽器。通過瀏覽器獲取信息主要有三種方式 6: 1 ) 直 接 向 瀏 覽 器 輸 入 一 個 該 信 息 源 的 網(wǎng) 址 ( , 例如,, 瀏覽器將返回所請求的網(wǎng)頁,用戶可以 根據(jù)該網(wǎng)頁內(nèi)容及其包含的鏈接文本或圖像的引導(dǎo),獲得自己需要的內(nèi)容; 2) 登錄到 某個知名 門戶網(wǎng)站, 例如 , 根據(jù)該網(wǎng)站 提供的分類信息和 相關(guān) 鏈接, 進(jìn)行 網(wǎng)上“沖浪”, 尋找自己感興趣的內(nèi)容 ; 3) 訪問某個 搜索引擎 網(wǎng)站 , 例如, , 輸入 自己關(guān)心信息的關(guān)鍵詞,根據(jù)返回的相關(guān)網(wǎng)頁列表、摘要和鏈接,試探尋找自己需要的信息。 這三種方式各有特點(diǎn),各有相對最適合的應(yīng)用場合。第一種方式的應(yīng)用是最有針對性的,例如要 了解北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室在做些什么工作,得知該實(shí)驗(yàn)室的網(wǎng)址是 , 于是直接把這個 第一章 引 言 2 方式。第二種方式的應(yīng)用類似于讀報,用戶不一定有明確的目的,只是想看看網(wǎng)上有什么有意思的消息;當(dāng)然這其中也可能是關(guān)心某種主題,例如體育比賽、家庭生活等。第三種方式適用于用戶大概知道自己要關(guān)心的內(nèi)容,例如,“ 和諧社會 ” ,但是不清楚哪里能夠找到相關(guān)信息(即不知道哪些 在這種場合,搜索引擎能夠?yàn)橛脩籼峁┛赡苁窍嚓P(guān)網(wǎng)頁的一個網(wǎng)址及其摘要的列表,由用戶 一個個試探 , 看是否是自己需要的?,F(xiàn)在的搜索引擎技術(shù)已經(jīng)能夠做到在多數(shù)情況下滿足用戶的這種需要。 然而,上述這些沒有覆蓋人們的所有信息需求。例如,一個人可能會關(guān)心最近半年來網(wǎng)上出現(xiàn)了哪些關(guān)于他(她)的信息,一個企業(yè) 可能要關(guān)心它做了一次大規(guī)模促銷活動后一個月內(nèi)網(wǎng)上有什么反響,一個政府機(jī)構(gòu)可能會關(guān)心在一項(xiàng)政策法規(guī)頒布后網(wǎng)上的輿論。對于這樣的信息需求,目前的網(wǎng)上信息系統(tǒng)都不能很好地滿足。在上面三種信息獲取方式中,只有第三種方式可以勉強(qiáng)地、間接地提供這類信息服務(wù), 但是需要 通過不斷提供各種查詢詞、反復(fù)試探,繁復(fù)、效率不高 而且很不方便。 以一個例子來說明“繁復(fù)、效率不高、很不方便”。比如某著名“信息技術(shù)”公司的“總經(jīng)理”“王曉東”希望了解最近一段時間來網(wǎng)上有些什么關(guān)于他的信息(即他最近在網(wǎng)上的“知名度”如何)。為此,他登上某個搜索引擎,例如,輸入名字“王曉東”。極大的可能是,搜索引擎返回給他上萬個條目,大致一看,許多雖然含有“王曉東”三個字,但和他一點(diǎn)關(guān)系都沒有。于是他下一步輸入“總經(jīng)理”,利用搜索引擎提供的“結(jié)果中查詢”功能,將上萬個條目限制到上千個,但是其中大部分仍然還是和他無關(guān)。 他當(dāng)然可以一個一個 查 看,記錄下確實(shí)和他相關(guān)的,然后仔細(xì)研究其內(nèi)容;但這顯然“繁復(fù)、效率不高、很不方便”。這里的問題在于,現(xiàn)在的搜索引擎一般都是通用 的 ,要準(zhǔn)備響應(yīng)用戶提出的任何查詢詞,同時沒有預(yù)先保存關(guān)于查詢用戶的任何指定信息的特征,因此給出的返回信息只能盡量“包羅萬象”,談不上針對性。利用多重關(guān)鍵字進(jìn)行限制能起到一些作用,但效果還是不夠好。 而且由于搜索引擎 是 把查詢作為一個無結(jié)構(gòu)的詞串來處理,會把 用戶輸入的多重 關(guān)鍵詞查詢到的文檔集合取 嚴(yán)格 交集返回,因此當(dāng)輸入查詢詞比較多的時候,又常會導(dǎo)致找不到任何信息。 北京大學(xué)碩士學(xué)位論文 第一章 引 言 3 因此 迫切需要一種能夠?yàn)橛脩糇詣邮占⒎治龊驼砭哂蓄A(yù)定特性信息的信息服務(wù)系統(tǒng) ,其特點(diǎn)是如下兩個方面的結(jié)合: 1)大規(guī)模網(wǎng)上信息的收集 (主要是 集和整理 ); 2)用戶預(yù)先提供盡量確定的目標(biāo)信息特性。 目前的 索引擎能夠較好地完成 1),而信息過濾、智能檢索等技術(shù)能夠?yàn)閷?shí)現(xiàn) 2)提供一定的基礎(chǔ)。將二者結(jié)合起來,有可能實(shí)現(xiàn)一種網(wǎng)上預(yù)定特性信息的收集、評價與分發(fā)系統(tǒng),其特點(diǎn)是:系統(tǒng)持續(xù)不斷地從 企業(yè)網(wǎng)內(nèi)部 )上收集和保存網(wǎng)頁(或任何指定格式的文件),并把滿足要求的網(wǎng)頁(或文件)以指定的方式加工、存 儲和分發(fā)(例如按照評分、更新時間、文件大小等指標(biāo)、進(jìn)行排序、分類、自動摘要和 上述技術(shù)目標(biāo) 就 是 天網(wǎng)知名度項(xiàng) 目的立論動機(jī)。為進(jìn)一步明確信息的預(yù)定特性,本項(xiàng)目限定用戶提供的預(yù)定信息為一個或多個實(shí)體(包括人和公司 /機(jī)構(gòu))的描述信息(例如人名、工作單位、行業(yè)與社會職務(wù)分類、或者公司 /機(jī)構(gòu)名稱、主要業(yè)務(wù)、產(chǎn)品等),這樣系統(tǒng)將自動為用戶指定的實(shí)體對每個網(wǎng)頁進(jìn)行相關(guān)度評價,并把相關(guān)的網(wǎng)頁進(jìn)行匯集、排序和加工。用戶可以由此定期和定量地獲得網(wǎng)上對其自身做了報道或描述的相關(guān)網(wǎng)頁,由此可以產(chǎn)生一種優(yōu)質(zhì)的個性化 網(wǎng)上知名度信息服務(wù)。 2002年 7月始, 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室、北京大學(xué)計算語言所與北京大學(xué) 網(wǎng)知名度項(xiàng)目在天網(wǎng)搜索引擎的基礎(chǔ)上, 結(jié)合 中文信息處理的資源和先進(jìn)技術(shù), 以名人 實(shí)體 為起點(diǎn), 針對名人 特點(diǎn),創(chuàng)建用于表示其特征的用戶屬性信息表示,建立相關(guān)度評價模型,進(jìn)行名人網(wǎng)頁的過濾和評價工作,并提供個性化檢索和定制信息的主動推送服務(wù)。 相關(guān)工作 網(wǎng)知名度 原 有系統(tǒng) 查詢輸入、文檔表示和相關(guān)度評價是信息檢索模型的三個基本方面。在天網(wǎng)北京大學(xué)碩士學(xué)位論文 第一章 引 言 4 知名度系統(tǒng)中, 查詢是用戶在注冊時填寫的名人屬性信息,系統(tǒng)中為了對其進(jìn)行更好的描述建立了名人實(shí)體模型,包括 8類屬性信息:領(lǐng)域、姓名、工作單位、職業(yè) /職務(wù)、兼職、社會形象、特征詞、代表作;文檔是系統(tǒng)收集的網(wǎng)頁;本文基于概率模型,通過改進(jìn)相關(guān)度評價算法和 采用 相關(guān)反饋來提高名人網(wǎng)頁 相關(guān)度評價的 質(zhì)量 。 相關(guān)網(wǎng)頁 排序結(jié)果的優(yōu)劣是系統(tǒng)服務(wù)質(zhì)量的最根本體現(xiàn),因此名人網(wǎng)頁的相關(guān)度評價算法是系統(tǒng)的關(guān)鍵所在。相關(guān)度,在本系統(tǒng)中認(rèn)為是用戶注冊信息 (代表用戶信息需求 )與網(wǎng)頁的匹配程度。 原有系統(tǒng)中 有兩個 相關(guān)度評價模型 6: 1) 基于信息提取的布 爾加權(quán)模型, 簡稱模型 1。其評價方法是 對網(wǎng)頁表示庫中的每一個網(wǎng)頁,檢查其人名列表,檢索用戶信息庫,對其中已注冊的人名(實(shí)體名)建立一個該網(wǎng)頁對該人名的相關(guān)度評分初值;對檢索出的注冊名人實(shí)體列表,檢查該網(wǎng)頁中的二元關(guān)系和實(shí)體信息庫,對符合匹配的關(guān)系為該網(wǎng)頁的相關(guān)度評分增加一定分值,同時利用排除詞表過濾掉重名的無關(guān)網(wǎng)頁;對網(wǎng)頁分詞中的有效詞(對語義理解有效的大部分實(shí)詞)分別檢索實(shí)體信息庫的八類信息,分不同情況為該網(wǎng)頁對名人的相關(guān)度評分增加不同分值;對網(wǎng)頁分詞中的有效詞檢查其 記,分不同情況為該網(wǎng)頁對名人的 相關(guān)度評分增加不同分值;根據(jù)網(wǎng)頁長度、網(wǎng)頁中的人名個數(shù)等因素調(diào)整其相關(guān)度評分值。 2) 組合向量空間模型( 簡稱模型2。其評價方法是, 對于實(shí)體屬性的八類信息分別創(chuàng)建八個向量,每個向量的維數(shù)是該類信息包含的詞的個數(shù)。相應(yīng)的,根據(jù)實(shí)體屬性對應(yīng)的八個向量對實(shí)體相對應(yīng)的網(wǎng)頁分別提取相應(yīng)的八類信息的向量表示,分別計算這八對向量中兩兩之間的相似度,然后根據(jù)每類信息各自對相關(guān)度的貢獻(xiàn)大小對這些相似度加權(quán)求和,形成最后的網(wǎng)頁信息與實(shí)體屬性的相關(guān)度評價結(jié)果。網(wǎng) 頁文檔向量各個維的權(quán)重根據(jù)該詞的絕對詞頻及其 在 對相關(guān)度評價結(jié)果的 評測中, 模型 2 優(yōu)于模型 1, 原有系統(tǒng)的相關(guān)度評價質(zhì)量以模型 2為準(zhǔn)。本文中對原有系統(tǒng)相關(guān)度質(zhì)量進(jìn)行改進(jìn)的參照為模型 2。 模型 2 相關(guān)度評價結(jié)果與 人名 +單位 +職業(yè) 和 人名 +單位 等信息作為查詢關(guān)鍵詞返回的結(jié)果,采用 P20 進(jìn)北京大學(xué)碩士學(xué)位論文 第一章 引 言 5 行的評測比較 ,結(jié)果顯示 該項(xiàng)指標(biāo)下,與 檢索結(jié)果基本相當(dāng),并優(yōu)于 檢索結(jié)果 6。 但是,從多層次的相關(guān)度判別角度出發(fā)(本系統(tǒng)中網(wǎng)頁的相關(guān)度分為高、中、低三個層次),對網(wǎng)頁不再僅進(jìn)行二元的相關(guān)或不相關(guān)的判斷時,高相關(guān)度的網(wǎng)頁排在前面才是一個實(shí)用的檢索系統(tǒng)質(zhì)量的更可靠指標(biāo)。 原 有系統(tǒng)中,高相關(guān)度網(wǎng)頁被排到后面的情況仍較常見。 通過 分析 , 系統(tǒng)中 原 有相關(guān)度評價模型 2 主要存在下列三個 不足 : 1) 向量空間模型的思想是測量 量和文檔向量之間的相似度。但是向量空間基本模型中并沒有給出相似度的計算公式。通常使用向量之間夾角的余弦或向量內(nèi)積作為相似度衡量標(biāo)準(zhǔn) , 無論采用哪種方法向量中每個緯度的權(quán)重要如何計算都是對檢索質(zhì)量致關(guān)重要 的 7。 模型 2 采用 算相似度時主要依據(jù)是屬性信息詞的詞頻( 記。沒有考慮 逆 文檔頻( 文檔長度( 作用。很多研究和實(shí)驗(yàn)表明二者在相關(guān)度評價中是非常重要的因素。 tf,有 大部分搜索引擎在 權(quán)重計算方法中 都 包含 的因素 8。 大量文檔中都出現(xiàn)的詞與僅在少量文檔中出現(xiàn)的詞對網(wǎng)頁相關(guān)度評價的貢獻(xiàn)是不同的。 文檔長度 對相關(guān)度評價也是有 影響 的, 一個查詢詞在一篇內(nèi)容重復(fù)冗長的文檔中出現(xiàn) 2次,與在一篇簡 要精煉 的 文檔中出現(xiàn) 2次,對相關(guān)度的貢獻(xiàn)是不同的,如果不考慮文檔長度,那么就會 使 評價標(biāo)準(zhǔn)偏向于內(nèi)容重復(fù)冗長的文檔。因此需要在網(wǎng)頁的相關(guān)度評價中加入對 素的考慮 ( 同時還要考慮到文檔集合中所有文檔的平均長度 , 為比較依據(jù) ) 。 2) 不同領(lǐng)域名人 的 實(shí)體模型沒有 進(jìn)行 區(qū)別 。 通過觀察和實(shí)驗(yàn)發(fā)現(xiàn), 不同 領(lǐng)域的名人,其高相關(guān)度 網(wǎng)頁的內(nèi)容有比較明顯的差別, 且 有一定規(guī)律可循 ,體現(xiàn)了 各類屬性對相關(guān)度評價質(zhì)量的貢獻(xiàn)不同 。 這與名人的領(lǐng)域有關(guān),不同的領(lǐng)域性質(zhì),決定了輿論的不同特性。 其中政府類名人的高相關(guān)網(wǎng)頁往往比較正式,關(guān)于其出席某次會議、發(fā)表某個講話等,關(guān)于其個人的專門報道比較少,這與其工作性質(zhì)的要求有關(guān), 其相關(guān)網(wǎng)頁中 職業(yè)、職務(wù)的出現(xiàn)率較高;科教類名人的高相關(guān)網(wǎng)頁內(nèi)容也比較正規(guī),其職業(yè)、職務(wù)類屬性在其相關(guān)網(wǎng)頁中出現(xiàn)率較高,而且其相關(guān)網(wǎng)頁往往圍繞其科研領(lǐng)域這個主題,即特征詞屬性;而媒體、演藝類名人的高相關(guān)網(wǎng)頁則常常圍繞他們的代表作、特征詞類屬性展開,比如對演藝類名人 相北京大學(xué)碩士學(xué)位論文 第一章 引 言 6 關(guān)網(wǎng)頁的 主題往往離不開其拍的電影、推出的專輯等。 因此 在實(shí)體模型中需要 根據(jù)領(lǐng)域 對 名人的 屬性 信息進(jìn)行區(qū)別對待, 根據(jù)領(lǐng)域 提高 其相應(yīng)“ 精華 ” 屬性對相關(guān)度評價的 作用力 。 3) 參數(shù)問題。 首先,模型 2 即組合 向量空間模型中引入八個向量,因此也引入了 8 個 屬性信息詞權(quán)重系 數(shù), 其取值由人工賦予,存在一定不確定因素 ;其次屬性信息詞權(quán)重系數(shù)的調(diào)節(jié)需要人工參與,該模型中的屬性信息詞權(quán)重由文檔集決定,是固定值, 實(shí)際系統(tǒng)需要 根據(jù)使用效果自動調(diào)節(jié)內(nèi)部參數(shù),實(shí)現(xiàn)進(jìn)一步的優(yōu)化。 要使系統(tǒng)具備參數(shù)自動調(diào)節(jié)以實(shí)現(xiàn)自動優(yōu)化的功能, 首先需要改變賦值方式,用訓(xùn)練的方式替代人工賦予,減少不確定因素;其次需要提供屬性信息詞權(quán)重的自動調(diào)節(jié)機(jī)制。 本文中將針對模型 2 的以上三個不足,提出基于概率模型的相關(guān)度評價模型,以提高 統(tǒng) 的 相關(guān)度評價 質(zhì)量 。 2004年 8月 , 加了名人智能搜索 “, 該功能 是為了 滿足 大量搜索用戶關(guān)于名人信息的搜索請求而推出 ?!?名人搜索 ” 包括搜索音樂家、電影明星,政治家,運(yùn)動明星,歷史人物及其他被關(guān)注人群。 根據(jù)用戶輸入的人名, 將 人物圖片,背景傳記或者新聞 等 不同 類型的 信息資源綜合成一個結(jié)果 ,形成對該名人 的一個答案返回給用戶 。例如, 輸入 會 返回 英國現(xiàn)任女王的信息,包括圖片、傳記及女王的官方網(wǎng)站,但是結(jié)果也會同時給出 16 世紀(jì)英國女王 的鏈接。 “收錄了 2, 000 多位世界著名人物的信息 9, 它 的目標(biāo)是對 已收錄的 名人給出一個包括其傳記等信息的答案 ,所有查詢同一個名人的用戶會得到相同的答案 。 天網(wǎng)知名度系統(tǒng)中則是由用戶來預(yù)定目標(biāo)名人特性, 不同用戶查詢的同一個名人在天網(wǎng)知名度系統(tǒng)中是被當(dāng)做不同實(shí)體的, 系統(tǒng) 根據(jù)用戶對目標(biāo)名人的信息描述, 對網(wǎng)頁進(jìn)行相關(guān)度評價,返回其相關(guān)網(wǎng)頁,按相關(guān)度從高到低的順序或按時間順序等,是 根據(jù)用戶的需求提供個性化名人檢索服務(wù) ,目前只針對 頁資源進(jìn)行評價 。 北京大學(xué)碩士學(xué)位論文 第一章 引 言 7 家查找 在相關(guān)研究和系統(tǒng)中,專家查找系統(tǒng)是信息檢索、知識管理、計算機(jī)支持協(xié)作工作( 幾個領(lǐng)域的交叉研究點(diǎn) 10。目前已經(jīng)存在一些專家查找系 統(tǒng) 4。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 懷化市2024湖南懷化新晃侗族自治縣陸港事務(wù)中心招募青年就業(yè)見習(xí)人員筆試歷年參考題庫典型考點(diǎn)附帶答案詳解(3卷合一)試卷2套
- 屏山縣2024四川宜賓市屏山縣交通運(yùn)輸局第一次招聘編外聘用人員16人筆試歷年參考題庫典型考點(diǎn)附帶答案詳解(3卷合一)試卷2套
- 國家事業(yè)單位招聘2023國際小水電中心招聘事業(yè)編制工作人員擬聘筆試歷年參考題庫典型考點(diǎn)附帶答案詳解(3卷合一)試卷2套
- 2025浙江紹興濱海新區(qū)潮涌人力資源有限公司招聘非編制合同制職工(非勞務(wù)派遣)1人筆試歷年??键c(diǎn)試題專練附帶答案詳解
- 2025江蘇鹽城濱海交通控股集團(tuán)有限公司招聘擬聘用人員筆試歷年典型考點(diǎn)題庫附帶答案詳解
- 2025四川廣安交旅集團(tuán)第一批次招聘通過人員及部分招聘崗位筆試歷年常考點(diǎn)試題專練附帶答案詳解
- 2025內(nèi)蒙古高爾奇礦業(yè)有限公司社會招聘工作人員6人筆試歷年難易錯考點(diǎn)試卷帶答案解析
- 2026年重慶工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試參考題庫帶答案解析
- 2026年泰山職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試備考題庫帶答案解析
- 2026年眉山職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試參考題庫附答案詳解
- 腹腔鏡手術(shù)應(yīng)用推廣方案與技術(shù)指南
- 北京市西城區(qū)中學(xué)課余訓(xùn)練:現(xiàn)狀洞察與發(fā)展探究
- 團(tuán)隊成員介紹課件
- 規(guī)劃展館改造項(xiàng)目方案(3篇)
- 玉米dh育種技術(shù)
- 頭孢曲松鈉過敏的觀察與急救
- 幼兒園后勤人員培訓(xùn)會議記錄2025
- 廣告材料供貨方案(3篇)
- 四上語文《快樂讀書吧》作品導(dǎo)讀《世界經(jīng)典神話與傳說》
- 母嬰護(hù)理員職業(yè)道德課件
- 混合痔術(shù)后大出血的護(hù)理
評論
0/150
提交評論