某信息檢索課件_第1頁
某信息檢索課件_第2頁
某信息檢索課件_第3頁
某信息檢索課件_第4頁
某信息檢索課件_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

華南木棉信息檢索木棉檢索隊:歐健文(隊長),陳曉志,張元豐,胡俊剛,陳曉峰jwou@全國搜索引擎與網(wǎng)上信息學術(shù)研討會SEWM2005中文Web檢索

華南木棉信息檢索木棉檢索隊:歐健文(隊長),陳曉志,張元豐目錄目標分析設計實現(xiàn)實驗分析和總結(jié)未來工作2目錄目標分析2目標主題提取(TD)查找主題相關(guān)的關(guān)鍵資源的入口導航搜索HP查找指定名字的網(wǎng)站的首頁NP查找指定名字的頁面3目標主題提?。═D)3主題提?。═D)主題提?。═D)的評分標準1)是否大部分切合主題;2)提供主題的可靠的信息;3)不是一個更大的切合主題站點的一部分。要求:十個結(jié)果中尋找盡可能多的不同站點(用它們的網(wǎng)站首頁面表示)匹配度查詢詞與文檔的匹配程度關(guān)鍵資源的入口 一組同主題的網(wǎng)頁集合4主題提取(TD)主題提?。═D)的評分標準匹配度關(guān)鍵資源的入導航搜索HP查找指定名字的網(wǎng)站的首頁,什么因素說明一個頁面是homepage?NP查找指定名字的頁面。用戶所要查找的可能是某一則新聞,某種型號的產(chǎn)品介紹,甚者是某個公司的地址電話等5導航搜索HP5設計思路衡量一個網(wǎng)頁的得分通常分為兩大部分匹配度1、向量空間模型+TF*IDF2、對網(wǎng)頁文檔進行分塊標題主題內(nèi)容主題相關(guān)內(nèi)容網(wǎng)頁噪音網(wǎng)頁的鏈出錨本

網(wǎng)頁的鏈入錨本重要性1、Pagerank2、網(wǎng)站首頁3、資源入口頁面6設計思路衡量一個網(wǎng)頁的得分通常分為兩大部分6系統(tǒng)框架索引網(wǎng)頁預處理中文分詞鏈接分析文檔庫索引庫網(wǎng)頁噪音庫連接庫綜合采用多種去噪算法,噪音的去除,可以減少索引量,可以避免噪音對檢索結(jié)果的影響區(qū)別對待站內(nèi)鏈接和站外鏈接提取網(wǎng)頁的鏈接,一方面通過分析網(wǎng)頁鏈接關(guān)系計算網(wǎng)頁的pr,另一方面,可以網(wǎng)頁得鏈入錨本。鏈入錨點文本網(wǎng)頁url網(wǎng)頁標題網(wǎng)頁主題內(nèi)容鏈出錨點文本最長匹配法分詞最短匹配法分詞Googlepagerank(GPR)算法簡單pagerank(SPR)算法7系統(tǒng)框架索引網(wǎng)中鏈文檔庫索引庫網(wǎng)頁噪音庫連接庫系統(tǒng)框架檢索用戶輸入查詢詞索引庫二次檢索結(jié)果TD:找出關(guān)鍵資源(HAC)1、url特征2、網(wǎng)頁結(jié)構(gòu),目錄型網(wǎng)頁3、網(wǎng)頁的鏈出錨本4、網(wǎng)頁的鏈出網(wǎng)頁HP:找出首頁NP:??8系統(tǒng)框架檢索用戶輸入查詢詞索引庫二次檢索結(jié)果TD:找出系統(tǒng)框架二次檢索站內(nèi)聚合。判斷每個網(wǎng)頁類型目錄型還是主題型。對網(wǎng)頁的鏈出文本進行分析,計算其與查詢詞的匹配程度。匹配程度越高,說明該網(wǎng)頁越可能是關(guān)鍵資源。計算該網(wǎng)頁的鏈出網(wǎng)頁與查詢詞的匹配程度。越多鏈出網(wǎng)頁與查詢詞匹配,說明該網(wǎng)頁屬于關(guān)鍵資源的可能性就越大。9系統(tǒng)框架二次檢索站內(nèi)聚合。9評測結(jié)果這次SEWM2005評測,共提交了5組主題檢索和5組導航查詢。采用了鏈接分析技術(shù),錨點文本,對網(wǎng)頁進行分塊處理主題采用automatic,直接使用<TITLE>字段作為查詢表達式導航部分,分為首頁和指定頁面對于所給的查詢集,我們可以很容易根據(jù)查詢就分辨出該查詢的意圖:HPorNP所以對查詢詞進行標記,用H表示該查詢?yōu)椴檎襀P,而N表示要查詢指定頁面。10評測結(jié)果這次SEWM2005評測,共提交了5組主題10實驗環(huán)境實驗機器為Itanium2雙CPU的機器,CPU為1.5Ghz,內(nèi)存為2G,機器運行操作系統(tǒng)為RedhatAS3.0。11實驗環(huán)境實驗機器為Itanium2雙CPU的機器,CPU為1實驗結(jié)果匹配記錄數(shù)平均查詢時間(ms)沒有去噪沒有分詞/去噪分詞沒有去噪沒有分詞/去噪分詞北戴河32129/25372889/1777尋秦記18298/13842825/1021天氣預報70732/113675047/175112實驗結(jié)果匹配記錄數(shù)平均查詢時間(ms)沒有去噪沒有分詞沒評測結(jié)果TD去噪GPR/SPR分詞二次檢索RUN_1(1)沒有SPR沒有HACRUN_2沒有SPR沒有簡單站內(nèi)聚合RUN_3(4)有GPR最小分詞HACRUN_4有GPR最大分詞簡單站內(nèi)聚合RUN_5沒有SPR最小分詞簡單站內(nèi)聚合13評測結(jié)果TD去噪GPR/SPR分詞二次檢索RUN評測結(jié)果HP/NP去噪GPR/SPR分詞調(diào)整查詢詞RUN_1(3)沒有SPR沒有加H/NRUN_2(1)沒有SPR沒有加H/N,手工分詞RUN_3(2)沒有SPR最小分詞加H/NRUN_4沒有SPR最大分詞加H/NRUN_5有GPR最小分詞加H/N14評測結(jié)果HP/NP去噪GPR/SPR分詞調(diào)整查詢總結(jié)錨點文本可以很好地表示文檔內(nèi)容,應加大其比重。pagerank能夠確定首頁等重要頁面,且精確的pagerank和近似的pagerank效果相差不大。中文分詞的粒度對檢索精度有比較大的影響。加入中文分詞可以大大減少返回不相關(guān)的文檔,提高檢索速度。15總結(jié)錨點文本可以很好地表示文檔內(nèi)容,應加大其比重。15未來的工作計算網(wǎng)頁的重要性采用PR(site)+PR(page)進一步挖掘錨點文本進一步優(yōu)化HAC算法16未來的工作計算網(wǎng)頁的重要性采用PR(site)+PR(pag謝謝大家!

/

謝謝大家!

.c華南木棉信息檢索木棉檢索隊:歐健文(隊長),陳曉志,張元豐,胡俊剛,陳曉峰jwou@全國搜索引擎與網(wǎng)上信息學術(shù)研討會SEWM2005中文Web檢索

華南木棉信息檢索木棉檢索隊:歐健文(隊長),陳曉志,張元豐目錄目標分析設計實現(xiàn)實驗分析和總結(jié)未來工作19目錄目標分析2目標主題提?。═D)查找主題相關(guān)的關(guān)鍵資源的入口導航搜索HP查找指定名字的網(wǎng)站的首頁NP查找指定名字的頁面20目標主題提?。═D)3主題提?。═D)主題提?。═D)的評分標準1)是否大部分切合主題;2)提供主題的可靠的信息;3)不是一個更大的切合主題站點的一部分。要求:十個結(jié)果中尋找盡可能多的不同站點(用它們的網(wǎng)站首頁面表示)匹配度查詢詞與文檔的匹配程度關(guān)鍵資源的入口 一組同主題的網(wǎng)頁集合21主題提?。═D)主題提?。═D)的評分標準匹配度關(guān)鍵資源的入導航搜索HP查找指定名字的網(wǎng)站的首頁,什么因素說明一個頁面是homepage?NP查找指定名字的頁面。用戶所要查找的可能是某一則新聞,某種型號的產(chǎn)品介紹,甚者是某個公司的地址電話等22導航搜索HP5設計思路衡量一個網(wǎng)頁的得分通常分為兩大部分匹配度1、向量空間模型+TF*IDF2、對網(wǎng)頁文檔進行分塊標題主題內(nèi)容主題相關(guān)內(nèi)容網(wǎng)頁噪音網(wǎng)頁的鏈出錨本

網(wǎng)頁的鏈入錨本重要性1、Pagerank2、網(wǎng)站首頁3、資源入口頁面23設計思路衡量一個網(wǎng)頁的得分通常分為兩大部分6系統(tǒng)框架索引網(wǎng)頁預處理中文分詞鏈接分析文檔庫索引庫網(wǎng)頁噪音庫連接庫綜合采用多種去噪算法,噪音的去除,可以減少索引量,可以避免噪音對檢索結(jié)果的影響區(qū)別對待站內(nèi)鏈接和站外鏈接提取網(wǎng)頁的鏈接,一方面通過分析網(wǎng)頁鏈接關(guān)系計算網(wǎng)頁的pr,另一方面,可以網(wǎng)頁得鏈入錨本。鏈入錨點文本網(wǎng)頁url網(wǎng)頁標題網(wǎng)頁主題內(nèi)容鏈出錨點文本最長匹配法分詞最短匹配法分詞Googlepagerank(GPR)算法簡單pagerank(SPR)算法24系統(tǒng)框架索引網(wǎng)中鏈文檔庫索引庫網(wǎng)頁噪音庫連接庫系統(tǒng)框架檢索用戶輸入查詢詞索引庫二次檢索結(jié)果TD:找出關(guān)鍵資源(HAC)1、url特征2、網(wǎng)頁結(jié)構(gòu),目錄型網(wǎng)頁3、網(wǎng)頁的鏈出錨本4、網(wǎng)頁的鏈出網(wǎng)頁HP:找出首頁NP:??25系統(tǒng)框架檢索用戶輸入查詢詞索引庫二次檢索結(jié)果TD:找出系統(tǒng)框架二次檢索站內(nèi)聚合。判斷每個網(wǎng)頁類型目錄型還是主題型。對網(wǎng)頁的鏈出文本進行分析,計算其與查詢詞的匹配程度。匹配程度越高,說明該網(wǎng)頁越可能是關(guān)鍵資源。計算該網(wǎng)頁的鏈出網(wǎng)頁與查詢詞的匹配程度。越多鏈出網(wǎng)頁與查詢詞匹配,說明該網(wǎng)頁屬于關(guān)鍵資源的可能性就越大。26系統(tǒng)框架二次檢索站內(nèi)聚合。9評測結(jié)果這次SEWM2005評測,共提交了5組主題檢索和5組導航查詢。采用了鏈接分析技術(shù),錨點文本,對網(wǎng)頁進行分塊處理主題采用automatic,直接使用<TITLE>字段作為查詢表達式導航部分,分為首頁和指定頁面對于所給的查詢集,我們可以很容易根據(jù)查詢就分辨出該查詢的意圖:HPorNP所以對查詢詞進行標記,用H表示該查詢?yōu)椴檎襀P,而N表示要查詢指定頁面。27評測結(jié)果這次SEWM2005評測,共提交了5組主題10實驗環(huán)境實驗機器為Itanium2雙CPU的機器,CPU為1.5Ghz,內(nèi)存為2G,機器運行操作系統(tǒng)為RedhatAS3.0。28實驗環(huán)境實驗機器為Itanium2雙CPU的機器,CPU為1實驗結(jié)果匹配記錄數(shù)平均查詢時間(ms)沒有去噪沒有分詞/去噪分詞沒有去噪沒有分詞/去噪分詞北戴河32129/25372889/1777尋秦記18298/13842825/1021天氣預報70732/113675047/175129實驗結(jié)果匹配記錄數(shù)平均查詢時間(ms)沒有去噪沒有分詞沒評測結(jié)果TD去噪GPR/SPR分詞二次檢索RUN_1(1)沒有SPR沒有HACRUN_2沒有SPR沒有簡單站內(nèi)聚合RUN_3(4)有GPR最小分詞HACRUN_4有GPR最大分詞簡單站內(nèi)聚合RUN_5沒有SPR最小分詞簡單站內(nèi)聚合30評測結(jié)果TD去噪GPR/SPR分詞二次檢索RUN評測結(jié)果HP/NP去噪GPR/SPR分詞調(diào)整查詢詞RUN_1(3)沒有SPR沒有加H/NRUN_2(1)沒有SPR沒有加H/N,手工分詞RUN_3(2)沒有SPR最小分詞加H/NRUN_4沒有SPR最大分詞加H/NRUN_5有GPR最小分詞加H/N31評測結(jié)果HP/NP去噪GPR/SPR分詞調(diào)整查詢總結(jié)錨點文本可以很好地表示文檔內(nèi)容,應加大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論