武漢大學(xué)專家檢索系統(tǒng)設(shè)計與實現(xiàn)課件_第1頁
武漢大學(xué)專家檢索系統(tǒng)設(shè)計與實現(xiàn)課件_第2頁
武漢大學(xué)專家檢索系統(tǒng)設(shè)計與實現(xiàn)課件_第3頁
武漢大學(xué)專家檢索系統(tǒng)設(shè)計與實現(xiàn)課件_第4頁
武漢大學(xué)專家檢索系統(tǒng)設(shè)計與實現(xiàn)課件_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

武漢大學(xué)專家檢索系統(tǒng)

的設(shè)計與實現(xiàn)基本結(jié)構(gòu)1.引言2.現(xiàn)有系統(tǒng)介紹3.WHU-ES的設(shè)計與實現(xiàn)4.總結(jié)及不足1.引言—需求與挑戰(zhàn)越來越多的組織意識到對自身知識,尤其是員工頭腦中的隱性知識和員工的專長知識進(jìn)行有效管理的必要性。然而識別這些知識并加以直接利用卻非易事專家的技能和知識存在著分布性、難以量化、難以分級、不斷變化1.引言—組織專家檢索組織專家檢索,是指利用組織內(nèi)外能夠表征專家專長的各種文檔和資源,識別專家在某給定查詢主題(領(lǐng)域)的專長(相關(guān)性)程度,并按程度高低排序顯示專家結(jié)果列表的過程。2.研究現(xiàn)狀—已有系統(tǒng)專家專長描述數(shù)據(jù)庫MITREExpertFinder

CSIRO在P@NOPTICExpert基礎(chǔ)上構(gòu)建的

PeopleFinder系統(tǒng)IBMSmallBlue系統(tǒng)3.系統(tǒng)設(shè)計與實現(xiàn)系統(tǒng)功能體系結(jié)構(gòu)模塊劃分模塊的實現(xiàn)初步評價3.系統(tǒng)設(shè)計與實現(xiàn)—系統(tǒng)功能采用何種數(shù)據(jù)挖掘?qū)<覍iL如何獲取這些數(shù)據(jù)集合如何解決專家專長動態(tài)變化特點呈現(xiàn)什么給用戶如何呈現(xiàn)3.系統(tǒng)設(shè)計與實現(xiàn)—系統(tǒng)功能通過對已有系統(tǒng)分析研究,對專家專長動態(tài)變化特點的考慮,以及對上述的問題解答,我們認(rèn)為WHU-ES的主要功能:定義表征專家專長數(shù)據(jù)集類型動態(tài)構(gòu)建及更新專家數(shù)據(jù)集專家專長(領(lǐng)域)的動態(tài)識別檢索針對特定查詢主題的相關(guān)專家專家共現(xiàn)和聚類關(guān)系的可視化呈現(xiàn)專家檔案自動生成(學(xué)院、性別、簡介、照片等)3.系統(tǒng)設(shè)計與實現(xiàn)—模塊劃分Spider模塊Assistant模塊Indexer模塊Searcher模塊3.系統(tǒng)設(shè)計與實現(xiàn)—體系結(jié)構(gòu)蜘蛛程序Spider模塊網(wǎng)站網(wǎng)頁搜索引擎學(xué)術(shù)數(shù)據(jù)庫其它資源Searcher模塊展現(xiàn)專家排序可視化接口檢索模型專家-文檔候選專家列表文件專家專長資源列表文件專家列表文件專家文檔映射文件主題詞文件Assistant模塊Indexer模塊索引網(wǎng)頁庫SE庫學(xué)術(shù)庫其它庫索引程序用戶3.系統(tǒng)設(shè)計與實現(xiàn)—模塊實現(xiàn)Assistant模塊資源列表文件--組織內(nèi)部網(wǎng)頁--搜索引擎中關(guān)于專家的信息--學(xué)術(shù)數(shù)據(jù)庫中關(guān)于專家的信息專家列表文件主題詞列表文件3.系統(tǒng)設(shè)計與實現(xiàn)—模塊實現(xiàn)Spider模塊采集組織內(nèi)部網(wǎng)頁信息(子域名,23萬網(wǎng)頁)采集搜索引擎中關(guān)于專家信息(專家名and機(jī)構(gòu)名,21萬記錄)采集萬方數(shù)據(jù)庫中關(guān)于專家的論文信息(作者機(jī)構(gòu):武漢大學(xué),5萬記錄)3.系統(tǒng)設(shè)計與實現(xiàn)—模塊實現(xiàn)Indexer模塊規(guī)整為網(wǎng)頁格式(數(shù)據(jù)格式不盡相同)解析網(wǎng)頁(利用HTMLParser)建立索引(利用Lucene)中文標(biāo)題:外資利用與新農(nóng)村建設(shè)作者:李志平作者單位:武漢大學(xué),經(jīng)濟(jì)發(fā)展研究中心,湖北,武漢,430072刊名:北方經(jīng)貿(mào)英文刊名:NORTHERNECONOMYANDTRADE年/卷/期:2007//5欄目名稱:貨幣與資本分類號:F832.48關(guān)鍵詞:外資問題;新農(nóng)村建設(shè);出口帶動摘要:利用外資,提高國內(nèi)農(nóng)業(yè)、農(nóng)民和農(nóng)村生產(chǎn)資源的組織基金項目:數(shù)據(jù)庫名:數(shù)字化期刊數(shù)據(jù)庫Title:歡迎光臨武漢大學(xué)電子信息學(xué)院Url:/yjsw/%D1%D0%BE%BF%C9%FA%B9%A4%D7%F7%CD%F8/%CD%F8%D2%B3/%D7%DB%BA%CF%D0%C5%CF%A2/zonghe4.htmlContent:歡迎光臨武漢大學(xué)電子信息學(xué)院武漢大學(xué)電子信息學(xué)院我院10名青年教師獲2005年度院青年基金項目資助2006-3-315:31:00黨政辦劉紅2006年3...經(jīng)過院學(xué)術(shù)委員會成員的投票,最終確定對以下十位老師給予資助:楊?、楊劍鋒、饒云華、鄒煉、陳小莉、卜方玲、3.系統(tǒng)設(shè)計與實現(xiàn)—模塊實現(xiàn)Searcher模塊WebUI獲取用戶查詢式;返回排序的專家列表(如何排序?);生成專家共現(xiàn)關(guān)系圖(利用NetDraw);聚類關(guān)系分析;專家檔案自動生成;查詢式構(gòu)建Lucene檢索接口StandardAnalyzerANDORNOT支持bool查詢

L

u

c

e

n

e接口專家2=0專家1=0專家3=0…0.99…0.950.890.83…專家1

專家3專家2專家3專家1

專家2RelevantDocsDocsScore√√√√√√0.99+0.830.99+0.890.95+0.83查

題專家排序模型聚類關(guān)聯(lián)分析SNA(社會網(wǎng)絡(luò)分析)按學(xué)院(系)聚類聚類關(guān)系提取

專家檔案生成基于和候選關(guān)鍵詞共現(xiàn)抽取檢索結(jié)果

學(xué)院、系;(學(xué)院和系列表)

性別;(男、女)

職稱;(教授、副教授等)基于特定規(guī)則抽取搜索引擎返回結(jié)果

研究方向;(…研究方向…)

個人簡介;(…專家名…男…武漢大學(xué)…)基于圖片檢索(ExpertPicExtractor)

專家照片提取

(圖片采集+文本分析+人臉識別)ExpertPicExtractorExpertNameGoogleImageImageWebPageImagesImageWebPageFaceDetectorContentAnalyzerExpertPicMerge3.系統(tǒng)設(shè)計與實現(xiàn)—效果評價Note:筆者設(shè)計了武漢大學(xué)社會科學(xué)部、理學(xué)部等六大學(xué)部共50個查詢主題(Topic),并將檢索返回的專家列表(利用從搜索引擎上采集的專家數(shù)據(jù)集)連同查詢主題做成調(diào)查問卷,送給相關(guān)專業(yè)人員進(jìn)行評價,獲得各查詢主題的P@5和P@10得分,取平均值,得到的評測結(jié)果如表所示。

表4.1WHU-ES專家識別效果測評值所屬學(xué)部查詢主題P@5P@10社會科學(xué)部140.87140.7786人文科學(xué)部90.71110.4889理學(xué)部90.71110.5222信息科學(xué)部70.74290.5714工學(xué)部60.83330.6333醫(yī)學(xué)部50.60000.5000總計500.76400.6060表4.2WHU-ES專家檔案信息提取效果測評值所屬學(xué)部專家數(shù)專家肖像專家學(xué)院專家性別專家職稱專家簡介社會科學(xué)部140.50000.92860.85710.92860.6429人文科學(xué)部90.22220.88890.88890.88890.5556理學(xué)部100.20001.00001.00000.90000.5000信息科學(xué)部60.50001.00001.00001.00000.6667工學(xué)部60.50001.00000.66671.00000.5000醫(yī)學(xué)部50.60001.00001.00001.00000.6000總計500.42040.96960.90210.95300.57754.總結(jié)實現(xiàn)了從不同數(shù)據(jù)集層面挖掘和評價專家專長實現(xiàn)數(shù)據(jù)集的動態(tài)采集和更新實現(xiàn)專家共現(xiàn)聚類關(guān)系的呈現(xiàn)4.總結(jié)系統(tǒng)的功能進(jìn)一步予以完善,不僅要考慮專家與文檔級的映射關(guān)系,還要考

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論