版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
武漢大學專家檢索系統(tǒng)
的設計與實現(xiàn)Shuguang.Han基本結(jié)構(gòu)1.引言2.現(xiàn)有系統(tǒng)介紹3.WHU-ES的設計與實現(xiàn)4.總結(jié)及不足1.引言—需求與挑戰(zhàn)越來越多的組織意識到對自身知識,尤其是員工頭腦中的隱性知識和員工的專長知識進行有效管理的必要性。然而識別這些知識并加以直接利用卻非易事專家的技能和知識存在著分布性、難以量化、難以分級、不斷變化
1.引言—組織專家檢索組織專家檢索,是指利用組織內(nèi)外能夠表征專家專長的各種文檔和資源,識別專家在某給定查詢主題(領域)的專長(相關性)程度,并按程度高低排序顯示專家結(jié)果列表的過程。2.研究現(xiàn)狀—已有系統(tǒng)專家專長描述數(shù)據(jù)庫MITREExpertFinder
CSIRO在P@NOPTICExpert基礎上構(gòu)建的
PeopleFinder
系統(tǒng)IBMSmallBlue系統(tǒng)3.系統(tǒng)設計與實現(xiàn)系統(tǒng)功能體系結(jié)構(gòu)模塊劃分模塊的實現(xiàn)初步評價3.系統(tǒng)設計與實現(xiàn)—系統(tǒng)功能采用何種數(shù)據(jù)挖掘?qū)<覍iL如何獲取這些數(shù)據(jù)集合如何解決專家專長動態(tài)變化特點呈現(xiàn)什么給用戶如何呈現(xiàn)3.系統(tǒng)設計與實現(xiàn)—系統(tǒng)功能通過對已有系統(tǒng)分析研究,對專家專長動態(tài)變化特點的考慮,以及對上述的問題解答,我們認為WHU-ES的主要功能:定義表征專家專長數(shù)據(jù)集類型動態(tài)構(gòu)建及更新專家數(shù)據(jù)集專家專長(領域)的動態(tài)識別檢索針對特定查詢主題的相關專家專家共現(xiàn)和聚類關系的可視化呈現(xiàn)專家檔案自動生成(學院、性別、簡介、照片等)3.系統(tǒng)設計與實現(xiàn)—模塊劃分Spider模塊Assistant模塊Indexer模塊Searcher模塊3.系統(tǒng)設計與實現(xiàn)—體系結(jié)構(gòu)蜘蛛程序Spider模塊網(wǎng)站網(wǎng)頁搜索引擎學術數(shù)據(jù)庫其它資源Searcher模塊展現(xiàn)專家排序可視化接口檢索模型專家-文檔候選專家列表文件專家專長資源列表文件專家列表文件專家文檔映射文件主題詞文件Assistant模塊Indexer模塊索引網(wǎng)頁庫SE庫學術庫其它庫索引程序用戶3.系統(tǒng)設計與實現(xiàn)—模塊實現(xiàn)Assistant模塊資源列表文件
--組織內(nèi)部網(wǎng)頁
--搜索引擎中關于專家的信息
--學術數(shù)據(jù)庫中關于專家的信息專家列表文件主題詞列表文件Assistant模塊專家列表文件
Hir_Lab
:哈工大分詞系統(tǒng)
NumTime=1#數(shù)詞時間詞識別
Person=1#人名識別
Location=1#地名識別
POSTag=1#詞性標注
ExtendedDict=1#擴展詞表,可以手工加詞
識別效果:人名識別
手工結(jié)果/自動識別的結(jié)果:2585/70194
識別準確度:2533/2585*100%=97.99%3.系統(tǒng)設計與實現(xiàn)—模塊實現(xiàn)Spider模塊采集組織內(nèi)部網(wǎng)頁信息(子域名,23萬網(wǎng)頁)
采集搜索引擎中關于專家信息(專家名and機構(gòu)名,21萬記錄)
采集萬方數(shù)據(jù)庫中關于專家的論文信息(作者機構(gòu):武漢大學,5萬記錄)Spider模塊組織內(nèi)部網(wǎng)頁抓取搜索引擎數(shù)據(jù)的抓取學術數(shù)據(jù)庫數(shù)據(jù)庫信息抓取從等待隊列中取得URL,下載該URL頁面源文件是否包含其他鏈接移入完成隊列是否有效鏈接解析網(wǎng)頁,查看網(wǎng)頁上下個鏈接報告發(fā)現(xiàn)鏈接移入等待隊列初始URL加入等待隊列等待隊列是否有URL程序完成信息檢索實驗教材,陸偉等,武漢大學出版社,2008年5月3.系統(tǒng)設計與實現(xiàn)—模塊實現(xiàn)Indexer模塊規(guī)整為網(wǎng)頁格式(數(shù)據(jù)格式不盡相同)
解析網(wǎng)頁(利用HTMLParser)
建立索引(利用Lucene)中文標題:外資利用與新農(nóng)村建設作者:李志平作者單位:武漢大學,經(jīng)濟發(fā)展研究中心,湖北,武漢,430072刊名:北方經(jīng)貿(mào)英文刊名:NORTHERNECONOMYANDTRADE年/卷/期:2007//5欄目名稱:貨幣與資本分類號:F832.48關鍵詞:外資問題;新農(nóng)村建設;出口帶動摘要:利用外資,提高國內(nèi)農(nóng)業(yè)、農(nóng)民和農(nóng)村生產(chǎn)資源的組織基金項目:數(shù)據(jù)庫名:數(shù)字化期刊數(shù)據(jù)庫Title:歡迎光臨武漢大學電子信息學院Url:/yjsw/%D1%D0%BE%BF%C9%FA%B9%A4%D7%F7%CD%F8/%CD%F8%D2%B3/%D7%DB%BA%CF%D0%C5%CF%A2/zonghe4.htmlContent:歡迎光臨武漢大學電子信息學院武漢大學電子信息學院我院10名青年教師獲2005年度院青年基金項目資助2006-3-315:31:00黨政辦劉紅2006年3...經(jīng)過院學術委員會成員的投票,最終確定對以下十位老師給予資助:楊?、楊劍鋒、饒云華、鄒煉、陳小莉、卜方玲、3.系統(tǒng)設計與實現(xiàn)—模塊實現(xiàn)Searcher模塊
WebUI獲取用戶查詢式;
返回排序的專家列表(如何排序?);
生成專家共現(xiàn)關系圖(利用NetDraw);
聚類關系分析;
專家檔案自動生成;查詢式構(gòu)建Lucene檢索接口
StandardAnalyzerANDORNOT
支持bool查詢
L
u
c
e
n
e接口專家2=0專家1=0專家3=0…0.99…0.950.890.83…專家1
專家3專家2專家3專家1
專家2RelevantDocsDocsScore√√√√√√0.99+0.830.99+0.890.95+0.83查
詢
主
題專家排序模型聚類關聯(lián)分析SNA(社會網(wǎng)絡分析)按學院(系)聚類聚類關系提取
專家檔案生成基于和候選關鍵詞共現(xiàn)抽取檢索結(jié)果
學院、系;(學院和系列表)
性別;(男、女)
職稱;(教授、副教授等)基于特定規(guī)則抽取搜索引擎返回結(jié)果
研究方向;(…研究方向…)
個人簡介;(…專家名…男…武漢大學…)基于圖片檢索(ExpertPicExtractor)
專家照片提取
(圖片采集+文本分析+人臉識別)ExpertPicExtractorExpertNameGoogleImageImageWebPageImagesImageWebPageFaceDetectorContentAnalyzerExpertPicMerge組織專家檢索系統(tǒng)的設計與實現(xiàn),韓曙光,武漢大學本科畢業(yè)論文,2008年6月3.系統(tǒng)設計與實現(xiàn)—效果評價表4.1WHU-ES專家識別效果測評值所屬學部查詢主題P@5P@10社會科學部140.87140.7786人文科學部90.71110.4889理學部90.71110.5222信息科學部70.74290.5714工學部60.83330.6333醫(yī)學部50.60000.5000總計500.76400.6060Note:筆者設計了武漢大學社會科學部、理學部等六大學部共50個查詢主題(Topic),并將檢索返回的專家列表(利用從搜索引擎上采集的專家數(shù)據(jù)集)連同查詢主題做成調(diào)查問卷,送給相關專業(yè)人員進行評價,獲得各查詢主題的P@5和P@10得分,取平均值,得到的評測結(jié)果如表所示。
表4.2WHU-ES專家檔案信息提取效果測評值所屬學部專家數(shù)專家肖像專家學院專家性別專家職稱專家簡介社會科學部140.50000.92860.85710.92860.6429人文科學部90.22220.88890.88890.88890.5556理學部100.20001.00001.00000.90000.5000信息科學部60.50001.00001.00001.00000.6667工學部60.50001.00000.66671.00000.5000醫(yī)學部50.60001.00001.00001.00000.6000總計500.42040.96960.90210.95300.5775效果評價—續(xù)組織專家的檢索系統(tǒng)設計與實現(xiàn),陸偉、韓曙光,《情報學報》,2008年10月3.系統(tǒng)設計與實現(xiàn)—效率基于專家—文檔映射(檢索”情報學”,1605篇返回文檔,取前500篇計算得分)
基于文檔—專家映射(檢索”情報學”,1605篇返回文檔,取前500篇計算得分)4.總結(jié)實現(xiàn)了從不同數(shù)據(jù)集層面挖掘和評價專家專長實現(xiàn)數(shù)據(jù)集的動態(tài)采集和更新實現(xiàn)專家共現(xiàn)聚類關系的呈現(xiàn)4.總結(jié)系統(tǒng)的功能進一步予以完善,不僅要考慮專家與文檔級的映射關系,還要考慮其與具體的章節(jié)甚至段落等片斷信息的映射,以提高專家識別的準確度在系統(tǒng)中引入實體識別技術及本體技術等,不斷提高專家檢索系統(tǒng)的自動化程度4.總結(jié)關于專家識別效果的深入評價是未來研究工作的一個重點,將進一步考慮引入能表征專家專長的其他數(shù)據(jù)集(如專利數(shù)據(jù)集等)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 培訓如何推行工作制度
- 特種人員培訓管理制度
- 健康教育培訓學習制度
- 干部培訓大會規(guī)章制度
- 企業(yè)培訓學時制度規(guī)定
- 建筑業(yè)培訓管理制度
- 特檢院集中培訓制度
- 學校學生外出培訓制度規(guī)定
- 健全黨員培訓制度
- 培訓家屬排痰制度
- GB/T 18910.103-2025液晶顯示器件第10-3部分:環(huán)境、耐久性和機械試驗方法玻璃強度和可靠性
- 夢雖遙追則能達愿雖艱持則可圓模板
- 配件售后管理制度規(guī)范
- 勵志類的美文欣賞范文(4篇)
- 浙江省紹興市上虞區(qū)2024-2025學年七年級上學期期末語文試題(解析版)
- 廣東省廣州市白云區(qū)2024-2025學年六年級(上)期末語文試卷(有答案)
- GB/T 45166-2024無損檢測紅外熱成像檢測總則
- 山東省菏澤市東明縣2024-2025學年七年級上學期考試生物試題
- 二零二四年醫(yī)院停車場建設及運營管理合同
- 乘務長管理思路
- 2024集裝箱儲能系統(tǒng)測試大綱
評論
0/150
提交評論