基于文本相似度的圖書館中文查新智能去重系統(tǒng)研究_第1頁
基于文本相似度的圖書館中文查新智能去重系統(tǒng)研究_第2頁
基于文本相似度的圖書館中文查新智能去重系統(tǒng)研究_第3頁
基于文本相似度的圖書館中文查新智能去重系統(tǒng)研究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于文本相似度的圖書館中文查新智能去重系統(tǒng)研究

科技調(diào)查新(以下簡稱“調(diào)查新”)是指有新業(yè)務(wù)資格的調(diào)查新機(jī)構(gòu)根據(jù)調(diào)查新客戶的需要確認(rèn)新的科學(xué)新型。之后,對有關(guān)研究文獻(xiàn)進(jìn)行了綜合和比較,并對搜索對象的文獻(xiàn)進(jìn)行了綜合和比較。最后,對新主題的新穎性和完整性進(jìn)行了全面客觀的論證和評估,最終形成了科學(xué)調(diào)查新報(bào)告。查新員在科技查新工作中要具有較好的專業(yè)學(xué)科背景知識,而且要求熟練地掌握檢索技術(shù),但在科技查新過程中,隨著文獻(xiàn)數(shù)量的日益龐大,查閱、分析文獻(xiàn)過程也增加了大量的機(jī)械和重復(fù)性的操作。提高查新效率,減少這些不必要的過程,已經(jīng)成為科技查新員們急切需要解決的問題。目前國內(nèi)多家數(shù)據(jù)庫并存,檢索入口和輸出結(jié)果格式均不統(tǒng)一,傳統(tǒng)的手工查新流程,需要查新員花費(fèi)大量精力用于繁瑣的文本處理,手工對各個數(shù)據(jù)庫輸出的文獻(xiàn)進(jìn)行整理、去重,來實(shí)現(xiàn)格式的規(guī)范統(tǒng)一,費(fèi)時費(fèi)力。針對這種情況,哈爾濱工業(yè)大學(xué)科技查新工作站開發(fā)設(shè)計(jì)并實(shí)現(xiàn)了半自動化的快速實(shí)現(xiàn)文獻(xiàn)去重的查新輔助系統(tǒng),于2012年重磅推出,為本查新站提供了高效、優(yōu)質(zhì)的服務(wù)。1參考文獻(xiàn)管理教育部科技查新規(guī)范規(guī)定在進(jìn)行檢索時,中外文必查數(shù)據(jù)庫的數(shù)量均不得少于10個,而常用的中國知網(wǎng)、萬方數(shù)據(jù)、重慶維普等中文數(shù)據(jù)庫存在重復(fù)收錄文獻(xiàn)的情況。近年來,部分查新機(jī)構(gòu)采用參考文獻(xiàn)管理軟件Endnote、NoteExpress等對檢出文獻(xiàn)進(jìn)行去重,但是由于數(shù)據(jù)庫接口、管理軟件對數(shù)據(jù)庫及中外文文獻(xiàn)的兼容性、導(dǎo)入字段需進(jìn)行重新定義、導(dǎo)出格式不符合規(guī)范等原因使得這些參考文獻(xiàn)管理軟件只能用于簡單的格式調(diào)整,并不能真正地實(shí)現(xiàn)文獻(xiàn)的去重。因此,科技查新領(lǐng)域亟待一款為科技查新工作定制的去重軟件,該軟件只需查新員將各個數(shù)據(jù)庫的導(dǎo)出結(jié)果導(dǎo)入就可輕松實(shí)現(xiàn)同語種文獻(xiàn)的去重,并可按照不同查新站的報(bào)告模板導(dǎo)出符合要求的文獻(xiàn)格式。2系統(tǒng)開發(fā)的初始準(zhǔn)備2.1查新人員的需求從事科技查新的人員對于數(shù)據(jù)庫的使用及數(shù)據(jù)庫文獻(xiàn)導(dǎo)出格式的情況最了解,因此,他們的需求是去重軟件研究的核心部分。首先征集我校查新人員的需求。之后,由專人負(fù)責(zé)調(diào)研其他高校、科研院所對查新中文獻(xiàn)去重的需求,從而使得該去重軟件可滿足當(dāng)前查新從業(yè)人員的普遍需求。2.2確定復(fù)雜的域名,確保查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于確定兩種域名,并確定23個域名,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的制定,有利于查重規(guī)則的特定的域名,并確定相對統(tǒng)一的域名,并確定兩種域名,有利于查重規(guī)則的利用。根據(jù)初步由于不同瀏覽器從數(shù)據(jù)庫導(dǎo)出的文本題錄格式的不同,因此查新員大量實(shí)驗(yàn)不同瀏覽器導(dǎo)出格式的特點(diǎn),選定相對統(tǒng)一的格式,并確定2~3個瀏覽器,便于查重規(guī)則的制定。2.3文獻(xiàn)編碼格式通過對5個國內(nèi)數(shù)據(jù)庫文獻(xiàn)導(dǎo)出格式的對比、篩選,把導(dǎo)出格式定為中國知網(wǎng)導(dǎo)出格式選取Refworks,維普選取全記錄格式,萬方選取查新格式,NSTL和科技論文在線只要把選中文獻(xiàn)復(fù)制粘貼到TXT文本格式即可。2.4文獻(xiàn)檢索類型中國知網(wǎng)可檢索到期刊文獻(xiàn)、會議文獻(xiàn)、學(xué)位論文、標(biāo)準(zhǔn)文獻(xiàn)、科技成果、專利文獻(xiàn)、報(bào)紙等文獻(xiàn)類型;萬方中文數(shù)據(jù)庫可檢索到期刊論文、學(xué)位論文、會議論文、中外專利、科技成果、中外標(biāo)準(zhǔn)等文獻(xiàn)類型;中國科技論文在線可檢索到科技期刊、首發(fā)論文、優(yōu)秀學(xué)者等文獻(xiàn)類型。3息檢索方式結(jié)合中文自然語言處理與現(xiàn)有信息檢索技術(shù),建立符合大學(xué)圖書館查新機(jī)構(gòu)要求的信息檢索方式,已經(jīng)成為當(dāng)前信息檢索的研究熱點(diǎn)和迫切需求。該去重系統(tǒng)應(yīng)用Java語言開發(fā)。Java是一種面向?qū)ο蟮某绦蛟O(shè)計(jì)語言,具有較高的通用性和高效性。其擁有全球最大的開發(fā)社群,被廣泛應(yīng)用于個人PC、數(shù)據(jù)中心、互聯(lián)網(wǎng)等方面。3.1文獻(xiàn)檢索及生成軟件設(shè)計(jì)并實(shí)現(xiàn)一種基于文獻(xiàn)內(nèi)容的中文查新智能去重系統(tǒng)。該系統(tǒng)可實(shí)現(xiàn)中文常用數(shù)據(jù)庫中國知網(wǎng)、維普科技、萬方、中國科技論文在線、國家科技圖書文獻(xiàn)中心數(shù)據(jù)的期刊論文、學(xué)位論文、會議論文、科技成果等多種文獻(xiàn)類型的檢索結(jié)果的自動去重、格式整理、順序編號、統(tǒng)一輸出,給出規(guī)范有序的各類文獻(xiàn)。該軟件可由非計(jì)算機(jī)專業(yè)人員操作,并且操作簡單,可隨時響應(yīng)數(shù)據(jù)庫導(dǎo)出格式的變化。同時,該軟件可顯示已去重?cái)?shù)量及去重后的文獻(xiàn)數(shù)量,并可導(dǎo)出滿足不同規(guī)范的查新報(bào)告文獻(xiàn)格式。從而最大限度地節(jié)省查新員處理文獻(xiàn)的時間,使得其將有限的查新時間更好地用于文獻(xiàn)的對比分析,從而更好地提高查新質(zhì)量。3.2該系統(tǒng)的組成我們所設(shè)計(jì)的模塊組成如下。3.2.1基于語言理解規(guī)則的自動組件模塊針對知網(wǎng)、萬方等5個數(shù)據(jù)庫導(dǎo)出結(jié)果格式不同的問題,該模塊使用語言理解規(guī)則方式,格式完全統(tǒng)一化,以方便后續(xù)處理。3.2.2自動恢復(fù)模塊本系統(tǒng)核心模塊之一,即完成去重功能。采用基于字段的主題全匹配方法。3.2.3利用相似度方法衡量針對不同數(shù)據(jù)中采集數(shù)據(jù)樣本可能存在細(xì)微差異,例如同一篇檢索結(jié)果由于輸入或者整理錯誤,在不同數(shù)據(jù)庫結(jié)果中存在個別字段差異,利用句子相似度方法進(jìn)行衡量。3.2.4似度結(jié)果的二次校驗(yàn)整理利用模塊3的句子相似度結(jié)果,對高相似度結(jié)果進(jìn)行二次校驗(yàn)整理,利用作者、期刊等其他信息配合模塊2基于主題字段的匹配方法進(jìn)行查重處理,得到最終結(jié)果。3.2.5顯示結(jié)果外,該模塊主要是供查新員方便使用的前臺界面操作窗口。除了顯示結(jié)果外,還承擔(dān)校驗(yàn)輸入是否正確、管理輸出結(jié)果的作用。該界面包含的信息包括去重前各個數(shù)據(jù)庫的文獻(xiàn)數(shù)量、去重前文獻(xiàn)綜述、去重后文獻(xiàn)綜述、文獻(xiàn)重復(fù)詳細(xì)信息等。3.3提供更直觀、更切的結(jié)果,為查新員提供更詳細(xì)的檢索結(jié)果,為用戶提供更詳細(xì)的檢索結(jié)果,為查新員提供更詳細(xì)的檢索結(jié)果,為用戶提供更詳細(xì)的檢索結(jié)果,為查新員提供更詳細(xì)的結(jié)果提供了更充分的結(jié)果去重后文獻(xiàn)自動分類,分為報(bào)紙、標(biāo)準(zhǔn)、會議、科技成果、期刊、其他、學(xué)位論文、專利,為查新員提供更直觀、更確切的去重結(jié)果,也可為查新用戶提供更詳盡的檢索結(jié)果,起到一目了然的作用。每次去重結(jié)果可以自動覆蓋之前的結(jié)果,不必刪除每一次的去重結(jié)果,省時省力。4測試結(jié)果和注意事項(xiàng)系統(tǒng)投入使用后,其智能、快速、高效的界面、方便的操作等功能特點(diǎn)立刻受到廣大查新員的關(guān)注與歡迎。系統(tǒng)不僅功能強(qiáng)大、實(shí)用,并且運(yùn)行非常穩(wěn)定,保障了查新工作的高效性。將該去重軟件應(yīng)用在查新工作中,對運(yùn)行中出現(xiàn)的問題及時進(jìn)行調(diào)試,通過用戶的反饋及時修正軟件出現(xiàn)的問題,完善其功能并進(jìn)一步研究其對個人用戶參考文獻(xiàn)管理的功能開發(fā)。在文獻(xiàn)的輸入輸出過程中,利用該系統(tǒng)可以按照查新規(guī)范的要求,設(shè)計(jì)出輸入不同的題錄格式而輸出統(tǒng)一的題錄格式,以便在撰寫查新報(bào)告的階段避免對題錄信息進(jìn)行重復(fù)性加工的操作,并根據(jù)報(bào)告的撰寫要求一次性輸出題錄信息。關(guān)于科技查新工作中實(shí)際應(yīng)用該系統(tǒng)的測試結(jié)果和注意事項(xiàng)如下:測試結(jié)果:分別對100篇、300篇、700篇文獻(xiàn)的TXT文本做開放式測試,該系統(tǒng)很好地支持了智能去重的功能。實(shí)現(xiàn)去重結(jié)果時間約為2秒,極大地提高了原先通過人工判斷來完成去重工作的效率。將該系統(tǒng)投入實(shí)際運(yùn)行,證明完全可以滿足工作需求,但需要注意幾個方面。4.1android域名NSTL數(shù)據(jù)庫的檢索使用360極速瀏覽器或Google(Chrome)瀏覽器;中國科技論文在線的檢索使用火狐瀏覽器,檢索結(jié)果直接從網(wǎng)頁中復(fù)制粘貼為文本格式并保存。4.2運(yùn)行系統(tǒng)并刪除原始輸入記錄每次運(yùn)行查重軟件時,需將input中各個數(shù)據(jù)庫文件夾中的文件替換為最新的檢索結(jié)果,以免干擾檢索結(jié)果。4.3輸出格式中國知網(wǎng)的輸出格式選擇Refworks;萬方數(shù)據(jù)庫的輸出格式選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論