付費下載
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法摘要:隨著互聯(lián)網(wǎng)的發(fā)展,大量的專利文書被公開并存儲在專利數(shù)據(jù)庫中。專利文書中包含大量的技術詞匯和新詞,對于技術領域的研究和創(chuàng)新具有重要意義。本論文提出了一種新的方法來提取專利文書中的新詞,即專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法。該方法能夠根據(jù)專利文書中的雙向聚合度特征,快速準確地識別出具有創(chuàng)新性和潛在商業(yè)價值的新詞。關鍵詞:專利新詞發(fā)現(xiàn);雙向聚合度特征;特征提?。粍?chuàng)新性1.引言隨著科技的發(fā)展和創(chuàng)新的加速,專利文書成為了記錄和保護技術創(chuàng)新的重要手段。專利文書中包含了大量的技術詞匯和新詞,這些新詞對于領域內(nèi)的研究和技術發(fā)展具有重要意義。因此,專利新詞的發(fā)現(xiàn)成為了一個熱門的研究方向。目前,專利新詞的發(fā)現(xiàn)方法主要有基于統(tǒng)計學的方法和基于自然語言處理的方法。基于統(tǒng)計學的方法通過統(tǒng)計詞頻和共現(xiàn)信息來發(fā)現(xiàn)新詞,但是由于單純的詞頻統(tǒng)計難以區(qū)分新詞和常見詞,所以該方法往往會產(chǎn)生很多噪音詞。基于自然語言處理的方法通過研究詞的語義和上下文信息來發(fā)現(xiàn)新詞,但是該方法往往需要大量的計算資源和語料庫支持。為了克服以上方法的缺點,本論文提出了一種新的方法來提取專利文書中的新詞,即專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法。該方法利用了專利文書中雙向聚合度特征的獨特性,通過對專利文書的特征提取和分析,快速準確地識別出具有創(chuàng)新性和潛在商業(yè)價值的新詞。2.方法介紹2.1數(shù)據(jù)預處理首先,需要對專利文書進行預處理,主要包括文本清洗、分詞和去停用詞等步驟。文本清洗主要是去除文本中的噪音和特殊字符,以及過濾掉一些無關的信息。分詞是將文本按詞進行切分,以便后續(xù)的詞頻統(tǒng)計和特征提取。去停用詞是過濾掉一些無實際含義的常見詞,如“的”、“了”等。2.2雙向聚合度特征提取雙向聚合度特征是指一個詞在文本中的左鄰和右鄰詞集合的聚合度。通過計算一個詞的左鄰和右鄰詞集合的聚合度,可以得到該詞的雙向聚合度特征。具體計算方法如下:首先,對于每個詞,計算其在文本中的左鄰和右鄰詞集合。左鄰集合是指該詞前面出現(xiàn)的詞集合,右鄰集合是指該詞后面出現(xiàn)的詞集合。然后,對于一個詞的左鄰詞集合或右鄰詞集合,計算其聚合度。聚合度可以用來表示該詞與其左鄰詞集合或右鄰詞集合的緊密程度。聚合度越高,表示該詞與其左鄰詞集合或右鄰詞集合的關聯(lián)性越高。最后,將左鄰聚合度和右鄰聚合度進行綜合考量,得到一個詞的雙向聚合度特征。綜合考量可以通過計算左鄰聚合度和右鄰聚合度的平均值、加權平均值等方式進行。3.實驗與結果為了驗證本方法的有效性,我們從專利數(shù)據(jù)庫中隨機選擇了一部分專利文書,進行了實驗和結果分析。實驗結果表明,本方法能夠較好地提取出具有創(chuàng)新性和潛在商業(yè)價值的新詞。與基于統(tǒng)計學的方法和基于自然語言處理的方法相比,本方法具有更高的準確性和效率。4.結論本論文提出了一種新的方法來提取專利文書中的新詞,即專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法。該方法通過對專利文書的雙向聚合度特征進行提取和分析,能夠快速準確地識別出具有創(chuàng)新性和潛在商業(yè)價值的新詞。實驗證明,該方法具有較高的準確性和效率,可以有效地應用于專利新詞發(fā)現(xiàn)領域。參考文獻:1.Wei,Z.,He,Z.,Chen,C.,&Wang,S.(2016).ExtractionofKeyTechnologyInformationfromCombiningPatentClassificationandTextAnalysis.MathematicalProblemsinEngineering,2016,1-14.2.Wu,P.,Du,H.,Lu,M.,&Wang,M.(2018).ANovelMethodforPatentNewWordRecognitionBasedonTextMining.AppliedSciences,8(3),436.3.Yang,J.I.,Choi,H.,&Yu,H.(2010).NewterminologyextractionusingaPatent-Qu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 檢驗科血常規(guī)檢查操作規(guī)范
- 2025廣東廣州市荔灣區(qū)彩虹街消毒站招聘消毒員2人考試重點試題及答案解析
- 2025河北保定望都縣公開選聘開發(fā)區(qū)附下屬事業(yè)單位工作人員24名備考核心試題附答案解析
- 2025廣東深圳市龍崗區(qū)企業(yè)服務中心招聘特聘崗聘員5人考試核心試題及答案解析
- 2025四川省鹽業(yè)集團有限責任公司招聘9人考試核心試題及答案解析
- 2025河北石家莊城市建設發(fā)展集團有限公司招聘勞務派遣制人員17名備考核心題庫及答案解析
- 2025廣東中山市東區(qū)街道辦事處招聘專職消防員2人考試重點試題及答案解析
- 2025四川宜賓鉦興智造科技有限公司第一批項目制員工招聘4人考試核心題庫及答案解析
- 預防醫(yī)學科兒童疫苗接種方案
- 2025福建甘露寺義工招募筆試參考題庫附帶答案詳解(3卷)
- 托福真題試卷(含答案)(2025年)
- 2025年廣東省第一次普通高中學業(yè)水平合格性考試(春季高考)語文試題(含答案詳解)
- 2026廣東深圳市檢察機關招聘警務輔助人員13人筆試考試備考試題及答案解析
- 雨課堂學堂在線學堂云《金融風險管理:量化投資視角( 暨南)》單元測試考核答案
- 臨床試驗盲法方案設計的法規(guī)符合性優(yōu)化
- 留聲機美術課件
- 2026屆廣東深圳市高一生物第一學期期末監(jiān)測試題含解析
- 直播基地的管理制度
- 拍賣公司計劃書
- 水滸傳課件講宋江
- OA系統(tǒng)使用權限管理規(guī)范
評論
0/150
提交評論