類(lèi)聚大數(shù)據(jù)-“類(lèi)聚NLP依存句法分析技術(shù)”技術(shù)方案_第1頁(yè)
類(lèi)聚大數(shù)據(jù)-“類(lèi)聚NLP依存句法分析技術(shù)”技術(shù)方案_第2頁(yè)
類(lèi)聚大數(shù)據(jù)-“類(lèi)聚NLP依存句法分析技術(shù)”技術(shù)方案_第3頁(yè)
類(lèi)聚大數(shù)據(jù)-“類(lèi)聚NLP依存句法分析技術(shù)”技術(shù)方案_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上山東我行“類(lèi)聚NLP依存句法分析技術(shù)”技術(shù)方案近日,山東我行信息技術(shù)有限公司委托省級(jí)科技查新咨詢單位對(duì)公司自行研發(fā)的“類(lèi)聚NLP依存句法分析技術(shù)”進(jìn)行三項(xiàng)科技查新,科技查新機(jī)構(gòu)給出的查新結(jié)果為“經(jīng)檢索,目前國(guó)內(nèi)未見(jiàn)有與本項(xiàng)目查新點(diǎn)相同的文獻(xiàn)報(bào)道”,該查新結(jié)果說(shuō)明“類(lèi)聚NLP依存句法分析技術(shù)”達(dá)到國(guó)內(nèi)先進(jìn)水平。我行公司研發(fā)的“依存句法分析技術(shù)”是對(duì)自然語(yǔ)言進(jìn)行自動(dòng)分析構(gòu)建句子對(duì)應(yīng)的依存樹(shù)的一種方法,是自然語(yǔ)言處理重要的一部分,句法分析可以提高信息檢索和抽取的準(zhǔn)確性,對(duì)機(jī)器準(zhǔn)確把握句子的語(yǔ)意有很大的作用。類(lèi)聚NLP依存句法分析實(shí)現(xiàn)了給定句子,自動(dòng)分詞、標(biāo)注詞性、分析句子中

2、對(duì)象之間的相互依存關(guān)系。類(lèi)聚NLP依存句法分析提供了兩種句法分析的實(shí)現(xiàn)方式,分別為:最大熵依存句法分析器和基于CRF序列標(biāo)注的中文依存句法分析器。最大熵屬于辨識(shí)模型,能夠滿足所有已知的約束, 對(duì)未知的信息不做任何過(guò)分的假設(shè)。最大熵依存句法分析器是一個(gè)判決式漢語(yǔ)句法分析器,基于最大熵模型和最大生成樹(shù)模型,實(shí)現(xiàn)了中文依存句法的自動(dòng)分析。采用條件概率模型估計(jì)任意兩個(gè)單詞之間最可能的依存關(guān)系以及概率,將概率的值取對(duì)數(shù)取相反數(shù)作為累積概率,使用最小生成樹(shù)算法計(jì)算出全局最小的生成樹(shù)。CRF是序列標(biāo)注場(chǎng)景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗標(biāo)記偏置的問(wèn)題?;贑RF序列標(biāo)注的中文依存句

3、法分析器內(nèi)部CRF模型的特征函數(shù)采用 雙數(shù)組Trie樹(shù)(DoubleArrayTrie)儲(chǔ)存,解碼采用特化的維特比后向算法,分析速度是最大熵依存句法分析器的兩倍。把依存對(duì)象之間的關(guān)系轉(zhuǎn)化成帶詞性的偏移關(guān)系,然后根據(jù)語(yǔ)料的特征,用CRF訓(xùn)練模型。句子通過(guò)該模型可以轉(zhuǎn)化得到依存對(duì)象,在根據(jù)詞性關(guān)系組合概率,選取最大可能的依存關(guān)系。科技查新機(jī)構(gòu)針對(duì)中國(guó)科技成果數(shù)據(jù)庫(kù)(萬(wàn)方)1985-2016,山東省科技成果數(shù)據(jù)庫(kù)(1986-2008),中國(guó)科技經(jīng)濟(jì)新聞數(shù)據(jù)庫(kù)(維普)1992-2016,中國(guó)學(xué)術(shù)會(huì)議論文數(shù)據(jù)庫(kù)1979-2016,中國(guó)學(xué)位論文數(shù)據(jù)庫(kù)1977-2016,中文科技期刊全文數(shù)據(jù)庫(kù)(1989-2

4、016),中國(guó)期刊全文數(shù)據(jù)庫(kù) (cnki) 1979-2016,山東省成果查新報(bào)告數(shù)據(jù)庫(kù)(2003.10-2014),中國(guó)專(zhuān)利數(shù)據(jù)庫(kù)(1985-2016),Internet 國(guó)際互聯(lián)網(wǎng)(2016.03),中國(guó)化工文摘數(shù)據(jù)庫(kù)(1992-2016),中國(guó)生物醫(yī)藥數(shù)據(jù)庫(kù)(1989-2016)等數(shù)據(jù)庫(kù),采取檢索策略圍繞1NLP*依存句法分析,依存句法分析*最大熵*CRF,依存句法分析*自然語(yǔ)言*自動(dòng)分析*依存樹(shù),CRF*漢語(yǔ)句法分析*依存語(yǔ)法??萍疾樾聶C(jī)構(gòu)查新結(jié)論為:依照查新用戶的委托及國(guó)家科技部、山東省科技廳關(guān)于科技查新咨詢工作的有關(guān)文件規(guī)定,在現(xiàn)有的檢索領(lǐng)域內(nèi),以從檢索結(jié)果選出的密切相關(guān)文獻(xiàn)0篇、

5、相關(guān)文獻(xiàn)7篇為例,經(jīng)分析對(duì)比,結(jié)論如下:相關(guān)文獻(xiàn)1以現(xiàn)有的漢語(yǔ)依存句法分析研究成果為指導(dǎo),采用依存句法分析方法,針對(duì)漢語(yǔ)句子中含有介詞短語(yǔ)的句法分析問(wèn)題進(jìn)行了研究和探索;相關(guān)文獻(xiàn)2研究了漢語(yǔ)依存句法分析技術(shù);均未述及帶標(biāo)簽的分析正確率,封閉測(cè)試集最高達(dá)到99.20%,開(kāi)發(fā)集最高達(dá)到71.22%。相關(guān)文獻(xiàn)3比較了三種基于最大熵模型的依存句法分析算法;相關(guān)文獻(xiàn)4采用英文語(yǔ)義角色標(biāo)注的研究方法,實(shí)現(xiàn)了一個(gè)基于中文依存句法分析的語(yǔ)義角色標(biāo)注系統(tǒng);均未述及不帶標(biāo)簽的分析正確率,系統(tǒng)封閉測(cè)試集最高達(dá)到99.01%,開(kāi)發(fā)集最高達(dá)到56.15%。相關(guān)文獻(xiàn)5研究了基于字符級(jí)特征的日文依存句法自動(dòng)分析算法;與本項(xiàng)

6、目研究中文依存句法的分析技術(shù)不同。相關(guān)文獻(xiàn)6研究了統(tǒng)一框架的混合依存句法分析;相關(guān)文獻(xiàn)7提出了一種基于序列標(biāo)注模型的中文依存句法分析方法;均與本項(xiàng)目中依存關(guān)系的準(zhǔn)確率:類(lèi)聚NLP依存句法分析系統(tǒng)系統(tǒng)封閉測(cè)試集最高達(dá)到99.04%,開(kāi)發(fā)集最高達(dá)到53.33%不同。本項(xiàng)目研究類(lèi)聚NLP依存句法分析技術(shù),類(lèi)聚NLP依存句法分析實(shí)現(xiàn)了給定句子,自動(dòng)分詞、標(biāo)注詞性、分析句子中對(duì)象之間的相互依存關(guān)系;并提供了兩種句法分析的實(shí)現(xiàn)方式,分別為:最大熵依存句法分析器和基于CRF序列標(biāo)注的中文依存句法分析器。帶標(biāo)簽的分析正確率:類(lèi)聚NLP依存句法分析系統(tǒng)封閉測(cè)試集最高達(dá)到99.20%,開(kāi)發(fā)集最高達(dá)到71.22%。不帶標(biāo)簽的分析正確率:類(lèi)聚NLP依存句法分析系統(tǒng)系統(tǒng)封閉測(cè)試集最高達(dá)到99.01%,開(kāi)發(fā)集最高達(dá)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論