版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
中文公司名稱識別實(shí)驗(yàn)指導(dǎo)手冊1CRF模型訓(xùn)練常用軟件下載:CRF++Wapiti:訓(xùn)練數(shù)據(jù)格式介紹下面是一個訓(xùn)練文件的例子:1IPVPWFWP黑駕FP常黑1IPVPWFWP黑駕FP常黑Fpnp
---------------WFVPrpbzi—i丁呂ddmhprpbzpfvedtJNlNLMIvrTLRF蘋CEcrnl??PFVEHethecmrreTi4:accoiwtdeficitwillnarroTn
oJ-ys□n.1nt口#1bi訓(xùn)練文件由若干個句子組成(可以理解為若干個訓(xùn)練樣例),不同句子之間通過換行符分隔,上圖中顯示出的有兩個句子。每個句子可以有若干組標(biāo)簽,最后一組標(biāo)簽是標(biāo)注,上圖中有三列,即第一列和第二列都是已知的數(shù)據(jù),第三列是要預(yù)測的標(biāo)注,以上面例子為例是,根據(jù)第一列的詞語和和第二列的詞性,預(yù)測第三列的標(biāo)注。測試文件與訓(xùn)練文件格式自然是一樣的,可以沒有最后一列。模型特征模板介紹模板文件中的每一行是一個模板。每個模板都是由%x[row,col]來指定輸入數(shù)據(jù)中的一個token。row指定到當(dāng)前token的行偏移,col指定列位置。
inputiHeinputiHereclicnsthecurrentacco<mtat
DB-VPE-KF?CURRENTTOKENI-KFT-KPtemplateexpandedfeature壯[0”0]theDT%x[-lrO]rokensPRPthe[JTAEC$tx[0J]12^AtCDTI23由上圖可見,當(dāng)前token是the這個單詞。%x[-2,1]就就是the的前兩行,1號列的元素(注意,列是從0號列開始的),即為PRP有兩種類型的模板,模板類型通過第一個字符指定。即U和B。Unigramtemplate:firstcharacter,'U'當(dāng)給出一個"U01:%x[0,1]"的模板時,CRF+會產(chǎn)生如下的一些特征函數(shù)集合(func1...funcN)。funci=if(output二E-NPandf&西tui■啟;DT"、retu.rn]elsereturnC£unc?=(output=I—UPandfeature=*UO1:DT*Jreturn1elsereturn0func3=if(output=0andfeature=ffU01:DT*)工已turn1elsereturn0funcO=if(cmtput=B-MF:andf1:UU")匚sturn1?lsereturn0funcEY1=i£(airtpirt=0andfea'tur:NIT*)return.1elsereizurn0這幾個函數(shù)我說明一下,%x[0,1]這個特征到前面的例子就是說,根據(jù)詞語(第1列)的詞性(第2列)來預(yù)測其標(biāo)注(第3列),這些函數(shù)就是反應(yīng)了訓(xùn)練樣例的情況,fund反映了“訓(xùn)練樣例中,詞性是DT且標(biāo)注是B-NP的情況”,func2反映了"訓(xùn)練樣例中,詞性是DT且標(biāo)注是I-NP的情況”。模板函數(shù)的數(shù)量是L*N,其中L是標(biāo)注集中類別數(shù)量,N是從模板中擴(kuò)展處理的字符串種類。Bigramtemplate:firstcharacter,'B'這個模板用來描述二元特征。這個模板會自動產(chǎn)生當(dāng)前outputtoken和前一個outputtoken的合并。注意,這種類型的模板會產(chǎn)生L*L*N種不同的特征。crf模型命令介紹CRF++使用訓(xùn)練程序命令行:%crf_learntemplate_filetrain_filemodel_file?這個訓(xùn)練過程的時間、迭代次數(shù)等信息會輸出到控制臺上(感覺上是crf_learn程序的輸出信息到標(biāo)準(zhǔn)輸出流上了),如果想保存這些信息,我們可以將這些標(biāo)準(zhǔn)輸出流到文件上,命令格式如下:%crf_learntemplate_filetrain_filemodel_file>>train_info_file有四個主要的參數(shù)可以調(diào)整:-aCRF-L2orCRF-L1規(guī)范化算法選擇。默認(rèn)是CRF-L2。一般來說L2算法效果要比L1算法稍微好一點(diǎn),雖然L1算法中非零特征的數(shù)值要比L2中大幅度的小。-cfloat這個參數(shù)設(shè)置CRF的hyper-parameter°c的數(shù)值越大,CRF擬合訓(xùn)練數(shù)據(jù)的程度越高。這個參數(shù)可以調(diào)整過度擬合和不擬合之間的平衡度。這個參數(shù)可以通過交叉驗(yàn)證等方法尋找較優(yōu)的參數(shù)。-fNUM這個參數(shù)設(shè)置特征的cut-offthreshold。CRF++使用訓(xùn)練數(shù)據(jù)中至少NUM次出現(xiàn)的特征。默認(rèn)值為1。當(dāng)使用CRF++到大規(guī)模數(shù)據(jù)時,只出現(xiàn)一次的特征可能會有幾百萬,這個選項就會在這樣的情況下起到作用。-pNUM如果電腦有多個CPU,那么那么可以通過多線程提升訓(xùn)練速度。NUM是線程數(shù)量。帶兩個參數(shù)的命令行例子:%crf_learn-f3-c1.5template_filetrain_filemodel_file例如:crf_learn-p2-f3-c4.0templatemodelcrf_test-mmodel測試程序命令行:%crf_test-mmodel_filetest_files?有兩個參數(shù)-v和-n都是顯示一些信息的,-v可以顯示預(yù)測標(biāo)簽的概率值,-n可以顯示不同可能序列的概率值,對于準(zhǔn)確率,召回率,運(yùn)行效率,沒有影響,這里不說明了。與crf_learn類似,輸出的結(jié)果放到了標(biāo)準(zhǔn)輸出流上,而這個輸出結(jié)果是最重要的預(yù)測結(jié)果信息(測試文件的內(nèi)容+預(yù)測標(biāo)注),同樣可以使用重定向,將結(jié)果保存下來,命令行如下。%crf_test-mmodel_filetest_files>>result_filewapiti使用3.3.2.1訓(xùn)練程序命令行:%wapititrain[options][inputdata][modelfile]主要參數(shù):-a選擇算法l-bfgs、sgd-l1、bcd、rprop、rprop+、rprop-等六種算法可供選擇-p選擇模板文件-m可選擇模型文件用于重新訓(xùn)練-t使用的線程數(shù)-i指定最大迭代次數(shù)-1指定L1回歸懲罰系數(shù),該系數(shù)為0時只使用L2回歸-2指定L2回歸懲罰系數(shù),該系數(shù)為0時只使用L1回歸測試程序命令行:%wapitilabel[options][inputdata][outputdata]主要參數(shù):-m:模型文件2中文公司名稱識別實(shí)例介紹3.1采用的特征介紹實(shí)例中僅使用了文本特征和詞性特征。文本特征:即使用詞語本身作為一列特征,文本中會包含大量用于指示公司機(jī)構(gòu)名稱的信息,例如“公司”、“部門”等等詞語都可以用來表示這是一個公司名或者機(jī)構(gòu)名。詞性特征:詞性包含名詞、動詞、形容詞等等,而名詞又可細(xì)分為人名、地名、其他專有名詞等等,這些詞性對于我們的公司名稱識別也可以起到非常顯著的幫助。其他特征:可以根據(jù)具體任務(wù)的不同采用各種不同的特征,例如:語法特征、情感特征、詞長等等,甚至可以不進(jìn)行分詞,將每個字作為一個token來進(jìn)行處理。特征如何轉(zhuǎn)化為所要求的訓(xùn)練數(shù)據(jù)格式根據(jù)token粒度的不同、特征選取的不同可以生成不同的訓(xùn)練數(shù)據(jù),但是訓(xùn)練數(shù)據(jù)的格式卻是始終相同的。每一行表示一個token,每一列表示一維特征,不同列之間用制表符(\t)隔開,最后一列表示標(biāo)注的結(jié)果。不同句子之間用空行隔開。下面是一個訓(xùn)練語料的樣例:
新華社ntB北京ns012月m030Hm0電n0西藏nsB自治區(qū)nI政府nI□w0西藏ns0部分n0地區(qū)n0發(fā)生V0特大b0雪災(zāi)n0后f0其中“新華社北京12月12月30日電西藏自治區(qū)政府?!睘橐粋€句子,而每一行為該句模板選擇不同的模板訓(xùn)練出來的模型結(jié)果可能完全不同,我們先選用僅使用詞語的模板,看一下實(shí)驗(yàn)的效果。針對該任務(wù)采用的特征如下:U01:%x[-3,0]當(dāng)前詞前面第三個詞U02:%x[-2,0]當(dāng)前詞前面第二個詞U03:%x[-1,0]當(dāng)前詞前面第一個詞U04:%x[0,0]當(dāng)前詞U05:%x[1,0]當(dāng)前詞后面第一個詞U06:%x[2,0]當(dāng)前詞后面第二個詞U07:%x[3,0]當(dāng)前詞后面第三個詞使用該模板得到的結(jié)果如下所示,其中第三列為標(biāo)注結(jié)果,第四列為測試結(jié)果
我們在詞語模板的基礎(chǔ)上加入詞性的模板與詞語和詞性的合并,新的模板如下:U01:%x[-3,0]當(dāng)前詞前面第三個詞U02:%x[-2,0]當(dāng)前詞前面第二個詞U03:%x[-1,0]當(dāng)前詞前面第一個詞U04:%x[0,0]當(dāng)前詞U05:%x[1,0]當(dāng)前詞后面第一個詞U06:%x[2,0]當(dāng)前詞后面第二個詞U07:%x[3,0]當(dāng)前詞后面第三個詞U08:%x[-3,1]當(dāng)前詞前面第三個詞詞性U09:%x[-2,1]當(dāng)前詞前面第二個詞詞性U10:%x[-1,1]當(dāng)前詞前面第一個詞詞性U11:%x[0,1]當(dāng)前詞詞性U12:%x[1,1]當(dāng)前詞后面第一個詞詞性U13:%x[2,1]當(dāng)前詞后面第二個詞詞性U14:%x[3,1]當(dāng)前詞后面第三個詞詞性U15:%x[-2,1]/%x[-1,1]/%x[0,1]當(dāng)前詞前面第二個詞詞性+當(dāng)前詞前面第一個詞詞性+當(dāng)前詞詞性U16:%x[-1,1]/%x[0,1]/%x[1,1]當(dāng)前詞前面第一個詞詞性+當(dāng)前詞詞性+當(dāng)前詞后面第一個詞詞性U17:%x[0,1]/%x[1,1]/%x[2,1]當(dāng)前詞詞性+當(dāng)前詞后面第一個詞詞性+當(dāng)前詞后面第二個詞詞性U18:%x[-1,1]/%x[0,1]當(dāng)前詞前面第一個詞詞性+當(dāng)前詞詞性
U19:%x[0,1]/%x[1,1]當(dāng)前詞詞性+當(dāng)前詞后面第一個詞詞性U20:%x[0,0]/%x[0,1]當(dāng)前詞+當(dāng)前詞詞性Bbigram特征使用該模板得到的結(jié)果如下所示:上海nsBB交通nII大學(xué)nII明年tOO將dOO迎來vOO120周年m00OoooooO■1慶vg0。w0許多m0企業(yè)n0校友n0紛紛d0慷慨解囊,w0例如v0著名a0的uj0聯(lián)想nzB集團(tuán)nI董事長n楊元慶nr,w0騰vB訊ngI公司nIOoooooO■1紅海nsBB公司nII等u0I校友n0I可以看到新的模板對于紅海公司
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026寧夏公務(wù)員考試備考題庫(984人)及參考答案詳解
- 2025至2030中國電子商務(wù)平臺用戶畫像與營銷策略研究報告
- 2026四川德陽市什邡市人民醫(yī)院招聘臨床護(hù)士、藥房藥師、康復(fù)技師4人備考題庫參考答案詳解
- 2025環(huán)球時報新媒體部實(shí)習(xí)生招聘備考題庫附答案詳解
- 海口2025年??谑忻捞m區(qū)疾病預(yù)防控制中心招聘9人(第一號)筆試歷年參考題庫附帶答案詳解
- 海南2025年海南省地質(zhì)環(huán)境監(jiān)測總站招聘筆試歷年參考題庫附帶答案詳解
- 濟(jì)寧2025年曲阜師范大學(xué)招聘8人(博士輔導(dǎo)員)筆試歷年參考題庫附帶答案詳解
- 2026中醫(yī)藥廣東省實(shí)驗(yàn)室誠聘科研、管理、工程技術(shù)、產(chǎn)業(yè)發(fā)展各領(lǐng)域英才117人備考題庫及答案詳解(考點(diǎn)梳理)
- 河北河北醫(yī)科大學(xué)第二醫(yī)院招聘工作人員341人筆試歷年參考題庫附帶答案詳解
- 江西2025年江西省水利科學(xué)院招聘專業(yè)技術(shù)人員(人事代理)4人筆試歷年參考題庫附帶答案詳解
- 中國醫(yī)護(hù)服裝行業(yè)未來發(fā)展趨勢分析及投資規(guī)劃建議研究報告
- 《廣州天河商圈》課件
- H31341 V2.5 HCIP-TranSmission 傳輸網(wǎng)練習(xí)試題及答案
- 下肢靜脈曲張課件
- (高清版)DZT 0428-2023 固體礦產(chǎn)勘查設(shè)計規(guī)范
- XXX縣村鎮(zhèn)空氣源熱泵區(qū)域集中供熱項目可行性研究報告
- 湖州昆侖億恩科電池材料有限公司年產(chǎn)40000噸鋰離子電池電解液項目環(huán)境影響報告
- 幼兒園班級體弱兒管理總結(jié)
- 肥胖患者圍術(shù)期麻醉管理
- 核酸印跡與分子雜交
- 金屬罐三片罐結(jié)構(gòu)分析
評論
0/150
提交評論