版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
漢語分詞與標(biāo)注目
錄CONTENTS1
經(jīng)典綜述2
分詞與標(biāo)注聯(lián)合模型3
領(lǐng)域前沿4
技術(shù)平臺及應(yīng)用場景5
Demo展示經(jīng)典綜述主講人:
1.1
漢語分詞
“漢語分詞中文分詞指的是中文在基本文法上有其特殊性而存在的分詞
,
簡而言之
,
就是將一句話切分成一個個單詞的過程
。4我是北京理工大學(xué)學(xué)生我
|是
|北京理工大學(xué)
|學(xué)生不同的分詞算法可能會得到不同的分詞結(jié)果
1.1
漢語分詞
I
為什么要漢語分詞
英文以空格作為天然的分隔符
,
而中文詞語之間沒有分隔。I
major
in
English.我的專業(yè)是英語。
在中文里
,
“詞”和
“詞組”邊界模糊。對隨地
吐痰
者給
予
處
罰。
后續(xù)工作
:漢字處理、
信息檢索、
內(nèi)容分析、
語音處理等。雅虎中國網(wǎng)頁搜索部總監(jiān)張勤認(rèn)為
,
中文分詞是搜索技術(shù)的基礎(chǔ)
,只有做好了分詞
,才能有好
的搜索。5
1.1
漢語分詞
I
漢語分詞難點——切分歧義
交集型切分歧義OAS(交叉歧義)
——對于漢字串AJB
,AJ、
JB同時成詞“人民生活幸?!?/p>
①人民
|生活
|幸福②人
|
民生
|活
|幸福
組合型切分歧義CAS(覆蓋歧義)
——對于漢字串AB
,A、
B、AB同時成詞“校友會”
①
我
|在
|校友會
|工作②
我
|的
|
校友
|
會
|
來
真歧義——本身的語法和語義都沒有問題
,
即便人工進(jìn)行切分也會產(chǎn)生歧義“乒乓球拍賣完”①乒乓
|球拍
|
賣完②乒乓球
|拍賣
|完6
1.1
漢語分詞
I
漢語分詞難點——未登錄詞識別未登錄詞有兩種
,一種指已有的詞表中沒有收錄的詞
,另一種指訓(xùn)練語料中未曾出現(xiàn)過
的詞
,
而后一種也可被稱作集外詞(
Out
of
Vocabulary
,
OOV)
,
即訓(xùn)練集以外的詞。未登錄詞通常包含以下幾種類型:
新出現(xiàn)的普通詞匯。
如網(wǎng)絡(luò)用語中層出不窮的新詞等。
專有名詞。
如人名、
地名以及組織機構(gòu)名稱等。
專業(yè)名詞和研究領(lǐng)域名稱。
將分詞運用到某些特定領(lǐng)域或?qū)I(yè)
,
需要特定的領(lǐng)域詞典。
其它專用名詞。
如新產(chǎn)生的產(chǎn)品名、
電影名稱、
書籍名稱等。7
1.1
漢語分詞
I
漢語分詞發(fā)展歷程8Collo
bert等首次
將深度學(xué)習(xí)算法引
入自然語言任務(wù)中。
該方法可以通過最
終的分詞標(biāo)注訓(xùn)練
集
,有效學(xué)習(xí)原始
特征和上下文表示。隨后CNN、
GRN、LSTM、
BiLSTM等
深度學(xué)習(xí)模型都被
引入到中文分詞任
務(wù)中
,
并結(jié)合中文
分詞進(jìn)行多種改進(jìn)。俄漢翻譯機的研制
時期
,蘇聯(lián)研究漢
俄機器翻譯的學(xué)者
首先提出的、
后來
被稱為6-5-4-3-2-
1查詞法。Sproat等首次基于統(tǒng)計學(xué)習(xí)方
法實現(xiàn)中文分詞。
根據(jù)處理的粒度,
分為基于詞和基
于字兩類標(biāo)注。上世紀(jì)50年代后期1990年2011年
1.1
漢語分詞
I
漢語分詞算法分類9基于詞典的分詞算法統(tǒng)計機器學(xué)習(xí)的算法
基于神經(jīng)網(wǎng)絡(luò)的算法按照掃描方向的不同
,
串匹配分詞方法可以分為正向匹配和逆向匹配。按照不同長度優(yōu)先匹配的情況
,
可以分為最大(最長)匹配和最小(最短)匹配。
常用的幾種機械分詞方法如下:
正向最大匹配算法FMM
逆向最大匹配算法RMM
雙向最大匹配算法BM
1.1
漢語分詞
基于詞典的分詞算法(也稱機械分詞)10機器詞典識別出
一個詞待分析
漢字串匹配成功匹配詞條
永和服裝有限公司統(tǒng)計結(jié)果表明
,
單純使用正向最大匹配的錯誤率為1/169
,
單純使用逆向最大匹配的錯
誤率為1/245
,
顯然RMM法在切分的準(zhǔn)確率上比FMM法有很大提高。
但這種精度還遠(yuǎn)
遠(yuǎn)不能滿足實際的需要。
實際使用的分詞系統(tǒng)
,都是把機械分詞作為一種初分手段
,還
需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。
1.1
漢語分詞
基于詞典的分詞算法(也稱機械分詞)11
正向最大匹配算法FMM(從左到右的方向)
永和服裝有限公司
逆向最大匹配算法RMM(從右到左的方向)詞典:
服裝有限公司公司和服待分詞序列
:永和服裝有限公司
1.1
漢語分詞
基于詞典的分詞算法(也稱機械分詞)
雙向最大匹配算法BM?比較FMM和RMM得到的分詞結(jié)果
,如果兩種結(jié)果相同
,則認(rèn)為分詞正確
,
否則
,按最小集處理。?在實用中文信息處理系統(tǒng)中得以廣泛使用的原因12
1.1
漢語分詞
基于詞典的分詞算法(也稱機械分詞)詞典分詞方法包含兩個核心內(nèi)容
:分詞算法與詞典結(jié)構(gòu)。
算法設(shè)計可從以下幾方面展開?
字典結(jié)構(gòu)改進(jìn)?
改進(jìn)掃描方式?將詞典中的詞按由長到短遞減順序逐字搜索整個待處理材料
,
直到分出全部詞為止
影響詞典性能的三個因素?
詞查詢速度?
詞典空間利用率?詞典維護(hù)性能(
e.g.設(shè)計Hash表)13
1.1
漢語分詞
基于詞典的分詞算法(也稱機械分詞)
優(yōu)點:?
易于實現(xiàn)?可以精確地切分出所有在詞典中存在的詞
缺點:?
匹配速度慢?存在交集型和組合型歧義切分問題?詞本身沒有一個標(biāo)準(zhǔn)的定義
,沒有統(tǒng)一標(biāo)準(zhǔn)的詞集?不同詞典產(chǎn)生的歧義也不同14
1.1
漢語分詞
I
統(tǒng)計機器學(xué)習(xí)的算法
主要思想把每個詞看作字組成
,相鄰的字在語料庫中出現(xiàn)的次數(shù)越多
,
就越可能是一個詞。
主要模型?
N-gram模型?
最大熵模型ME?
隱馬爾可夫模型HMM15
1.1
漢語分詞
N-gram模型
主要思想第n個詞的出現(xiàn)只與前面n-1個詞相關(guān)
,與其他詞都不相關(guān)
,整個語句的概率就是各
個詞出現(xiàn)概率的乘積。
算法推論假設(shè)一個字符串s由m個詞組成
,
因此我們需要計算出P(w1,w2,?
,wm)的概率
,根
據(jù)概率論中的鏈?zhǔn)椒▌t得到如下:P(w1,w2,…,wm)
=
P(w1)*P(w2|w1)*P(w3|w1,w2|)
…
P(wm|w1,w2
…wm-1)根據(jù)馬爾科夫假設(shè)
,
當(dāng)前詞僅與前面幾個詞相關(guān)
,所以不必追溯到最開始的那個詞
,
即
P(wi|w1,w2
…wi-1)
=
P(wi|wi-n+1,wi-1),P(s)
=
P(w1,w2,…,wm)
=
P(w1)*P(w2|w1)*P(w3|w1,w2|)
…
P(wm|w1,w2
…wm-1)
≈
P(w1)*P(w2|w1)*P(w3|w2)
…
P(wm|wm-1)16
1.1
漢語分詞
I
最大熵模型ME
最大熵原理對一個隨機事件的概率分布進(jìn)行預(yù)測時
,
預(yù)測應(yīng)當(dāng)滿足全部已知的約束
,
而對未知
的情況不要做任何主觀假設(shè)。
在這種情況下
,概率分布最均勻
,
預(yù)測的風(fēng)險最小
,
因此得到的概率分布的熵是最大。一個樸素的說法
:不要把所有的雞蛋放在一個籃子里。
主要思想在學(xué)習(xí)概率模型時
,所有可能的模型中熵最大的模型是最好的模型;
若概率模型需
要滿足一些約束
,則最大熵原理就是在滿足已知約束的條件集合中選擇熵最大模型。17
1.1
漢語分詞
I
最大熵模型ME
優(yōu)點?最大熵統(tǒng)計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型
,作為經(jīng)
典的分類模型時準(zhǔn)確率較高。?可以靈活地設(shè)置約束條件
,通過約束條件的多少可以調(diào)節(jié)模型對未知數(shù)據(jù)的適應(yīng)
度和對已知數(shù)據(jù)的擬合程度。
缺點?由于約束函數(shù)數(shù)量和樣本數(shù)目有關(guān)系
,導(dǎo)致迭代過程計算量巨大
,
實際應(yīng)用起來
比較難。18
1.1
漢語分詞
I隱馬爾可夫模型HMM
隱馬爾可夫模型是關(guān)于時序的概率模型。
描述由一個隱藏的馬爾可夫鏈隨機生成的
不可觀測的狀態(tài)序列
,
再由各個狀態(tài)生成一個觀測從而產(chǎn)生觀測序列的過程。狀態(tài)序列
,如
I
={學(xué)習(xí)
,逛街
,
學(xué)習(xí)
,游戲
,
吃火鍋}觀測序列
,如O
={難頂
,
開心
,很煩
,心累
,幸福}狀態(tài)轉(zhuǎn)移概率矩陣
,表示從t時刻狀態(tài)qi
,
t+1變成qj的概率,如前一天逛街變換到今天學(xué)習(xí)的概率觀測轉(zhuǎn)移概率矩陣
,表示從t時刻狀態(tài)qj
,產(chǎn)生觀測結(jié)果v
k的概率,如今天逛街然后今天是開心的概率初始狀態(tài)概率分布
,表示在t
=1時刻處于狀態(tài)qi的概率,如第一天是逛街的概率19
五元組?
I
:?
O:
?
A:?
B:?
π
:入=(A,B,T)?齊次馬爾可夫鏈假設(shè)
:任一時刻的狀態(tài)只與上一時刻的狀態(tài)有關(guān)
,與其他時刻的狀態(tài)、觀測無關(guān)。公式描述:P(ir
x1lia,i
a…iz;o1,02…01)=p(ir
x1li)?!久魈焖龅氖虑橹慌c今天所做的有關(guān)
,
比如今天逛街(狀態(tài)
,這是你看不到的)
那么明
天很有可能就是學(xué)習(xí)(因為昨天浪了一天)
,但是與昨天學(xué)習(xí)無關(guān)
,與每天的心情(觀測,
這是你在朋友圈看到的)
也無關(guān)。
】?觀測獨立性假設(shè)
:任一時刻的觀測只與當(dāng)前時刻的狀態(tài)有關(guān)。公式描述:P(or
lia,i..
in;o,
oy…or-1,
on..
on)=p(oli)
。【今天的心情(觀測)
只與今天所做的事有關(guān)(狀態(tài))
。如我們今天感覺倒霉(觀測)
因
為今天晉級賽跪了。
而與昨天辛苦工作(狀態(tài))
,
明天還要辛苦工作無關(guān)。
】20I隱馬爾可夫模型HMM
兩個假設(shè)1.1漢語分詞
1.1
漢語分詞
I隱馬爾可夫模型HMM
三個問題?概率計算問題
:給定模型λ
=(A,B,π)和觀測序列O
,計算在模型λ下觀測序列出現(xiàn)
的最大概率P(O|λ)。
(Forward-backward算法)?學(xué)習(xí)問題
:給定觀測序列O
,計算模型的參數(shù)λ
,使得在該參數(shù)下觀測序列出現(xiàn)的
概率最大
,
即P(O|λ)最大。(
Baum-Welch算法)?預(yù)測問題
:我們已經(jīng)獲取了模型λ
=(A,B,π)和觀測序列O
,計算最有可能的狀態(tài)序
列I。(Viterbi算法)21
1.1
漢語分詞
I
統(tǒng)計機器學(xué)習(xí)的算法
優(yōu)點
:較好地識別未登錄詞和消除歧義
缺點
:統(tǒng)計模型復(fù)雜度高
,運行周期長
,依賴人工特征提取
隨著計算機運行速度加快
,神經(jīng)網(wǎng)絡(luò)逐漸進(jìn)入分詞領(lǐng)域22
1.1
漢語分詞
I
基于神經(jīng)網(wǎng)絡(luò)的算法
該方法是模擬人腦并行
,分布處理和建立數(shù)值計算模型工作的。
它將分詞知識所分
散隱式的方法存入神經(jīng)網(wǎng)絡(luò)內(nèi)部
,通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值
,
以達(dá)到正確的
分詞結(jié)果
,最后給出神經(jīng)網(wǎng)絡(luò)自動分詞結(jié)果。
自序列標(biāo)注方法在
bakeoff測試中取得優(yōu)異成績后
,將神經(jīng)網(wǎng)絡(luò)與序列標(biāo)注相結(jié)合
成為中文分詞領(lǐng)域的通用框架。
主要模型?
循環(huán)神經(jīng)網(wǎng)絡(luò)RNN?長短期記憶人工神經(jīng)網(wǎng)絡(luò)LSTM?
門控循環(huán)單元GRU23詞性標(biāo)注為每一個詞的詞性加上標(biāo)注
。
也就是確定該詞屬于名詞
、
動詞
、
形容詞還是其他詞性的過程
。對于幾乎所有的語言處理任務(wù)來說
,
詞性標(biāo)注都是很重要的前
置處理任務(wù)
。他/r做/了/u—/m個/q報告/n
1.2
詞性標(biāo)注
“24
1.2
詞性標(biāo)注
I
在分詞中的應(yīng)用25未登錄詞
(主
)歧義在整體質(zhì)量較高的情況下
,基于字標(biāo)注的
分詞系統(tǒng)有著明顯的未登錄詞識別優(yōu)勢影響分詞效果的主要問題Bakeoff-2003的評測
1.2
詞性標(biāo)注
I
分類26利用現(xiàn)有的語言學(xué)成果,
總結(jié)出有用
的規(guī)則
。
在基本標(biāo)
注的情況下,
結(jié)合
上下文和規(guī)則庫消
除歧義,
保留唯一
合適的詞性。對于給定的輸入詞串,
先確定所有可
能的詞性串,
選出
得分最高的作為最
佳輸出。依靠神經(jīng)網(wǎng)絡(luò)強大的特征提取和表征
能力來進(jìn)行文本數(shù)
據(jù)的處理?;谏疃葘W(xué)習(xí)基于規(guī)則基于統(tǒng)計
1.2
詞性標(biāo)注
I
基于規(guī)則的詞性標(biāo)注由詞性標(biāo)注的規(guī)則組成的規(guī)則庫27”ADJ”
+”
NUM””V”
+”ADJ””V”
+”
PRON”形容詞+數(shù)詞動詞+形容詞
動詞+代詞
1.2
詞性標(biāo)注
I
基于規(guī)則的詞性標(biāo)注早期
,
詞性標(biāo)注的規(guī)則庫需要人工構(gòu)造
,
艱難耗時
。
基于轉(zhuǎn)換的錯誤驅(qū)動的方
法首次克服了手工制定規(guī)則的問題
。
0102
0
30
4281971
年,TAG
G
IT系統(tǒng)被
用
于B
r
o
w
n語料庫
的輔
助
詞
性
標(biāo)注工作
。20
0
0
年,李曉
黎等人提出用數(shù)據(jù)采掘的方法獲取漢語
詞性標(biāo)注規(guī)則
。19
9
5
年
,
E
r
i
c
B
r
i
l
l
提
出
了
基
于
轉(zhuǎn)
換的
錯誤
驅(qū)
動的方法
。20
0
8
年,王
廣正等人提出了基
于規(guī)則優(yōu)先級的
詞性標(biāo)注方法
。
1.2
詞性標(biāo)注
I
基于統(tǒng)計的詞性標(biāo)注n
隱馬爾可夫模型(
HMM)n
最大熵模型n
條件隨機場(
CRF)29
1.2
詞性標(biāo)注
條件隨機場(
CRF)特征函數(shù)30對于句子s
,標(biāo)注l對第i位的標(biāo)注為li的情況下
,滿足li-1函數(shù)值為1
,否則為0。若f為1表示特征合理
,λ為正
,否則為負(fù)特征函數(shù)集
1.2
詞性標(biāo)注
I
基于深度學(xué)習(xí)的詞性標(biāo)注詞嵌入n
獨熱編碼(
One-hot){1
,
0
,
0
,
0}
,
{0
,
1
,
0
,
0}
,
{0
,
0
,
1
,
0}
,
{0
,
0
,
0
,
1}n
Word2Vec模型利用局部上下文。
低維
,稠密n
GloVe(GlobalVectorsforWord
Representation)增加了對全局特征的利用。31
1.2
詞性標(biāo)注
循環(huán)神經(jīng)網(wǎng)絡(luò)(
RNN)32針對序列信息進(jìn)行特征抽取
1.2
詞性標(biāo)注
長短期記憶人工神經(jīng)網(wǎng)絡(luò)(
LSTM)33or=o(w,[hr-1,a
e)+bo)
hr=o:xt
an
h(c3)遺忘門輸入門
輸入值輸出門記住需要長時間記憶的
,忘記不重要的信息C-1
1.2
詞性標(biāo)注
門控循環(huán)單元(
GRU)34相較于LSTM
,
減少了一個
“閥門”,
單元結(jié)構(gòu)更加簡單
,性能更強更新門重置門候選狀態(tài)分詞與標(biāo)注聯(lián)合模型主講人:
2
2
分詞與標(biāo)注聯(lián)合模型
流水線模型:
先分詞
,
再標(biāo)注聯(lián)合模型:
分詞與標(biāo)注同時進(jìn)行優(yōu)勢流水線模型會導(dǎo)致錯誤的傳播
,
并且分詞的結(jié)果對標(biāo)注的效果影響很大
,
同時標(biāo)注也能為分詞分詞任務(wù)
提供重要信息
,
因此使用聯(lián)合模型。實現(xiàn)思路。序列標(biāo)注模型o
Transition-based系統(tǒng)36
2
分詞與標(biāo)注聯(lián)合模型
I
序列標(biāo)注模型將分詞任務(wù)拓展為分詞標(biāo)注任務(wù)
:將邊界標(biāo)簽拓展到加入詞性標(biāo)簽:狗/S蹲/S在/S墻/B角/E狗/S_NR
蹲/S_VP
在/S_P墻/B_NR
角/E_NR37傳統(tǒng)統(tǒng)計學(xué)習(xí)的方法:
需要大量的特征1.模型過大難以存儲和計算;2.參數(shù)過多而造成過擬合;3.耗費計算時間;
4.難以解碼深度學(xué)習(xí)的方法:使用神經(jīng)網(wǎng)絡(luò)來直接獲取單詞之間的更高層的特征表示38初始化特征向量
,
經(jīng)過神經(jīng)網(wǎng)絡(luò)獲得一個句
子中每個位置上的單詞分別對應(yīng)標(biāo)簽集中每
個標(biāo)注的得分。通過維比特算法
,
找到該句子的最優(yōu)的標(biāo)簽
序列。2
分詞與標(biāo)注聯(lián)合模型序列標(biāo)注模型
2
分詞與標(biāo)注聯(lián)合模型
I
序列標(biāo)注模型雙向的RNN來獲取雙向的特征表示并對標(biāo)簽進(jìn)行預(yù)測
,最后經(jīng)過CRF來選擇出合適的標(biāo)簽序列。39獲得字的偏旁:
“
钅
”:銀、鋁、鐵OrthographicalFeatureRadicalsFeaturesPre-trainedCharacterEmbeddings利用Wikipedia和SogouCS語料訓(xùn)練字符
的GloVe向量2
分詞與標(biāo)注聯(lián)合模型序列標(biāo)注模型ConcatenatedN-gram40transition-based系統(tǒng)
2
分詞與標(biāo)注聯(lián)合模型
SEP(t):一個新詞的開始
,
并且標(biāo)注好這個詞的詞性APP:緊接著上一個漢字
,與前面的多個漢字組成一個詞例:
“
奧運會正式開幕”解碼結(jié)果:
“
奧運會|NR
正式|AD
開幕|VV”動作序列:
“SEP(NR)
APP
APP
SEP(AD)
APP
SEP(VV)
APP”41
2
分詞與標(biāo)注聯(lián)合模型
transition-based系統(tǒng)單字和雙字的雙向編碼,為動態(tài)編碼采用外部預(yù)訓(xùn)練詞向量,為靜態(tài)編碼
BasicEmbeddingsoWord-ContextEmbeddings42
2
分詞與標(biāo)注聯(lián)合模型
transition-based系統(tǒng)43解碼端詞的表示(Word
Representation)結(jié)合解碼端LSTM的隱層輸出和編碼
端向量表示進(jìn)行預(yù)測
2
分詞與標(biāo)注聯(lián)合模型
transition-based系統(tǒng)典型的Seq2Seq模型需要采
用Attention機制
,
而本文提
出
的
模
型
不
需
要
采
用Attention機制
,
采用編碼端
的向量表示。在分詞和詞性標(biāo)注的任務(wù)中
,
詞
級別的特征異常重要
,
解碼端LSTM是構(gòu)建在輸出的詞之上
,
而不是構(gòu)建在屬于字符級的預(yù)測
動作序列之上。44
2
分詞與標(biāo)注聯(lián)合模型
[1]XiaoqingZheng,
HanyangChen,TianyuXu,“
Deep
Learningfor
ChineseWord
Segmentationand
POS
Tagging”,EMNLP
2013:
647-657.[2]Y.Shao,C.
Hard
meier,J.Tie
demann,
and
J.
Nivre,
“Character-based
joint
segmentation
andpos
tagging
for
chinese
using
bidirectional
rnn-crf,”arXiv
preprint
arXiv:1704.01314,2017.[3]
Meish
an
Zhang,
Nan
Y
u,and
Guohong
Fu,“A
Simple
and
Effective
Neural
Model
for
JointWord
Segmentation
and
POS
Tagging”,IEEE
ACM
Trans.
Audio
Speech
Lang.
Process.
26(9):1528-1538
(2018)45領(lǐng)域前沿主講人:
3
領(lǐng)域前沿
SOTA模型——WMSEG與TwASP2021最新成果(簡介)——Meta-Seg與GCA-FL4703新的瓶頸與發(fā)展現(xiàn)狀當(dāng)前研究數(shù)據(jù)010204
3
領(lǐng)域前沿
I當(dāng)前研究數(shù)據(jù)根據(jù)近20年文獻(xiàn)資料,中文分詞研究自2010年達(dá)到小高峰后,熱度再次緩步增長。48中國知網(wǎng)(上)和Web
of
Science(下)分詞文獻(xiàn)數(shù)量統(tǒng)計[1]王佳楠,梁永全.中文分詞研究綜述[J].軟件導(dǎo)刊,2021,20(04):247-252.經(jīng)網(wǎng)絡(luò)和
學(xué)習(xí)方法
關(guān)關(guān)鍵字
3
領(lǐng)域前沿
I當(dāng)前研究數(shù)據(jù)所基于的技術(shù)變化,統(tǒng)計僅選擇總詞頻高于20的主要技術(shù)性關(guān)鍵詞的詞頻分布。?機械分詞算法自1984年至今持續(xù)出現(xiàn)在文獻(xiàn)中。?機器學(xué)習(xí)算法2004年后被廣泛應(yīng)用,并持續(xù)保持
較高的關(guān)注度。?深度學(xué)習(xí)算法2015年之后相關(guān)文獻(xiàn)逐漸增多。但出現(xiàn)的新算法并未替代之前的分詞算法。
49“中文分詞文獻(xiàn)
”部分關(guān)鍵詞分布(篇)[2]唐琳,郭崇慧,陳靜鋒.中文分詞技術(shù)研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(Z1):1-17.
3
領(lǐng)域前沿
I
SOTA模型目前中文分詞的SOTA(Stateoftheart,最先進(jìn))模型,來自創(chuàng)作于我國廣州
的高科技企業(yè)創(chuàng)新工場大灣區(qū)人工智能研究院的文章,發(fā)表于2020年7月上旬線上舉行的第58屆自然語言處理領(lǐng)域(NLP)頂級學(xué)術(shù)會議ACL2020,
目前已開源。50TwASP:基于雙通道注意力機制的分詞及詞性標(biāo)注模型兩模型分別就中文分詞和詞性標(biāo)注作出探索,將外部知識(信息)創(chuàng)造性融入分詞及詞性標(biāo)注模型,有效剔除分詞
“噪音
”誤導(dǎo),大幅提升處理效果。WMSEG:鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型在所有數(shù)據(jù)集上的表現(xiàn)均超過前人的工作,“把中文分
詞領(lǐng)域廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集上的性能全部刷到了新高。
”執(zhí)行院長宋彥(作者之一)
3
領(lǐng)域前沿
I
SOTA模型——WMSEG
:鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型解決OOV(outofvocabulary,未登錄詞)和歧義兩大難題,主要思想是采用鍵-值記憶神經(jīng)網(wǎng)絡(luò),計算能得出具備更完整語義分詞結(jié)果的漢字劃分方式。特定語境中:構(gòu)建詞表與分配權(quán)重:①據(jù)構(gòu)詞能力,找到所有成詞組合。如“
民
”字可能單字成詞作為
居民
”的
詞尾、作為“
民生
”的詞首,或是在“居民生活
”的詞中成分。③經(jīng)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)各詞對完整表達(dá)句意的幫助,從而分配不同權(quán)重。最終“部分
”、“居民
”、“生活
”、“水平
”被突出,而“分居
”、“
民生
”則被降權(quán)。51②·利將用個的漢全字元合組加提入供
模型,進(jìn)行編·碼用。非監(jiān)督方法構(gòu)建詞表,有效利用
字的構(gòu)詞能力,通過加/降權(quán)重實現(xiàn)。特定的未標(biāo)注文本,來提升識別能力。[3]YuanheTian,YanSong,FeiXia,TongZhang,YonggangWang:
ImprovingChineseWordSegmentationwithWordhoodMemoryNetworks.ACL2020:8274-8285歧義消解
部分居民生活水平
未登錄詞處理
3
領(lǐng)域前沿
I
SOTA模型——WMSEG
:鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型52模型整體:τ
:句子所有分詞結(jié)
果的標(biāo)簽集合;L:句子長度;y^:模型的最好結(jié)果;N:構(gòu)建的Lexicon;X:輸入的句子;M:本文模型。核心思想:傳統(tǒng)NER模型的Encoder和Decoder之間加入MemoryNetworks。鍵定位
值讀取得概率分布即相關(guān)程構(gòu)建詞表B
I
E
S標(biāo)記法
B:begin
,
I:inside,E:end
,
S:single
soft
max
/
CRF
BERT
/
L
STM
3
領(lǐng)域前沿
I
SOTA模型——WMSEG
:鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型值讀取舉例:他從小學(xué)電腦技術(shù)模型對歧義部分“從小學(xué)
”(有“從/小學(xué)
”和“從小/學(xué)
”兩種分法)各分法
中的n元組“從小
”和“學(xué)
”能夠分配更高的權(quán)重。53
3
領(lǐng)域前沿
I
SOTA模型——WMSEG
:鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型在主流公開分詞模型中加入WM網(wǎng)絡(luò)進(jìn)行對比、和前人工作的比較:優(yōu)化均明顯。54[4]YuanheTian,YanSong,XiangAo,FeiXia,XiaojunQuan,TongZhang,YonggangWang:Joint
ChineseWord
Segmentation
and不同者在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán),從而識別特定語境下各自的貢獻(xiàn)。不準(zhǔn)確的、對模型
預(yù)測貢獻(xiàn)小的上下文特征和句法知識可被識別
重,從而避免模型被這些有噪
音的信息誤導(dǎo)
3
領(lǐng)域前沿
I
SOTA模型——TwASP:
基于雙通道注意力機制的分詞及詞性標(biāo)注模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù)從而一體化完成。對自動獲取的上下文特征和句法知識,分別加權(quán),預(yù)測每個字的分詞和詞性標(biāo)簽,55Part-of-speechTaggingviaTwo-wayAttentionsofAuto-analyzedKnowledge.ACL2020:8286-8296
3
領(lǐng)域前沿
I
SOTA模型——TwASP:
基于雙通道注意力機制的分詞及詞性標(biāo)注模型實驗驗證:1)模型在所用數(shù)據(jù)集上均超過了之前的工作:2)一般領(lǐng)域中,在5個數(shù)據(jù)集(CTB5,CTB6,CTB7,CTB9,UniversalDependencies)的表現(xiàn)(F值)均超過前人的工作,也大幅度超過斯坦福大學(xué)的
CoreNLP工具和伯克利大學(xué)的句法分析器。3)跨領(lǐng)域中,模型特別地相對于斯坦福大學(xué)的CoreNLP工具有近10個百分點提升。56典型測試表現(xiàn)
一般領(lǐng)域的先進(jìn)性(最常見的CTB5上的結(jié)果)
跨領(lǐng)域的先進(jìn)性谷歌學(xué)術(shù)Chinese
iDBLP
W
dg近5年來本領(lǐng)域的相關(guān)學(xué)術(shù)論文在數(shù)量上不斷遞增谷歌學(xué)術(shù)
dgChinese
iB
搜LP數(shù)據(jù)的研究和應(yīng)用例如學(xué)術(shù)搜索作者協(xié)助關(guān)系挖掘等谷DBLP
2021機械方法1W-coreTransformer
ModelforChineseWordSegmentation變換器(Transformer)模型、窗核(W-core)2CorpusAnnotationSystem
Basedon
HanLPChineseWordSegmentation彈性搜索3MorethanText:
Multi-modalChineseWordSegmentation多模態(tài)、變換器(Transformer)模型4Span
LabelingApproachforVietnameseandChineseWordSegmentation跨度標(biāo)記方法深度學(xué)習(xí)Pre-trainingwith
Meta
LearningforChineseWordSegmentation元學(xué)習(xí)FederatedChineseWordSegmentationwithGlobalCharacterAssociations聯(lián)邦學(xué)習(xí)、深度學(xué)習(xí)3Bidirectional
LSTM-CRFAttention-based
ModelforChineseWordSegmentation注意機制、雙向長短期記憶+條件隨機場(
Bi-LSTM-CRF)4ResearchonChineseWordSegmentation
Basedon
Conditional
Random
Fields條件隨機場(
CRF)、域自適應(yīng)、域分割、逆向最大匹配5ExploringWordSegmentationand
MedicalConcept
Recognitionfor
Chinese
MedicalTexts長短期記憶(
BiLSTM)、變換器雙向編碼表示(
BERT)、中文預(yù)訓(xùn)練語言模型ZEN6EnhancingChineseWordSegmentationvia
Pseudo
Labelsfor
Practicability半監(jiān)督、偽標(biāo)簽、神經(jīng)網(wǎng)絡(luò)7Hybrid
Feature
Fusion
LearningTowardsChineseChemical
LiteratureWordSegmentation混合特征融合、知識提取
3
領(lǐng)域前沿
57ACL
20212篇2021最新成果
截至2021年10月12日
3
領(lǐng)域前沿
58[5]ZhenKe,LiangShi,SongtaoSun,Er
liMeng,BinWang,XipengQiu:
Pre-training
with
Meta
Learning
for
Chinese
WordSegmentation.NAACL-HLT2021:5514-55232021最新成果——Meta-Seg:
基于元學(xué)習(xí)的中文分詞預(yù)訓(xùn)練模型I2021最新成果——GCA-FL:
基于全局字符關(guān)聯(lián)機制聯(lián)邦學(xué)習(xí)的中文分詞中文模
型
:
存據(jù)能于隔。服離務(wù)的器場端景下提升模型在
各
-
置
計注
意
力
機
制
,數(shù)據(jù):存于節(jié)點,節(jié)點間孤立不可見。征分特制碼位編的征am特gr文n下在上其作詞+
3
領(lǐng)域前沿
learning,F(xiàn)L)進(jìn)行分布式學(xué)習(xí),在保證隱私安全與合法的前提下,解決數(shù)據(jù)孤立的問題,實現(xiàn)共同建模。②使用一種全局字符關(guān)聯(lián)機制GCA)的方法,增強模型對數(shù)據(jù)孤立情景的中文分詞任務(wù)處理高性能。59[6]YuanheTian,GuiminChen,HanQin,YanSong:FederatedChineseWordSegmentationwithGlobal
CharacterAssociations.
ACL/IJCNLP
(Findings)2021:4306-4313(GlobalCharacterAssociations,
損失反向傳播計算梯度并更新參數(shù)。①采用聯(lián)邦學(xué)習(xí)(federated模型和各節(jié)點通信過程:②服務(wù)器端模型據(jù)此前向計算,并傳③節(jié)點據(jù)此計算損失,最后模型根據(jù)①節(jié)點——加密數(shù)據(jù)—→服務(wù)器。輸解碼后的分詞標(biāo)簽給節(jié)點。GCA輸出預(yù)測各
詞標(biāo)簽聯(lián)邦學(xué)習(xí)的訓(xùn)練過程服務(wù)器端模型結(jié)構(gòu)
3
領(lǐng)域前沿
I2021最新成果——GCA-FL:
基于全局字符關(guān)聯(lián)機制聯(lián)邦學(xué)習(xí)的中文分詞1)實驗結(jié)果表明了該方法的高效,優(yōu)于大部分不同的基礎(chǔ)模型,其中包括一些設(shè)計
良好的聯(lián)邦學(xué)習(xí)框架。下表是五個基準(zhǔn)數(shù)據(jù)集上的模型性能。2)此外,下圖表現(xiàn)了模型在五個基準(zhǔn)數(shù)據(jù)集上未登錄詞的召回率,通過分析模型在OOV的問題解決表現(xiàn)驗證了聯(lián)邦學(xué)習(xí)和全局字關(guān)聯(lián)機制的有效性。60實驗結(jié)果:
3
領(lǐng)域前沿
I
新的瓶頸與發(fā)展現(xiàn)狀?中文分詞新的瓶頸?
現(xiàn)狀與展望
日趨成熟?
基于詞典分詞的機械分詞方法:簡捷,存在領(lǐng)域局限與歧義,局外詞匯識別差。?基于統(tǒng)計分詞的監(jiān)督學(xué)習(xí)算法:轉(zhuǎn)換分詞為序列標(biāo)注,改進(jìn)歧義等問題,CRF和
HMM模型成為統(tǒng)計分詞的主要方法。?近年,神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使分詞準(zhǔn)確度有了極大提高,但在Bi-LSTM+CRF算法應(yīng)用于分詞領(lǐng)域后,準(zhǔn)確度的提升空間逐步變小。61專有名詞
限制新詞網(wǎng)絡(luò)結(jié)構(gòu)
復(fù)雜性?速度分詞標(biāo)準(zhǔn)不統(tǒng)一準(zhǔn)確度?增加領(lǐng)域詞典外部輔助方法(外加
字典、
預(yù)處理……)卷積神經(jīng)網(wǎng)絡(luò)解碼方式技術(shù)平臺及應(yīng)用場景主講人:
4
4.1
技術(shù)平臺
pkuseg.
多領(lǐng)域分詞
高分詞準(zhǔn)確率
支持用戶自訓(xùn)練模型
支持詞性標(biāo)注63
4.1
技術(shù)平臺
pkuseg細(xì)領(lǐng)域分詞
詞性標(biāo)注64自訓(xùn)練模型pku
seg.train(train
file,test
File,save
dir,train_it
er=20,in
it_model=None)
4.1
技術(shù)平臺
65 NLPIR
4.1
技術(shù)平臺
66 NLPIR
4.1
技術(shù)平臺
67I阿里云NLP
4.1
技術(shù)平臺
I阿里云NLP68
4.1
技術(shù)平臺
I阿里云NLP69
4.2
應(yīng)用場景
70I常見應(yīng)用場景714.2
應(yīng)用場景I
翻譯技術(shù)
4.2
應(yīng)用場景
I
語音助手72
4.3
總結(jié)
I
漢語分詞與標(biāo)注.
提高生產(chǎn)力.
技術(shù)成熟
復(fù)雜性73
4.3
總結(jié)
I
未來展望74Demo展示——基于中文分詞對比分析網(wǎng)絡(luò)新聞標(biāo)題主講人:
5
基于中文分詞對比分析網(wǎng)絡(luò)新聞標(biāo)題
I
數(shù)據(jù)集、
分詞工具[{"title":"岸田文雄當(dāng)選自民黨新任總裁
,并將出任第100任日本首相,
中方回應(yīng)
","cate":
"china","date":"2021-09-29
15:32:12","keywords":
"岸田文雄
","brief":"29日,
日本前外務(wù)大臣、
自民黨前政調(diào)會長岸田文雄當(dāng)選自民黨新任總裁。新總裁任期為3年
,至2024年9月。10
月4日
,岸田文雄將在臨時國會上正式出任第100任日本首相
,并組建新內(nèi)閣。
","url":"/2021/09/29/ARTIbOJTjuLH6XxPtOxCcWGi210929.shtml"},...]央視網(wǎng)(國內(nèi)、
國際)1500網(wǎng)易新聞(社會
,
國際)347頭條新聞(熱點)167476/lancopku/pkuseg-python中國在人美國被將國家已例病例新增和不為確診北京美新冠助詞
數(shù)詞
地名
介詞
名詞
地名
介詞
副詞
名詞
副詞
量詞
名詞
動詞
連詞
副詞
動詞
動詞
地名
簡稱
名詞179120114103898883727272726563575757575252510.11930.08000.07600.06870.05930.05870.05530.04800.04800.04800.04800.04330.04200.03800.03800.03800.03800.03470.03470.0340的助詞800.231的助詞8080.483中國地名730.210個量詞2390.143美簡稱410.118是動詞2370.142美國地名360.104不副詞2140.128被介詞310.089了助詞1990.119不副詞290.084有動詞1950.116一數(shù)詞280.081一數(shù)詞1900.114是動詞280.081歲量詞1760.105在介詞250.072被介詞1730.103臺灣地名250.072了語氣詞1690.101了語氣詞240.069后方位詞1580.094回應(yīng)動詞230.066人名詞1530.091有動詞220.063為何代詞1440.086阿富汗地名210.061你代詞1280.076了助詞210.061他代詞1080.065大陸名詞180.052在介詞1080.065人名詞160.046主席名詞1030.062拜登動詞160.046什么代詞990.059名量詞150.043年量詞980.059臺簡稱150.043毛人名930.05677I
分詞結(jié)果統(tǒng)計分析點出關(guān)鍵信息:名詞、
動詞、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026共青團(tuán)陽新縣委招聘公益性崗位人員3人備考題庫(湖北)及答案詳解1套
- 2025廣西柳州市林業(yè)科學(xué)研究所招聘編外聘用人員1人備考題庫有答案詳解
- 2026中仁正和工程設(shè)計集團(tuán)有限公司錫林郭勒盟分公司招聘4人備考題庫(內(nèi)蒙古)及參考答案詳解一套
- 2026廣東茂名市電白區(qū)赴高校招聘急需緊缺人才32人備考題庫(第二次編制)及參考答案詳解1套
- 其他地區(qū)2025年下半年第六師五家渠市面向校園招聘13名事業(yè)單位工作人員筆試歷年參考題庫附帶答案詳解
- 上海上海市衛(wèi)生和健康發(fā)展研究中心(上海市醫(yī)學(xué)科學(xué)技術(shù)情報研究所)工作人員招聘筆試歷年參考題庫附帶答案詳解
- 2026山西晉城市陽城縣縣屬國有企業(yè)招聘51人備考題庫及完整答案詳解1套
- 2025山東青島海建投資有限公司及全資子公司招聘25人備考題庫及參考答案詳解一套
- 2025四川廣安市金證民商事調(diào)解中心招聘1名勞務(wù)派遣電話調(diào)解員崗位備考題庫及答案詳解1套
- 2025重慶安防職業(yè)學(xué)院教師招聘44人備考題庫及完整答案詳解1套
- 電力設(shè)施的綠色設(shè)計與可持續(xù)發(fā)展
- 小型農(nóng)場研學(xué)課課程設(shè)計
- GB/T 3487-2024乘用車輪輞規(guī)格系列
- 第四單元“小說天地”(主題閱讀)-2024-2025學(xué)年六年級語文上冊閱讀理解(統(tǒng)編版)
- 蔣詩萌小品《誰殺死了周日》臺詞完整版
- 中醫(yī)培訓(xùn)課件:《中藥熱奄包技術(shù)》
- 2024年全國初中數(shù)學(xué)聯(lián)合競賽試題參考答案及評分標(biāo)準(zhǔn)
- 七年級上信息科技期末測試卷
- 起重機械的安全圍擋與隔離區(qū)域
- 車輛運用管理工作-認(rèn)識車輛部門組織機構(gòu)(鐵道車輛管理)
- 22S803 圓形鋼筋混凝土蓄水池
評論
0/150
提交評論