版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
回顧漢語分詞的基本標準結構標準語義標準語音標準頻度標準人名、地名、專有名詞的具體切分規(guī)范思考題在自動分詞的過程中,如何確定某個字串是語素、詞還是短語?練習
判斷下列切分是否正確,如果不正確,請加以改正。大/a哥/n李/nr教授/n老/a張/nr景德鎮(zhèn)/ns市/ns華盛頓/ns特區(qū)/n南大街/ns亞馬遜/ns河/n南京大學/nt
山東大學/nt
威海/ns分校/n
教學目標數詞與數量詞組的切分規(guī)范時間詞的切分規(guī)范述補結構的切分規(guī)范語素與非語素字的處理漢語分詞錯誤及人工校對一、數詞與數量詞組的切分規(guī)范①基數、序數、小數、分數、百分數一律不予切分,為一個切分單位,標注為m。例如:
“幾”和“零”屬于基本的系數詞(或位數詞),因此包含“幾”和“零”的基數、序數、小數、分數、百分數也不切分。例如:一百二十三/m,第一/m,123.54/m,三分之二/m,20%/m,千分之三十/m
幾十/m人/n,幾十萬/m元/q,第一百零一/m個/q②約數,前加副詞或后加“來、多、左右”等諸數詞的應予切分。約/d一百/m多/m萬/m,僅/d一百/m個/q,四十/m來/m個/q,二十/m余/m只/q,十幾/m個/q,三十/m左右/m幾十/m人/n,幾十萬/m元/q兩個數詞相連的及“成百”、“上千”等則不予切分。五六/m年/q,七八/m天/q,十七八/m歲/q,成百/m學生/n,上千/m人/n,成千上萬/i的/u群眾/n一、數詞與數量詞組的切分規(guī)范(續(xù))③數量詞組應切分為數詞和量詞。三/m個/q,10/m公斤/q,一/m盒/q花/n但少數數量詞已是詞典的登錄單位,則不再切分。
一個/m,一些/m(“分詞規(guī)范”中也將“一些”作為一個切分單位)④表序關系的“數+名”結構,應予切分。例如:二/m連/n,三/m部/n一、數詞與數量詞組的切分規(guī)范(續(xù))二、時間詞的切分規(guī)范①年月日時分秒,按年、月、日、時、分、秒切分,標注為t。例如:1997年/t3月/t19日/t下午/t2時/t18分/t若數字后無表示時間的“年、月、日、時、分、秒”等的標為數詞m。例如:1998/m中文/n信息/n處理/vn
國際/n會議/n這里應注意時間詞與數量詞的區(qū)分,例如:“78年”指“1978年”時應標注為“78年/t”,當指數量“78年”時應切分標注為“78/m年/q”。再如兩/m個/q月/n,三/m天/q時間/n。同樣當“8日”指一個月當中的第八天時為時間詞,不予切分,標注為“8日/t”。若表示8天時,則要分開,標注為“8/m日/q”。西周/t,秦朝/t,東漢/t,南北朝/t,清代/t“牛年、虎年”等一律不予切分,標注為:牛年/t、虎年/t?!凹孜缒?、庚子、戊戌”等也不予切分,標注為:甲午年/t,甲午/t戰(zhàn)爭/n,庚子/t賠款/n,戊戌/t變法/n②歷史朝代的名稱雖然有專有名詞的性質,仍標注為t。二、時間詞的切分規(guī)范(續(xù))三、特殊代詞+名詞的切分規(guī)范本報/r,每人/r,本社/r,本/r地區(qū)/n,各/r部門/n
單音節(jié)代詞“本”、“每”、“各”、“諸”后接單音節(jié)名詞時,和后接的單音節(jié)名詞合為代詞;當后接雙音節(jié)名詞時,應予切分。四、區(qū)別詞的切分規(guī)范①一般為切分單位,并標以詞性b女/b司機/n,金/b手鐲/n,慢性/b胃炎/n,古/b錢幣/n副/b主任/n,總/b公司/n,②單音節(jié)區(qū)別詞和單音節(jié)名詞或名語素組合,作為一個切分單位,并標以名詞詞性n。雄雞/n,雌象/n,女魔/n,古幣/n③少數“單音節(jié)區(qū)別詞+雙音節(jié)詞”的結構作為一個詞收入了詞典,則不再切分。
總書記/n五、述補結構的切分規(guī)范未收入詞典的雙音節(jié)述補結構,若拆開各是一個詞,通常作為兩個切分單位。如:走/v到/v,撞/v上/v,抓/v住/v,調/v好/a,坐/v穩(wěn)/a若拆開了,其中至少有一個是語素,通常就不切分,作為一個切分單位。如:形成/v,鼓動/v,揭露/v,震動/v雙音節(jié)的述補結構中間插入“得”或“不”一般應予切分。如:走/v得/u到/v,走/v不/d到/v,安/v得/u上/v,安/v不/d上/v但是如果去掉“得”或“不”后,前后兩個字不構成一個詞的,則作為一個分詞單位。如:
來得及/v,來不及/v,對得起/v,對不起/v說得過去/v,說不過去/v有的去掉“得”或“不”后雖然是一個合成詞,但其中至少有一個是語素,拆開了是難以理解的,仍作為一個切分單位。如:如:形得成/v,形不成/v六、四字以上語法單位的切分規(guī)范四個字以上的短語,通常應切分。
貫徹/v執(zhí)行/v,調查/v研究/v
但像“生產資料/n”、“國民經濟/n”、“生產關系/n”等若作為一個詞已收入詞典的就不再切分。
四個字的成語或習慣用語為一個切分單位,并標以詞性i或l。
胸有成竹/i,眾所周知/l
超過四個字的習慣用語或成語,一般不予切分,標注為l或i。
近水樓臺先得月/i,一年之計在于春/l表達一個完整概念或集合的縮略語為一個切分單位,并標以j
三好/j,教科文/j,農工牧副漁業(yè)/j,德意日/j,港澳臺/j同胞/n
在有頓號分開的情況下,則切分:
德/j、/w意/j、/w日/j,港/j、/w澳/j、/w臺/j,
港/j、/w澳/j同胞/n
最后一個簡稱如與后面一個字(語素)可合成一個詞的,則不單獨切分出來。
農/j、/w林/j、/w牧/j、/w副/j、/w漁業(yè)/n六、四字以上語法單位的切分規(guī)范(續(xù))七、語素和非語素字的處理除下列特殊情況外,語素和非語素字一般不作為切分單位。①某些雙音節(jié)離合詞分開使用,其中一個是語素,可將它標注為語素。出/v過/u兩/m天/q差/Ng,理/v了/u一/m次/q發(fā)/Ng,
洗/v了/u一個/m舒舒服服/z的/u澡/Ng.②單字名詞或名詞性語素后接單純方位詞,通常應合成為一個處所詞或時間詞,但為了同“分詞規(guī)范”保持一致,也為了漢外機器翻譯處理的方便,這里采用以下的處理方法:a.“單字名詞+單字方位詞”的組合,切分為兩個單位:飯/n前/f,樹/n上/f,包/n里/f,床/n下/fb.“單字名詞性語素字+單字的方位詞”的結構,合為一個處所詞或時間詞。桌/Ng上/f-->桌上/s,午/Ng后/f-->午后/t,
身/Ng上/f-->身上/s,胸/Ng前/f-->胸前/sc.“省、市、縣、鄉(xiāng)、村、部、局、處、團、營、連、院、系、班”等名詞后“里、上”等方位詞,仍有組織、機構的意義,作為一個切分單位,標為名詞。部里/n,縣里/n,村里/n,系里/n,班上/n七、語素和非語素字的處理(續(xù))③非語素字單獨在文本中時,為一個切分單位,標注為x“/w鵪鶉/n”/w的/u“/w鵪/x”/w字/n怎么/r讀/v?/w從以上的規(guī)范中我們至少可以看出兩點:(1)漢語界定詞的問題確實非常復雜,盡管制定了如此詳細的規(guī)范,但在實際工作中仍然有一些問題解決不了,還要不斷地補充規(guī)范。要解決什么是漢語的“詞”的問題實在不是一件容易的事情,需要下大工夫。(2)正因為漢語的“詞”如此復雜,因此在進行一項大的語言工程時首先必須制定好詳細的規(guī)范,否則很難保證切分的一致性。七、語素和非語素字的處理(續(xù))課堂練習切分并標注下列字串
三十余人五十萬元
60年時間78年出生走不到來得及飯后鄉(xiāng)里
八、漢語分詞錯誤及人工校對
計算機的切分錯誤包括歧義切分、未登錄詞切分。歧義切分分為兩種類型,一種為交集型,一種為組合型。所謂交集型歧義切分就是指如果字段ABC,既可以切分為AB/C,又可以切分為A/BC,所謂組合型(也叫包孕型)歧義切分就是指如果字段ABC,既可以切分為ABC/,又可以切分為A/BC或AB/C,如“烤白薯”,既可以切分為“烤白薯”(名詞),也可以切分為“烤/白薯”(動賓結構),這種字段就是組合(包孕)型歧義切分字段。1、交集型歧義字段的類型例如,在句子“用樹形圖形式加以描述”中,歧義字段“圖形式”是由名詞“圖”與名詞“形式”之間的交叉組合產生的——“圖形”+“形式”。事實上,“圖形”是歧義詞,它是歧義字段“圖形式”在給定句子中錯誤地切分出來的片段,“形式”是非歧義詞,它是歧義字段“圖形式”在給定句子中,按正確的切分方式切分出來的片段。名詞+名詞例如,在句子“研究生命的本質”中,歧義字段“研究生命”是由動詞“研究”與名詞“生命”之間的交叉組合產生的——“研究生”(歧義詞)+“生命”(非歧義詞)。例如,在句子“白天鵝游過來了”中,歧義字段“白天鵝”是由形容詞“白”與名詞“天鵝”之間的交叉組合產生的——“白天”(歧義詞)+“天鵝”(非歧義詞)。1、交集型歧義字段的類型(續(xù))動詞+名詞形容詞+名詞例如,在句子“讓位移等于50厘米”中,歧義字段“讓位移”是由介詞“讓”與名詞“位移”之間的交叉組合產生的——“讓位”(歧義詞)+“位移”(非歧義詞)。例如,在短語“獨立自主和平等互利的原則”中,歧義字段“和平等”是由連詞“和”與名詞“平等”的交叉組合產生的——“和平”(歧義詞)+“平等”(非歧義詞)1、交集型歧義字段的類型(續(xù))介詞+名詞連詞+名詞例如,在短語“對這種現(xiàn)象的確切描述”中,歧義字段“的確切”是由助詞“的”與形容詞“確切”的交叉組合產生的——“的確”(歧義詞)+“確切”(非歧義詞)。例如,在句子“這本小說的情節(jié)太平淡了”中,歧義字段“太平淡”是由副詞“太”與形容詞“平淡”的交叉組合產生的——“太平”(歧義詞)+“平淡”(非歧義詞)。1、交集型歧義字段的類型(續(xù))副詞+形容詞助詞+形容詞例如,在句子“社會需求和生產水平有矛盾”中,歧義字段“需求和”是由名詞“需求”與連詞“和”的交叉組合產生的——“需求”(非歧義詞)+“求和”(歧義詞)。例如,在句子“他們看中的和日本人做生意的機會”中,歧義字段“看中和”是由動詞“看中”與介詞“和”的交叉組合產生的——“看中”(非歧義詞)+“中和”(歧義詞)。1、交集型歧義字段的類型(續(xù))名詞+連詞動詞+介詞2、組合型歧義字段的類型量詞+名詞介詞+名詞例如,在“一陣風吹過來了”中,歧義切分字段“陣風”是由量詞“陣”和名詞“風”的串聯(lián)組合產生的。例如,在“請把手抬高一點兒”中,歧義切分字段“把手”是由介詞“把”和名詞“手”的串聯(lián)組合產生的。動詞+名詞名詞+方位詞例如,在“他喜歡吃烤白薯”中,歧義切分字段“烤白薯”是由動詞“烤”和名詞“白薯”的串聯(lián)組合產生的。例如,在“他騎在馬上”中,歧義切分字段“馬上”是由名詞“馬”和方位詞“上”的串聯(lián)組合產生的。2、組合型歧義字段的類型(續(xù))
方位詞+動詞副詞+動詞例如,在“他在莊稼地里間麥苗”中,歧義切分字段“里間”是由方位詞“里”和動詞“間”的串聯(lián)組合產生的。例如,在“他將來北京探親”中,歧義切分字段“將來”是由副詞“將”和動詞“來”的串聯(lián)組合產生的。2、組合型歧
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合作交友活動策劃方案(3篇)
- 活動成果展示策劃方案(3篇)
- 內鏡-病理標本管理制度(3篇)
- 2026江蘇蘇州銀行私行客戶經理精誠招聘參考考試題庫及答案解析
- 2026河南漯河市中醫(yī)院招聘勞務派遣人員2人考試參考試題及答案解析
- 2026一季度浙商銀行舟山分行社會招聘考試參考試題及答案解析
- 2026重慶數子引力網絡科技有限公司云南河口項目公司招聘11人備考考試題庫及答案解析
- 2026重慶大學城人民小學招聘備考考試題庫及答案解析
- 如何有效進行護理帶教評估
- 2026匯才(福建泉州市)企業(yè)管理有限公司派駐晉江市永和鎮(zhèn)招聘5人筆試備考題庫及答案解析
- 江蘇省南京市2024-2025學年高一上學期1月期末學情調研測試生物試題(解析版)
- 工作簡歷模板
- 2024年廣東省佛山市南海區(qū)道路建設管理處招聘公益一類事業(yè)編制人員3人歷年管理單位遴選500模擬題附帶答案詳解
- 動物輔助療法行業(yè)研究報告
- 模塊化軟件質量保證
- 人教版七年級語文上冊《課內文言文基礎知識 》專項測試卷及答案
- 砌筑工中級理論考核試題題庫及答案
- 【關于構建我國個人破產制度的探討(論文)16000字】
- 加固專業(yè)承包合同
- 國家職業(yè)技術技能標準 5-01-05-01 中藥材種植員 人社廳發(fā)200994號
- 年終食堂工作總結
評論
0/150
提交評論