信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范-編制說明_第1頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范-編制說明_第2頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范-編制說明_第3頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范-編制說明_第4頁
信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范-編制說明_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)

編制說明

一、工作簡況,包括任務(wù)來源、制定背景、起草過程等

(一)任務(wù)來源與修訂背景

詞類是詞的語法分類,主要是根據(jù)語法功能劃分出來的類。詞類標(biāo)注是給詞

語標(biāo)記類別、實現(xiàn)各如其類的過程,也是中文信息處理與語言資源建設(shè)、辭書編

撰、語言教學(xué)、數(shù)字出版等工作中的一個基礎(chǔ)性任務(wù)。上世紀(jì)九十年代,我國在

語料庫建設(shè)及標(biāo)注加工方面取得了不少研究成果,但由于各個系統(tǒng)的標(biāo)注集和標(biāo)

記代碼不統(tǒng)一,給信息交換和數(shù)據(jù)共享帶來了困難,迫切需要面向語言文字信息

處理研制通用的規(guī)范標(biāo)準(zhǔn),引導(dǎo)漢語語料庫和信息處理系統(tǒng)詞類標(biāo)記的規(guī)范化,

促進(jìn)語言資源建設(shè)與應(yīng)用?!缎畔⑻幚碛矛F(xiàn)代漢語詞類標(biāo)記規(guī)范》(以下簡稱“詞

類標(biāo)記規(guī)范”)應(yīng)運而生,其研制目的是面向信息處理領(lǐng)域提供一套統(tǒng)一的現(xiàn)代

漢語詞類標(biāo)記代碼體系,供中文信息處理與語言資源建設(shè)參照使用,也可供辭書

編撰、漢語教學(xué)等領(lǐng)域參考。

這一規(guī)范由教育部、國家語委組織立項,教育部語言文字應(yīng)用研究所承擔(dān)。

規(guī)范研制完成后,經(jīng)國家國家標(biāo)準(zhǔn)化管理部門審定,于2006年9月以推薦性國家

標(biāo)準(zhǔn)的形式發(fā)布,標(biāo)準(zhǔn)號為GB/T20532-2006,自2007年3月開始實施。

詞類標(biāo)記規(guī)范的研制與發(fā)布順應(yīng)了語言資源建設(shè)和信息處理研究迅速發(fā)展

的潮流,成為漢語語料庫標(biāo)注的重要參考標(biāo)準(zhǔn),受到學(xué)術(shù)界、產(chǎn)業(yè)界的歡迎。但

近年來,隨著現(xiàn)代漢語詞類研究的深入,大規(guī)模語言資源建設(shè)的發(fā)展及中文信息

處理技術(shù)的飛速進(jìn)步,原規(guī)范也需要與時俱進(jìn),適當(dāng)加以修訂,以適應(yīng)相關(guān)領(lǐng)域

的實際需要。

2017年10月,由北京師范大學(xué)以及教育部語言文字應(yīng)用研究所聯(lián)合組成的課

題團(tuán)隊承擔(dān)了國家語委十三五科研規(guī)劃重點項目“《信息處理用現(xiàn)代漢語詞類規(guī)

范》(ZDI135-42)修訂”。至2020年9月,課題組完成了《信息處理用現(xiàn)代漢語

詞類標(biāo)記規(guī)范》(修訂稿)。2024年5月14日,國家標(biāo)準(zhǔn)化管理委員會下達(dá)“《信

息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》國家標(biāo)準(zhǔn)修訂”計劃,計劃號為20232736-T-360。

1

詞類標(biāo)記規(guī)范提出了信息處理中現(xiàn)代漢語的詞類體系、詞類分類及標(biāo)記代碼,

在促進(jìn)中文信息處理系統(tǒng)的規(guī)范化,促進(jìn)語言資源的信息交換與共享方面起到了

重要推動作用,但由于自然語言處理技術(shù)發(fā)展、漢詞詞類問題研究深化以及實踐

需要等原因,仍存在一些需要完善之處,例如:

(1)原規(guī)范標(biāo)記體系的系統(tǒng)自洽性有待提升。原規(guī)范面向信息處理、語言

資源建設(shè),規(guī)定了詞類標(biāo)記以及其他切分單位標(biāo)記兩套標(biāo)記體系,二者需要更好

地融合,以增強(qiáng)規(guī)范系統(tǒng)的內(nèi)在一致性。

(2)原規(guī)范研制工作對詞類標(biāo)注中最為復(fù)雜的詞類兼類、詞類活用問題基

本沒有討論和界定,這樣處理雖然暫時避免了爭議,但應(yīng)用于語料庫建設(shè)時,使

用者需要再次制定相應(yīng)的規(guī)范,因此,修訂工作應(yīng)進(jìn)一步明確對兼類等問題的處

理意見。

(3)漢語詞類問題研究的新進(jìn)展為規(guī)范修訂提供了有利條件。原規(guī)范對不

同的詞類體系兼容不足,比如規(guī)定方位詞、時間詞屬于名詞,是名詞下的小類而

不是自成一類,修訂工作應(yīng)吸收最新的研究成果,以更好地適應(yīng)語言實際應(yīng)用中

的需求。

(4)原規(guī)范缺少配套的操作細(xì)則及示范性語料庫,一定程度上限制了語言

信息處理技術(shù)或產(chǎn)品開發(fā)中對規(guī)范標(biāo)準(zhǔn)的高效應(yīng)用,影響了規(guī)范的有效推廣。

原規(guī)范自實施以來,國內(nèi)外的漢語語言資源建設(shè)等工作雖不同程度上參考了

國標(biāo),但自行制定的標(biāo)注規(guī)范各具特色,不同規(guī)范之間存在較大差異,資源共享

與整合問題尤為突出,并引發(fā)了某些新的信息孤島甚至數(shù)據(jù)混亂現(xiàn)象。隨著理論

研究的深入,中文信息處理技術(shù)的迅速發(fā)展,以及國家對語言安全和語言文字規(guī)

范標(biāo)準(zhǔn)建設(shè)的日益重視,詞類標(biāo)記規(guī)范修訂已成為必要之舉。修訂工作應(yīng)吸納最

新的研究成果,提升其適用性,以更好地支持中文信息處理與語言資源建設(shè)、詞

典編撰、語言教學(xué)等相關(guān)領(lǐng)域的創(chuàng)新應(yīng)用,進(jìn)而增強(qiáng)規(guī)范的生命力。

(二)修訂過程

課題組通過廣泛的文獻(xiàn)調(diào)研、多次組織專家咨詢,開展了較為深入的專題研

究,提出了“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》修訂方案”,在修訂方案確

定的重點研究內(nèi)容基礎(chǔ)上,開展了多種形式、多個輪次專家意見咨詢以及專題討

論會,積極采納專家意見,逐個分析處理,初步建設(shè)示范性語料庫,并在此過程

中調(diào)整和修訂相關(guān)內(nèi)容,反復(fù)征求專家意見建議,形成了《信息處理用現(xiàn)代漢語

2

詞類標(biāo)記規(guī)范》(修訂稿),進(jìn)一步,本著積極和審慎的原則,完成了示范性語

料庫建設(shè)。

(1)專題研究

課題組廣泛調(diào)研了漢語語法研究、詞典編纂、語言信息處理領(lǐng)域在詞類劃分

、詞性標(biāo)注及其規(guī)范問題上的新進(jìn)展;調(diào)研了常用漢語語料庫、語言信息處理系

統(tǒng)中對詞類劃分和標(biāo)記所作的規(guī)定,包括國家語委現(xiàn)代漢語語料庫、北京大學(xué)漢

語語料庫及語言知識庫、中國科學(xué)院計算技術(shù)研究所漢語詞法分析系統(tǒng)等代表性

資源;調(diào)研了最新版《現(xiàn)代漢語詞典》《現(xiàn)代漢語規(guī)范詞典》等語文工具書中的

詞語分類及詞類標(biāo)記。課題組以規(guī)范頒布實施以來的新成果、新發(fā)展為重點,銜

接《信息處理用點漢語分詞規(guī)范》《漢語拼音正詞法基本規(guī)則》等相關(guān)規(guī)范,比

較全面地把握語文工具書、語言文字規(guī)范標(biāo)準(zhǔn)以及語言信息處理、語料庫、語言

知識庫等系統(tǒng)采用的詞類體系和標(biāo)記差異。同時,對港澳臺地區(qū)和國外知名漢語

語料庫詞類劃分和標(biāo)注方案也進(jìn)行對比分析,以提高規(guī)范修訂的適用性。

課題組分七個專題小組開展研究,組織項目工作會議26次。開展的專題研究

主要包括:

1)漢語詞類劃分標(biāo)準(zhǔn)問題及前沿研究

2)理論語言學(xué)漢語詞類研究的新進(jìn)展

3)語言信息處理視角下的詞類知識研究

4)兼類、活用問題研究及標(biāo)記設(shè)置

5)縮略語、習(xí)用語專題研究及標(biāo)記設(shè)置

6)名詞粒度及語料庫標(biāo)注專題研究

7)常用語料庫及語言信息處理系統(tǒng)詞類標(biāo)記集比較研究

在專題研究基礎(chǔ)上,課題組系統(tǒng)梳理規(guī)范修訂的重點難點問題,確定規(guī)范具

體修訂內(nèi)容及方向,論證了詞類劃分調(diào)整及標(biāo)記代碼修訂的理據(jù)。

(2)專家咨詢研討

課題組先后共召開了5次專家研討會,就規(guī)范修訂的宏觀框架和微觀細(xì)類兩

方面的問題與專家交流,咨詢專家意見。

根據(jù)規(guī)范修訂工作的特點,主要以語言學(xué)家、詞典學(xué)家、中文信息處理領(lǐng)域

專家、語言教學(xué)領(lǐng)域?qū)<覟樽稍儗ο?,通過線下研討會、線上會議、電子郵件等

多種方式,先后向教育部語言文字應(yīng)用研究所、北京大學(xué)中文系、北京大學(xué)計算

3

語言學(xué)研究所、北京師范大學(xué)人工智能學(xué)院、北京師范大學(xué)文學(xué)院、北京語言大

學(xué)語言資源高精尖創(chuàng)新中心、中國社會科學(xué)院語言所、武漢大學(xué)文學(xué)院、中央民

族大學(xué)、語文出版社、北京教育學(xué)院以及加州大學(xué)洛杉磯分校東亞語言文化系等

單位的專家進(jìn)行咨詢,并組織研討。

(3)詞類標(biāo)記規(guī)范(修訂稿)專家意見統(tǒng)計與處理

課題組就“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》修訂征求意見稿”面向全

國語言學(xué)和語言信息處理專家廣泛征集意見,共征詢了19位專家的意見,送出征

求意見稿19份,收回19份?;厥章?00%。其中共有16位專家對征求意見稿中的

20個條目進(jìn)行投票,贊同票占全部投票總數(shù)的87.19%。

專家反饋意見主要總結(jié)為:(1)堅持原規(guī)范的詞類劃分基本框架體系;(2

)沿用原規(guī)范詞類標(biāo)記代碼規(guī)定;(3)認(rèn)可修訂稿在原規(guī)范詞類劃分及標(biāo)記體

系基礎(chǔ)上所作的系列謹(jǐn)慎微調(diào);(4)認(rèn)可“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)

范》修訂征求意見稿”詞類標(biāo)記的組合原則及組合方式,同意修訂稿為提升詞類

劃分及標(biāo)記代碼系統(tǒng)的自洽性以及內(nèi)部一致性所作的處理。

對專家所提出的各類意見、建議,課題組高度重視、專門討論,充分吸收。

(4)標(biāo)注實驗與示范性語料庫建設(shè)

第一階段,課題組基于原規(guī)范,利用北京師范大學(xué)中文信息處理研究所自建

的教材庫語料、國家語委平衡語料庫語料進(jìn)行標(biāo)注實驗,系統(tǒng)匯總、梳理原規(guī)范

在可操作性等方面的主要問題,為專題研究提供基礎(chǔ)數(shù)據(jù)。

第二階段,在規(guī)范修訂方案及初步的修訂稿確立以后,組織中國語言文學(xué)專

業(yè)學(xué)生近20人,就修訂的重點內(nèi)容,開展示范性語料庫初步建設(shè)工作,獲得數(shù)據(jù)

26000余條。發(fā)現(xiàn)并匯總標(biāo)注中的難點問題,包括習(xí)用語、縮略語、語素字、詞

語兼類標(biāo)注等,為示范性語料庫標(biāo)注規(guī)范研制打好基礎(chǔ)。

第三階段,從國家語委現(xiàn)代漢語通用平衡語料庫中精選語料,綜合平衡散文

、敘事文、新聞、政論文、公文等各類語體,規(guī)模達(dá)100萬字,遵照《信息處理

用現(xiàn)代漢語詞類規(guī)范》(修訂稿),組織語言學(xué)及應(yīng)用語言學(xué)專業(yè)研究生10人,

對100萬字語料進(jìn)行精標(biāo)注,基本完成示范性語料庫建設(shè)。

(5)研制完成詞類標(biāo)記規(guī)范(修訂稿)

4

在對專家意見進(jìn)行匯總、分析、討論、吸收基礎(chǔ)上,課題組經(jīng)過近十輪修改

,撰寫了專家意見匯總處理情況、專題研究報告等相關(guān)材料,研制完成《信息處

理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)。

(6)詞類標(biāo)記規(guī)范修訂后期審核研討會

2024年5月,國家標(biāo)準(zhǔn)化管理委員會發(fā)布了“《信息處理用現(xiàn)代漢語詞類標(biāo)

記規(guī)范》國家標(biāo)準(zhǔn)修訂”計劃。針對《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修

訂稿)的進(jìn)一步審核與優(yōu)化,課題組邀請來自北京語言大學(xué)、教育部語言文字應(yīng)

用研究所、中央民族大學(xué)、人民教育出版社和北京師范大學(xué)等機(jī)構(gòu)的漢語言文字

專家、中文信息處理專家以及詞典學(xué)專家參與研討會。與會專家充分肯定了修訂

稿在詞類規(guī)范基礎(chǔ)上所做的改進(jìn),認(rèn)可其在自洽性和一致性方面的提升。同時,

專家們提出了關(guān)于示例替換、優(yōu)化規(guī)范引用文件表述、調(diào)整個別術(shù)語以及增加標(biāo)

記代碼組合應(yīng)用說明性文檔等方面的具體建議。課題組根據(jù)專家意見,已完成后

期修訂,以確保該規(guī)范的科學(xué)性和實用性。

(7)示范性語料庫后期加工

2024年6月,基于“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)”,

課題組組織中文信息處理專業(yè)方向研究生10人,對示范性語料庫進(jìn)行后期加工和

審核,包括完善標(biāo)注規(guī)范,開展標(biāo)注一致性檢驗等,完成示范性語料庫后期加工

工作。

二、國家標(biāo)準(zhǔn)編制原則、主要內(nèi)容及其確定依據(jù),修訂國家標(biāo)準(zhǔn)時,還包括修

訂前后技術(shù)內(nèi)容的對比

(一)編制原則

詞類標(biāo)記規(guī)范修訂沿用原規(guī)范的詞類劃分基本框架體系與標(biāo)記代碼規(guī)定,采

用積極穩(wěn)妥、吸收包容、謹(jǐn)慎微調(diào)的原則,反映詞類研究的新成果,體現(xiàn)語言資

源建設(shè)的新實踐,滿足中文信息處理研究的新需要,慎重處理詞類體系、詞類劃

分、標(biāo)記代碼三者關(guān)系,通過淡化詞類層級框架,采用詞類標(biāo)記組合應(yīng)用模式,

將詞與非詞切分單位的標(biāo)記體系更好地融合起來,為非詞切分單位的語法功能標(biāo)

注提供了更科學(xué)合理的方案。

(二)編制依據(jù)

《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)按照GB/T1.1—2020《標(biāo)

準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草,符合《國

5

家通用語言文字法》、《國務(wù)院辦公廳關(guān)于全面加強(qiáng)新時代語言文字工作的意見》

等有關(guān)法律法規(guī)及政策要求。

(三)修訂工作主要內(nèi)容

“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》修訂”主要工作內(nèi)容如表1所示。

表1:主要內(nèi)容一覽表

序號標(biāo)題主要內(nèi)容

明確“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)”

1范圍

的主要內(nèi)容與適用范圍

明確“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)”

2規(guī)范性引用文件

所引用的國家標(biāo)準(zhǔn)

3術(shù)語和定義中文信息處理、詞類體系、詞類劃分、標(biāo)記代碼

專題研究、專家咨詢、意見匯總分析、完成詞類標(biāo)記規(guī)范修

4工作事項

訂、建設(shè)示范性語料庫

從中期檢查組織工作、中期檢查內(nèi)容和程序、中期檢查結(jié)果

5中期檢查

方面,給出中期檢查的要求

從驗收組織工作、驗收內(nèi)容和程序、驗收結(jié)果方面,給出驗

6驗收

收的要求

研制完成“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)”,

7成果

建設(shè)完成示范性語料庫

(四)修訂前后技術(shù)內(nèi)容的對比

“《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)”代替GB/T20532—2006

《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》,與GB/T20532—2006標(biāo)準(zhǔn)相比,除結(jié)構(gòu)

和編輯性改動外,主要技術(shù)變化如下:

術(shù)語與定義修訂內(nèi)容

(1)“漢語信息處理”修改為“中文信息處理”;

(2)修改了“漢語信息處理”的定義;

名詞類修訂內(nèi)容

(3)名詞類增加了“規(guī)范性引用文件”;

(4)名詞小類方位名詞修改為方位詞,作為基本詞類,標(biāo)記為l;

(5)名詞小類時間名詞修改為時間詞,作為基本詞類,標(biāo)記為t;

(6)名詞小類的人名標(biāo)記增加了姓和名的單獨標(biāo)記,分別標(biāo)記為nhf和nhs;

6

(7)名詞小類的機(jī)構(gòu)名的示例增加;

(8)名詞小類的其他專有名詞的示例增加;

(9)刪除了名詞性習(xí)用語、動詞性習(xí)用語、形容詞性習(xí)用語、連詞性習(xí)用語

等4個習(xí)用語小類,采用組合方式進(jìn)行標(biāo)記;

(10)刪除了名詞性縮略語、動詞性縮略語、形容詞性縮略語等3個縮略語小類,

采用組合方式標(biāo)記;

(11)刪除了名詞性語素字、動詞性語素字、形容詞性語素字等3個語素字小類,

采用組合方式標(biāo)記;

(12)刪除了族名這一名詞小類;

動詞類修訂內(nèi)容

(13)動詞類增加了形式動詞作為動詞小類,標(biāo)記為vf;

(14)動詞類增加了心理動詞作為動詞小類,標(biāo)記為vs;

數(shù)詞類修訂內(nèi)容

(15)數(shù)詞類增加了基數(shù)詞作為數(shù)詞小類,標(biāo)記為mc;

(16)數(shù)詞類增加了序數(shù)詞作為數(shù)詞小類,標(biāo)記為mo;

代詞類修訂內(nèi)容

(17)代詞類增加了人稱代詞作為代詞小類,標(biāo)記為rp;

(18)代詞類增加了指示代詞作為代詞小類,標(biāo)記為rd;

(19)代詞類增加了疑問代詞作為代詞小類,標(biāo)記為ri;

新增基本詞類

(20)增加了語氣詞作為基本詞類,標(biāo)記為y;

標(biāo)記代碼的組合方式修訂內(nèi)容

(21)標(biāo)記代碼的組合部分增加了“標(biāo)記代碼的組合原則”;

(22)標(biāo)記代碼的組合部分增加了“標(biāo)記代碼的組合應(yīng)用”;

(23)擴(kuò)展了非漢字字符串的語法功能標(biāo)注,采用組合方式進(jìn)行標(biāo)記;

其他修訂內(nèi)容

(24)修改“PartsofSpeech”為“PartofSpeech”;

(25)修改“其他”為“其他符號”;

(26)修改“詞類(標(biāo)記代碼)”的格式為“詞類,標(biāo)記為代碼”。

三、預(yù)期的生態(tài)效益、經(jīng)濟(jì)效益和社會效益

7

第一,《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)能夠更科學(xué)、全

面、準(zhǔn)確地實現(xiàn)漢語詞類標(biāo)注,有助于推動原規(guī)范在新時期的廣泛應(yīng)用。詞類

標(biāo)記規(guī)范修訂審慎處理了詞類體系、詞類劃分與標(biāo)記代碼三者之間的關(guān)系,通

過淡化詞類層級框架,采用詞類標(biāo)記組合應(yīng)用模式,有效融合了詞與非詞切分

單位的標(biāo)記體系,為非詞切分單位的語法功能標(biāo)注提供了更加科學(xué)合理的方案。

研制了示范性語料庫,進(jìn)一步增強(qiáng)了原規(guī)范的實用性和可操作性,提升了原規(guī)

范的科學(xué)性和自洽性。

第二,《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)預(yù)期為中文信息

處理、語料庫標(biāo)注、詞典編撰與語言教學(xué)研究等工作提供更為準(zhǔn)確、一致性好

且兼容性更強(qiáng)的詞類劃分和標(biāo)記標(biāo)準(zhǔn),從而提高相關(guān)應(yīng)用的效率與準(zhǔn)確率,有

助于促進(jìn)數(shù)據(jù)共享與協(xié)同創(chuàng)新。

四、與國際、國外同類標(biāo)準(zhǔn)技術(shù)內(nèi)容的對比情況,或者與測試的國外樣品、樣

機(jī)的有關(guān)數(shù)據(jù)對比情況

無。

五、以國際標(biāo)準(zhǔn)為基礎(chǔ)的起草情況,以及是否合規(guī)引用或者采用國際國外標(biāo)準(zhǔn),

并說明未采用國際標(biāo)準(zhǔn)的原因

無。

六、與有關(guān)法律、行政法規(guī)及相關(guān)標(biāo)準(zhǔn)的關(guān)系

本標(biāo)準(zhǔn)與《憲法》、《國家通用語言文字法》等法律協(xié)調(diào)一致,無沖突、無

矛盾。

七、重大分歧意見的處理經(jīng)過和依據(jù)

無。

八、涉及專利的有關(guān)說明

無。

九、實施國家標(biāo)準(zhǔn)的要求,以及組織措施、技術(shù)措施、過渡期和實施日期的建

議等措施建議

本標(biāo)準(zhǔn)修訂了信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范,為中文信息處理領(lǐng)域、現(xiàn)

代漢語教學(xué)與研究的專業(yè)人員和社會各界人士提供指南和參照。建議由標(biāo)準(zhǔn)歸口

單位組織標(biāo)準(zhǔn)宣貫培訓(xùn)班,設(shè)立專門的答疑或咨詢部門。

8

建議本標(biāo)準(zhǔn)為推薦性國家標(biāo)準(zhǔn)。

建議發(fā)布后六個月實施。

十、其他應(yīng)當(dāng)說明的事項

《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范(修訂稿)》課題組

2024年8月28日

9

《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》(修訂稿)

編制說明

一、工作簡況,包括任務(wù)來源、制定背景、起草過程等

(一)任務(wù)來源與修訂背景

詞類是詞的語法分類,主要是根據(jù)語法功能劃分出來的類。詞類標(biāo)注是給詞

語標(biāo)記類別、實現(xiàn)各如其類的過程,也是中文信息處理與語言資源建設(shè)、辭書編

撰、語言教學(xué)、數(shù)字出版等工作中的一個基礎(chǔ)性任務(wù)。上世紀(jì)九十年代,我國在

語料庫建設(shè)及標(biāo)注加工方面取得了不少研究成果,但由于各個系統(tǒng)的標(biāo)注集和標(biāo)

記代碼不統(tǒng)一,給信息交換和數(shù)據(jù)共享帶來了困難,迫切需要面向語言文字信息

處理研制通用的規(guī)范標(biāo)準(zhǔn),引導(dǎo)漢語語料庫和信息處理系統(tǒng)詞類標(biāo)記的規(guī)范化,

促進(jìn)語言資源建設(shè)與應(yīng)用?!缎畔⑻幚碛矛F(xiàn)代漢語詞類標(biāo)記規(guī)范》(以下簡稱“詞

類標(biāo)記規(guī)范”)應(yīng)運而生,其研制目的是面向信息處理領(lǐng)域提供一套統(tǒng)一的現(xiàn)代

漢語詞類標(biāo)記代碼體系,供中文信息處理與語言資源建設(shè)參照使用,也可供辭書

編撰、漢語教學(xué)等領(lǐng)域參考。

這一規(guī)范由教育部、國家語委組織立項,教育部語言文字應(yīng)用研究所承擔(dān)。

規(guī)范研制完成后,經(jīng)國家國家標(biāo)準(zhǔn)化管理部門審定,于2006年9月以推薦性國家

標(biāo)準(zhǔn)的形式發(fā)布,標(biāo)準(zhǔn)號為GB/T20532-2006,自2007年3月開始實施。

詞類標(biāo)記規(guī)范的研制與發(fā)布順應(yīng)了語言資源建設(shè)和信息處理研究迅速發(fā)展

的潮流,成為漢語語料庫標(biāo)注的重要參考標(biāo)準(zhǔn),受到學(xué)術(shù)界、產(chǎn)業(yè)界的歡迎。但

近年來,隨著現(xiàn)代漢語詞類研究的深入,大規(guī)模語言資源建設(shè)的發(fā)展及中文信息

處理技術(shù)的飛速進(jìn)步,原規(guī)范也需要與時俱進(jìn),適當(dāng)加以修訂,以適應(yīng)相關(guān)領(lǐng)域

的實際需要。

2017年10月,由北京師范大學(xué)以及教育部語言文字應(yīng)用研究所聯(lián)合組成的課

題團(tuán)隊承擔(dān)了國家語委十三五科研規(guī)劃重點項目“《信息處理用現(xiàn)代漢語詞類規(guī)

范》(ZDI135-42)修訂”。至2020年9月,課題組完成了《信息處理用現(xiàn)代漢語

詞類標(biāo)記規(guī)范》(修訂稿)。2024年5月14日,國家標(biāo)準(zhǔn)化管理委員會下達(dá)“《信

息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》國家標(biāo)準(zhǔn)修訂”計劃,計劃號為20232736-T-360。

1

詞類標(biāo)記規(guī)范提出了信息處理中現(xiàn)代漢語的詞類體系、詞類分類及標(biāo)記代碼,

在促進(jìn)中文信息處理系統(tǒng)的規(guī)范化,促進(jìn)語言資源的信息交換與共享方面起到了

重要推動作用,但由于自然語言處理技術(shù)發(fā)展、漢詞詞類問題研究深化以及實踐

需要等原因,仍存在一些需要完善之處,例如:

(1)原規(guī)范標(biāo)記體系的系統(tǒng)自洽性有待提升。原規(guī)范面向信息處理、語言

資源建設(shè),規(guī)定了詞類標(biāo)記以及其他切分單位標(biāo)記兩套標(biāo)記體系,二者需要更好

地融合,以增強(qiáng)規(guī)范系統(tǒng)的內(nèi)在一致性。

(2)原規(guī)范研制工作對詞類標(biāo)注中最為復(fù)雜的詞類兼類、詞類活用問題基

本沒有討論和界定,這樣處理雖然暫時避免了爭議,但應(yīng)用于語料庫建設(shè)時,使

用者需要再次制定相應(yīng)的規(guī)范,因此,修訂工作應(yīng)進(jìn)一步明確對兼類等問題的處

理意見。

(3)漢語詞類問題研究的新進(jìn)展為規(guī)范修訂提供了有利條件。原規(guī)范對不

同的詞類體系兼容不足,比如規(guī)定方位詞、時間詞屬于名詞,是名詞下的小類而

不是自成一類,修訂工作應(yīng)吸收最新的研究成果,以更好地適應(yīng)語言實際應(yīng)用中

的需求。

(4)原規(guī)范缺少配套的操作細(xì)則及示范性語料庫,一定程度上限制了語言

信息處理技術(shù)或產(chǎn)品開發(fā)中對規(guī)范標(biāo)準(zhǔn)的高效應(yīng)用,影響了規(guī)范的有效推廣。

原規(guī)范自實施以來,國內(nèi)外的漢語語言資源建設(shè)等工作雖不同程度上參考了

國標(biāo),但自行制定的標(biāo)注規(guī)范各具特色,不同規(guī)范之間存在較大差異,資源共享

與整合問題尤為突出,并引發(fā)了某些新的信息孤島甚至數(shù)據(jù)混亂現(xiàn)象。隨著理論

研究的深入,中文信息處理技術(shù)的迅速發(fā)展,以及國家對語言安全和語言文字規(guī)

范標(biāo)準(zhǔn)建設(shè)的日益重視,詞類標(biāo)記規(guī)范修訂已成為必要之舉。修訂工作應(yīng)吸納最

新的研究成果,提升其適用性,以更好地支持中文信息處理與語言資源建設(shè)、詞

典編撰、語言教學(xué)等相關(guān)領(lǐng)域的創(chuàng)新應(yīng)用,進(jìn)而增強(qiáng)規(guī)范的生命力。

(二)修訂過程

課題組通過廣泛的文獻(xiàn)調(diào)研、多次組織專家咨詢,開展了較為深

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論