標(biāo)準(zhǔn)解讀

《GB/T 45949-2025 中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注》是一項(xiàng)國家標(biāo)準(zhǔn),旨在為中文新聞文本提供一套統(tǒng)一的語義結(jié)構(gòu)化標(biāo)注方法。該標(biāo)準(zhǔn)詳細(xì)定義了如何將一篇新聞文章分解成多個(gè)具有明確意義的部分,并對這些部分進(jìn)行標(biāo)簽化處理,以便于計(jì)算機(jī)更好地理解和處理這些信息。

根據(jù)這項(xiàng)標(biāo)準(zhǔn),一個(gè)典型的新聞文本可以被劃分為標(biāo)題、導(dǎo)語、正文等多個(gè)部分。每個(gè)部分又可以根據(jù)其內(nèi)容進(jìn)一步細(xì)分為更小的單元,如人物、地點(diǎn)、時(shí)間等實(shí)體以及事件類型等。通過這樣的細(xì)分和標(biāo)記,不僅能夠幫助提高信息檢索效率,還能支持更高級別的自然語言處理任務(wù),比如自動摘要生成、情感分析等。

此外,《GB/T 45949-2025》還規(guī)定了一系列標(biāo)準(zhǔn)化的標(biāo)簽體系,包括但不限于人名、地名、組織機(jī)構(gòu)名稱、日期時(shí)間表達(dá)式等。對于每種類型的實(shí)體或概念,都有具體而詳細(xì)的規(guī)則來指導(dǎo)如何正確地識別并加以標(biāo)注。這有助于確保不同來源的數(shù)據(jù)在經(jīng)過處理后能夠保持一致性,從而便于跨平臺或跨領(lǐng)域的應(yīng)用集成與數(shù)據(jù)共享。

遵循此標(biāo)準(zhǔn)執(zhí)行的語義標(biāo)注工作需要專業(yè)的知識和技術(shù)支持,同時(shí)也要求標(biāo)注人員具備良好的中文理解能力和相關(guān)領(lǐng)域背景知識。隨著人工智能技術(shù)的發(fā)展,越來越多自動化工具被開發(fā)出來輔助人工完成這一過程,但最終的質(zhì)量控制仍然離不開人的參與。


如需獲取更多詳盡信息,請直接參考下方經(jīng)官方授權(quán)發(fā)布的權(quán)威標(biāo)準(zhǔn)文檔。

....

查看全部

  • 現(xiàn)行
  • 正在執(zhí)行有效
  • 2025-06-30 頒布
  • 2025-06-30 實(shí)施
?正版授權(quán)
GB/T 45949-2025中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注_第1頁
GB/T 45949-2025中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注_第2頁
GB/T 45949-2025中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注_第3頁
GB/T 45949-2025中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注_第4頁
GB/T 45949-2025中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余35頁可下載查看

下載本文檔

GB/T 45949-2025中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注-免費(fèi)下載試讀頁

文檔簡介

ICS3524030

CCSL.60.

中華人民共和國國家標(biāo)準(zhǔn)

GB/T45949—2025

中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注

SpecificationforsemanticstructuringannotationofChinesenews

2025-06-30發(fā)布2025-06-30實(shí)施

國家市場監(jiān)督管理總局發(fā)布

國家標(biāo)準(zhǔn)化管理委員會

GB/T45949—2025

目次

前言

…………………………Ⅲ

引言

…………………………Ⅳ

范圍

1………………………1

規(guī)范性引用文件

2…………………………1

術(shù)語和定義

3………………1

新聞?wù)Z義結(jié)構(gòu)化標(biāo)注概述

4………………2

標(biāo)注流程

4.1……………2

標(biāo)注范式

4.2……………3

預(yù)處理

5……………………4

標(biāo)注對象標(biāo)識符設(shè)置

5.1………………4

新聞稿件元數(shù)據(jù)采集

5.2………………4

關(guān)鍵詞標(biāo)注

6………………5

標(biāo)注內(nèi)容

6.1……………5

標(biāo)注模板

6.2……………5

標(biāo)注方法

6.3……………5

語義模板標(biāo)注

7……………6

標(biāo)注內(nèi)容

7.1……………6

標(biāo)注模板

7.2……………14

標(biāo)注方法

7.3……………15

語義單元標(biāo)注

8……………16

標(biāo)注內(nèi)容

8.1……………16

標(biāo)注模板

8.2……………17

標(biāo)注方法

8.3……………18

附錄資料性應(yīng)用場景舉例

A()…………23

新聞內(nèi)容結(jié)構(gòu)化管理

A.1……………23

生成稿件內(nèi)容知識庫

A.2……………23

建立高質(zhì)量知識圖譜

A.3……………23

低耗高效訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)模型

A.4………………23

附錄資料性新聞?wù)Z義結(jié)構(gòu)化標(biāo)注完整示例

B()………24

原文

B.1…………………24

預(yù)處理

B.2………………24

關(guān)鍵詞標(biāo)注

B.3…………………………26

語義模板標(biāo)注

B.4………………………27

語義單元標(biāo)注

B.5………………………29

參考文獻(xiàn)

……………………32

GB/T45949—2025

前言

本文件按照標(biāo)準(zhǔn)化工作導(dǎo)則第部分標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則的規(guī)定

GB/T1.1—2020《1:》

起草

請注意本文件的某些內(nèi)容可能涉及專利本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別專利的責(zé)任

。。

本文件由全國中文新聞信息標(biāo)準(zhǔn)化技術(shù)委員會提出并歸口

(SAC/TC352)。

本文件起草單位文靈科技北京有限公司北京語言大學(xué)東南大學(xué)新華通訊社中國互聯(lián)網(wǎng)新

:()、、、、

聞中心中國信息通信研究院浙江日報(bào)報(bào)業(yè)集團(tuán)保定市數(shù)據(jù)局國家數(shù)據(jù)標(biāo)注基地

、、、()。

本文件主要起草人王楠饒高崎楊鵬丁德勝王熠付蓉王貴榮王建平黃菁李蓀賈成喜

:、、、、、、、、、、、

張闖李冰楊冬梅周天外宋永生

、、、、。

GB/T45949—2025

引言

隨著人工智能技術(shù)在新聞?lì)I(lǐng)域的廣泛應(yīng)用建立規(guī)范化的中文新聞數(shù)據(jù)加工標(biāo)準(zhǔn)已成為行業(yè)發(fā)展

,

的重要基礎(chǔ)本文件的制定旨在構(gòu)建統(tǒng)一的中文新聞?wù)Z義標(biāo)注體系通過標(biāo)準(zhǔn)化的數(shù)據(jù)加工流程實(shí)現(xiàn)

。,,

以下兩大目標(biāo)一是為新聞知識庫與知識圖譜的體系化建設(shè)提供支撐二是提升人工神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練

:;

的數(shù)據(jù)質(zhì)量與效率推動新聞行業(yè)的智能化轉(zhuǎn)型

,。

GB/T45949—2025

中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注

1范圍

本文件規(guī)定了中文新聞?wù)Z義結(jié)構(gòu)化標(biāo)注的預(yù)處理關(guān)鍵詞標(biāo)注語義模板標(biāo)注和語義單元標(biāo)注的

、、

方法

本文件適用于新聞內(nèi)容提供商媒體應(yīng)用與研究機(jī)構(gòu)對新聞稿件的人工標(biāo)注也能用于機(jī)器自動化

、,

標(biāo)注

。

本文件不適用于跨稿件的語義結(jié)構(gòu)化標(biāo)注

。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款其中注日期的引用文

。,

件僅該日期對應(yīng)的版本適用于本文件不注日期的引用文件其最新版本包括所有的修改單適用于

,;,()

本文件

。

中文新聞信息內(nèi)容第部分新聞元數(shù)據(jù)

GB/T20092.2—20222:

中文新聞信息分類與代碼

GB/T20093—2022

3術(shù)語和定義

下列術(shù)語和定義適用于本文件

。

31

.

關(guān)鍵詞keyword

代表新聞稿件中特定語義的詞匯

。

注特定語義指標(biāo)注者認(rèn)為重要的新聞稿件內(nèi)容涵蓋稿件主題重要人物重要事件及重要常識等

:“”,、、。

32

.

語義單元semanticunit

新聞稿件中表達(dá)完整語義的基本單元

。

注語義單元主要分為實(shí)體事物事件等類型

溫馨提示

  • 1. 本站所提供的標(biāo)準(zhǔn)文本僅供個(gè)人學(xué)習(xí)、研究之用,未經(jīng)授權(quán),嚴(yán)禁復(fù)制、發(fā)行、匯編、翻譯或網(wǎng)絡(luò)傳播等,侵權(quán)必究。
  • 2. 本站所提供的標(biāo)準(zhǔn)均為PDF格式電子版文本(可閱讀打?。驍?shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務(wù)。
  • 3. 標(biāo)準(zhǔn)文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質(zhì)量問題。

評論

0/150

提交評論