T-CES 157-2022 電力智能交互命名實(shí)體標(biāo)注規(guī)范_第1頁(yè)
T-CES 157-2022 電力智能交互命名實(shí)體標(biāo)注規(guī)范_第2頁(yè)
T-CES 157-2022 電力智能交互命名實(shí)體標(biāo)注規(guī)范_第3頁(yè)
T-CES 157-2022 電力智能交互命名實(shí)體標(biāo)注規(guī)范_第4頁(yè)
T-CES 157-2022 電力智能交互命名實(shí)體標(biāo)注規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS35.240.99CCSL60團(tuán)體標(biāo)準(zhǔn)T/CES157—2022電力智能交互命名實(shí)體標(biāo)注規(guī)范Powerintelligentinteractivenamedentityannotationspecification2022-12-19發(fā)布2022-12-21實(shí)施中國(guó)電工技術(shù)學(xué)會(huì)發(fā)布IT/CES157—2022前言 Ⅱ 12規(guī)范性引用文件 13術(shù)語(yǔ)和定義 14縮略語(yǔ) 1 26樣本基本要求 26.1文本文件存儲(chǔ)格式要求 26.2文本文件命名要求 26.3文本類樣本質(zhì)量要求 26.4文本樣本描述文件 27樣本標(biāo)注要求 27.1基本要求 27.2單類詞詞性標(biāo)注要求 37.3多類詞詞性標(biāo)注要求 37.4實(shí)體抽取樣本標(biāo)注要求 37.5實(shí)體關(guān)系抽取樣本標(biāo)注要求 37.6事件抽取樣本標(biāo)注要求 37.7標(biāo)注文件命名與存儲(chǔ)要求 38樣本標(biāo)注流程 38.1總體要求 38.2樣本檢查 38.3安全管控 48.4標(biāo)注工具 48.5樣本標(biāo)注結(jié)果收集 48.6樣本標(biāo)注結(jié)果檢查 49標(biāo)注任務(wù) 49.1基本要求 49.2人名標(biāo)注規(guī)范 59.3職名標(biāo)注規(guī)范 59.4地名標(biāo)注規(guī)范 59.5組織機(jī)構(gòu)名標(biāo)注規(guī)范 69.6產(chǎn)品名標(biāo)注規(guī)范 79.7品牌標(biāo)注規(guī)范 79.8事件標(biāo)注規(guī)范 89.9時(shí)間結(jié)構(gòu)標(biāo)注規(guī)范 89.10數(shù)量結(jié)構(gòu)標(biāo)注規(guī)范 99.11數(shù)碼標(biāo)注規(guī)范 9附錄A(資料性附錄)分類表 T/CES157—2022本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由四川中電啟明星信息技術(shù)有限公司提出。本文件由中國(guó)電工技術(shù)學(xué)會(huì)標(biāo)準(zhǔn)工作委員會(huì)能源智慧化工作組歸口。本文件起草單位:國(guó)網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司、四川中電啟明星信息技術(shù)有限公司、國(guó)網(wǎng)重慶市電力公司。本文件主要起草人:李強(qiáng)、宋衛(wèi)平、鄧芷珊、周孔均、張捷、趙峰、田鵬、李炳森、李歡歡、楊帆、王剛強(qiáng)、楊智、谷波、胡州明、王紅蕾、田富強(qiáng)、李立。本文件為首次發(fā)布。T/CES157—20221電力智能交互命名實(shí)體標(biāo)注規(guī)范本標(biāo)準(zhǔn)規(guī)定了電力智能交互訓(xùn)練時(shí)命名實(shí)體(包括狹義和廣義命名實(shí)體)標(biāo)注的基本要求、流程和規(guī)范。本標(biāo)準(zhǔn)適用于進(jìn)行電力智能交互命名實(shí)體模型開(kāi)發(fā)時(shí)的樣本標(biāo)注和樣本入庫(kù)的統(tǒng)一管理,包括樣本的質(zhì)量管控、樣本標(biāo)注的技術(shù)管控和流程管控。2規(guī)范性引用文件下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.28信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)GB/T18521我國(guó)地名分類與分類代碼編制規(guī)則3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。命名實(shí)體namedentity唯一個(gè)體的專有名稱。樣本數(shù)據(jù)sampledata其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個(gè)體數(shù)據(jù)。標(biāo)注annotation采用人工或計(jì)算機(jī)自動(dòng)方式對(duì)語(yǔ)料樣本的屬性或特征進(jìn)行描述,可用于實(shí)用的目的,如客戶服務(wù)或資訊獲取等。標(biāo)簽label標(biāo)識(shí)數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼間的聯(lián)系。標(biāo)注工具annotationtool標(biāo)注人員執(zhí)行標(biāo)注任務(wù)生成標(biāo)注結(jié)果的過(guò)程中使用的工具和軟件。標(biāo)注工具按照自動(dòng)化程度分手動(dòng)、半自動(dòng)和自動(dòng)三種。4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。T/CES157—20222XML:可擴(kuò)展的標(biāo)記語(yǔ)言(ExtensibleMarkupLanguage)本文件共分為樣本基本要求、樣本標(biāo)注要求、標(biāo)注流程三部分。6樣本基本要求6.1文本文件存儲(chǔ)格式要求文本數(shù)據(jù)應(yīng)采用txt、csv、JSON、xls、xlsx、XML6.2文本文件命名要求文本文件名稱應(yīng)由四個(gè)部分組成:a)第一部分為項(xiàng)目命名詞或文本來(lái)源;b)第二部分為當(dāng)前文本文件的專業(yè)信息;c)第三部分為原始源文件生成時(shí)的日期,日期格式:YYYY-MM-DD;d)第四部分為文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);e)這四部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)字符(包含中英文字符和特殊字符)。6.3文本類樣本質(zhì)量要求文本類樣本質(zhì)量應(yīng)滿足下述要求:a)內(nèi)容應(yīng)滿足相關(guān)業(yè)務(wù)需求;b)應(yīng)使用UTF-8編碼。6.4文本樣本描述文件每批次文本樣本集應(yīng)有一個(gè)描述文件,應(yīng)滿足下述要求:a)存儲(chǔ)格式應(yīng)為txt格式。b)命名應(yīng)由三個(gè)部分組成:2)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;3)文件唯一性編號(hào),從1開(kāi)始計(jì)數(shù);4)這四部分用下劃線連接,且文件名稱長(zhǎng)度和擴(kuò)展名在內(nèi)最大長(zhǎng)度不超過(guò)100個(gè)字符(包含c)文檔內(nèi)容應(yīng)描述本樣本集的基本信息,應(yīng)包括樣本所屬項(xiàng)目、樣本來(lái)源、創(chuàng)建日期、樣本上傳單位及聯(lián)系人、樣本量、樣本用途等信息。7樣本標(biāo)注要求7.1基本要求應(yīng)滿足標(biāo)注對(duì)象范圍、標(biāo)注方式、標(biāo)注文件命名要求。具體要求包括:a)文本類樣本標(biāo)注應(yīng)支持詞、句子、整個(gè)文本等不同范圍的標(biāo)注;b)文本類樣本標(biāo)注應(yīng)支持序列標(biāo)注、指針標(biāo)注、多頭標(biāo)注等多種標(biāo)注方式;T/CES157—20223c)序列標(biāo)注應(yīng)采用B、I、E、O、S標(biāo)簽列表,宜采用BIO、BIOES標(biāo)簽方案進(jìn)行標(biāo)注。7.2單類詞詞性標(biāo)注要求對(duì)于單類詞,在標(biāo)注時(shí)應(yīng)確定其詞性。7.3多類詞詞性標(biāo)注要求對(duì)于多類詞,應(yīng)滿足多種多類詞標(biāo)注規(guī)則。7.4實(shí)體抽取樣本標(biāo)注要求實(shí)體抽取樣本標(biāo)注應(yīng)滿足下述要求:a)樣本標(biāo)注前應(yīng)定義實(shí)體語(yǔ)義類型,包含實(shí)體名稱與層次結(jié)構(gòu);b)若實(shí)體包含屬性,應(yīng)定義屬性名稱與屬性值。7.5實(shí)體關(guān)系抽取樣本標(biāo)注要求實(shí)體關(guān)系抽取應(yīng)滿足下述要求:a)樣本標(biāo)注前應(yīng)定義實(shí)體語(yǔ)義類型與關(guān)系;b)關(guān)系定義應(yīng)包含關(guān)系類型與相關(guān)實(shí)體信息,起始實(shí)體與目標(biāo)實(shí)體,關(guān)系為單向或雙向等信息。7.6事件抽取樣本標(biāo)注要求事件抽取樣本應(yīng)滿足下述要求:a)樣本標(biāo)注前應(yīng)定義實(shí)體語(yǔ)義類型與事件類型;b)事件抽取樣本應(yīng)包含事件;c)文本樣本應(yīng)具有正確的詞性分析,事件觸發(fā)詞宜為名詞或動(dòng)詞;d)若事件具有屬性,應(yīng)定義屬性名稱與屬性值。7.7標(biāo)注文件命名與存儲(chǔ)要求標(biāo)注文件應(yīng)由兩部分組成,第一部分與對(duì)應(yīng)標(biāo)注文本命名一致,第二部分為“-bz”,應(yīng)保存為txt格式。8樣本標(biāo)注流程8.1總體要求樣本標(biāo)注應(yīng)包含樣本檢查、安全管控、標(biāo)注工具選擇、標(biāo)注任務(wù)開(kāi)展、標(biāo)注結(jié)果收集和標(biāo)注結(jié)果檢查環(huán)節(jié)。8.2樣本檢查在樣本標(biāo)注前應(yīng)按照本文標(biāo)注樣本要求對(duì)待標(biāo)注樣本進(jìn)行檢查,應(yīng)根據(jù)業(yè)務(wù)需求和樣本的數(shù)量采用全量檢查或抽樣檢查,方式如下:a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有樣本進(jìn)行逐條檢查。b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:1)隨機(jī)抽樣,即:針對(duì)不同業(yè)務(wù)類型的數(shù)據(jù)樣本采用隨機(jī)抽樣進(jìn)行檢查;2)分層抽樣,即:針對(duì)同一業(yè)務(wù)類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽樣的方式進(jìn)行檢查。T/CES157—202248.3安全管控應(yīng)滿足對(duì)標(biāo)注環(huán)境及標(biāo)注人員的安全管控要求。具體要求包括:a)標(biāo)注過(guò)程應(yīng)在內(nèi)網(wǎng)環(huán)境下的指定機(jī)器中進(jìn)行,機(jī)器應(yīng)開(kāi)啟防火墻,安裝殺毒軟件,并禁用USB接口功能;機(jī)器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,防止數(shù)據(jù)丟失或泄漏;b)標(biāo)注人員應(yīng)經(jīng)過(guò)標(biāo)注工作培訓(xùn)并簽署樣本標(biāo)注保密協(xié)議后才可上崗操作。8.4標(biāo)注工具標(biāo)注工具的選擇應(yīng)滿足標(biāo)注需求。具體要求包括:a)選擇的標(biāo)注工具易安裝、易操作;b)選擇的標(biāo)注工具可以標(biāo)注出電力智能交互訓(xùn)練語(yǔ)料樣本的命名實(shí)體內(nèi)容,且可以對(duì)txt、csv、Json等存儲(chǔ)格式的電力智能交互訓(xùn)練語(yǔ)料樣本文件進(jìn)行內(nèi)容解析(內(nèi)容解析即所選標(biāo)注工具可讀取出txt、csv、Json等語(yǔ)料樣本文件中的內(nèi)容并將內(nèi)容存儲(chǔ)于標(biāo)注工具中),解析完成后即可在標(biāo)注工具內(nèi)進(jìn)行信息標(biāo)注;c)所選標(biāo)注工具能夠解析當(dāng)前標(biāo)注任務(wù)中電力智能交互訓(xùn)練語(yǔ)料樣本文件的所有文本存儲(chǔ)格式,否則需要重新選擇標(biāo)注工具或?qū)⒃摌?biāo)注任務(wù)中不能被解析的電力智能交互訓(xùn)練語(yǔ)料樣本的存儲(chǔ)格式轉(zhuǎn)換成所選標(biāo)注工具可以解析的存儲(chǔ)格式;d)所選標(biāo)注工具在完成標(biāo)注任務(wù)后可以將標(biāo)注信息導(dǎo)出并直接或經(jīng)過(guò)格式轉(zhuǎn)換后用于電力智能交互模型訓(xùn)練。8.5樣本標(biāo)注結(jié)果收集標(biāo)注結(jié)果收集應(yīng)滿足以下具體要求:a)樣本標(biāo)注結(jié)果應(yīng)由統(tǒng)一的人員進(jìn)行回收和存放,防止文件外泄;b)標(biāo)注結(jié)果收集人員應(yīng)對(duì)樣本標(biāo)注結(jié)果的相關(guān)信息(包括任務(wù)名稱、任務(wù)類型、任務(wù)開(kāi)始時(shí)間、任務(wù)結(jié)束時(shí)間、任務(wù)描述進(jìn)行核對(duì))進(jìn)行檢查,防止文件遺漏;c)標(biāo)注結(jié)果收集人員,宜按照樣本類型(圖像視頻,語(yǔ)音和文字)和標(biāo)注方式(圖像標(biāo)注包括圖像分類、圖像目標(biāo)檢測(cè)、圖像分割;文本標(biāo)注包括文本分類、文本標(biāo)注;音頻標(biāo)注包括音頻分類、音頻標(biāo)注)進(jìn)行分類保存。8.6樣本標(biāo)注結(jié)果檢查在樣本標(biāo)注結(jié)果收集后應(yīng)按照本文第7章要求對(duì)標(biāo)注結(jié)果進(jìn)行檢查,應(yīng)根據(jù)業(yè)務(wù)需求和樣本標(biāo)注的數(shù)量采用全量檢查或抽樣檢查,方式如下:a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有樣本進(jìn)行逐條檢查。b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:1)隨機(jī)抽樣,即:針對(duì)不同業(yè)務(wù)類型的數(shù)據(jù)樣本采用隨機(jī)抽樣進(jìn)行檢查;2)分層抽樣,即:針對(duì)同一業(yè)務(wù)類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽樣的方式進(jìn)行檢查。9標(biāo)注任務(wù)9.1基本要求應(yīng)根據(jù)業(yè)務(wù)需求和命名實(shí)體分類進(jìn)行標(biāo)注。T/CES157—202259.2人名標(biāo)注規(guī)范在電力行業(yè)的命名實(shí)體中,人名一類的命名實(shí)體在電力行業(yè)中的占比較大。在查詢相關(guān)設(shè)備負(fù)責(zé)人;相關(guān)職能部門聯(lián)系人;相關(guān)項(xiàng)目聯(lián)系人等電力智能交互功能中人名一類的命名實(shí)體十分重要。人名相關(guān)定義:狹義人名即個(gè)人專有名稱,如:李華。廣義人名指含有姓或名的個(gè)人稱謂,如:大志先生。人名全稱:指應(yīng)有的姓、名的全稱。人名簡(jiǎn)稱,指省略了應(yīng)有的姓、名構(gòu)件或部分的所有人名稱謂方式。人名擴(kuò)展:與人名右緊鄰、被人名直接或間接修飾,并與人名一起表示人稱的詞或緊密短語(yǔ)。如:小明媽媽。9.3職名標(biāo)注規(guī)范在電力行業(yè)的命名實(shí)體中,職名一類的命名實(shí)體在電力行業(yè)中必不可少,在電力行業(yè)中大致分為技術(shù)通道和行政通道,在電力智能交互功能中對(duì)于職名的命名實(shí)體識(shí)別可以區(qū)分不同人的職能身份。9.3.1職名定義及相關(guān)說(shuō)明職名:職務(wù)、職稱、職業(yè)、職位名稱的合稱。職務(wù)名稱:組織機(jī)構(gòu)中有職權(quán)的崗位名稱。如國(guó)網(wǎng)山東省電力公司的組織架構(gòu)中的:總經(jīng)理、黨委書(shū)記、工會(huì)主席、總師、總經(jīng)理助理等。職業(yè)名稱:表明所從事行業(yè)的人的職能身份名稱。如:電工、查表員、程序員、秘書(shū)、會(huì)計(jì)等?!肮韭殕T”、“職工”、“白領(lǐng)”等不表明所從事行業(yè),“商業(yè)”、“教育”、“體育”等不表明人的職能身份,這些都不是職業(yè)名稱。職稱名稱:有統(tǒng)一規(guī)范的職業(yè)級(jí)別的細(xì)分名稱。如:中級(jí)電力工程師、初級(jí)電氣工程師等。職位名稱:表示某機(jī)構(gòu)的某個(gè)崗位的名稱。職位名規(guī)則:機(jī)構(gòu)名+職務(wù)名:國(guó)家電網(wǎng)公司總經(jīng)理;或機(jī)構(gòu)名+職稱名:中國(guó)電科院研究員。職名并不屬于命名實(shí)體范疇,雖然它能充當(dāng)命名實(shí)體的構(gòu)件和屬性;但由于它和命名實(shí)體聯(lián)系密切且具有重要的情報(bào)價(jià)值,所以將職名特別地在命名實(shí)體標(biāo)注中同時(shí)予以標(biāo)注。9.3.2職名分類、構(gòu)件、代碼、歸類標(biāo)準(zhǔn)、標(biāo)注原則與式樣職名可分為職業(yè)名稱、職務(wù)名稱、職稱名稱。根據(jù)各自定義,職務(wù)名稱不必須表明所從事行業(yè)、職業(yè),但必須標(biāo)志一定的職權(quán),如:秘書(shū)長(zhǎng)。職業(yè)名稱則必須表明所從事行業(yè)和人的職能,且不表明職權(quán),如:秘書(shū)。職稱是職業(yè)的技術(shù)等級(jí)細(xì)分,與職務(wù)差別比較明顯,但有時(shí)與職業(yè)不易區(qū)分。如:圖書(shū)館員本身既是職業(yè)名稱,又是一級(jí)職稱名稱。若不明確指出職稱、職業(yè)與職稱同名的情況統(tǒng)一視為職業(yè)名稱。詳見(jiàn)表A.1。9.4地名標(biāo)注規(guī)范在電力行業(yè)的命名實(shí)體中,地名一類的命名實(shí)體同樣重要,在反饋相關(guān)場(chǎng)地、相關(guān)職能部門所在地、相關(guān)項(xiàng)目所在地等場(chǎng)景中,地名類命名實(shí)體可以快速精確地反應(yīng)相關(guān)地址,為電力智能交互的信息獲取提供保障。9.4.1地名相關(guān)定義地名:人們對(duì)各地理實(shí)體賦予的專有名稱。標(biāo)準(zhǔn)地名:使用規(guī)范的語(yǔ)言文字書(shū)寫(xiě)的地名全稱。地名簡(jiǎn)稱:經(jīng)過(guò)官方認(rèn)可或約定俗成的地名的簡(jiǎn)單稱謂。地名別名:某一地理實(shí)體的標(biāo)準(zhǔn)地名及其簡(jiǎn)稱以外的其他現(xiàn)行名稱?,F(xiàn)今地名:目前正在使用的地名。T/CES157—20226歷史地名:過(guò)去曾經(jīng)使用過(guò)、目前已不再使用的地名。地名擴(kuò)展:與地名右緊鄰、被地名直接或間接修飾,并與地名一起表處所的詞或緊密短語(yǔ)。如:長(zhǎng)江以南、李村村西小河。9.4.2地名分類、構(gòu)件、歸類標(biāo)準(zhǔn)根據(jù)該項(xiàng)目研究目的,可以按照地名的文字特征、地名所指代地理實(shí)體的空間位置、地名所指代地理實(shí)體的地理屬性、地名的使用時(shí)間、地名的表示方式五項(xiàng)指標(biāo)作為地名類別劃分的標(biāo)準(zhǔn)。以上對(duì)地名的分類方法能夠?qū)⒌孛凑盏孛念悇e聚類,在此基礎(chǔ)上可以對(duì)地名專名、地名飾名進(jìn)行統(tǒng)計(jì)分析。9.5組織機(jī)構(gòu)名標(biāo)注規(guī)范組織機(jī)構(gòu)是按照一定的宗旨和系統(tǒng)建立起來(lái)的集體,在電力行業(yè)中有從上至下一整套的組織機(jī)構(gòu)將整個(gè)電力行業(yè)串聯(lián)起來(lái),因此在電力行業(yè)的智能交互中,組織機(jī)構(gòu)一類的命名實(shí)體的占比也是較大的,且在電力行業(yè)的智能交互中可以發(fā)揮較大的信息提取功能。9.5.1組織機(jī)構(gòu)名相關(guān)定義組織機(jī)構(gòu):是按照一定的宗旨和系統(tǒng)建立起來(lái)的集體。主要包括機(jī)關(guān)、企事業(yè)單位、社會(huì)團(tuán)體、民辦非企業(yè)單位、國(guó)際組織及其內(nèi)部機(jī)構(gòu)(其他組織定義參照附錄A)。組織一般側(cè)重于整體指向,機(jī)構(gòu)一般側(cè)重于局部指向,這點(diǎn)區(qū)別是相對(duì)。組織機(jī)構(gòu)名:人們給組織機(jī)構(gòu)賦予的專有名稱。標(biāo)準(zhǔn)組織機(jī)構(gòu)名:使用規(guī)范的語(yǔ)言文字書(shū)寫(xiě)的組織機(jī)構(gòu)名全稱。組織機(jī)構(gòu)名簡(jiǎn)稱:經(jīng)過(guò)官方認(rèn)可或約定俗成的組織機(jī)構(gòu)名的簡(jiǎn)單稱謂。組織機(jī)構(gòu)別名:某一組織機(jī)構(gòu)的標(biāo)準(zhǔn)組織機(jī)構(gòu)名及其簡(jiǎn)稱以外的其他現(xiàn)行名稱?,F(xiàn)今組織機(jī)構(gòu)名:目前正在使用的組織機(jī)構(gòu)名。歷史組織機(jī)構(gòu)名:過(guò)去曾經(jīng)使用過(guò)、目前已不再使用的組織機(jī)構(gòu)名。組織機(jī)構(gòu)名擴(kuò)展:與組織機(jī)構(gòu)名右緊鄰、被組織機(jī)構(gòu)名直接或間接修飾,并與組織機(jī)構(gòu)名一起表組織機(jī)構(gòu)的詞或短語(yǔ)。如:國(guó)家電網(wǎng)四川省電力公司事業(yè)部9.5.2組織機(jī)構(gòu)名構(gòu)件分類、歸類標(biāo)準(zhǔn)及其標(biāo)注式樣組織機(jī)構(gòu)名內(nèi)部構(gòu)件可分為組織機(jī)構(gòu)通名、組織機(jī)構(gòu)專名和組織機(jī)構(gòu)飾名三大類。組織機(jī)構(gòu)通名是表示該組織機(jī)構(gòu)類型的構(gòu)件,如組織機(jī)構(gòu)名中的“公司/集團(tuán)有限公司/大學(xué)/政府/養(yǎng)老院/聯(lián)合會(huì)/局”等,它與組織機(jī)構(gòu)按功能屬性分類的結(jié)果具有一定的對(duì)應(yīng)關(guān)系。組織機(jī)構(gòu)專名和組織機(jī)構(gòu)飾名是含有相同通名的組織機(jī)構(gòu)命名實(shí)體的區(qū)別性構(gòu)件。其中,可作為組織機(jī)構(gòu)的簡(jiǎn)稱而獨(dú)立運(yùn)用的區(qū)別性構(gòu)件成為組織機(jī)構(gòu)專名。如:國(guó)家電網(wǎng)有限公司、清華大學(xué)。反之稱為組織機(jī)構(gòu)飾名,是組織機(jī)構(gòu)名中通名、專名以外的語(yǔ)詞構(gòu)件。如“北京大學(xué)”。組織機(jī)構(gòu)通名可按照組織機(jī)構(gòu)類型分類,詳見(jiàn)表A.2。組織機(jī)構(gòu)專名可按照其文字特征分類,詳見(jiàn)表A.3。組織機(jī)構(gòu)飾名可按語(yǔ)義功能分類,詳見(jiàn)表A.4。9.5.3組織機(jī)構(gòu)標(biāo)注原則a)組織機(jī)構(gòu)名標(biāo)注的總原則是選取有助于提高組織機(jī)構(gòu)名自動(dòng)識(shí)別、自動(dòng)聚類能力和檢索效率的內(nèi)容進(jìn)行標(biāo)注,同時(shí)為信息抽取做必要準(zhǔn)備。T/CES157—20227b)在不打亂原文語(yǔ)法關(guān)系的前提下,將緊鄰織機(jī)構(gòu)名且表組織機(jī)構(gòu)的文字標(biāo)注出來(lái)。c)組織機(jī)構(gòu)名識(shí)別語(yǔ)料標(biāo)注范圍為組織機(jī)構(gòu)名、組織機(jī)構(gòu)名擴(kuò)展及旬內(nèi)組織機(jī)構(gòu)名屬性。組織機(jī)構(gòu)名和組織機(jī)構(gòu)名擴(kuò)展分別標(biāo)注。旬外組織機(jī)構(gòu)屬性暫不標(biāo)注。d)組織機(jī)構(gòu)名需根據(jù)相應(yīng)分類、編碼、格式對(duì)組織機(jī)構(gòu)名整體及其通名、專名、飾名進(jìn)行全面標(biāo)注。e)非命名實(shí)體的組織機(jī)構(gòu)名擴(kuò)展原則上不做細(xì)標(biāo)。f)當(dāng)兩層以上組織機(jī)構(gòu)名嵌套出現(xiàn)時(shí),通常后者隸屬于前者,此時(shí)其間隸屬關(guān)系缺省不予標(biāo)注,但各層需分別標(biāo)注為組織機(jī)構(gòu)名。g)通名不能作為一級(jí)機(jī)構(gòu)整體標(biāo)注,必須與其前一級(jí)機(jī)構(gòu)進(jìn)行整體標(biāo)注。參見(jiàn)組織機(jī)構(gòu)名通名分類編碼使用規(guī)則。h)組織機(jī)構(gòu)名簡(jiǎn)稱、別稱及歷史組織機(jī)構(gòu)名部分分別整體標(biāo)注,組織機(jī)構(gòu)名簡(jiǎn)稱、別稱內(nèi)部暫不作細(xì)標(biāo),歷史組織機(jī)構(gòu)名內(nèi)部細(xì)標(biāo)?,F(xiàn)今組織機(jī)構(gòu)名、組織機(jī)構(gòu)名全稱缺省不標(biāo)。i)組織機(jī)構(gòu)名作為其他命名實(shí)體構(gòu)件時(shí),將每層組織機(jī)構(gòu)名整體標(biāo)注為構(gòu)件,內(nèi)部不細(xì)標(biāo)。j)當(dāng)其他命名實(shí)體充當(dāng)組織機(jī)構(gòu)名構(gòu)件時(shí),對(duì)該命名實(shí)體整體標(biāo)注,內(nèi)部不細(xì)標(biāo)。k)當(dāng)其中使用的是組織機(jī)構(gòu)名的組織機(jī)構(gòu)屬性時(shí),該屬性缺省不標(biāo)。l)兩標(biāo)原則:當(dāng)組織機(jī)構(gòu)飾名中的部分與其后組織機(jī)構(gòu)通名構(gòu)成最小指稱、甚至詞典詞時(shí):如果構(gòu)成的是詞典詞,則該詞典詞標(biāo)為通名,將其前內(nèi)容標(biāo)注為組織機(jī)構(gòu)飾名即可。該類詞典詞代日后對(duì)詞典進(jìn)行深化標(biāo)注時(shí)統(tǒng)一處理。m)如果構(gòu)成的是最小指稱,則將該組織機(jī)構(gòu)飾名按照最小指稱的分割位置分標(biāo)成兩部分,組織機(jī)構(gòu)通名與最小指稱照常標(biāo)注。9.6產(chǎn)品名標(biāo)注規(guī)范在電力行業(yè)中,產(chǎn)品的種類數(shù)不勝數(shù),從最基礎(chǔ)的電力、用于建設(shè)電網(wǎng)的組件如角鋼塔、變壓器、高壓線,甚至于輸電線路本身都是一種資產(chǎn),在電力行業(yè)的智能交互中,對(duì)于該類產(chǎn)品命名實(shí)體的識(shí)別是極為重要的,例如在智能客服應(yīng)用場(chǎng)景中查詢剩余電量中的“電量”也是作為一種產(chǎn)品實(shí)體存在。9.6.1產(chǎn)品名相關(guān)定義產(chǎn)品名:狹義產(chǎn)品名是指作為貨物(可運(yùn)輸產(chǎn)品)、服務(wù)及資產(chǎn)(不可運(yùn)輸產(chǎn)品)名稱的狹義命名實(shí)體。如:風(fēng)力發(fā)電機(jī)。廣義產(chǎn)品名是指含有產(chǎn)品專名或品牌、商標(biāo)、規(guī)格等標(biāo)志性產(chǎn)品飾名的一類貨物(可運(yùn)輸產(chǎn)品)、服務(wù)及資產(chǎn)(不可運(yùn)輸產(chǎn)品)的專有名稱(有些產(chǎn)品、商品、服務(wù)的名稱本身就是品牌)。對(duì)于產(chǎn)品的貨物、資產(chǎn)和服務(wù)三大門類十大部類,我們?yōu)樗挟a(chǎn)品設(shè)立產(chǎn)品公共屬性,為每個(gè)產(chǎn)品門類設(shè)立門類屬性,為每個(gè)產(chǎn)品部類設(shè)立部類屬性,為產(chǎn)品部類下設(shè)的各類產(chǎn)品設(shè)立產(chǎn)品種類屬性。產(chǎn)品公共屬性是指所有產(chǎn)品通常都具備的產(chǎn)品屬性,產(chǎn)品門類屬性是指該門類產(chǎn)品通常都具備的公共屬性之外的產(chǎn)品屬性;產(chǎn)品部類屬性是指該部類產(chǎn)品通常都具備的公共屬性和門類屬性之外的產(chǎn)品屬性;產(chǎn)品種類屬性是指該類產(chǎn)品所具備的公共屬性、門類屬性和部類屬性制外的產(chǎn)品屬性。9.6.2貨物飾名分類、歸類標(biāo)準(zhǔn)及其標(biāo)注式樣貨物飾名是指貨物專名中修飾貨物通名的詞或短語(yǔ)。詳見(jiàn)表A.5。9.7品牌標(biāo)注規(guī)范“品牌”不是商標(biāo),更不是產(chǎn)品,是企業(yè)或品牌主體(包括城市、個(gè)人等)一切無(wú)形資產(chǎn)總和的全息濃縮,而“這一濃縮”又可以以特定的“符號(hào)”來(lái)識(shí)別;它是主體與客體,主體與社會(huì),企業(yè)與消費(fèi)T/CES157—20228者相互作用的產(chǎn)物。品牌符號(hào)是區(qū)別產(chǎn)品或服務(wù)的基本手段,包括名稱、標(biāo)志、基本色、口號(hào)、象征物、代言人、包裝等。這些識(shí)別元素形成一個(gè)有機(jī)結(jié)構(gòu),對(duì)消費(fèi)者施加影響。它是形成品牌概念的基礎(chǔ),成功的品牌符號(hào)是公司的重要資產(chǎn),在品牌與消費(fèi)者的互動(dòng)中發(fā)揮作用。在命名實(shí)體標(biāo)注研究中,品牌能夠作為處理對(duì)象的只能是品牌符號(hào),而且只能是品牌符號(hào)中的名稱、口號(hào)、代言人,更實(shí)際地講,只是名稱。而組織機(jī)構(gòu)名是作為獨(dú)立的命名實(shí)體進(jìn)行標(biāo)注,商標(biāo)名本身很少單獨(dú)出現(xiàn),多數(shù)是出現(xiàn)在產(chǎn)品名中,這樣在產(chǎn)品名中商標(biāo)已經(jīng)被標(biāo)注了。如果仍嫌不足,可以將商標(biāo)獨(dú)立作為標(biāo)注對(duì)象。9.8事件標(biāo)注規(guī)范在電力行業(yè)中,存在一系列的事件,這些事件往往參與在我們的日常生活生產(chǎn)中,例如電費(fèi)漲價(jià)、電力檢修、電力政策改變。這些事件實(shí)體在電力行業(yè)的智能交互中往往扮演著重要角色,在電力智能交互中識(shí)別事件實(shí)體往往可以捕捉到相關(guān)關(guān)鍵信息。9.8.1事件相關(guān)概念事件名:主述結(jié)構(gòu)的,文字連續(xù)的短語(yǔ)或句子。事件名具有嵌套性。主語(yǔ):具體事物,人/動(dòng)物/植物/自然物及其部件:輸電線路建立,電費(fèi)漲價(jià)等。機(jī)構(gòu)團(tuán)體:國(guó)務(wù)院實(shí)施電力體制改革,中國(guó)西電集團(tuán)與國(guó)家電網(wǎng)有限公司部分子企業(yè)實(shí)施重組整合。注:不一定是命名實(shí)體,即人名/地名/組織機(jī)構(gòu)名。述語(yǔ):動(dòng)詞及其組成部分。9.8.2事件的命名方式考慮字長(zhǎng)的原因,事件不一定由事件名來(lái)命名。命名方式:用文中一組強(qiáng)文本表示功能的詞或短語(yǔ)來(lái)表示事件。{參與者,事件動(dòng)詞,(時(shí)間),(地點(diǎn)),(子事件)}9.9時(shí)間結(jié)構(gòu)標(biāo)注規(guī)范在電力行業(yè)中,時(shí)間實(shí)體是很重要的一個(gè)部分,通過(guò)時(shí)間實(shí)體我們可以確定事件發(fā)生的時(shí)間,也可以通過(guò)時(shí)間來(lái)檢索相應(yīng)時(shí)間所發(fā)生的事件。例如:2022年10月20日15:00~17:00某市某小區(qū)停電檢修,在該事件中,2022年10月20日15:00~17:00就是一個(gè)有關(guān)時(shí)間范圍的實(shí)體,通過(guò)在智能交互中提取該事件的此時(shí)間實(shí)體,我們可以確定該事件發(fā)生的事件,也可以通過(guò)對(duì)該時(shí)間的處理,通過(guò)檢索該時(shí)間段所發(fā)生的事件去定位到該事件的信息。9.9.1時(shí)間結(jié)構(gòu)相關(guān)定義時(shí)間結(jié)構(gòu):用紀(jì)時(shí)法(廣義)紀(jì)錄時(shí)間的完整實(shí)詞短語(yǔ)。具有四個(gè)特征:①時(shí)序性:所表時(shí)間具有指定性,指定該時(shí)間在時(shí)間之流中的位置;②規(guī)范性:通過(guò)通用、規(guī)范的紀(jì)時(shí)法表達(dá)時(shí)間,而不是通過(guò)一般敘事來(lái)表達(dá)時(shí)間;③實(shí)詞短語(yǔ)型:是不包含虛詞的短語(yǔ);④完整性:是文中完整的時(shí)間表達(dá)。紀(jì)時(shí)法:紀(jì)年法、紀(jì)月法、紀(jì)日法、紀(jì)時(shí)法(狹義)等紀(jì)錄時(shí)間的系統(tǒng)、規(guī)范的方法。時(shí)間結(jié)構(gòu)與時(shí)間性數(shù)量結(jié)構(gòu)的區(qū)別:時(shí)間性數(shù)量結(jié)構(gòu)是表達(dá)時(shí)間長(zhǎng)短的數(shù)量結(jié)構(gòu)。時(shí)間結(jié)構(gòu)所表時(shí)間具有指定性,即指定該時(shí)間在時(shí)間之流中的位置,而時(shí)間性數(shù)量結(jié)構(gòu)表達(dá)時(shí)間不具有指定性,僅表示時(shí)間長(zhǎng)短。如:3個(gè)月、兩星期。時(shí)間結(jié)構(gòu)與時(shí)間詞的區(qū)別:時(shí)間詞是一個(gè)實(shí)詞,時(shí)間結(jié)構(gòu)是一個(gè)實(shí)詞短語(yǔ)。T/CES157—202299.9.2時(shí)間結(jié)構(gòu)分類及歸類標(biāo)準(zhǔn)根據(jù)表達(dá)時(shí)間的特定程度,時(shí)間結(jié)構(gòu)可分為絕對(duì)時(shí)間結(jié)構(gòu)和相對(duì)時(shí)間結(jié)構(gòu)。絕對(duì)時(shí)間結(jié)構(gòu)是表絕對(duì)時(shí)間的時(shí)間結(jié)構(gòu)。如:2007年、2007年5月5日凌晨1點(diǎn)。相對(duì)時(shí)間結(jié)構(gòu)是表相對(duì)時(shí)間的時(shí)間結(jié)構(gòu)。該短語(yǔ)或者缺省絕對(duì)時(shí)間的限制,如:9點(diǎn)50分、5月5日;或者以相對(duì)時(shí)間代替絕對(duì)時(shí)間表達(dá)時(shí)間限時(shí)間結(jié)構(gòu)根據(jù)表達(dá)形式可分為五類:①單點(diǎn)敘述式;②單點(diǎn)符號(hào)式;③起止敘述式;④起止符號(hào)式;⑤多點(diǎn)縮略式。詳見(jiàn)表A.6。9.9.3時(shí)間結(jié)構(gòu)構(gòu)件分類及其標(biāo)注式樣時(shí)間結(jié)構(gòu)構(gòu)件分類及其標(biāo)注式樣詳見(jiàn)表A.7。9.10數(shù)量結(jié)構(gòu)標(biāo)注規(guī)范在電力行業(yè)中,數(shù)量、數(shù)目、順序、量詞等數(shù)量結(jié)構(gòu)的數(shù)量實(shí)體也是其中一個(gè)重要的組成部分,如電價(jià)、高壓線的電壓伏數(shù)、電表的用電度數(shù),抑或是第幾號(hào)桿塔、第幾號(hào)輸電線路,這些數(shù)量實(shí)體在電力行業(yè)中隨處可見(jiàn)。在電力行業(yè)的智能交互中,這些數(shù)量實(shí)體也發(fā)揮著不可替代的作用。9.10.1數(shù)量結(jié)構(gòu)相關(guān)定義數(shù)量結(jié)構(gòu):指形式完整的數(shù)量短語(yǔ)或含名數(shù)量短語(yǔ)。如:二十度電。含數(shù)量短語(yǔ):包含了被修飾核心名詞的完整數(shù)量短語(yǔ)。如:二十度電左右。數(shù)詞:表示事物的數(shù)目或順序的詞。如:一、第一、-1.5。量詞:表示事物、動(dòng)作或時(shí)空計(jì)量單位的詞。如:個(gè)、位。9.10.2數(shù)詞細(xì)分與示例根據(jù)數(shù)詞的構(gòu)成特點(diǎn)及其與量詞的搭配特點(diǎn),將其分為三類:?jiǎn)渭償?shù)詞、兼量數(shù)詞和復(fù)合數(shù)詞。復(fù)合數(shù)詞是由兩個(gè)以上相鄰的單純數(shù)詞構(gòu)成的完整數(shù)詞短語(yǔ)。數(shù)詞細(xì)分結(jié)果詳見(jiàn)表A.8。9.10.3數(shù)量結(jié)構(gòu)分類根據(jù)數(shù)量結(jié)構(gòu)的構(gòu)成特征,將數(shù)量結(jié)構(gòu)分為定指數(shù)量結(jié)構(gòu)(表確定值的完整數(shù)量結(jié)構(gòu))、概指數(shù)量結(jié)構(gòu)(表不確定值的完整數(shù)量結(jié)構(gòu))和含名數(shù)量結(jié)構(gòu)(包含了被修飾核心名詞的完整數(shù)量結(jié)構(gòu))三類。詳見(jiàn)表A.9。9.11數(shù)碼標(biāo)注規(guī)范在電力行業(yè)中,設(shè)備有設(shè)備編號(hào)、員工有工作編號(hào)、部門也有部門編號(hào),這些數(shù)碼實(shí)體在實(shí)際生活生產(chǎn)管理中發(fā)揮著不可替代的工作,尤其在存在同名人、同名項(xiàng)目的情況下,數(shù)碼實(shí)體可以有效區(qū)分他們的區(qū)別,在電力行業(yè)的智能交互中,數(shù)碼實(shí)體提供的唯一性為電力行業(yè)的實(shí)際生活生產(chǎn)的管理提供了有效幫助。我們可以通過(guò)數(shù)碼實(shí)體獲取指定唯一信息。9.11.1數(shù)碼定義數(shù)碼是根據(jù)統(tǒng)一編制規(guī)則產(chǎn)生的,由數(shù)字(必備)輔以字母、符號(hào)、漢字等組成的,表達(dá)數(shù)字以外含義的代碼。數(shù)碼與數(shù)詞的根本差別在于數(shù)碼具有數(shù)字以外的含義或所指,可指人、指物、指事等,是一種代碼。如身份證號(hào)、學(xué)號(hào)、單位代碼、電話號(hào)碼、專利號(hào)碼、國(guó)家標(biāo)準(zhǔn)號(hào)碼、圖書(shū)ISBN號(hào)碼、期刊ISSN號(hào)碼等都是數(shù)碼。T/CES157—20229.11.2數(shù)碼的分類根據(jù)數(shù)碼與其他命名實(shí)體間的構(gòu)成關(guān)系,數(shù)碼可分為兩類。一類是數(shù)碼本身就是其他命名實(shí)體或其構(gòu)件(專名、飾名或通名),例如,數(shù)碼指人的化名,如:007;指組織,如91765(部隊(duì)番號(hào));指地點(diǎn),如:798;指產(chǎn)品,如101;指時(shí)間,如:2007-05-01。我們將這類充當(dāng)其他命名實(shí)體或其構(gòu)件的數(shù)碼稱為別名數(shù)碼。另一類數(shù)碼稱為獨(dú)立數(shù)碼,是與其他命名實(shí)體不具有構(gòu)成關(guān)系的數(shù)碼。獨(dú)立數(shù)碼包括很多種類,如身份證號(hào)、學(xué)號(hào)、單位代碼、電話號(hào)碼、專利號(hào)碼、國(guó)家標(biāo)準(zhǔn)號(hào)碼、圖書(shū)ISBN號(hào)碼、期刊ISSN號(hào)碼等。我們將根據(jù)具體應(yīng)用需求來(lái)設(shè)定我們要標(biāo)注的獨(dú)立代碼種類。根據(jù)編制規(guī)則,典型獨(dú)立數(shù)碼的種類有以下三種:a)順序碼:又稱系列碼,是一種用連續(xù)數(shù)字代表編碼對(duì)象的碼,例如,用1代表男性,2代表女b)區(qū)間碼:區(qū)間碼是把整個(gè)編碼分成多個(gè)分組,形成多個(gè)區(qū)間,每個(gè)區(qū)間是一組,每組

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論