T-CES 156-2022 電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范_第1頁
T-CES 156-2022 電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范_第2頁
T-CES 156-2022 電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范_第3頁
T-CES 156-2022 電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范_第4頁
T-CES 156-2022 電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS35.240.99CCSL60團(tuán)體標(biāo)準(zhǔn)T/CES156—2022電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范Specificationforannotationofpowerintelligentinteractivetexttrainingcorpus2022-12-19發(fā)布2022-12-21實(shí)施中國電工技術(shù)學(xué)會(huì)發(fā)布IT/CES156—2022前言 Ⅱ 12規(guī)范性引用文件 13術(shù)語和定義 14縮略語 2 26基本要求 26.1存儲(chǔ)格式要求 26.2命名要求 26.3質(zhì)量要求 36.4樣本描述文件要求 37標(biāo)注要求 37.1基本要求 37.2意圖標(biāo)注要求 37.3槽位標(biāo)注要求 47.4標(biāo)注完成的語料樣本命名與存儲(chǔ)要求 48標(biāo)注流程 48.1總體要求 48.2語料樣本檢查 58.3安全管控 58.4標(biāo)注工具選擇 58.5語料樣本標(biāo)注 68.6標(biāo)注結(jié)果收集 68.7標(biāo)注結(jié)果檢查 7附錄A(資料性附錄)電力智能交互文本訓(xùn)練語料樣本標(biāo)注示例 8A.1場景1:電費(fèi)相關(guān) 8A.2場景2:電力知識(shí)查詢 8A.3場景3:電力安監(jiān) 8附錄B(資料性附錄)標(biāo)注完成的電力智能交互文本訓(xùn)練語料樣本應(yīng)用示例 T/CES156—2022本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由四川中電啟明星信息技術(shù)有限公司提出。本文件由中國電工技術(shù)學(xué)會(huì)標(biāo)準(zhǔn)工作委員會(huì)能源智慧化工作組歸口。本文件起草單位:國網(wǎng)信息通信產(chǎn)業(yè)集團(tuán)有限公司、四川中電啟明星信息技術(shù)有限公司、國網(wǎng)重慶市電力公司、國網(wǎng)重慶市電力公司電力科學(xué)研究院、重慶大學(xué)。本文件主要起草人:李強(qiáng)、宋衛(wèi)平、王紅蕾、趙峰、周孔均、鐘加勇、倪平波、李炳森、田鵬、李歡歡、徐小云、劉禮、崔秋實(shí)、張強(qiáng)、李立、李軍、高攀、高勝杰。本文件為首次發(fā)布。T/CES156—20221電力智能交互文本訓(xùn)練語料標(biāo)注規(guī)范本標(biāo)準(zhǔn)規(guī)定了對(duì)電力智能交互文本訓(xùn)練語料的基本要求、標(biāo)注要求和標(biāo)注流程。本標(biāo)準(zhǔn)適于電力智能交互文本訓(xùn)練語料的標(biāo)注、管理及質(zhì)量管控等。2規(guī)范性引用文件下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件GB/T5271.28信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)T/CESA1040信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程T/CES128電力人工智能平臺(tái)總體架構(gòu)及技術(shù)要求3術(shù)語和定義下列術(shù)語和定義適用于本文件。語料corpus即語言材料,是語言學(xué)研究的內(nèi)容,也是構(gòu)成語料庫的基本單元。樣本數(shù)據(jù)sampledata其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個(gè)體數(shù)據(jù)。訓(xùn)練語料corpora用于訓(xùn)練算法模型且標(biāo)注好指定信息的語料。標(biāo)注annotation采用人工或計(jì)算機(jī)自動(dòng)方式對(duì)語料樣本的屬性或特征進(jìn)行描述,可用于實(shí)用的目的,如客戶服務(wù)或資訊獲取等。意圖intention指一段自然語言文本信息中,用戶所表達(dá)的想要達(dá)到的某種目的。槽位slot在用戶表達(dá)意圖的句子中,用來準(zhǔn)確表達(dá)該意圖的關(guān)鍵信息的標(biāo)識(shí)。標(biāo)注工具annotationtool標(biāo)注人員執(zhí)行標(biāo)注任務(wù)生成標(biāo)注結(jié)果的過程中使用的工具和軟件。標(biāo)注工具按照自動(dòng)化程度分手T/CES156—20222動(dòng)、半自動(dòng)和自動(dòng)三種。半自動(dòng)化標(biāo)注semi-automaticannotation基于少量人工標(biāo)注、機(jī)器預(yù)標(biāo)注來訓(xùn)練標(biāo)注模型,用于批量標(biāo)注樣本數(shù)據(jù)的半人工智能標(biāo)注方法。4縮略語下列縮略語適用于本文件。BIOES:BIOES標(biāo)注模式(B-begin,I-inside,O-outside,E-end,S-single)BIO:BIO標(biāo)注模式(B-begin,I-inside,O-outside)本文件對(duì)電力智能交互文本訓(xùn)練語料的標(biāo)注規(guī)范主要體現(xiàn)在三個(gè)方面:基本要求、標(biāo)注要求和標(biāo)注流程。其中,基本要求用于規(guī)范電力智能交互文本訓(xùn)練語料樣本文件的命名、存儲(chǔ)格式等;標(biāo)注要求用于規(guī)范電力智能交互文本訓(xùn)練語料樣本文件內(nèi)容的標(biāo)注信息等;標(biāo)注流程用于規(guī)范標(biāo)注完成的電力智能交互文本訓(xùn)練語料樣本文件的統(tǒng)一管控等。這三方面內(nèi)容的具體組織框架如圖1所示。6基本要求6.1存儲(chǔ)格式要求電力智能交互文本訓(xùn)練語料樣本數(shù)據(jù)應(yīng)采用txt、csv、Json、xlsx、xls、XML、pdf等存儲(chǔ)格式。6.2命名要求電力智能交互文本訓(xùn)練語料文件名稱應(yīng)由四個(gè)部分組成:a)第一部分為項(xiàng)目命名詞或文本來源;b)第二部分為當(dāng)前文本文件的專業(yè)信息;c)第三部分為原始源文件生成時(shí)的日期,日期格式:YYYY-MM-DD;d)第四部分為文件唯一性編號(hào),從1開始計(jì)數(shù);T/CES156—20223e)這四部分用下劃線連接,且文件名稱長度和擴(kuò)展名在內(nèi)最大長度不超過100個(gè)字符(包含中英);f)文件命名舉例:針對(duì)某電力業(yè)務(wù)場景的××項(xiàng)目_聊天機(jī)器人語料_2022-11-08_1。6.3質(zhì)量要求電力智能交互文本訓(xùn)練語料樣本質(zhì)量應(yīng)滿足下述要求:a)應(yīng)支持計(jì)算機(jī)正常讀取,文本內(nèi)容無亂碼;b)內(nèi)容應(yīng)滿足相關(guān)業(yè)務(wù)需求;c)應(yīng)使用UTF-8編碼。6.4樣本描述文件要求每批次電力智能交互文本訓(xùn)練語料樣本集應(yīng)有一個(gè)描述文件,且描述文件應(yīng)滿足下述要求:a)存儲(chǔ)格式應(yīng)為txt格式。b)命名應(yīng)由三個(gè)部分組成:2)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;3)文件唯一性編號(hào),從1開始計(jì)數(shù);4)文件名的各部分用下劃線連接,文件命名示例:針對(duì)某電力業(yè)務(wù)場景的××項(xiàng)目_2022-c)文件內(nèi)容應(yīng)描述本語料樣本集的基本信息,應(yīng)包括語料樣本所屬項(xiàng)目、語料樣本來源、創(chuàng)建日期、聯(lián)系人、語料樣本標(biāo)注信息、標(biāo)注格式、語料樣本用途等信息。7標(biāo)注要求7.1基本要求進(jìn)行電力智能交互文本訓(xùn)練語料標(biāo)注時(shí)應(yīng)滿足標(biāo)注對(duì)象范圍、標(biāo)注方式、標(biāo)注文件命名要求。具體a)電力智能交互文本訓(xùn)練語料樣本標(biāo)注應(yīng)支持意圖類別、槽位等信息的標(biāo)注;b)電力智能交互文本訓(xùn)練語料樣本標(biāo)注應(yīng)支持序列標(biāo)注、指針標(biāo)注等多種標(biāo)注方式;c)標(biāo)注可通過線上標(biāo)注(樣本+標(biāo)注平臺(tái))和線下標(biāo)注(線下小工具和線下文本txt、csv、Json)d)序列標(biāo)注應(yīng)采用B、I、E、O、S標(biāo)簽列表,宜采用BIO、BIOES標(biāo)簽方案進(jìn)行標(biāo)注;e)已完成標(biāo)注的電力智能交互文本訓(xùn)練語料文件應(yīng)按照規(guī)定的命名格式命名。7.2意圖標(biāo)注要求電力智能交互文本訓(xùn)練語料樣本意圖標(biāo)注應(yīng)滿足下述要求:a)在電力智能交互文本訓(xùn)練語料樣本標(biāo)注前應(yīng)對(duì)所有樣本數(shù)據(jù)進(jìn)行整體綜合分析,且結(jié)合具體電力業(yè)務(wù)場景中涉及到的電力專業(yè)詞匯及其相關(guān)詞匯,定義意圖類別數(shù)和意圖類別名稱以用于電力智能交互文本訓(xùn)練語料標(biāo)注;b)電力智能交互文本訓(xùn)練語料樣本意圖類型的確定需要結(jié)合具體的應(yīng)用場景和待標(biāo)注樣本數(shù)據(jù),且確定的意圖類型明確、全面,滿足應(yīng)用需求;c)若一條電力智能交互文本訓(xùn)練語料樣本可標(biāo)注為多個(gè)意圖類別時(shí),應(yīng)根據(jù)應(yīng)用場景將該條樣本標(biāo)注為一個(gè)可能性最大的意圖類別,必要時(shí)可由多位標(biāo)注人員共同確定待標(biāo)注樣本的意圖類T/CES156—20224d)每條電力智能交互文本訓(xùn)練語料樣本都應(yīng)標(biāo)注出其意圖類別,若一條語料意圖不屬于已定義的意圖類別中的任何一類則可將該語料刪除,或者新增一個(gè)意圖類別以將語料樣本中不屬于已定義意圖類別的語料樣本均歸類于該意圖類別;e)標(biāo)注時(shí)應(yīng)做到準(zhǔn)確標(biāo)注意圖類,且標(biāo)注完成后需要專業(yè)核查人員進(jìn)行核查;f)應(yīng)用場景,如:標(biāo)注語料樣本“請(qǐng)查詢用戶××的電費(fèi)余額是多少”為“電費(fèi)余額查詢”意圖類別。7.3槽位標(biāo)注要求電力智能交互文本訓(xùn)練語料樣本槽位標(biāo)注應(yīng)滿足下述要求:a)在電力智能交互文本訓(xùn)練語料樣本標(biāo)注前應(yīng)對(duì)所有樣本數(shù)據(jù)進(jìn)行整體綜合分析,且結(jié)合具體電力業(yè)務(wù)場景中涉及到的電力專業(yè)詞匯及其相關(guān)詞匯,定義槽位的類別數(shù)和類別名稱以用于標(biāo)注電力智能交互文本訓(xùn)練語料樣本;b)一條待標(biāo)注的電力智能交互文本訓(xùn)練語料樣本中有可能存在多個(gè)槽位,應(yīng)標(biāo)出所有的槽位信c)一條電力智能交互文本訓(xùn)練語料樣本中可能不存在槽位信息,應(yīng)允許槽位信息為空;d)電力智能交互文本訓(xùn)練語料樣本中的槽位信息可能存在槽位信息重疊,對(duì)存在重疊的槽位信息可以標(biāo)注出其中之一,也可以將重疊的槽位信息均標(biāo)注出來,此時(shí)需要根據(jù)實(shí)際需求確定對(duì)重疊槽位信息內(nèi)容的標(biāo)注方式;e)標(biāo)注槽位信息要準(zhǔn)確、全面,且標(biāo)注完成后需要專業(yè)核查人員進(jìn)行核查;f)應(yīng)用場景,如:“用戶00535000123查詢一下當(dāng)前電費(fèi)余額”,需要標(biāo)注的槽位信息為:"00535000123"、"當(dāng)前",標(biāo)注結(jié)果:{"text":"用戶00535000123查詢一下當(dāng)前電費(fèi)余額","意圖類別":"電費(fèi)余額查詢","槽位":{"用戶":"00535000123","時(shí)間":"當(dāng)前"}}。7.4標(biāo)注完成的語料樣本命名與存儲(chǔ)要求電力業(yè)務(wù)標(biāo)注任務(wù)中涉及到的所有電力智能交互文本訓(xùn)練語料樣本被標(biāo)注完成后將其從標(biāo)注工具中導(dǎo)出,且導(dǎo)出的標(biāo)注信息文件多為Json、csv等存儲(chǔ)格式。針對(duì)這些導(dǎo)出的包含標(biāo)注信息的文件進(jìn)行存儲(chǔ)時(shí)應(yīng)滿足下述要求:a)文件命名。從標(biāo)注工具中導(dǎo)出的電力智能交互文本訓(xùn)練語料樣本標(biāo)注信息文件命名應(yīng)由兩部分組成,第一部分與對(duì)應(yīng)語料樣本文本命名一致,第二部分為“-bz”,具體如:針對(duì)某電力業(yè)務(wù)場景的××項(xiàng)目_聊天機(jī)器人語料_2022-11-08_1-bz.json。b)存儲(chǔ)格式。從標(biāo)注工具中導(dǎo)出的電力智能交互文本訓(xùn)練語料樣本標(biāo)注信息文件格式可以根據(jù)需求由導(dǎo)出時(shí)的Json、csv等存儲(chǔ)格式轉(zhuǎn)換為其他符合需求的存儲(chǔ)格式如txt等。c)內(nèi)容格式。從標(biāo)注工具中導(dǎo)出的電力智能交互文本訓(xùn)練語料樣本標(biāo)注信息文件內(nèi)容組織形式是標(biāo)注工具設(shè)置的內(nèi)容形式,此時(shí)應(yīng)根據(jù)算法模型需求將標(biāo)注工具設(shè)置的內(nèi)容組織形式轉(zhuǎn)換為電力智能交互算法模型所需的內(nèi)容組織形式。8標(biāo)注流程8.1總體要求電力智能交互文本訓(xùn)練語料樣本標(biāo)注應(yīng)包含語料樣本檢查、安全管控、標(biāo)注工具選擇、語料樣本標(biāo)注、標(biāo)注結(jié)果收集和標(biāo)注結(jié)果檢查等環(huán)節(jié),具體如圖2所示。T/CES156—20225圖2樣本標(biāo)注流程8.2語料樣本檢查在電力智能交互文本訓(xùn)練語料樣本標(biāo)注前應(yīng)按照第6章要求對(duì)待標(biāo)注電力智能交互文本訓(xùn)練語料樣本進(jìn)行檢查,應(yīng)根據(jù)電力業(yè)務(wù)需求和電力智能交互文本訓(xùn)練語料樣本的數(shù)量采用全量檢查或抽樣檢查,方式如下:a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有電力智能交互文本訓(xùn)練語料樣本進(jìn)行逐條檢查。b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:1)隨機(jī)抽樣,即:針對(duì)不同電力業(yè)務(wù)場景的電力智能交互文本訓(xùn)練語料樣本采用隨機(jī)抽樣進(jìn)2)分層抽樣,即:針對(duì)同一電力業(yè)務(wù)場景的電力智能交互文本訓(xùn)練語料樣本數(shù)據(jù),根據(jù)語料樣本類型不同采取分層抽樣的方式進(jìn)行檢查。8.3安全管控應(yīng)滿足對(duì)標(biāo)注環(huán)境及標(biāo)注人員的安全管控要求。具體要求包括:a)標(biāo)注過程應(yīng)在內(nèi)網(wǎng)環(huán)境下的指定機(jī)器中進(jìn)行,機(jī)器應(yīng)開啟防火墻,安裝殺毒軟件,并禁用USB接口功能;機(jī)器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,防止數(shù)據(jù)丟失b)標(biāo)注人員應(yīng)經(jīng)過語料標(biāo)注工作培訓(xùn)獲得相關(guān)單位資格認(rèn)證并簽署語料樣本標(biāo)注保密協(xié)議后才可上崗操作。8.4標(biāo)注工具選擇標(biāo)注工具的選擇應(yīng)滿足標(biāo)注需求。具體要求包括:a)選擇的標(biāo)注工具易安裝、易操作;b)選擇的標(biāo)注工具可以標(biāo)注出電力智能交互文本訓(xùn)練語料樣本的意圖類別和槽位信息等內(nèi)容,且可以對(duì)txt、csv、Json等存儲(chǔ)格式的電力智能交互文本訓(xùn)練語料樣本文件進(jìn)行內(nèi)容解析(內(nèi)容解析即所選標(biāo)注工具可讀取出txt、csv、Json等語料樣本文件中的內(nèi)容并將內(nèi)容存儲(chǔ)于標(biāo)注工具中解析完成后即可在標(biāo)注工具內(nèi)進(jìn)行信息標(biāo)注;c)所選標(biāo)注工具能夠解析當(dāng)前標(biāo)注任務(wù)中電力智能交互文本訓(xùn)練語料樣本文件的所有文本存儲(chǔ)格式,否則需要重新選擇標(biāo)注工具或?qū)⒃摌?biāo)注任務(wù)中不能被解析的電力智能交互文本訓(xùn)練語料樣本的存儲(chǔ)格式轉(zhuǎn)換成所選標(biāo)注工具可以解析的存儲(chǔ)格式;T/CES156—20226d)所選標(biāo)注工具在完成標(biāo)注任務(wù)后可以將標(biāo)注信息導(dǎo)出并直接或經(jīng)過格式轉(zhuǎn)換后用于電力智能交互模型訓(xùn)練。8.5語料樣本標(biāo)注根據(jù)電力業(yè)務(wù)需求和電力智能交互文本訓(xùn)練語料標(biāo)注任務(wù)難易度可選擇人工標(biāo)注或半自動(dòng)化標(biāo)注。8.5.1人工標(biāo)注人工標(biāo)注任務(wù)應(yīng)按照試標(biāo)注、批量標(biāo)注順序執(zhí)行,具體要求如下:1)從標(biāo)注任務(wù)的待標(biāo)電力智能交互訓(xùn)練標(biāo)注語料樣本中抽取試標(biāo)注語料樣本。可采用隨機(jī)抽樣或分層抽樣方法抽取樣本,抽取比例不宜低于待標(biāo)注語料樣本總量的1%。2)標(biāo)注人員對(duì)抽取語料樣本進(jìn)行標(biāo)注。3)標(biāo)注項(xiàng)目負(fù)責(zé)人對(duì)標(biāo)注結(jié)果進(jìn)行確認(rèn)。4)標(biāo)注人員重復(fù)執(zhí)行標(biāo)注錯(cuò)誤的標(biāo)注任務(wù),直至標(biāo)注項(xiàng)目負(fù)責(zé)人確認(rèn)無誤。b)標(biāo)注人員批量執(zhí)行標(biāo)注任務(wù),且標(biāo)注人員。8.5.2半自動(dòng)化標(biāo)注半自動(dòng)標(biāo)注任務(wù)應(yīng)按照電力智能交互文本訓(xùn)練語料樣本構(gòu)建、模型及規(guī)則構(gòu)建、模型批量標(biāo)注順序執(zhí)行,具體要求如下:1)從待標(biāo)注電力智能交互文本訓(xùn)練語料樣本中抽取訓(xùn)練語料樣本和測(cè)試語料樣本??刹捎秒S機(jī)抽樣或分層抽樣方法抽取語料樣本,訓(xùn)練語料樣本與測(cè)試語料樣本占語料樣本總量的比例均不宜低于1%,訓(xùn)練語料樣本與測(cè)試語料樣本的比例宜為7∶3,訓(xùn)練語料樣本與測(cè)試語料樣本應(yīng)無交集。2)標(biāo)注人員通過人工方式標(biāo)注電力智能交互文本訓(xùn)練語料樣本和測(cè)試語料樣本。3)標(biāo)注項(xiàng)目負(fù)責(zé)人對(duì)標(biāo)注結(jié)果進(jìn)行確認(rèn)。4)標(biāo)注人員重復(fù)執(zhí)行標(biāo)注錯(cuò)誤的標(biāo)注任務(wù),直至標(biāo)注項(xiàng)目負(fù)責(zé)人確認(rèn)無誤。b)模型及規(guī)則構(gòu)建:1)使用標(biāo)注后的電力智能交互文本訓(xùn)練語料樣本建立標(biāo)注模型,或者根據(jù)標(biāo)注數(shù)據(jù)定義規(guī)2)使用標(biāo)注后的電力智能交互測(cè)試語料樣本測(cè)試標(biāo)注模型,且可采用召回率、精確率等指標(biāo)評(píng)估模型標(biāo)注準(zhǔn)確度。c)使用標(biāo)注模型或規(guī)則批量執(zhí)行標(biāo)注任務(wù),并通過人工對(duì)模型或規(guī)則標(biāo)注的電力智能交互語料樣本進(jìn)行檢查、修改和完善。其中標(biāo)注模型可以是深度學(xué)習(xí)模型、聚類模型等。8.6標(biāo)注結(jié)果收集標(biāo)注結(jié)果收集應(yīng)滿足以下具體要求:a)電力智能交互文本訓(xùn)練語料樣本標(biāo)注結(jié)果應(yīng)由統(tǒng)一的人員進(jìn)行回收和存放,防止文件外泄;b)電力智能交互文本訓(xùn)練語料樣本標(biāo)注結(jié)果收集人員應(yīng)對(duì)語料樣本標(biāo)注結(jié)果的相關(guān)信息(包括任務(wù)名稱、任務(wù)類型、任務(wù)開始時(shí)間、任務(wù)結(jié)束時(shí)間、任務(wù)描述進(jìn)行核對(duì))進(jìn)行檢查,防止文件c)標(biāo)注結(jié)果收集人員,宜按照電力業(yè)務(wù)的不同場景對(duì)完成標(biāo)注的電力智能交互文本訓(xùn)練語料樣本進(jìn)行安全保存。T/CES156—202278.7標(biāo)注結(jié)果檢查在電力智能交互文本訓(xùn)練語料樣本標(biāo)注結(jié)果收集后應(yīng)按照第7章要求對(duì)標(biāo)注結(jié)果進(jìn)行檢查,應(yīng)根據(jù)電力業(yè)務(wù)需求和標(biāo)注的電力智能交互文本訓(xùn)練語料樣本數(shù)量采用全量檢查或抽樣檢查,方式如下:a)全量檢查應(yīng)對(duì)指定范圍內(nèi)的所有電力智能交互文本訓(xùn)練語料樣本進(jìn)行逐條檢查,且檢查的內(nèi)容是標(biāo)注的電力智能交互文本訓(xùn)練語料樣本的意圖類別和槽位信息是否正確,若存在問題則需要人工修改正確并保存。b)抽樣檢查可采用隨機(jī)抽樣或分層抽樣,方式如下:1)隨機(jī)抽樣,即:針對(duì)不同電力業(yè)務(wù)場景的電力智能交互文本訓(xùn)練語料樣本采用隨機(jī)抽樣進(jìn)2)分層抽樣,即:針對(duì)同一電力業(yè)務(wù)場景的電力智能交互文本訓(xùn)練語料樣本,根據(jù)語料樣本類型不同采取分層抽樣的方式進(jìn)行檢查。T/CES156—20228(資料性附錄)電力智能交互文本訓(xùn)練語料樣本標(biāo)注示例A.1場景1:電費(fèi)相關(guān)例1:樣本語料內(nèi)容:用戶00535000123在2021年的總電費(fèi)是多少?標(biāo)注結(jié)果內(nèi)容:{"text":"用戶00535000123在2021年的總電費(fèi)是多少?","意圖類別":"電費(fèi)開支","槽位":{"用戶":"00535000123","時(shí)間":"2021年"}}例2:樣本語料內(nèi)容:用戶00535000123查詢一下當(dāng)前電費(fèi)余額標(biāo)注結(jié)果內(nèi)容:{"text":"用戶00535000123查詢一下當(dāng)前電費(fèi)余額","意圖類別":"電費(fèi)余額查詢","槽位":{"用戶":"00535000123","時(shí)間":"當(dāng)前"}}場景1中所有語料樣本標(biāo)注完成后,從標(biāo)注工具導(dǎo)出所有電力智能交互文本訓(xùn)練語料樣本的標(biāo)注信息文件,且文件內(nèi)容組織形式可以轉(zhuǎn)換成如下所示的格式(也可轉(zhuǎn)換成其他的內(nèi)容組織形式):內(nèi)容組織形式示例:[{"text":"用戶00535000123在2021年的總電費(fèi)是多少?","意圖類別":"電費(fèi)開支","槽位":{"用戶":"00535000123","時(shí)間":"2021年"}},{"text":"用戶00535000123查詢一下當(dāng)前電費(fèi)余額","意圖類別":"電費(fèi)余額查詢","槽位":{"用戶":"00535000123","時(shí)間":"當(dāng)前"}},]A.2場景2:電力知識(shí)查詢例1:樣本語料內(nèi)容:玻璃絕緣子的特點(diǎn)是什么?標(biāo)注結(jié)果內(nèi)容:{"text":"玻璃絕緣子的特點(diǎn)是什么?","意圖類別":"絕緣子","槽位":{"設(shè)備名稱":"玻璃絕緣子","屬性信息1":"特點(diǎn)"}}例2:樣本語料內(nèi)容:在主配網(wǎng)線路中變壓器存在的缺陷有哪些?標(biāo)注結(jié)果內(nèi)容:{"text":"在主配網(wǎng)線路中變壓器存在的缺陷有哪些?","意圖類別":"缺陷查詢","槽位":{"設(shè)備名稱":"變壓器"}}場景2中所有語料樣本標(biāo)注完成后,從標(biāo)注工具導(dǎo)出所有電力智能交互文本訓(xùn)練語料樣本的標(biāo)注信息文件,且文件內(nèi)容組織形式可以轉(zhuǎn)換成如下所示的格式(也可轉(zhuǎn)換成其他的內(nèi)容組織形式):內(nèi)容組織形式示例:[{"text":"玻璃絕緣子的特點(diǎn)是什么?","意圖類別":"絕緣子","槽位":{"設(shè)備名稱":"玻璃絕緣子","屬性信息1":"特點(diǎn)"}},{"text":"在主配網(wǎng)線路中變壓器存在的缺陷有哪些?","意圖類別":"缺陷查詢","槽位":{"設(shè)備名稱":"變壓器"}},]A.3場景3:電力安監(jiān)例1:樣本語料內(nèi)容:最近一個(gè)月內(nèi)1號(hào)操作室的電力調(diào)度員是否有沒穿工作服的情況?標(biāo)注結(jié)果內(nèi)容:{"text":"最近一個(gè)月內(nèi)1號(hào)操作室的電力調(diào)度員是否有沒穿工作服的情況?","意圖類別":"工作服","槽位":{"地點(diǎn)":"1號(hào)操作室","時(shí)間":"最近一個(gè)月內(nèi)","人員":"電力調(diào)度員"}}例2:樣本語料內(nèi)容:查看一下今年電力搶修任務(wù)1中的搶修人員有沒有佩戴絕緣手套?標(biāo)注結(jié)果內(nèi)容:{"text":"查看一下今年電力搶修任務(wù)1中的搶修人員有沒有佩戴絕緣手套?","意圖類別":"絕緣手套","槽位":{"人員":"搶修人員","任務(wù)":"任務(wù)1","時(shí)間":"今年"}}T/CES156—20229場景3中所有語料樣本標(biāo)注完成后,從標(biāo)注工具導(dǎo)出所有電力智能交互

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論