版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
——團(tuán)體標(biāo)準(zhǔn)《高質(zhì)量數(shù)據(jù)集東盟國家語料質(zhì)量評測規(guī)范》編制說明(征求意見稿)工作簡介(一)任務(wù)來源本標(biāo)準(zhǔn)是由廣西物品編碼與標(biāo)準(zhǔn)化促進(jìn)會(huì)《廣西物品編碼與標(biāo)準(zhǔn)化促進(jìn)會(huì)關(guān)于下達(dá)2025年第二十四批(共2項(xiàng))團(tuán)體標(biāo)準(zhǔn)制修訂項(xiàng)目計(jì)劃的通知》(桂標(biāo)促〔2025〕110號(hào))下達(dá)的項(xiàng)目,項(xiàng)目編號(hào):2025-82。(二)起草單位、主要起草人(姓名、單位、職務(wù)/職稱、參與編制標(biāo)準(zhǔn)分工情況)等本文件由中國—東盟信息港有限公司提出,并與廣西壯族自治區(qū)標(biāo)準(zhǔn)技術(shù)研究院、阿里云計(jì)算有限公司、北京郵電大學(xué)、廣西民族大學(xué)、北京智源研究院、上海人工智能實(shí)驗(yàn)室、聯(lián)通數(shù)據(jù)智能有限公司、中移九天人工智能科技公司、中興通訊股份有限公司、浪潮云信息技術(shù)股份公司、北京面壁智能科技有限責(zé)任公司、北京海天瑞聲科技股份有限公司、數(shù)據(jù)堂(北京)科技股份有限公司、北京晴數(shù)智慧科技有限公司、廣西達(dá)譯科技有限公司、科大訊飛股份有限公司、整數(shù)智能信息技術(shù)(杭州)有限責(zé)任公司、安徽飛數(shù)信息科技有限公司、央視國際網(wǎng)絡(luò)有限公司、三六零科技集團(tuán)有限公司、杭州君同未來科技有限公司、廣西大學(xué)共同起草。主要起草人見表1。表1姓名單位職稱/職務(wù)參與編制標(biāo)準(zhǔn)分工情況中國—東盟信息港股份有限公司施顯俊廣西壯族自治區(qū)標(biāo)準(zhǔn)技術(shù)研究院楊夢穎廣西壯族自治區(qū)標(biāo)準(zhǔn)技術(shù)研究院孟凡勝阿里云計(jì)算有限公司陳揚(yáng)阿里云計(jì)算有限公司喻鵬北京郵電大學(xué)曲昭偉北京郵電大學(xué)王曉茹北京郵電大學(xué)覃秀紅廣西民族大學(xué)北京智源研究院上海人工智能創(chuàng)新中心王寧聯(lián)通數(shù)據(jù)智能有限公司中移九天人工智能科技公司中興通訊股份有限公司浪潮云信息技術(shù)股份公司王斌峰北京面壁智能科技有限責(zé)任公司梁軼曉北京面壁智能科技有限責(zé)任公司楊明北京海天瑞聲科技股份有限公司彭穎嵐數(shù)據(jù)堂(北京)科技股份有限公司陳德毅數(shù)據(jù)堂(北京)科技股份有限公司北京晴數(shù)智慧科技有限公司溫家凱廣西達(dá)譯科技有限公司鄧姿嫻廣西達(dá)譯科技有限公司李雨泓廣西達(dá)譯科技有限公司胡明婷科大訊飛股份有限公司張?jiān)茣晨拼笥嶏w股份有限公司潘劍宜整數(shù)智能信息技術(shù)(杭州)有限責(zé)任公司阮志偉安徽飛數(shù)信息科技有限公司林偉家三六零科技集團(tuán)有限公司賈守盛三六零科技集團(tuán)有限公司索佳慧杭州君同未來科技有限責(zé)任公司李成龍杭州君同未來科技有限責(zé)任公司李志學(xué)央視國際網(wǎng)絡(luò)有限公司黃建杰央視國際網(wǎng)絡(luò)有限公司廣西大學(xué)標(biāo)準(zhǔn)編制過程(一)成立編制工作組本項(xiàng)目任務(wù)下達(dá)后,為確保標(biāo)準(zhǔn)編制工作的順利開展,負(fù)責(zé)人及時(shí)制定標(biāo)準(zhǔn)編制工作方案、部署工作任務(wù)、確定標(biāo)準(zhǔn)起草工作時(shí)間、內(nèi)容框架等,全面有序開展該標(biāo)準(zhǔn)的編制工作,并成立編制工作組,進(jìn)行任務(wù)分工。(二)調(diào)查研究和試驗(yàn)論證本標(biāo)準(zhǔn)各項(xiàng)技術(shù)指標(biāo)確定的依據(jù),主要為高質(zhì)量東盟語料庫的建設(shè)提供統(tǒng)一、客觀的“標(biāo)尺”,并吸收了各起草單位在東盟國家語料庫建設(shè)、人工智能開發(fā)與應(yīng)用、大數(shù)據(jù)應(yīng)用研究等方面的實(shí)踐經(jīng)驗(yàn)。同時(shí),參考了近年來關(guān)于語料庫建設(shè)、高質(zhì)量數(shù)據(jù)集、語料質(zhì)量測試等公開發(fā)表的學(xué)術(shù)成果,以及國內(nèi)已有的高質(zhì)量數(shù)據(jù)集、信息技術(shù)安全等相關(guān)技術(shù)標(biāo)準(zhǔn)與規(guī)范。(三)形成工作組討論稿(2025年10月—2025年11月)在對所收集的資料進(jìn)行全面梳理與深入研究的基礎(chǔ)上,編制工作組圍繞標(biāo)準(zhǔn)的整體架構(gòu)展開了系統(tǒng)論證,并就標(biāo)準(zhǔn)的核心條款、關(guān)鍵技術(shù)指標(biāo)及實(shí)施路徑等關(guān)鍵內(nèi)容組織了多輪初步研討,形成了工作組討論稿。(四)征求意見(2025年11月—2025年12月)項(xiàng)目組組織了多輪內(nèi)部討論會(huì),以專家學(xué)者、業(yè)務(wù)骨干座談會(huì)以及企業(yè)調(diào)研等形式進(jìn)行深入調(diào)研和討論,對標(biāo)準(zhǔn)文本進(jìn)行修改完善,處理內(nèi)部意見40余條,形成《高質(zhì)量數(shù)據(jù)集東盟國家語料質(zhì)量評測規(guī)范》團(tuán)體標(biāo)準(zhǔn)征求意見稿及編制說明。標(biāo)準(zhǔn)編制原則(一)規(guī)范性原則標(biāo)準(zhǔn)的編寫格式按GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》給出的規(guī)定進(jìn)行編寫。(二)一致性原則本標(biāo)準(zhǔn)符合法律、行政法規(guī)的要求,并具有先進(jìn)性,各項(xiàng)指標(biāo)不低于國家強(qiáng)制性標(biāo)準(zhǔn)、推薦性國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)。(三)可操作性原則深入調(diào)研,通過充分聽取各起草單位意見,確保標(biāo)準(zhǔn)可以作為評測東盟國家語料質(zhì)量的依據(jù),在實(shí)際應(yīng)用上有效、可行。主要內(nèi)容(如技術(shù)指標(biāo)、參數(shù)、公式、性能要求、試驗(yàn)方法、檢驗(yàn)規(guī)則)的論據(jù)《高質(zhì)量數(shù)據(jù)集東盟國家語料庫質(zhì)量評測規(guī)范》分為7個(gè)章節(jié):范圍、規(guī)范性引用文件、術(shù)語和定義、縮略語、評測框架、指標(biāo)要求、評測細(xì)則。(一)范圍本文件規(guī)范了東盟國家語料庫的質(zhì)量評測,明確了評測框架、評測指標(biāo)和評測細(xì)則。本文件可為組織機(jī)構(gòu)開展東盟國家語料庫質(zhì)量評測工作提供指導(dǎo)。(二)規(guī)范性引用文件本文件沒有規(guī)范性引用文件。(三)術(shù)語和定義本文件界定了臟數(shù)據(jù)、采樣率、位深、標(biāo)簽等術(shù)語和定義。(四)縮略語本章節(jié)給出了縮略語ASR、K12、RLHF、SFT、TTS。評測框架本章節(jié)明確了評測對象與評測指標(biāo)。指標(biāo)要求本章節(jié)明確了語料庫質(zhì)量評測指標(biāo)體系的內(nèi)容,包括:說明文檔完整性、語料質(zhì)量。并逐一說明各指標(biāo)的具體要求。為語料庫質(zhì)量評測提供依據(jù)。(七)評測細(xì)則本章節(jié)明確了各項(xiàng)質(zhì)量評測指標(biāo)的評分細(xì)則,使各種指標(biāo)可量化評分,為高質(zhì)量東盟國家語料庫的建設(shè)提供統(tǒng)一、客觀的“標(biāo)尺”。與原標(biāo)準(zhǔn)或其他標(biāo)準(zhǔn)的主要差異和水平對比無。解決的主要問題本項(xiàng)目將東盟國家語料庫評測工作轉(zhuǎn)變?yōu)橐豁?xiàng)可管理、可度量、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化流程,旨在系統(tǒng)構(gòu)建東盟多語種語料質(zhì)量評測的統(tǒng)一技術(shù)框架,為高質(zhì)量東盟國家語料庫的建設(shè)提供統(tǒng)一、客觀的“標(biāo)尺”。一方面,它可以提高東盟國家語料庫的質(zhì)量,從而確保模型性能與可靠性并訓(xùn)練出更精準(zhǔn)、可靠、泛化能力強(qiáng)的多語言大模型、翻譯系統(tǒng)和對話AI;一方面實(shí)現(xiàn)高效模型迭代與診斷,當(dāng)模型表現(xiàn)不佳時(shí),規(guī)范的測評報(bào)告能精準(zhǔn)定位數(shù)據(jù)缺陷(如“多樣性不足,缺乏某領(lǐng)域語料”),避免研發(fā)資源浪費(fèi)在錯(cuò)誤的方向上,顯著提升開發(fā)效率;另一方面可以保證技術(shù)應(yīng)用的安全性與公平,通過規(guī)范識(shí)別并修正語料中的社會(huì)偏見、文化誤讀和敏感有害信息,從源頭降低AI系統(tǒng)的歧視性輸出和安全風(fēng)險(xiǎn),構(gòu)建可信人工智能。主要試驗(yàn)(或驗(yàn)證)情況分析無。標(biāo)準(zhǔn)中涉及的專利情況無。產(chǎn)業(yè)化情況無。采用國際標(biāo)準(zhǔn)和國外先進(jìn)標(biāo)準(zhǔn)情況無。與相關(guān)國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)及其他標(biāo)準(zhǔn),特別是強(qiáng)制性標(biāo)準(zhǔn)的協(xié)調(diào)性經(jīng)查詢,截至目前,國內(nèi)外暫無直接與“東盟國家語料質(zhì)量評測”相關(guān)的國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)和團(tuán)體標(biāo)準(zhǔn)。本文件制定的內(nèi)容符合國家相關(guān)法律法規(guī)和政策的規(guī)定。符合市場需求和創(chuàng)新需求的情況說明《高質(zhì)量數(shù)據(jù)集東盟國家語料質(zhì)量評測規(guī)范》旨在解決東盟多語言語料質(zhì)量評測“無標(biāo)可依”的痛點(diǎn),其技術(shù)內(nèi)容與創(chuàng)新點(diǎn)緊密圍繞東盟語言的多樣性、復(fù)雜性和低資源特性展開,致力于建立一套科學(xué)、可操作、可擴(kuò)展的質(zhì)量保障體系。這套規(guī)范的建立,將為建設(shè)高質(zhì)量的中國—東盟多語言語料庫,并最終打造領(lǐng)先的跨語言AI能力,提供不可或缺的堅(jiān)實(shí)支撐。重大分歧意見的處理經(jīng)過和依據(jù)無。貫徹標(biāo)準(zhǔn)的要求和措施建議(包括組織措施、技術(shù)措施、過渡辦法等)(一)成立貫宣工作組成立標(biāo)準(zhǔn)宣貫工作組負(fù)責(zé)本標(biāo)準(zhǔn)相關(guān)解讀、培訓(xùn)資料、考核資料,完善標(biāo)準(zhǔn)內(nèi)容,以及推行、評估、提煉和協(xié)助改善和提升標(biāo)準(zhǔn)的工作。(二)召開標(biāo)準(zhǔn)貫宣發(fā)布會(huì)通過線下、線上渠道召開標(biāo)準(zhǔn)貫宣發(fā)布會(huì),提前通知與標(biāo)準(zhǔn)內(nèi)容相關(guān)部門、企業(yè)人員參會(huì),由標(biāo)準(zhǔn)貫宣工作組及專業(yè)人員解讀標(biāo)準(zhǔn)內(nèi)容,并通過示例對標(biāo)準(zhǔn)要求進(jìn)行示范;邀請媒體對發(fā)布會(huì)進(jìn)行線上線下宣傳報(bào)道,擴(kuò)大宣貫會(huì)影響力;會(huì)后將標(biāo)準(zhǔn)解讀信息發(fā)布于中心門戶網(wǎng)站,供標(biāo)準(zhǔn)實(shí)施的工作人員及時(shí)了解和學(xué)習(xí)。(三)開展標(biāo)準(zhǔn)宣貫培訓(xùn)邀請標(biāo)準(zhǔn)起草專家對標(biāo)準(zhǔn)各部分內(nèi)容進(jìn)行講解,將理論闡述、方法與實(shí)際相結(jié)合,做到深入淺出,促進(jìn)標(biāo)準(zhǔn)的理解與實(shí)施。(四)標(biāo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)綠化養(yǎng)護(hù)及管理執(zhí)行方案
- 建筑設(shè)計(jì)項(xiàng)目風(fēng)險(xiǎn)評估與控制方案
- 高中數(shù)學(xué)函數(shù)解析幾何專項(xiàng)訓(xùn)練方案
- 學(xué)生行為養(yǎng)成教育指導(dǎo)方案
- 電商平臺(tái)客戶服務(wù)技術(shù)培訓(xùn)方案
- 物業(yè)管理團(tuán)隊(duì)執(zhí)行力提升培訓(xùn)方案
- 企業(yè)勞務(wù)派遣服務(wù)方案及管理措施
- 企業(yè)運(yùn)營成本優(yōu)化方案策劃模板
- 濃鹽水處理及零排放技術(shù)方案
- 中小企業(yè)市場營銷方案策劃范本
- 2025吉林檢驗(yàn)專升本試題及答案
- 軍人婚戀觀教育
- 硫化氫(CAS號(hào):7783-06-4)理化性質(zhì)與危險(xiǎn)特性一覽表
- QHBTL01-2022 熱力入口裝置
- 廣告標(biāo)識(shí)牌采購?fù)稑?biāo)方案
- 中國特色社會(huì)主義知識(shí)點(diǎn)總結(jié)中職高考政治一輪復(fù)習(xí)
- 計(jì)算機(jī)應(yīng)用專業(yè)發(fā)展規(guī)劃
- 結(jié)算審核實(shí)施方案
- 企業(yè)管理的基礎(chǔ)工作包括哪些內(nèi)容
- 2025-2030中國奶瓶消毒烘干器行業(yè)市場發(fā)展分析及競爭格局與投資前景研究報(bào)告
- 學(xué)?!?530”安全教育記錄表(2024年秋季全學(xué)期)
評論
0/150
提交評論