版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Q/LB.□XXXXX-XXXX目次TOC\o"1-1"\h\t"標(biāo)準(zhǔn)文件_一級(jí)條標(biāo)題,2,標(biāo)準(zhǔn)文件_附錄一級(jí)條標(biāo)題,2,"前言 II1范圍 12規(guī)范性引用文件 13術(shù)語(yǔ)和定義 14縮略語(yǔ) 15建設(shè)規(guī)劃 15.1需求分析 15.2總體規(guī)劃 25.3語(yǔ)料類型 25.4語(yǔ)料格式 36語(yǔ)料采集 36.1采集方式 36.2采集流程 37語(yǔ)料預(yù)處理 38語(yǔ)料標(biāo)注 59語(yǔ)料質(zhì)檢 79.1質(zhì)檢方法 79.2流程 7前言本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由中國(guó)—東盟信息港股份有限公司提出。本文件由廣西物品編碼與標(biāo)準(zhǔn)化促進(jìn)會(huì)歸口。本文件起草單位:本文件主要起草人:高質(zhì)量數(shù)據(jù)集東盟國(guó)家語(yǔ)料建設(shè)規(guī)范范圍本文件提供了高質(zhì)量數(shù)據(jù)集東盟國(guó)家語(yǔ)料建設(shè)全生命周期的指導(dǎo)和建議,規(guī)定了建設(shè)規(guī)劃、語(yǔ)料采集、語(yǔ)料預(yù)處理、語(yǔ)料標(biāo)注和語(yǔ)料質(zhì)檢等內(nèi)容。本文件適用于高質(zhì)量數(shù)據(jù)集東盟國(guó)家語(yǔ)料的建設(shè)工作。規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T3527—2020信息安全技術(shù)個(gè)人信息安全規(guī)范GB/T36344—2018信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)GB/T42755人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程術(shù)語(yǔ)和定義GB/T42755界定的以及下列術(shù)語(yǔ)和定義適用于本文件。
語(yǔ)料corpus指在語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料,用于訓(xùn)練人工智能模型的數(shù)據(jù)集。
數(shù)據(jù)標(biāo)注datalabeling給數(shù)據(jù)樣本指定目標(biāo)變量和賦值的過(guò)程。[來(lái)源:GB/T42755-2023,3?????.1]
監(jiān)督微調(diào)supervisedfine-tuning監(jiān)督微調(diào)是訓(xùn)練大語(yǔ)言模型的關(guān)鍵階段。通過(guò)使用高質(zhì)量的、人工標(biāo)注的指令-回答對(duì)數(shù)據(jù)集對(duì)模型進(jìn)行有監(jiān)督的微調(diào)。
基于人類反饋的強(qiáng)化學(xué)習(xí)reinforcementlearningfromhumanfeedback通過(guò)人類對(duì)模型不同輸出的偏好進(jìn)行標(biāo)注,訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,或者建立獎(jiǎng)勵(lì)規(guī)則,然后利用強(qiáng)化學(xué)習(xí)算法根據(jù)這個(gè)獎(jiǎng)勵(lì)模型、獎(jiǎng)勵(lì)規(guī)則來(lái)訓(xùn)練SFT后的模型??s略語(yǔ)下列縮略語(yǔ)適用于本文件。ASR:自動(dòng)語(yǔ)音識(shí)別(AutomaticSpeechRecognition)K12:從幼兒園到十二年級(jí)的教育(Kindergartenthroughtwelfthgrade)RLHF:基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback)SFT:監(jiān)督微調(diào)(SupervisedFine-Tuning)TTS:文本轉(zhuǎn)語(yǔ)音(Text-To-Speech)建設(shè)規(guī)劃需求分析需求分析是語(yǔ)料庫(kù)建設(shè)的首要環(huán)節(jié),根據(jù)人工智能訓(xùn)練的目標(biāo),明確語(yǔ)料的范圍、內(nèi)容、質(zhì)量、格式等方面的要求。該階段包括但不限于:明確人工智能訓(xùn)練的預(yù)期目標(biāo),結(jié)合應(yīng)用場(chǎng)景與目標(biāo)區(qū)域,確定需要語(yǔ)料的范圍、內(nèi)容和質(zhì)量等;根據(jù)人工智能訓(xùn)練預(yù)期的需求,核對(duì)語(yǔ)料數(shù)據(jù)是否可獲取且可使用;構(gòu)建一個(gè)具有相關(guān)數(shù)據(jù)質(zhì)量特性的數(shù)據(jù)質(zhì)量模型,GB/T36344定義了數(shù)據(jù)質(zhì)量特性??傮w規(guī)劃語(yǔ)料庫(kù)的建設(shè)規(guī)劃階段主要確保語(yǔ)料資源滿足需求分析所確立的目標(biāo)與規(guī)格,并為實(shí)現(xiàn)人工智能應(yīng)用提供數(shù)據(jù)支撐。該階段包括但不限于:界定語(yǔ)料庫(kù)的整體數(shù)據(jù)構(gòu)成,包括但不限于:語(yǔ)料類型,定義了語(yǔ)料信息的形態(tài);來(lái)源分布,定義了語(yǔ)料采集渠道和構(gòu)成比例;領(lǐng)域覆蓋,定義了語(yǔ)料涉及的專業(yè)范疇;語(yǔ)料規(guī)模,定義了語(yǔ)料的數(shù)據(jù)總量;元數(shù)據(jù)說(shuō)明,定義了語(yǔ)料屬性的數(shù)據(jù)。制定涵蓋語(yǔ)料采集、清洗、預(yù)處理、標(biāo)注與校驗(yàn)的詳細(xì)工作計(jì)劃,明確各階段的任務(wù)目標(biāo);預(yù)計(jì)工作體量,預(yù)估完成制定計(jì)劃的工作量,包括數(shù)據(jù)重組、傳輸或收集的時(shí)間。語(yǔ)料類型劃分準(zhǔn)則語(yǔ)料類型的劃分準(zhǔn)則包括但不限于:模態(tài)類型,;語(yǔ)言種類;標(biāo)注和處理程度;時(shí)間維度。語(yǔ)言種類根據(jù)語(yǔ)料中包含的語(yǔ)言種類進(jìn)行劃分,語(yǔ)料類型如下:?jiǎn)握Z(yǔ)語(yǔ)料,語(yǔ)料中僅包含一種語(yǔ)言;平行語(yǔ)料,語(yǔ)料中包含兩種或多種語(yǔ)言的文本,它們互為翻譯關(guān)系;可比語(yǔ)料,語(yǔ)料中包含不同語(yǔ)言的文本,內(nèi)容主題相似,但不互為翻譯關(guān)系;跨語(yǔ)言語(yǔ)料,語(yǔ)料中包含不同語(yǔ)言的文本,它們不互為翻譯關(guān)系。模態(tài)類型根據(jù)模態(tài)劃分,語(yǔ)料類型如下:文本語(yǔ)料,語(yǔ)料中信息載體為文字符號(hào)的語(yǔ)料;音頻語(yǔ)料,語(yǔ)料中信息載體為聲音信號(hào)的語(yǔ)料,通常包括原始音頻數(shù)據(jù)及其對(duì)應(yīng)的文本轉(zhuǎn)寫稿;圖像語(yǔ)料,語(yǔ)料中信息載體為靜態(tài)像素的語(yǔ)料;視頻語(yǔ)料,語(yǔ)料中信息載體為動(dòng)態(tài)圖像序列的語(yǔ)料;多模態(tài)語(yǔ)料,同時(shí)包含兩種或兩種以上模態(tài)的信息。標(biāo)注和處理程度生語(yǔ)料生語(yǔ)料又稱粗語(yǔ)料,未經(jīng)任何加工處理的原始文本或音頻數(shù)據(jù)。常用于無(wú)監(jiān)督學(xué)習(xí)、語(yǔ)言統(tǒng)計(jì)、詞頻分析等。熟語(yǔ)料在生語(yǔ)料的基礎(chǔ)上,增加了各種語(yǔ)言學(xué)或應(yīng)用相關(guān)的標(biāo)簽信息。標(biāo)注的內(nèi)容包括但不限于:詞性標(biāo)注,標(biāo)注文本中每個(gè)詞語(yǔ)的詞性;句法標(biāo)注,標(biāo)注文本中句子的結(jié)構(gòu);語(yǔ)義標(biāo)注,標(biāo)注文本中句子中的語(yǔ)義關(guān)系和專有名詞;情感標(biāo)注,標(biāo)注文本中情感傾向;指代標(biāo)注,標(biāo)注文本中代詞具體代指的實(shí)體。時(shí)間維度共時(shí)語(yǔ)料語(yǔ)料用于刻畫與記錄語(yǔ)言在某一特定歷史斷面的靜態(tài)結(jié)構(gòu)與使用規(guī)則。歷時(shí)語(yǔ)料語(yǔ)料用于追蹤與分析語(yǔ)言跨越一個(gè)較長(zhǎng)歷史時(shí)期的動(dòng)態(tài)演變規(guī)律與發(fā)展趨勢(shì)。語(yǔ)料格式文本語(yǔ)料格式文件編碼應(yīng)使用UTF-8編碼和NFC規(guī)范化形式,結(jié)構(gòu)化數(shù)據(jù)應(yīng)采用CSV格式,半結(jié)構(gòu)化的數(shù)據(jù)應(yīng)使用JSONL格式。音頻語(yǔ)料格式音頻數(shù)據(jù)應(yīng)采用WAV格式或FLAC格式。ASR語(yǔ)料采樣率應(yīng)不低于16kHz。TTS語(yǔ)料采樣率應(yīng)不低于44.1kHz,位深不低于16bit。語(yǔ)料采集語(yǔ)料采集階段核心是從建設(shè)規(guī)劃階段所確定的數(shù)據(jù)源中,系統(tǒng)性地收集構(gòu)建語(yǔ)料庫(kù)的原始數(shù)據(jù)。語(yǔ)料采集過(guò)程應(yīng)符合GB/T35273-2020要求。采集方式原始語(yǔ)料數(shù)據(jù)的采集應(yīng)根據(jù)語(yǔ)料庫(kù)的建設(shè)目標(biāo)與資源條件,選擇合適的采集方式,包括但不限于:識(shí)別并獲取已存在的公開(kāi)或授權(quán)數(shù)據(jù)集,評(píng)估其適用性,并可直接復(fù)用或經(jīng)過(guò)轉(zhuǎn)化后滿足本次建設(shè)要求;通過(guò)向數(shù)據(jù)供應(yīng)商采購(gòu),獲取自身難以采集的特定領(lǐng)域或大規(guī)模數(shù)據(jù);當(dāng)現(xiàn)有數(shù)據(jù)無(wú)法滿足需求時(shí),應(yīng)啟動(dòng)新數(shù)據(jù)采集工作,主要包括:網(wǎng)絡(luò)爬蟲采集,針對(duì)互聯(lián)網(wǎng)公開(kāi)的文本、圖片等信息,使用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行定向、批量的數(shù)據(jù)抓取與解析;在特定場(chǎng)景下,通過(guò)傳感器、攝像設(shè)備等硬件,采集現(xiàn)實(shí)世界產(chǎn)生的原始數(shù)據(jù);對(duì)于特定的內(nèi)容或高價(jià)值內(nèi)容,可通過(guò)專家編寫、用戶產(chǎn)生內(nèi)容等方式進(jìn)行采集。采集流程語(yǔ)料采集流程如下:制定采集實(shí)施方案,明確各數(shù)據(jù)源的技術(shù)路徑、參數(shù)配置、質(zhì)量要求與進(jìn)度安排;實(shí)施小規(guī)模采集測(cè)試,驗(yàn)證采集方法的可行性與數(shù)據(jù)質(zhì)量。根據(jù)測(cè)試結(jié)果優(yōu)化采集參數(shù),調(diào)整技術(shù)方案;根據(jù)驗(yàn)證通過(guò)的方案開(kāi)展規(guī)?;杉?,實(shí)施全過(guò)程監(jiān)控與日志記錄,確保采集作業(yè)的穩(wěn)定性。語(yǔ)料預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)清洗過(guò)程應(yīng)包括去噪、去重、編碼轉(zhuǎn)換、語(yǔ)言識(shí)別與過(guò)濾等步驟,以確保數(shù)據(jù)質(zhì)量符合語(yǔ)料庫(kù)的建設(shè)要求。其中具體處理方式包括:文本處理:清除廣告、導(dǎo)航欄、HTML/XML標(biāo)簽、特殊亂碼等信息;音頻處理:去除首尾靜音、背景噪音、非目標(biāo)聲音等;編碼轉(zhuǎn)化:檢測(cè)并統(tǒng)一將編碼轉(zhuǎn)換為UTF-8采用NFC歸一化形式,覆蓋東盟各地區(qū)不同語(yǔ)言涉及的多種字符集,確保文本的正常顯示;語(yǔ)言識(shí)別與過(guò)濾:使用語(yǔ)言識(shí)別工具,確保語(yǔ)料的語(yǔ)言純凈度,過(guò)濾主體語(yǔ)言為非目標(biāo)語(yǔ)言的文檔;去重:識(shí)別并刪除完全重合與高度重復(fù)的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換將經(jīng)驗(yàn)證后的數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為標(biāo)準(zhǔn)化、便于處理的格式。其中具體的處理方式包括:文本歸一化:將數(shù)字、日期、時(shí)間、貨幣、度量單位等轉(zhuǎn)換為一致的書寫格式;語(yǔ)言結(jié)構(gòu)標(biāo)準(zhǔn)化:根據(jù)目標(biāo)語(yǔ)言的語(yǔ)法規(guī)則,將連續(xù)的文本分割為獨(dú)立的句子。對(duì)中文、泰文、高棉文等需要進(jìn)行分詞的語(yǔ)言進(jìn)行分詞,對(duì)英文、印尼文、馬來(lái)文、德頓語(yǔ)等語(yǔ)言,進(jìn)行規(guī)范的詞形還原進(jìn)行處理;格式標(biāo)準(zhǔn)化:將所有數(shù)據(jù)文件按對(duì)應(yīng)的格式要求進(jìn)行轉(zhuǎn)換。數(shù)據(jù)脫敏數(shù)據(jù)脫敏過(guò)程應(yīng)符合GB/T35273-2020要求。脫敏數(shù)據(jù)類型脫敏數(shù)據(jù)類型包括但不限于:個(gè)人身份信息:姓名、身份證號(hào)、電話號(hào)碼、住址等信息;文化敏感信息:東盟國(guó)家各地區(qū)文化、宗教和王室等信息;公共安全信息:煽動(dòng)暴力信息、極端主義言論等信息;金融財(cái)產(chǎn)信息:薪資信息、交易記錄、稅務(wù)信息等信息;政治敏感信息:國(guó)家主權(quán)信息、敏感政治信息、邊境爭(zhēng)端等信息。脫敏策略敏感信息處理方式見(jiàn)表1。敏感信息處理方式表敏感等級(jí)敏感信息處理方式低姓名、身份證號(hào)、電話號(hào)碼、住址等個(gè)人信息替換假名、泛化數(shù)值、敏感字段加密中東盟國(guó)家各地區(qū)文化、宗教和王室等信息內(nèi)容替換、刪除、中性化改寫中煽動(dòng)暴力信息、極端主義言論等信息刪除中薪資信息、交易記錄、稅務(wù)信息等信息替換假名、泛化數(shù)值、假數(shù)據(jù)替換高國(guó)家主權(quán)信息、敏感政治信息、邊境爭(zhēng)端等信息泛化數(shù)值、刪除數(shù)據(jù)驗(yàn)證數(shù)據(jù)驗(yàn)證是確保語(yǔ)料庫(kù)基礎(chǔ)質(zhì)量的基礎(chǔ),其目的是識(shí)別并剔除不符合要求的數(shù)據(jù)。其中具體處理方式包括:完整性驗(yàn)證:檢查數(shù)據(jù)記錄是否存在關(guān)鍵字段缺失。格式合規(guī)性驗(yàn)證:檢查文本數(shù)據(jù)的文件編碼是否采用UTF-8編碼NFC歸一化形式,檢查音頻數(shù)據(jù)格式、采樣率、位深等是否符合要求;基礎(chǔ)數(shù)據(jù)質(zhì)量校驗(yàn):對(duì)文本數(shù)據(jù)進(jìn)行基礎(chǔ)校驗(yàn),如檢查句子是否完整、是否存在大量無(wú)意義的字符重復(fù)。對(duì)音頻文件進(jìn)行質(zhì)量校驗(yàn),如是否存在信號(hào)失真、持續(xù)靜音時(shí)間過(guò)長(zhǎng)、背景噪音過(guò)大等問(wèn)題。語(yǔ)料標(biāo)注通用語(yǔ)料標(biāo)注通用語(yǔ)料標(biāo)注具體步驟包括但不限于:明確所需標(biāo)注語(yǔ)料模態(tài)以及其覆蓋的領(lǐng)域。針對(duì)東盟國(guó)家的語(yǔ)料,標(biāo)注團(tuán)隊(duì)?wèi)?yīng)包含熟悉目標(biāo)語(yǔ)言文化的成員,負(fù)責(zé)審核與文化、宗教、習(xí)俗相關(guān)內(nèi)容的標(biāo)注恰當(dāng)性;明確定義標(biāo)注標(biāo)簽,標(biāo)簽應(yīng)具有明確的定義和層次結(jié)構(gòu)。確保不同人員、不同批次的標(biāo)注結(jié)果具有一致性;標(biāo)注過(guò)程中需記錄標(biāo)注的操作日志,對(duì)存疑或修改的標(biāo)注數(shù)據(jù)應(yīng)保留版本記錄和修改的理由,便于問(wèn)題追溯和標(biāo)注優(yōu)化。專項(xiàng)語(yǔ)料標(biāo)注SFT語(yǔ)料核心要求構(gòu)建高質(zhì)量、多樣化“指令-響應(yīng)”對(duì),指導(dǎo)模型遵循指令完成特定任務(wù)。標(biāo)注原則SFT語(yǔ)料的標(biāo)注原則包括但不限于:基于原始語(yǔ)料的核心內(nèi)容與目標(biāo)應(yīng)用場(chǎng)景,設(shè)計(jì)覆蓋多種類型的指令任務(wù)。任務(wù)設(shè)計(jì)應(yīng)體現(xiàn)多樣性,并充分考慮東盟地區(qū)的語(yǔ)言習(xí)慣、文化習(xí)俗、社會(huì)規(guī)范及常見(jiàn)應(yīng)用場(chǎng)景,以全面培養(yǎng)模型在跨文化語(yǔ)境下的理解與執(zhí)行能力;針對(duì)每一條指令,應(yīng)生成與之精確匹配的高質(zhì)量回答?;卮鸬纳蓱?yīng)確保其源于語(yǔ)料的客觀事實(shí)或經(jīng)過(guò)驗(yàn)證的領(lǐng)域知識(shí),并嚴(yán)格遵循東盟地區(qū)的核心價(jià)值觀,避免涉及種族、宗教、王室、地域等敏感話題,確保內(nèi)容的得體性與安全性;將指令與回答組合成結(jié)構(gòu)規(guī)范的對(duì)話單元,形成模型可直接學(xué)習(xí)的訓(xùn)練實(shí)例。RLHF語(yǔ)料核心要求構(gòu)建高質(zhì)量、安全的“指令-正負(fù)面對(duì)比回答”對(duì),訓(xùn)練模型識(shí)別并生成符合人類價(jià)值觀的安全、有益回復(fù)。標(biāo)注原則RLHF語(yǔ)料標(biāo)注的原則包括但不限于:設(shè)計(jì)具有挑戰(zhàn)性的指令任務(wù)。任務(wù)設(shè)計(jì)應(yīng)覆蓋多種風(fēng)險(xiǎn)類型,如偏見(jiàn)、歧視、誤導(dǎo)及東盟地區(qū)特有的文化、宗教、政治及社會(huì)敏感性風(fēng)險(xiǎn)點(diǎn)等,以全面培養(yǎng)模型的辨別與抵御能力;針對(duì)每一條指令,應(yīng)同步生成高質(zhì)量的正面對(duì)比回答與負(fù)面對(duì)比回答。正面回答的生成應(yīng)確保其安全性、建設(shè)性并符合客觀事實(shí);負(fù)面回答應(yīng)體現(xiàn)典型的有害模式,但需控制在合理范圍內(nèi)以供模型對(duì)比學(xué)習(xí);將指令與正負(fù)面回答組合成結(jié)構(gòu)規(guī)范的對(duì)比學(xué)習(xí)單元,并經(jīng)過(guò)東盟地區(qū)文化專家評(píng)審意見(jiàn)的嚴(yán)格質(zhì)量審核,形成用于強(qiáng)化學(xué)習(xí)訓(xùn)練的高質(zhì)量偏好數(shù)據(jù)。價(jià)值觀語(yǔ)料核心要求構(gòu)建體現(xiàn)核心價(jià)值觀的“指令-正負(fù)回答”對(duì),設(shè)計(jì)體現(xiàn)核心價(jià)值觀的指令任務(wù),訓(xùn)練模型準(zhǔn)確理解并傳遞符合社會(huì)文化規(guī)范的價(jià)值理念。標(biāo)注原則價(jià)值觀語(yǔ)料的標(biāo)注原則包括但不限于:設(shè)計(jì)體現(xiàn)核心價(jià)值觀的指令任務(wù)。任務(wù)設(shè)計(jì)應(yīng)覆蓋文化認(rèn)同、社會(huì)和諧、法律意識(shí)、可持續(xù)發(fā)展等多個(gè)維度,全面培養(yǎng)模型的價(jià)值判斷能力;針對(duì)每一條指令,應(yīng)同步生成符合主流價(jià)值觀的正面回答與偏離核心價(jià)值觀的負(fù)面回答。正面回答應(yīng)準(zhǔn)確體現(xiàn)對(duì)象國(guó)的文化精髓和社會(huì)共識(shí),負(fù)面回答應(yīng)展現(xiàn)典型的價(jià)值觀偏離現(xiàn)象,但需確保其作為對(duì)比樣本的合理性;將指令與正負(fù)面回答組合成結(jié)構(gòu)化的價(jià)值觀學(xué)習(xí)單元,并通過(guò)文化專家的審核認(rèn)證,形成用于價(jià)值觀對(duì)齊訓(xùn)練的高質(zhì)量語(yǔ)料庫(kù)。平行語(yǔ)料核心要求構(gòu)建高質(zhì)量、精準(zhǔn)對(duì)齊的雙語(yǔ)或多語(yǔ)“源語(yǔ)言-目標(biāo)語(yǔ)言”句對(duì),為模型的跨語(yǔ)言理解與生成能力提供基礎(chǔ)訓(xùn)練數(shù)據(jù)。標(biāo)注原則平行語(yǔ)料的標(biāo)注原則包括但不限于:基于源語(yǔ)言文本的核心語(yǔ)義與語(yǔ)言風(fēng)格,標(biāo)注在目標(biāo)語(yǔ)言中意義完全對(duì)等、表達(dá)自然流暢的翻譯,確保信息傳遞的準(zhǔn)確性與語(yǔ)言的地道性;針對(duì)每一條源語(yǔ)言文本,應(yīng)提供與之精確對(duì)應(yīng)的目標(biāo)語(yǔ)言文本。對(duì)應(yīng)文本的生成應(yīng)確保其語(yǔ)義一致性、語(yǔ)境適配性與文化適配性,避免直譯與歧義;將源語(yǔ)言與目標(biāo)語(yǔ)言文本組合成結(jié)構(gòu)規(guī)范的對(duì)齊單元,并經(jīng)過(guò)目標(biāo)語(yǔ)言專家的嚴(yán)格校對(duì)與質(zhì)量驗(yàn)證,形成用于監(jiān)督學(xué)習(xí)的高質(zhì)量翻譯對(duì)。ASR語(yǔ)料核心要求構(gòu)建高質(zhì)量、高匹配度的"音頻-文本"對(duì)齊數(shù)據(jù)對(duì),為模型的語(yǔ)音識(shí)別與轉(zhuǎn)寫能力提供基礎(chǔ)訓(xùn)練數(shù)據(jù)。標(biāo)注原則ASR語(yǔ)料的標(biāo)注原則包括但不限于:基于音頻數(shù)據(jù)的實(shí)際內(nèi)容,標(biāo)注完全對(duì)應(yīng)的文本轉(zhuǎn)寫;每一條音頻數(shù)據(jù),應(yīng)提供與之精確匹配的文本內(nèi)容。文本轉(zhuǎn)寫應(yīng)嚴(yán)格遵循音頻的語(yǔ)音內(nèi)容,同時(shí)符合書面語(yǔ)的表達(dá)規(guī)范;將音頻與文本數(shù)據(jù)組合成結(jié)構(gòu)規(guī)范的訓(xùn)練單元,并經(jīng)過(guò)嚴(yán)格的聽(tīng)檢校對(duì)與質(zhì)量驗(yàn)證,形成用于語(yǔ)音識(shí)別訓(xùn)練的高質(zhì)量對(duì)齊數(shù)據(jù)。TTS語(yǔ)料核心要求構(gòu)建高質(zhì)量、高表現(xiàn)力的"文本-音頻"對(duì)齊數(shù)據(jù)對(duì),為模型的文本轉(zhuǎn)語(yǔ)音能力提供基礎(chǔ)訓(xùn)練數(shù)據(jù),確保合成的語(yǔ)音自然流暢、富有表現(xiàn)力。標(biāo)注原則TTS語(yǔ)料的標(biāo)注原則包括但不限于:基于文本內(nèi)容的語(yǔ)義,錄制與之完全匹配的高質(zhì)量音頻數(shù)據(jù)。錄音過(guò)程應(yīng)確保發(fā)音準(zhǔn)確、語(yǔ)調(diào)自然、情感表達(dá)恰當(dāng);針對(duì)每一條文本數(shù)據(jù),應(yīng)提供與之精確對(duì)應(yīng)的音頻內(nèi)容。音頻錄制應(yīng)嚴(yán)格遵循文本的語(yǔ)義和語(yǔ)法結(jié)構(gòu);將文本與音頻數(shù)據(jù)組合成結(jié)構(gòu)規(guī)范的訓(xùn)練單元,并經(jīng)過(guò)嚴(yán)格的聽(tīng)檢校對(duì)與質(zhì)量驗(yàn)證,形成用于語(yǔ)音合成訓(xùn)練的高質(zhì)量對(duì)齊數(shù)據(jù)。驗(yàn)證集K12試題核心要求構(gòu)建覆蓋基礎(chǔ)教育各學(xué)科的標(biāo)準(zhǔn)化試題集,用于系統(tǒng)評(píng)估模型在基礎(chǔ)教育階段的知識(shí)掌握水平和問(wèn)題解決能力。標(biāo)注原則K12試題的標(biāo)注原則包括但不限于:基于目標(biāo)國(guó)家基礎(chǔ)教育課程,設(shè)計(jì)涵蓋數(shù)學(xué)、科學(xué)、語(yǔ)言、社會(huì)科學(xué)等核心學(xué)科的標(biāo)準(zhǔn)化試題;針對(duì)每道試題提供清晰的問(wèn)題表述和四個(gè)平行選項(xiàng),確保正確選項(xiàng)的唯一性和干擾項(xiàng)的合理性;按照學(xué)科體系、知識(shí)維度、能力要求等進(jìn)行標(biāo)注,形成準(zhǔn)確有效的評(píng)估。本地知識(shí)運(yùn)用試題核心要求構(gòu)建基于文化背景和實(shí)際場(chǎng)景的應(yīng)用型試題集,評(píng)估模型在本地化場(chǎng)景中的知識(shí)運(yùn)用和文化理解能力。標(biāo)注原則本地知識(shí)運(yùn)用試題的標(biāo)注原則包括但不限于:基于文化傳統(tǒng)、社會(huì)規(guī)范、法律法規(guī)設(shè)計(jì)情境化
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄲城職專安全駕駛培訓(xùn)課件
- 江蘇省2025九年級(jí)物理上冊(cè)第十二章機(jī)械能和內(nèi)能第四節(jié)機(jī)械能與內(nèi)能的相互轉(zhuǎn)化第1課時(shí)機(jī)械能與內(nèi)能的相互轉(zhuǎn)化課堂鞏固課件新版蘇科版
- 《鐵路貨運(yùn)技術(shù)》課件-項(xiàng)目01 任務(wù)三 確定貨物重心水平合理位置
- 少兒美術(shù)教學(xué) 7歲-10歲 勾線筆水彩 《小雛菊》
- 酒店員工答謝會(huì)
- 耳鼻喉科扁桃體炎護(hù)理方案
- 教師教育理想成長(zhǎng)規(guī)劃
- 洗手活動(dòng)設(shè)計(jì)標(biāo)準(zhǔn)化流程
- 工裝流程排版規(guī)范
- 學(xué)校大家訪活動(dòng)匯報(bào)
- 2025年貿(mào)易經(jīng)濟(jì)專業(yè)題庫(kù)- 貿(mào)易教育的現(xiàn)狀和發(fā)展趨勢(shì)
- 核子儀考試題及答案
- DB46-T 481-2019 海南省公共機(jī)構(gòu)能耗定額標(biāo)準(zhǔn)
- 勞動(dòng)合同【2026版-新規(guī)】
- 電子元器件入廠質(zhì)量檢驗(yàn)規(guī)范標(biāo)準(zhǔn)
- 中藥炮制的目的及對(duì)藥物的影響
- 688高考高頻詞拓展+默寫檢測(cè)- 高三英語(yǔ)
- 學(xué)生公寓物業(yè)管理服務(wù)服務(wù)方案投標(biāo)文件(技術(shù)方案)
- 食品檢驗(yàn)檢測(cè)技術(shù)專業(yè)介紹
- 2025年事業(yè)單位筆試-貴州-貴州財(cái)務(wù)(醫(yī)療招聘)歷年參考題庫(kù)含答案解析(5卷套題【單項(xiàng)選擇100題】)
- 二年級(jí)數(shù)學(xué)上冊(cè)100道口算題大全(每日一練共12份)
評(píng)論
0/150
提交評(píng)論