下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240
CCSL77
34
安徽省地方標(biāo)準(zhǔn)
DB34/T4554—2023
兒童智能語(yǔ)音識(shí)別技術(shù)規(guī)范
Specificationforintelligentspeechrecognitiontechnologyofchildren
2023-10-07發(fā)布2023-11-07實(shí)施
安徽省市場(chǎng)監(jiān)督管理局發(fā)布
DB34/T4554—2023
前言
本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定
起草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專(zhuān)利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專(zhuān)利的責(zé)任。
本文件由安徽淘云科技股份有限公司提出。
本文件由安徽省經(jīng)濟(jì)和信息化廳歸口。
本文件起草單位:安徽淘云科技股份有限公司、科大訊飛股份有限公司、安徽工程大學(xué)計(jì)算機(jī)與信
息學(xué)院、合肥巴靈瑞教育科技有限公司、合肥赑歌數(shù)據(jù)科技有限公司、安徽長(zhǎng)三角數(shù)據(jù)感知與治理研究
院、江蘇理工學(xué)院、合肥師范學(xué)院、合肥智能語(yǔ)音創(chuàng)新發(fā)展有限公司。
本文件主要起草人:王曉斐、劉慶升、朱翠玲、葉娟、方明、葉劍鳴、陶皖、陳慧珺、毛四方、呂
雪、胡連峰、宋若淼、高群、謝秀琴、姜志文、孫艷、張澤之、武方芳。
I
DB34/T4554—2023
兒童智能語(yǔ)音識(shí)別技術(shù)規(guī)范
1范圍
本文件規(guī)定了兒童智能語(yǔ)音識(shí)別技術(shù)的術(shù)語(yǔ)和定義、技術(shù)路線(xiàn)和要求。
本文件適用于兒童智能語(yǔ)音識(shí)別技術(shù)的應(yīng)用。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T21023-2007中文語(yǔ)音識(shí)別系統(tǒng)通用技術(shù)規(guī)范
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
語(yǔ)音智能識(shí)別技術(shù)Speechintelligentrecognitiontechnology
通過(guò)人工智能技術(shù)識(shí)別聲音,并將聲音信號(hào)轉(zhuǎn)化為文字或指令的過(guò)程。
聲學(xué)模型Acousticmodel
輸入音頻經(jīng)特征提取和標(biāo)注后,進(jìn)行深度學(xué)習(xí)獲得的模型參數(shù)即為聲學(xué)模型;其中,特征提取是將
音頻數(shù)據(jù)轉(zhuǎn)換為特征向量;標(biāo)注是將音頻數(shù)據(jù)上的文本與其對(duì)應(yīng)的特征幀對(duì)齊。
注1:聲學(xué)模型的訓(xùn)練過(guò)程包括:數(shù)據(jù)錄制、數(shù)據(jù)標(biāo)注、特征提取和模型訓(xùn)練。
注2:聲學(xué)模型訓(xùn)練過(guò)程中提取特征通常使用Mel頻率倒譜系數(shù)(MFCC)等特征提取方法。
注3:深度學(xué)習(xí)也指模型訓(xùn)練,是使用已對(duì)齊數(shù)據(jù)訓(xùn)練聲學(xué)模型,通常使用深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)等模型。
語(yǔ)言模型Languagemodel
利用自然語(yǔ)言處理技術(shù),在詞級(jí)別上對(duì)文本進(jìn)行建模,輸出概率最大的詞序列,以解決聲學(xué)模型無(wú)
法解決的同音詞、近義詞等因素干擾的歧義性問(wèn)題;其中,建模的過(guò)程是根據(jù)語(yǔ)言學(xué)規(guī)則、語(yǔ)料庫(kù)語(yǔ)言
統(tǒng)計(jì)等多種因素,以概率形式估計(jì)一個(gè)給定文本的出現(xiàn)概率,并根據(jù)這個(gè)概率來(lái)確定識(shí)別結(jié)果。
4技術(shù)路線(xiàn)
兒童語(yǔ)音智能識(shí)別的技術(shù)路線(xiàn)見(jiàn)圖1。
1
DB34/T4554—2023
圖1兒童語(yǔ)音智能識(shí)別技術(shù)路線(xiàn)
5要求
語(yǔ)音信號(hào)采集
5.1.1采樣率應(yīng)為16KHz,采樣位深應(yīng)為16bit。
5.1.2音頻采集應(yīng)保證完整,避免截?cái)嗷蛉笔闆r的發(fā)生。
5.1.3人聲和環(huán)境噪音的信噪比應(yīng)不低于10dB。
5.1.4人聲應(yīng)是漢語(yǔ)通用語(yǔ)發(fā)聲,應(yīng)滿(mǎn)足GB/T21023-2007中6.1(b)的要求。
5.1.5應(yīng)支持對(duì)3~14歲年齡段人群語(yǔ)音信號(hào)的采集。
信號(hào)處理和特征提取
5.2.1語(yǔ)音信號(hào)中有回聲存在,應(yīng)對(duì)語(yǔ)音信號(hào)進(jìn)行回聲消除處理。
5.2.2語(yǔ)音信號(hào)中有較大混響存在,應(yīng)對(duì)語(yǔ)音信號(hào)進(jìn)行去混響處理。
5.2.3語(yǔ)音信號(hào)中存在較大周?chē)肼?,?yīng)對(duì)語(yǔ)音信號(hào)進(jìn)行降噪處理。
5.2.4語(yǔ)音信號(hào)中存在特定波段頻率的干擾,應(yīng)對(duì)其進(jìn)行濾波處理。
5.2.5在采集特定方向的語(yǔ)音信號(hào)時(shí),應(yīng)對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)處理,從而起到加強(qiáng)特定方向的語(yǔ)音信
號(hào),并抑制其他方向的語(yǔ)音信號(hào)。
5.2.6在進(jìn)行批量語(yǔ)音信號(hào)處理時(shí),應(yīng)根據(jù)指定的語(yǔ)音信號(hào)長(zhǎng)度(時(shí)間段或者采樣數(shù))進(jìn)行分段處理。
5.2.7將語(yǔ)音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,提取語(yǔ)音信號(hào)中的特征向量。
識(shí)別
5.3.1概述
對(duì)輸入的語(yǔ)音信號(hào),在由語(yǔ)句或者單詞序列構(gòu)成的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,并且根據(jù)聲學(xué)
模型、語(yǔ)言模型,生成一個(gè)用于搜索的狀態(tài)空間,在該狀態(tài)空間中搜索到最優(yōu)的狀態(tài)序列,即尋找能夠
以最大概率輸出該信號(hào)的詞序列。
5.3.2聲學(xué)模型
2
DB34/T4554—2023
5.3.2.1訓(xùn)練聲學(xué)模型的訓(xùn)練數(shù)據(jù)集中兒童數(shù)據(jù)占比不能低于40%,其中,3~6歲兒童的數(shù)據(jù)不低于
20%,6~12歲兒童數(shù)據(jù)不低于20%。
5.3.2.2訓(xùn)練聲學(xué)模型的覆蓋各種場(chǎng)景的數(shù)據(jù)不低于1萬(wàn)小時(shí)。
5.3.3語(yǔ)言模型
5.3.3.1識(shí)別解碼過(guò)程中的語(yǔ)言模型的訓(xùn)練數(shù)據(jù)文本應(yīng)包含兒童說(shuō)話(huà)的習(xí)慣。
5.3.3.2訓(xùn)練語(yǔ)料數(shù)據(jù)量應(yīng)達(dá)到千萬(wàn)級(jí)以上的句子、億級(jí)以上的詞級(jí)別語(yǔ)料。
文本輸出
5.4.1聲紋識(shí)別的輸出結(jié)果是本次語(yǔ)音的注冊(cè)人身份信息,并且含有可信度衡量。
5.4.2語(yǔ)音喚醒的輸出結(jié)果是對(duì)關(guān)鍵詞的檢測(cè)狀態(tài)判斷數(shù)據(jù),并且含有可信度衡量。
5.4.3語(yǔ)音聽(tīng)寫(xiě)輸出結(jié)果為語(yǔ)音對(duì)應(yīng)的文本信息和附屬信息(如時(shí)間戳、置信度、詞屬性、拼音等)。
5.4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職(物流管理)配送中心運(yùn)營(yíng)階段測(cè)試題及答案
- 高一單元(地理)2025-2026年上學(xué)期考題及答案
- 高職第一學(xué)年(數(shù)控技術(shù))模具設(shè)計(jì)基礎(chǔ)2026年綜合測(cè)試題及答案
- 2025年高職園林工程(施工操作)試題及答案
- 2026年消防工程技能(消防運(yùn)營(yíng))考題及答案
- 2025年中職(數(shù)控技術(shù)應(yīng)用)模具設(shè)計(jì)基礎(chǔ)試題及答案
- 2025年中職(水產(chǎn)養(yǎng)殖)水產(chǎn)飼料配制基礎(chǔ)試題及答案
- 高職第二學(xué)年(護(hù)理)傳染病護(hù)理基礎(chǔ)2026年階段測(cè)試題及答案
- 2025年大學(xué)藝術(shù)設(shè)計(jì)(環(huán)境藝術(shù)設(shè)計(jì))試題及答案
- 2025年高職機(jī)械(機(jī)械應(yīng)用技能進(jìn)階)試題及答案
- 2026年1月遼寧省普通高中學(xué)業(yè)水平合格性考試地理仿真模擬卷01(考試版)
- 酒店股權(quán)轉(zhuǎn)讓合同范本
- 關(guān)于某某腦機(jī)接口數(shù)據(jù)采集與使用知情同意書(shū)
- 綠盟科技安全培訓(xùn)內(nèi)容課件
- 安生生產(chǎn)法規(guī)定
- 國(guó)開(kāi)2025年《行政領(lǐng)導(dǎo)學(xué)》形考作業(yè)1-4答案
- 2025年湖南水利水電職業(yè)技術(shù)學(xué)院?jiǎn)握小堵殬I(yè)適應(yīng)性測(cè)試》真題(真題匯編)附答案詳解
- 廣東省德育課題申報(bào)書(shū)
- 鐵路專(zhuān)業(yè)基礎(chǔ)知識(shí)考試題及答案
- 2025年職業(yè)技能鑒定考試(考評(píng)員)經(jīng)典試題及答案
- DB61-T 1823-2024 櫻桃貯運(yùn)技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論