版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
準(zhǔn)確率提升的同時(shí)服務(wù)容量翻倍--
小米語(yǔ)音識(shí)別端到端系統(tǒng)升級(jí)之路范利春小米集團(tuán)技術(shù)委員會(huì) AI實(shí)驗(yàn)室目錄小米小愛業(yè)務(wù)中的語(yǔ)音識(shí)別方案端到端語(yǔ)音識(shí)別系統(tǒng)升級(jí)中的極致的響應(yīng)速度和準(zhǔn)確率優(yōu)化GPU使用效率提升的動(dòng)態(tài)Batch優(yōu)化GPU使用效率提升的半精度浮點(diǎn)推理優(yōu)化背景小米公司的印象背景小米公司的印象小米6.99億鏈接到IOT平臺(tái)的智能設(shè)備包括小米汽車、手機(jī)、音箱、電視、手表、手環(huán)、生態(tài)鏈產(chǎn)品等涵蓋了6161款支持語(yǔ)音交互的產(chǎn)品「人車家全生態(tài)」語(yǔ)音識(shí)別:小愛語(yǔ)音交互的入口語(yǔ)音識(shí)別ASR喚醒KWS語(yǔ)義理解NLP結(jié)果滿足SKILL語(yǔ)音合成TTS語(yǔ)音文字小愛同學(xué)如何降低云端服務(wù)成本?如何提升語(yǔ)音識(shí)別的準(zhǔn)確率?降本增效識(shí)別內(nèi)容覆蓋60+個(gè)垂域每天識(shí)別約2.7億條來(lái)自小愛智能助手的語(yǔ)音大模型時(shí)代,用戶對(duì)智能助手的預(yù)期提升說(shuō)法多種多樣,更偏口語(yǔ)化P1.
小米小愛業(yè)務(wù)中的語(yǔ)音識(shí)別方案?jìng)鹘y(tǒng)語(yǔ)音架構(gòu)聲學(xué)訓(xùn)練語(yǔ)言訓(xùn)練訓(xùn)練復(fù)雜聲學(xué)數(shù)據(jù)語(yǔ)言數(shù)據(jù)聲學(xué)模型語(yǔ)言模型準(zhǔn)確率低解碼算法語(yǔ)音建模幀率高成本高昂解碼算法相對(duì)復(fù)雜端到端語(yǔ)音架構(gòu)聯(lián)合建模準(zhǔn)確率高節(jié)省算力離線部署傳統(tǒng)語(yǔ)音架構(gòu)encoder-decoder結(jié)構(gòu)的端到端語(yǔ)音識(shí)別建模粒度大幀率低時(shí)序建模有大量Blank可以跳過(guò)P2.
端到端語(yǔ)音識(shí)別系統(tǒng)升級(jí)中的極致的響應(yīng)速度和準(zhǔn)確率優(yōu)化關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于Zipformer的encoder-decoder結(jié)構(gòu)的端到端語(yǔ)音識(shí)別關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于Zipformer的encoder-decoder結(jié)構(gòu)的端到端語(yǔ)音識(shí)別《ZIPFORMER:AFASTERANDBETTERENCODERFORAUTOMATICSPEECH
RECOGNITION》《SUBLLM:
A
Novel
Efficient
Architecturewith
Token
Sequence
Subsampling
for
LLM》關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端識(shí)別Fig.
1Fig.
2性能平衡具體方案:
Chunk模式解碼效率具體方案:
Input/output
cache關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能/
坑1
/
尖峰滯后關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端方案帶來(lái)的尖峰滯后現(xiàn)象尖峰滯后現(xiàn)象解決方案(a)解決方案(b)關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能流式端到端方案帶來(lái)的尖峰滯后現(xiàn)象解決方案(c)解決方案(d)關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能/
坑2
/
內(nèi)置語(yǔ)言模型關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能端到端系統(tǒng)下的熱詞注入米家個(gè)人設(shè)備管理 座艙顯示屏上的內(nèi)容關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能基于syllable建模,提升熱詞能力建模粒度大音節(jié)建模語(yǔ)音識(shí)別解碼架構(gòu)圖關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能速度和極致性能優(yōu)化小結(jié)關(guān)鍵實(shí)踐1:極致的響應(yīng)速度和極致的性能Zipformer算法尖峰前移個(gè)性化識(shí)別手機(jī)、音箱、電視句錯(cuò)相對(duì)下降20%P3.
GPU使用效率提升的動(dòng)態(tài)Batch優(yōu)化Batch推理優(yōu)化GPU交互:線程內(nèi)串行,線程間并行,每個(gè)線程獨(dú)享一個(gè)流T4服務(wù)器:高峰時(shí)段CPU14%
+
GPU80%特征提取AM[2]推理解碼“今天天氣”GPU特征提取AM推理解碼“播放音樂”thread
1:thread
N:…
…Batch推理優(yōu)化特征提取AM推理解碼“今天天氣”GPU特征提取AM推理解碼“播放音樂”thread
1:thread
N:…
……83462112345678123人滿發(fā)車超時(shí)發(fā)車P4.
GPU使用效率提升的半精度浮點(diǎn)推理優(yōu)化為什么使用半精度浮點(diǎn)NVIDIA
T4高通芯片半精度浮點(diǎn)的范圍fp16的取值范圍是
5.96e-8
~
65504溢出精度損失從模型層面解決溢出的模塊LayerNorm替換成L1LayerNorm從模型層面解決溢出的模塊Softmax
Attention替換成PolyAttn改進(jìn)模型訓(xùn)練手段:對(duì)模型參數(shù)進(jìn)行截?cái)郌P16溢出問(wèn)題LossvarmaxminWER方案similarity1w3.04632.7325.18-57.244.54%-97.60%1w-CLAMP23.04333.548.91-8.544.64%【mean-3*var,mean+3*var】99.50%1w-CLAMP32.99842.7937.3117-7.67674.39%【mean-1,
mean+1】99.09%進(jìn)一步定位溢出的OP按Module查:查看每個(gè)模塊的輸入輸出數(shù)值是否超出FP16范圍的數(shù)按OP查:查看每個(gè)算子的輸入輸出數(shù)值是否超出FP16范圍導(dǎo)出時(shí)候?qū)σ绯龅奶幚碓谝绯龅乃阕踊蛘吣K前進(jìn)行scale;這些scale在L1LayerNorm之后會(huì)消失(僅需對(duì)μ進(jìn)行scale);torch.matmul(q/FP16_SCALE,
k/FP16_SCALE)FP16精度定位問(wèn)題(兩臺(tái)顯微鏡)解決問(wèn)題(三把手術(shù)刀)按Module查限制參數(shù)訓(xùn)練Operation
Scale按Operation查Module替換param.clamp_(mean-3*var,
mean+3*var)LayerNorm替換成L1LayerNormSoftmax
Attention替換成PolyAttn半精度浮點(diǎn)推理優(yōu)化總結(jié)總結(jié)端到端建模GPU并行度優(yōu)化FP16推理優(yōu)化Zipformer算法尖峰前移個(gè)性化識(shí)別Module替換限制參數(shù)訓(xùn)練Operation
Scale獨(dú)立線程模型推理人滿發(fā)車超時(shí)發(fā)車手機(jī)、音箱、電視句錯(cuò)下降20%IDC
服務(wù)器容量提升100%成果麥某著名企業(yè)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 師大數(shù)學(xué)二模題目及答案
- 輸血的三查八對(duì)制度
- 2025年津市市事業(yè)編考試題目及答案
- 董事會(huì)負(fù)責(zé)審議內(nèi)部審計(jì)制度
- 2025年山西農(nóng)業(yè)廳事業(yè)單位考試及答案
- 2025年6月15日事業(yè)單位考試及答案
- 2025年上饒23年事業(yè)單位考試及答案
- 2025年視覺美工面試題庫(kù)及答案
- 2025年鐘樓區(qū)公開招聘筆試及答案
- 藥事管理法律法規(guī)及相關(guān)制度
- (高清版)AQ 1056-2008 煤礦通風(fēng)能力核定標(biāo)準(zhǔn)
- 高中名校自主招生考試數(shù)學(xué)重點(diǎn)考點(diǎn)及習(xí)題精講講義上(含答案詳解)
- 論地理環(huán)境對(duì)潮汕飲食文化的影響
- 值班人員在崗情況檢查記錄表周一
- 西充縣山永家庭農(nóng)場(chǎng)生豬養(yǎng)殖項(xiàng)目(擴(kuò)建)環(huán)評(píng)報(bào)告
- 赤峰南臺(tái)子金礦有限公司金礦2022年度礦山地質(zhì)環(huán)境治理計(jì)劃書
- 漏洞掃描技術(shù)和天鏡產(chǎn)品介紹
- 徐州市銅山區(qū)法院系統(tǒng)書記員招聘考試真題
- 氣穴現(xiàn)象和液壓沖擊
- GB/T 33598.3-2021車用動(dòng)力電池回收利用再生利用第3部分:放電規(guī)范
- 江蘇省泰州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)及行政區(qū)劃代碼
評(píng)論
0/150
提交評(píng)論