版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
智能機(jī)器人創(chuàng)新實(shí)踐
第五章基于EasyDL的聲控分揀機(jī)器人
125.1語(yǔ)音交互介紹語(yǔ)音交互機(jī)器人語(yǔ)音交互是機(jī)器人人機(jī)交互技術(shù)中最自然的一種方式。目前,具有語(yǔ)音交互能力的移動(dòng)機(jī)器人已經(jīng)開(kāi)始應(yīng)用在醫(yī)院、銀行、景區(qū)等場(chǎng)景中35.2語(yǔ)音識(shí)別案例還包括:語(yǔ)音助手實(shí)時(shí)字幕智能家居自動(dòng)客服大批案例:45.3語(yǔ)音識(shí)別介紹語(yǔ)音識(shí)別(speechrecognition)技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(Automatic
Speech
Recognition,
ASR)。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。55.3語(yǔ)音識(shí)別介紹早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。聲碼器對(duì)聲音進(jìn)行分析與合成的系統(tǒng),主要應(yīng)用于合成人類(lèi)語(yǔ)音。65.4語(yǔ)音識(shí)別發(fā)展探索發(fā)展應(yīng)用深度學(xué)習(xí)50年代60年代70~90年代21世紀(jì)7
5.4語(yǔ)音識(shí)別發(fā)展20世紀(jì)50年代,最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語(yǔ)音中的共振峰,該系統(tǒng)得到了98%的正確率。820世紀(jì)60年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線性預(yù)測(cè)編碼LinearPredictiveCoding
(LPC),及動(dòng)態(tài)時(shí)間調(diào)整DynamicTimeWarp(DTW)技術(shù)。
5.4語(yǔ)音識(shí)別發(fā)展語(yǔ)音識(shí)別技術(shù)的最重大突破是隱含馬爾可夫模型HiddenMarkovModel的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過(guò)Rabiner等人的研究,卡內(nèi)基梅隆的李開(kāi)復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。9
5.4語(yǔ)音識(shí)別發(fā)展目前的語(yǔ)音識(shí)別建立在深度學(xué)習(xí)的基礎(chǔ)上,得益于神經(jīng)網(wǎng)絡(luò)對(duì)非線性模型和大數(shù)據(jù)的處理能力,
取得了大量成果。2012年深度神經(jīng)網(wǎng)絡(luò)與HMM相結(jié)合的聲學(xué)模型DNN-HMM在大詞匯量連續(xù)語(yǔ)音識(shí)別(large
vocabulary
continuousspeech
recognition,
LVCSR)中取得成功,
掀起利用深度學(xué)習(xí)進(jìn)行語(yǔ)音識(shí)別的浪潮。10
5.4語(yǔ)音識(shí)別發(fā)展通常一套完整的語(yǔ)音識(shí)別系統(tǒng)應(yīng)該包括預(yù)處理、特征提取、聲學(xué)模型、語(yǔ)言模型以及搜索算法等模塊。115.5語(yǔ)音識(shí)別系統(tǒng)我國(guó)的語(yǔ)音識(shí)別則起步于國(guó)家的“863計(jì)劃”和“973計(jì)劃”,中科院聲學(xué)所等研究所以及頂尖高校嘗試實(shí)現(xiàn)長(zhǎng)時(shí)語(yǔ)音的漢語(yǔ)識(shí)別工作。如今中文語(yǔ)音識(shí)別技術(shù)已經(jīng)達(dá)到了國(guó)際領(lǐng)先水準(zhǔn)。125.6國(guó)內(nèi)發(fā)展情況20152016201720182018清華大學(xué)建立了第一個(gè)開(kāi)源的中文語(yǔ)音數(shù)據(jù)庫(kù)THCHS-30上海交通大學(xué)提出的非常深卷積網(wǎng)絡(luò)提高了噪聲語(yǔ)音識(shí)別的性能百度提出
Cold
Fusion以便于更好地利用語(yǔ)言學(xué)信息進(jìn)行語(yǔ)音識(shí)別科大訊飛提出的深度全序列卷積神經(jīng)網(wǎng)絡(luò)阿里巴巴提出低幀率深度前饋記憶網(wǎng)絡(luò)13語(yǔ)音識(shí)別服務(wù)百度語(yǔ)音微軟小冰科大訊飛5.7語(yǔ)音識(shí)別服務(wù)在本節(jié)中,我們主要介紹如何基于百度EasyDL平臺(tái)實(shí)現(xiàn)語(yǔ)音識(shí)別模型的創(chuàng)建、訓(xùn)練、評(píng)估、調(diào)用,以及調(diào)用百度API實(shí)現(xiàn)語(yǔ)音識(shí)別。145.8EasyDL介紹15創(chuàng)建模型系統(tǒng)評(píng)估訓(xùn)練模型上線模型更具業(yè)務(wù)需求,創(chuàng)建并選擇想要訓(xùn)練的接口類(lèi)型上傳音頻數(shù)據(jù)集,系統(tǒng)自動(dòng)評(píng)估基礎(chǔ)模型的識(shí)別率上傳業(yè)務(wù)文本,一鍵啟動(dòng)模型訓(xùn)練,可迭代訓(xùn)練自
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026江蘇南京市盲人學(xué)校新教師招聘2人備考題庫(kù)及答案詳解(新)
- 腮腺惡性腫瘤患者的護(hù)理案例分析
- 2025-2026人教版五年級(jí)語(yǔ)文期末卷
- 腦出血患者的語(yǔ)言康復(fù)訓(xùn)練
- 衛(wèi)生院冷鏈藥品管理制度
- 河務(wù)段衛(wèi)生管理制度
- 衛(wèi)生局人事工作制度
- 幼兒園衛(wèi)生防病工作制度
- 室內(nèi)衛(wèi)生清理制度
- 危險(xiǎn)化學(xué)品安全法解讀
- 廣東省佛山市南海區(qū)2025-2026學(xué)年上學(xué)期期末八年級(jí)數(shù)學(xué)試卷(含答案)
- 放射應(yīng)急演練及培訓(xùn)制度
- 儲(chǔ)能技術(shù)培訓(xùn)課件模板
- 人教版英語(yǔ)八年級(jí)全冊(cè)單詞默寫(xiě)模板
- 環(huán)境影響評(píng)估投標(biāo)方案(技術(shù)方案)
- 磚瓦廠脫硝工藝
- GB/T 43731-2024生物樣本庫(kù)中生物樣本處理方法的確認(rèn)和驗(yàn)證通用要求
- 《沉積學(xué)復(fù)習(xí)提綱》課件
- 信訪工作課件
- 110kV旗潘線π接入社旗陌陂110kV輸電線路施工方案(OPGW光纜)解析
評(píng)論
0/150
提交評(píng)論