智能語音技術(shù)及應(yīng)用開發(fā) 課件 單元三任務(wù)1:理解語音識(shí)別開發(fā)技術(shù)框架_第1頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 單元三任務(wù)1:理解語音識(shí)別開發(fā)技術(shù)框架_第2頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 單元三任務(wù)1:理解語音識(shí)別開發(fā)技術(shù)框架_第3頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 單元三任務(wù)1:理解語音識(shí)別開發(fā)技術(shù)框架_第4頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 單元三任務(wù)1:理解語音識(shí)別開發(fā)技術(shù)框架_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

語音識(shí)別技術(shù)應(yīng)用2023年2月單元三理解語音識(shí)別開發(fā)技術(shù)框架單元三:任務(wù)1記得在上小學(xué)時(shí),老師就經(jīng)常教導(dǎo)我們“好記性不如爛筆頭”,不同的是以前我們用在學(xué)習(xí)上,現(xiàn)在應(yīng)用在學(xué)習(xí)、工作和生活的方方面面,比如現(xiàn)在各種會(huì)議上。不過這招兒用久了,我們會(huì)發(fā)現(xiàn)原來“爛筆頭”其實(shí)也有Bug,那就是我們記錄的速度跟不上老師或者會(huì)議發(fā)言者的講話速度,時(shí)常記錄完上句忘了下句,雖然我們可以在記錄的同時(shí)進(jìn)行錄音,可以保證信息的完整性,但是會(huì)后聽著錄音重新梳理會(huì)議信息也是一項(xiàng)龐大的工程。每當(dāng)這時(shí)大家是不是都會(huì)想,如果有一種科技產(chǎn)品,能夠幫我們把會(huì)議上的發(fā)言,或者課堂上的內(nèi)容自動(dòng)整理成文字,那么對(duì)于我們做記錄而言,無疑是錦上添花,隨著技術(shù)進(jìn)步,錄音筆的出現(xiàn)剛好解決了這些難題,應(yīng)用語音識(shí)別技術(shù)準(zhǔn)確迅速的將聲音轉(zhuǎn)化為文字,可以有效提高學(xué)習(xí)和工作的效率。項(xiàng)目導(dǎo)入目錄CONTENTS1語音識(shí)別技術(shù)的內(nèi)涵與術(shù)語2語音識(shí)別的技術(shù)框架3實(shí)現(xiàn)語音識(shí)別功能知識(shí)目標(biāo)了解語音識(shí)別的概念及發(fā)展掌握語音識(shí)別的技術(shù)框架了解語音識(shí)別的開放接口使用能力目標(biāo)能夠描述每個(gè)步驟的功能能夠描述每個(gè)步驟的具體目標(biāo)能夠理解流程中涉及到的專業(yè)術(shù)語思政目標(biāo)感悟腳踏實(shí)地、勤懇敬業(yè)、精益求精的大國工匠精神學(xué)習(xí)愛崗敬業(yè)的社會(huì)主義核心價(jià)值觀PART01語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語語音識(shí)別技術(shù)又稱自動(dòng)語音識(shí)別(AutomaticSpeechRecognition),是將聲音轉(zhuǎn)化成文字的一種技術(shù),主要是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。相當(dāng)于人類的聽覺系統(tǒng),該技術(shù)使得機(jī)器擁有聽懂他人說話的內(nèi)容并將其轉(zhuǎn)換成可以辨識(shí)的內(nèi)容的能力。語音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域,是人機(jī)自然交互中的關(guān)鍵環(huán)節(jié)。語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語從開始研究語音識(shí)別技術(shù)至今,語音識(shí)別技術(shù)的發(fā)展已經(jīng)有半個(gè)多世紀(jì)的歷史。1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),能夠理解口頭數(shù)字的機(jī)器Audrey。1960年英國的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)。語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語大規(guī)模的語音識(shí)別研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。1971年到1976年,DARPA投資了進(jìn)行了五年的語音識(shí)別研究,目的是做成一臺(tái)至少能理解1000個(gè)單詞的機(jī)器。該計(jì)劃使卡內(nèi)基梅隆大學(xué)創(chuàng)造了一臺(tái)能夠理解1011個(gè)單詞的機(jī)器。進(jìn)入80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識(shí)別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識(shí)別問題的技術(shù)思路。語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語進(jìn)入90年代以后,在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。2010年,機(jī)器學(xué)習(xí)算法和計(jì)算機(jī)性能的進(jìn)步帶來了更有效的訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)(DNN)的方法。因此,語音識(shí)別系統(tǒng)開始使用DNNs,更具體地說,是使用一種DNNs的特殊變體,即循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)。此后,基于RNNs的模型表現(xiàn)出比傳統(tǒng)模型更好的精度和性能。2016年的語音識(shí)別準(zhǔn)確度達(dá)到了90%,Google在2017年6月聲稱已達(dá)到95%的準(zhǔn)確率。語音識(shí)別技術(shù)的內(nèi)涵及術(shù)語語音識(shí)別技術(shù)經(jīng)過幾十年的發(fā)展,在中英文發(fā)音標(biāo)準(zhǔn)程度、口語表達(dá)能力等識(shí)別任務(wù)上已經(jīng)超越了人類口語識(shí)別專家水平,目前該技術(shù)被普遍使用在中英文的口語識(shí)別和定級(jí)中。PART02語音識(shí)別的技術(shù)框架語音識(shí)別的技術(shù)框架一個(gè)完整的基于統(tǒng)計(jì)的語音識(shí)別系統(tǒng)大致分為3部分:語音信號(hào)預(yù)處理與特征提取、聲學(xué)模型與模式匹配和語言模型與語言處理。語音識(shí)別的技術(shù)框架語音信號(hào)為什么要進(jìn)行預(yù)處理,預(yù)處理一般都有哪些方式?語音識(shí)別的技術(shù)框架語音識(shí)別所輸入的音頻文件格式是未經(jīng)壓縮處理的文件,如人類正常的語音輸入。由于實(shí)際場(chǎng)景中語音輸入所面對(duì)的環(huán)境是復(fù)雜的,主要存在以下問題:一、對(duì)自然語言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語義的規(guī)則。二、語音信息量大,語音模式不僅對(duì)不同的說話人不同,對(duì)同一說話人也是不同的,例如,一個(gè)說話人在隨意說話和認(rèn)真說話時(shí)的語音信息是不同的。一個(gè)人的說話方式隨著時(shí)間變化。三、語音的模糊性。說話者在講話時(shí),不同的詞可能聽起來是相似的。這在英語和漢語中常見。四、單個(gè)字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。五、環(huán)境噪聲和干擾對(duì)語音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。所以在收集到語音信號(hào)之后,要進(jìn)行預(yù)處理操作。語音識(shí)別的技術(shù)框架語音信號(hào)的預(yù)處理一般有如下操作:(1) 預(yù)加重預(yù)加重是指對(duì)語音的高頻部分進(jìn)行加重,受口唇輻射的影響,功率譜隨頻率的增加而減小,語音的能量主要集中在低頻部分,高頻通常與低頻相比具有較小的幅度,高頻部分信噪比較低,預(yù)加重可以實(shí)現(xiàn)平衡頻譜,通過提高高頻部分,使信號(hào)的頻譜變得平坦。(2) 分幀分幀是將語音信號(hào)截取成小段,即為分幀,每一段信號(hào)就叫做一幀。一般幀長(zhǎng)取值為10~50毫秒。(3) 加窗加窗是將分幀的每一幀信號(hào)與窗函數(shù)進(jìn)行相乘。由于分幀后每一幀的開始和結(jié)束都會(huì)出現(xiàn)間斷,因此分割的幀越多,與原始信號(hào)的誤差就越大,加窗就是為了解決這個(gè)問題,使成幀后的信號(hào)變得連續(xù),并且每一幀都會(huì)表現(xiàn)出周期函數(shù)的特性。語音識(shí)別的技術(shù)框架語音信號(hào)常用的特征包括:(1)短時(shí)過零率,即一幀語音信號(hào)波形穿過橫軸的次數(shù)。一般,高頻語音過零率較高,低頻語音過零率較低,故短時(shí)過零率是區(qū)分清音(多數(shù)能量集中在高頻)和濁音(多數(shù)能量集中在低頻)的有效參數(shù)。(2)短時(shí)平均幅度是語音信號(hào)能量大小的特征,由其包絡(luò)與原始信號(hào)包絡(luò)十分相似,常用于語音識(shí)別、語音活動(dòng)檢測(cè)(VoiceActivityDetection,VDA)判斷等領(lǐng)域。語音識(shí)別的技術(shù)框架語音信號(hào)常用的特征包括:(3)基因周期,發(fā)濁音時(shí),聲帶振動(dòng)語音信號(hào)在時(shí)域上有明顯的周期性,聲帶振動(dòng)頻率稱作基音頻率,相應(yīng)的周期稱為基因周期,這一參數(shù)廣泛被用在語音識(shí)別、說話人確認(rèn)、語音合成,男女生辨別等領(lǐng)域。(4)共振峰頻率,人體說話時(shí)聲帶振動(dòng),產(chǎn)生準(zhǔn)周期脈沖激勵(lì),當(dāng)激勵(lì)進(jìn)入聲道時(shí),受聲道模型的影響,會(huì)引起共振,產(chǎn)生一組共振頻率,稱作共振峰頻率。目前,共振峰的常用檢測(cè)方法有倒譜法、線性預(yù)測(cè)法。語音識(shí)別的技術(shù)框架語音信號(hào)常用的特征包括:(5)梅爾倒譜系數(shù)(MFCC),人耳聽到的聲音高低與頻率不呈正比關(guān)系,人耳對(duì)1000Hz以下的聲音的感知能力與頻率大致呈線性關(guān)系,對(duì)1000Hz以上的聲音的感知能力與頻率大致呈對(duì)數(shù)關(guān)系。梅爾倒譜系數(shù)是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對(duì)應(yīng)關(guān)系。mel頻率域尺度廣泛用于情感識(shí)別、語音識(shí)別等領(lǐng)域。語音識(shí)別的技術(shù)框架什么是聲學(xué)模型,聲學(xué)模型解決了什么問題?語音識(shí)別的技術(shù)框架聲學(xué)模型通常是將獲取的語音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生,為每一個(gè)發(fā)音建立發(fā)音模板。在識(shí)別時(shí)將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識(shí)別結(jié)果。也可以理解為是將經(jīng)MFCC提取的所有幀的特征向量轉(zhuǎn)化為有序的音素輸出。語音識(shí)別的技術(shù)框架現(xiàn)有的聲學(xué)模型一般分為兩大類: (1)混合聲學(xué)模型,包括:混合高斯-隱馬爾科夫模型(GMM-HMM),深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(DNN-HMM),深度循環(huán)神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(RNN-HMM),深度卷積神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(CNN-HMM)。(2)端到端的聲學(xué)模型,包括:連接時(shí)序分類-長(zhǎng)短時(shí)記憶模型(CTC-LSTM),注意力模型(Attention)。語音識(shí)別的技術(shù)框架什么是語言模型,語言模型解決了什么問題?語音識(shí)別的技術(shù)框架語言模型包括由識(shí)別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。語言模型對(duì)中、大詞匯量的語音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。語音識(shí)別的技術(shù)框架預(yù)處理:1.首尾端的靜音切除,降低對(duì)后續(xù)步驟造成的干擾,靜音切除的操作一般稱為VAD;2.聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀,使用移動(dòng)窗函數(shù)來實(shí)現(xiàn),不是簡(jiǎn)單的切開,各幀之間一般是有交疊的。特征提?。褐饕惴ㄓ芯€性預(yù)測(cè)倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)(MFCC),目的是把每一幀波形變成一個(gè)包含聲音信息的多維向量。聲學(xué)模型(AM):通過對(duì)語音數(shù)據(jù)進(jìn)行訓(xùn)練獲得,輸入是特征向量,輸出為音素信息。字典:字或者詞與音素的對(duì)應(yīng),簡(jiǎn)單來說,中文就是拼音和漢字的對(duì)應(yīng),英文就是音標(biāo)與單詞的對(duì)應(yīng)。語言模型(LM):通過對(duì)大量文本信息進(jìn)行訓(xùn)練,得到單個(gè)字或者詞相互關(guān)聯(lián)的概率。解碼:就是通過聲學(xué)模型,字典,語言模型對(duì)提取特征后的音頻數(shù)據(jù)進(jìn)行文字輸出。語音識(shí)別的技術(shù)框架PART03實(shí)現(xiàn)語音識(shí)別功能實(shí)現(xiàn)語音識(shí)別功能1.創(chuàng)建應(yīng)用(1)注冊(cè)/登錄平臺(tái)注冊(cè)平臺(tái):進(jìn)入訊飛開放平臺(tái)注冊(cè)頁(/register),通過微信掃碼注冊(cè)、手機(jī)號(hào)注冊(cè),注冊(cè)完整的開放平臺(tái)賬號(hào),成為平臺(tái)注冊(cè)開發(fā)者。實(shí)現(xiàn)語音識(shí)別功能1.創(chuàng)建應(yīng)用(1)注冊(cè)/登錄平臺(tái)登錄平臺(tái):進(jìn)入訊飛開放平臺(tái)快速登錄頁(/login),通過微信掃碼、手機(jī)快捷登錄,即可快速登錄實(shí)現(xiàn)語音識(shí)別功能(2)創(chuàng)建應(yīng)用·登錄平臺(tái)后,通過右上角「控制臺(tái)」,或右上角下拉菜單的「我的應(yīng)用」進(jìn)入控制臺(tái)·點(diǎn)擊「創(chuàng)建新應(yīng)用」,填寫應(yīng)用名稱及相關(guān)信息,點(diǎn)擊提交,應(yīng)用創(chuàng)建完畢實(shí)現(xiàn)語音識(shí)別功能注意:·支持一個(gè)賬戶創(chuàng)建多個(gè)應(yīng)用·在「我的應(yīng)用」中查看應(yīng)用列表,可進(jìn)行應(yīng)用切換·點(diǎn)擊應(yīng)用名稱,即可進(jìn)入這個(gè)應(yīng)用對(duì)應(yīng)的服務(wù)管理頁·同一個(gè)應(yīng)用APPID可以用在多個(gè)業(yè)務(wù)上,沒有限制考慮到多個(gè)業(yè)務(wù)共用一個(gè)APPID無法分業(yè)務(wù)統(tǒng)計(jì)用量,建議一個(gè)業(yè)務(wù)對(duì)應(yīng)一個(gè)應(yīng)用APPID實(shí)現(xiàn)語音識(shí)別功能創(chuàng)建“應(yīng)用”時(shí)應(yīng)注意:·應(yīng)用名稱<10個(gè)漢字or20個(gè)字符,不得含有特殊字符或空格;·應(yīng)用名稱應(yīng)具有可識(shí)別性詞語來命名;·應(yīng)用功能描述中不得包含特殊符號(hào);·應(yīng)用名稱、分類、應(yīng)用功能與實(shí)際應(yīng)用應(yīng)有直接關(guān)聯(lián),未明確說明應(yīng)用使用場(chǎng)景與功能的將被下架實(shí)現(xiàn)語音識(shí)別功能(3)查看服務(wù)·應(yīng)用創(chuàng)建完成后,可以通過左側(cè)的服務(wù)列表,選擇要使用的服務(wù)實(shí)現(xiàn)語音識(shí)別功能在服務(wù)管理面板中,將看到這個(gè)服務(wù)對(duì)應(yīng)的可用量、歷史用量、服務(wù)接口的驗(yàn)證信息,以及可調(diào)用的API和SDK實(shí)現(xiàn)語音識(shí)別功能(4)調(diào)用語音識(shí)別API·語音識(shí)別位于訊飛開放平臺(tái)上的語主目錄下實(shí)現(xiàn)語音識(shí)別功能獲取語音識(shí)別服務(wù)接口認(rèn)證信息.實(shí)現(xiàn)語音識(shí)別功能·獲取語音識(shí)別API接口地址(以語音識(shí)別流式版為例)wss:///v2/iat查看對(duì)應(yīng)的接口文檔。實(shí)現(xiàn)語音識(shí)別功能2語音識(shí)別的實(shí)現(xiàn)(1)從平臺(tái)下載Demo,理解程序語句功能;實(shí)現(xiàn)語音識(shí)別功能(2) 運(yùn)行Demo程序(a)使用pytho

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論