Python人工智能技術(shù)與應(yīng)用課件:調(diào)研分析語(yǔ)音識(shí)別技術(shù)_第1頁(yè)
Python人工智能技術(shù)與應(yīng)用課件:調(diào)研分析語(yǔ)音識(shí)別技術(shù)_第2頁(yè)
Python人工智能技術(shù)與應(yīng)用課件:調(diào)研分析語(yǔ)音識(shí)別技術(shù)_第3頁(yè)
Python人工智能技術(shù)與應(yīng)用課件:調(diào)研分析語(yǔ)音識(shí)別技術(shù)_第4頁(yè)
Python人工智能技術(shù)與應(yīng)用課件:調(diào)研分析語(yǔ)音識(shí)別技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

調(diào)研分析語(yǔ)音識(shí)別技術(shù)掌握基于深度學(xué)習(xí)的語(yǔ)音處理技術(shù)應(yīng)用《Python

人工智能技術(shù)與應(yīng)用》任務(wù)導(dǎo)入

Ta

s

k

M

p某市舉辦智能座艙語(yǔ)音識(shí)別挑戰(zhàn)賽,比賽對(duì)設(shè)計(jì)的智能座艙系統(tǒng)有三個(gè)要求,分別是便捷、互動(dòng)、安全。報(bào)名參加比賽需要先提交企業(yè)的整體設(shè)計(jì)方案以及闡明背后所運(yùn)用的技術(shù)。你作為參賽企業(yè)的語(yǔ)音識(shí)別實(shí)習(xí)生,主要的崗位指責(zé)是協(xié)助公司

的語(yǔ)音識(shí)別團(tuán)隊(duì)完成開(kāi)發(fā)任務(wù),現(xiàn)需要你調(diào)研分析你們方案所運(yùn)用的語(yǔ)

音識(shí)別技術(shù)和整體方案設(shè)計(jì)。7素養(yǎng)目標(biāo)·

引導(dǎo)問(wèn)題的過(guò)程中,培養(yǎng)學(xué)

生形成勤于思考的能力·獲得分析解決問(wèn)題以及多元

化思考解決問(wèn)題的方法,形成

創(chuàng)新意識(shí)?!ふ莆照Z(yǔ)音識(shí)別技術(shù)的流程?!?/p>

掌握語(yǔ)音識(shí)別技術(shù)的實(shí)現(xiàn)的相

關(guān)Pvthon

工具。能夠列舉至少3個(gè)語(yǔ)音識(shí)別技

術(shù)在汽車上的應(yīng)用,鍛煉條理思

考的職業(yè)意識(shí)·

了解語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)?!?/p>

了解語(yǔ)音識(shí)別技術(shù)原理?!?/p>

了解語(yǔ)音識(shí)別實(shí)現(xiàn)的技術(shù)基礎(chǔ)?!?/p>

了解語(yǔ)音識(shí)別技術(shù)的常見(jiàn)應(yīng)用。知識(shí)目標(biāo)

技能目標(biāo)任務(wù)目標(biāo)語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)語(yǔ)音識(shí)別技術(shù)原理語(yǔ)音識(shí)別技術(shù)的常見(jiàn)應(yīng)用語(yǔ)音識(shí)別技術(shù)流程與Python

實(shí)現(xiàn)目

錄CONTENTS●

定義語(yǔ)音識(shí)別技術(shù)也稱自動(dòng)語(yǔ)音識(shí)別技術(shù)(Automatic

SpeechRecognition,ASR),

指機(jī)器通過(guò)識(shí)別和理解過(guò)程將語(yǔ)音信號(hào)轉(zhuǎn)化為

文本或指令的技術(shù)?!?/p>

目的語(yǔ)音識(shí)別的目標(biāo)是讓機(jī)器能夠像人一樣準(zhǔn)確理解語(yǔ)音信號(hào)所承載的信息,從而實(shí)現(xiàn)人機(jī)交互。01

語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)(

一)語(yǔ)音識(shí)別的定義語(yǔ)音識(shí)別技術(shù)示例

語(yǔ)音識(shí)別功能語(yǔ)音識(shí)別功能可以從語(yǔ)音中自動(dòng)提取語(yǔ)音特征,并將其轉(zhuǎn)換為文本。01

語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)(二)語(yǔ)音識(shí)別領(lǐng)域的主要實(shí)現(xiàn)功能將話語(yǔ)轉(zhuǎn)化為文字

語(yǔ)音合成功能語(yǔ)音合成功能可以將文本轉(zhuǎn)換為可以被聽(tīng)到的語(yǔ)音。01

語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)(二)語(yǔ)音識(shí)別領(lǐng)域的主要實(shí)現(xiàn)功能將文字轉(zhuǎn)化為語(yǔ)音

語(yǔ)音喚醒功能語(yǔ)音喚醒功能能夠通過(guò)特定的關(guān)鍵詞喚醒設(shè)備的技術(shù),它可以讓設(shè)備更快

地響應(yīng)用戶的請(qǐng)求。例如蘋果公司的

“siri”語(yǔ)音助理即可進(jìn)行喚醒設(shè)置01

語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)(二)語(yǔ)音識(shí)別領(lǐng)域的主要實(shí)現(xiàn)功能搜索引擎中的語(yǔ)音識(shí)別

語(yǔ)音識(shí)別引擎功能語(yǔ)音識(shí)別引擎功能能夠更加準(zhǔn)確地識(shí)別用戶語(yǔ)音,它可以更好地理解用戶

的語(yǔ)音,從而提供更好的服務(wù)。01

語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)(二)語(yǔ)音識(shí)別領(lǐng)域的主要實(shí)現(xiàn)功能搜索引擎中的語(yǔ)音識(shí)別

語(yǔ)音控制功能語(yǔ)音控制功能能夠通過(guò)語(yǔ)音控制設(shè)備。它可以讓用戶通過(guò)語(yǔ)音來(lái)控制設(shè)備

,從而更加便捷地使用設(shè)備。01

語(yǔ)音識(shí)別技術(shù)的定義與主要應(yīng)用技術(shù)(二)語(yǔ)音識(shí)別領(lǐng)域的主要實(shí)現(xiàn)功能語(yǔ)音控制電視網(wǎng)頁(yè)語(yǔ)音識(shí)別的首要要素是語(yǔ)音。通過(guò)麥克風(fēng),語(yǔ)音便從物理聲音被轉(zhuǎn)換為電信號(hào),然后通過(guò)模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)據(jù)。語(yǔ)音一旦被數(shù)字化,就可適用若干種模型,模型再將音頻轉(zhuǎn)錄為文本。語(yǔ)音識(shí)別技術(shù)原理(一)語(yǔ)音識(shí)別的流程原理物理聲音被轉(zhuǎn)換為電信號(hào)數(shù)字信號(hào)文本語(yǔ)音02

語(yǔ)音識(shí)別技術(shù)原理(二)語(yǔ)音識(shí)別實(shí)現(xiàn)的技術(shù)基礎(chǔ)隱馬爾可夫模型(HMM)神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別技術(shù)原理(二)語(yǔ)音識(shí)別實(shí)現(xiàn)的技術(shù)基礎(chǔ)隱馬爾可夫棋型(HMM)語(yǔ)音識(shí)別使用隱馬爾可夫模型來(lái)識(shí)別語(yǔ)音,從而確定說(shuō)話者正在說(shuō)什么。它可以從口頭語(yǔ)言中提取有意義的信息,從而幫助機(jī)器理解人類語(yǔ)言。隱馬爾可夫過(guò)程(Hidden

Markov

Process,HMM)是一種概率模型,用來(lái)描述一個(gè)系統(tǒng)受到外部環(huán)境影響時(shí),隨時(shí)間變化的狀態(tài)。它可以用來(lái)模擬一個(gè)系統(tǒng)的狀態(tài)從一個(gè)狀態(tài)到另

一個(gè)狀態(tài)的過(guò)程,并且可以根據(jù)系統(tǒng)的歷史狀態(tài)來(lái)預(yù)測(cè)未來(lái)的狀態(tài)。假設(shè)你有一只貓,它可以處于兩種狀態(tài):睡覺(jué)和游玩。根據(jù)這只貓的歷史狀態(tài),你可以用隱馬爾科夫過(guò)程來(lái)預(yù)測(cè)它未來(lái)的狀態(tài)。

例如,如果它過(guò)去一直都在睡覺(jué),那么你可

以預(yù)測(cè)它未來(lái)也會(huì)繼續(xù)睡覺(jué)。隱馬爾科夫的工作原理為:語(yǔ)音信號(hào)在非常短的時(shí)間尺度上(比如1毫秒)可被近似為靜止過(guò)程,即一個(gè)其統(tǒng)計(jì)特性不隨時(shí)間變化的過(guò)程。(二)語(yǔ)音識(shí)別實(shí)現(xiàn)的技術(shù)基礎(chǔ)02

語(yǔ)音識(shí)別技術(shù)原理隱馬爾可夫棋型(HMM)語(yǔ)音識(shí)別技術(shù)原理(二)語(yǔ)音識(shí)別實(shí)現(xiàn)的技術(shù)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的作用是通過(guò)特征變換和降維的技術(shù)來(lái)簡(jiǎn)化語(yǔ)音信號(hào)。神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用主要包括語(yǔ)音特征提取、語(yǔ)音識(shí)別和語(yǔ)音合成。語(yǔ)音特征提?。菏侵笍脑颊Z(yǔ)音信號(hào)中提取出有用的特征,這些特征可以用于語(yǔ)音識(shí)別。

神經(jīng)網(wǎng)絡(luò)可以用來(lái)提取語(yǔ)音特征,例如,用多層感知機(jī)(MLP)

來(lái)提取語(yǔ)音特征。語(yǔ)音識(shí)別:神經(jīng)網(wǎng)絡(luò)可以用來(lái)進(jìn)行語(yǔ)音識(shí)別,例如,用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

來(lái)識(shí)別語(yǔ)音。

語(yǔ)音合成:神經(jīng)網(wǎng)絡(luò)可以用來(lái)進(jìn)行語(yǔ)音合成,例如,用生成式對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)合成語(yǔ)

音。語(yǔ)音識(shí)別技術(shù)原理(二)語(yǔ)音識(shí)別實(shí)現(xiàn)的技術(shù)基礎(chǔ)語(yǔ)音特征提取語(yǔ)音識(shí)別語(yǔ)音合成神經(jīng)網(wǎng)絡(luò)在車內(nèi),語(yǔ)音控制人員只需要用嘴說(shuō)出命令控制字,就可以實(shí)現(xiàn)對(duì)車載系統(tǒng)

的控制,這種控制手段方便快捷??捎?/p>

于汽車導(dǎo)航、控制車載設(shè)備,如車燈,

音響,天窗,座椅,雨刮器等。語(yǔ)音識(shí)別技術(shù)的常見(jiàn)應(yīng)用(一)語(yǔ)音指令控制在汽車上的應(yīng)用車內(nèi)語(yǔ)音控制AI語(yǔ)音技術(shù)使智能家電更好用,它能將“AI語(yǔ)音+大數(shù)據(jù)+深度學(xué)習(xí)”結(jié)合起來(lái),

讓家電產(chǎn)品能聽(tīng)能說(shuō)能看,讓用戶可以與機(jī)

器進(jìn)行自然交互,更具有人性化。(二)語(yǔ)音指令控制在其他行業(yè)中的應(yīng)用03

語(yǔ)音識(shí)別技術(shù)的常見(jiàn)應(yīng)用智能家居智能家居中的語(yǔ)音識(shí)別語(yǔ)音識(shí)別技術(shù)的常見(jiàn)應(yīng)用(二)語(yǔ)音指令控制在其他行業(yè)中的應(yīng)用智能醫(yī)療AI語(yǔ)音技術(shù)在智能醫(yī)療方面可以提高醫(yī)療服務(wù)質(zhì)量,語(yǔ)音對(duì)話機(jī)器人可以解決醫(yī)療市場(chǎng)的長(zhǎng)期低效率問(wèn)題,降低成本、減少醫(yī)護(hù)人員時(shí)間負(fù)擔(dān),并為患者

帶來(lái)不一樣的體驗(yàn)提升。AI語(yǔ)音隨訪可以完成400-1000人次的隨訪工作,極大

地提高了隨訪的工作量。04

語(yǔ)音識(shí)別技術(shù)流程與Python實(shí)

現(xiàn)(一)語(yǔ)音識(shí)別的流程1.語(yǔ)音數(shù)據(jù)預(yù)處理3.神經(jīng)網(wǎng)絡(luò)

模型的建立2.特征提取4.語(yǔ)音識(shí)別語(yǔ)音識(shí)別技術(shù)流程與Python實(shí)

現(xiàn)(一)語(yǔ)音識(shí)別的流程

語(yǔ)音數(shù)據(jù)預(yù)處理采樣

預(yù)加重

端點(diǎn)檢測(cè)預(yù)濾波模/數(shù)轉(zhuǎn)換

分幀加窗(一)語(yǔ)音識(shí)別的流程

特征提取語(yǔ)音識(shí)別系統(tǒng)常用的聲學(xué)特征有梅爾頻率倒譜系數(shù)(MFCC)、

知線性預(yù)測(cè)系數(shù)(PLP)、

線性預(yù)測(cè)

倒譜系數(shù)(LPCC)、梅爾濾波器組

系數(shù)(Fbank)。語(yǔ)音識(shí)別技術(shù)流程與Python實(shí)

現(xiàn)原始語(yǔ)音預(yù)加重MFCCDFTmeli濾波器組取功率譜幅度平方MFCC

語(yǔ)音識(shí)別過(guò)程加窗l(fā)og(0)分幀DCT在這之前已經(jīng)獲得了需要識(shí)別的新數(shù)據(jù)的MFCC

特征和已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)

模型,首先加載訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型

再將新數(shù)據(jù)的MFCC

特征輸入加載好的

模型中,進(jìn)而輸出新數(shù)據(jù)的語(yǔ)音識(shí)別結(jié)

果。使用Python

開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)第三方庫(kù)Keras

建立神經(jīng)網(wǎng)絡(luò)模型并對(duì)已經(jīng)

得到的MFCC特征向量進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模

型。(一)語(yǔ)音識(shí)別的流程

神經(jīng)網(wǎng)絡(luò)模型的建立

語(yǔ)音識(shí)別技術(shù)流程與Python實(shí)

現(xiàn)

語(yǔ)音識(shí)別語(yǔ)音識(shí)別技術(shù)流程與Python實(shí)

現(xiàn)(二)Python

語(yǔ)音識(shí)別常用第三方工具常用工具列舉watson-developer-cloud:IBM

Watson是機(jī)器學(xué)習(xí)和認(rèn)知計(jì)算最著名的使用平臺(tái)之一。并提供了一套完整的API

(常用功能,測(cè)試以及實(shí)驗(yàn)),

允許開(kāi)發(fā)人員利用機(jī)器學(xué)習(xí)技術(shù),如自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)以和預(yù)測(cè)

功能,來(lái)構(gòu)建應(yīng)用程序。google-cloud-speech:

由谷歌公司研發(fā)的云語(yǔ)音

API。SpeechRecognition

:由谷歌公司研發(fā)的專注于語(yǔ)音向文本的轉(zhuǎn)換的第

三方工具。語(yǔ)音識(shí)別技術(shù)流程與Python實(shí)

現(xiàn)(二)Python語(yǔ)音識(shí)別常用第三方工具常用工具列舉Assemblyai:自動(dòng)將音頻和視頻文件以及實(shí)時(shí)音頻流轉(zhuǎn)換為文本的平臺(tái)。Pocketsphinx:

第一個(gè)開(kāi)源面向嵌入式的中等詞匯量連續(xù)語(yǔ)音識(shí)別項(xiàng)目Wit:

由臉書推出的用于將自然語(yǔ)言轉(zhuǎn)化為可處理指令的

API平臺(tái),其目的是幫助開(kāi)發(fā)者便捷的打造類Siri

語(yǔ)音對(duì)話應(yīng)用或設(shè)備。

語(yǔ)

識(shí)

術(shù)

與Python實(shí)

現(xiàn)(二)Python

語(yǔ)音識(shí)別常用第三方工具SpeechRecognition

庫(kù)的優(yōu)勢(shì)滿足幾種主流語(yǔ)音API,

靈活性高。Google

WebSpeech

API

支持硬編碼到SpeechRecognition

庫(kù)中的默認(rèn)API

密鑰,無(wú)需注冊(cè)就可使用SpeechRecognition無(wú)需構(gòu)建訪問(wèn)麥克風(fēng)和從頭開(kāi)始處理音頻文件的腳本,只需幾分鐘即可自動(dòng)完成音頻輸入、檢索并運(yùn)行。因此易用性很高。語(yǔ)音識(shí)別器解釋說(shuō)明recognize_bing()微軟必應(yīng)語(yǔ)音引擎recognize_google()谷歌網(wǎng)絡(luò)語(yǔ)音引擎recognize_google_cloud()谷歌云

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論