版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
語音識別與Python編程實踐人工智能開源硬件與python編程實踐情境導入語音識別發(fā)展到現(xiàn)在,從語音打字機、數(shù)據(jù)庫檢索到特定的環(huán)境所需的語音命令,給人們的生活帶來了很多方便。語音識別人機交互技術是典型的人工智能方法,在智能家居、智能駕駛、智能手機中都有成熟的應用。智能玩具開始大量應用人工智能技術,市場上出現(xiàn)了大批可以講故事、唱歌曲、說英語的益智玩具,通過語音識別人機交互技術,大幅提升了玩具的互動性、教育性、智能性和娛樂性,滿足了知識學習、娛樂、科學探究、智力開發(fā)等多重需求。任務與目標了解語音識別的基本原理、相關算法和應用框架;了解運用人工智能開源硬件設計語音識別應用系統(tǒng)的方法;運用人工智能開源硬件和Python編程庫,編寫和調(diào)試初步的語音識別應用Python程序;掌握利用OpenAIEIDE編程工具編寫、上傳、運行、完善Python語音識別程序的方法。知識拓展:語音識別的概念語音識別技術可以比做為“機器的聽覺系統(tǒng)”,就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹姆椒?。語音識別技術主要包括語音特征提取、模式識別及聲學模型訓練技術三個方面。知識拓展:語音識別技術的發(fā)展歷史50年代,AT&TBell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)-Audry系統(tǒng)。60年代,動態(tài)規(guī)劃(DP)和線性預測分析技術(LP)等技術的提出和運用,對語音識別的發(fā)展產(chǎn)生了深遠影響。70年代,動態(tài)時間歸整正技術(DTW)開始成熟,特別是矢量量化(VQ)和隱馬爾可夫模型(HMM)得到運用,實現(xiàn)了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統(tǒng)。20世紀80年代,隨著HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)等技術在語音識別中的成功應用,人們突破了大詞匯量、連續(xù)語音和非特定人這三大語音識別障礙。知識拓展:隱馬爾科夫模型的應用CMU的李開復實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx,它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng);在聲學識別層面,以多個說話人發(fā)音的大規(guī)模語音數(shù)據(jù)為基礎,通過對連續(xù)語音中上下文發(fā)音變體的HMM建模,語音音素識別率有了長足的進步。知識拓展:語音信號的短時特性語音信號的特征是隨時間變化的,具有短時性,在5-50ms的一段時間間隔中,保持相對穩(wěn)定一致的特性。語音信號的分析和處理都是建立在“短時”的基礎上,按5-50ms分成語音幀進行處理,重要的計算參數(shù)有短時能量、短時過零率、短時自相關函數(shù)、短時頻譜等。設計與實踐人工智能開源硬件語音識別處理模塊OpenAIEIDE的使用編寫第一個嵌入式Python程序調(diào)試、驗證及完善人工智能開源硬件語音識別處理模塊
AIE控制板上固化除了有計算機視覺CV庫、板上器件及接口pyb庫外,還有連續(xù)非特定人語音識別ASR庫。該ASR庫基于板上集成的語音識別處理器的特性進行設計,提供一個與語音識別相關的asr對象給外部Python程序調(diào)用。拾音器ASR處理器按鍵語音識別處理器
語音識別處理器基于ASR技術,具有降噪、端點檢測、語音識別等功能。語音識別處理器內(nèi)置有高精度的A/D和D/A通道,設計時直接把拾音器連接在處理器芯片的AD引腳上,不需要外接AD芯片,不需要外接輔助的Flash和RAM,就能完成說話語音的實時采集。語音識別處理器內(nèi)含有事先訓練好的聲學模型參數(shù)庫,由大批量非特定人普通話連續(xù)語音語料訓練而成,支持ASR連續(xù)語音識別,應用時不需要再進行任何錄音訓練。定義語音識別工作場景語音識別處理器允許用戶定義一張識別關鍵詞語列表,應用中還可以動態(tài)編輯和維護這張識別關鍵詞語列表。只需要把關鍵詞語以字符串的形式傳送給芯片,即可以在下次識別過程中生效。每個關鍵詞語可以是單字、詞組、短句或者任何的中文發(fā)音的組合。板上語音識別處理器目前支持用戶自由編輯50條關鍵詞詞條,即在同一時刻,最多在50條關鍵詞語中進行識別。編程設計時可以根據(jù)工作場景的需要,動態(tài)編輯和更新這50條關鍵詞語的內(nèi)容。語音識別Python類的設計語音識別ASRPython庫基于板上集成的語音識別處理器的特性進行設計,采用Python語言進行編寫,主要設計和封裝了一個asr類給外部Python程序引用。該asr類主要提供設置工作場景命令詞add_cmd()、啟動識別過程run()、獲取識別結果get_res()等方法供應用程序使用。ASR語音識別類的Python調(diào)用方法導入asr類模塊創(chuàng)建語音識別對象實例初始化語音識別對象設置工作場景,添加關鍵詞識別列表啟動語音識別等待語音識別結果提取語音識別結果ASR語音識別類初始化編程
fromopenaieimportasr #創(chuàng)建語音識別實例ASR=asr() #導入語音識別類模塊ASR.asr_init() #初始化語音識別對象time.sleep(50) #延時等待50ms;設置工作場景添加關鍵詞識別列表:asr.add_cmd("hong",1) #添加關鍵詞“紅”,編號為“1”。asr.add_cmd("lv",2) #添加關鍵詞“綠”,編號為“2”。asr.add_cmd("lan",3) #添加關鍵詞“藍”,編號為“3”。asr.add_cmd("kaideng",4)#添加關鍵詞“開燈”,編號為“4”。asr.add_cmd("guandeng",5)#添加關鍵詞“關燈”,編號為“5”。調(diào)測與驗證調(diào)式程序時,同樣可以將識別結果輸出到串口監(jiān)視器中,觀察輸出的值是否與說出的語音關鍵詞的編碼一致。調(diào)試語音識別模塊過程中,也要注意工作環(huán)境中是否存在比較大的噪聲。噪聲的存在會影響識別結果的準確性,嚴重時會導致沒有識別結果出現(xiàn)。調(diào)試過程方在安靜的環(huán)境中進行,以排除干擾。分析與思考結合本次編程實踐,重點體會自定義函數(shù)在Python應用系統(tǒng)中的作用,進一步了解和體驗Python語言中函數(shù)定義程序模塊的結構設計方法。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學校理論學習中心組學習制度
- 中二因式分解題目及答案
- 新規(guī)定數(shù)學題目及答案
- 碭山縣面試題目及答案
- 養(yǎng)老院老人關愛服務制度
- 分工協(xié)作制度
- 酒店客房易耗品管理制度
- 道路運輸安全生產(chǎn)分級管控制度
- 項目管理實戰(zhàn)要點分析
- 基因與遺傳?。何C應對課件
- GB 21258-2024燃煤發(fā)電機組單位產(chǎn)品能源消耗限額
- 碧桂園資金池管理制度
- 數(shù)字媒體藝術史全冊完整教學課件
- 維保電梯應急方案范文
- 小學文言文重點字詞解釋梳理
- 交通船閘大修工程質(zhì)量檢驗規(guī)范
- GB/T 2879-2024液壓傳動液壓缸往復運動活塞和活塞桿單向密封圈溝槽的尺寸和公差
- 急診科護士的急性中毒處理與護理技巧
- 廈門高容納米新材料科技有限公司高容量電池負極材料項目環(huán)境影響報告
- 政府機關紅頭文件模板(按國標制作)
- 2021年河北省英語中考真題(含答案)
評論
0/150
提交評論