已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
學(xué)士學(xué)位論文 1 1 緒論 語音是人類進(jìn)行相互通信和交流的最方便、 最 快捷的手段。在高度發(fā)達(dá)的信息社會(huì)中,用數(shù)字化的方法進(jìn)行語音的傳送、儲(chǔ)存、識(shí)別、合成、增強(qiáng)等是整個(gè)數(shù)字化通信網(wǎng)絡(luò) 中最重要、最基本的組成部分之一。 非特定人連續(xù)語音識(shí)別在電話撥號(hào)系統(tǒng)、家電遙控、工業(yè)控制、信息查詢系統(tǒng)等領(lǐng)域有廣泛應(yīng)用。 在本文中, 將虛擬儀器技術(shù)應(yīng)用于語音識(shí)別系統(tǒng),實(shí)現(xiàn)了儀器的軟件化,真正體現(xiàn)了“軟件就是儀器”的思想。 利用計(jì)算機(jī)強(qiáng)大的圖形環(huán)境和硬件資源建立 的 圖形化的虛擬儀器面板,實(shí)現(xiàn)對(duì)語音信號(hào)的實(shí)時(shí)采集、分析處理 與特征提取 等,利用軟件實(shí)現(xiàn)儀器功能 的模塊化、智能化,使其具有成本 低廉 、數(shù)據(jù)分析便利和 設(shè)備 管理良好等優(yōu)點(diǎn)。 本章綜述了語音識(shí)別技術(shù)的學(xué)科背景、發(fā)展歷程,介紹了當(dāng)前語音識(shí)別領(lǐng)域的主流技術(shù)、典型系統(tǒng)及其應(yīng)用前景,特別分析了漢語語音識(shí)別的難點(diǎn),闡明了本論文的研究框架和內(nèi)容。 語音識(shí)別的學(xué)科背景與發(fā)展歷程 語音是人類最自然、最常用的交流方式,語音識(shí)別是近半個(gè)世紀(jì)發(fā)展起來的新興學(xué)科 ,其 目標(biāo)是使機(jī)器“聽懂”人的自然語言 。由識(shí)別得到的信息可作為控制信號(hào) 在工業(yè)、軍事、交通、醫(yī)學(xué)、民用等各個(gè)方面 都 有著廣闊的應(yīng)用前景,例如聲控電話交換、語音撥號(hào)系統(tǒng)、各 類語音聲訊服務(wù)(股票信息、天氣預(yù)報(bào)等)、智能玩具、語音呼叫中心等 。語音識(shí)別技術(shù)將大大改善人機(jī) 交互 界面,提高信息處理自動(dòng)化程度,具有巨大的社會(huì)、經(jīng)濟(jì)效益。 正因?yàn)槿绱耍?語音識(shí)別正迅速發(fā)展為“改變未來人類生活方式”的關(guān)鍵技術(shù)之一。 作為專門的研究領(lǐng)域,語音識(shí)別又是典型的交叉邊緣學(xué)科,它要依賴眾多學(xué)科的科研成果。從計(jì)算機(jī)學(xué)科角度來看,它屬于智能計(jì)算機(jī)的智能接口部分;從信息處理學(xué)科來看,它屬于信息識(shí)別的一個(gè)重要分支;從通信及電子系統(tǒng)、電路、信號(hào)及系統(tǒng)定學(xué)科來看,它又可視為信息和通訊系統(tǒng)的信源處理科學(xué);而從自動(dòng)控制學(xué)科 來看,它則可堪稱模式識(shí)別中的一個(gè)重要部分 外,語音識(shí)別與聲學(xué)、生理學(xué)、心理學(xué)、語音學(xué)、語言學(xué)有著密不可分的聯(lián)系,而且語音識(shí)別與語音壓縮、語音合成、語音增強(qiáng)、說話人識(shí)別等語音研究有著更為直接、緊密的關(guān)系。 語音識(shí)別是頗具挑戰(zhàn)性的研究領(lǐng)域,僅從模式識(shí)別角度來看,語音信號(hào)屬于瞬時(shí)事件性信號(hào),同時(shí)它又是時(shí)變的非平穩(wěn)隨機(jī)過程,有內(nèi)在的多種可變性,這使得語音識(shí)別學(xué)士學(xué)位論文 2 成為多維模式識(shí)別中一個(gè)很難的課題。 語音識(shí)別系統(tǒng)根據(jù) 對(duì)語音 方式 要求 的 不同 ,可以分為孤立字(詞)語音識(shí)別系統(tǒng),連接詞語音識(shí)別系統(tǒng)以及連續(xù)語音識(shí)別 系統(tǒng);根據(jù)對(duì)說話人的依賴程度,可以分為特定人和非特定人語音識(shí)別系統(tǒng);根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識(shí)別系統(tǒng)。不同的語音識(shí)別系統(tǒng),雖然實(shí)現(xiàn)細(xì)節(jié)有所不同,但所采用的基本框架相類似,其關(guān)鍵技術(shù)主要包括特征提取技術(shù)、模式匹配和數(shù)據(jù)訓(xùn)練技術(shù)三個(gè)方面。 語音識(shí)別的研究工作大約開始于 20 世紀(jì) 50 年代,當(dāng)時(shí) 貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別 10 個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。 60 年代,這時(shí)期的重要成果是提出了線性預(yù)測(cè)分析技術(shù)( 動(dòng)態(tài)規(guī)劃 ( ,前者較好的解決了語音信號(hào)產(chǎn)生模型的 問題,后者則有效解決了不等長(zhǎng)語音匹配問題,對(duì)于語音識(shí)別發(fā)展產(chǎn)生可深遠(yuǎn)的影響。 70 年代語音識(shí)別領(lǐng)域取得了突破:在理論上, 術(shù)得到進(jìn)一步發(fā)展, 術(shù)基本成熟,特別是提出了矢量量化( 隱馬爾科夫模型( 論;在實(shí)踐上,實(shí)現(xiàn)了基于 術(shù)型結(jié)合的特定人孤立語音識(shí)別系統(tǒng)。 80 年代,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是 型和人工神經(jīng)元網(wǎng)絡(luò)( 語音識(shí)別中的成功應(yīng)用。語音識(shí)別算法從模版匹配技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型技術(shù),語音模型也從規(guī)則描述轉(zhuǎn)向 統(tǒng)計(jì)描述。連接詞語音識(shí)別系統(tǒng)、連續(xù)語音識(shí)別系統(tǒng)相繼出現(xiàn),其中 1998 年美國(guó) 學(xué)基于 發(fā)的 997 詞非特定人連續(xù)語音識(shí)別系統(tǒng)有里程碑的意義。 90 年代以來,語音識(shí)別技術(shù)在多項(xiàng)關(guān)鍵技術(shù)上更加成熟,同時(shí)在計(jì)算機(jī)技術(shù)、電信應(yīng)用等領(lǐng)域飛速發(fā)展的帶動(dòng)下,出現(xiàn)了一批走向?qū)嵱没恼Z音識(shí)別系統(tǒng)和語音服務(wù)應(yīng)用。在嵌入式應(yīng)用中,出現(xiàn)了可以語音撥號(hào)的手機(jī)、與人對(duì)話的智能玩具;在計(jì)算機(jī)應(yīng)用中,出現(xiàn)了以 代表的語音錄入系統(tǒng);在商業(yè)服務(wù)中,出現(xiàn)了以語音識(shí)別、語音合成為核心技術(shù)的呼 叫中心( 語音門戶網(wǎng)站等等。 目前,語音識(shí)別研究時(shí)仍以 主流,同時(shí)出現(xiàn)了多種技術(shù)方向并存的局面。特別是在語音識(shí)別系統(tǒng)的框架設(shè)計(jì)上、在實(shí)踐序列建模上、在融合多層信息源的能力上,有著很大的優(yōu)越性。大多數(shù)語音識(shí)別系統(tǒng)以 主框架,在系統(tǒng)局部輔以其他技術(shù)手段加以優(yōu)化,例如通過采用聽覺模型提取魯棒性更高的聲學(xué)特征,在 非線性影射能力區(qū)分較小的語音單元(音素級(jí))等等。 學(xué)士學(xué)位論文 3 漢語語音識(shí)別的難點(diǎn) 經(jīng)過 50 多年的發(fā)展,語音識(shí)別技術(shù)經(jīng)歷了從特定人、小詞 匯量、孤立詞的語音識(shí)別到非特定人、大詞匯量、自然語音識(shí)別的發(fā)展過程,取得了輝煌的成就。但是,現(xiàn)有的語音識(shí)別系統(tǒng)還面臨著許多困難,遠(yuǎn)遠(yuǎn)達(dá)不到廣泛實(shí)用化的要求,具體來說,主要表現(xiàn)在以下幾個(gè)方面: ( 1) 語音識(shí)別系統(tǒng)的適應(yīng)性差。全世界有近百種官方語音,每種語音有多達(dá)幾十種的方言,隨著語言環(huán)境的改變,系統(tǒng)性能會(huì)嚴(yán)重下降。 ( 2) 噪聲問題:目前的語音識(shí)別系統(tǒng)大多只能工作在安靜的環(huán)境下,在受環(huán)境噪聲干擾時(shí),語音識(shí)別系統(tǒng)性能變差。 ( 3) 端點(diǎn)檢測(cè) : 連續(xù)語流中語音單元間存在協(xié)同發(fā)音 ( ,且各語 音單位之間不存在明顯的邊界,因此很難分割。語音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語音識(shí)別的重要部分,研究表明,即使在安靜的環(huán)境下,語音識(shí)別系統(tǒng)一半以上的識(shí)別錯(cuò)誤來自端點(diǎn)檢測(cè)。 ( 4) 由于對(duì)人腦的記憶、聽覺的神經(jīng)生理學(xué)機(jī)理沒有徹底的認(rèn)識(shí),使語音識(shí)別技術(shù)沒有突破性進(jìn)展。 漢語語音識(shí)別除具有一般語音識(shí)別系統(tǒng)的特點(diǎn)外,還有其獨(dú)特的方面,因?yàn)闈h語發(fā)音與英語發(fā)音比較有以下特點(diǎn): ( 1) 漢語字以單音節(jié) ( 為單位,發(fā)音時(shí)間短,而英語以多音節(jié)為主。 ( 2) 漢語有大量的同音字,由 60 個(gè)左右的聲母和韻母組成 40 多個(gè)無調(diào)音節(jié)和 1200多個(gè)有調(diào)音節(jié),音節(jié)與音節(jié)之間相似性大、易混淆。英語則不存在這方面的問題。 ( 3) 中國(guó)民族眾多,不同地區(qū)之間發(fā)音變化很大,方言多。 基于以上原因,與比較成熟的英語語音識(shí)別相比,漢語語音識(shí)別仍是一個(gè)富有挑戰(zhàn)性的課題。 擬儀器簡(jiǎn)介 虛擬儀器( 稱 現(xiàn)代計(jì)算機(jī)技術(shù)和儀器技術(shù)深層次結(jié)合的產(chǎn)物,是當(dāng)今計(jì)算機(jī)輔助測(cè)試( 域的一項(xiàng)重要技術(shù)。虛擬儀器是計(jì)算機(jī)硬件資源、儀器與測(cè)控系統(tǒng)硬件資源和虛擬儀器軟件資源三者的有效結(jié)合。 所謂虛擬儀器,就是在通用計(jì)算機(jī) 為核心的硬件平臺(tái)上,由用戶設(shè)計(jì)定義、具有虛擬面板、測(cè)試功能由測(cè)試軟件實(shí)現(xiàn)的一種計(jì)算機(jī)儀器系統(tǒng)。使用者用鼠標(biāo)點(diǎn)擊虛擬面板,就可操作這臺(tái)計(jì)算機(jī)系統(tǒng)硬件平臺(tái),就如同使用一臺(tái)專用電測(cè)量?jī)x器。 學(xué)士學(xué)位論文 4 虛擬儀器的特點(diǎn)可歸納為: ( 1) 在通用硬件平臺(tái)確定后,由軟件取代傳統(tǒng)儀器中的硬件來完成儀器的功能。 ( 2) 儀器的功能是由用戶根據(jù)需要由軟件來定義的,而不是事先由廠家定義好的。 ( 3) 儀器性能的改進(jìn)和功能擴(kuò)展只需進(jìn)行相關(guān)軟件的設(shè)計(jì)更新,而不需購(gòu)買新的儀器。 ( 4) 研制周期較傳統(tǒng)儀器大為縮短。 ( 5) 虛擬儀器開放、靈活,可與計(jì)算機(jī) 同步發(fā)展,可與網(wǎng)絡(luò)及其它周邊設(shè)備互聯(lián)。 決定虛擬儀器具備上述傳統(tǒng)儀器不可能具備的特點(diǎn)的根本原因在于:“虛擬儀器的關(guān)鍵是軟件”。 驗(yàn)室虛擬儀器工程平臺(tái))是美國(guó) 司 (出的一種基于 G 語言( 形化編程語言)的虛擬儀器軟件開發(fā)工具。 件工具的特點(diǎn)可歸納為: ( 1) 圖形化的編程方式,無須 寫任何文本格式的代碼,是真正的工程師語言。 ( 2) 提供了豐富的數(shù)據(jù)采集、分析及存儲(chǔ)的庫(kù)函數(shù)。 ( 3) 既提供了傳統(tǒng)的程序調(diào)試手段,如設(shè)置斷點(diǎn)、單步運(yùn)行,同時(shí)又提供了獨(dú)到的高亮執(zhí)行工具,使程序動(dòng)畫式運(yùn)行,利于設(shè)計(jì)者觀察程序運(yùn)行的細(xì)節(jié),使程序的調(diào)試和開發(fā)更為便捷。 ( 4) 32編譯器編譯生成 32編譯程序,保證數(shù)據(jù)采集、測(cè)試和測(cè)量方案的高速執(zhí)行。 ( 5) 囊括了 內(nèi)的各種儀器通信總線標(biāo)準(zhǔn)的所有功能函數(shù),使得不懂總線標(biāo)準(zhǔn)的開發(fā)者也能夠驅(qū)動(dòng)不同總線標(biāo)準(zhǔn)接口設(shè)備與儀器。 ( 6) 提供大量與外部代碼或軟件進(jìn)行連接的機(jī)制,諸如 態(tài)連接庫(kù))、 享庫(kù))、 。 用 計(jì) 的虛擬儀器 主要包括三個(gè)部分: ( 1) 儀器前面板的設(shè)計(jì) 儀器前面板的設(shè)計(jì)指在虛擬儀器開發(fā)平臺(tái)上,利用各類子模板圖標(biāo)創(chuàng)建用戶界面,即虛擬儀器的前面板。 ( 2) 儀器流程和算法的設(shè)計(jì) 儀器流程或算法的設(shè)計(jì)是根據(jù)儀器功能要求,利用虛擬儀器開發(fā)平臺(tái)所提供的子模板,確定程序的流程圖、主要處理算法和所實(shí)現(xiàn)的技術(shù)方法。 學(xué)士學(xué)位論文 5 ( 3) I/O 接口儀器驅(qū)動(dòng)程序的設(shè)計(jì) I/O 接口儀器驅(qū)動(dòng)程序是控制硬件設(shè)備的驅(qū)動(dòng)程 序,是連接主控計(jì)算機(jī)與儀器設(shè)備的紐帶。 用 計(jì)的虛擬儀器可脫離 發(fā)環(huán)境,最終用戶看見的是和實(shí)際的硬件儀器相似的操作面板。 言 言 1是在 20 世紀(jì) 80 年代初期,由美國(guó)的 件開發(fā)公司正式推出的一種數(shù)學(xué)工具軟件。它擁有功能全面的函數(shù)庫(kù),把大量的函數(shù)封裝起來,讓用戶脫離了復(fù)雜繁瑣的程序計(jì)算過程,大大提高了工作效率。利用 以實(shí)現(xiàn)科學(xué)計(jì)算、符號(hào)運(yùn)算、算法研究、數(shù)學(xué)建模和仿真、數(shù)據(jù)分析和可視化、科學(xué)工程繪圖以及圖形用戶界 面設(shè)計(jì)等強(qiáng)大功能。同時(shí) 用戶提供了豐富而實(shí)用的資源,它涵蓋了許多門類的科學(xué)研究,如數(shù)學(xué)、控制、通信、數(shù)字信號(hào)處理、數(shù)字圖像處理、經(jīng)濟(jì)和地理等。其主要特點(diǎn)有: ( 1) 簡(jiǎn)單易學(xué)。與 C 和 高級(jí)語言相比較, 法規(guī)則簡(jiǎn)單, 語言思維特點(diǎn)更符合人們?cè)趯?shí)際應(yīng)用中的習(xí)慣。 ( 2) 先進(jìn)的技術(shù)界面支持。 供給用戶的是一種最簡(jiǎn)潔、最直觀的程序開 發(fā)環(huán)境。用 程時(shí),就如同在現(xiàn)實(shí)中的便簽上列公式和求解一樣。 ( 3) 開放式的體系結(jié)構(gòu)。除了內(nèi)部函數(shù)外,所有的 包文 件和各工具包 文件都是對(duì)用戶開放的源程序文件,用戶可以通過修改源程序文件來構(gòu)成新的適合自己 使用的專用工具包。 ( 4) 豐富的函數(shù)工具箱。可以提供專門的對(duì)語音信號(hào)進(jìn)行處理的工具箱。 對(duì)于比較簡(jiǎn)單的和“一次性”問題,通過直欞窗中直接輸入一組指令求解或許是比較簡(jiǎn)便、快捷的。但當(dāng)待解決問題所需的指令較多而且所用指令結(jié)構(gòu)較復(fù)雜時(shí),或當(dāng)一組指令通過改變少量參數(shù)就可以被反復(fù)使用去解決不同問題時(shí),直接在直欞窗中輸入指令的方法就顯得繁瑣、累贅和笨拙。設(shè)計(jì) M 腳本文件就是用來解決這個(gè)矛盾的。 M 腳本文件是指: ( 1) 該文件中的指令 形式和前后位置,與解決同一個(gè)問題是在指令窗中輸入的那組指令沒有任何區(qū)別。 ( 2) 運(yùn)行這個(gè)腳本時(shí),只是簡(jiǎn)單地從文件中讀取那一條條指令,送到學(xué)士學(xué)位論文 6 去運(yùn)行。 ( 3) 與在指令窗中直接運(yùn)行質(zhì)量一樣,腳本文件運(yùn)行產(chǎn)生的變量都駐留在 本工作空間中。 ( 4) 文件的擴(kuò)展名是“ 其具體步驟如下: 1) 編輯調(diào)試器的開啟 缺省情況下, M 文件編輯器( 隨 啟動(dòng)而開啟,通常只在編寫 M 文件時(shí)才啟動(dòng)如圖的 M 文件編輯器窗口。 M 編輯器不僅可以編輯 M 文件,而 且可以對(duì) M 文件進(jìn)行交互式調(diào)試; M 文件編輯器不僅可以處理帶 展名的文件,而且還可以閱讀和編輯其他 文件。 M 文件編輯器的啟動(dòng)方法有以下幾種: 點(diǎn)擊 面上的“ ”圖標(biāo),或選中菜單項(xiàng) 可以打開空白的 M 文件編輯器。 點(diǎn)擊 面上的“ ” 圖標(biāo),或選中菜單項(xiàng) 可引出 件選擇對(duì)話框,通過常規(guī)的工具條操作,找到待打開文件所在文件夾,點(diǎn)選那個(gè)文件名后,再點(diǎn)擊 打開 鍵,就可引出相應(yīng)文件夾的 M 文件編 輯器。 用鼠標(biāo)左鍵雙擊當(dāng)前目錄窗口中的所需 M 文件,可直接引出展示相應(yīng)文件加的 2) 編輯器使用中的注意事項(xiàng) ( 1) 編輯器的打印效果設(shè)置。具體方法是:選中菜單項(xiàng) 引出一個(gè)頁(yè)面設(shè)置對(duì)話框,可以對(duì)版面布局( 版頭( 字體( 參數(shù)進(jìn)行設(shè)置。 “ 面布局子項(xiàng):勾選“ ,則打印的硬拷貝將出現(xiàn)頁(yè)眉,顯示文件所在的全部路徑、文件建立日期、頁(yè)數(shù)。 “ 頭設(shè)置子項(xiàng):設(shè)置版頭的具體形式,如頁(yè) 數(shù)的顯示方式、版頭的邊界與布局等參數(shù)進(jìn)行設(shè)置。 “ 體設(shè)置子項(xiàng):假如不點(diǎn)選“ 那么硬拷貝中的字體將可能與編輯器顯示的字體不同。通常硬拷貝中的字體較大。 ( 2) 編輯器的字體(形式、大小、顏色)、段落格式、自動(dòng)保存等都可由用戶根據(jù)需要進(jìn)行設(shè)置。具體方法是:選中菜單項(xiàng) 引出一個(gè)參數(shù)設(shè)置對(duì)話框;展開學(xué)士學(xué)位論文 7 彈出對(duì)話框左欄中的“ ,出現(xiàn)以下 4 個(gè)子項(xiàng)。 “ 項(xiàng):在對(duì)應(yīng)該項(xiàng)的右側(cè)欄中,可以對(duì)字體 類型、大小、顏色進(jìn)行設(shè)置。 “ 項(xiàng):假如勾選“ in ,那么將來當(dāng)光標(biāo)移動(dòng)到該編輯器文件中某變量名時(shí),就會(huì)引出一個(gè)現(xiàn)場(chǎng)菜單,顯示出該變量?jī)?nèi)容的前提是,改變量存在于 工作空間。 “ 項(xiàng):對(duì)應(yīng)欄用來設(shè)置快捷鍵習(xí)慣和文件段落縮進(jìn)習(xí)慣。 “ 項(xiàng):編輯器窗口中的文件發(fā)生改動(dòng)后,文件會(huì)自動(dòng)地進(jìn)行備份。通過該子項(xiàng)中的“ ,可以設(shè)置自動(dòng)備份的時(shí)間間隔等。 說明: 1 運(yùn)行 M 文件的方法很多,最常用的方法是: ( 1) 在指令窗中運(yùn)行 M 文件名(不帶擴(kuò)展名); ( 2) 在當(dāng)前目錄窗中,用鼠標(biāo)右鍵單擊待運(yùn)行文件,再?gòu)囊龅默F(xiàn)場(chǎng)菜單中選擇 單項(xiàng)。 2 腳本文件第一注釋行中的文件名應(yīng)與實(shí)際存放在目錄上的文件名相同。但這樣做的目的僅是為了管理上的一致,也便于用戶記憶和查詢。實(shí)際上, *存放和調(diào)用與注釋行中的名稱無關(guān)。 3 當(dāng)使用 M 文件編輯器調(diào)試保存文件時(shí),或當(dāng)在 令窗中運(yùn)行 M 文件時(shí),不必寫出文件的擴(kuò)展名 4 在 M 文件編輯調(diào)試器中,可用漢字注釋,并總可獲 得正確顯示。 5 注意:在 ,若發(fā)生漢字輸入困難,可用鼠標(biāo)右鍵點(diǎn)擊,引出現(xiàn)場(chǎng)菜單;選中“屬性”菜單項(xiàng),引出“對(duì)話框”,或采取在微軟輸入法中勾選“逐鍵指示”,或在智能輸入法中勾選“固定”。 論文的主要內(nèi)容及其組織 全文具體安排如下: 第一章介紹了語音識(shí)別的學(xué)科背景與發(fā)展歷程,漢語語音識(shí)別的難點(diǎn),本試驗(yàn)的軟件平臺(tái),以及本文選題的依據(jù)和內(nèi)容安排。 第二章介紹了語音信號(hào)的 實(shí)時(shí)采集及預(yù)處理,對(duì)語音信號(hào)的產(chǎn)生與數(shù)字化進(jìn)行了分析,并詳細(xì)介紹了語音信號(hào)的小波消噪及端點(diǎn)檢測(cè)。 學(xué)士學(xué)位論文 8 第三章 介紹了語音信號(hào) 的特征提取,其中對(duì)當(dāng)前應(yīng)用較廣泛的 第四章介紹矢量量化模型 (其碼本生成的基本原理,并對(duì)搜索算法進(jìn)行了初步分析。 第五章介紹了非特定人連續(xù)語音識(shí)別系統(tǒng)的實(shí)現(xiàn)問題,介紹了系統(tǒng)的具體設(shè)計(jì)步驟,及其模板的建立與讀取,并對(duì)試驗(yàn)結(jié)果進(jìn)行了分析。 學(xué)士學(xué)位論文 9 2 語音信號(hào)的采集 與 預(yù)處理 本章主要 介紹了語音信號(hào)的 實(shí)時(shí)采集及預(yù)處理 過程 , 包括對(duì)語音信號(hào)的數(shù)字化及預(yù)加重,并 對(duì)語音信號(hào)的產(chǎn)生與數(shù)字化進(jìn)行了分析,詳細(xì) 討論 了語音信號(hào)的小波消噪及端點(diǎn)檢測(cè) 。 語音信號(hào)的采集 語音信號(hào)的產(chǎn)生模型 語音信號(hào)是一種典型的非平穩(wěn)信號(hào)。但是,由于語音的形成過程是與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)的,這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來講要緩慢的多,因此語音信號(hào)常??杉俣槎虝r(shí)平穩(wěn)的,即在 10頻譜特性和某些物理特性參數(shù)可近似的看作是不變的 2。這樣,可以采用平穩(wěn)過程的分析處理方法來處理,以后所有的處理方法都立足于這種短時(shí)平穩(wěn)的假定。 圖 音信號(hào)可以看作是激勵(lì)信號(hào)激勵(lì)一個(gè)線性系統(tǒng) 而產(chǎn)生的輸出 3濁音信號(hào)是由一個(gè)周期性的脈沖串激勵(lì)一個(gè)線性系統(tǒng)而產(chǎn)生的輸出,這個(gè)線性系統(tǒng)由聲門脈沖模型、聲道模型和輻射模型級(jí)聯(lián)而成。而清音信號(hào)是由白噪聲序列激勵(lì)一個(gè)線性系統(tǒng)而產(chǎn)生的出,這個(gè)線性系統(tǒng)僅由聲道模型和輻射模型級(jí)聯(lián)而成。 圖 音信號(hào)產(chǎn)生的線性模型 濁音信號(hào)產(chǎn)生過程受聲門脈沖形狀 g(n)、聲道響應(yīng) v(n)和口唇輻射影響 r(n)的共同作用,可等效為一個(gè)線性系統(tǒng),稱為聲道系統(tǒng),即 : 學(xué)士學(xué)位論文 10 vh n g n v n r n (其中,運(yùn)算符號(hào) *代表卷積運(yùn)算 (下同 )。相應(yīng)的 vH z G z V z R z (而將激勵(lì)信號(hào)看作是一個(gè)周期性的 脈沖串: rp n n r N p (那么濁音信號(hào)就是二者的卷積結(jié)果,即: r rx n p n h n h n r N p (類似地,清音產(chǎn)生過程中聲道響應(yīng) v (n)和口唇輻射影響 r (n)的共同作用可等效為一個(gè)線性系統(tǒng) : uh n v n r n(相應(yīng)的 : uH z V z R z(而激勵(lì)信號(hào) u (n)假定為白噪聲序列,于是有 : ux n u n h n(語音信號(hào)的采集 自然語音信號(hào)是連續(xù)模擬信號(hào),無法對(duì)其做數(shù)字化處理,因此 需要將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào),這個(gè)過程叫做模 /數(shù)轉(zhuǎn)換。正常人的發(fā)音的頻率范圍在 40 3400右,根據(jù)奈奎斯特采樣定律 ( ,采樣頻率應(yīng)為原始語音頻率的兩倍以上,通常采用 8樣率 (準(zhǔn) )。 將模擬音頻信號(hào)轉(zhuǎn)化為數(shù)字音頻信號(hào)需要聲音采集卡(聲卡)的支持,不同聲卡信噪比等指標(biāo)差異較大,所以質(zhì)量較高的聲卡采集的語音信號(hào)對(duì)系統(tǒng)的識(shí)別率也有一定的影響。 本文采用電腦自帶的聲卡進(jìn)行了語音信號(hào)的采集,采集的語音信號(hào)以 816位,單聲道格式錄入存儲(chǔ) ,從而得到了需要的 *件。語音信號(hào)的采集顯示見圖 程序框圖如圖 示。 學(xué)士學(xué)位論文 11 圖 音信號(hào)采集顯示的前面板圖 圖 音信號(hào)采集顯示的程序框圖 語音信號(hào)的數(shù)字化 語音信號(hào)的數(shù)字化一般包括放大及增益控制、反混疊濾波、采樣、 A/中反混疊濾波的目的有兩個(gè) :(1)抑制輸入信號(hào)各頻域分量中頻率超出 f /2的所有分量(人為采樣頻率 ),以防止混疊干擾 ;(2)抑制 50本文中由麥克風(fēng)將所用的語音從聲壓波形轉(zhuǎn)換成電信號(hào),然后用模數(shù)轉(zhuǎn)換器以 合適的采樣率對(duì)模擬的聲音學(xué)士學(xué)位論文 12 信號(hào)進(jìn)行采樣,再以一定的量化精度進(jìn)行量化,得到計(jì)算機(jī)能夠處理的數(shù)字語音信號(hào)。為了防止混疊效應(yīng),采樣頻率必須滿足 用的采樣頻率有 16本文中采樣率為 8 將原始語音模擬信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語音信號(hào)。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)的兩倍帶寬時(shí),采樣過程不會(huì)丟失信息,利用理想濾波器可從采樣信號(hào)中不失真地重構(gòu)原始信號(hào)波形。 在將語音信號(hào)進(jìn)行數(shù) 字化前,必須先進(jìn)行防混疊濾波,濾除高于 1/2 采樣率的信號(hào)成分或噪聲。這種防混疊濾波通常與模數(shù)轉(zhuǎn)換器做在一個(gè)集成塊內(nèi),因此目前來說,語音信號(hào)的數(shù)字化的質(zhì)量還是有保證的。市面上購(gòu)買到的普通聲卡在這方面做的都還可以,語音聲波通過話筒輸入到聲卡后直接獲得的是經(jīng)過防混疊濾波、 A/D 變換、量化處理的離散的數(shù)字信號(hào)。 語音信號(hào)的小波消噪處理 許多情況下,我們所獲得的語音信號(hào)是被污染的,即在我們所采集的語音信號(hào)中摻雜著噪聲,干擾了語音信號(hào)中攜帶的有效信息,影響了我們的聽辨。尤其在實(shí)時(shí)采集過程中,由于線路帶寬的限 制,語音信號(hào)的采樣頻率往往比較低,加上周圍設(shè)備產(chǎn)生的電噪聲、沖擊噪聲和實(shí)驗(yàn)室環(huán)境的影響,使得語音信號(hào)的質(zhì)量有時(shí)很低,所以需要對(duì)語音信號(hào)進(jìn)行消噪處理,提高其聽辨質(zhì)量 6。 通常我們把噪聲分為以下幾種:帶通噪聲、沖激噪聲、白色噪聲等。 (1) 帶通噪聲,也叫有色噪聲,在某個(gè)頻帶上,信號(hào)的能量突然變大,比較典型的為交流電噪聲,它的能量主要集中在 50右。 (2) 沖激噪聲,其能量在時(shí)域內(nèi)會(huì)突然變大。 (3) 白色噪聲,是在頻域上不存在信號(hào)能量突然變大的頻帶,在時(shí)域上也找不到信號(hào)能量突然變大的時(shí)間段,即它在頻 域和時(shí)域上的分布是一致的。對(duì)于標(biāo)準(zhǔn)白噪聲,它的均值為零,方差為一個(gè)常數(shù),即 22 ( ) 0 , ( ) E x n E x n 。 傳統(tǒng)消噪方法對(duì)前兩種噪音的去除有很好的效果,但對(duì)于白噪聲,既不能在某個(gè)頻段上修改語音信號(hào),也不能在時(shí)頻內(nèi)修改語音信號(hào)。使用太多消噪方法都很難達(dá)到令人滿意的效果,使得語音信號(hào)的信噪比不但沒有提高,反而會(huì)引起原語音信號(hào)的嚴(yán)重失真。其主要原因有下面兩點(diǎn): 學(xué)士學(xué)位論文 13 (1) 白噪聲頻帶很寬,幾乎占據(jù)了整個(gè)頻域,與語音信號(hào)相互重疊,且沒有規(guī)律性,無法準(zhǔn)確區(qū)分語音和白噪聲。 (2) 語音信號(hào)是一種準(zhǔn) 周期的隨機(jī)信號(hào),特別是語音信號(hào)中的清音部分,其性質(zhì)同白噪聲差不多,很難區(qū)分。 小波消噪的基本思想是根據(jù)噪聲與信號(hào)在各尺度(即各頻帶)上的小波譜具有不同表現(xiàn)這一特點(diǎn),將各尺度上由噪聲產(chǎn)生的小波譜分量,特別是將那些噪聲小波譜占主導(dǎo)地位的尺度上的噪聲小波譜分量去掉,則保留下來的就是原信號(hào)的小波譜,此過程可稱為小波譜的重構(gòu)或還原,然后再利用小波變換重構(gòu)算法,重構(gòu)出原信號(hào)。 小波變換的消噪方法 本文提出了基于小波變換的硬閾值濾波法 7,先對(duì)語音信號(hào)進(jìn)行小波變換,經(jīng)過小波變換后語音信息主要集中在小波 變換尺度較大的低頻部分,而白噪聲主要集中在小波變化尺度較小的高頻部分,然后對(duì)各子波信號(hào)設(shè)定一個(gè)閾值,根據(jù)子波信號(hào)的閾值大小調(diào)整子波信號(hào),最后對(duì)調(diào)整過的子波信號(hào)進(jìn)行小波反變換就得到消噪后的語音信號(hào)。調(diào)整閾值可以獲得滿意的消噪處理結(jié)果。 由以上分析可知,小波消噪的關(guān)鍵是如何濾除由噪聲產(chǎn)生的小波譜分量。針對(duì)語音信號(hào)中各種噪聲類型,給出了相應(yīng)的基于小波變換的消噪方法。 (1) 對(duì)含噪的語音信號(hào)進(jìn)行小波變換,得到各個(gè)不同頻帶的子波信號(hào),將語音信號(hào)和白噪聲粗略分開。 第一步:確定小波基。由于不同的小波基在時(shí)域和頻域上的 局部性能不同,使得小波變換在時(shí)域和頻域上表征信號(hào)局部特點(diǎn)的能力不同,所以選擇適當(dāng)?shù)男〔ɑ惋@得特別重要。 波、 波、 波是集中非常常見的小波基。他們表征信號(hào)局部特點(diǎn)的能力都比較強(qiáng),有利于檢測(cè)信號(hào)的瞬態(tài)或奇異點(diǎn),所以語音消噪中常常會(huì)使用這些小波基。 第二步:確定小波基的階數(shù)。對(duì)于某種特定的小波基,階數(shù)的不同表征信號(hào)局部特點(diǎn)的能力也不同。一般階數(shù)越高表征信號(hào)局部特點(diǎn)的能力就越強(qiáng),但計(jì)算量會(huì)相應(yīng)變大,而且實(shí)驗(yàn)表明對(duì)于以上提到的三種小波基,當(dāng)階數(shù)高于 5 時(shí),提高小波基階數(shù) 對(duì)提高小波基表征語音信號(hào)局部性能力的影響并不大。所以在實(shí)際操作過程中不會(huì)選取太高的小波基階數(shù),一般選取 5 到 8 階左右。 第三步:確定小波變換次數(shù)。根據(jù)語音信號(hào)和白噪聲信號(hào)的小波變換的模極大值與學(xué)士學(xué)位論文 14 李氏指數(shù)之間的關(guān)系可以知道,語音信號(hào)的小波變換模極大值隨著小波變換尺度的增大而增大,白噪聲的小波變換模極大值隨著小波變換尺度的增大而減小。所以,當(dāng)語音信號(hào)中白噪聲含量多時(shí),小波變換尺度要大一些,即小波變換次數(shù)要多一些,但計(jì)算量也會(huì)相應(yīng)變大;當(dāng)語音信號(hào)中白噪聲含量少時(shí),小波變換尺度可以小一些,即小波變換次數(shù)可以少一些,計(jì)算 量也會(huì)相應(yīng)減少。 第四步: 小波變換。根據(jù)以上對(duì)小波變換參數(shù)的介紹,選定合理的參數(shù)進(jìn)行小波變換,就可得到各個(gè)不同頻帶的子波信號(hào)。 (2) 確定各層子波的濾波閾值。選取閾值是否適當(dāng)對(duì)消噪效果影響很大。本文確定閾值的方法如下: ( ) ( )m a x m a x , 1 , 0 , 0 2 0 0 %j j k jd d d j J k N (3) 濾波。確定閾值后就可以對(duì)各個(gè)子波信號(hào)進(jìn)行濾波,公式描述如下: ()m a x( ) ( ) ( )m a x m a x( ) ( )m a x m a 0,j jk k j k j k d d d dd d d d (其中 () (4) 小波反變換。對(duì)已經(jīng)處理過的各個(gè)子波信號(hào)進(jìn)行反變換就可以得到消噪后的語音信號(hào),即干凈的語音信號(hào)段。 小波消噪方法的分析 小波分析是一種有效的信號(hào)分析處理技術(shù),它在時(shí)域和頻域同時(shí)具有良好的局部化特性,既能夠在整體上提供信號(hào)的主要特征,又能提供任一局部時(shí)間或頻域內(nèi)信號(hào)變化劇烈程度的信息,因而成為分析非平穩(wěn)信號(hào)的銳利工具。 實(shí)驗(yàn)結(jié)果表明,小波變換語音增強(qiáng)較以往的傳統(tǒng)消噪方法 具有以下的優(yōu)點(diǎn): (1) 小波變換在低信噪比情況下的消噪效果較明顯,增強(qiáng)后語音的識(shí)別率較高,為應(yīng)用提供了極大的方便。 (2) 小波變換方法特別適合于時(shí)變信號(hào)和突變信號(hào)的消噪,因此能夠較好地應(yīng)用到語音消噪中去,這是傳統(tǒng)的消噪方法無法比擬的。 同時(shí),小波消噪也存在一定的缺陷: (1) 計(jì)算量較大,并且在應(yīng)用中要根據(jù)實(shí)際的采樣率改變離散小波變換的尺度范圍。 學(xué)士學(xué)位論文 15 (2) 濾波時(shí)閾值的選擇在很大程度上影響了消噪后的效果。 綜上所述,小波變換為語音這樣一種非平穩(wěn)信號(hào)中的信噪分離提供了新的濾波方法。對(duì)輸入語音信號(hào)進(jìn)行適當(dāng)?shù)慕?噪處理非常有必要,處理效果的好壞直接影響到語音識(shí)別系統(tǒng)的識(shí)別率,意義重大。隨著理論的完善和實(shí)踐的深入,小波消噪方法將逐漸成熟,并獲得更加廣泛的應(yīng)用。 語音信號(hào)的預(yù)處理 語音信號(hào)的預(yù)處理過程一般包括預(yù)加重處理、分幀處理、加窗處理、端點(diǎn)檢測(cè)幾個(gè)部分,如圖 述了整個(gè)預(yù)處理過程。 圖 音信號(hào)預(yù)處理過程示意圖 語音信號(hào)的預(yù)加重 預(yù)加重是對(duì)信號(hào)進(jìn)行平滑,即高頻提升。因?yàn)閺拇蕉水a(chǎn)生的聲音隨著頻率的增加會(huì)有 一 個(gè) 6頻程 幅度率遞減 8 ,所以在提取特征前需要對(duì)語音信號(hào)作 +6頻程 的高頻提升,這樣使得語音全通帶輸出占有相同的電平范圍。因此預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。一般地,預(yù)加重是在語音信號(hào)數(shù)字化之后,在參數(shù)分析之前。在計(jì)算機(jī)里用具有 6頻程提升高頻特性的預(yù)加重?cái)?shù)字濾波器來實(shí)現(xiàn),它一般是一階的數(shù)字濾波器 : 11H Z Z (其中 的值一般在 本文中 取 語音信號(hào)的分幀 及加窗 處理 語音信號(hào)具有短時(shí)穩(wěn)定性,即語音信號(hào)為非平穩(wěn)信號(hào),但在 10可以把語音信號(hào)分為一個(gè)個(gè)語音分析幀,以便于作短時(shí)分析,從而進(jìn)行語音特征值的計(jì)算。 若每幀信號(hào)有 幀間位移為 第 16 始語音信號(hào)的關(guān)系為 : 1iX n X M i n (式中 0 ,1, ., 1 在本文中采樣率為 16長(zhǎng) 56點(diǎn),幀間位移 28點(diǎn),其中采用幀間位移是為了解決時(shí)、頻域?qū)L(zhǎng)選擇的不同要求 9, 10。 為了得到短時(shí)的語音信號(hào),要對(duì)其進(jìn)行加窗操作,使窗函數(shù)平滑地在語音信號(hào)上滑動(dòng),從而將語音信號(hào)分成幀。在語音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗、漢明窗和漢 寧窗,它們的表達(dá)式如下 (其中 : 矩形窗: 1 , 0 10, 其 它(漢明窗: 0 . 5 4 0 . 4 6 c o s 2 1 , 0 10,n N n 其 它(漢寧窗: 0 . 5 4 1 c o s 2 1 , 0 10,n N n 其 它(由于窗函數(shù)一般取為中間大兩頭小的光滑函數(shù),這樣沖激響應(yīng)所對(duì)應(yīng)的 濾波器具有低通特性,其帶寬和頻率響應(yīng)取決于窗函數(shù)的選擇。 在本文中選用了漢明窗。這樣,經(jīng)過上面介紹的處理過程,語音信號(hào)就已經(jīng)被分割成一幀一幀的加過窗函數(shù)的短時(shí)信號(hào),然后再把每一個(gè)短時(shí)語音幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來提取語音特征參數(shù)。在進(jìn)行處理時(shí),按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,以此類推,最后得到由每一幀參數(shù)組成的語音特征參數(shù)時(shí)間序列。 語音信號(hào)的端點(diǎn)檢測(cè) 語音信號(hào)錄制進(jìn)來后,不論是識(shí)別單字還是識(shí)別連續(xù)字都必須做語音分段,即語音端點(diǎn)檢測(cè),找出語音段的開始和結(jié)尾, 這可借助于語音信號(hào)的短時(shí)能量和過零率。有聲語音的能量值較大,無聲語音 (如摩擦音 )的過零率較高 11,因此可以通過計(jì)算短時(shí)能量學(xué)士學(xué)位論文 17 大致判斷出語音的端點(diǎn),然后使用過零率找到語音端點(diǎn)的相對(duì)精確位置,分解出每一個(gè)語音段。 從背景噪聲中找出語音的起止點(diǎn),是語音處理中最基本的問題。通常的語音端點(diǎn)檢測(cè)中,都是分別用短時(shí)能量和短時(shí)平均過零率作為是否超過閾值,再通過“與”和 “或”運(yùn)算作是否為語音端點(diǎn)的判定。除非是在信噪比較高的聲學(xué)環(huán)境中,這種方法對(duì)語音信號(hào)有無分辨能力都不是很理想的。 近年來, 在語音信號(hào)的預(yù)加重、分幀和加窗處 理后,用基于能量及過零率改進(jìn)的相應(yīng)起止點(diǎn)識(shí)別方法和狀態(tài)轉(zhuǎn)移法可以進(jìn)行有效的語音判別。其中有效語音段截取是語音預(yù)處理的重要一步,端點(diǎn)檢測(cè)的準(zhǔn)確性對(duì)識(shí)別的效率和結(jié)果有直接影響 11。 整個(gè)語音信號(hào)的端點(diǎn)檢測(cè)可以分為四段:靜音、過渡段、語音段、結(jié)束。程序中使用一個(gè)變量來表示當(dāng)前所處的狀態(tài)。在靜音段,如果能量或過零率超過了低門限,則開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。在過渡段,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只有兩個(gè)參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。如果在過渡段中兩個(gè)參數(shù)中 的任何一個(gè)超過了高門限,就可以確信進(jìn)入語音段了。 一些突發(fā)性的噪聲也可能引起短時(shí)能量或過零率的數(shù)值很高,但不能持續(xù)足夠長(zhǎng)的時(shí)間。如門窗的開關(guān)、物體的碰撞等引起的噪聲,這些都可以通過設(shè)定最短時(shí)間門限來判別。當(dāng)前狀態(tài)處于語音段時(shí),如果兩個(gè)參數(shù)的數(shù)值降低到低門限以下,且總的計(jì)時(shí)長(zhǎng)度小于最短時(shí)間門限,則認(rèn)為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。否則就標(biāo)記好結(jié)束端點(diǎn),并返回。 圖 整的描述了系統(tǒng)實(shí)現(xiàn)端點(diǎn)檢測(cè)的程序流程: 學(xué)士學(xué)位論文 18 圖 件實(shí)現(xiàn)端點(diǎn)檢測(cè)程序流圖 下面將逐一介紹短時(shí)能量法、過零率法和能頻值法。 1、 端點(diǎn)檢測(cè)的短時(shí)能量法 語音信號(hào)的短時(shí)能量反映了語音信號(hào)幅度隨時(shí)間的變化,計(jì)算公式為 12: 2n m W n m (亦可表示為: 2n m h n m (其中 2h n W n 。 此式表明,短時(shí)能量相當(dāng)于語音信號(hào)平方通過一個(gè)單位函數(shù)相應(yīng)為h(n)的線性濾波器的輸出。 由于式( 卷積形式的,因此 以理解為離散信號(hào) 過一個(gè)單學(xué)士學(xué)位論文 19 位脈沖 通濾波器產(chǎn)生的輸出。 為使算法簡(jiǎn)化,避免它對(duì)高信號(hào)電平的敏感,采用平均幅度函數(shù): n W n m 來代替短時(shí)能量函數(shù)12。 這時(shí)能量 的主要意義在于,能量函數(shù)可用來大致定出濁音語音變?yōu)榍逡粽Z音的時(shí)刻,可用來區(qū)分聲母與韻母,無聲與有聲。 2、 端點(diǎn)檢測(cè)的短時(shí)過零率法 離散時(shí)間情況下,若相鄰的抽樣具有不同的代數(shù)符號(hào),就稱為發(fā)生了過零。一段語音波形中,單位時(shí)間內(nèi)信號(hào)通過零線的次數(shù)稱為過零率。它可作為信號(hào)頻率的一個(gè)度量。由于語音信號(hào)是寬帶信號(hào),故采用了短時(shí)平均過零率來粗略估計(jì)其譜特性 13。 具體計(jì)算公式為: s g n s g n 1n mZ x n x m w n m (其中 1s g 00( 1 / 20 01 其它(語音信號(hào)中,濁音語音能量集中在較低的頻率段內(nèi) (3下 ),清音語 音能量多集中在較高頻率段內(nèi),而頻率的高低又意味著過零率的高低 ,所以據(jù)此可以大致判斷出清音與濁音。 3、 端點(diǎn)檢測(cè)的能頻值法 能頻值 (義為:短時(shí)能量乘上短時(shí)過零率。因?yàn)闈h語音節(jié)具有簡(jiǎn)單的聲韻母結(jié)構(gòu),聲母具有比較高的過零率,能量比較低,韻母具有比較高的能量,過零率比較低,這樣能頻值既顧及了聲母的高過零率又顧及了韻母的高能量,從而提高了語音信號(hào)與背景噪聲的分辨力。實(shí)驗(yàn)表明能頻值是一個(gè)很好的參數(shù),有著較好的穩(wěn)定性和較高的語音噪聲分辯力。使用能頻值進(jìn)行語 音端點(diǎn)檢測(cè)和音節(jié)切割使得系統(tǒng)更接近于連續(xù)語音識(shí)別 13, 14。 這種方法相當(dāng)于在傳統(tǒng)方法中,以背景噪聲的短時(shí)能頻值為基準(zhǔn)對(duì)絕對(duì)門限閾值作調(diào)整;另外,對(duì)語音的分幀考察使端點(diǎn)檢測(cè)具有整體性和連續(xù)性 , 而不像傳統(tǒng)方法那樣學(xué)士學(xué)位論文 20 逐點(diǎn)進(jìn)行考察。因而該方法對(duì)環(huán)境的適應(yīng)能力很強(qiáng) 13。 能頻值端點(diǎn)檢測(cè)的算法步驟如下 : (1) 按語音幀計(jì)算短時(shí)能量和短時(shí)過零率,并計(jì)算兩者乘積得到短時(shí)能頻值序列( 0 ) , (1 ) , ( )E F E F E F (2) 對(duì)能頻值序列進(jìn)行中值平滑的濾波 17 ,即可以得到平滑后的能頻值序列(0),1 ef n ; (3) 對(duì)于某一時(shí)刻 t ,其對(duì)應(yīng)的能頻值為 ()ef t ,尋找滿足下式的能頻值峰點(diǎn) ()ef t j ,( ) ( 1 ) ( )e f t e f t e f t j ) ( 1 )e f t j e f t j (式中為尋找峰點(diǎn) j 時(shí)的最大幀數(shù); (4) 算比值 r ()()ef t jr ef t (5) 如果 (T 為相對(duì)門限閾值 ),則時(shí)刻 t 對(duì)應(yīng)的語音不是起點(diǎn),令 1t t j ,轉(zhuǎn) (3);否則,就認(rèn)為時(shí)刻 t 對(duì)應(yīng)的語音為起點(diǎn),語音終止點(diǎn)的判定與此類似,只是判定時(shí)從時(shí)刻 t 向前搜索。 學(xué)士學(xué)位論文 21 3 語音信號(hào)的特征提取 語音信號(hào)的特征提取是語音識(shí)別的基礎(chǔ),是關(guān)系到識(shí)別系統(tǒng)性能好壞的一個(gè)關(guān)鍵技術(shù),語音特征向量選擇的好壞會(huì)直接影響識(shí)別系統(tǒng)的性能。特征提取的基本思想是將預(yù)處理過的信號(hào)通過一次變換 ,去掉冗余部分,而把代表語音本質(zhì)的特征參數(shù)抽取出來。此后所有處理都是建立在特征參數(shù)之上的,一旦特征參數(shù)不能很好的反映語音信號(hào)的本質(zhì),識(shí)別就不能成功。 連續(xù)語音識(shí)別系統(tǒng)所用的特征包括 : (1) 語音幀能量; (2) 基音周期:現(xiàn)已證實(shí),基音周期及其派生參數(shù)攜帶有較多的個(gè)人特征信息,特別是對(duì)漢語這種“有調(diào)”語種,一個(gè)字的基音周期的變化即聲調(diào),就是一種重要的相當(dāng)穩(wěn)定的個(gè)人特征參數(shù); (3) 幀短時(shí)譜或 聽覺特征處理 )特征 (包括 14 16采用濾波器組獲得頻譜信息; (4) 共振峰頻率及帶寬; (5) 鼻音聯(lián)合特征:對(duì)于連續(xù)語音,由于發(fā)音時(shí)聲道形狀等隨時(shí)間變動(dòng)存在慣性,任一時(shí)刻的聲道形狀不但與該時(shí)刻所發(fā)的音素有關(guān),也與鄰近時(shí)刻的音素有關(guān),此現(xiàn)象稱為發(fā)音的聯(lián)合現(xiàn)象。經(jīng)試驗(yàn)分析得知,此聯(lián)合性體現(xiàn)在幀特征上隨著人的不同差異較大,因而可以利用它來識(shí)別是否為正確的語音信號(hào)。尤其對(duì)于鼻音此性質(zhì)較為突出; (6) 譜相關(guān)特征:短時(shí)譜中同頻率譜線隨時(shí)間的相關(guān)性特征隨說話人的不同區(qū)別較大; (7) 相對(duì)發(fā)音速率特征 :對(duì)于同一語音,對(duì)于不同說話人,發(fā)音過程中某些部分的相對(duì)發(fā)音速率間的差異很大; (8) 音調(diào)輪廓特征:不 同說話人的平均音調(diào)特征往往差別不大,但是音調(diào)輪廓,即在一個(gè)句子的時(shí)段內(nèi)音調(diào)隨時(shí)間變化的曲線形狀的變化卻非常明顯,應(yīng)用這一特征的優(yōu)點(diǎn)是它在傳輸及記錄的過程中不產(chǎn)生失真。 目前,語音識(shí)別中常用到的特征向量可以分為如下三種 14: (1) 基于 (2) 基于 (3) 基于前沿?cái)?shù)字信號(hào)處理技術(shù)的特征分析手段,如小波分析、時(shí)域一頻域分析、 人工神經(jīng)網(wǎng)絡(luò)等。 學(xué)士學(xué)位論文 22 第一類有基于德賓 (法的 二類有基于 度的 兩類系數(shù)在各種文獻(xiàn)中使用的最多。其中 線性預(yù)測(cè)的角度來模擬人的聲道特性,是一種基于合成的參數(shù),但此參數(shù)沒有充分利用人耳的聽覺特性。人們通過對(duì)人類聽覺機(jī)理的研究發(fā)現(xiàn),人耳對(duì)聲音頻率高低的主觀感覺并非成正比關(guān)系,是非線性的。不同頻率聲音形成的行波,在沿著耳蝸基底膜傳播的過程中,峰值出現(xiàn)在耳蝸荃底膜的不同位置上,該位置和聲音頻率呈對(duì)數(shù)關(guān)系。 據(jù)聽覺實(shí) 驗(yàn)的結(jié)果來分析語音的頻率。與基于線性預(yù)測(cè)的倒譜分析相比,其突出優(yōu)點(diǎn)是不依賴全極點(diǎn)語音產(chǎn)生模型的假定,而且在噪聲環(huán)境下表現(xiàn)出更強(qiáng)的頑健性,在非特定人 連續(xù) 語音識(shí)別方面有利于減少因人不同的差異可能帶來的影響。大量的研究表明,從識(shí)別效果及抗噪聲性能上來看 針對(duì)以上的介紹,本文在漢語連續(xù)數(shù)碼串語音識(shí)別系統(tǒng)中采用的特征向量為 章將重點(diǎn)介紹 征參數(shù)的提取 美爾頻率倒譜系數(shù) 率倒譜系數(shù) (將信號(hào)的頻譜,首先在頻域中將頻率軸變換為 率刻度,再變換到倒譜域得到的倒譜系數(shù) 15, 16。 音高的單位 , 音高是一種主觀心理量,是人類聽覺系統(tǒng)對(duì)聲音
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)公共事業(yè)管理(公共組織學(xué))試題及答案
- 2025年大學(xué)??疲ㄊ突ぜ夹g(shù))油品分析試題及答案
- 2025年高職物業(yè)管理(物業(yè)管理基礎(chǔ))試題及答案
- 2025年中職冶金技術(shù)(冶金操作實(shí)操)試題及答案
- 2025年中職歷史學(xué)(世界古代史)試題及答案
- 2025年大學(xué)大一(材料科學(xué))金屬材料學(xué)階段測(cè)試題及答案
- 2025年高職環(huán)境工程技術(shù)(環(huán)保設(shè)備運(yùn)行與維護(hù))試題及答案
- 2026年注冊(cè)消防工程師(一級(jí)消防安全技術(shù)實(shí)務(wù))試題及答案
- 2025年中職第一學(xué)年(物流基礎(chǔ))物流成本構(gòu)成階段測(cè)試試題及答案
- 2026年安慶醫(yī)藥高等??茖W(xué)校單招綜合素質(zhì)考試參考題庫(kù)帶答案解析
- 全球AI應(yīng)用平臺(tái)市場(chǎng)全景圖與趨勢(shì)洞察報(bào)告
- 2026.05.01施行的中華人民共和國(guó)漁業(yè)法(2025修訂)課件
- 維持性血液透析患者管理
- 2025年大學(xué)大四(臨床診斷學(xué))癥狀鑒別診斷試題及答案
- 2026液態(tài)氧儲(chǔ)罐泄漏事故應(yīng)急處置方案
- 直腸解剖課件
- 2025年消控員初級(jí)證試題及答案
- 遼寧省丹東市鳳城市2024-2025學(xué)年八年級(jí)上學(xué)期1月期末語文試題
- 樓宇智能弱電系統(tǒng)培訓(xùn)資料
- 人力資源調(diào)研報(bào)告
- 下水箱液位控制系統(tǒng)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論