已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
分類號 密級 公開 學號 20060813005 青 海 師 范 大 學 碩 士 學 位 論 文 安多藏語語音特征值提取的研究 研究生姓名 導師姓名(職稱) 教授 申請學位類別 工學 申請學位名稱 碩士 學科專業(yè)名稱 計算機應用技術 研究方向名稱 藏文信息處理 論文提交日期 2009 年 3 月 29 日 論文答辯日期 學位授予單位 青海師范大學 學位授予日期 答辯委員會主席 評閱人 , 青海師范大學學位論文獨創(chuàng)性聲明 本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,出了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含 為獲得青海師范大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中做了明確的說明并表示了謝意。 研究生簽名: 日期: 青海師范大學學位論文使用授權聲明 青海師范大學 、中國科學技術信息研究所、國家圖書館有權保留本人所送交學位論文的復印件和電子文檔,可以采用影印、縮印或其他復制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱,可以公布(包括刊登)論文的全部或部分內(nèi) 容。論文的公布(包括刊登)授權由青海師范大學研究生部辦理。 研究生簽名: 導師簽名: 日期 安多藏語語音特征值提取的研究 摘要 語音識別就是讓機器能夠聽懂人說話, 它是語音信號處理的一個重要的研究方向。語音識別技術集聲學、語音學、計算機、信息處理和人工智能等諸多領域,是一項綜合技術。隨著計算機技術、多媒體技術、數(shù)字信號處理技術的發(fā)展,人們對語音識別技術的發(fā)展寄予了更高的期望。藏語的語音識別目前還出于探索階段,然而我們可以從其他語言語音識別技術的發(fā)展、商品化和將來的研究走向看到,藏語語音識別必定會產(chǎn)生不小的社會效益和經(jīng)濟效益,它將會是藏文信息化道路上不可缺少的一環(huán)。因此,對安多藏語語音信號的研究是藏文信息處理的一個重要階段。 本論文針對安多藏語語音,選用安多單音節(jié)為研究單元,主要做了兩個方面的工作。 一方面,循著語音信號處理的過程對安多語音進行研究,從預處理開始,對安多語音信號進行數(shù)字采樣,預加重濾波,分幀加窗,時域分析,頻域分析,語譜分析,采用雙門限法對安多語音信號進行端點檢測。研究特定人孤立詞識別算法,包括 別法, 別法, 別法及神經(jīng)網(wǎng)絡識別法。深入分析了線 性預測倒譜系數(shù)( 美爾頻率刻度倒譜系數(shù)( 個倒譜參數(shù)?;诎捕嗾Z音分別采用 行特征值的提取實驗,分析比較了基于這兩種參數(shù)的識別效果,最終選用 數(shù)作為識別參數(shù)。 另一方面,利用所研究的參數(shù)和方法,搭建一個特定人孤立詞安多語音識別系統(tǒng),系統(tǒng)的界面用 的 設計 , 本實驗系統(tǒng)可以實現(xiàn)語音播放,并且繪制語音信號的時域波形 、 頻域波形 、 語譜圖 、 短時能量和短時過零率的波形圖,檢測語音端點的幀位置,實現(xiàn)安多藏語常用單音節(jié)詞語的識別,顯示識別結果。 關 鍵詞: 安多藏語 , 語音識別 , 端點檢測 ,特征值提取 , 線性預測倒譜系數(shù) ,美爾頻率刻度倒譜系數(shù) f f f he of is to to It is of is a to of is to of of we It is an of is a as of On to of is eve of of of to We of of of on in we of of On is Weve UI to of as of of of of 目錄 第一章 緒論 1 音識別的研究綜述 1 究背景 1 內(nèi)外語音識別技術的發(fā)展和現(xiàn)狀 1 音識別的關鍵技術 2 音聲學模型 2 音特征值提取 3 料庫和語音庫 3 多藏語語音特征值提取和語音識別的研究意義 4 文的研究內(nèi)容 4 文的主要工作 4 文的章節(jié)安排 5 第二章 語音識別系統(tǒng)理論 6 音識別的基本原理 6 點檢測的方法 6 于頻帶方差的端點檢測 6 于能量的端點檢測 7 于倒譜特征的語音信號端點檢測 8 于信息熵的語音端點檢測 8 音識別的方法 9 態(tài)時間規(guī)整技 術 9 量量化技術 10 馬爾柯夫模型 10 工神經(jīng)網(wǎng)絡 11 第三章 安多藏語語音預處理和特征參數(shù)分析 12 多藏語的基本特征 12 多藏語輔音的發(fā)音特征 12 多藏語語音研究單元的選擇 12 究詞匯列表 13 多藏語語音信號基本理論 14 多藏語語音的預處理 14 樣和預加重 14 幀加窗處理 15 域分析 16 域分析 17 譜分析 18 相關分析 19 點檢測的算法與實驗 21 多藏語特征參數(shù)的分析 24 譜特征分析 24 征參數(shù) 26 征參數(shù) 28 第四章 安多藏語語音特征值提取實驗及算法改進 31 多藏語特征值提取的基本問題 31 征參數(shù)提取模擬過程 31 擬算法 32 征參數(shù)提取模擬過程 33 擬算法 33 分 征值參數(shù)的提取 34 結 35 征參數(shù)的處理 35 考特征值模板的制作 36 法原理 36 驗及結論 38 第五章 基于 實驗驗證 40 真系統(tǒng)設計 40 統(tǒng)實現(xiàn)功能介紹 41 數(shù)波形 42 點檢測結果 43 別結果 44 第六章 總結和展望 45 作小結 45 課題研究的展望 45 參考文獻 47 致謝 50 附錄 程序清單 51 第一章 緒論 音識別的研究綜述 究背景 隨著計算機技術的飛速發(fā)展,人們不斷地向它提出更高的要求,計算機的功能也日趨完善。人機交互,讓計算機更快更準確的明白我們在說什么,這是語音識別技術帶給我們的一項挑戰(zhàn)。語音識別技術就是通過計算機用各種編程語言設計的算法,把語音信號轉化成其內(nèi)容所表達的文本或者命令的一種技術。語音識別技術是交 叉學科的綜合技術,它涉及聲學、語言學、語音學、數(shù)字信號處理、計算機科學、模式識別等眾多領域,其目的是實現(xiàn)人與計算機進行自然語音的信息交互。 內(nèi)外語音識別技術的發(fā)展和現(xiàn)狀 12 在語音識別技術的發(fā)展史上,每一次重大的進展都和一種成功算法的提出密不可分。最初的語音識別算法是采用頻譜分析和模式匹配來進行識別決策。 1952年美國的 人研究成功了世界上第一個識別十個英文數(shù)字發(fā)音的實驗系統(tǒng)。 1960 年, 人研究成功了第一個計算機語音識別系統(tǒng),從此開始了計算機語音識別的初步應用 。進入 70 年代之后,語音識別,尤其是小詞匯量、特定人、孤立詞的識別方面,取得了許多實質(zhì)性的進展,更重要的是語音信號線性預測編碼 (術和動態(tài)時間規(guī)整 (術的提出,有效地解決了語音信號的特征提取和不等長匹配問題,矢量量化 (術也己經(jīng)在語音識別領域得到了廣泛地應用。自從八十年代中期以來,新技術的不斷出現(xiàn)使語音識別有了實質(zhì)性的進展。特別是隱馬爾可夫模型 (研究和廣泛應用,推動了語音識別的迅速發(fā)展 ,陸續(xù)出現(xiàn)了許多基于 型的語音識別系統(tǒng),其中美國卡耐基梅隆大學的 統(tǒng)被認為是 80 年代末 90 年代初的典型代表。在 90 年代 司推出的商業(yè)系統(tǒng)具有很高的水準。相應的 語音處理 研究在 提取 參數(shù) 、優(yōu)化 模型 以及系統(tǒng)的自適應技術等方面取得一些關鍵性的進展,這使語音識別技術進一步成熟 。許多發(fā)達國家,如美國、韓國 、 日本 ,以及 用化的研究及其開發(fā)投入大量的資金 。當前,語音識別領域的研究正方興未艾,在這方面的新算法、新 思 路 和新的應用系統(tǒng)不斷涌現(xiàn) , 例如人工神經(jīng)網(wǎng)絡技術的引用及和 法相結合也得到廣泛的重視。 在國內(nèi), 20 世紀 50 年代末就有人嘗試用電子管電路進行元音識別,而到了70 年代才由中國科學院聲學所開始進行計算機語音識別的研究。在此之后,有關專家也開始撰文介紹這方面的工作。從 80 年代開始,很多單位陸續(xù)參加到這一行列中來,它們分別采用不同的方法,開展了從最初的特定說話人、小詞匯量孤立詞識別,到非特定說話人、大詞匯量連續(xù)語音識別的研究工作。 80 年代末,以漢語全音節(jié)識別作為主攻方向的研究已經(jīng)取得了相當大的進展,一些漢語語 音輸入系統(tǒng)已向實用化邁進。四達技術開發(fā)中心、星河公司等相繼推出了相應的實際產(chǎn)品。清華大學、中國科學院聲學所在無限詞匯的漢語聽寫機的研制上獲得成功。 90 年代初,四達技術開發(fā)中心又與哈爾濱工業(yè)大學合作推出了具有自然語言理解能力的新產(chǎn)品。在國家 863 計劃的支持下,清華大學和中國科學院自動化所等單位在漢語聽寫機原理樣機的研制方面開展了卓有成效的研究。北京大學在說話人識別方面也作了很好的研究,清華大學電子工程系的語音識別系統(tǒng)模型采用了基于整詞的 、 上下文無關連續(xù)隱馬爾可夫模型 ( , 取 得較好的 效果 ,當時的識別 結果和 音識別系統(tǒng)的水平 不相上下 。 可見,語音識別技術的研究已經(jīng)取得了很大的成績。但是到目前為至,該技術離廣泛的應用還有很大的距離,很多的因素影響著語音識別系統(tǒng)的性能,例如:背景噪音的影響,說話人生理或者心理情況變化的影響,等等。現(xiàn)在,說話人自適應技術,魯棒性語音識別等成為了最活躍的研究領域,語音識別技術正在朝著高自適應性,高識別率,以及獨立于說話人和環(huán)境的方向發(fā)展。 音識別的關鍵技術 音聲學模型 聲學模型通常是將獲取的語音特征值通過算法產(chǎn)生的模型,它是語音識別系統(tǒng)中的重要組成部 分。聲學模型的目標是提供一種有效的方法,計算語 音的特征矢量序列和每個發(fā)音模板之間的距離,形成一組 參考模板,識別時,通過待測模板和參考模板之間的函數(shù)關系來判定識別結果。常用的聲學模型有 型出現(xiàn)在語音識別的早期,是常用的較為成熟的聲學模型,它應用動態(tài)規(guī)劃的方法成功的解決了語音信號特征參數(shù)序列在比較時出現(xiàn)的時長不等的問題,用于孤立詞的識別系統(tǒng)中,并具有良好的性能。 型是改進模板匹配的統(tǒng)計學算法,是現(xiàn)在的研究中經(jīng)常使用的聲學模型,它由相互關聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特 性,包括隱蔽的有限 狀態(tài) 和其相關聯(lián)的可見矢量,隱 的特性是通過可觀測的信號特征來表示的,這種模型用于大詞匯量及其連續(xù)語音的識別系統(tǒng)中。 工神經(jīng)網(wǎng)絡)模型是一個研究熱點,它模擬了人類神經(jīng)元的活動原理,自適應性更強,經(jīng)常和 型相結合,得到具有更高識別性能的說話人識別系統(tǒng)。 音特征值提取 由于語音信號數(shù)據(jù)量巨大,為了壓縮數(shù)據(jù)量,必須進行特征值提取。特征參數(shù)的提取是語音識別中一個非常重要的環(huán)節(jié),語音信號含有豐富的信息,特征提取就是對語音信號進行分析處理,去除對語 音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。好的特征,既可以具有很高的模式區(qū)分能力,又可以節(jié)省大量的存儲空間,提高識別效率。 目前 , 在語音識別 的研究 中 , 主要采用基于線性預測分析 (術得到的倒譜系數(shù) (基于 數(shù) (率刻度倒譜系數(shù) )。 術 是基于人耳聽覺機理, 數(shù)在低 頻段有較高的 譜分辨率,對噪聲的魯棒性優(yōu)于 數(shù) 3,具有更高的識別率和抗噪能力,在實際中 數(shù)得到了更多更廣的應用。 料庫和語音庫 語料庫是隨著文字識別,語音識別,語音合成等研究領域的發(fā)展而應運產(chǎn)生的。語料庫的開發(fā)是根據(jù)具體的研究目的收集語言文本素材作為原始語料,將原始語料經(jīng)過加工處理形成語料庫,語料庫是在隨機采樣的基礎上 , 收集 具有 代表性的語言材料的總匯,它作為自然語言運用的樣本,為計算機語言的研究提供了可靠的依據(jù) 4。 語音數(shù)據(jù)庫是語音信號處理的研究基礎,無論語音合成還是語音識別,都離不開語音數(shù)據(jù)庫 方面 的支持。針對不同的研究目 標 ,語音數(shù)據(jù)庫在語料 的 選擇和 錄音方式等方面都有不同的 要求。 對于語音識別而言,為了解決 語 音 識別環(huán)境多樣性和用戶情況 復雜性 帶來的魯棒性問題,要求語音數(shù)據(jù)庫盡可能的包括最多的語 音 現(xiàn)象 。大規(guī)模 、 高質(zhì)量 、 多樣性的語音數(shù)據(jù)庫對于推動語音識別技術的研究和應用具有重要的意義 1。 多藏語語音特征值提取和語音識別的研究意義 5 國內(nèi)外語音識別技術的發(fā)展,使我們看到了少數(shù)民族語音識別的發(fā)展前景, 也吸引著學術界和科研單位的廣泛關注。對藏文語音識別的研究是藏文信息化的必經(jīng)之路,促進藏文化的發(fā)展, 促進各民族之間的語言文化技術交流,對我國多語言、跨平臺技術的研究有推動作用 。 目前對藏文語音識別方面的研究還處 于起步階段,在國內(nèi),中國社會科學院語音學與計算機語言學重點實驗室、西北民族大學和青海師范大學都在做這方面的研究,其中中國社會科學院語音學與計算機語言學重點實驗室已建立了藏語拉薩話的語音聲學參數(shù)數(shù)據(jù)庫,西北民族大學和青海師范大學在這方面的工作目前還正在進行中。 藏區(qū)由于地理分布的不同 , 形成了四個方言區(qū) , 安多方言、康巴方言、衛(wèi)藏方言、阿里方言。目前說阿里方言的人數(shù)在國內(nèi)不多 ,30 多萬阿里方言的藏民分布在拉達克 (土爾基斯坦 )和克什米爾 (印度 )。國內(nèi)一般說三大方言 6,本文是針對安多方言進行語音識別方面的研究。 國 內(nèi)從事民族文字信息技術的單位屬于弱勢群體,而且重文字技術研究、輕語音技術研究,所以對安多藏語這一民族語言的語音方面的研究就是一個新的課題。針對安多藏語進行語音特征提取,也是安多藏語語音識別的一項關鍵技術,這一工作在藏文語音處理方面目前還處于初級階段。 利用現(xiàn)代語音學的研究方法對安多藏語進行系統(tǒng)的研究,提取特征參數(shù),無論在語言學、語音學等方面都有著重要意義, 這一探索性的工作將為今后繼續(xù)進行系統(tǒng)的研究奠定基礎,提供一些可以借鑒的經(jīng)驗。 文的研究內(nèi)容 文的主要工作 對于安多藏語語音的研究目前處 在探索階段,本人在前人研究的基礎上,選擇了語音識別技術的成熟算法,進行了安多藏語語音特征值提取的研究,并利用 件建立起了一個語音識別系統(tǒng)。 集科學計算,信號處理,系統(tǒng)仿真,圖形圖像處理等功能于一體的軟件系統(tǒng),被廣泛應用于研究領域,它的功能強大且程序簡單易懂。語音信號處理正是 優(yōu)勢,本論文的研究全部 基 用 件完成,實現(xiàn)了一個特定人孤立詞的語音分析和識別系統(tǒng)。在語音信號特征提取方面,分析當前最常用的兩種特征參數(shù), 率倒譜系數(shù)和線性預測倒譜系數(shù),改進了特征值提取 的算法,使所提取的特征值很好的反應語音特性;在語音識別方面,主要應用了比較成熟的 法,利用識別率來檢驗特征值提取的好壞,本次研究基于 過實驗驗證識別率較高,能夠到預期的效果。 文的章節(jié)安排 第一章 緒論,綜述語音識別的研究現(xiàn)狀和發(fā)展,討論了語音識別的關鍵技術,本文正是針對關鍵技術中的語音特征值提取的研究,課題涉及少數(shù)民族語言安多藏語的語音處理,是個重要的創(chuàng)新點。 第二章,討論語音識別的系統(tǒng)理論和語音識別的各個單元, 介紹語音信號分析的基礎知識,常用的端點檢測的方法和語音識別的方法。 第三章,從安多藏語的基本特征出發(fā) , 系統(tǒng)介紹本課題的研究過程,本章重點介紹安多語音預處理的各個環(huán)節(jié),詳細分析所需要的參數(shù)和波形,內(nèi)容涉及采樣和預加重分析、時域分析,頻域分析、語譜分析、自相關分析等,詳細介紹本課題實驗所用的端點檢測的算法和實現(xiàn)過程,此外分析特征值提取的兩個倒譜參數(shù) 第四章,重點介紹安多藏語語音特征值的算法和實驗過程,并且對其結果進行分析。 第五章,根據(jù)所研究參數(shù)及其算法,利用 件設計出語音處理實驗系統(tǒng),演示系統(tǒng)各項功能。 第六章,對本研究工作小結并且展望今后研究的發(fā)展趨勢。 第二章 語音識別系統(tǒng)理論 音識別的基本原理 語音識別的本質(zhì)就是一種模式識別,它一般包括以下幾個單元:預處理單元,特征提取單元,訓練模板單元,模板匹配單元等,原理圖如圖 示。 語音識別的基本過程是:待測語音通過話筒轉換成電信號,輸入到預處理單元,預處理包括預加重、分幀、加窗以及端點檢測,經(jīng)過預處理后的語音信號進入特征提取單元,提取語音的特征參數(shù),這些特征參數(shù)構成待識別的語音模板 ,將其與已經(jīng)存儲在計算機內(nèi)的參考模板進行逐一匹配,獲得最佳匹配的參考模板 ,這樣就可得到 識別結果。其中的訓練模板單元是事先輸入一系列的已知語音信號,提取它們的特征作為參考模板 7。 點檢測的方法 端點檢測又可稱為自動分段技術,是用數(shù)字信號處理技術找出語音信號中各個段落的始點和終點位置,這些段落就是我們所選擇的識別單元,如音素、音節(jié)、詞素、詞等。準確的端點檢測不僅提高系統(tǒng)處理效率,同時也提高系統(tǒng)的識別率。 于頻帶方差的端點檢測 8 這種方法 計算某一幀信號中各頻帶能量的方差。因為語音 信號是時變的,所以將這種以短時頻帶方差作為參數(shù)檢測語音段起止端點的方法稱為頻帶方差檢測法。 定義一個矢量 X ), 1()0( , x( )n ,其中的分量 x( )i 定義為中心頻率為 i 的濾波器的輸出能量,它可以根據(jù)一幀信號通過帶通濾波器來計算,圖 2音識別系統(tǒng)基本結構原理圖 也可以首先計算一幀信號的 后把某幾個頻率分量組合而得。對于數(shù)字信號,最低頻率是 0,最高頻率是 ,其余各中心頻率按一定規(guī)則從 0 至 遞增。 定義均值為: 公式( 2 則頻帶方差為: 公式( 2 確定檢測門限值 M。在實際實用中,具體門限值可以根據(jù)實際環(huán)境的背景噪聲特性來確定,一般取 M( 3 5) 背景噪聲的頻帶方差值。 頻帶方差檢測相對于傳統(tǒng)端點檢測方法的優(yōu)點在于它利用了語音和噪聲的頻譜特性差異,有效地區(qū)分開了語音和噪聲,避免了傳統(tǒng)端點檢 測方法中存在的問題,從而準確地檢測出語音段的起止端點。 于能量的端點檢測 1)基于短時能量和短時平均幅度的檢測方法 語音和噪聲的主要區(qū)別在他們的能量上,語音段的能量比噪聲段的大,語音段的能量是噪聲段能量疊加語音聲波能量的和。傳統(tǒng)檢測方法認為,如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,就能夠保證系統(tǒng)的信號噪聲與背景區(qū)分開 10。但是,在實際應用中往往很難保證有這么高的信噪比,因而僅依靠短時能量或短時平均幅度來檢測語音段的起止點常會遇到問題。而且在一些特殊情況,如當語音段的開始和末尾都是弱摩擦音時,開始 段的短時能量就比較小,而以鼻音結尾的語音,其末端的短時能量也比較小,它們都容易與噪聲混淆。在這些情況下,只靠短時能量來檢測語音段的起止點往往會漏掉某些音素。所以,要準確找出語音段的起止點,還需要研究兩者的其他特征。 2)基于短時能量和短時平均過零率的檢測方法 這種方法是在短時能量檢測方法的基礎上,加上短時平均過零率,利用能量和過零率作為特征來進行從檢測 ,種方法也被稱為雙門限比較法。門限值對端點檢測的準確性起著很大的的作用,一般利用計算并且綜合實驗經(jīng)驗值得到,本課題選用此方法,在第三章詳細研究討論。 于倒譜特征的語音信號端點檢測 ni )(11 2)(11 在很多情況下語音處理的環(huán)境會有噪聲的影響,由于倒譜距離對噪聲環(huán)境具有更好的穩(wěn)健性,目前大多數(shù)語音識別系統(tǒng)中,利用倒譜系數(shù)提取語音特征值,用作語音識別中的參考模板,但是在這里我們主要討論利用倒譜距離進行語音端點檢測的研究。 信號倒譜可以看成是信號能量譜密度函數(shù) )(S 的對數(shù),做傅立葉級數(shù)展開,可寫成: 公式( 2 其中,且 公式( 2 一對譜密度函數(shù) )(S 和 )( S ,應用 理可用倒譜距離表示對數(shù)譜的均方距離: 公式( 2 對數(shù)譜的均方距離可以表示兩個信號譜的區(qū)別,故可以作為一個判決參數(shù)。用倒譜距離測量來判定各個信號幀是語音幀還是噪聲幀,這就是倒譜距離測量法。前面所介紹的基于能量的檢測法是倒譜距離測量法的特例。倒譜距離測量法根據(jù)每個信號幀與噪聲幀的 倒譜距離的軌跡進行檢測 11。 于信息熵的語音端點檢測 熵可以表示系統(tǒng)狀態(tài)自發(fā)實現(xiàn)的可能性程度,可以看成系統(tǒng)不肯定的度量,因此,在信息學中利用熵的這一概率特征來度量信息。用 H(u)表示信息熵,其中 u 代表事件,它是事件 u 不確定性的定量測度,同時也代表了事件 u 所含信息量的大小。對于一個有限離散概率場的不確定性可由隨機變量的熵來表示 12。設 X 是取有限個值的隨機變量, i=1, 2, , n, X 的熵定義為 : 且 公式( 2 熵 H 代表了 X 的信息 量,由它的性質(zhì)可知,當 n 個概率相等時,取最大值,也就說明熵值越大, X 概率分布越模糊,越難以判斷 13。 n )(lo g n 22 )()(l o g)(l o 2)(lo g0 ni ii lo g)( nn 假設語音 s(n)的幀長為 N,一幀語音中的最大幅度和最小幅度分別為 M 和別統(tǒng)計出熵值屬于這一區(qū)域的每一個幅度值的比例作為這一值的概率。),( i , 個數(shù),其概率為 pi=,定義此語音幀的熵為 : 公式( 2 由于語音信號的幅度相對于背景噪聲而言其幅度的動態(tài)范圍大,因此可以認為語音信號在 ()中的隨機事件多,故平均信息量大,即熵值大。而無聲段幀的幅度小,分布相對集中,熵值就小。利用信息熵可以很好的對無聲段和有聲段進行分別,也是采用信息熵門限的方法從語音前端和后端進行搜索,從而得到語音的起始點和終止點。 上述介紹了四種端點檢測的方法,除此之外,還有基于 段帶檢測方法;基于小波變換的端點檢測方法,基于 碼器的端點檢測等。 音識別的方法 語音識別的核心是把參數(shù)化的特征矢量映射到人們可以理解的文本信息,要建立一個語音識別系統(tǒng)不僅要提取最能反應語音特征的參數(shù),還要針對識別 范圍選擇一個合適的算法。 態(tài)時間規(guī)整技術 動態(tài)時間規(guī)整( 把時間規(guī)整和距離測度計算結合起來的一種非線性規(guī)整技術,它是傳統(tǒng)的模板匹配方法,通過將待識別語音信號的時間軸進行不均勻地扭曲和彎曲,使其特征與模板特征對齊,并在兩者之間不斷的進行兩個矢量距離最小的匹配路徑計算,從而獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。這種方法保證了待識別特征與模板特征之間最大的聲學相似特征和最小的時差失真,是成功解決模式匹配問題最早和最常用的方法 14。 運算量較大,對語音信號的端點檢測數(shù)要求較高 。這種方法主要用于孤立詞、小詞匯語音識別系統(tǒng)。 量量化技術 矢量量化技術是一種用一個 K 維矢量來表示一個原來用 K 個標量表征的語音信號的波型幀或參數(shù)幀,然后對矢量進行整體量化的方法 7。在語音識別前,要訓練語音樣本序列,通過 法類聚生成碼本,不同語音碼本在特征空間 M Mi ii lo g 的分布相互不重疊或者有重疊,通過相似度測量來區(qū)別不同語音,這些碼本包含語音特征,由此可實現(xiàn)識別 15。 具體的矢量化過程是,將語音信號波形的 k 個樣點的每幀構成 k 維空間中的一個矢量,大量的 k 維矢量以最佳鄰近準則和最小失真準則的統(tǒng)計 進行劃分,使其從無限的矢量空間聚類劃分為 M 個有限的區(qū)域邊界,而每個區(qū)域有一個中心矢量值,即碼字,故共有 M 個碼字,各碼字的下標或序號的集合則構成了一本反映訓練時 k 維矢量的碼本。在語音識別時,實質(zhì)上是一個將 k 維待處理矢量與己有的碼本中的 M 個區(qū)域邊界進行比較,找出與該待測輸入矢量距離最小的碼字序號來代替其識別結果的過程。 矢量量化是一種極其重要的數(shù)據(jù)壓縮方法,但是訓練過程中的計算方法復雜且計算量過大。一般應用于語音識別的都是改進后的有限狀態(tài)矢量量化 (術和帶學習功能的矢量量化 (術,其 中, 計算量小,適用于與上下文有關的語音識別。而 用其自適應性的學習功能進行碼本優(yōu)化,即在一定條件下,將錯誤的參考矢量移到遠離輸入矢量的地方,而將正確的參考矢量移到離輸入矢量更近的地方,從而提高識別率 17。 術在孤立詞和連續(xù)語音的漢語語音識別中也得到應用,但沒有 術和 術普遍。 馬爾柯夫模型 隱馬爾可夫模型 (是一種典型的統(tǒng)計信號處理方法。其基本理論是在 1970 年前后由 人建立起來的,隨后由 人將其應用到語音識別中。在 80 年代中期,由于 驗室人對 深入淺出的介紹,才逐漸使 世界各國從事語音處理的研究人員所了解和熟悉,進而成為公認的一個研究熱點 1。 一種狀態(tài)的有限集,其中每一個狀態(tài)與一個(通常是多維的)概率分布狀態(tài)相關 18。 型是語音信號時變特征的有參表示法。它由相互關聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的 (不可觀測的 )具有有限狀態(tài)的,另一個是與 的每一狀 態(tài)相關聯(lián)的觀察矢量的隨機過程。隱特性要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應狀態(tài)觀察符號的隨 機過程描述,而信號隨時間的變化由隱 型參數(shù)包括 撲結構、狀態(tài)轉移概率及描述觀察符號統(tǒng)計特性的一組隨機函數(shù)。按照隨機函數(shù)的特點, 型分為離散隱馬爾柯夫模型 (連續(xù)隱馬爾柯夫模型 (及半連續(xù)隱馬爾柯夫模型 (一般來講,在訓練數(shù)據(jù)足夠時, 于 9。 工神經(jīng)網(wǎng)絡 20 人工神經(jīng)元網(wǎng)絡 (其自適應性、非線性 、 并行性、學習特性及魯棒性等特點而受到人們的極大關注,廣泛應用于語音識別領域。采用人工神經(jīng)網(wǎng)絡技術進行語音識別其過程包含兩部分 : 一是網(wǎng)絡學習過程,二是語音識別過程。網(wǎng)絡學習過程是將己知語音信號作為學習樣本,通過神經(jīng)網(wǎng)絡的自學習,最終得到一組連接權和偏置;語音識別過程是將待測語音信號作為網(wǎng)絡輸入,通過網(wǎng)絡聯(lián)想得出識別結果。這兩個過程中的關鍵是求取語音特征參數(shù)和神經(jīng)網(wǎng)絡學習。質(zhì)上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自學、聯(lián)想、對比 、推理和概括能力。但 具有 型的動態(tài)時間歸正性能。 第三章 安多藏語語音預處理和特征參數(shù)分析 多藏語的基本特征 藏語屬于拼音語言,其發(fā)音特點有它自己的獨特規(guī)律,藏語共有 30 個輔音字母 4 個元音,輔音字母按照語音的發(fā)音部分,四個一組,排成了七組,這些輔音可以根據(jù)發(fā)音部分和發(fā)音方法來分,而這些字母發(fā)音按照音勢的強弱,氣流的多寡,帶音不帶音以及發(fā)音肌肉的松緊來劃分。 多藏語輔音的發(fā)音特征 安多藏語在語音上的重要特征是聲母分清音和濁音,聲調(diào)無區(qū)別詞義的作用,復輔音較多,安多 聲母系的主要特征是清音與濁音對立,送氣與不送氣對立,聲母數(shù)目較藏語的其他方言較多,韻母系的主要特征是都為單元音,沒有復元音韻母 21。 30 個輔音的發(fā)音情況是, , , 是舌根塞音, , 不送氣, 送氣; , , 是舌面前塞擦音, , ,不送氣, , 送氣; , , 是舌尖中塞音, 不送氣, 送氣; , , , 都是鼻音, 的發(fā)音不分在舌根, 的發(fā)音部位在舌面前, 的發(fā)音在舌尖中, 的發(fā)音部位的雙唇; , 是雙唇塞音, 不送氣, 送氣, 是半元音; , , , 是舌尖前塞擦音, , 不送氣, ,送氣; 是舌尖前塞音,不送氣; 與音標 a 的發(fā)音相近, 與音標 發(fā)音相近; 是舌尖中閃音; 是舌尖中邊音; 是舌根擦音,并捎帶送氣成分; ,都是喉音,發(fā) 時候喉壁稍有摩擦,發(fā) 時聲帶緊縮,然后突然打開,實際上是一個喉塞音 22。 多藏語語音研究單元的選擇 選擇語音單元就是要確定所研究的語音基元是什么,對于不同語言,單元選擇的考慮不同。 語音識別單元包括單詞,音節(jié),音素,通常依照研究任務選取識別單元,其中單詞單元廣泛應用于小詞匯語音識別系統(tǒng);音節(jié)單元多用于漢語語音的識別,因為漢語是單音節(jié)結構的語音;音素單元多用于大詞匯量的語音識別系統(tǒng)。對于安多藏語語音方面的研究現(xiàn)在還處在起步狀況,由于我們要做的是特定人孤立詞識別的系統(tǒng),所以選擇安多藏語的常用單音節(jié)做識別單元。藏語有一種特殊的語言結構,單音節(jié)也可以理解成為一個詞,本論文就是對安多藏語常用單音節(jié)作為基元進行語音處理、特征值提取以及語音識別的工作。 究詞匯列表 藏文多字母構成的音節(jié) ,如圖 3示,這是藏文不同于一般拼音文字的一個重要特點,藏文音節(jié)最少由一個字母組成最多由六個字母組成,必有字母充當基字,藏文的 30 個輔音字母均可充當基礎字,分別可帶元音、上加字,下加字,前加字,后加字和又后加字。藏文上的前加字或上加字大體上相 當于復輔音聲母中的前置輔音,基字相當于基本輔音 。 安多藏語按音節(jié)一般有單音節(jié),雙音節(jié),三音節(jié),四音節(jié),五音節(jié)以上,本課題是對安多藏語的單音節(jié)常用詞做研究,并且綜合發(fā)音特征選擇了帶元音,帶有后加字,前加字,上加字的單音節(jié)做研究,全面分析語音特征值,所選擇常用單音節(jié)詞如下表: 表 3究用安多藏語單音節(jié)詞匯表 測試樣本 漢語意思 他 火 什么 死 自己 里面 羊毛 門 測試樣本 漢語意思 路 有 名字 你 衣服 雪 一 二 測試樣本 漢語意思 三 四 五 六 七 八 九 十 多藏語語音信號基本理論 傳統(tǒng)的藏語語音信號處理基于線性系統(tǒng)理論,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026新疆八團連隊特聘農(nóng)技員招募12人筆試備考試題及答案解析
- 2026廣東云浮市郁南縣招聘中小學教師150人(編制)筆試備考題庫及答案解析
- 2026安徽合肥市香格里拉小學招聘編外聘用教師66人筆試備考題庫及答案解析
- 2026湖南師范大學附屬小學第一輪非事業(yè)編制教師招聘4人筆試備考題庫及答案解析
- 2026內(nèi)蒙古錫林郭勒盟多倫縣第一批招募公益性崗位工作人員9人筆試備考試題及答案解析
- 2026年亳州市亳糧糧油質(zhì)量檢測有限公司勞務派遣工作人員公開招聘1名筆試備考題庫及答案解析
- 2026湖南郴州市林邑中學春季招聘代課教師參考考試試題及答案解析
- 2026貴州遵義市仁懷七中臨聘教師招聘5人筆試備考題庫及答案解析
- 2026年鹽城幼兒師范高等??茖W校公開招聘工作人員15人筆試備考試題及答案解析
- 2026貴州貴陽市工業(yè)投資有限公司管培生招聘98人筆試備考試題及答案解析
- (2025版)中國焦慮障礙防治指南
- 46566-2025溫室氣體管理體系管理手冊及全套程序文件
- GB/T 26951-2025焊縫無損檢測磁粉檢測
- 2024紹興文理學院元培學院教師招聘考試真題及答案
- 下腔靜脈濾器置入術課件
- 船舶年度檢修報告范文
- 高血壓營養(yǎng)和運動指導原則(2024年版)
- DB4403T399-2023居家適老化改造與管理規(guī)范
- 光學干涉測量技術
- 天龍功放avr4311說明書
- 大學物理課件:第一章 演示文稿
評論
0/150
提交評論