版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、語音信號(hào)處理 Speech Signal Processing,王 俠 徐州師范大學(xué)物理系 2007年4月16日,第一章 緒論,1.語音信號(hào)處理的概念 2.語音信號(hào)處理的學(xué)科基礎(chǔ) 3.語音信號(hào)處理的分支 4.語音信號(hào)處理的應(yīng)用 5.語音信號(hào)處理的發(fā)展歷史 6.本課程的內(nèi)容 7.語音信號(hào)處理課程的特點(diǎn) 8.參考書目 9.學(xué)習(xí)要求,1.語音信號(hào)處理的概念 語音信號(hào)處理是研究用數(shù)字信號(hào)處理技術(shù)對(duì)語音信號(hào)進(jìn)行處理的一門學(xué)科。,2.語音信號(hào)處理的學(xué)科基礎(chǔ),3.語音信號(hào)處理的分支 (1)語音識(shí)別 (2)語音合成 (3)語音編碼 (4)說話人識(shí)別 (語種辨識(shí) ),(1)語音識(shí)別研究的目的就是研究出一種具有聽
2、覺功能的機(jī)器,能直接接受人口呼的命令,理解人的意圖,并做出相應(yīng)的反應(yīng).,(2)語音合成的目的是制造一種會(huì)說話的機(jī)器,使一些存儲(chǔ)的信息能轉(zhuǎn)化為語音.,(3)語音編碼的研究目的是如何在盡量減少失真的情況下高效率地對(duì)模擬語音信號(hào)進(jìn)行數(shù)字表達(dá)。,VOIP (Voice Over Internet Protocol),(4)說話人識(shí)別又可分為 兩種,一種是說話人辨認(rèn) 和說話人確認(rèn)。 語種辨識(shí)是根據(jù)一個(gè)語音片段判別出它是哪一個(gè)語種。,04.10中國國際通信設(shè)備技術(shù)展覽會(huì) 北京得意公司產(chǎn)品,4.語音信號(hào)處理的應(yīng)用 (1)語音識(shí)別 語音控制 聽寫機(jī),NEC手機(jī)語音識(shí)別芯片,NEC演示語音識(shí)別手機(jī),*,三星E8
3、18,(2)語音合成 自動(dòng)報(bào)時(shí),報(bào)警,公共汽車或電車自動(dòng)報(bào)站 信息查詢業(yè)務(wù) 打印出版過程中的文本校對(duì) 電子函件及各種電子出版物的語音閱讀 語音玩具,(3)語音編碼 數(shù)字通信系統(tǒng) 移動(dòng)無線通信 保密語音通信,(4)說話人識(shí)別 說話人核對(duì) 機(jī)密場所出入人員的檢查、職工簽名、銀行轉(zhuǎn)帳匯款 搜索罪犯 (5)語種辨識(shí)的應(yīng)用領(lǐng)域 多語種信息服務(wù) 機(jī)器或人翻譯的前端處理 軍事上對(duì)說話人身份和國籍進(jìn)行判別或監(jiān)聽,5.語音信號(hào)處理的發(fā)展歷史 國外 (1)1876年貝爾發(fā)明的電話 (2)1939年Dudly研制成功聲碼器 (3)1947年貝爾實(shí)驗(yàn)室發(fā)明了語譜圖儀 (4)1948年美國Haskins實(shí)驗(yàn)室研制成功
4、“語圖回放機(jī)” (5)20世紀(jì)50年代開始語音識(shí)別研究,語音識(shí)別的分類 針對(duì)說話人:特定說話人語音識(shí)別和非特定說話人語音識(shí)別 針對(duì)詞匯量:小詞匯量、中詞匯量和大詞匯量的識(shí)別 針對(duì)說話方式:孤立詞識(shí)別和連續(xù)語音識(shí)別 針對(duì)識(shí)別環(huán)境:實(shí)驗(yàn)室環(huán)境語音識(shí)別、電話語音識(shí)別和廣播語音識(shí)別,1952年貝爾實(shí)驗(yàn)室的Davis等人研制了特定說話人孤立數(shù)字語音識(shí)別系統(tǒng) 1956年RCA實(shí)驗(yàn)室的Olson研制出10個(gè)單音節(jié)詞的識(shí)別系統(tǒng) 1959年Fry和Denes等人構(gòu)建了音素識(shí)別器 MIT林肯實(shí)驗(yàn)室的Forgi等人研究了10個(gè)元音的識(shí)別,(6)20世紀(jì)60年代 初期東京無線電研究室Suzuki等人通過硬件來進(jìn)行元音
5、識(shí)別 末期,RCA實(shí)驗(yàn)市的Martin開發(fā)了一系列的時(shí)間歸正算法 同時(shí)蘇聯(lián)的Vintsyuk采用動(dòng)態(tài)規(guī)劃方法解決兩個(gè)語音的時(shí)間對(duì)準(zhǔn)問題,(7)20世紀(jì)70年代 日本學(xué)者Sakoe使用動(dòng)態(tài)規(guī)劃方法進(jìn)行語音識(shí)別 Itakura將LPC參數(shù)應(yīng)用到語音識(shí)別中 IBM進(jìn)行連續(xù)語音識(shí)別研究 AT&T 的貝爾實(shí)驗(yàn)室進(jìn)行非特定說話人的語音識(shí)別研究,人工智能技術(shù)被引入到語音識(shí)別中,美國國防部高級(jí)研究規(guī)劃局組織了卡內(nèi)基 梅隆大學(xué)等5個(gè)單位參加一項(xiàng)大規(guī)模的語音識(shí)別和理解的計(jì)劃,(8)20世紀(jì)80年代 70年代末80年代初,Linda、Buzo、Gray等人將矢量量化技術(shù)應(yīng)用到語音編碼中 HMM模型被引入到語音識(shí)別中
6、 80年代末,卡內(nèi)基 梅隆大學(xué)實(shí)現(xiàn)了SPHINX系統(tǒng) BBN的BYBLOS系統(tǒng)、林肯實(shí)驗(yàn)室的系統(tǒng),(9)20世紀(jì)90年代 人工神經(jīng)網(wǎng)絡(luò)被應(yīng)用到語音識(shí)別中 模式識(shí)別、機(jī)器學(xué)習(xí)方面的新技術(shù)也被應(yīng)用到語音處理中,比如支持矢量機(jī),進(jìn)化計(jì)算等等 IBM的Via Voice和Dragon公司的Dragon Dictate系統(tǒng)。,主要的研究單位 美國的CMU(卡內(nèi)基梅隆大學(xué))、MIT(麻省理工學(xué)院)、IBM、美國電報(bào)電話公司AT&T 英國的 Cambridge (劍橋大學(xué)),國內(nèi) (1) 1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音 (2)年代中國科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識(shí)別 (3)年代許多
7、單位陸續(xù)參加 (4) 1986年3月我國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),(5)年代以來,國外很多著名的公司Microsoft、IBM、Motora、Intel在國內(nèi)設(shè)立了研發(fā)機(jī)構(gòu),現(xiàn)在,國內(nèi)有不少語音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。 - 在孤立字大詞匯量語音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識(shí)別與理解實(shí)時(shí)系統(tǒng)。 - 在連續(xù)語音識(shí)別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語-漢語語音翻譯演示系統(tǒng)。 - 在非特定人語音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電
8、話查號(hào)系統(tǒng)并投入實(shí)際使用。,國內(nèi)研究機(jī)構(gòu) 中科院聲學(xué)所、中科院自動(dòng)化所、清華大學(xué)、哈爾濱工業(yè)大學(xué)、中國科技大學(xué),6本課程的內(nèi)容 緒論 語音信號(hào)處理的基礎(chǔ)知識(shí) 語音信號(hào)分析 矢量量化技術(shù) 隱馬爾可夫模型 人工神經(jīng)網(wǎng)絡(luò)初步 說話人識(shí)別和語種辨認(rèn)識(shí) 語音增強(qiáng),7語音信號(hào)處理課程的特點(diǎn) (1)內(nèi)容不斷更新 (2)涉及的前沿知識(shí)較多,基礎(chǔ)知識(shí)也廣泛,8參考書目 語音信號(hào)處理 易克初 田斌 付強(qiáng)編著 國防工業(yè)出版社 語音信號(hào)處理 胡航編著 哈爾濱工業(yè)大學(xué)出版社 語音信號(hào)處理 編著 清華大學(xué)出版社 語音信號(hào)數(shù)字處理 作者:楊行峻遲惠生著,電子工業(yè)出版社 1995 Lawrence Rabiner, Biin
9、g-Hwang Juang:“FUNDAMENTALS OF SPEECH RECOGNITION”,(影印版)清華大學(xué)出版社,,9學(xué)習(xí)要求 (1)掌握書中基本內(nèi)容 (2)會(huì)查閱資料 (3)會(huì)看文獻(xiàn) (4)會(huì)研究問題,教材、雜志、會(huì)議論文 碩、博論文庫、學(xué)術(shù)期刊網(wǎng) 、elsivier 專著、專利、內(nèi)部技術(shù)報(bào)告 國內(nèi)雜志:聲學(xué)學(xué)報(bào)、電子學(xué)報(bào)、自動(dòng)化學(xué)報(bào)、數(shù)據(jù)采集與處理、 人工智能 國外雜志 speech communication 、signal processing 會(huì)議論文 IEEE Institute for Electrical and Electronic Engineers ICASSP internal conference on acoustics speech signal processing ICSLP internal conference of spoken language processing EUROSPEECH,第一步 看得懂 第二步 說的出 第三步 有創(chuàng)新,語音信號(hào)和自然語言的多變性和復(fù)雜性,(1) 連續(xù)語音詞與詞之間沒有明顯的停頓,詞與詞之間的 分割比較困難; (2) 每一個(gè)基本的聲學(xué)識(shí)別基元(如音素)受前后音素發(fā) 音方式的影響(協(xié)同發(fā)音)使特征變得不穩(wěn)定 (3) 不同人、不同心理和生理以及在不同的說話環(huán)境下說
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 青少年皮膚生活習(xí)慣注意事項(xiàng)
- 母嬰護(hù)理員崗位知識(shí)新讀本
- 胃腸減壓患者的疼痛管理
- 高級(jí)建造師培訓(xùn)課件
- 骨質(zhì)疏松癥的臨床表現(xiàn)與診斷
- 2025-2030綜合交通運(yùn)輸樞紐建設(shè)運(yùn)營效益杠桿分析與政策建議規(guī)劃報(bào)告例文
- 公司的有限責(zé)任制度
- 公司付款報(bào)銷制度
- 2025-2030中國有機(jī)藜麥種子行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報(bào)告
- 分子篩培訓(xùn)課件
- 房屋租賃合同txt
- 加工中心點(diǎn)檢表
- 水庫清淤工程可行性研究報(bào)告
- THBFIA 0004-2020 紅棗制品標(biāo)準(zhǔn)
- GB/T 25630-2010透平壓縮機(jī)性能試驗(yàn)規(guī)程
- GB/T 19610-2004卷煙通風(fēng)的測定定義和測量原理
- 精排版《化工原理》講稿(全)
- 中層管理干部領(lǐng)導(dǎo)力提升課件
- 市場營銷學(xué)-第12章-服務(wù)市場營銷課件
- 小微型客車租賃經(jīng)營備案表
- 風(fēng)生水起博主的投資周記
評(píng)論
0/150
提交評(píng)論