智能語音技術(shù)及應(yīng)用開發(fā) 課件 實(shí)踐項(xiàng)目匯:聲音采集與分析 -語音標(biāo)注_第1頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 實(shí)踐項(xiàng)目匯:聲音采集與分析 -語音標(biāo)注_第2頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 實(shí)踐項(xiàng)目匯:聲音采集與分析 -語音標(biāo)注_第3頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 實(shí)踐項(xiàng)目匯:聲音采集與分析 -語音標(biāo)注_第4頁
智能語音技術(shù)及應(yīng)用開發(fā) 課件 實(shí)踐項(xiàng)目匯:聲音采集與分析 -語音標(biāo)注_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

智能語音處理技術(shù)實(shí)踐項(xiàng)目聲音采集與分析采集聲音分析聲音體驗(yàn)混音步驟一:下載“錄音專家”APP步驟二:打開軟件,使用軟件采集聲音,觀察產(chǎn)生的音頻頻譜,并保存聲音步驟三:使用軟件中的音頻降噪功能,觀察降噪處理前后音頻頻譜的變化。問題:一般具有什么特征的頻譜會(huì)被判斷為噪聲呢?步驟四:體驗(yàn)軟件中的人聲分離功能步驟五:體驗(yàn)添加背景音功能步驟六:體驗(yàn)變聲錄音功能作業(yè):請?jiān)诼毥淘粕蟼髯鳂I(yè)截圖并完成完成任務(wù)評價(jià)。智能語音處理技術(shù)實(shí)踐項(xiàng)目搭建智能語音處理實(shí)踐環(huán)境Anaconda的下載與安裝TensorFlow2.1安裝語音識別實(shí)踐環(huán)境測試下載地址:/anaconda/archive/Anaconda3-5.2.0-windows-x86_64.exe課后作業(yè)01下載數(shù)據(jù)集speechcommands語音識別數(shù)據(jù)集:https://dax-cdn.cdn.appdomain.cloud/dax-tensorflow-speech-commands/1.0.1/tensorflow-speech-commands.tar.gz智能語音處理技術(shù)實(shí)踐項(xiàng)目語音數(shù)字化項(xiàng)目實(shí)踐環(huán)境安裝聲音采集聲音加工任務(wù)描述:應(yīng)用現(xiàn)有的聲音錄制和加工軟件對語音信號的數(shù)字化過程進(jìn)行形象化的了解。在聲音加工的一般過程中“選擇加工工具”一環(huán)節(jié),主題任務(wù)——先分組錄一首詩歌,選用一種聲音加工工具如GoldWave,完成聲音片斷的截取和文件格式的轉(zhuǎn)換。步驟一:安裝錄音軟件windows錄音機(jī)程序或其它錄音軟件;GoldWave(中文版),需配置適當(dāng)數(shù)量的耳麥。步驟二:使用windows錄音機(jī)程序或其它錄音軟件,或GoldWave軟件進(jìn)行聲音的采集并保存。步驟三:“學(xué)生對自己剛錄取的聲音進(jìn)行加工”------調(diào)整語速、截取無用的信息、增加效果和聲音文件格式的轉(zhuǎn)換。步驟四:學(xué)生進(jìn)一步運(yùn)用GoldWave軟件的效果功能對自己的作品進(jìn)行優(yōu)化。作業(yè):請?jiān)诼毥淘粕蟼髯鳂I(yè)截圖并完成完成任務(wù)評價(jià)。智能語音處理技術(shù)實(shí)踐項(xiàng)目基于Praat的語音標(biāo)注環(huán)境安裝讀取音頻文件軟件操作任務(wù)描述:首先下載Praat軟件,熟悉軟件界面;然后,在Praat中錄音或讀取音頻文件;接下來,利用軟件工具進(jìn)行語音分析,顯示三維語譜圖、頻譜切片、音高曲線、共振峰曲線、音強(qiáng)曲線等,并將相應(yīng)的對象數(shù)據(jù)保存為磁盤文件;最后,利用軟件實(shí)現(xiàn)語音標(biāo)注,并保存標(biāo)注文件。步驟一:安裝Praat步驟二:Praat---Open---Readfromfile...---找到對應(yīng)的聲音或者Textrid文件,打開即可。注意:如果錄音較長,選擇Extractpart,輸入起始時(shí)間(單位為秒),點(diǎn)擊OK即可。步驟三:語圖分析在PraatObject列表中選中要進(jìn)行分析的錄音片段,單擊右側(cè)的Analysespectrum下的Tospectrogram…,按OK按鈕提交程序后,會(huì)得到一個(gè)類型Spectrogram的聲音文件,單擊右側(cè)的View即可觀察到語圖,如圖所示。語譜圖是一種三維圖形,橫坐標(biāo)和縱坐標(biāo)分別表示語音持續(xù)的時(shí)間和對應(yīng)的頻率,而第三維坐標(biāo)一般為灰度圖或者是彩色圖,代表對應(yīng)時(shí)刻語音的強(qiáng)度。在語圖分析中,如果要重點(diǎn)分析不同時(shí)間下的頻率可以選擇寬帶語圖,如果時(shí)間區(qū)域不明顯可以選擇分析窄帶語圖,前者常用來分析音色,后者常分析諧波和音高。步驟三:語圖分析在PraatPicture窗口中選定畫圖的區(qū)域,單擊右側(cè)的Draw下的Paint...,在彈出的對話框中填入所要分析的錄音片段的起始時(shí)間就得到了寬帶語圖,其中,橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率,能量的強(qiáng)弱用顏色的濃淡來表示,如圖所示。還可以單擊Margins菜單下的marksleftevery和marksbottomevery可以為語圖添加橫縱坐標(biāo)。步驟三:語圖分析如果要得到特定時(shí)間點(diǎn)的頻率和能量,我們可以做二維頻譜分析,下面我們針對上面做出的寬帶語圖來做其片段分析。首先,在PraatObject列表中選中類型為Spectrogram的對象,單擊右側(cè)Analyse下的ToSpectrum(slice),在彈出的文本框中輸入某一時(shí)間點(diǎn)會(huì)得到一個(gè)類型為Spectrum的聲音文件,如圖所示。步驟四:語音標(biāo)注創(chuàng)建一個(gè)空白的標(biāo)注文件。同時(shí)選中語音文件和TextGrid文件,點(diǎn)擊View&Edit,就可以進(jìn)行標(biāo)注了。步驟四:語音標(biāo)注標(biāo)注時(shí),根據(jù)聽辨邊界,以及查看語圖的信息,確定音素或者音節(jié)的邊界。使用菜單上的showpitch可以顯示基頻線,用showformant可以顯示共振峰線,用showintensity可以顯示音強(qiáng)線。步驟四:語音標(biāo)注GLOBAL層主要標(biāo)注語音文件的一些全局信息,包括說話人性別信息和語種信息(方言區(qū))。標(biāo)注格式如下:[speaker]:[空格]1[空格]性別,[空格]2[空格]性別;[空格][language]:[空格]1[空格]方言區(qū),[空格]2[空格]方言區(qū)例如:[speaker]:1male,2female;[language]:1普通話,2普通話步驟四:語音標(biāo)注SPEAKER層和CONTENT層的時(shí)間邊界的數(shù)目是完全一致的,每一對時(shí)間邊界也是完全相等的,也就是說不管點(diǎn)擊哪一層的時(shí)間邊界,另外一層一定是空心藍(lán)色,而不是實(shí)心藍(lán)色。添加時(shí)間邊界的方法為:將鼠標(biāo)移動(dòng)到語音波形的相應(yīng)位置,這時(shí)會(huì)出現(xiàn)一條虛線以及圓圈,分別點(diǎn)擊SPEAKER層和CONTENT層對應(yīng)的圓圈即可。步驟四:語音標(biāo)注在整個(gè)語音文件中,SPEAKER層需要標(biāo)注的是說話人信息,“說話人”取值為以下兩種:1、2,分別表示說話人1、說話人2。(說話人1、2僅標(biāo)注在文字段上,符號段不標(biāo)注);如果是客服類對話,則SPEAKER層的“說話人”取值為1的語音,必須是話務(wù)員;用戶的語音取值為2;客服一定是和用戶有直接對話。步驟四:語音標(biāo)注CONENT層標(biāo)注說話內(nèi)容,包括正常語音(如表2.3)和噪音(如表2.4)兩類。其中,CONTENT層短暫噪音的標(biāo)注都是中括號與語音內(nèi)容的組合,不要標(biāo)注時(shí)間邊界。CONTENT層持續(xù)噪音的標(biāo)注需要標(biāo)注中括號和時(shí)間邊界,SPEAKER層不標(biāo)注內(nèi)容。步驟四:語音標(biāo)注表2.3CON

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論