大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 7.2語(yǔ)音直播數(shù)據(jù)采集-采集實(shí)施_第1頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 7.2語(yǔ)音直播數(shù)據(jù)采集-采集實(shí)施_第2頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 7.2語(yǔ)音直播數(shù)據(jù)采集-采集實(shí)施_第3頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 7.2語(yǔ)音直播數(shù)據(jù)采集-采集實(shí)施_第4頁(yè)
大數(shù)據(jù)采集與預(yù)處理技術(shù)(微課版)課件 7.2語(yǔ)音直播數(shù)據(jù)采集-采集實(shí)施_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)采集與預(yù)處理技術(shù)*

*項(xiàng)目三語(yǔ)音直播數(shù)據(jù)采集與預(yù)處理序號(hào)軟件配置要求1OBS最新版本2Librosa等最新版本一、項(xiàng)目目標(biāo):1、根據(jù)應(yīng)用需求確定語(yǔ)音數(shù)據(jù)采集方法,并完成語(yǔ)音數(shù)據(jù)采集;2、對(duì)采集的語(yǔ)音數(shù)據(jù)進(jìn)行去噪、歸一化、采樣頻率轉(zhuǎn)換、語(yǔ)音特征提取、靜音去除、語(yǔ)音切分、信號(hào)增強(qiáng)等預(yù)處理操作;3、根據(jù)訓(xùn)練模型要求完成語(yǔ)音數(shù)據(jù)文本轉(zhuǎn)錄、音頻分割、標(biāo)簽標(biāo)注等,為不同模型準(zhǔn)備訓(xùn)練數(shù)據(jù)。二、環(huán)境要求:任務(wù)一語(yǔ)音直播數(shù)據(jù)采集一、任務(wù)目標(biāo)1、根據(jù)此任務(wù)要求,首先要選取合適的語(yǔ)音數(shù)據(jù)采集目標(biāo),包括公開的數(shù)據(jù)集和語(yǔ)音直播網(wǎng)站。2、根據(jù)語(yǔ)音采集目標(biāo)選取合適的數(shù)據(jù)采集工具,包括常見的錄音軟件、錄音工具。3、搭建語(yǔ)音數(shù)據(jù)采集和預(yù)處理環(huán)境,為后續(xù)項(xiàng)目提供開發(fā)環(huán)境。4、根據(jù)模型訓(xùn)練要求,對(duì)語(yǔ)音數(shù)據(jù)集進(jìn)行清洗,根據(jù)模型輸入要求選擇合適的數(shù)據(jù)標(biāo)注方式。二、公開數(shù)據(jù)集采集

為了模擬說(shuō)話者,可以下載語(yǔ)音驗(yàn)證相關(guān)數(shù)據(jù)集,這里使用ST-CMDS數(shù)據(jù)集。該語(yǔ)料庫(kù)在安靜的室內(nèi)環(huán)境中使用手機(jī)錄制。共有855位發(fā)音人,每位發(fā)音人錄制了120個(gè)語(yǔ)句。所有語(yǔ)句均經(jīng)過(guò)人工精心轉(zhuǎn)錄和校對(duì),確保轉(zhuǎn)錄準(zhǔn)確性。點(diǎn)擊/38/打開下載網(wǎng)頁(yè),找到需要下載的數(shù)據(jù)集,該數(shù)據(jù)集大小為8.2G,有不同鏡像源,這里使用CN鏡像源,該數(shù)據(jù)下載頁(yè)面如下圖1-1所示:下載完成后,可以解壓該語(yǔ)料庫(kù),每一條數(shù)據(jù)有包含以下內(nèi)容:音頻文件、轉(zhuǎn)錄文件、元數(shù)據(jù),共307800個(gè)文件,有102600條數(shù)據(jù)。這些數(shù)據(jù)大多數(shù)是一句話的錄音,元數(shù)據(jù)會(huì)記錄數(shù)據(jù)生成的設(shè)備、文件名、說(shuō)話人性別、所在省份等。三、OBS采集語(yǔ)音使用語(yǔ)音軟件OBS采集直播語(yǔ)音數(shù)據(jù),需要先下載軟件,登錄軟件官網(wǎng)/,打開下載頁(yè)面,找到Windows版下載:下載完成后,雙擊“OBS-Studio-30.2.3-Windows-Installer”安裝,可以選擇默認(rèn)配置安裝,由于步驟較簡(jiǎn)單,不再贅述。完成安裝后,運(yùn)行軟件,首次啟動(dòng)會(huì)有自動(dòng)配置向?qū)崾?,根?jù)需要選擇即可。設(shè)置完成后進(jìn)入OBS首頁(yè),在“來(lái)源”窗口點(diǎn)擊“+”號(hào)可以選擇音頻源,如果是采集音頻來(lái)源麥克風(fēng),可以選擇“音頻輸入采集”,選擇目標(biāo)麥克風(fēng)即可。如果要采集bilibili的某個(gè)直播間的數(shù)據(jù),可以通過(guò)以下步驟進(jìn)行設(shè)置:步驟一:添加場(chǎng)景。在OBS界面左下角的“場(chǎng)景”列表中,點(diǎn)擊“+”添加一個(gè)新場(chǎng)景(可以命名為“Bilibili直播采集”)。步驟二:添加來(lái)源。在“來(lái)源”列表中,點(diǎn)擊“+”,選擇“瀏覽器”,并為該來(lái)源命名(例如“Bilibili直播”)。在彈出的窗口中,輸入Bilibili直播間的URL(通過(guò)Bilibili的網(wǎng)頁(yè)復(fù)制該直播間的鏈接,讀者可以自行查找)。

步驟三:設(shè)置音頻采集。在“來(lái)源”列表中,點(diǎn)擊“+”,選擇“音頻輸入捕獲”,并命名為“音頻采集”。在彈出的窗口中,選擇要采集的音頻設(shè)備,例如您電腦的揚(yáng)聲器或麥克風(fēng),確保音頻來(lái)源為直播的音頻輸出。確保音頻采集設(shè)備的音量條在OBS的“混音器”中處于正常范圍(可以調(diào)節(jié)音量大小)。

步驟四:錄制或直播。點(diǎn)擊右下角的“開始錄制”按鈕,OBS會(huì)開始錄制設(shè)置的音頻和視頻源。錄制完成后,點(diǎn)擊“停止錄制”,錄制的文件會(huì)保存在設(shè)置中指定的文件夾中。

步驟五:保存和處理音頻。錄制完成后,可以通過(guò)音頻編輯軟件(如Audacity)對(duì)采集到的直播音頻進(jìn)行后期處理。比如使用Audacity(免費(fèi)音頻編輯軟件),可以選擇“文件”->“導(dǎo)入”->“音頻”,選擇OBS錄制的文件,Audacity會(huì)自動(dòng)提取其中的音頻,可以對(duì)其進(jìn)行編輯,并導(dǎo)出為MP3、WAV等格式。四、語(yǔ)音轉(zhuǎn)寫文本(1)創(chuàng)建賬號(hào)和應(yīng)用點(diǎn)擊鏈接進(jìn)入訊飛開放平臺(tái)主頁(yè)面,/。在頁(yè)面注冊(cè)自己的個(gè)人賬戶,注冊(cè)賬戶注意選擇是個(gè)人使用。登錄后點(diǎn)擊首頁(yè)的“控制臺(tái)”,點(diǎn)擊“創(chuàng)建新應(yīng)用”,首次登錄會(huì)提示需要個(gè)人認(rèn)證,根據(jù)提示完成個(gè)人信息認(rèn)證,創(chuàng)建應(yīng)用根據(jù)實(shí)際填寫應(yīng)用名稱和信息,填寫完成后提交即可。(2)開通語(yǔ)音轉(zhuǎn)寫服務(wù)應(yīng)用創(chuàng)建后,點(diǎn)擊應(yīng)用名稱跳轉(zhuǎn)到應(yīng)用詳情頁(yè),包括服務(wù)接口認(rèn)證信息,這是需要在代碼中使用,可以復(fù)制保存。訊飛語(yǔ)音轉(zhuǎn)寫的是已錄制音頻(非實(shí)時(shí)),音頻文件上傳成功后進(jìn)入等待隊(duì)列,待轉(zhuǎn)寫成功后用戶即可獲取結(jié)果。轉(zhuǎn)寫接口并不是默認(rèn)開通,用戶可以查看應(yīng)用頁(yè),在語(yǔ)音識(shí)別下的語(yǔ)音轉(zhuǎn)寫功能頁(yè)面下方免費(fèi)領(lǐng)取。(3)開發(fā)語(yǔ)音轉(zhuǎn)寫代碼確保系統(tǒng)已經(jīng)安裝Python和pip。需要使用websocket-client庫(kù)來(lái)進(jìn)行WebSocket通信,可以使用以下命令安裝:pipinstallwebsocket-client

編寫Python代碼,以下是調(diào)用科大訊飛語(yǔ)音識(shí)別API的Python示例代碼:#導(dǎo)入相關(guān)依賴importhashlib,hmac,base64,json,time,websocket,ssl#替換為你的應(yīng)用ID、APIKey和APISecretAPPID='你的AppID'APIKey='你的APIKey'APISecret='你的APISecret'#音頻文件路徑AUDIO_FILE='你的音頻文件路徑'#接上頁(yè)代碼defget_auth_url():now=int(time.time())date=time.strftime('%a,%d%b%Y%H:%M:%SGMT',time.gmtime(now))signature_origin="host:\n"+"date:"+date+"\n"+"GET/v1/private/iatHTTP/1.1"signature_sha=hmac.new(APISecret.encode('utf-8'),signature_origin.encode('utf-8'),hashlib.sha256).digest()signature_sha_base64=base64.b64encode(signature_sha).decode('utf-8')authorization_origin=f'api_key="{APIKey}",algorithm="hmac-sha256",headers="hostdaterequest-line",signature="{signature_sha_base64}"'authorization=base64.b64encode(authorization_origin.encode('utf-8')).decode('utf-8')url=f'wss:///v1/private/iat?authorization={authorization}&date={date}&host='returnurldefon_message(ws,message):print("Receivedmessage:",message)result=json.loads(message)if'data'inresult:print("識(shí)別結(jié)果:",result['data']['result']['text'])defon_error(ws,error):print("Error:",error)defon_close(ws):print("WebSocketclosed")defon_open(ws):defsend_audio():withopen(AUDIO_FILE,'rb')asf:whileTrue:data=f.read(1280)ifnotdata:breakws.send(data,websocket.ABNF.OPCODE_BINARY)time.sleep(0.04)ws.send(json.dumps({"end":"true"}))#發(fā)送結(jié)束標(biāo)志

time.sleep(1)#等待連接

send_audio()if__name__=="__main__":url=get_auth_url()ws=websocket.WebSocketApp(url,on_message=on_message,on_error=on_error,on_close=on_close)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論