版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、南通大學(xué)畢業(yè)設(shè)計(jì)PAGE PAGE IPAGE I摘 要本文主要是基于WEB的普通話自動(dòng)測(cè)評(píng)系統(tǒng)的研究。本系統(tǒng)可以有效地避免人工測(cè)試中的弊端,也可以省去大量的人力和資源。通過大量的研究發(fā)現(xiàn):開發(fā)此系統(tǒng)可以通過采集大量的普通話語音信號(hào),建立一個(gè)語音庫,然后分析其信號(hào)波形,通過比對(duì)與匹配來實(shí)現(xiàn)語音識(shí)別和自動(dòng)測(cè)評(píng)。但是,由于條件有限,本課題沒有采取這種方法。本系統(tǒng)采用了微軟提供的語音程序開發(fā)組件Speech SDK 5.1,即通過調(diào)用SDK中相關(guān)的語音應(yīng)用程序接口(SAPI)來實(shí)現(xiàn)普通話考試的自動(dòng)測(cè)評(píng)。本論文的主要內(nèi)容有普通話測(cè)試的相關(guān)題庫的建立、普通話語音的采集與分析、對(duì)采集的語音與標(biāo)準(zhǔn)答案進(jìn)行比
2、對(duì)算法研究,以及計(jì)算機(jī)自動(dòng)閱卷評(píng)分的研究。實(shí)驗(yàn)測(cè)試結(jié)果表明:本系統(tǒng)能夠?qū)崿F(xiàn)對(duì)單字、雙字等項(xiàng)目的測(cè)試并評(píng)分,取得了預(yù)期的效果,可以為今后的進(jìn)一步研究提供較好的參考。關(guān)鍵詞:普通話,自動(dòng)測(cè)評(píng),語音識(shí)別,SPEECH SDK南通大學(xué)畢業(yè)設(shè)計(jì)PAGE PAGE 71南通大學(xué)畢業(yè)設(shè)計(jì)(論文)ABSTRACTThis paper studies the Mandarin automatic test system based on Web. The system will effectively avoid the shortage of manual test, also save a huge amo
3、unt of manpower and resources. Through lots of study, I know that this system can be developed by collecting a lot of Mandarin speech signal and establishing a speech library, then analyzing the signal waveform, and through matching to realize automatic speech recognition and test. However, due to l
4、imited conditions, the subjects did not take this method. The system uses Speech SDK 5.1 , a development component for the Speech procedures provided by the Microsoft Corporation. It means that we can realize the Mandarin automatic test by calling Speech Application Programming Interface(SAPI) assoc
5、iated with SDK. This paper mainly includes the establishment of Mandarin test papers library, the collection and analysis of the Mandarin speech, the research on the algorithm of matching between the acquired speech and the standard answer ,and on the automatic accounting scores by computer. Experim
6、ental results show that the system can realized the tests of single words, phrases, and can be able to account scores. The system achieved expected results and can be a good reference for further research.Key words: Mandarin, Automatic Test, Speech Recognition, SPEECH SDK目 錄 TOC o 1-4 h z u HYPERLIN
7、K l _Toc169625721 摘 要 PAGEREF _Toc169625721 h I HYPERLINK l _Toc169625722 ABSTRACT PAGEREF _Toc169625722 h II HYPERLINK l _Toc169625723 第一章 前 言 PAGEREF _Toc169625723 h 1 HYPERLINK l _Toc169625724 1.1 本課題研究的意義和價(jià)值 PAGEREF _Toc169625724 h 1 HYPERLINK l _Toc169625725 1.2 國(guó)內(nèi)外課題研究的現(xiàn)狀及發(fā)展趨勢(shì) PAGEREF _Toc1696
8、25725 h 1 HYPERLINK l _Toc169625726 1.3 本論文的主要研究?jī)?nèi)容 PAGEREF _Toc169625726 h 2 HYPERLINK l _Toc169625727 第二章 語音識(shí)別技術(shù)及引擎綜述 PAGEREF _Toc169625727 h 4 HYPERLINK l _Toc169625728 2.1 語音識(shí)別技術(shù)簡(jiǎn)介 PAGEREF _Toc169625728 h 4 HYPERLINK l _Toc169625729 2.2SPEECH SDK PAGEREF _Toc169625729 h 7 HYPERLINK l _Toc16962573
9、0 2.2.1 概述 PAGEREF _Toc169625730 h 7 HYPERLINK l _Toc169625731 2.2.2 語音識(shí)別接口 PAGEREF _Toc169625731 h 8 HYPERLINK l _Toc169625732 2.2.3SDK編程原理 PAGEREF _Toc169625732 h 9 HYPERLINK l _Toc169625733 第三章 普通話自動(dòng)測(cè)評(píng)系統(tǒng)的總體設(shè)計(jì) PAGEREF _Toc169625733 h 11 HYPERLINK l _Toc169625734 3.1 環(huán)境要求及軟硬件平臺(tái) PAGEREF _Toc16962573
10、4 h 11 HYPERLINK l _Toc169625735 3.2 系統(tǒng)功能設(shè)計(jì) PAGEREF _Toc169625735 h 11 HYPERLINK l _Toc169625736 3.2.1 系統(tǒng)流程簡(jiǎn)介 PAGEREF _Toc169625736 h 11 HYPERLINK l _Toc169625737 3.2.2 系統(tǒng)總體功能設(shè)計(jì) PAGEREF _Toc169625737 h 11 HYPERLINK l _Toc169625738 3.3 數(shù)據(jù)庫設(shè)計(jì) PAGEREF _Toc169625738 h 12 HYPERLINK l _Toc169625739 第四章 普通
11、話自動(dòng)測(cè)評(píng)系統(tǒng)的實(shí)現(xiàn) PAGEREF _Toc169625739 h 15 HYPERLINK l _Toc169625740 4.1 普通話語音信號(hào)的采集 PAGEREF _Toc169625740 h 15 HYPERLINK l _Toc169625741 4.1.1 信號(hào)采集 PAGEREF _Toc169625741 h 15 HYPERLINK l _Toc169625742 4.1.2 樣例分析 PAGEREF _Toc169625742 h 17 HYPERLINK l _Toc169625743 4.2 評(píng)分策略算法的研究 PAGEREF _Toc169625743 h 17
12、 HYPERLINK l _Toc169625744 4.2.1 普通話測(cè)試概述 PAGEREF _Toc169625744 h 17 HYPERLINK l _Toc169625745 4.2.2 普通話測(cè)試評(píng)分細(xì)則的解讀 PAGEREF _Toc169625745 h 18 HYPERLINK l _Toc169625746 4.2.2 算法思想設(shè)計(jì) PAGEREF _Toc169625746 h 23 HYPERLINK l _Toc169625747 4.3 測(cè)評(píng)軟件的實(shí)現(xiàn) PAGEREF _Toc169625747 h 25 HYPERLINK l _Toc169625748 4.3
13、.1 相關(guān)API函數(shù)簡(jiǎn)介 PAGEREF _Toc169625748 h 25 HYPERLINK l _Toc169625749 4.3.2 實(shí)現(xiàn)原理 PAGEREF _Toc169625749 h 26 HYPERLINK l _Toc169625750 4.3.3 軟件實(shí)現(xiàn) PAGEREF _Toc169625750 h 26 HYPERLINK l _Toc169625751 4.3.4 測(cè)評(píng)流程 PAGEREF _Toc169625751 h 28 HYPERLINK l _Toc169625752 4.4 出題系統(tǒng)的實(shí)現(xiàn) PAGEREF _Toc169625752 h 29 HYP
14、ERLINK l _Toc169625753 4.4.1 ASP技術(shù)及工作原理 PAGEREF _Toc169625753 h 29 HYPERLINK l _Toc169625754 4.4.2 隨機(jī)出題的設(shè)計(jì) PAGEREF _Toc169625754 h 30 HYPERLINK l _Toc169625755 第五章 普通話自動(dòng)測(cè)評(píng)系統(tǒng)的應(yīng)用 PAGEREF _Toc169625755 h 32 HYPERLINK l _Toc169625756 5.1 實(shí)驗(yàn)測(cè)試 PAGEREF _Toc169625756 h 32 HYPERLINK l _Toc169625757 5.2 測(cè)試結(jié)論
15、 PAGEREF _Toc169625757 h 37 HYPERLINK l _Toc169625758 第六章 總結(jié)與展望 PAGEREF _Toc169625758 h 38 HYPERLINK l _Toc169625759 參考文獻(xiàn) PAGEREF _Toc169625759 h 39 HYPERLINK l _Toc169625760 致謝 PAGEREF _Toc169625760 h 40 HYPERLINK l _Toc169625761 附錄 PAGEREF _Toc169625761 h 41第一章 前 言1.1 本課題研究的意義和價(jià)值普通話是以北京語音為標(biāo)準(zhǔn)音、以北方話
16、為基礎(chǔ)方言、以典范的現(xiàn)代白話文著作為語法規(guī)范的現(xiàn)代漢民族共同語。普通話水平測(cè)試(PUTONGHUA SHUIPING CESHI,縮寫為PSC),測(cè)查應(yīng)試人的普通話規(guī)范程度、熟練程度,認(rèn)定其普通話水平等級(jí),屬于標(biāo)準(zhǔn)參照性考試。普通話水平測(cè)試作為國(guó)家推廣普通話工作規(guī)范化、制度化和科學(xué)化進(jìn)程中具有標(biāo)志性的一項(xiàng)工作,給整個(gè)社會(huì)的語言健康發(fā)展帶來了深遠(yuǎn)的影響。幾年的測(cè)試實(shí)踐證明,普通話水平測(cè)試能夠比較科學(xué)準(zhǔn)確地衡量和評(píng)定應(yīng)試人的普通話水平,具有可操作性和可信度。但由于普通話測(cè)試完全采用口試方式進(jìn)行,應(yīng)試對(duì)象千差萬別,測(cè)試員不僅工作強(qiáng)度大,更容易受到主觀因素等許多不確定因素的影響。而普通話測(cè)試的評(píng)分標(biāo)準(zhǔn)
17、尚沒有細(xì)化到一定程度,再加上測(cè)試員的聽測(cè)能力本身就有差別;所以在普通話水平測(cè)試中常常會(huì)出現(xiàn)評(píng)分差異,無疑對(duì)這種國(guó)家組織的標(biāo)準(zhǔn)化考試的普測(cè)工作的科學(xué)性、權(quán)威性和規(guī)范性造成了負(fù)面影響 1?,F(xiàn)在,普通話測(cè)試完全依靠測(cè)試員現(xiàn)場(chǎng)評(píng)判,計(jì)算得分。測(cè)試員必須在有限的時(shí)間內(nèi)迅速評(píng)判應(yīng)試者的語音狀況并馬上統(tǒng)計(jì)出每個(gè)受測(cè)人的得分;在緊張的測(cè)試之后還要花大量的時(shí)間進(jìn)行匯總,可以說測(cè)試員的勞動(dòng)強(qiáng)度是很大的,因此很難保證測(cè)試員評(píng)分100%的準(zhǔn)確性 2。如果能設(shè)計(jì)出一套PSC軟件,能自動(dòng)記分、統(tǒng)分、評(píng)判,建立普通話水平測(cè)試的測(cè)試體系,可以有效地避免人工測(cè)試中的弊端,也可以省去大量的人力和資源。應(yīng)試者通過計(jì)算機(jī)在網(wǎng)上測(cè)試,
18、測(cè)試員在網(wǎng)上評(píng)卷。建立完善普通話水平測(cè)試系統(tǒng),按照普通話水平測(cè)試大綱中的要求進(jìn)行分類,由電腦出題并判分(前三項(xiàng))。所以如果建立一個(gè)基于WEB的普通話自動(dòng)測(cè)評(píng)系統(tǒng),具有一定的意義。1.2 國(guó)內(nèi)外課題研究的現(xiàn)狀及發(fā)展趨勢(shì) 語音是人類交流和交換信息中最便捷的工具和最重要的媒體,因此,語音識(shí)別在半個(gè)多世紀(jì)以來一直是人們研究的熱點(diǎn),其研究成果己廣泛應(yīng)用于人類社會(huì)的各個(gè)領(lǐng)域。與圖像識(shí)別技術(shù)相比,語音識(shí)別有著許多獨(dú)特的優(yōu)勢(shì):攜帶信息量大、處理響應(yīng)快、無需專門訓(xùn)練、周邊設(shè)備簡(jiǎn)單、應(yīng)用領(lǐng)域廣闊、經(jīng)濟(jì)效益可觀等等。目前國(guó)內(nèi)外對(duì)于語音識(shí)別技術(shù)的研究屬于比較前沿的一個(gè)學(xué)科,特別對(duì)于普通話的語音研究國(guó)內(nèi)有一些科研所進(jìn)行
19、測(cè)試性的研究和調(diào)查分析。由于Microsoft公司和IBM公司對(duì)于普通話的語音識(shí)別作了一些研究并開發(fā)出相應(yīng)的產(chǎn)品,中文語音識(shí)別的識(shí)別率有了大幅度的提高,并提供相應(yīng)的開發(fā)組件包,可以方便開發(fā)者基于開發(fā)包進(jìn)行應(yīng)用軟件的開發(fā)。我國(guó)的漢語語音識(shí)別技術(shù)經(jīng)過30多年的研究和探索,已經(jīng)形成一套既符合漢語特點(diǎn)和我國(guó)國(guó)情,又能夠與國(guó)際研究水平同步發(fā)展的研究方法和研究體系,成果喜人。同時(shí),我們也看到,要達(dá)到令人滿意的程度,我國(guó)漢語語音識(shí)別技術(shù)研究還有很長(zhǎng)的路要走。在現(xiàn)有成果基礎(chǔ)上要取得更大的突破,除了要加大在語言學(xué)和語音學(xué)層面上的語音識(shí)別技術(shù)的改進(jìn)力度以外,還應(yīng)該借助于心理學(xué)、生理學(xué)和社會(huì)學(xué)等相關(guān)人文學(xué)科的研究成
20、果?,F(xiàn)在國(guó)內(nèi)外對(duì)漢語語音識(shí)別技術(shù)研究投入逐漸加大,加上各相關(guān)學(xué)科及研究領(lǐng)域的協(xié)同發(fā)展,普通話自動(dòng)測(cè)評(píng)的研究日趨成熟,必將在克服重重困難后,取得重大的突破。1.3 本論文的主要研究?jī)?nèi)容 本課題旨在運(yùn)用現(xiàn)代化手段進(jìn)行普通話水平測(cè)試,建立普通話水平測(cè)試系統(tǒng),通過計(jì)算機(jī)進(jìn)行公正、準(zhǔn)確的出卷、閱卷。主要內(nèi)容有普通話測(cè)試的相關(guān)題庫的建立、普通話語音采集、并對(duì)采集的語音與標(biāo)準(zhǔn)答案進(jìn)行比對(duì)算法研究和計(jì)算機(jī)自動(dòng)閱卷評(píng)分的研究。1需求分析普通話自動(dòng)測(cè)評(píng)系統(tǒng)應(yīng)能滿足測(cè)試者及施測(cè)者的以下需求:采集普通話測(cè)試者的語音、自動(dòng)閱卷和評(píng)分、提供測(cè)評(píng)分?jǐn)?shù)和等級(jí)查詢、自動(dòng)出題功能等。 2采集、分析普通話樣例錄音通過麥克風(fēng)采集普通
21、話語音信號(hào)并保存,然后根據(jù)評(píng)分標(biāo)準(zhǔn)和實(shí)際測(cè)試人員的測(cè)試得分綜合分析這些錄音材料。 3編寫普通話語音與標(biāo)準(zhǔn)答案的比對(duì)算法按照普通話水平測(cè)試大綱中的要求并利用上述采集和分析結(jié)果編寫相應(yīng)的評(píng)分策略算法。 4編寫基于WEB的普通話自動(dòng)測(cè)評(píng)軟件 采用ASP和VB等開發(fā)工具,來開發(fā)普通話的自動(dòng)測(cè)評(píng)軟件。 5利用ASP設(shè)計(jì)基于WEB的自動(dòng)出題系統(tǒng) 本系統(tǒng)采用ASP及其相關(guān)技術(shù)自動(dòng)隨機(jī)取出一套題供當(dāng)前測(cè)試用。6實(shí)驗(yàn)測(cè)試 在程序編寫完成以后,對(duì)本系統(tǒng)進(jìn)行實(shí)驗(yàn)測(cè)試。第二章 語音識(shí)別技術(shù)及引擎綜述通過前期對(duì)語音識(shí)別相關(guān)技術(shù)的研究,我覺得開發(fā)普通話自動(dòng)測(cè)評(píng)系統(tǒng)勢(shì)在必行。前一階段有幸聆聽了社科院李愛軍研究員關(guān)于“計(jì)算機(jī)
22、語音信號(hào)處理技術(shù)及應(yīng)用”的講座,對(duì)我進(jìn)行本課題的研究有很大的啟發(fā)。普通話測(cè)試系統(tǒng)的開發(fā)可以采取語音識(shí)別技術(shù)。語音識(shí)別的過程是模式識(shí)別匹配的過程:首先要根據(jù)人的語音特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析并抽取所需的特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板;而在識(shí)別過程中要根據(jù)語音識(shí)別的整體模型,將輸入的語音信號(hào)的特征與已經(jīng)存在的語音模板進(jìn)行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板,最后給出計(jì)算機(jī)的識(shí)別結(jié)果。 開發(fā)此系統(tǒng)可以通過采集大量的普通話語音信號(hào),建立一個(gè)語音庫,然后分析其信號(hào)波形,通過比對(duì)與匹配來實(shí)現(xiàn)識(shí)別和自動(dòng)測(cè)評(píng)。但是,由于條件有限,本課題沒有采取這種實(shí)現(xiàn)方法;本系統(tǒng)也可以通過調(diào)
23、用相關(guān)的語音程序開發(fā)組件來實(shí)現(xiàn),這些組件包括Microsoft Speech SDK、IBM ViaVoice等。所以我采用了微軟提供的免費(fèi)的開發(fā)工具Speech SDK 5.1,即調(diào)用Speech SDK 5.1中相關(guān)的語音應(yīng)用程序接口(SAPI)來實(shí)現(xiàn)普通話考試的自動(dòng)測(cè)評(píng)。下面來介紹相關(guān)的語音識(shí)別技術(shù)及語音識(shí)別引擎的原理。2.1 語音識(shí)別技術(shù)簡(jiǎn)介1. 發(fā)展歷史語音識(shí)別技術(shù)的研究開始于二十世紀(jì)五十年代,Bell實(shí)驗(yàn)室的Davis等人首次研制出能識(shí)別十個(gè)英文數(shù)字的實(shí)驗(yàn)裝置Audry系統(tǒng)。60年代,提出兩大重要研究成果:動(dòng)態(tài)規(guī)劃(Dynamic Planning, DP)和線性預(yù)測(cè)分析(Line
24、ar Predict, LP)。70年代,語音識(shí)別領(lǐng)域取得突破性進(jìn)展。線性預(yù)測(cè)編碼技術(shù)(Linear Predict Coding, LPC)被Itakura成功應(yīng)用于語音識(shí)別;Sakoe和Chiba將動(dòng)態(tài)規(guī)劃的思想應(yīng)用到語音識(shí)別并提出動(dòng)態(tài)時(shí)間規(guī)整算法等。在同一時(shí)期,統(tǒng)計(jì)方法開始被用來解決語音識(shí)別的關(guān)鍵問題,這為接下來的非特定人大詞匯量連續(xù)語音識(shí)別技術(shù)走向成熟奠定了重要的基礎(chǔ)。80年代,連續(xù)語音識(shí)別成為語音識(shí)別的研究重點(diǎn)之一。Meyers和Rabiner研究出多級(jí)動(dòng)態(tài)規(guī)劃語音識(shí)別算法(Level Building,LB)這一連續(xù)語音識(shí)別算法。80年代另一個(gè)重要的發(fā)展是概率統(tǒng)計(jì)方法成為語音識(shí)別研
25、究方法的主流,其顯著特征是HMM模型在語音識(shí)別中的成功應(yīng)用。1988年,美國(guó)卡內(nèi)基梅隆大學(xué)(CMU)用VQ/HMM方法實(shí)現(xiàn)了997詞的非特定人連續(xù)語音識(shí)別系統(tǒng)SPHINX。 我國(guó)在七十年代末就開始了語音技術(shù)的研究,但在很長(zhǎng)一段時(shí)間內(nèi),都處于緩慢發(fā)展的階段。直到八十年代后期,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去,其中有中科院聲學(xué)所,自動(dòng)化所,清華大學(xué),四川大學(xué)和西北工業(yè)大學(xué)等科研機(jī)構(gòu)和高等院校,大多數(shù)研究者致力于語音識(shí)別的基礎(chǔ)理論研究工作、模型及算法的研究和改進(jìn)。但由于起步晚、基礎(chǔ)薄弱,計(jì)算機(jī)水平不發(fā)達(dá),導(dǎo)致在整個(gè)八十年代,我國(guó)在語音識(shí)別研究方面并沒有形成自己的特色,更沒有取得顯著的成果和開發(fā)
26、出大型性能優(yōu)良的實(shí)驗(yàn)系統(tǒng)。但進(jìn)入九十年代后,我國(guó)語音識(shí)別研究的步伐就逐漸緊追國(guó)際先進(jìn)水平了,在“八五”、“九五”國(guó)家科技攻關(guān)計(jì)劃、國(guó)家自然科學(xué)基金、國(guó)家863計(jì)劃的支持下,我國(guó)在中文語音技術(shù)的基礎(chǔ)研究方面也取得了一系列成果。在語音合成技術(shù)方面,中國(guó)科大訊飛公司已具有國(guó)際上最領(lǐng)先的核心技術(shù);中科院聲學(xué)所也在長(zhǎng)期積累的基礎(chǔ)上,研究開發(fā)出頗具特色的產(chǎn)品:在語音識(shí)別技術(shù)方面,中科院自動(dòng)化所具有相當(dāng)?shù)募夹g(shù)優(yōu)勢(shì):社科院語言所在漢語言學(xué)及實(shí)驗(yàn)語言科學(xué)方面同樣具有深厚的積累。但是,這些成果并沒有得到很好的應(yīng)用,沒有轉(zhuǎn)化成產(chǎn)業(yè);相反,中文語音技術(shù)在技術(shù)、人才、市場(chǎng)等方面正面臨著來自國(guó)際競(jìng)爭(zhēng)環(huán)境中越來越嚴(yán)峻的挑戰(zhàn)
27、和壓力3。2. 語音識(shí)別系統(tǒng)主要包括語音信號(hào)的采樣和預(yù)處理部分、特征參數(shù)提取部分、語音識(shí)別核心部分以及語音識(shí)別后處理部分,圖2-1給出了語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)4。 圖2-1 語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)圖語音識(shí)別的過程是一個(gè)模式識(shí)別匹配的過程。在這個(gè)過程中,首先要根據(jù)人的語音特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板。而在識(shí)別過程中要根據(jù)語音識(shí)別的整體模型,將輸入的語音信號(hào)的特征與已經(jīng)存在的語音模板進(jìn)行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號(hào)的定義,通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。 3. 關(guān)鍵
28、技術(shù)1) 語音識(shí)別單元的選取作為人類唯一的會(huì)意文字,漢語有著與其它語言孑然不同的特色:以字為最小語音單位,而且每一個(gè)漢字的發(fā)音對(duì)應(yīng)于一個(gè)音節(jié),在常用的6000多個(gè)漢字中,全部漢字音節(jié)只有1281個(gè),如果不考慮聲調(diào)(四聲:陰平、陽平、上聲、去聲),真正獨(dú)立的漢語無調(diào)單音節(jié)字只有412個(gè)。由于音節(jié)不僅是聽覺上能夠自然辨別出來的最小語音單位,也是音義結(jié)合的基本語言單位。因此,在漢語語音識(shí)別中的基元選擇,音節(jié)無疑是最佳方案,這也是漢語孤立詞和小詞匯量漢語語音識(shí)別系統(tǒng)研究一直沿用的方法。作為大詞匯量連續(xù)漢語語音識(shí)別系統(tǒng),由于字與字和詞與詞之間沒有明顯的停頓,沿用全音節(jié)作為語音識(shí)別基元的傳統(tǒng)方法,其識(shí)別率
29、受到很大限制。因此,為了更好地描述漢語連續(xù)語音中的細(xì)節(jié),提高識(shí)別率,作為語音識(shí)別的基元需要選擇比音節(jié)更小的聲母、韻母等半音節(jié)基元(共61個(gè))和按不同韻頭(共6種a,o, e, i, u, )進(jìn)行分類細(xì)化后的聲母、韻母基元(共161個(gè))。2) 語音特征參數(shù)的提取語音特征參數(shù)的提取,是模式識(shí)別成敗的關(guān)鍵。在漢語語音識(shí)別系統(tǒng)中,主要采用以下三種特征提取方法: 基于LPC的倒譜參數(shù)(LPCC)分析法,基于Mel系數(shù)的Mel頻標(biāo)倒譜系數(shù)(MPCC)分析法,基于現(xiàn)代處理技術(shù)的小波變換系數(shù)分析法。在這些方法中,MFCC方法比LPCC方法的識(shí)別效果稍好一些,而且MFCC符合人們的聽覺特性,在有信道噪聲和頻譜失
30、真的情況下具有較好的穩(wěn)健性,其不足之處是MFCC方法中多次用到FFT,故算法的復(fù)雜程度遠(yuǎn)大于LPCC方法。因此,在安靜的環(huán)境下,目前比較成熟和最常用的語音特征提取方法還是LPCC方法。在條件不好的環(huán)境下,則宜選用MFCC方法。而小波變換法則是一種新興的理論工具,要獲得較高的識(shí)別率還有許多問題有待研究,但與經(jīng)典的方法相比,小波變換法有著計(jì)算量小、復(fù)雜程度低、識(shí)別效果好等許多優(yōu)點(diǎn),研究前景十分樂觀,是研究發(fā)展的一個(gè)方向。3) 模式識(shí)別模式識(shí)別以距離測(cè)度為準(zhǔn)則,對(duì)于傳統(tǒng)的語音識(shí)別系統(tǒng)是一個(gè)按一定測(cè)度算法實(shí)現(xiàn)被識(shí)別特征參數(shù)與模式庫中的模板進(jìn)行最優(yōu)模式匹配的過程。而對(duì)基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的新型語言
31、識(shí)別系統(tǒng),其模式識(shí)別過程則有所不同:首先其模式庫是分布式的,即采用一些模擬人類思維過程的算法,在訓(xùn)練過程中通過自學(xué)習(xí)建立類似于傳統(tǒng)語言識(shí)別系統(tǒng)中模式庫的參數(shù)系統(tǒng),但這些參數(shù)以分布方式存在于不同網(wǎng)絡(luò)層的節(jié)點(diǎn)之中;其次是通過模擬人類聯(lián)想過程逐層將有關(guān)參數(shù)與被識(shí)別特征進(jìn)行匹配距離計(jì)算和比較,最終形成最佳匹配的識(shí)別結(jié)果。在漢語語音識(shí)別系統(tǒng)中常用的識(shí)別技術(shù)有以下幾種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),隱馬爾柯夫模型(HMM)技術(shù), 矢量量化(VQ)技術(shù), 人工神經(jīng)網(wǎng)絡(luò)(ANN)技術(shù),混合型模式識(shí)別技術(shù)等5。以上是語音識(shí)別技術(shù)的相關(guān)介紹,它是本系統(tǒng)實(shí)現(xiàn)的理論基礎(chǔ)。本系統(tǒng)開發(fā)所采用的Speech SDK 5 .1
32、全面支持中文語音應(yīng)用程序的開發(fā),SDK里提供了語音識(shí)別和合成引擎相關(guān)組件應(yīng)用程序?qū)咏涌凇K遣捎肅OM標(biāo)準(zhǔn)開發(fā)的,語音識(shí)別是由識(shí)別引擎( Recognition Engine)來管理。下面就對(duì)Speech SDK做一下介紹。 SPEECH SDK2.2.1 概述微軟的Speech SDK 5.1是基于COM的視窗操作系統(tǒng)開發(fā)工具包。這個(gè)SDK中含有語音應(yīng)用程序接口(SAPI)、微軟連續(xù)語音識(shí)別引擎(MCSR)以及串聯(lián)語音合成(文語轉(zhuǎn)換)引擎(TTS)等等。SAPI中還包括對(duì)于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)А⑹录?、語法、編譯、資源、語音識(shí)別管理以及文本到語音管理,其結(jié)構(gòu)如圖2-2所
33、示。語音引擎通過設(shè)備驅(qū)動(dòng)接口(DDI)層和SAPI運(yùn)行庫通信,應(yīng)用程序(Application)則通過應(yīng)用程序接口(API)層和SAPI交互。通過使用這些API就能進(jìn)行語音識(shí)別與語音合成方面軟件的開發(fā)6。圖2-2 SAPI 5.1體系結(jié)構(gòu)圖2.2.2 語音識(shí)別接口通過對(duì)Speech SDK提供的開發(fā)文檔的研究,我對(duì)其語音合成與語音識(shí)別應(yīng)用程序的接口有了深入的了解。在SAPI 的應(yīng)用程序?qū)咏涌谥兄饕幸韵屡c語音識(shí)別相關(guān)的COM接口。1. ISpRecognizer這個(gè)接口允許應(yīng)用程序控制SR引擎的外觀且每一個(gè)ISpRecognizer接口代表一個(gè)SR引擎。應(yīng)用程序能夠把一個(gè)或更多的識(shí)別語境從應(yīng)用
34、程序能夠控制將被用到的識(shí)別文法、啟動(dòng)或停止識(shí)別、接受事件和識(shí)別結(jié)果等,連接到各個(gè)識(shí)別對(duì)象。ISpRecognizer接口允許SR引擎的一些附加控制和音頻輸入。因?yàn)镾API試著把引擎默認(rèn)設(shè)置為敏感的,因此一個(gè)標(biāo)準(zhǔn)的應(yīng)用程序可能并不需要調(diào)用這個(gè)接口太多的方法。在SAPI中,ISpRecognizer 和 ISpRecoContext有兩種實(shí)現(xiàn)方法。一種是進(jìn)程內(nèi)識(shí)別,就是SR引擎和應(yīng)用程序同時(shí)被創(chuàng)建,只有當(dāng)前應(yīng)用程序才能連接到當(dāng)前識(shí)別引擎。另外一種實(shí)現(xiàn)是“共享識(shí)別”,SR引擎在一個(gè)單獨(dú)進(jìn)程中被創(chuàng)建。系統(tǒng)中只有一個(gè)共享的識(shí)別引擎在運(yùn)行,所有使用該共享引擎的應(yīng)用程序連接到同一個(gè)識(shí)別程序。因?yàn)槭峭ㄟ^所有的
35、應(yīng)用程序文法來完成識(shí)別的,因此就允許許多語音應(yīng)用程序同時(shí)工作,并允許用戶向任一個(gè)程序說話。對(duì)于桌面型語音應(yīng)用程序來說,推薦使用共享識(shí)別,因?yàn)檫@種方式允許多個(gè)SAPI應(yīng)用程序同時(shí)工作。對(duì)于其它類型的應(yīng)用程序,比如對(duì)需要用到多個(gè)SR引擎來對(duì)波形文件或電話服務(wù)程序的識(shí)別,就需要用到InProc識(shí)別方式。2. ISpRecoContext語音識(shí)別上下文接口,能讓應(yīng)用程序創(chuàng)建不同的功能性視圖或者語音識(shí)別引擎的環(huán)境。每一個(gè)ISpRecoContext對(duì)象可以響應(yīng)不同的語音識(shí)別事件和應(yīng)用不同的識(shí)別文法。應(yīng)用程序必須至少有一個(gè)ISpRecoContext實(shí)例接收識(shí)別,也可以創(chuàng)建多個(gè)ISpRecoContext
36、實(shí)例來區(qū)分不同的識(shí)別程序。通過調(diào)用ISpRecognizer:CreateRecoContext. 可以創(chuàng)建一個(gè)新的ISpRecoContext對(duì)象。 3. ISpRecoGrammar語法規(guī)則接口,使應(yīng)用程序能管理SR引擎需要識(shí)別的字和詞語。一個(gè) SpRecognizer 對(duì)象可以有多個(gè)與它關(guān)聯(lián)的 SpRecoContext 對(duì)象;同樣地,一個(gè) SpRecoContext 對(duì)象可以有多個(gè)與它關(guān)聯(lián)的 SpRecoGrammar 對(duì)象。對(duì) SpRecoContext 和 SpRecoGrammar 對(duì)象使用一對(duì)多關(guān)系讓應(yīng)用程序以較清晰的應(yīng)用邏輯區(qū)分不同類型的可識(shí)別的詞語和內(nèi)容。每個(gè) SpReco
37、Grammar 對(duì)象也能有與上下文無關(guān)的文法(CFG),同時(shí)可以有裝載了的聽寫文法(例如:如果可能就使用CFG,但是如果CFG無法進(jìn)行語法分析則回退到聽寫文法)。SDK編程原理正如ISpVoice是主要的語音合成接口一樣,ISpRecoContext是語音識(shí)別的主要接口。與ISpVoice一樣,它也是一種ISpEventSource接口,提供了為請(qǐng)求的語音識(shí)別事件接收通知消息的基本載體。有兩種不同的語音識(shí)別引擎(ISpRecognizer),即共享語音識(shí)別引擎(Shared speech recognition engine)和進(jìn)程內(nèi)語音識(shí)別引擎(InProc speech recogniti
38、on engine)。應(yīng)用程序可以選擇其中的一種。一般推薦使用共享語音識(shí)別引擎,這種引擎能被多個(gè)應(yīng)用程序共享。創(chuàng)建共享IspRecognizer的IspRecoContext接口很簡(jiǎn)單,應(yīng)用程序只需指定參數(shù)為組件的CLSID_SpSharedRecoContext并調(diào)用COM的CoCreateInstance函數(shù)即可。這時(shí),SAPI將設(shè)置音頻輸入流為SAPI的默認(rèn)音頻輸入流。對(duì)于單獨(dú)運(yùn)行于一個(gè)系統(tǒng)中的大型服務(wù)器應(yīng)用程序,其運(yùn)行效率是很重要的,這時(shí)使用進(jìn)程內(nèi)語音識(shí)別引擎更合適。使用進(jìn)程內(nèi)語音識(shí)別引擎有3個(gè)步驟:首先,應(yīng)用程序需指定參數(shù)為組件的CLSID_ SpInprocRecoInstance
39、并調(diào)用COM的CoCreateInstance函數(shù)來創(chuàng)建其自己的進(jìn)程內(nèi)語音識(shí)別IspRecognizer;其次,應(yīng)用程序需調(diào)用ISpRecognizer:SetInput方法來設(shè)置音頻輸入流;最后,應(yīng)用程序可調(diào)用ISpRecognizer:CreateRecoContext來獲取IspRecoContext接口。下一步需要為應(yīng)用程序感興趣的事件設(shè)置通知消息。IspRecognizer也是一種IspEventSource接口,自然是一種IspNotifySource接口,因此,應(yīng)用程序能夠從其IspRecoContext接口中調(diào)用IspNotifySource的方法來指定IspRecoConte
40、xt所需的消息應(yīng)通知到何處。調(diào)用ISpEventSource:SetInterest方法可以設(shè)定什么樣的事件需要被通知。最重要的事件是SPEI_RECOGNITION,它標(biāo)識(shí)了IspRecognizer已從IspRecoContext中識(shí)別了一些語音。Speech SDK文檔中SPEVENTENUM的說明提供了其他語音識(shí)別事件的詳細(xì)說明。最后需要說明的是,應(yīng)用程序必須創(chuàng)建、裝載并激活一個(gè)IspRecoGrammar接口。該接口從本質(zhì)上說明了什么語音類型,即聽寫或命令和控制語法。應(yīng)用程序首先應(yīng)調(diào)用ISpRecoContext:CreateGrammar方法創(chuàng)建一個(gè)IspRecoGrammar接口
41、;然后裝載合適的語法,調(diào)用ISpRecoGrammar:LoadDictation方法可裝載聽寫語法,調(diào)用ISpRecoGrammar:LoadCmdxxx方法可裝載命令和控制語法;最后,為了激活語法并啟動(dòng)識(shí)別,應(yīng)用程序應(yīng)該調(diào)用ISpRecoGrammar:SetDictationState方法設(shè)置聽寫狀態(tài),或者調(diào)用ISpRecoGrammar:SetRuleState方法或 ISpRecoGrammar:SetRuleIdState方法設(shè)置命令和控制狀態(tài)。當(dāng)應(yīng)用程序通過請(qǐng)求的通知機(jī)制得到通知消息時(shí),SPEVENT結(jié)構(gòu)的lParam成員包含了一個(gè)IspRecoResult接口,應(yīng)用程序能從中確
42、定用IspRecoContext中的哪個(gè)IspRecoGrammar接口已識(shí)別了什么語音。 無論是共享的還是進(jìn)程內(nèi)的IspRecognizer接口都能擁有多個(gè)與其關(guān)聯(lián)的IspRecoContext接口,并且每一個(gè)接口都能通過自己的事件通知方式得到相應(yīng)的消息??梢詮囊粋€(gè)IspRecoContext接口中創(chuàng)建多個(gè)IspRecoGrammar接口,不同的接口可用于識(shí)別不同的語音類型7。以上就是本系統(tǒng)開發(fā)所用到的Speech SDK的原理、接口以及編程方法介紹,利用這個(gè)組件,可以開發(fā)出語音應(yīng)用程序,可以實(shí)現(xiàn)普通話的自動(dòng)測(cè)評(píng)。第三章 普通話自動(dòng)測(cè)評(píng)系統(tǒng)的總體設(shè)計(jì)3.1 環(huán)境要求及軟硬件平臺(tái) 1. 本系統(tǒng)
43、的測(cè)試要求在比較安靜的環(huán)境中進(jìn)行,最好是專用的語音室。 2. 在本實(shí)驗(yàn)中,設(shè)備為普通臺(tái)式電腦,基本配置為:Intel P4處理器,512MB內(nèi)存,SOMIC麥克風(fēng),三星顯示器等。3. 本系統(tǒng)的軟件運(yùn)行平臺(tái)為: 1) WINDOWS XP + IIS + ASP 2) ACCESS 2000 3) IE或其他WWW瀏覽器3.2 系統(tǒng)功能設(shè)計(jì)3.2.1 系統(tǒng)流程簡(jiǎn)介 圖3-1所示為系統(tǒng)數(shù)據(jù)流圖。用戶首先需要登錄驗(yàn)證,通過驗(yàn)證后,用戶可以從試題庫里抽題,然后進(jìn)行測(cè)評(píng);測(cè)評(píng)結(jié)束之后,電腦進(jìn)行判分并將其成績(jī)存入數(shù)據(jù)庫;之后,用戶可以查詢到自己的測(cè)評(píng)成績(jī)。 圖3-1 系統(tǒng)數(shù)據(jù)流圖3.2.2 系統(tǒng)總體功能設(shè)
44、計(jì) 系統(tǒng)分為兩個(gè)子系統(tǒng),即用戶端和管理端子系統(tǒng)。每個(gè)子系統(tǒng)由不同的功能模塊組成,如圖3-2所示。普通話測(cè)評(píng)用戶端子系統(tǒng)管理端子系統(tǒng)身份驗(yàn)證在線測(cè)評(píng)成績(jī)查詢身份驗(yàn)證試題管理成績(jī)管理圖3-2 系統(tǒng)總體功能結(jié)構(gòu)圖1. 身份驗(yàn)證:當(dāng)考生報(bào)名成功后,報(bào)名系統(tǒng)的數(shù)據(jù)庫中就有其詳細(xì)信息。這樣,我們可以把報(bào)名數(shù)據(jù)庫導(dǎo)入本測(cè)評(píng)系統(tǒng)中。當(dāng)考生登錄本測(cè)評(píng)系統(tǒng)時(shí),需要通過其輸入信息到數(shù)據(jù)庫中去驗(yàn)證。另外,為了防止對(duì)本系統(tǒng)的惡意攻擊,登錄時(shí)需要輸入一個(gè)隨機(jī)生成的驗(yàn)證碼,以保證系統(tǒng)安全。2. 在線測(cè)評(píng):打開麥克風(fēng),點(diǎn)擊開始測(cè)評(píng)按鈕,隨機(jī)抽題,開始普通話在線測(cè)評(píng)。3. 成績(jī)查詢:測(cè)評(píng)結(jié)束后,計(jì)算機(jī)會(huì)自動(dòng)統(tǒng)計(jì)出成績(jī)和相應(yīng)等級(jí)
45、并存入results數(shù)據(jù)庫中,考生可以查詢到自己的成績(jī)和等級(jí)。4. 試題管理:試題按照題號(hào)、題型以及正確答案的格式存入數(shù)據(jù)庫中,管理員可以對(duì)其進(jìn)行試題的添加、修改、刪除等操作。5. 成績(jī)管理:成績(jī)表中的信息包括考生姓名、身份證號(hào)、測(cè)試成績(jī)以及相應(yīng)等級(jí)等,管理員可以對(duì)其進(jìn)行維護(hù)。3.3 數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)是本系統(tǒng)的重要組成部分,應(yīng)該能與普通話水平測(cè)試的報(bào)名系統(tǒng)實(shí)現(xiàn)很好地銜接。根據(jù)系統(tǒng)功能設(shè)計(jì)的要求以及功能模塊的劃分,在Access 2000中建立數(shù)據(jù)庫psc以及下列數(shù)據(jù)表:1. 存儲(chǔ)普通話測(cè)試考生的信息表(user)考生報(bào)名成功后,其詳細(xì)信息被存儲(chǔ)在報(bào)名系統(tǒng)的數(shù)據(jù)表user中,然后可以導(dǎo)入
46、到本測(cè)評(píng)系統(tǒng)中。當(dāng)考生登錄本測(cè)評(píng)系統(tǒng)時(shí),需要通過其輸入信息到數(shù)據(jù)庫中去驗(yàn)證,只有通過身份驗(yàn)證才能開始測(cè)評(píng)??忌畔⒈砣绫?-1所示。表3-1考生信息表(user)字段名稱數(shù)據(jù)類型說明username文本學(xué)號(hào)password文本身份證號(hào)xm文本姓名nj文本年級(jí)yxsmc文本院系名稱xqm文本校區(qū)名yxsh文本院系號(hào)bj文本班級(jí)bh文本班級(jí)號(hào)xb文本性別xz文本學(xué)制zyh文本專業(yè)號(hào)zymc文本專業(yè)名稱jg文本籍貫xqmc文本校區(qū)名稱2. 存儲(chǔ)普通話測(cè)試員的信息表(tester)測(cè)試員的信息包括其姓名、身份證號(hào)以及普通話等級(jí)等,如表3-2所示。表3-2普通話測(cè)試員的信息表(tester)字段名稱數(shù)據(jù)
47、類型說明sfzh文本身份證號(hào)xm文本姓名pscdj文本普通話等級(jí)3. 標(biāo)準(zhǔn)答案信息表(answer)標(biāo)準(zhǔn)答案信息包括漢字、聲母、韻母和聲調(diào)等,如表3-3所示。表3-3 標(biāo)準(zhǔn)答案信息表(answer)字段名稱數(shù)據(jù)類型說明word文本識(shí)別漢字sm文本聲母ym文本韻母sd數(shù)字聲調(diào)4. 題庫表(exam)題庫表包括題目ID、單音節(jié)字、雙音節(jié)詞、朗讀文章等信息,如表3-4所示。表3-4題庫表(exam)字段名稱數(shù)據(jù)類型說明dyjz文本單音節(jié)字syjc文本雙音節(jié)詞ldwz文本朗讀文章5. 識(shí)別結(jié)果表(results)識(shí)別結(jié)果表包括識(shí)別出的漢字以及對(duì)應(yīng)的聲母、韻母和聲調(diào)等,如表3-5所示。表3-5識(shí)別結(jié)果表
48、(results)字段名稱數(shù)據(jù)類型說明word2文本識(shí)別出的字詞sm2文本聲母ym2文本韻母sd2數(shù)字聲調(diào)6. 成績(jī)表(scores)成績(jī)表中的信息包括考生姓名、身份證號(hào)、測(cè)試成績(jī)以及相應(yīng)等級(jí)等,如表3-6所示。表3-6成績(jī)表(scores)字段名稱數(shù)據(jù)類型說明xm文本考生姓名sfzh文本身份證號(hào)score數(shù)字測(cè)試成績(jī)grade文本測(cè)試等級(jí)第四章 普通話自動(dòng)測(cè)評(píng)系統(tǒng)的實(shí)現(xiàn)系統(tǒng)的功能實(shí)現(xiàn)部分主要包括普通話語音信號(hào)的采集、評(píng)分策略算法的研究和測(cè)評(píng)軟件的實(shí)現(xiàn)、出題系統(tǒng)等等。下面具體介紹其實(shí)現(xiàn)。4.1 普通話語音信號(hào)的采集4.1.1 信號(hào)采集1. 在比較安靜的房間(宿舍)內(nèi),采用麥克風(fēng)對(duì)考生進(jìn)行普通話
49、的語音信號(hào)采集。2. 麥克風(fēng)設(shè)置1) 信號(hào)采集和語音識(shí)別輸入雖然脫離了鍵盤,但是卻離不開麥克風(fēng),否則將無法進(jìn)行語音輸入和識(shí)別。因此,在使用前應(yīng)首先選擇好麥克風(fēng),如有可能,最好選用語音識(shí)別專用麥克風(fēng)。因?yàn)檫@種麥克風(fēng)具有很強(qiáng)的指向性和抗噪性能,前者保證麥克風(fēng)只接收一個(gè)方向的聲音而抑制其它方向的,后者保證在環(huán)境噪雜的情況下,有著較高的信噪比。 2) 選擇好麥克風(fēng)后,還要對(duì)其進(jìn)行設(shè)置。只有設(shè)置合理,才能使計(jì)算機(jī)接收和處理人的聲音信息。3) 正確使用麥克風(fēng)。大多數(shù)用戶使用麥克風(fēng)時(shí),將口正對(duì)著麥克風(fēng)并且緊靠麥克風(fēng),以為這樣外界干擾小,語音清晰。事實(shí)上,利用上述方式輸入時(shí)會(huì)伴有用戶明顯的呼吸聲,從而使信噪比
50、降低。正確的方法應(yīng)是將嘴角正對(duì)麥克風(fēng),離開5厘米左右的距離8。3. 采集的實(shí)現(xiàn)本程序用Visual BASIC編寫,其程序界面分為以下兩部分:菜單欄,視圖區(qū)。圖4-1為采集軟件運(yùn)行后的界面。1)菜單區(qū)菜單區(qū)主要有兩個(gè)主菜單:“文件”和“幫助”菜單?!拔募辈藛蜗掳▋蓚€(gè)子菜單,即“開始識(shí)別”和“退出”;而點(diǎn)擊“幫助”菜單則給出了軟件相關(guān)信息。2)視圖區(qū)視圖區(qū)主要分為三部分:第一部分為識(shí)別結(jié)果顯示(樹視圖)部分。第二部分為響應(yīng)事件列表框(即顯示系統(tǒng)響應(yīng)的事件)。第三部分為識(shí)別結(jié)果顯示(文本框)部分。圖4-1 采集語音功能界面當(dāng)用戶點(diǎn)擊“開始測(cè)試”以后,系統(tǒng)開始執(zhí)行默認(rèn)的設(shè)置:打開麥克風(fēng)、加載語法
51、和上下文、創(chuàng)建共享識(shí)別引擎以及設(shè)置為聽寫狀態(tài);然后等待用戶的語音錄入。當(dāng)用戶點(diǎn)擊“停止測(cè)試”以后,則本次采集結(jié)束。采集結(jié)束后,本次識(shí)別的結(jié)果自動(dòng)地存入文本文件results.txt中,實(shí)現(xiàn)此功能的主要代碼如表4-1所示。表4-1 識(shí)別語音保存為文本功能源代碼/* Save the recognition Result to a *.txt file Dim Phone1 As String Phone1 = Result.PhraseInfo.GetText + : Open Results.txt For Append As #1 /打開文本文件準(zhǔn)備寫入 Print #1, Phone1,
52、TextBox1.Text /把文本框中內(nèi)容寫入.txt文件 Close #1 /關(guān)閉文件/*語音識(shí)別結(jié)果存入文本文件results.txt中的形式如圖4-2所示。首先,第一行保存的是識(shí)別出的“漢字”,第二行依次保存默認(rèn)識(shí)別出的結(jié)果(“漢字”及其對(duì)應(yīng)的“拼音”)、五個(gè)可供選擇的識(shí)別結(jié)果(同樣包括其“漢字”和對(duì)應(yīng)的“拼音”)。圖4-2 語音保存為.txt的存儲(chǔ)格式4.1.2 樣例分析你n你ni3 你ni3 的di2 呢ni2 里li3 一yi2樣例分析說明如表4-2所示。表4-2 樣例分析表識(shí)別結(jié)果說明你 ni3默認(rèn)識(shí)別結(jié)果你 ni3可供選擇的結(jié)果1的 di2可供選擇的結(jié)果2呢 ni2可供選擇的
53、結(jié)果3里 li3可供選擇的結(jié)果4一 yi2可供選擇的結(jié)果5分析:如表4-2所示,對(duì)于漢字“你”,正確的讀音應(yīng)該是n。而通過本系統(tǒng)識(shí)別出來的默認(rèn)結(jié)果是你ni3,即識(shí)別到的發(fā)音ni(上聲)且對(duì)應(yīng)漢字為“你”。當(dāng)然,系統(tǒng)也給出了另外5個(gè)可供選擇的識(shí)別結(jié)果。這說明本系統(tǒng)能較好地對(duì)采集到的語音信號(hào)進(jìn)行識(shí)別。4.2 評(píng)分策略算法的研究4.2.1 普通話測(cè)試概述普通話水平測(cè)試是我國(guó)為加快共同語普及進(jìn)程、提高全社會(huì)普通話水平而設(shè)置的一種語言測(cè)試制度。普通話水平測(cè)試是由政府專門機(jī)構(gòu)主持的一項(xiàng)測(cè)試。國(guó)家語委普通話培訓(xùn)測(cè)試中心及地方(省、市)普通話培訓(xùn)測(cè)試中心具體負(fù)責(zé)實(shí)施。普通話水平測(cè)試是資格證書測(cè)試。有關(guān)行業(yè)對(duì)本
54、行業(yè)從業(yè)人員提出了相應(yīng)的普通話水平等級(jí)要求,普通話水平等級(jí)證書是從業(yè)人員普通話水平的憑證,在全國(guó)范圍內(nèi)通用。經(jīng)報(bào)名核準(zhǔn)后,應(yīng)試者應(yīng)在規(guī)定的日期,憑本人的準(zhǔn)考證和身份證,進(jìn)入指定的考場(chǎng),經(jīng)抽簽選定試題準(zhǔn)備10分鐘后,按指定試卷上的內(nèi)容進(jìn)行測(cè)試。所有題目均為口試題,每個(gè)考場(chǎng)有2-3位測(cè)試員當(dāng)場(chǎng)分別打分、綜合評(píng)議判定受測(cè)人的成績(jī)和等級(jí)??倳r(shí)間在15分鐘左右。測(cè)試全程均須錄音。測(cè)試成績(jī)和錄音帶由省語委辦審核后頒發(fā)相應(yīng)等級(jí)證書。國(guó)家語言文字工作委員會(huì)頒布的普通話水平測(cè)試等級(jí)標(biāo)準(zhǔn)是劃分普通話水平等級(jí)的全國(guó)統(tǒng)一標(biāo)準(zhǔn)。普通話水平等級(jí)分為三級(jí)六等,即一、二、三級(jí),每個(gè)級(jí)別再分出甲乙兩個(gè)等次;一級(jí)甲等為最高,三級(jí)
55、乙等為最低。應(yīng)試人的普通話水平根據(jù)在測(cè)試中所獲得的分值確定。 普通話水平測(cè)試試卷由五個(gè)測(cè)試項(xiàng)構(gòu)成,總分為100分。 1. 讀單音節(jié)字詞100個(gè),限時(shí)3分鐘,占10分。目的是考查應(yīng)試人普通話聲母、韻母和聲調(diào)的發(fā)音。 2. 讀雙音節(jié)詞語50個(gè),限時(shí)3分鐘,占20分 。目的是考查應(yīng)試人聲、韻、調(diào)的發(fā)音,考查上聲變調(diào)、兒化韻和輕聲的讀音。3. 400字短文朗讀,限時(shí)4分鐘,占30分。目的是考查應(yīng)試人使用普通話朗讀書面材料的能力,重點(diǎn)考查語音、語流音變、語調(diào)等。 4. 說話,時(shí)間不少于3分鐘,占40分。目的是考查應(yīng)試人在無文字憑借的情況下說普通話所達(dá)到的規(guī)范程度9。4.2.2 普通話測(cè)試評(píng)分細(xì)則的解讀現(xiàn)
56、在就普通話測(cè)試評(píng)分細(xì)則(前三項(xiàng))進(jìn)行解讀。讀單音節(jié)字詞本測(cè)試項(xiàng)要求應(yīng)試人朗讀總計(jì)100個(gè)音節(jié)的單音節(jié)字詞,限時(shí)3.5分鐘,共10分。1) 語音錯(cuò)誤(含漏讀音節(jié)),每個(gè)音節(jié)扣0.1分。2) 語音缺陷,每個(gè)音節(jié)扣0.05分。3) 超時(shí)1分鐘以內(nèi)扣0.5分,超時(shí)1分鐘以上(含1分鐘)扣1分。4) 一個(gè)字詞允許應(yīng)試人即時(shí)改讀一次,以改讀后的讀音為準(zhǔn)。隔字詞改讀無效10。在普通話水平測(cè)試中,如何區(qū)分語音正誤和缺陷是一個(gè)關(guān)鍵問題。評(píng)分細(xì)則中指出,語音錯(cuò)誤指:將某個(gè)音節(jié)的聲母、韻母、聲調(diào)中的任何一個(gè)或幾個(gè)要素,讀成其他聲母、韻母、聲調(diào);語音缺陷指:雖然沒有將某個(gè)音節(jié)的聲母、韻母、聲調(diào)讀成其他聲母、韻母、聲調(diào)
57、,但其中一個(gè)或幾個(gè)要素沒有達(dá)到標(biāo)準(zhǔn)的程度。 目前通行的測(cè)試標(biāo)準(zhǔn)中,有關(guān)語音正誤和缺陷的論述最完整的是宋欣橋。他指出,語音“正確”就是能夠代表標(biāo)準(zhǔn)的普通話語音系統(tǒng),語音“錯(cuò)誤”原則上是指普通話語音(音位)系統(tǒng)中,把一個(gè)音(音位)誤讀作另一個(gè)音(音位),即把“此”讀作“彼”,把“甲”讀作“乙”。語音“缺陷”概括地說是指沒有完全達(dá)到標(biāo)準(zhǔn)程度的情況。這種情況,從語音的物理屬性方面分析,存在明顯的偏差,但是,它一般不會(huì)在交際中造成困難或誤解?!叭毕荨边€包括一些在語音學(xué)中可以區(qū)分描寫而在普通話語音(音位)系統(tǒng)中不構(gòu)成對(duì)立的語音現(xiàn)象。例如:把字音中舌尖前音聲母z、c、s讀作齒間音t、th、的;把字音中單韻母
58、央低元音A讀成前低元音a或讀成后低元音的。舌面前音j、q、x發(fā)音部位明顯靠前,但還未純粹讀成舌尖前音z、c、s,實(shí)際音色接近舌葉音,判定為發(fā)音“缺陷”11。 我們現(xiàn)在從聲母、韻母、聲調(diào)的角度來分析語音錯(cuò)誤和缺陷。 聲母:如平舌音和翹舌音不分。一些人把平舌讀成翹舌,一些把翹舌讀成平舌,把 w發(fā)成一個(gè)唇齒濁擦音等,這些都是聲母發(fā)音的錯(cuò)誤或缺陷。對(duì)于平翹舌音來說,測(cè)試員都可以明確界定其正與誤,從而公正評(píng)分。問題是對(duì)“w”(零聲母)聲母,如果發(fā)成了用國(guó)際音標(biāo) v 描寫的音,怎樣確定正誤。按照專家學(xué)者對(duì)待 j q x的態(tài)度,也就是尖音色彩的態(tài)度,這里應(yīng)分兩種情況。一種是“w”的發(fā)音唇形不圓,上齒與下唇稍
59、有接觸,但磨擦聽感不明顯,視為語音缺陷。第一題、第二題分別按005分和01分扣,如果上齒與下唇接觸明顯,且磨擦聽感明顯,視為語音錯(cuò)誤。韻母:方言區(qū)人說普通話最嚴(yán)重的韻母錯(cuò)誤是前后鼻韻母不分,多表現(xiàn)為 in和 ing、en 和 eng不分等等。測(cè)試員區(qū)分時(shí),一般情況下都能區(qū)分出來是否發(fā)到位,但問題在于,一些測(cè)試員在糾正被測(cè)人的后鼻韻母時(shí)會(huì)說:“你的發(fā)音太靠前或靠后”,而不去講解具體的發(fā)音方法。這樣 ,在測(cè)試過程中,由 于一些測(cè)試對(duì)象沒有掌握發(fā)音方法,將后鼻韻母發(fā)成了喉音,也就是在發(fā)后鼻韻母時(shí),聲帶緊張,這是測(cè)試過程中一種常見錯(cuò)誤,如遇此種情況,應(yīng)視為語音錯(cuò)誤。實(shí)際測(cè)試過程中還有一類不易分辨的韻母
60、錯(cuò)誤,就是和 U作為介音時(shí),有一部分人將 發(fā)成U,如“全”、“權(quán)”、“懸”等字的音,在發(fā)介音時(shí),將舌面前發(fā)成了舌面后,這應(yīng)視為發(fā)音錯(cuò)誤。聲調(diào):實(shí)際測(cè)試中,陰平、陽平、去聲的讀音對(duì)于測(cè)試員來說在判斷上一般不會(huì)出現(xiàn)問題,容易出現(xiàn)問題的是上聲、輕聲和變調(diào)。對(duì)于上聲,通過5度標(biāo)記法描寫的調(diào)值是214,其發(fā)音要領(lǐng)是先降后升,最后聲帶完全緊張。在測(cè)試過程中,許多被測(cè)試的對(duì)象在讀上聲時(shí)中間有一個(gè)緩沖,銜接不緊密。也就是說,有的測(cè)試對(duì)象在讀214調(diào)值時(shí),發(fā)音過程中好像加進(jìn)了一個(gè)音,實(shí)際上這是一種拖音現(xiàn)象。實(shí)驗(yàn)語音學(xué)測(cè)定,上聲發(fā)音中間有一個(gè)緩沖,類似于“2114”,在5度描述時(shí),我們慣用的做法是“214”。還有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高職市政工程技術(shù)(橋梁養(yǎng)護(hù)技術(shù))試題及答案
- 2025年高職新能源裝備技術(shù)(風(fēng)電設(shè)備維護(hù))試題及答案
- 2025年大學(xué)大一(計(jì)算機(jī)應(yīng)用技術(shù))數(shù)據(jù)庫開發(fā)實(shí)務(wù)階段測(cè)試題
- 財(cái)保職業(yè)發(fā)展路徑
- 神池介紹教學(xué)課件
- 2026新疆昌吉州檢察機(jī)關(guān)招聘聘用制書記員8人備考題庫及完整答案詳解一套
- 河北省滄州市吳橋中學(xué)2026屆高三一模語文試題(含答案)
- (九年級(jí)道德與法治)2025年秋綿陽市鹽亭縣九年級(jí)(上)期末教學(xué)質(zhì)量監(jiān)測(cè)試卷
- 2026國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心福建分中心專利審查員招聘100人備考題庫帶答案詳解
- 2026云南迪慶州德欽縣公安局招聘警務(wù)輔助人員2人備考題庫含答案詳解
- GB/T 17213.4-2015工業(yè)過程控制閥第4部分:檢驗(yàn)和例行試驗(yàn)
- FZ/T 73009-2021山羊絨針織品
- JJF 1069-2012 法定計(jì)量檢定機(jī)構(gòu)考核規(guī)范(培訓(xùn)講稿)
- GB∕T 5900.2-2022 機(jī)床 主軸端部與卡盤連接尺寸 第2部分:凸輪鎖緊型
- 2011-2015廣汽豐田凱美瑞維修手冊(cè)wdl
- DFMEA編制作業(yè)指導(dǎo)書新版
- KTronics籃輸送式洗碗碟機(jī)操作手冊(cè)
- DB35∕T 1844-2019 高速公路邊坡工程監(jiān)測(cè)技術(shù)規(guī)程
- 城市管理綜合執(zhí)法局城管執(zhí)法與執(zhí)法程序PPT模板
- 閥門基礎(chǔ)知識(shí)上
- 第二章注射成型工藝與模具結(jié)構(gòu)
評(píng)論
0/150
提交評(píng)論