《智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求》_第1頁
《智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求》_第2頁
《智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求》_第3頁
《智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求》_第4頁
《智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求》_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

ICS35.240.01

CCS77

團(tuán)體標(biāo)準(zhǔn)

T/CESAXXXX—202X

智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求

TestDatasetRequirementsforIntelligentVoiceInteractionQualityEvaluation

征求意見稿

在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上。

已授權(quán)的專利證明材料為專利證書復(fù)印件或扉頁,已公開但尚未授權(quán)的專利申請

證明材料為專利公開通知書復(fù)印件或扉頁,未公開的專利申請的證明材料為專利申請

號和申請日期。

202X-XX-XX發(fā)布202X-XX-XX實施

中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會發(fā)布

T/CESAXXXX—202X

智能語音交互質(zhì)量評價測試數(shù)據(jù)集要求

1范圍

本文件規(guī)定了智能語音交互服務(wù)在喚醒、語音識別、全雙工、意圖滿足、語音合成等方面的測試集

構(gòu)建規(guī)范和要求。

本文件適用于對智能語音交互服務(wù)的整體或部分方面的評價。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T36464信息技術(shù)智能語音交互系統(tǒng)

GB/T21024—2007中文語音合成系統(tǒng)通用技術(shù)規(guī)范

GB/T41813.1-2022信息技術(shù)智能語音交互測試方法第1部分:語音識別

3術(shù)語和定義

GB/T41813.1、GB/T36464(所有部分)、GB/T21024界定的以及下列術(shù)語和定義適用于本文件。

3.1

喚醒a(bǔ)waken

觸發(fā)智能語音交互用戶界面的語音控制操作。

3.2

喚醒詞awakenword

用于喚醒智能語音交互的關(guān)鍵詞。

3.3

語音識別speechrecognition

將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。

[來源:GB/T36464.1—2020,3.7]

3.4

全雙工fullduplex

1

T/CESAXXXX—202X

能夠同時雙向傳遞數(shù)據(jù)的通信方法。

3.5

意圖intent

用戶期望通過智能語音交互達(dá)到某種目的的想法。

3.6

意圖滿足intentfulfillment

實現(xiàn)或達(dá)到意圖目標(biāo)的程度。

3.7

語音合成speechsynthesis

通過機(jī)械的、電子的方法合成人類語言的過程。

[來源:GB/T21024—2007,定義3.1]

3.8

測試數(shù)據(jù)集testdataset

用于測試智能語音交互質(zhì)量的語音或文字?jǐn)?shù)據(jù)集合。

4符號和縮略語

無。

5概述

語音測試集應(yīng)滿足GB/T41813.1的5.1的要求,按照語音品質(zhì)分為A類、B類、C類、D類。

測試集按照形式分為語音測試集和文字測試集。其中語音測試集用來測試喚醒、語音識別、多輪對

話、全雙工、意圖滿足;文字測試集用來測試語音合成。

語音測試集按照請求意圖分為喚醒詞(及其相近詞)、查詢請求、非查詢請求,其中:

-喚醒詞,用于喚醒測試;

-查詢請求,用于所有測試項目,個別子項目除外;根據(jù)包含指令的數(shù)量,分為單指令、多指令;

根據(jù)有效性,分為有效查詢請求、無效查詢請求;

-非查詢請求,主要用于測試語音識別,通常會包含短語、句子、段落等。

6語音測試集

6.1喚醒數(shù)據(jù)集

6.1.1免喚醒測試集

免喚醒語音測試集應(yīng)不包含GB/T41813.1的5.1中的D類語音。

2

T/CESAXXXX—202X

免喚醒語音測試集應(yīng)由兩部分構(gòu)成:可喚醒指令、非免喚醒指令。

可喚醒指令應(yīng)包含系統(tǒng)的主要功能,宜包含系統(tǒng)的擴(kuò)展功能。

非免喚醒指令,可由系統(tǒng)服務(wù)提供方提供文字描述,按照GB/T41813.1的6.1形成語音測試集。

6.1.2喚醒測試集

喚醒率測試集由應(yīng)喚醒詞、自定義喚醒詞構(gòu)成,不包含D類語音。

喚醒詞、自定義喚醒詞在整個喚醒測試集中所占的比例分別為(測試語料數(shù)量占比)90%、10%。

自定義喚醒詞測試集應(yīng)至少包含4種不同的自定義詞語。

6.1.3誤喚醒測試集

誤喚醒測試集一般由符合真實使用場景的噪聲組成,一般常用噪聲類型包括家居噪聲、電視噪聲、

車載噪聲、語音噪聲(閑聊、方言、辦公室語音噪聲)等。

6.1.4設(shè)備間協(xié)同喚醒測試集

同喚醒率測試集。

6.1.5分區(qū)喚醒測試集

同喚醒率測試集。

6.1.6喚醒身份識別測試集

喚醒身份識別測試集應(yīng)由喚醒詞構(gòu)成,應(yīng)符合GB/T41813.1的6.1的A類語音要求。

喚醒身份識別測試集包含20人,其中注冊集5人,非注冊集15人。

6.2語音識別數(shù)據(jù)集

6.2.1識別字準(zhǔn)率測試集

字準(zhǔn)確率測試集應(yīng)由短語(2~4字詞語,以及詞語組合)、句子組成,不包含D類語音,測試集規(guī)

模不低于300句。

測試集文本建議考慮不同垂類進(jìn)行分類,垂類比例可根據(jù)不同產(chǎn)品形態(tài)確定,同時人聲與噪聲不同

信噪比下的分級,滿足GB/T41813.1的7.3中表5的要求,詳細(xì)可參考附錄A.1。

6.2.2識別句準(zhǔn)率測試集

句準(zhǔn)確率測試集由句子組成,組成部分、測試集規(guī)模、文本內(nèi)容、信噪比分級可參考識別字準(zhǔn)率測

試集。

6.2.3全雙工字準(zhǔn)率測試集

字準(zhǔn)確率測試集應(yīng)由短語(2~4字詞語,以及詞語組合)、句子組成,不包含D類語音。

測試集組成部分、測試集規(guī)模、文本內(nèi)容、信噪比分級可參考識別字準(zhǔn)率測試集。

6.2.4全雙工句準(zhǔn)率測試集

句準(zhǔn)確率測試集由句子組成。組成部分、測試集規(guī)模、文本內(nèi)容、信噪比分級可參考識別字準(zhǔn)率測

試集。

6.2.5判停測試集

3

T/CESAXXXX—202X

判停測試集由段落組成。組成部分、測試集規(guī)模、文本內(nèi)容、信噪比分級可參考識別識別字準(zhǔn)率測

試集。

6.3全雙工數(shù)據(jù)集

6.3.1無效音測試集

按GB/T41813.1的5.1的要求,無效音測試集應(yīng)由以下測試音頻構(gòu)成:

表1無效音測試集分類

測試集測試集分類測試集說明權(quán)重

包含多個語言及其他非語言內(nèi)容的音頻,無法準(zhǔn)確

混合語言信息類型語音識別語言內(nèi)容。例如多人自由討論會議室、辦公室40%

環(huán)境等。

無有效語音內(nèi)容基本只有噪聲,沒有任何有意義的語言內(nèi)容的語音。

無語言信息類型語音40%

例如馬路環(huán)境、嘈雜的食堂環(huán)境。

空音頻沒有任何聲音或聲音極其微弱的音頻文件。20%

6.3.2連續(xù)對話測試集

連續(xù)對話測試集由下列多輪對話語料構(gòu)成:

a)由模糊到具體的多組請求

b)多輪具體請求,每輪請求由上一輪請求引出

c)a與b的組合

d)多輪獨立請求

e)b與d的組合

6.3.3打斷測試集

支持全雙工模式的語音交互系統(tǒng),用戶能夠隨時自由打斷功能單元的講話,打斷方式包括以下幾種

方式:免喚醒詞打斷和連續(xù)對話打斷。打斷測試集構(gòu)成方式如下:

表2打斷測試集分類

測試指標(biāo)測試集分類測試集說明權(quán)重

免喚醒詞打斷測試集-可喚醒指令從6.2.1免喚醒測試集中選取40%

打斷成功率

連續(xù)對話打斷測試集從6.5.3多輪對話中選取60%

音頻質(zhì)量較好,意圖非人機(jī)交互。例

誤打斷率無交互意圖的語音如:你看這花養(yǎng)的真好、來了等明顯100%

無意圖的語音。

6.4意圖滿足數(shù)據(jù)集

6.4.1總體要求

4

T/CESAXXXX—202X

意圖滿足測試集應(yīng)由A類語音構(gòu)成。測試集不應(yīng)包含客觀世界存在答案但系統(tǒng)不存在答案的查詢請

求,若測試中包含了這種查詢請求,其測試結(jié)果應(yīng)被剔除。

測試集各類權(quán)重應(yīng)滿足表3要求,其子類權(quán)重宜滿足表4要求:

表3意圖滿足測試集分類權(quán)重

測試集分類分類權(quán)重測試集子類子類權(quán)重測試集小類小類權(quán)重

單一具體意圖80%

多媒體內(nèi)容類20%

模糊意圖20%

單一具體意圖80%

知識信息類20%

有效查詢請求80%模糊意圖20%

單一具體意圖80%

控制與工具類20%

單一模糊意圖20%

互動類20%--

無效查詢請求10%----

非查詢請求10%----

表4意圖滿足測試集子類權(quán)重

權(quán)重

測試集子類

便攜設(shè)備多媒體設(shè)備陪伴設(shè)備智能控制系統(tǒng)車載

多媒體內(nèi)容類10%50%20%-30%

知識信息類50%20%10%30%20%

控制與工具類30%20%20%70%50%

互動類10%10%50%--

6.4.2查詢請求的滿足分?jǐn)?shù)線

6.4.2.1多媒體內(nèi)容類查詢請求

多媒體內(nèi)容類請求的滿足分?jǐn)?shù)線如表5所示:

表5多媒體內(nèi)容類查詢請求的滿足分?jǐn)?shù)線

請求特征滿足分?jǐn)?shù)線

關(guān)鍵詞搜索,且語音交互有能力提供最優(yōu)資源的4

關(guān)鍵詞搜索/定向請求,但結(jié)果在客觀世界無法對應(yīng)2

定向推薦請求,語音交互有能力提供資源4

推薦請求,但不明確的(意圖模糊)3

5

T/CESAXXXX—202X

6.4.2.2知識信息類查詢請求

知識信息類請求的滿足分?jǐn)?shù)線如表6所示:

表6知識信息類查詢請求的滿足分?jǐn)?shù)線

請求特征滿足分?jǐn)?shù)線

有明確指向,且答案唯一4

有明確指向,答案不唯一但有限定詞4

有明確指向,答案不唯一但缺少限定詞3

有明確指向,答案主觀3

無明確指向(意圖模糊)3

有明確指向,但不符合客觀實際1

6.4.2.3控制工具類查詢請求

控制工具類請求的滿足分?jǐn)?shù)線如表7所示:

表7控制工具類查詢請求的滿足分?jǐn)?shù)線

請求特征滿足分?jǐn)?shù)線

有明確指向的控制要求4

無明確指向的控制要求(意圖模糊)3

有明確指向,但不符合客觀實際1

6.4.2.4互動類查詢請求

互動類請求的滿足分?jǐn)?shù)線為3。

6.4.2.5無效查詢請求

無效查詢請求的滿足分?jǐn)?shù)線為3。

6.4.2.6非查詢請求

非查詢請求的滿足分?jǐn)?shù)線為5。

6.4.3單輪對話測試集

單輪對話測試集的有效查詢請求,不應(yīng)包含互動類查詢請求。

6.4.4多輪對話測試集

多輪對話測試集由以下多輪對話語料構(gòu)成:

表8多輪對話語料的構(gòu)成

6

T/CESAXXXX—202X

語料占比

多輪獨立具體有效查詢請求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論