DB35∕T 1979-2021 智慧家庭人工智能語音服務(wù)通 用技術(shù)規(guī)范_第1頁
DB35∕T 1979-2021 智慧家庭人工智能語音服務(wù)通 用技術(shù)規(guī)范_第2頁
DB35∕T 1979-2021 智慧家庭人工智能語音服務(wù)通 用技術(shù)規(guī)范_第3頁
DB35∕T 1979-2021 智慧家庭人工智能語音服務(wù)通 用技術(shù)規(guī)范_第4頁
DB35∕T 1979-2021 智慧家庭人工智能語音服務(wù)通 用技術(shù)規(guī)范_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.240.01

CCSL77

35

福建省地方標(biāo)準(zhǔn)

DB35/T1979—2021

智慧家庭人工智能語音服務(wù)通用技術(shù)規(guī)范

Generaltechnicalspecificationforartificialintelligencevoiceserviceofsmarthome

2021-06-21發(fā)布2021-09-21實施

福建省市場監(jiān)督管理局發(fā)布

DB35/T1979—2021

目次

前言.................................................................................II

1范圍...............................................................................1

2規(guī)范性引用文件.....................................................................1

3術(shù)語和定義.........................................................................1

4縮略語.............................................................................2

5語音服務(wù)的組成及能力等級劃分.......................................................3

6環(huán)境要求...........................................................................3

7基本要求...........................................................................4

8測試方法..........................................................................10

附錄A(規(guī)范性)語音測試集錄音質(zhì)量要求..............................................15

附錄B(規(guī)范性)測試用設(shè)備要求......................................................16

I

DB35/T1979—2021

前言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定

起草。

請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。

本文件由福建省工業(yè)和信息化廳提出并歸口。

本文件起草單位:中國移動通信集團福建有限公司、科大訊飛股份有限公司、中移(杭州)信息技

術(shù)有限公司、福建福諾移動通信技術(shù)有限公司、中國電信股份有限公司福建分公司、中國聯(lián)合網(wǎng)絡(luò)通信

有限公司福建省分公司、福建廣電網(wǎng)絡(luò)集團、華為技術(shù)有限公司、福建星網(wǎng)銳捷通訊股份有限公司、

新大陸通信科技股份有限公司、福建福日電子股份有限公司。

本文件主要起草人:章金水、黃海輝、林海、俞曉梅、羅新喜、孫凱廷、馬培培、羅紅、程寶平、

李棟、黃曉明、韋觀明、屈彤、吳振文、沈紹昌、王獻飛、楊韜。

II

DB35/T1979—2021

智慧家庭人工智能語音服務(wù)通用技術(shù)規(guī)范

1范圍

本文件規(guī)定了智慧家庭人工智能語音服務(wù)的組成及能力等級劃分、環(huán)境要求、基本要求和測試方法。

本文件適用于智慧家庭人工智能語音服務(wù)的建設(shè)、測試和評價。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB3096—2008聲環(huán)境質(zhì)量標(biāo)準(zhǔn)

GB/T21023—2007中文語音識別系統(tǒng)通用技術(shù)規(guī)范

GB/T21024—2007中文語音合成系統(tǒng)通用技術(shù)規(guī)范

GB/T22239—2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護基本要求

GB/T36464.1—2020信息技術(shù)智能語音交互系統(tǒng)第1部分:通用規(guī)范

GB/T36464.2—2018信息技術(shù)智能語音交互系統(tǒng)第2部分:智能家居

3術(shù)語和定義

GB/T21023—2007、GB/T21024—2007、GB/T36464.1—2020、GB/T36464.2—2018界定的以及下

列術(shù)語和定義適用于本文件。

語音服務(wù)voiceservice

人機之間通過自然語言對話來獲取信息的服務(wù)。

語音采集voiceacquisition

通過傳聲器或麥克風(fēng)陣列等拾音設(shè)備對語音進行采集。

語音識別speechrecognition

將人類的聲音信號轉(zhuǎn)化為文字或指令的過程。

[來源:GB/T21023—2007,3.1]

語義理解semanticunderstanding

使功能單元理解人說話的意圖。

[來源:GB/T36464.1—2020,3.11]

1

DB35/T1979—2021

語音合成speechsynthesis

通過機械的、電子的方法合成人類語言的過程。

[來源:GB/T21024—2007,3.1]

端點檢測voiceactivitydetection

一種用于分析、判斷連續(xù)音頻流中有效起始點和結(jié)束點的語音處理技術(shù)。

[來源:GB/T36464.1—2020,3.22]

智能語音終端artificialintelligencevoiceterminal

可接收用戶的語音,使得用戶可以獲取在線音視頻等內(nèi)容,或可通過語音進行控制的設(shè)備。

噪聲noise

語音采集過程中,采集到的由非有效語音信源發(fā)出的,能干擾、影響對有效語音信號的理解或處理

的聲音信號。

[來源:GB/T36464.1—2020,3.27]

等效聲級equivalentcontinuousA-weightedsoundpressurelevel

在聲場中的某個位置上,用某一段時間內(nèi)能量平均的方法,將間歇暴露的幾個不同噪聲,用這樣一

個聲級來表示該段時間的噪聲大小。

平均意見得分meanopinionscore

語音質(zhì)量的一種主觀度量。

[來源:GB/T36464.2—2018,3.26]

語音喚醒speechwakeup;voicetrigger

處于音頻流監(jiān)聽狀態(tài)的語音交互系統(tǒng),在檢測到特定的特征或事件出現(xiàn)后,切換到命令詞識別、連

續(xù)語音識別等其他處理狀態(tài)的過程。

[來源:GB/T36464.2—2018,3.13]

媒資mediaassets

媒體單位生產(chǎn)的文字、圖片、音視頻等數(shù)據(jù)。

媒資庫mediapool

存儲媒資的數(shù)據(jù)庫。

4縮略語

下列縮略語適用于本文件。

PCM:脈沖編碼調(diào)制(PulseCodeModulation)

MOS:平均意見得分(MeanOpinionScore)

2

DB35/T1979—2021

5語音服務(wù)的組成及能力等級劃分

語音服務(wù)的組成

由語音采集與識別、語義理解、語音合成與播放、語音技能四個部分組成。

語音服務(wù)能力等級劃分

語音服務(wù)能力根據(jù)成熟度劃分為五個等級,見表1。

表1語音服務(wù)能力等級

主體

語音服務(wù)能力等級定義

語音采集與識別語義理解語音合成與播放語音技能

上下文及多場景語

語義深度理解與智

Level5義理解與智能終端智能翻譯多級互動

能互動

控制

語義理解與語音互端點檢測應(yīng)用喚醒、欄目喚

Level4語義理解

動自然合成(多語種、起、內(nèi)容搜索

語音深度識別與自多發(fā)音人)

Level3——

然合成

語音識別與機器合

Level2語音識別—機器合成—

Level1語音采集與播放語音采集—語音播放—

6環(huán)境要求

自然環(huán)境

智能語音終端主要在家庭環(huán)境下使用,在表2所示自然環(huán)境條件下應(yīng)正常工作。

表2自然環(huán)境要求

溫度大氣壓力

相對濕度

℃KPa

0~4010%~90%無凝結(jié)86~106

網(wǎng)絡(luò)環(huán)境

智能語音終端或與之相連的智能設(shè)備應(yīng)支持無線或有線網(wǎng)絡(luò)接入互聯(lián)網(wǎng),網(wǎng)絡(luò)接入速度應(yīng)不低于

128kbit/s。

噪聲環(huán)境

智能語音終端主要在家庭環(huán)境下使用,家庭噪聲環(huán)境具體要求按照GB3096—2008第4章中0、1、2

類聲環(huán)境功能區(qū)的規(guī)定執(zhí)行。

3

DB35/T1979—2021

7基本要求

語音采集與識別

7.1.1語音采集

人工智能語音服務(wù)使用智能語音終端進行語音采集,應(yīng)能通過傳聲器或麥克風(fēng)陣列等具備語音采集

能力的拾音設(shè)備對語音、連續(xù)語音進行單聲道或多聲道的采集。語音采集應(yīng)滿足以下要求:

a)支持8kHz或16kHz采樣率,16bit及以上的采樣精度;

b)音頻文件編碼支持PCM或Opus或Speex格式;

c)對于連續(xù)性音頻,支持30s或60s為時間單位進行切片分割。

注:Opus是有損音頻的一種編碼格式;Speex是一套針對語音音頻的壓縮格式。

7.1.2端點檢測

人工智能語音服務(wù)在進行語音采集時,應(yīng)對采集的音頻進行端點檢測,以區(qū)分用戶說話的自然停頓

和主觀停止。

7.1.3語音識別

應(yīng)滿足以下要求:

a)支持家庭場景下關(guān)鍵詞語音識別能力,如影視、音樂、醫(yī)療、教育等;

b)支持簡單中英文混合識別;

c)支持?jǐn)?shù)字、電話號碼;

d)支持普通話、帶有福建口音的普通話;

e)宜支持福建省內(nèi)主流方言,如閩南語、客家語;

f)語音識別句識別率應(yīng)滿足表3要求。

表3語音識別句識別率要求

環(huán)境噪聲等效聲級句識別率

聲環(huán)境功能區(qū)類別

dB(A)%

0類晝間50,夜間40≥90

1類晝間55,夜間45≥85

2類晝間60,夜間50≥80

句識別率計算方法按公式(1)。

100%······································································(1)

式中:

Psr——句識別率,單位為百分?jǐn)?shù)(%);

Nsr——智能語音終端語音交互系統(tǒng)正確識別的句數(shù);

Nsi——標(biāo)注總句數(shù)。

4

DB35/T1979—2021

語義理解

應(yīng)滿足以下要求:

a)支持簡稱、別名、代碼、數(shù)字的理解;

b)具有用戶表達存在錯字、缺字、模糊時的容錯理解能力;

c)支持多輪、全雙工對話的人機交互方式;

d)語義理解正確率應(yīng)滿足表4要求。

表4語義理解等級表

語義理解正確率

語義理解等級場景

%

0類影視,電視直播,節(jié)目回看≥90

1類音樂,醫(yī)療,購物,教育≥85

語義理解正確率計算方法按公式(2)。

100%·······································································(2)

式中:

Rss——語義理解正確率,單位為百分?jǐn)?shù)(%);

Nss——操作意圖及語義要素均被正確判斷的次數(shù);

N——用戶輸入被正確識別出文本信息的總次數(shù)。

語音播放與合成

7.3.1語音播放

具備聲音外放功能的智能語音終端,晝間播放的語音提醒以及其它音頻,外放聲音應(yīng)不低于60dB。

7.3.2語音合成

應(yīng)滿足以下要求:

a)支持在線或離線方式合成近似人類的語音;

b)支持普通話和英語,宜支持福建省內(nèi)主流方言,如閩南語、客家語;

c)支持中英文數(shù)字等各種混合音,宜支持多音色合成和個性化合成;

d)MOS應(yīng)大于或等于4,MOS量化分值見表5。

表5MOS量化分值

分值主觀測聽效果

5非常接近播音員真人發(fā)聲,達到以假亂真的程度,總體聽感很好,清晰、流暢。

發(fā)音清晰、可懂,總體聽感好、流暢,聽測人愿意接受(半小時左右不覺疲勞),沒有明

4

顯韻律錯誤。

基本可以聽懂,但在語氣節(jié)奏處理上問題較多,音節(jié)之間拼接不流暢感較重,聽測人不太

3

愿意接受,有明顯的疲勞感。

2語音吐字不清晰,字詞之間有較為嚴(yán)重的頓挫感,體驗性不好,但不影響正常理解。

5

DB35/T1979—2021

表5MOS量化分值(續(xù))

分值主觀測聽效果

發(fā)音不清晰,機器音質(zhì),聽不懂,只能表達斷續(xù)、個別的語音信息,猜測語意都很困難,

1

不能接受。

注:參考GB/T36464.1—2020中A.8.3的表A.1,結(jié)合家庭環(huán)境要求,對主觀測聽效果作更詳細描述。

語音喚醒

7.4.1夜間喚醒

具備語音喚醒功能的智能語音終端在夜間的喚醒率應(yīng)滿足表6要求。

表6夜間不同噪聲環(huán)境下的喚醒率要求

夜間環(huán)境噪聲等效聲級發(fā)聲大小

聲環(huán)境功能區(qū)類別喚醒率要求

dB(A)dB

<55不作要求

0類40

≥553m優(yōu)于95%

<60不作要求

1m優(yōu)于95%

1類45

≥603m優(yōu)于90%

5m優(yōu)于85%

<65不作要求

2類50

≥653m優(yōu)于85%

夜間喚醒率計算方法按公式(3)。

100%·····································································(3)

式中:

Rnw——夜間喚醒率,單位為百分?jǐn)?shù)(%);

Nsw——成功喚醒次數(shù);

Nw——語音喚醒操作次數(shù)。

7.4.2晝間喚醒

具備語音喚醒功能的智能語音終端在晝間的喚醒率應(yīng)滿足表7要求。

表7晝間不同噪聲環(huán)境下的喚醒率要求

晝間環(huán)境噪聲等效聲級發(fā)聲大小

聲環(huán)境功能區(qū)類別喚醒率要求

dB(A)dB

<65不作要求

0類50

≥653m優(yōu)于90%

6

DB35/T1979—2021

表7晝間不同噪聲環(huán)境下的喚醒率要求(續(xù))

晝間環(huán)境噪聲等效聲級發(fā)聲大小

聲環(huán)境功能區(qū)類別喚醒率要求

dB(A)dB

<70不作要求

1m優(yōu)于90%

1類55

≥703m優(yōu)于85%

5m優(yōu)于80%

<75不作要求

2類60

≥753m優(yōu)于80%

晝間喚醒率計算方法按公式(4)。

100%······································································(4)

式中:

Rdw——晝間喚醒率,單位為百分?jǐn)?shù)(%);

Nsw——成功喚醒次數(shù);

Nw——語音喚醒操作次數(shù)。

7.4.3誤喚醒次數(shù)

具備語音喚醒功能的智能語音終端誤喚醒次數(shù)應(yīng)滿足表8要求。

表8誤喚醒次數(shù)要求

環(huán)境噪音(S)

12h內(nèi)誤喚醒次數(shù)

dB(A)

S≤450次

45<S≤55不作要求

55<S≤65低于2次

S>65不作要求

語音技能

7.5.1通用技能

7.5.1.1響應(yīng)時間

因調(diào)用網(wǎng)絡(luò)資源的不同,音頻端點檢測方式的不同,語音技能的響應(yīng)時間也會有所不同,但最長響

應(yīng)時間應(yīng)小于或等于2s。

響應(yīng)時間計算方法按公式(5)。

··········································································(5)

式中:

Tack——響應(yīng)時間,單位為秒(s);

7

DB35/T1979—2021

tr——給出結(jié)果時刻;

te——語音輸入結(jié)束的時刻。

注1:如語音交互系統(tǒng)支持識別結(jié)果分多次返回,te為第一部分識別結(jié)果返回的時刻。

注2:如智能語音終端具備語音喚醒功能,tr為終端返回指定內(nèi)容、反饋的時刻。

注3:如智能語音終端具備顯示屏幕,tr為終端以屏幕顯示或音頻播放方式返回指定內(nèi)容、反饋的時刻。

7.5.1.2交互反饋

應(yīng)滿足以下要求:

a)支持查詢類技能通過語音播報加信息展示的形式向用戶反饋;

b)支持媒資檢索類技能通過語音播報加搜索結(jié)果展示的形式向用戶反饋;

c)支持技能處理遇到異常情況時通過語音或者文本展示的形式向用戶反饋。

7.5.1.3反饋語設(shè)計

宜滿足以下要求:

a)準(zhǔn)確:實事求是,清楚明了傳達信息,避免歧義;

b)簡潔:用最少的話傳達最重要的信息;

c)自然:口語化不生硬,容易理解,有停頓,符合正常說話節(jié)奏;

d)明晰:明確、具體完成任務(wù),并傳達理解程度;

e)親和:遇到出錯情況,主動推薦并引導(dǎo)用戶。

7.5.2應(yīng)用喚起

7.5.2.1單說指令喚起

應(yīng)支持按應(yīng)用名稱喚起應(yīng)用。

7.5.2.2指定句式喚起

應(yīng)支持按固定的句式進行應(yīng)用的喚起,句式為:前綴詞+應(yīng)用名稱+后綴詞。

前綴詞至少包括:打開、啟動、開啟、我要玩、我想玩、我要用。

后綴詞至少包括:應(yīng)用、軟件。

7.5.2.3關(guān)聯(lián)語義喚起

宜支持根據(jù)語音指令的語義理解,抽取出用戶的意圖所屬的語義范圍,然后根據(jù)該語義范圍將相匹

配的應(yīng)用喚起。

涉屏語音服務(wù)技能

7.6.1媒資管理

應(yīng)支持媒資的欄目管理、索引建立、審核、發(fā)布功能。媒資信息應(yīng)滿足以下要求:

a)影視媒資信息包括:名稱、主演、上映時間、類型,宜包括季集、導(dǎo)演、簡介、評分、熱度

等信息;

b)音樂媒資信息包括:名稱、歌手、音樂來源、類型,宜包括地區(qū)、簡介、評分、熱度等信息;

c)游戲媒資信息包括:名稱、類型,宜包括簡介、評分、上架時間、熱度等信息;

8

DB35/T1979—2021

d)應(yīng)用媒資信息包括:名稱、類型,宜包括簡介、評分、上架時間、熱度等信息。

7.6.2媒資檢索

7.6.2.1標(biāo)簽檢索

應(yīng)滿足以下要求:

a)支持根據(jù)媒資庫中的1個標(biāo)簽進行檢索;

b)支持根據(jù)媒資庫中的任意2個或2個以上標(biāo)簽進行檢索。

7.6.2.2容錯處理

當(dāng)用戶所說的檢索條件出現(xiàn)多音字、同義字、多字少字情況時,應(yīng)能夠正確處理并搜索出對應(yīng)的結(jié)

果。

7.6.2.3關(guān)聯(lián)推薦

宜支持基于內(nèi)容及用戶喜好的關(guān)聯(lián)推薦檢索。

關(guān)聯(lián)推薦計算維度應(yīng)包括物品關(guān)聯(lián)度以及權(quán)重,其中影視媒資關(guān)聯(lián)維度宜包括類型、導(dǎo)演、演員信

息。

7.6.3頁面操控

7.6.3.1頁面基礎(chǔ)操控

應(yīng)滿足以下要求:

a)支持通過語音控制,實現(xiàn)返回上級頁面和退出當(dāng)前應(yīng)用等基本操作;

b)支持通過語音喚起當(dāng)前頁面上所列欄目。

7.6.3.2搜索頁操控

搜索頁應(yīng)支持語音的翻頁及選擇指令,具體指令見表9。

表9搜索頁操控指令

指令名稱指令英文標(biāo)識指令參數(shù)

跳到下一頁NEXT—

跳到上一頁PREV—

跳到指定頁INDEXindex頁號(整數(shù)值型,負數(shù)表示倒數(shù))

row:第X行(整數(shù)值型,負數(shù)表示倒數(shù))

選擇SELECT

index:第X個(整數(shù)值型,負數(shù)表示倒數(shù))

7.6.3.3播放頁面操控

播放頁面應(yīng)支持語音的播控操作指令,播控操作相關(guān)指令見表10。

9

DB35/T1979—2021

表10播放操控指令

指令名稱指令英文標(biāo)識指令參數(shù)

播放PLAY—

暫停PAUSE—

繼續(xù)播放RESUME—

重頭播放RESTART—

跳到指定位置SEEKposition位置(整數(shù)值型,單位:秒)

快進指定時間FORWARDoffset偏移(整數(shù)值型,單位:秒)

后退指定時間BACKWARDoffset偏移(整數(shù)值型,單位:秒)

7.6.4涉屏終端控制

應(yīng)支持對帶屏類智能語音終端設(shè)備的基礎(chǔ)控制指令,如音量控制、打開設(shè)置頁面、關(guān)機。

服務(wù)安全

7.7.1基礎(chǔ)服務(wù)安全

按照GB/T22239—2019中8.1.2規(guī)定的執(zhí)行。

7.7.2隱私保護

7.7.2.1麥克風(fēng)隱私保護

具有語音喚醒功能的智能語音終端應(yīng)具備關(guān)閉麥克風(fēng)的功能,用戶可通過手工關(guān)閉麥克風(fēng)。宜支持

一鍵禁麥。

7.7.2.2攝像頭隱私保護

具有攝像頭的智能語音終端應(yīng)具備關(guān)閉攝像頭的功能,用戶可通過手工關(guān)閉攝像頭。宜具備物理遮

擋開關(guān)。

8測試方法

測試準(zhǔn)備

8.1.1測試語料

8.1.1.1文本測試集

應(yīng)滿足以下要求:

a)覆蓋影視、音樂、醫(yī)療、教育等領(lǐng)域;

b)包含智能語音終端的喚醒詞、操控指令、多音字、頻道別名等常用性語句。

8.1.1.2語音測試集

應(yīng)滿足以下要求:

10

DB35/T1979—2021

a)至少由50名發(fā)音人進行錄制;

b)由不同年齡段發(fā)音人參與錄制,其中男女比例為1:1,年齡段在9~12歲、20~50歲、60~

75歲的人員比例為1:4:1;

c)測試文本滿足8.1.1.1的要求;

d)發(fā)音人以普通話或帶有福建口音的普通話錄制;

e)宜包含福建省內(nèi)主流方言,如閩南語、客家語;

f)語音測試集錄音質(zhì)量要求應(yīng)符合附錄A的規(guī)定。

8.1.2測試用設(shè)備

應(yīng)符合附錄B的規(guī)定。

測試環(huán)境

8.2.1被測語音交互系統(tǒng)

部署被測語音交互系統(tǒng),測試用回放設(shè)備通過對話方式對其進行控制和交互。

8.2.2被測系統(tǒng)網(wǎng)絡(luò)環(huán)境

應(yīng)滿足6.2的要求,保持穩(wěn)定的連通狀態(tài)。

8.2.3遠近場拾音距離

近場拾音距離為1m,遠場拾音距離為3m。

8.2.4測試場景

可采用真實的家庭場景的環(huán)境噪聲或模擬家庭場景的環(huán)境噪聲,分為低噪聲環(huán)境和高噪聲環(huán)境,要

求噪音保持穩(wěn)定且不包含命令詞相關(guān)的聲音,具體要求見表11。

表11測試場景要求

測試語音聲壓級(S)環(huán)境噪音聲壓級(V)

環(huán)境噪音場景

dBdB(A)

夜間2類S≥65V≤50

晝間2類S≥75V≤60

誤喚醒測試場景60<S≤7560<V≤75

測試方法

8.3.1語音采集測試

使用測試用回放設(shè)備播放任意語音測試集,使用被測設(shè)備進行錄音,由被測設(shè)備提供錄音音頻記錄

數(shù)據(jù),查看數(shù)據(jù)的編碼格式和采樣率。

通過上述測試方法驗證是否滿足7.1.1的要求。

11

DB35/T1979—2021

8.3.2端點檢測測試

使用測試用回放設(shè)備連續(xù)播放語音測試集,被測設(shè)備可以遠場進行語句端點檢測,并正確理解用戶

意圖,進行多個指令操作。

通過上述測試方法驗證是否滿足7.1.2的要求。

8.3.3語音識別測試

使用測試用回放設(shè)備播放語音測試集,被測設(shè)備進行錄音,記錄各場景下被測系統(tǒng)的識別結(jié)果,與

預(yù)期結(jié)果進行比對,計算出句識別率。

通過上述測試方法驗證是否滿足7.1.3的要求。

8.3.4語義理解測試

采用機器和人工的方式輸入文本測試集,統(tǒng)計系統(tǒng)反饋的文本信息,統(tǒng)計正確次數(shù),計算出語義理

解正確率。

通過上述測試方法驗證是否滿足7.2的要求。

8.3.5語音播放測試

在晝間2類噪聲環(huán)境中觸發(fā)被測設(shè)備語音播放場景,使用聲壓計在距離設(shè)備0.1m范圍內(nèi)測試聲音分

貝值,記錄分貝數(shù)據(jù)。

通過上述測試方法驗證是否滿足7.3.1的要求。

8.3.6語音合成測試

選取10個體驗人員,男女各5人,年齡在20~50歲之間,通過對被測設(shè)備人為的喚醒或識別命令反

饋,測聽合成語音與真人語音在音質(zhì)、可懂度和自然度方面的差異,并按表5給出MOS量化分值,記錄平

均結(jié)果。

通過上述測試方法驗證是否滿足7.3.2要求。

8.3.7語音喚醒測試

8.3.7.1喚醒率測試

按8.2.4的測試場景要求,將被測設(shè)備調(diào)至待命狀態(tài),使用測試用回放設(shè)備在遠場距離播放喚醒語

音測試集不少于50條,統(tǒng)計岀正確響應(yīng)次數(shù),計算出喚醒正確率。

測試喚醒率時,應(yīng)確保環(huán)境噪音聲壓比被測設(shè)備聲壓低15dB,確保測試用播放設(shè)備正對被測設(shè)備,

從前后左右四個方位播放喚醒詞各50次。

通過上述測試方法驗證是否滿足7.4.1、7.4.2的要求。

8.3.7.2誤喚醒測試

按8.2.4誤喚醒測試場景要求,將測試用回放設(shè)備連續(xù)播放12h,統(tǒng)計被測設(shè)備給出的響應(yīng)次數(shù)。

通過上述測試方法驗證是否滿足7.4.3的要求。

8.3.8語音技能測試

8.3.8.1響應(yīng)時間測試

12

DB35/T1979—2021

按8.3.3語音識別測試方法,從拾音設(shè)備拾音結(jié)束到語音交互系統(tǒng)顯示正確的反饋,計為一個交互

響應(yīng)時間。對被測設(shè)備的基本交互時間進行統(tǒng)計、分析,給出在線響應(yīng)時間。

通過上述測試方法驗證是否滿足7.5.1.1的要求。

8.3.8.2交互反饋測試

在被測設(shè)備支持的業(yè)務(wù)場景范圍內(nèi),選擇不少于5個業(yè)務(wù)場景,由測試人員發(fā)出操控指令,記錄被

測設(shè)備交互反饋情況。

通過上述測試方法驗證是否滿足7.5.1.2和7.5.1.3的要求。

8.3.8.3應(yīng)用喚起測試

測試人員對被測設(shè)備說,“我要玩游戲”、“我要聽音樂”??梢詥颖粶y設(shè)備上已安裝的游戲、

音樂應(yīng)用,即為通過。

通過上述測試方法驗證是否滿足7.5.2的要求。

8.3.9涉屏語音服務(wù)技能測試

8.3.9.1媒資管理和媒資檢索測試

在被測試設(shè)備支持的媒資領(lǐng)域,選擇不少于10個媒資,由測試人員根據(jù)媒資的任意1個或任意2個標(biāo)

簽發(fā)出搜索指令,記錄檢索結(jié)果情況。

通過上述測試方法驗證是否滿足7.6.1、7.6.2.1和7.6.2.2的要求。

8.3.9.2關(guān)聯(lián)推薦測試

測試人員連續(xù)觀看同類影片,當(dāng)搜索無結(jié)果時,被測設(shè)備給出與用戶搜索語相關(guān)的影視推薦。如用

戶搜索:“熊出沒狂野大陸”,被測設(shè)備無對應(yīng)媒資時,給出“熊出沒”相關(guān)聯(lián)的影片推薦。

通過上述測試方法驗證是否滿足7.6.2.3的要求。

8.3.9.3頁面操控測試

測試人員通過語音進行媒資搜索,被測設(shè)備出現(xiàn)多頁搜索結(jié)果時,可進行翻頁操控;播放狀態(tài)下,

支持播放狀態(tài)的控制。如用戶搜索:“我要看電影”,出現(xiàn)多頁時,可進行上下頁的操控;電影播放狀

態(tài)下通過語音操控“暫?!?、“重新播放”,被測設(shè)備給出正確響應(yīng)。

通過上述測試方法驗證是否滿足7.6.3的要求。

8.3.9.4涉屏終端控制測試

測試人員通過語音進行被

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論