T∕ZSA 15-2021 任務(wù)型智能對話系統(tǒng)的能力評價_第1頁
T∕ZSA 15-2021 任務(wù)型智能對話系統(tǒng)的能力評價_第2頁
T∕ZSA 15-2021 任務(wù)型智能對話系統(tǒng)的能力評價_第3頁
T∕ZSA 15-2021 任務(wù)型智能對話系統(tǒng)的能力評價_第4頁
T∕ZSA 15-2021 任務(wù)型智能對話系統(tǒng)的能力評價_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、ICS 35.240.20CCS L 70團(tuán)體標(biāo)準(zhǔn)T/ZSA 15-2021任務(wù)型智能對話系統(tǒng)的能力評價Evaluation on the capability for the task-oriented artificial intelligencedialogue system2021-06-11發(fā)布2021-06-12實(shí)施中關(guān)村 化協(xié)會發(fā)布T/ZSA 15-2021目次目次.I前言.II引言.III1 范圍.12 規(guī)范性引用文件.13 術(shù)語和定義.14 總體原則與要求.35 智能能力類型.36 智能能力等級.56.1三類智能能力的等級.56.2綜合評定.67 智能能力的評價.67.1評價

2、指標(biāo).67.2評價方法.67.3評價數(shù)據(jù).67.4評價過程.6附錄A(資料性)對話系統(tǒng)智能等級評價項檢查清單及應(yīng)用示例.8附錄B(資料性)評價用例類型及示例.11IT/ZSA 15-2021前言本文件按照GB/T1.12020化工作導(dǎo)則 第1部分:化文件的結(jié)構(gòu)和起草規(guī)則給出的規(guī)則起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別這些專利的責(zé)任。本文件由中關(guān)村化協(xié)會技術(shù)委員會提出并歸口。本文件起草單位:聯(lián)想(北京)有限公司、北京圖拉揚(yáng)科技有限公司、理光軟件研究所(北京)有限公司、中國信息通信研究院、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司、北京小米移動軟件有限公司、北京影譜科技股份有限

3、公司、北京市閃聯(lián)信息產(chǎn)業(yè)協(xié)會。本文件主要起草人:胡長建、孟遙、黎丹、張宇、丁琦城、張惟師、徐鵬、董濱、夏麗嬌、孫叔琦、崔建偉、吉長江、彭方振、段亞鋒、呂飛燕、林巍巍、陶宏芝、楊磊、李悠、張博、熊思遠(yuǎn)、王冉。IIT/ZSA 15-2021引言人工智能理論和技術(shù)興起以來,各種理論觀點(diǎn)和應(yīng)用分析大量涌現(xiàn),導(dǎo)致各種技術(shù)規(guī)范、指南、文件條文復(fù)雜,術(shù)語繁多。其中,以人工智能應(yīng)用為最大特點(diǎn)的對話機(jī)器人研究領(lǐng)域,細(xì)分領(lǐng)域眾多,評價不一致、不兼容、不互通,給研究人員、開發(fā)者和使用產(chǎn)品的用戶都帶來了很多困擾。因此,為對話機(jī)器人或人工智能對話系統(tǒng),建立智能能力評價,有助于構(gòu)建兼容社會規(guī)范的、安全的、系統(tǒng)擴(kuò)展性良好的

4、人工智能設(shè)施。本文件在人工智能領(lǐng)域內(nèi),對以完成任務(wù)為目標(biāo)的智能對話系統(tǒng),確立了評價體系,把智能能力分為三個類型、五個等級,明確了各自的能力組成和相應(yīng)的能力表現(xiàn)要求。本文件與國內(nèi)已有的智能語音交互系統(tǒng)、人工智能等級評估等國家、團(tuán)體都兼容。本文件適用于面向任務(wù)型的智能對話系統(tǒng),非任務(wù)型的其他智能對話系統(tǒng)也可參考使用。本文件可供人工智能系統(tǒng)的設(shè)計和開發(fā)人員、理論研究人員,以及實(shí)際使用對話系統(tǒng)的用戶參考使用。依托本文件,可評價對話系統(tǒng)的智能等級水平,并指導(dǎo)對話系統(tǒng)的研究、設(shè)計、生產(chǎn)和應(yīng)用分析。IIIT/ZSA 15-2021任務(wù)型智能對話系統(tǒng)的能力評價1 范圍本文件確立了任務(wù)型對話系統(tǒng)的智能能力評價體

5、系,明確了能力分類,并對每類能力給出分級評價表,明確了各等級的能力表現(xiàn)要求。本文件適用于智能對話系統(tǒng)能力的分類、分級與評價。2 規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件; 不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T36464.1-2020 信息技術(shù) 智能語音交互系統(tǒng) 第1部分:通用規(guī)范GB/T36464.3-2018 信息技術(shù) 智能語音交互系統(tǒng) 第3部分:智能客服GB/T5271.28-2001 信息技術(shù) 詞匯 第28部分:人工智能 基本概念與專家系統(tǒng)T/CESA1038-

6、2019 信息技術(shù) 人工智能 智能助理能力等級評估3 術(shù)語和定義GB/T5271.28-2001、GB/T36464.1-2020、T/CESA1038-2019界定的,以及下列術(shù)語和定義適用于本文件。3.1對話系統(tǒng) dialogue system一種與人進(jìn)行溝通交流的人工智能(Artifical Intelligence)系統(tǒng),其交流方式可通過自然語言,也可通過文字、語音、圖形、觸覺、手勢等模式之一種或多種的組合。也可稱之為對話代理(Conversational Agent),或?qū)υ挋C(jī)器人。注:本定義參考了 GB/T 5271.28-2001的術(shù)語 28.01.05“基于知識的系統(tǒng)”,以及

7、GB/T 36464.3-2018的術(shù)語 3.3“語音交互系統(tǒng)”。3.2任務(wù)task一種指向性明確的、可量化實(shí)現(xiàn)的目標(biāo)。注:開放性的、沒有明確指向的過程,比如,閑聊型機(jī)器人的對話,不屬于本文件所定義的“任務(wù)”。3.3任務(wù)型對話系統(tǒng) task-oriented dialogue system以完成任務(wù)為目標(biāo)的對話系統(tǒng)。3.4人工智能 Artificial Intelligence,AI1T/ZSA 15-2021表現(xiàn)出與人類智能(如推理和學(xué)習(xí))相關(guān)的各種功能的功能單元的能力。注:本文件中,特指利用數(shù)字計算機(jī)或者數(shù)字計算機(jī)控制的機(jī)器或系統(tǒng),模擬和擴(kuò)展人類智能,感知環(huán)境、獲取知識并使用知識獲得某種結(jié)

8、果的能力。來源:GB/T 5271.28-2001,28.01.023.5情感 affection人對客觀事物是否滿足自己的需要而產(chǎn)生的態(tài)度體驗。注1:情感是多種感覺、思想和行為綜合產(chǎn)生的心理和生理狀態(tài)。注2:情感產(chǎn)生于內(nèi)部動機(jī)和外部環(huán)境刺激。注3:情感有三個成分:主觀體驗、外部表現(xiàn)和生理喚醒。注4:情感有四個特性:通用特性、文化特性、個體特性與情境特性。注5:情感可以描述用戶的情緒、傾向、喜好、個性等。3.6認(rèn)知智能cognitive intelligence基于用戶輸入及系統(tǒng)內(nèi)部信息,通過理解、交互、決策以解決目標(biāo)任務(wù)的能力。3.7情感智能emotional intelligence為有效

9、實(shí)現(xiàn)目標(biāo),對話系統(tǒng)對自身及用戶的情感進(jìn)行建模和處理的能力。3.8系統(tǒng)完備性 system completeness基于維護(hù)、驗證、擴(kuò)展等角度,在不同程度人工干預(yù)下進(jìn)行智能運(yùn)維的能力。3.9情感計算 affective computing在人機(jī)交互過程中對特定情感的收集、識別、決策和表示。來源:GB/T 36464.1-2020, 3.303.10情感識別affective recognition通過分析和處理情感數(shù)據(jù),得到用戶情感狀態(tài)的過程和方法。3.11人機(jī)交互 human machine interaction人類和功能單元之間,為完成確定任務(wù),以一定的交互方式進(jìn)行的信息傳遞和交流活動。來

10、源:GB/T 36464.1-2020, 3.43.12模態(tài) modality模態(tài)指人機(jī)交互中進(jìn)行信息傳遞和交流的形式,例如文字、語音、圖形、觸覺、手勢等模式之一種。2T/ZSA 15-2021多模態(tài)(multimodal)即上述多種模態(tài)的組合。3.13智能能力類型 types of intelligence用于評價智能系統(tǒng)的主要智能領(lǐng)域。3.14能力子項 capability sub-item構(gòu)成能力的可度量的若干技術(shù)特性指標(biāo)單項。來源:T/CESA 1038-2019,2.74 總體原則與要求本文件適用的對話系統(tǒng),基于GB/T 36464.1-2020的規(guī)定,支持以語音信號為載體的情感計算

11、,并在任務(wù)型應(yīng)用上符合本文件規(guī)定的專門要求。本文件將智能能力分為三類,為認(rèn)知智能、情感智能、系統(tǒng)完備性。對每一類智能能力,均從低到高劃分5個等級,并通過等級評價表,明確了各級的能力表現(xiàn)要求。此三類智能各自包含的能力,概述如下:認(rèn)知智能:包含理解、交互及決策能力;情感智能:包含情感理解和情感策略能力;系統(tǒng)完備性:包含可維護(hù)、可驗證和可擴(kuò)展能力。三類智能能力的評價相互獨(dú)立,可并行進(jìn)行,在此基礎(chǔ)上還可進(jìn)一步作出綜合評定。5 智能能力類型智能能力分為三類,每類智能能力都有各自的能力組成,其下屬的能力子項以及相應(yīng)的表現(xiàn),可以參考表1表3進(jìn)行評價。表1 認(rèn)知智能的能力組成能力組成能力子項表現(xiàn)特定領(lǐng)域意圖識

12、別系統(tǒng)可以將特定領(lǐng)域的用戶輸入按預(yù)定義的意圖進(jìn)行分類。系統(tǒng)可以檢測識別通用領(lǐng)域的用戶意圖,如寒暄閑聊、對話過程中的肯定、否定等表態(tài)反饋。通用領(lǐng)域意圖識別信息抽取系統(tǒng)可以從用戶輸入中提煉出有價值的信息,如關(guān)鍵詞、實(shí)體及其關(guān)系等。理解能力系統(tǒng)可以綜合利用各種可用信息如結(jié)合上下文以消除用戶表述中的語義歧義問題。語義消歧系統(tǒng)可以自動檢測用戶輸入的語言,并平滑切換到相應(yīng)語言。多語言識別對話管理自然應(yīng)答系統(tǒng)對于整個對話系統(tǒng)流程的控制,包含執(zhí)行對話策略,跟蹤對話狀態(tài),應(yīng)用歷史信息等以達(dá)成對話任務(wù)的目標(biāo)。交互能力系統(tǒng)基于理解結(jié)果在交互響應(yīng)時能進(jìn)行靈活自然的應(yīng)答,且回復(fù)內(nèi)容與用戶表述相適配。3T/ZSA 15-

13、2021用戶能通過多種形式如文本、語音、圖像、動作等進(jìn)行輸入,并且系統(tǒng)也能通過多種輸出形式或基于它們的組合,如語音合成、智能圖形和其他形式的組合來進(jìn)行雙向交互。多模態(tài)交互系統(tǒng)可以通過知識庫或知識圖譜,組織和存儲相應(yīng)的知識,并可使用復(fù)雜結(jié)構(gòu)化和非結(jié)構(gòu)化信息,按某種規(guī)則推理演繹得到新的知識。該信息將提供給用戶以解決問題。知識表示與推理自學(xué)習(xí)及優(yōu)化決策能力系統(tǒng)可以通過自學(xué)習(xí)而自主獲取、組織及應(yīng)用知識,以及優(yōu)化自身理解、交互等能力。表2 情感智能的能力組成能力組成情感理解能力子項表現(xiàn)情感傾向分類系統(tǒng)可對用戶輸入的情感傾向分類,包括正面、負(fù)面和中性情感。系統(tǒng)可對用戶輸入的情感類別進(jìn)行細(xì)粒度識別,比如開心

14、、悲傷、憤怒、驚訝、恐懼等。情感類別識別1系統(tǒng)支持多模態(tài)輸入的情感識別,如可識別語音、文本、圖像、視頻、面部表情、神經(jīng)生理或心理信號等形式的輸入。系統(tǒng)可基于對話語境來理解情感,例如從只能基于單次對話到可以利用整個多輪對話。多模態(tài)情感理解與識別情感語境理解系統(tǒng)可基于情感理解得到的分類信息(包括粗粒度的情感傾向或細(xì)粒度情感類別)選擇相應(yīng)策略進(jìn)行情感表達(dá)。情感分類響應(yīng)2系統(tǒng)可以多模態(tài)輸出情感表達(dá),如以語音、文本、圖像、視頻等形式的輸出呈現(xiàn)。多模態(tài)情感表達(dá)情感響應(yīng)系統(tǒng)可基于語境信息來應(yīng)對情感,包括多輪對話及用戶歷史對話中記錄的情感信息。情感語境決策社會規(guī)范決策系統(tǒng)可基于用戶的社會文化背景,以相適應(yīng)的情

15、感策略應(yīng)對。注1:情感的類別,可基于心理學(xué)理論,也可基于實(shí)際應(yīng)用需要,劃分為“喜悅”、“悲哀”、“憤怒”、“快樂”、“憂郁”、“驚訝”、“恐懼”等。注2:用戶可以依據(jù)實(shí)際需求來指定評價表中的情感類型。表3 系統(tǒng)完備性的能力組成能力組成能力子項理解管理對話管理表現(xiàn)系統(tǒng)可以對理解相關(guān)組件進(jìn)行運(yùn)維,如增刪改關(guān)鍵詞等。系統(tǒng)可以對對話管理相關(guān)組件進(jìn)行運(yùn)維管理,如修改對話策略等。系統(tǒng)可以對回復(fù)相關(guān)組件進(jìn)行運(yùn)維管理,如修改答案模板、調(diào)整答復(fù)渠道范圍,設(shè)置有效時間等??删S護(hù)能力回復(fù)管理多領(lǐng)域管理人機(jī)協(xié)作管理驗證性一個對話系統(tǒng)可以管理設(shè)置支持多個領(lǐng)域。系統(tǒng)可以管理設(shè)置其與真人協(xié)作的配合方式如策略、時間等。系統(tǒng)具

16、有驗證方案以及報告、分析與行動的能力。系統(tǒng)具有管理其自身系統(tǒng)邊界的能力和與其他系統(tǒng)互動的能力??沈炞C能力可擴(kuò)展能力擴(kuò)展性4T/ZSA 15-20216 智能能力等級6.1 三類智能能力的等級對話系統(tǒng)所包含的三類智能能力,每一類按對用戶需求的滿足程度、工作模式的自主程度,以及自主學(xué)習(xí)能力的差異,可劃分智能等級,從低到高分為五級,以L1、L2、L3、L4、L5表示。每類智能的分級能力要求,在表4表6中給出。參考這三個能力等級要求列表,附錄A給出了一個典型的智能等級評價項檢查清單示例。表4 認(rèn)知智能的能力等級智能能力等級能力要求L1L2具備理解特定領(lǐng)域用戶意圖的能力(如對話系統(tǒng)所服務(wù)的特定業(yè)務(wù)領(lǐng)域)

17、。在前級基礎(chǔ)上,具備顯式信息抽取的能力(如實(shí)體識別),能進(jìn)行多于一輪的對話。在前級基礎(chǔ)上,具備通用領(lǐng)域用戶意圖識別能力(如寒暄閑聊、表態(tài)反饋等),具備語義關(guān)系的提取和理解能力,支持話題切換、靈活自然應(yīng)答的能力,以及推薦相關(guān)信息的能力。L3在前級基礎(chǔ)上,具備聯(lián)系上下文理解、語義消歧及提取隱含語義的能力,具備復(fù)雜語義關(guān)系的提取和理解能力,具備多模態(tài)融合交互、推理計算的能力。在前級基礎(chǔ)上,具備充分理解、記憶、預(yù)測和響應(yīng)用戶查詢,并利用當(dāng)前狀況和過去積累常識等進(jìn)行自學(xué)習(xí)與優(yōu)化的能力。L4L5表5 情感智能的能力等級智能能力等級L1能力要求無情感要求。具備在單輪對話中識別1-3種用戶情感傾向(正面、負(fù)面

18、、中性)的能力,并能作出應(yīng)對。L2L3L4L5在前級基礎(chǔ)上,具備識別3種以上更細(xì)粒度用戶情感類別的能力(如憤怒、悲傷、厭惡、開心等),并能作出應(yīng)對。在前級基礎(chǔ)上,具備在包含上下文多輪對話的情況下,理解用戶情感并應(yīng)對的能力;具備融合多模態(tài)(文本、語音、表情等)理解并作出應(yīng)對的能力。在前級基礎(chǔ)上,具備充分理解、記憶、預(yù)測和響應(yīng)用戶情感,并利用當(dāng)前語境、過去積累以及社會規(guī)范等經(jīng)驗常識等,進(jìn)行自學(xué)習(xí)與優(yōu)化的能力。表6 系統(tǒng)完備性的能力等級智能能力等級L1能力要求維護(hù)方面,可以使用給定的工具維護(hù)回復(fù)答案與話術(shù);驗證方面,能評估系統(tǒng)的基本使用情況,包括用戶、流量、反饋等。在前級基礎(chǔ)上,維護(hù)方面,能維持有限

19、的對話流程;驗證方面,能評估理解能力,能評估系統(tǒng)穩(wěn)定性;擴(kuò)展方面,能與第三方系統(tǒng)集成。L2L3在前級基礎(chǔ)上,維護(hù)方面,能管理和調(diào)整理解模型;驗證方面,能評估對話流暢度;擴(kuò)展方面,能根據(jù)需要擴(kuò)展方案。5T/ZSA 15-2021在前級基礎(chǔ)上,維護(hù)方面,能管理多個對話系統(tǒng);驗證方面,能使用算法模型評估端到L4L5端系統(tǒng)效率;擴(kuò)展方面,能按需保護(hù)信息。在前級基礎(chǔ)上,維護(hù)方面,能支持端到端系統(tǒng)生命周期中的數(shù)據(jù)驅(qū)動管理;驗證方面,系統(tǒng)根據(jù)評估能提供對外部環(huán)境的見解;擴(kuò)展方面,系統(tǒng)能實(shí)現(xiàn)自我保護(hù)和自動擴(kuò)展。6.2 綜合評定可在完成智能能力分級評價后進(jìn)行綜合評定,以體現(xiàn)對話系統(tǒng)在全面能力上的均衡程度。綜合評

20、定不是必須進(jìn)行的,因為不是所有的對話系統(tǒng)都必須覆蓋全面的智能能力,比如,某些對話系統(tǒng)在完成指定任務(wù)時并不要求具備情感智能。綜合評定需包含全部三類智能能力。綜合評定的最終等級,取三類能力等級中最低的級數(shù)。示例 1:選擇全部三類智能進(jìn)行綜合評定,三者智能能力等級分別為 L3、L2、L3,則綜合評定為綜合 2級。示例 2:三者智能能力等級均為 L3,則綜合評定為綜合 3級。如不進(jìn)行綜合評定,也應(yīng)在評價報告中列出已完成的各類智能能力評價。例如,對于不要求考慮情感智能的對話系統(tǒng),其評價報告中可以只列出認(rèn)知智能和運(yùn)維智能的能力評價。7 智能能力的評價7.1 評價指標(biāo)對話系統(tǒng)的智能能力,其各類能力以及等級評

21、價指標(biāo),根據(jù)其能力子項設(shè)定。7.2 評價方法對話系統(tǒng)的智能,應(yīng)在不同的智能能力類型下,各自獨(dú)立進(jìn)行評估。評價某一類智能時,應(yīng)逐級比對智能子項的等級評價表,進(jìn)行評估?;诒?表6的指標(biāo)要求,并參考附錄A中表A.1的檢查清單,逐級對照檢查項,以對話系統(tǒng)能否實(shí)現(xiàn)為準(zhǔn)。如某一級的必備檢查項未實(shí)現(xiàn),則系統(tǒng)未達(dá)到該等級。評估應(yīng)用示例參見附錄表A.2。在各智能類別下,完成智能等級評估后,可按6.2進(jìn)行綜合評定。比如,某對話系統(tǒng)的認(rèn)知智能達(dá)L4級,情感智能達(dá)L2級,系統(tǒng)完備性達(dá)L3級,則系統(tǒng)達(dá)到綜合2級。7.3 評價數(shù)據(jù)根據(jù)評價的智能類型不同,可提出多個用于評價能力的測試數(shù)據(jù)集合,參考附錄B。不同的智能類型,

22、在評價時需使用不同的測試用例/數(shù)據(jù)。數(shù)據(jù)集需提前準(zhǔn)備完成(包括數(shù)據(jù)采集及加工等過程),并根據(jù)實(shí)際被測樣品的差異性,進(jìn)行適當(dāng)?shù)恼{(diào)整或擴(kuò)充。測試用例設(shè)計應(yīng)符合以下準(zhǔn)則:1)2)覆蓋面廣:用例應(yīng)盡可能覆蓋所設(shè)定范圍下的各分類,必須覆蓋用戶高頻用到的分類。代表性強(qiáng):用例分布應(yīng)與真實(shí)環(huán)境中的分布相適配,比如用戶更高頻用到的分類,用例占比也要求相對更高。3)多樣性足:用例應(yīng)包含真實(shí)用戶可能出現(xiàn)的表達(dá)方式,比如文字表述上,應(yīng)包含長句、短句。如僅有短語、關(guān)鍵詞等形式,也應(yīng)包括但不限于陳述、疑問、祈使、反問等各種句式或語氣。7.4 評價過程7.4.1 確定評價方案6T/ZSA 15-2021根據(jù)評價目的需要,綜

23、合考慮對話系統(tǒng)智能等級的影響因素,制定與其需求相符合的評價方案??蛇x擇自行制定方案來實(shí)施評價,也可委托第三方制定評價方案。其中,運(yùn)維智能的評價從終端用戶角度無法有效觸及,可自評,或向第三方公開必要的信息后,由第三方進(jìn)行評價。7.4.2 界定評價范圍評價前應(yīng)識別、界定和描述被評價的對話系統(tǒng)產(chǎn)品及其特性,包括系統(tǒng)概述、使用范圍、目標(biāo)用戶、使用方式等。7.4.3 評價實(shí)施和等級劃分根據(jù)評價目的,結(jié)合被評價對話系統(tǒng)在各類智能能力各個子項的滿足情況,對系統(tǒng)智能等級進(jìn)行分類及綜合等級評價,從而形成評價結(jié)論。7.4.4 評價報告評價報告內(nèi)容應(yīng)包括:a) 對話系統(tǒng)產(chǎn)品基本概況;b) 評價目的;c) 評價對象和

24、范圍;d) 評價等級劃分和定義;e) 評價假設(shè)和限定條件;f) 評價依據(jù);g) 評價方法;h) 評價程序?qū)嵤┻^程和情況;i) 評價結(jié)論,如進(jìn)行綜合評定,給出綜合級別評分;j) 特別事項說明;k) 評價報告的使用限制說明;l) 評價報告日。評價方應(yīng)對評價報告建檔存留并定期復(fù)審。7T/ZSA 15-2021附錄A(資料性)對話系統(tǒng)智能等級評價項檢查清單及應(yīng)用示例表A.1 智能等級評價項檢查清單智能類型檢查項L1-L2-L3-L4-L5分級門限L1能識別特定領(lǐng)域用戶意圖能抽取關(guān)鍵詞或?qū)嶓wL2能支持單輪以上的對話能識別通用領(lǐng)域用戶意圖能支持話題動態(tài)切換的多輪對話支持自然應(yīng)答-L2-L3-L3-L3認(rèn)知

25、智能支持相關(guān)信息推薦-L3能聯(lián)系上下文理解-L4能支持語義消歧-L4能抽取復(fù)雜語義關(guān)系及提取隱含語義支持多模態(tài)融合-L4-L4能進(jìn)行知識推理計算-L4能自主學(xué)習(xí)并優(yōu)化-L5能識別1-3種用戶情感傾向(負(fù)面、中性、正面)并作出應(yīng)對能識別3種以上用戶情感,并能進(jìn)行作出應(yīng)對-L2L3能融合多模態(tài)(文本、語音、表情等),識別用戶情感并作出應(yīng)對的能力能結(jié)合上下文識別并應(yīng)對用戶情感能充分理解、記住、預(yù)測和響應(yīng)用戶情感,并具備利用當(dāng)前狀況和過去的經(jīng)驗常識進(jìn)行學(xué)習(xí)與優(yōu)化的能力。能使用給定的工具維護(hù)回復(fù)答案和話術(shù)情感智能-L4L4-L5L1L1能評價基本系統(tǒng)使用情況,包括用戶、流量、反饋等系統(tǒng)完備性能保持有限的

26、對話流程能評價理解能力-L2L2L2L2L3能評價系統(tǒng)穩(wěn)定性能與第三方系統(tǒng)集成能管理和調(diào)整理解模型8T/ZSA 15-2021表A.1 智能等級評價項檢查清(續(xù))智能類型檢查項L1-L2-L3-L4L5分級門限能評價對話流暢程度能根據(jù)需要擴(kuò)展方案能管理多個對話系統(tǒng)能使用算法模型評價端到端系統(tǒng)效率能按需保護(hù)信息L3L3L4L4L4-系統(tǒng)完備性端到端系統(tǒng)生命周期中的數(shù)據(jù)驅(qū)動管理-L5能根據(jù)系統(tǒng)評價提供對外部環(huán)境的見解-L5L5系統(tǒng)自我保護(hù)和自動擴(kuò)展注:表示“通過”,-表示“不通過”。表A.2 智能等級評價應(yīng)用示例系統(tǒng)實(shí)現(xiàn)情況(“-”為無,“”為實(shí)現(xiàn))智能類型分類門限L1檢查項評定等級能識別特定領(lǐng)域

27、用戶意圖-能抽取關(guān)鍵詞或?qū)嶓w能支持單輪以上的對話能識別通用領(lǐng)域用戶意圖能支持動態(tài)話題遷移的多輪對話支持自然應(yīng)答L2L3支持語義關(guān)系的提取支持相關(guān)信息推薦認(rèn)知智能L3能聯(lián)系上下文理解能支持語義消歧-L4能提取隱含或者復(fù)雜關(guān)系語義-支持多模態(tài)融合-能進(jìn)行知識推理計算能自主學(xué)習(xí)并優(yōu)化L5L2能識別1-3種用戶情感傾向(負(fù)面、中性、正面)并作出應(yīng)對情感智能L3L3能識別3種以上用戶情感并能作出應(yīng)對9T/ZSA 15-2021表A.2 智能等級評價應(yīng)用示例(續(xù))系統(tǒng)實(shí)現(xiàn)情況(“-”為無,“”為實(shí)現(xiàn))智能類型情感智能分類門限檢查項評定等級能融合多模態(tài)(文本、語音、表情等)識別用戶情感并作出應(yīng)對的能力L4L

28、5-能結(jié)合上下文識別并應(yīng)對用戶情感-能使用給定的工具維護(hù)回復(fù)內(nèi)容和腳本L1能評價基本系統(tǒng)使用情況,包括用戶、流量、反饋等能保持有限的對話流程能評價理解能力-L2能評價系統(tǒng)穩(wěn)定性能與第三方系統(tǒng)集成能管理和調(diào)整理解模型能評價對話流暢程度能根據(jù)需要擴(kuò)展方案能管理多個對話系統(tǒng)能使用算法模型評價端到端系統(tǒng)效率系統(tǒng)完備性L3L3L4L5-能按需保護(hù)信息-端到端系統(tǒng)生命周期中的數(shù)據(jù)驅(qū)動管理能根據(jù)系統(tǒng)評價提供對外部環(huán)境的見解系統(tǒng)自我保護(hù)和自動擴(kuò)展綜合評定整體智能等級綜合3級10T/ZSA 15-2021附錄B(資料性)評價用例類型及示例不同的智能類型,在評價時需要使用不同的測試用例/數(shù)據(jù)。數(shù)據(jù)集需提前準(zhǔn)備完成

29、(包括數(shù)據(jù)采集及加工等過程),并且根據(jù)實(shí)際被測樣品的差異性進(jìn)行適當(dāng)?shù)恼{(diào)整或擴(kuò)充。根據(jù)分級對照表條目,給出部分測試項如下,實(shí)際測試可包含但不限于如下分類,個別條目給出一些示例供參考。B.1 特定領(lǐng)域意圖識別以對話系統(tǒng)所支持的特定業(yè)務(wù)域為例,系統(tǒng)能將用戶輸入意圖對應(yīng)到預(yù)定義的一個或多個意圖上,返回所屬意圖類別。以手機(jī)客服對話系統(tǒng)為例:1) 首先從覆蓋面的角度出發(fā),常見問題大致可以分為售前咨詢、售后維修、使用方法、故障解決、配置參數(shù)查詢等領(lǐng)域。用例設(shè)計首先考慮需要各領(lǐng)域都被覆蓋到,表B.1給出了一個應(yīng)用示例。表B.1 特定領(lǐng)域意圖識別的應(yīng)用示例問題領(lǐng)域售前咨詢售后維修使用方法故障解決配置參數(shù)示例最近

30、有什么促銷活動?我想查一下當(dāng)前維修狀態(tài)。忘記密碼該怎么辦?我的手機(jī)開不了機(jī)。最新款的折疊屏手機(jī)有幾個攝像頭?2) 接著考慮代表性的角度,根據(jù)數(shù)據(jù)統(tǒng)計,用戶最常詢問的領(lǐng)域是故障解決類問題,比如開機(jī)、充電、自動重啟、相機(jī)等等問題,而實(shí)體類問題相對其他領(lǐng)域咨詢量更少。在設(shè)定測試用例分布比例時,需要考慮常用詢問領(lǐng)域里的常用詢問意圖是否已覆蓋到。3) 同時也需要考慮測試用例是否具有足夠的多樣性,包括句式長短,各種語氣等,如:開不了機(jī)怎么連 Wi-fi?我的手機(jī)支持雙卡雙待嗎?什么時候才能升級到 Android 10?請幫忙處理一下我的單子剛買沒幾天就壞了,這質(zhì)量是不是太差了?經(jīng)測試,對業(yè)務(wù)類輸入進(jìn)行意圖

31、分類,符合常識和功能白皮書要求,如覆蓋率、理解率大于80%, 則視為該項通過;否則,該項不通過。這個覆蓋率或理解率的百分比,80%,可由用戶根據(jù)實(shí)際情況調(diào)整。B.2 通用領(lǐng)域意圖識別通用領(lǐng)域意圖是指對不在特定業(yè)務(wù)域內(nèi)的用戶輸入,如對話過程中的寒暄式閑聊、反饋(對回復(fù)作出的表態(tài))等,系統(tǒng)可作出識別及回應(yīng)。測試用例可考慮覆蓋表B.2中示例的維度。11T/ZSA 15-2021表B.2 通用意圖識別的應(yīng)用示例維度示例開場問候、結(jié)語等:日常寒暄你好再見跟對話系統(tǒng)或聊天機(jī)器人相關(guān)的問題:你是真人還是機(jī)器人你叫什么名字你多大了系統(tǒng)周邊話題肯定、否定、感謝、抱歉等:好的,已解決不對不是那個意思已經(jīng)試過了,還

32、是不行稍等,再試一下謝謝用戶對上文表示反饋不好意思交互中等價于按鈕等形式的表述等:第一個對特定交互方式的指代這幾個都不是下一步經(jīng)測試,對非業(yè)務(wù)類輸入,系統(tǒng)返回與用戶輸入相關(guān)且有意義,或符合功能白皮書要求,則視為該項測試通過;否則,該項不通過。B.3 信息抽取對用戶意圖的關(guān)鍵信息進(jìn)行提取,包括但不限于以下內(nèi)容:實(shí)體及屬性:文本中具有特定意義的實(shí)體,如人名、地名、機(jī)構(gòu)名、專有名詞等。特征詞:實(shí)體之外,系統(tǒng)定義的其他關(guān)鍵詞。實(shí)體關(guān)系:詞語的邏輯關(guān)系,以及隱含的含義。例:用戶對產(chǎn)品型號的表述,如“我有只 MotoZ2Play,昨天把屏摔壞了”,其中“MotoZ2Play”的產(chǎn)品型號信息應(yīng)視為可被系統(tǒng)抽

33、取到的關(guān)鍵信息。測試時,數(shù)據(jù)庫或功能白皮書中規(guī)定需抽取的實(shí)體、關(guān)鍵詞、實(shí)體關(guān)系,均能正確提取,或滿足進(jìn)一步歸一化識別要求,則視為該項測試通過;否則,該項不通過。B.4 語義修正語義修正又可稱為語義消歧,是指待測系統(tǒng)被輸入測試文本數(shù)據(jù)后,具備將限定范圍錯誤文本(如語法錯誤文本、同音字錯誤文本等)的語義理解結(jié)果進(jìn)行自動校正的能力。經(jīng)測試,若待測系統(tǒng)可以對前一句文本語義進(jìn)行校正,針對由于文本錯誤導(dǎo)致的語義理解結(jié)果失準(zhǔn),可以校正正確,則視為該項測試通過;否則,該項不通過。B.5 多語言識別待測系統(tǒng)可識別多種語言,系統(tǒng)可以根據(jù)輸入語種進(jìn)行相應(yīng)回復(fù)。12T/ZSA 15-2021經(jīng)測試,若待測系統(tǒng)對不少于一種的目標(biāo)語種能有效識別并應(yīng)對,則視為該項測試通過;否則,該項不通過。B.6 多輪對話管理對于復(fù)雜的用戶需求,待測系統(tǒng)需要支持用戶通過多輪對話來達(dá)到最終的用戶目的,過程中待測系統(tǒng)需要對交互進(jìn)行管理,包含但不限于:對話狀態(tài)跟蹤,對話策略,歷史信息繼承等。例:用戶在上輪會話中所處的對話狀態(tài),系統(tǒng)應(yīng)能予以跟蹤,能結(jié)合上下文進(jìn)行應(yīng)對;用戶在上次會話中已提及的業(yè)務(wù)問題分類,產(chǎn)品型號等,后續(xù)用戶再進(jìn)入時相應(yīng)信息可被系統(tǒng)繼承。經(jīng)測試和人工判斷,若待測系統(tǒng)具備多輪對話管理的能力,則視為該項測試通過;否則,該項不通過。B.7 自然應(yīng)答基于自然語言理解的語義結(jié)果,實(shí)現(xiàn)交互響應(yīng)的自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論