版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1T/SAITAXXXX—XXXX自然語言處理系統(tǒng)測評規(guī)范本文件規(guī)定了自然語言處理系統(tǒng)的基本框架、測評指標體系、測評流程、測試方法,提供了自然語言處理系統(tǒng)的評價規(guī)范。本文件適用于自然語言處理系統(tǒng)的設計、研發(fā)、測試、應用與維護。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T25000.10-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)第10部分:系統(tǒng)與軟件質(zhì)量模型GB/T41867-2022信息技術人工智能術語ISO22300:2021安全與恢復力術語(Securityandresilience–Vocabulary)T/CESA1026-2018人工智能深度學習算法評估規(guī)范3術語和定義GB/T41867、ISO17100、ISO22300界定的以及下列術語和定義適用于本文件。3.1自然語言處理系統(tǒng)Naturallanguageprocessingsystem基于自然語言理解和自然語言生成的信息處理系統(tǒng)。3.2自然語言理解Naturallanguageunderstanding從已傳入其中的自然語言文本中提取信息,并輸出對[來源:GB/T41867-2022,3.3.15,有修改]3.3自然語言生成Naturallanguagegeneration輸出端為自然語言的任務。[來源:GB/T41867-2022,3.3.17,有修改]3.4人工智能計算基礎設施Artificialintelligenceportfolio一種組成人工智能應用解決方案,幫助用戶實現(xiàn)不同規(guī)模的業(yè)務邏輯的軟硬件包。[來源:GB/T41867-2022,3.1.7,有修改]3.5機器翻譯Machinetranslation使用計算機系統(tǒng)將文本從一種自然語言自動翻譯為另一種自然語言。[來源:ISO17100:2015,2.2.2,有修改]2T/SAITAXXXX—XXXX3.6錯誤接受率Falseacceptancerate接受不該接受的樣本的比率。[來源:ISO22300:2021,3.91]3.7錯誤拒絕率Falserejectionrate拒絕不該拒絕的樣本的比率。[來源:ISO22300:2021,3.92]3.8不變性測試Invariancetest對原始輸入文本數(shù)據(jù)作不改變原意的擾動,觀察系統(tǒng)在擾動前后的輸出改變是否在可接受范圍內(nèi)。3.9方向期望測試Directionalexpectationtest對原始輸入文本數(shù)據(jù)作向指定方向變化的擾動,觀察系統(tǒng)輸出是否按期望的方向變化。3.10可解釋性Explainability系統(tǒng)以人能理解的方式,表達影響其(執(zhí)行)結(jié)果的重要因素的能力。[來源:GB/T41867-2022,3.4.3]3.11自解釋Self-explaining系統(tǒng)同時輸出決策與對該決策的解釋。4符號和縮略語下列縮略語適用于本文件。ARM:高級精簡指令集機器(AdvancedRISCMachine)ASIC:專用集成電路(ApplicationSpecificIntegratedCircuit)AUC:曲線下面積(AreaUnderCurve)BLEU:雙語評估(BiLingualEvaluationUnderstudy)CPU:中央處理器(CentralProcessingUnit)EM:精確匹配度(ExactMatch)FN:假陰(FalseNegative)FP:假陽(FalsePositive)GPU:圖形處理器(GraphicProcessingUnit)JSA:聯(lián)合狀態(tài)準確率(JointStateAccuracy)LCS:最長公共子序列(LongestCommonSubsequence)MAP:平均準確率(MeanAveragePrecision)MIPS:無內(nèi)部互鎖流水級的微處理器(MicroprocessorwithoutInterlockedPipedStagesarchitecture)MRR:平均倒數(shù)排名(MeanReciprocalRank)n-gram:N元語法(特殊情況:N為1、2、3時,分別為unigram、bigram、trigram)ROC:受試者操作特性曲線(ReceiverOperatingCharacteristic)ROUGE:基于召回率的摘要評估(Recall-OrientedUnderstudyforGistingEvaluation)TFR:任務完成率(Taskfinishrate)TP:真陽(TruePositive)TN:真陰(TrueNegative)WER:詞錯率(WordErrorRate)3T/SAITAXXXX—XXXX5自然語言處理系統(tǒng)的基本框架本文件所述的自然語言處理系統(tǒng),包括人工智能計算基礎設施、預處理模塊、算法模型及輸入與輸出。自然語言處理系統(tǒng)的基本框架如圖1所示,其中輸入包括文本輸入,預處理模塊將文本轉(zhuǎn)換為模型可接受的形式,算法模型由訓練數(shù)據(jù)訓練后所得,算法模型加載在人工智能計算基礎設施上進行推理和輸出,輸出包括判別輸出或生成輸出。圖1自然語言處理系統(tǒng)基本框架6自然語言處理系統(tǒng)測評指標6.1概述本文件給出了一套自然語言處理系統(tǒng)的測評指標體系,如表1所示,包含10個一級指標和34個二級指標。在實施測評過程中,應根據(jù)系統(tǒng)的質(zhì)量目標選取相應指標。表1自然語言處理系統(tǒng)測試指標體系4T/SAITAXXXX—XXXX表1自然語言處理系統(tǒng)測試指標體系(續(xù))6.2功能有效性6.2.1概述用戶可以根據(jù)實際的應用場景選擇相關的基本指標,用于評估自然語言處理系統(tǒng)實現(xiàn)的功能是否滿足要求。根據(jù)自然語言處理系統(tǒng)的任務不同,可以分為自然語言理解與自然語言生成,自然語言理解是對輸入的文本進行分類與判斷,包括話題分類、情感分析、關系抽取等,自然語言生成是讓機器生成文本,本標準評測的自然語言生成任務包括機器翻譯、自動摘要、機器問答等文本到文本的任務,不包括文本到圖像、圖像到文本等跨模態(tài)生成任務。表2自然語言處理系統(tǒng)測試參照表123Chinese-Literature-NER-RE-4565T/SAITAXXXX—XXXX表2自然語言處理系統(tǒng)測試參照表(續(xù))1TheMultitargetTEDTalks236.2.2自然語言理解任務話題分類話題分類是對于給定的文本,依據(jù)預先設定的分類體系檢測出文本所屬類別。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.1。情感分析情感分析旨在分析出文本整體的情感傾向或文本中不同個體的情感傾向。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.1。關系抽取關系抽取是為了識別出文本實體中的目標關系,是構(gòu)建知識圖譜的重要技術環(huán)節(jié)。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.1。事件抽取事件抽取是為了識別文本中的事件及相關的論元。事件一般由觸發(fā)詞觸發(fā),由若干論元描述該事件。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.1。命名實體識別命名實體識別是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等,以及時間、數(shù)量、貨幣、比例數(shù)值等文字。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.1。閱讀理解閱讀理解是指讓計算機自動理解和回答關于文本的問題,回答一般是標出給定文本指定位置的詞作為答案或是從若干選項中選則正確答案。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.2。6.2.3自然語言生成任務機器翻譯機器翻譯是利用計算機將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標語言)的過程。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.2。6T/SAITAXXXX—XXXX自動摘要自動摘要是指給出一段文本,從中提取出要點,然后再形成一段概括性的文本。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.2。機器問答問答型對話需要準確地回答用戶的問題,滿足用戶需求。主要為一問一答的形式,機器人對用戶提出的問題進行解析,在知識庫已有的內(nèi)容或用戶給出的信息中查找并返回正確答案。使用的測試數(shù)據(jù)集及測評指標見表2,相關功能有效性評估指標計算方法見附錄A.2。6.3性能用戶可以根據(jù)實際的應用場景選擇相關的基本指標,用于評估自然語言處理系統(tǒng)的性能是否滿足要求,應包括但不限于下列內(nèi)容:a)推理效率:1)對于本地計算環(huán)境下,對于給定的數(shù)據(jù)集,自然語言處理系統(tǒng)對給定的n個數(shù)據(jù)樣本進行推斷并獲得結(jié)果的時間開銷等指標;2)對于云計算環(huán)境下,應記錄包括自然語言處理系統(tǒng)本身的推斷時間以及執(zhí)行推理所消耗的資源調(diào)度、網(wǎng)絡延遲等額外時間開銷、P95、P99、P100(n個請求響應時間按從小到大排序,第95百分位、第99百分位或最長的響應時間)等指標;b)模型運行占用的人工智能計算基礎設施系統(tǒng)資源:包括模型運行時占用的系統(tǒng)CPU、GPU、內(nèi)存、顯存;c)模型壓縮性能:針對不同的壓縮比例(如90%,80%,70%,60%),比較模型在不同壓縮比條件下與壓縮前的預測性能差;d)業(yè)務吞吐量:單位時間內(nèi)系統(tǒng)處理的文本數(shù)據(jù)量;e)詞匯表大小:自然語言處理系統(tǒng)詞匯表中不同語種的詞匯、字符的數(shù)量和占比;f)語義表達能力:自然語言處理系統(tǒng)的輸出形式、基于字/詞的完整性、多語言支持程度。6.4兼容性用于評估自然語言處理系統(tǒng)對不同文本格式的兼容性,應包括下列內(nèi)容:a)模型對不同結(jié)構(gòu)化程度文本的兼容性:評估自然語言處理系統(tǒng)能否根據(jù)用戶需求處理不同格式的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化自然語言文本;b)自然語言處理系統(tǒng)對操作系統(tǒng)的兼容性:評估自然語言處理系統(tǒng)能否根據(jù)用戶需求兼容不同的操作系統(tǒng),或兼容同一類型操作系統(tǒng)的不同版本;c)自然語言處理系統(tǒng)對其他軟件的兼容性:評估自然語言處理系統(tǒng)能夠根據(jù)客戶需求兼容同一計算機系統(tǒng)下其他軟件;d)自然語言處理系統(tǒng)對不同字符編碼的兼容性:評估自然語言處理系統(tǒng)能否處理不同字符編碼的輸入。6.5可維護性用于評估自然語言處理系統(tǒng)能夠被運維人員修改的有效性和效率以及自身的可恢復性,應包括下列a)模型的迭代更新頻率:評估模型迭代更新的時間周期及模型訓練時間;b)模型迭代的質(zhì)量變化:評估模型迭代后其功能有效性、性能、魯棒性等的變化趨勢;c)模型的可恢復性:評估模型在自然語言處理系統(tǒng)發(fā)生故障時,恢復功能所需要的時間;d)自然語言處理系統(tǒng)宜支持系統(tǒng)配置、監(jiān)控告警、日志等基本維護功能。7T/SAITAXXXX—XXXX6.6可遷移性用于評估自然語言處理系統(tǒng)能夠從一種運行環(huán)境遷移到另一種運行環(huán)境的有效性和效率,應包括下列內(nèi)容:a)系統(tǒng)對人工智能計算基礎設施硬件設備的可遷移性:評估自然語言處理系統(tǒng)是否擁有跨硬件架構(gòu)的遷移能力,包括以下內(nèi)容:1)模型是否支持在基于至少2種或多種架構(gòu)處理器的設備上運行,且運行效果保持一致,如X86、X86-64、ARM、MIPS等;2)模型是否支持在設備上進行在線或離線方式進行移植;b)系統(tǒng)中模型、算法對人工智能框架的可遷移性:評估自然語言處理系統(tǒng)是否擁有跨人工智能框架之間的遷移能力,即是否支持在至少2種或多種人工智能框架之間相互轉(zhuǎn)換,且運行效果保持一致,如Tensorflow,PyTorch,PaddlePaddle等。6.7數(shù)據(jù)集的質(zhì)量評估訓練數(shù)據(jù)集、驗證數(shù)據(jù)集的質(zhì)量,應包括下列內(nèi)容:a)數(shù)據(jù)集規(guī)模:通常用樣本數(shù)量來衡量;b)數(shù)據(jù)集語言完整性:數(shù)據(jù)集應不包含拼寫錯誤、亂碼,語句應通順;c)數(shù)據(jù)集標注質(zhì)量:指數(shù)據(jù)集標注信息是否準確、完備并符合要求;d)數(shù)據(jù)集均衡性:指數(shù)據(jù)集包含的各種類別的樣本數(shù)量分布的偏差程度;e)數(shù)據(jù)集多樣性:指數(shù)據(jù)集包括不同句子長短、時態(tài)表示、主謂關系等情形的多樣性。6.8對抗性樣本的影響評估對抗性樣本對自然語言處理系統(tǒng)的影響,應包括下列內(nèi)容:a)對抗性樣本生成測試:用不同尺度生成對抗樣本,評估系統(tǒng)的脆弱性。生成方法包括:1)句子尺度方式生成的樣本:利用對句子進行修改的方式生成對抗性樣本;2)詞語尺度生成的樣本:利用對詞語進行修改的方式生成對抗性樣本;3)字符尺度生成的樣本:利用對字符進行修改的方式生成對抗性樣本;4)不同尺度生成的對抗性樣本:利用以上多種尺度結(jié)合的方式生成對抗性樣本;b)對抗性樣本的物理可行性:評估生成的對抗性樣本在現(xiàn)實中的可實現(xiàn)性,能否通過相關算法生成對人類來說語句通順、難以辨別的對抗性樣本;c)系統(tǒng)對對抗性樣本的防御性,包括:1)評估系統(tǒng)是否進行過對抗訓練;2)系統(tǒng)防御對抗性樣本的成功率:統(tǒng)計一定數(shù)量對抗性樣本對系統(tǒng)攻擊的失敗率。6.9魯棒性評估實際運行數(shù)據(jù)對系統(tǒng)的影響,應包括下列內(nèi)容:a)干擾數(shù)據(jù)對系統(tǒng)的影響:評估異常的輸入數(shù)據(jù)對系統(tǒng)準確率的影響,應包括但不限于:不流暢的文字或語句、有間斷的文字或語句、含義正確但表達方式不常見的文字或語句、標點符號不符合規(guī)范的文字或語句。評估異常輸入數(shù)據(jù)集的預測準確率、精確率、召回率、真負率、F1測度等指標;b)數(shù)據(jù)集分布對系統(tǒng)的影響:統(tǒng)計真實環(huán)境下輸入數(shù)據(jù)集的正負例分布或各類別樣本分布,評估不同數(shù)據(jù)集分布情況下系統(tǒng)預測的準確率、精確率、召回率、真負率、F1測度等指標;c)業(yè)務不相關數(shù)據(jù)對系統(tǒng)的影響:當輸入數(shù)據(jù)并非系統(tǒng)業(yè)務相關數(shù)據(jù)(比如當前系統(tǒng)處理語言以外的其他語種評估系統(tǒng)能否對其作合適的處理(比如返回無法翻譯或語種異常的提示d)語言理解能力:對原始輸入數(shù)據(jù)作一定程度的擾動,擾動后仍為流暢且語義明確的自然語言,評估系統(tǒng)能否識別出擾動前后的數(shù)據(jù)中的語義差別。8T/SAITAXXXX—XXXX6.10可解釋性評估人類能夠理解自然語言處理系統(tǒng)的輸出決策原因的程度。根據(jù)人類能夠理解系統(tǒng)決策原因的程度,將自然語言處理系統(tǒng)的可解釋性分為強、中、弱三個級別:a)可解釋性(強):可通過數(shù)學證明來充分說明模型做出決策的原因,并給出推理和決策的路徑;b)可解釋性(中):可在模型中融入知識,利用結(jié)構(gòu)信息、描述文本、自解釋等方法輔助推理并給出過程;c)可解釋性(弱):采用可解釋技術,可通過自然語言處理系統(tǒng)的輸入輸出、系統(tǒng)中的部分參數(shù)值(如自注意力參數(shù))、提取的特征值或這些數(shù)值的可視化來說明系統(tǒng)做出決策的原因。6.11安全性自然語言處理系統(tǒng)的安全性應符合以下要求:a)GB/T25000.10-2016中規(guī)定的軟件系統(tǒng)的信息安全性要求;b)機密性:1)模型機密性:通過對被測系統(tǒng)的持續(xù)訪問推測出自然語言處理模型的參數(shù),與原模型的相似度;2)數(shù)據(jù)機密性:能否通過成員推理等方式,獲取訓練數(shù)據(jù)中包含的敏感信息;1)訓練數(shù)據(jù)中脫敏數(shù)據(jù)占比;2)系統(tǒng)預測結(jié)果中含個人信息數(shù)量和種類;3)系統(tǒng)的單位時間最大查詢次數(shù)上限;4)系統(tǒng)模型訓練時有無應用隱私技術,如差分隱私等。d)輸入防御:系統(tǒng)具備對惡意輸入樣本的檢測機制和防御性預處理;e)倫理符合性:1)系統(tǒng)對輸入中包含的不同國家、地區(qū)、性別、種族是否公平對待;2)系統(tǒng)是否會在沒有誘導的情況下主動輸出可能違反法律法規(guī)的內(nèi)容;3)系統(tǒng)是否會產(chǎn)生幻覺輸出,即誤導性的事實描述內(nèi)容。7自然語言處理系統(tǒng)測評流程自然語言處理系統(tǒng)的測評流程如圖2所示。9T/SAITAXXXX—XXXX圖2自然語言處理系統(tǒng)測評流程7.1確定系統(tǒng)質(zhì)量目標應運用以下步驟確定自然語言處理系統(tǒng)的質(zhì)量目標:7.1.1場景分析應分析自然語言處理系統(tǒng)的應用場景、任務目標、運行環(huán)境與運行模式,既要考慮軟件系統(tǒng)正確使用的情況,也要考慮可預見的不正確使用的情況。新增任務目標用戶需求(業(yè)務需求)及其對應的數(shù)據(jù)來源。7.1.2風險分析與評估應根據(jù)自然語言處理系統(tǒng)的不同應用場景,開展有關自然語言處理系統(tǒng)失效的風險識別。識別風險的后果,如對環(huán)境或人員是否有傷害、需要完成的任務是否有影響等。針對每一個風險,應基于損害的嚴重程度來預估風險的嚴重性等級。風險嚴重性等級的評估可以基于對多個場景的綜合性考慮,同時風險嚴重性等級的確定應基于場景中有代表性的個體樣本。7.1.3確定各指標要求根據(jù)風險嚴重性等級和系統(tǒng)的應用場景,以任務目標導向確定自然語言處理系統(tǒng)的質(zhì)量目標,包括系統(tǒng)功能、性能、兼容性、可維護性、可遷移性、可解釋性等的要求。7.2構(gòu)建測試數(shù)據(jù)集按照實際業(yè)務的情況,參考表2列出所需測評系統(tǒng)運行的典型場景與常用數(shù)據(jù)集,以此為基礎,收集代表實際業(yè)務應用場景的數(shù)據(jù),設定樣本類型與級別,構(gòu)建覆蓋多種自然語言文本的測試數(shù)據(jù)集用以開展測試。7.3構(gòu)建測試環(huán)境根據(jù)自然語言處理系統(tǒng)測評運行的實際場景和需要的人工智能計算基礎設施,構(gòu)建出軟硬件環(huán)境用于測試。如無法構(gòu)建出相同的測試環(huán)境,需要進一步分析由于測試環(huán)境與使用環(huán)境不一致所帶來對測試結(jié)果的影響。7.4選擇測試指標根據(jù)制定的系統(tǒng)質(zhì)量目標,從表2中選擇相關測評指標,記錄被測系統(tǒng)對所選數(shù)據(jù)集和所選指標的計算結(jié)果,根據(jù)所選任務難度或參考相關基準制定通過準則,測試結(jié)果用于對系統(tǒng)的評價提供依據(jù)。7.5開展測試活動在構(gòu)建的測試環(huán)境下,利用已經(jīng)構(gòu)建的測試數(shù)據(jù)集進行測試。即將測試數(shù)據(jù)集依次輸入被測系統(tǒng),并按照被測系統(tǒng)的正確方法使用數(shù)據(jù)。7.6統(tǒng)計、匯總并分析測試結(jié)果根據(jù)選擇的測試指標,收集相應的測試結(jié)果數(shù)據(jù),對于需要計算的指標根據(jù)公式計算。根據(jù)制定的系統(tǒng)質(zhì)量目標,參考第8章評價指南,對測試結(jié)果進行匯總、分析,綜合評估系統(tǒng)是否符合質(zhì)量目標。8自然語言處理系統(tǒng)測試方法8.1準備測試數(shù)據(jù)集在對測評指標開展測試活動之前,需要先獲取測試數(shù)據(jù)集,對測試數(shù)據(jù)集的要求包括但不限于:a)數(shù)據(jù)集中包含經(jīng)過處理的從互聯(lián)網(wǎng)爬取或是人工構(gòu)建的自然語言文本;b)數(shù)據(jù)集中包含所需格式的自然語言文本;T/SAITAXXXX—XXXXc)數(shù)據(jù)集中包含指定類別的樣本,且標注正確;d)對數(shù)據(jù)集中樣本作一定擾動,以提升測試數(shù)據(jù)集質(zhì)量;e)數(shù)據(jù)集中樣本分布均衡,且與真實業(yè)務場景下的數(shù)據(jù)分布一致;f)數(shù)據(jù)集中包含已知干擾樣本、對抗性樣本或業(yè)務不相關樣本等異常樣本。部分公開數(shù)據(jù)集見附錄B,若采用自建或其它測試數(shù)據(jù)集,則需將公開數(shù)據(jù)集上主流的基準模型在測試數(shù)據(jù)集上進行測試,以供對比。8.2功能有效性8.2.1自然語言理解任務自然語言理解任務測試方法如下:a)根據(jù)第7章及表2確定自然語言理解應用場景及對應的測評數(shù)據(jù)集、測評指標;b)將測評數(shù)據(jù)集輸入被測系統(tǒng);c)記錄系統(tǒng)輸出及計算測評指標所需要的各項中間指標;d)計算并得到最終測評指標,檢查指標值是否符合要求。8.2.2自然語言生成任務若可根據(jù)第7章及表2確定可計算的自然語言生成任務測評指標,則按照以下方法測評:a)根據(jù)第7章及表2的流程確定自然語言生成應用場景及對應的測評數(shù)據(jù)集、測評指標;b)將測評數(shù)據(jù)集輸入被測系統(tǒng);c)記錄系統(tǒng)輸出及計算測評指標所需要的各項中間指標;d)計算并得到最終測評指標,檢查指標值是否符合要求;若無法根據(jù)第7章及表2確定可計算的自然語言生成任務測評指標,則按照以下方法測評:e)根據(jù)第7章及表2的流程確定自然語言生成應用場景及對應的測評數(shù)據(jù)集;f)將測評數(shù)據(jù)集輸入被測系統(tǒng);g)記錄系統(tǒng)輸出;h)由人類專家評估系統(tǒng)輸出是否通過測試,并統(tǒng)計測評數(shù)據(jù)集的通過率是否滿足要求。8.3性能自然語言處理系統(tǒng)的性能測試方法見表3。表3自然語言處理系統(tǒng)性能測試方法指標測試方法推理效率a)收集n條(n≥1000)自然語言處理系統(tǒng)能夠處理的數(shù)據(jù)或直接采用功能有效性測試數(shù)據(jù);b)將數(shù)據(jù)輸入被測系統(tǒng),記錄系統(tǒng)對每一條數(shù)據(jù)進行推理所需的時間;c)計算系統(tǒng)處理全部數(shù)據(jù)消耗時間T、業(yè)務吞吐量n/T,檢查是否符合測試要求;d)若在云計算環(huán)境下,記錄執(zhí)行推理所需的資源調(diào)度、網(wǎng)絡延遲等額外時間開銷tc,檢查是否符合測試要求;e)將云計算環(huán)境下全部推理時間從小到大排列,檢查第95百分位的推理時間P95、第99百分位的推理時間P99、耗時最長的推理時間P100是否符合測試要求。資源占用記錄系統(tǒng)推理過程中的CPU、GPU使用狀況,內(nèi)存、顯存占用率,檢查是否符合測試要求。模型壓縮性能a)收集n條(n≥1000)自然語言處理系統(tǒng)能夠處理的數(shù)據(jù)或直接采用功能有效性測試數(shù)據(jù);b)為系統(tǒng)配置不同壓縮比例的m個模型;c)將數(shù)據(jù)輸入被測系統(tǒng),記錄系統(tǒng)的預測功能有效性指標;d)對比系統(tǒng)中模型在不同壓縮比例下的性能損失情況,檢查是否符合測試要求。T/SAITAXXXX—XXXX表3自然語言處理系統(tǒng)性能測試方法(續(xù))詞匯表大小查看模型詞匯表,統(tǒng)計其中不同語種的詞匯、字符的數(shù)量和占比,檢查是否符合測試要求。語義表達能力a)查看自然語言處理系統(tǒng)輸出形式(判別式或生成式);b)查看自然語言處理系統(tǒng)的詞匯表,檢查其中字、詞的數(shù)量和占比,檢查其支持多少種語言。8.4兼容性自然語言處理系統(tǒng)的兼容性測試方法見表4,評價規(guī)范見附錄C。表4自然語言處理系統(tǒng)兼容性測試方法指標測試方法不同結(jié)構(gòu)化程度文本兼容性a)準備結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化自然語言數(shù)據(jù);b)將數(shù)據(jù)輸入自然語言處理系統(tǒng)中,檢查系統(tǒng)是否能正確處理數(shù)據(jù)。操作系統(tǒng)兼容性a)準備包含不同操作系統(tǒng)或同類操作系統(tǒng)不同版本的人工智能計算基礎設施;b)在不同人工智能計算基礎設施上運行自然語言處理系統(tǒng),檢查是否均能正確運軟件兼容性在系統(tǒng)中安裝若干其他常用軟件,與自然語言處理系統(tǒng)共同運行,檢查哪些軟件運行時會出現(xiàn)運行異常的情況;字符編碼兼容性a)準備n種不同字符編碼的數(shù)據(jù)(n≥2);b)將數(shù)據(jù)輸入自然語言處理系統(tǒng)中,檢查系統(tǒng)能是否能正確處理。8.5可維護性自然語言處理系統(tǒng)的可維護性測試方法見表5。表5自然語言處理系統(tǒng)可維護性測試方法指標測試方法模型的迭代更新頻率查看自然語言處理系統(tǒng)日志,檢查并記錄相關指標項。模型迭代的質(zhì)量變化模型故障后平均恢復時間基本維護功能運行系統(tǒng),檢查系統(tǒng)是否支持系統(tǒng)配置、監(jiān)控告警、日志等基本維護功能。8.6可遷移性自然語言處理系統(tǒng)的可遷移性測試方法見表6。表6自然語言處理系統(tǒng)可遷移性測試方法指標測試方法硬件可遷移性在X86、X86-64、ARM、MIPS等不同架構(gòu)處理器的設備上部署自然語言處理系統(tǒng),驗證功能有效性,檢查是否能正常運行且效果一致??蚣芸蛇w移性檢查系統(tǒng)模型是否支持在Tensorflow、PyTorch、PaddlePaddle等不同人工智能框架之間轉(zhuǎn)換或支持轉(zhuǎn)換成ONNX格式,驗證功能有效性,檢查效果是否保持一致。T/SAITAXXXX—XXXX8.7數(shù)據(jù)集的質(zhì)量自然語言處理系統(tǒng)的數(shù)據(jù)集質(zhì)量測試方法見表7。表7自然語言處理系統(tǒng)數(shù)據(jù)集質(zhì)量測試方法指標測試方法數(shù)據(jù)集規(guī)模檢查訓練數(shù)據(jù)集、驗證數(shù)據(jù)集中數(shù)據(jù)條數(shù)(nd)、字符數(shù)(nt)等基本信息是否符合測試要求。語言完整性檢查訓練數(shù)據(jù)集、驗證數(shù)據(jù)集中包含拼寫錯誤、亂碼、不通順語句的數(shù)據(jù)條數(shù)(nfd),計算其占比: 并檢查占比是否符合測試要求。標注質(zhì)量檢查訓練數(shù)據(jù)集、驗證數(shù)據(jù)集各類別標注情況,檢查標注錯誤的數(shù)據(jù)數(shù)量是否符合測試要求。均衡性檢查訓練數(shù)據(jù)集、驗證數(shù)據(jù)集各類別樣本數(shù)量分布是否均衡,如有偏差,是否符合實際應用的情況,或偏差是否在可接受范圍內(nèi)。多樣性檢查訓練數(shù)據(jù)集、驗證數(shù)據(jù)集是否包含不同句子長短、時態(tài)表示、主謂關系等多樣化語言表述的語句。8.8對抗性樣本的影響自然語言處理系統(tǒng)的對抗性樣本影響測試方法見表8。表8自然語言處理系統(tǒng)對抗性樣本影響測試方法指標測試方法對抗性樣本生成測試從句子、詞語、字符、混合尺度生成n條對抗性樣本(n≥100)。對抗性樣本的物理可行性評估生成的對抗樣本中能被人類辨別的數(shù)量比例是否符合測試要求。系統(tǒng)對對抗性樣本的防御性a)查看日志,評估自然語言處理系統(tǒng)是否進行過對抗訓練;b)將生成的對抗性樣本輸入系統(tǒng)中,統(tǒng)計系統(tǒng)正確處理對抗性樣本的數(shù)量c并計算系統(tǒng)防御對抗性樣本的成功率:c)檢查防御成功率是否符合測試要求。8.9魯棒性自然語言處理系統(tǒng)的魯棒性測試方法見表9。表9自然語言處理系統(tǒng)魯棒性測試方法指標測試方法干擾數(shù)據(jù)對系統(tǒng)的影響a)根據(jù)應用場景模擬日常使用情況,生成n條干擾數(shù)據(jù)(n≥100);b)將干擾數(shù)據(jù)輸入自然語言處理系統(tǒng)中,統(tǒng)計系統(tǒng)輸出結(jié)果,檢查系統(tǒng)對干擾數(shù)據(jù)的功能有效性指標是否符合測試要求。數(shù)據(jù)集分布對系統(tǒng)的影響a)統(tǒng)計真實應用場景下自然語言處理系統(tǒng)輸入的數(shù)據(jù)分布,收集或建立不同分布情況的數(shù)據(jù)集;b)將各數(shù)據(jù)集輸入自然語言處理系統(tǒng),統(tǒng)計系統(tǒng)對不同分布數(shù)據(jù)集的功能有效性變化情況。T/SAITAXXXX—XXXX表9自然語言處理系統(tǒng)魯棒性測試方法(續(xù))業(yè)務不相關數(shù)據(jù)對系統(tǒng)的影響a)收集或生成n條系統(tǒng)不支持的語言數(shù)據(jù)、系統(tǒng)業(yè)務不相關的數(shù)據(jù)(n≥100);b)將數(shù)據(jù)輸入自然語言處理系統(tǒng),檢查系統(tǒng)正確處理不相關數(shù)據(jù)的比例是否符合測試要求。語言理解能力a)對原始輸入數(shù)據(jù)t1進行一定程度的擾動,生成擾動數(shù)據(jù)t2,從步驟b至步驟k中選擇若干項以考察系統(tǒng)的語言理解能力,也可結(jié)合t1與t2進行步驟l、m;b)詞法:能夠理解對進行正確推斷有幫助的關鍵詞的含義,例如情感分析測試集中表達正面或負面情感的詞;c)分類:能夠理解同義詞、反義詞,能夠區(qū)分不同詞匯的屬性、類別;d)命名實體:替換語料中的人名或地名不影響系統(tǒng)原本的輸出;e)時態(tài):能夠理解事件發(fā)生的順序與重要性,即在大部分任務中當前發(fā)生的事件比過去的事件更重要;f)否定:能夠理解否定、雙重否定或其他更復雜形式的否定;g)指代消歧:能夠理解語料中的代詞所指代的對象;h)句法:理解語料中的各個成分與謂詞的關系;i)邏輯性:能夠理解語言的傳遞性或?qū)ΨQ性;j)拼寫:能夠理解詞匯的拼寫,在輸入個別錯別字或是不影響原意的拼寫錯誤的情況下能夠正確理解語義;k)詞義消歧:能夠根據(jù)上下文確定歧義對象具體語義的過程;l)若生成的t2與t1相比未改變原意,則可進行不變性測試,即測試模型對t2與t1的輸出是否保持不變,或在規(guī)定的閾值內(nèi)變化;m)若生成的t2與t1相比改變原意,則可進行方向期望測試,即測試模型對t2的輸出與對t1的輸出相比是否朝規(guī)定方向變化,且變化幅度超過規(guī)定閾值;n)統(tǒng)計以上測試任務能夠正確處理數(shù)據(jù)的比例是否符合測試要求。8.10可解釋性查看系統(tǒng)的開發(fā)日志、操作手冊或模型結(jié)構(gòu),根據(jù)其采用的可解釋技術與6.10節(jié)的描述來確定系統(tǒng)可解釋性等級。8.11安全性除GB/T25000.10-2016中規(guī)定的軟件系統(tǒng)的信息安全性要求外,自然語言處理系統(tǒng)還應按照表10的方法測試。表10自然語言處理系統(tǒng)安全性測試方法指標測試方法機密性a)查看是否可通過系統(tǒng)提供的操作界面或API直接獲取或推測模型參數(shù);b)若可推測模型參數(shù),查看推測結(jié)果與原模型的相似程度,檢查相似程度是否低于測試要求。隱私性a)檢查訓練數(shù)據(jù)中包含敏感數(shù)據(jù)的占比是否低于測試要求b)通過設計特定的輸入,使自然語言處理系統(tǒng)輸出個人信息等隱私數(shù)據(jù),如果能夠輸出,檢查其包含的隱私數(shù)據(jù)數(shù)量和種類的比例是否符合測試要求;c)查看系統(tǒng)操作手冊或其他文檔說明,檢查系統(tǒng)的單位時間最大查詢次數(shù)是否和文檔說明一致;d)查看系統(tǒng)開發(fā)日志或其他文檔說明,檢查系統(tǒng)訓練時是否應用隱私保護技術。T/SAITAXXXX—XXXX表10自然語言處理系統(tǒng)安全性測試方法(續(xù))輸入防御a)查看系統(tǒng)文檔說明或操作界面,檢查系統(tǒng)是否具備對惡意輸入樣本的檢測機制,包括檢測輸入樣本和正常數(shù)據(jù)間的差異、輸入樣本的分布特征、輸入樣本的歷史等。b)查看系統(tǒng)文檔說明或操作界面,檢查系統(tǒng)是否具備對惡意輸入樣本的防御性預處理,包括對輸入樣本進行結(jié)構(gòu)轉(zhuǎn)化、加噪、去噪等。倫理符合性a)從CivilComments或其他數(shù)據(jù)集中收集毒性數(shù)據(jù)(即包含威脅、侮辱、歧視等不健康信息的數(shù)據(jù)),測試系統(tǒng)對毒性測試數(shù)據(jù)集的識別比例是否符合要求;b)從相關數(shù)據(jù)集中收集或自建包含不同國家、地區(qū)、性別、種族的偏見測試數(shù)據(jù)集,將數(shù)據(jù)集輸入系統(tǒng)中,測試系統(tǒng)是否公平對待,如果出現(xiàn)偏見或歧視,其占比是否低于測試要求;c)檢查功能有效性測試或其他測試中,系統(tǒng)是否會主動輸出可能違反法律法規(guī)的d)檢查系統(tǒng)是否會輸出誤導性的錯誤事實,檢查其誤導性輸出的占比是否低于測試要求。T/SAITAXXXX—XXXX(規(guī)范性)自然語言處理系統(tǒng)功能有效性評估指標計算方法A.1自然語言理解功能有效性評估指標計算方法自然語言理解功能有效性的評估應包括但不限于下列內(nèi)容:1)混淆矩陣:在二分類任務中,混淆矩陣是通過樣本的采集和模型分類器的輸出結(jié)果形成的2×2的矩陣,其中,左上角為真陽樣本數(shù)(真實值為真,模型預測值為真,TP),左下角為假陽樣本數(shù)(真實值為假,模型預測值為真,F(xiàn)P,統(tǒng)計學上的第二類錯誤),右上角為假陰樣本數(shù)(真實值為真,模型預測值為假,F(xiàn)N,統(tǒng)計學上的第一類錯誤右下角為真陰樣本數(shù)(真實值為假,模型預測值為假,TN如表A.1。表A.1二分類混淆矩陣在多分類任務中,混淆矩陣的每一列代表了預測類別,每一列的總數(shù)表示預測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的數(shù)目。第i行第j列的數(shù)值表示第i類數(shù)據(jù)被預測為第j類的數(shù)目。2)準確率:對于給定的數(shù)據(jù)集,正確分類的樣本數(shù)占全部樣本數(shù)的比率。3)精確率:對于給定的數(shù)據(jù)集,被預測為正樣本的集合中正樣本的比率。4)召回率:對于給定的數(shù)據(jù)集,被正確預測的正樣本占全部正樣本的比率5)真陰率:對于給定的數(shù)據(jù)集,預測正確的負例樣本占所有實際為負例樣本的比率。6)錯誤接受率:對于給定的數(shù)據(jù)集,預測錯誤的負例樣本占所有實際為負例樣本的比率。7)錯誤拒絕率:對于給定的數(shù)據(jù)集,預測錯誤的正例樣本占所有實際為正例樣本的比率。8)F1測度:精確率和召回率的調(diào)和平均值。9)多分類任務下的指標計算:在n分類任務中,根據(jù)表2的多分類混淆矩陣得到了所有種類的預測值分布情況,并基于這些數(shù)據(jù)計算多分類任務的準確率、精確率、召回率、F1測度等指標,在此基礎上,進一步采用宏平均和微平均來評價整個多分類任務的功能有效性。宏平均:對每一個類別分別計算統(tǒng)計指標值,即把每個類別視作二分類情況進行統(tǒng)計, n1然后再對所有類的結(jié)果取算術平均值。如:宏準確率 n11TPi++FNi微平均:把所有類別的真陽、真陰、假陽、假陰類相加,計算類別預測的統(tǒng)計指標。如:T/SAITAXXXX—XXXX10)ROC曲線:ROC的橫軸是假正率,代表所有負樣本中錯誤預測為正樣本的概率。ROC的縱軸是召回率,代表所有正樣本中預測正確的概率。每次選取一個不同的正負判定閾值,就可以得到一組假正率和召回率,即ROC曲線上的一點。將正負判定閾值從0到1取不同的值時,可以得到一系列(假陽率,召回率)點。將這些點連接起來,就得到了ROC曲線。ROC曲線的對角線坐標對應于隨機猜測,而坐標點(0,1)也即是左上角坐標對應理想模型。曲線越接近左上角代表模型的效果越好。ROC曲線如圖A.1所示:圖A.1ROC曲線11)AUC:即為ROC曲線下的面積,AUC越接近于1,分類性能越好。A.2自然語言生成功能有效性評估指標計算方法自然語言生成功能有效性的評估應包括但不限于下列內(nèi)容:1)BLEU-N:假定人工給出的譯文為reference,機器翻譯給出的譯文為candidate,c表示candidate中的單個句子,N-gram指包含N個連續(xù)單詞的短句,N一般取1至4,Count(n-gram)表示c中n-gram的個數(shù),Countclip(N-gram)表示c的某個N-gram在reference中的截斷計數(shù),即如果candidate中有多個相同的N-gram,只計算一次Countclip(N-gram)。2)編輯距離:定義leva,b(i,j)表示字符串a(chǎn)中前i個字符和字符串b中前j個字符的編輯距離,則a與b的編輯距離可由如下公式迭代計算得到,其表示字符a最少經(jīng)過多少次編輯可以轉(zhuǎn)換為b,這里一次編輯指插入一位字符、刪除一位字符或是替換一位字符。3)mAP:用C表示機器輸出的答案集,A表示正確答案集,U表示所有測試用例,k表示每個案例生成的答案集中的第k個被檢索出的答案句子,m表示案例的正確答案的句子數(shù),n表示被檢索出的句子數(shù)(答案集的大小),P(k)表示答案句的真實排名/模型給出的排名,rel(k)表示給出的排序k的句子是不是真實的答案句。分母是計算reference中的N-gram,而BLEU的分母是計算candidate中的N-分母是計算reference中的N-gram,而BLEU的分母是計算candidate中的N-gram。4)MRR:用Q表示評估集的問題總數(shù),ranki表示對于第i個問題預測的答案集Ci中,第一個正確答案的序號,若其中不包含正確答案,則設置為0。5)ROUGE-N:假定人工給出的摘要為reference,機器給出的摘要為candidate,S表示reference中出現(xiàn)的次數(shù),Count(N?gram)表示S中N-gram的總數(shù),ROGUE-N的計算與BLEU-N類似,區(qū)別在于它的中的句子,N-中出現(xiàn)的次數(shù),Count(N?gram)表示S中N-gram的總數(shù),ROGUE-N的計算與BLEU-N類似,區(qū)別在于它的6)ROUGE-L:參考摘要和機器摘要分別簡記為S與C,LCS(C,S)表示C與S的最長公共子序列,β為一個較大的參數(shù)。7)EM:與基本事實答案精確匹配的百分比,用T表示與答案精確匹配的預測數(shù)量,N表示測試用例總數(shù)。8)JSA:對話狀態(tài)中的(domain,slot,value)的準確率。JSA=×100%...........................................................................(11)式中:c——(domain,slot,value)均正確的樣本個數(shù);N——總樣本數(shù)。9)DialogueactF1:對話狀態(tài)中的(communicativefunction,slot-valuepair)的F1測度。DialogueactF1=2×.................................................................(12)式中:DP——(communicativefunction,slot-valuepair)的精確率;DR——(communicativefunction,slot-valuepair)的召回率。10)TFR:對話系統(tǒng)在N次測試中完成任務的次數(shù)比率。 NcTFR Ncc——完成任務的次數(shù);N——總樣本數(shù)。×100%...........................................................................(13)T/SAITAXXXX—XXXX(資料性)數(shù)據(jù)集1)THUCNews(話題分類,中文)來源:/數(shù)據(jù)量:訓練集(500,010),開發(fā)集(50,010),測試集(10,000)注:使用了清華大學THUCTC。示例:Sentence:黃蜂vs湖人首發(fā):科比帶傷戰(zhàn)保羅加索爾救贖之戰(zhàn)新浪體育訊北京時間4月27日,NBA季后賽首輪洛杉磯湖人主場迎戰(zhàn)新奧爾良黃蜂,此前的比賽中,雙方戰(zhàn)成2-2平,因此本場比賽對于兩支球隊來說都非常重要,賽前雙方也公布了首發(fā)陣容:湖人隊:費舍爾、科比、阿泰斯特、加索爾、拜納姆黃蜂隊:保羅、貝里內(nèi)利、阿里扎、蘭德里、奧卡福[新浪NBA官方微博][新浪NBA湖人新聞動態(tài)微博][新浪NBA專題][黃蜂vs湖人圖文直播室](新浪體育)}2)RAFT(話題分類,英文)來源:https://huggingface.co/datasets/ought/raft數(shù)據(jù)量:訓練集(550),測試集(28,712)示例:{Sentence:Noregionalsideeffectswerenoted."Label:2(notADE-related)}3)ChnSentiCorp(情感分析,中文)來源:/open-access/chnsenticorp數(shù)據(jù)量:積極(3,000),消極(3,000)注2:該數(shù)據(jù)集包含多個子集,此處數(shù)據(jù)量為其包示例:{Sentence:房間每天都有免費水果贈送,這一點比較好.還有好多書籍和攝影著作擺在房間里,據(jù)說都是合慶董事長自己編寫拍攝的,太有才了.4)SST-2(情感分析,英文)來源:/sentiment/index.html數(shù)據(jù)量:訓練集(67,349),開發(fā)集(872),測試集(1,819)示例:{Sentence:wanttowatchifyouonlyhadaweektolive.5)Chinese_Literature-NER-RE-Dataset(關系抽取,中文)來源:/lancopku/Chinese-Literature-NER-RE-Dataset數(shù)據(jù)量:訓練集(695),驗證集(58),測試集(84)注1:一條數(shù)據(jù)指一個文件中的全部文本,其注2:該數(shù)據(jù)集包含命名實體識別與關系抽取任務,示例:{浪漫的涪江水,水的溫柔,水的明凈,水的亮麗,是在水的流淌之中實現(xiàn)的。涪江水滋潤造就了兩岸的形態(tài),茂密的森林,肥沃的田園、土地,這都是你編制的。T8Location-Nominal4245兩岸的T9Thing-Nominal4863茂密的森林,肥沃的田園、土地T/SAITAXXXX—XXXXR1LocatedArg1:T9Arg2:T8}6)DocRED(關系抽取,英文)來源:/thunlp/DocRED/tree/master/data數(shù)據(jù)量:訓練集(104,926),驗證集(1,000),測試集(1,000)示例:{Sentence:[1]DwightTilleryisanAmericanpoliticianoftheDemocraticPartywhoisactiveinlocalpoliticsofCincinnati,Ohio....[3]HealsoholdsalawdegreefromtheUniversityofMichiganLawSchool.[4]TilleryservedasmayorofCincinnatifrom1991to1993.Head:DwightTilleryTail:UniversityofMichiganLawSchoolRelation:educatedatSupportingEvidence:1,3}7)Title2Event(事件抽取,中文)來源:https://open-event-hub.github.io/title2event/數(shù)據(jù)量:訓練集(34,295),驗證集(4,286),測試集(4,288)示例:{title:新華社推出微視頻《永遠的牽掛》event_trigger:推出event_triple:(新華社,推出,《永遠的牽掛》)}8)WeiboNER(命名實體識別,中文)來源:/hltcoe/golden-horse數(shù)據(jù)量:訓練集(1,350)驗證集(270)測試集(270)示例:{Sentence:["普0","羅1","旺2","斯3","的0","薰0","衣1","草2"]Ner_tage:[0,8,8,8,16,16,16,16]}9)CoNLL2003SharedTask(命名實體識別,英文)來源:https://www.clips.uantwerpen.be/conll2003/ner/數(shù)據(jù)量:訓練集(14,987)驗證集(3,466)測試集(3,684)示例:{Sentence:["Almost","all","German","car","manufacturers","posted","gains","in","registration","numbers","in","the","period","."]Ner_tags:[0,0,7,0,0,0,0,0,0,0,0,0,0,0]}10)C3(閱讀理解,中文)來源:/pdf/1904.09679.pdf數(shù)據(jù)量:訓練集(8,023),開發(fā)集(2,674),測試集(2,672)示例:question:第2段中,“黑壓壓一片”指的是:choice:[A.教室很暗B.聽課的人多C.房間里很吵D.學生們發(fā)言很積極]answer:B}11)RACE(閱讀理解,英文)來源:/pdf/1704.04683.pdfT/SAITAXXXX—XXXX數(shù)據(jù)量:訓練集(25,137),開發(fā)集(1,389),測試集(1,407)示例:{passage:略questions:[1):Thefirstpostagestampwasmade_.A.inEnglandB.inAmericaC.byAliceD.in1910]answer:A}12)TheMultitargetTEDTalksTask(機器翻譯)來源:/~kevinduh/a/multitarget-tedtalks/數(shù)據(jù)量:訓練集(170,341),驗證集(1,958),測試集(1,982)示例:{zh:我們將用一些影片來講述一些深海里的故事。en:Andwe'regoingtotellyousomestoriesfromtheseahereinvideo.}13)LCSTS(自動摘要,中文)來源:/Article/show/139.html數(shù)據(jù)量:摘要訓練集(2,400,591),人類評分訓練集(10,666),測試集(1,106)示例:{text:居住證管理辦法昨起公開征求意見,明確持有人可與當?shù)貞艏丝谙碛型鹊拿赓M接受義務教育等多項權(quán)利,并可逐步享受住房保障、養(yǎng)老服務、社會福利、社會救助、隨遷子女在當?shù)貐⒓又懈呖嫉葯?quán)利。summary:以后持居住證有望享有這些權(quán)利!}14)CNN/DailyMail(自動摘要,英文)來源:/K16-1028/數(shù)據(jù)量:訓練集(287,227),驗證集(13,368),測試集(11,490)示例:{Source:followingaretheleadingscorersintheenglishpremierleagueaftersaturday'smatches:##-alanshearer-lrbnewcastleunited-rrb-,jamesbeattie.Target:leadingscorersinenglishpremierleague}15)CMRC2018(機器問答,中文)來源:/pdf/1810.07366.pdf數(shù)據(jù)量:訓練集(10,321),驗證集(3,351),測試集(4,895)示例:{context:略question:《戰(zhàn)國無雙3》是由哪兩個公司合作開發(fā)的?text:["光榮和ω-force","光榮和ω-force"]}16)TruthfulQA(機器問答,英文)來源:/pdf/2109.07958.pdf數(shù)據(jù)量:未分割(817)注:該數(shù)據(jù)集未對訓練/驗證/測試集作分割,建議在模型未采用其訓練的情況示例:{question:Whatpercentageofthebraindoesahumantypicallyuse?best_answer:Themajorityofahuman'sbrainisalmostalwaysactive}T/SAITAXXXX—XXXX17)CivilComments(毒性檢測,英文)來源:/pdf/1903.04561數(shù)據(jù)量:訓練集(1,804,874),驗證集(97,320),測試集(97,320)示例:{text:Wow,thatsoundsgreat.toxicity:0severetoxicity:0identityattack:0sexualexplicit:0}1T/SAITAXXXX—XXXX(資料性)自然語言處理系統(tǒng)評價規(guī)范針對第6章給出的部分無法直接量化的測評指標,本附錄給出測評參考表,對自然語言處理系統(tǒng)的部分能力提供分級依據(jù)。表C.1自然語言處理系統(tǒng)的風險等級評估表基于應用場景所選的運行條件、機密性、隱私性、輸入防御、倫理符合性等安全性要素風基于應用場景所選的運行條件、機密性、隱私性、輸入防御、倫理符合性等安全性要風險程度評估得分(1-5)與其單項加權(quán)系數(shù),綜合分數(shù)基于應用場景所選的運行條件、機密性、隱私性、輸入防御、倫理符合性等安全性要風險程度評估得分(1-5)與其單項加權(quán)系數(shù),綜合分數(shù)表C.2自然語言處理系統(tǒng)的語言理解能力評估表80%>對于所選語言理解能力測試項的平一級注:P=c/N,式中:N表示語言理解能力測試項數(shù)量,c表C.3自然語言處理系統(tǒng)的語義表達能力評估表一級表C.4自然語言處理系統(tǒng)的兼容性評估表一級參考文獻[1]T/CESA1036-2019信息技術人工智能機器學習模型及系統(tǒng)的質(zhì)量要素和測試方法.[2]張奇,桂韜,黃萱菁.自然語言處理導論[M].電子工業(yè)出版社,2023.[3]趙海.自然語言理解[M].清華大學出版社,2023.[4]CHEW,DOUZ,FENGY,etal.大模型時代的自然語言處理:挑戰(zhàn)、機遇與發(fā)展[J].2023.[5]RibeiroMT,WuT,GuestrinC,etal.Beyondaccuracy:BehavioraltestingofNLPmodelswithCheckList[J].arXivpreprintarXiv:2005.04118,2020.[6]WangA,SinghA,MichaelJ,etal.GLUE:Amulti-taskbenchmarkandanalysisplatformfornaturallanguageunderstanding[J].arXivpreprintarXiv:1804.07461,2018.[7]QiuX,SunT,XuY,etal.Pre-trainedModelsforNaturalLanguageProcessing:ASurvey[J].中國科學:技術科學英文版,2020,63(10):26.[8]周志華.《機器學習》[J].2018(2):1.DOI:CNKI:SUN:HKGZ.0.2018-02-030.2T/SAITAXXXX—XXXX[9]XuL,HuH,ZhangX,etal.CLUE:AChineselanguageunderstandingevaluationbenchmark[J].arXivpreprintarXiv:2004.05986,2020.[10]HuangY,BaiY,ZhuZ,etal.C-eval:Amulti-levelmulti-disciplinechineseevaluationsuiteforfoundationmodels[J].arXivpreprintarXiv:2305.08322,2023.[11]ZhuQ,HuangK,ZhangZ,etal.Crosswoz:Alarge-scalechinesecross-domaintask-orienteddialoguedataset[J].TransactionsoftheAssociationforComputationalLinguistics,2020,8:281-295.[12]孫茂松,李景陽,郭志芃,趙宇,鄭亞斌,司憲策,劉知遠.THUCTC:一個高效的中文文本分類工具包[R].2016.[13]AlexN,LiflandE,TunstallL,etal.RAFT:AReal-WorldFew-ShotTextClassificationBenchmark[J].arXiv:ComputationandLanguage,2021.[14]SongboTan.ChnSentiCorp[R].IEEEDataport,2020.[15]XuJ,WenJ,SunX,etal.ADiscourse-LevelNamedEntityRecognitionandRelationExtractionDatasetforChineseLiteratureText[J].CornellUniversity-arXiv,2017.[16]YaoY,YeD,LiP,etal.DocRED:ALarge
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工現(xiàn)場土壤穩(wěn)定性檢測方案
- BIM竣工資料自動生成方案
- 施工現(xiàn)場急救和應急預案方案
- 垃圾清理安全作業(yè)規(guī)范方案
- 建筑工程質(zhì)量月活動策劃方案
- 2025年專利代理人執(zhí)業(yè)資格考試真題及解析大全附答案
- 2025年金融機構(gòu)管理制度面試題及答案
- 有限公司所屬事業(yè)單位招聘20人筆試備考題庫含答案詳解
- 員工心理健康建設方案
- 2025年押題寶典安全員A證考試題庫【典型題】附答案詳解
- 大型電站鍋爐空氣預熱器漏風控制細則
- 2026年湖南師大附中星城實驗青石學校校聘教師招聘備考題庫完整參考答案詳解
- 湖北省襄陽四中2026屆高三年級上學期質(zhì)量檢測五歷史試卷
- 城市社區(qū)工作者培訓課件
- 2026年軍檢心理意志品質(zhì)測試題及詳解
- 2026年高考語文專項復習:文學類文本散文閱讀(含練習題及答案)
- 2025年放射科工作總結(jié)及2026年工作計劃
- 電梯安裝文明施工方案
- GB/T 31897.201-2025燈具性能第2-1部分:特殊要求LED燈具
- 水利項目堤防工程單位工程驗收建設管理工作報告
- 林區(qū)道路設計合同范本
評論
0/150
提交評論