版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
T/CICC35019-2025復(fù)雜智能系統(tǒng)測試性技術(shù)要求2025-11-20發(fā)布中國指揮與控制學(xué)會發(fā)布I 12規(guī)范性引用文件 13術(shù)語與定義 14縮略語 35測試對象類型與測試層次 35.1數(shù)據(jù)層 45.2模型層 45.3應(yīng)用層 45.4運(yùn)行環(huán)境層 45.5系統(tǒng)層 46測試性指標(biāo)體系 46.1可觀測性 46.2可控性 46.3可分解性 56.4可隔離性 56.5可重現(xiàn)性 56.6可診斷性 56.7可覆蓋性 56.8可自動化性 56.9數(shù)據(jù)可測性 57復(fù)雜智能系統(tǒng)測試性定性指標(biāo)要求 57.1可觀測性定性指標(biāo)要求 57.2可控性定性指標(biāo)要求 57.3可分解性定性指標(biāo)要求 57.4可隔離性定性指標(biāo)要求 67.5可重現(xiàn)性定性指標(biāo)要求 67.6可診斷性定性指標(biāo)要求 67.7可覆蓋性定性指標(biāo)要求 67.8可自動化性定性指標(biāo)要求 67.9數(shù)據(jù)可測性定性指標(biāo)要求 68復(fù)雜智能系統(tǒng)測試性定量指標(biāo) 68.1可觀測性定量指標(biāo) 78.2可控性定量指標(biāo) 88.3可分解性定量指標(biāo) 98.4可隔離性定量指標(biāo) 98.5可重現(xiàn)性定量指標(biāo) 8.6可診斷性定量指標(biāo) Ⅱ8.7可覆蓋性定量指標(biāo) 8.8可自動化性定量指標(biāo) 8.9數(shù)據(jù)可測性定量指標(biāo) 9測試性指標(biāo)指數(shù)綜合評估 9.1子指標(biāo)計(jì)算方法 9.2維度加權(quán)聚合 9.3綜合指標(biāo)計(jì)算 9.4測試性等級計(jì)算模型 10復(fù)雜智能系統(tǒng)測試性支撐技術(shù)與方法 10.1復(fù)雜智能系統(tǒng)測試性支撐技術(shù) 10.1.1功能與行為 10.1.2性能與效率 10.1.3穩(wěn)健性與魯棒性 10.1.4公平性與偏見 10.1.5可解釋性與透明性 10.1.6數(shù)據(jù)質(zhì)量 10.1.8對抗測試 10.1.9模糊測試 10.1.10差分測試 10.1.11蛻變測試 10.1.12數(shù)據(jù)擾動測試 10.1.13遮擋與模態(tài)缺失測試 10.1.14校準(zhǔn)與不確定性測試 10.1.15事實(shí)性、歸因測試 10.1.16提示注入與越權(quán)測試 10.1.17檢索與排序測試 10.1.18長上下文與引用一致性測試 10.1.19合成代碼測試 10.1.20多模態(tài)一致性與視覺幻覺 10.1.21OCR/文檔/表格/圖表理解測試 10.1.22生成模型質(zhì)量與多樣性測試 10.1.23視頻時序與跨幀一致性測試 10.1.24強(qiáng)化學(xué)習(xí)與安全約束測試 10.1.25記憶測試 10.1.26數(shù)據(jù)治理與污染檢查測試 10.1.27壓縮、量化和蒸餾回歸測試 10.1.28跨域、跨設(shè)備和多語泛化測試 10.2復(fù)雜智能系統(tǒng)測試性執(zhí)行流程 11智能系統(tǒng)生命周期階段與測試性活動 參考文獻(xiàn) Ⅲ本文件按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由中國指揮與控制學(xué)會提出并歸口。本文件起草參與單位:北京航空航天大學(xué)、杭州市北京航空航天大學(xué)國際創(chuàng)新研究院(北京航空航天大學(xué)國際創(chuàng)新學(xué)院)、可靠性與環(huán)境工程技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室、北京航空航天大學(xué)可靠性工程研究所、中國科學(xué)院聲學(xué)研究所、中國船舶集團(tuán)有限公司綜合技術(shù)經(jīng)濟(jì)研究院、中國兵器工業(yè)軟件工程與評測中心、中國電子科技集團(tuán)公司信息科學(xué)研究院、北京智臻領(lǐng)航科技有限公司、中國航空研究本文件主要起草人:楊順昆、劉磊、郝程鵬、徐珞、王若、司昌龍、龐紅彪、馮玲玲、王樹泰、郝威巍、包超鵬、馮潤玉、代國良、李樂曉、段峙宇、林焱輝、姜巍、吳夢丹、周怡婧、蔣亮亮、王榆偉。指標(biāo),建立了智能系統(tǒng)可測試性的度量框架、評價(jià)方法與實(shí)施流程,用于本文件通過引入可觀測性、可控性、可分解性、可隔離性、可重現(xiàn)性、自動化性及數(shù)據(jù)可測性等質(zhì)量子特性,形成下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(jià)信息技術(shù)安全個人信息安全規(guī)范信息技術(shù)數(shù)據(jù)質(zhì)量評價(jià)指標(biāo)信息技術(shù)人工智能平臺計(jì)算資源規(guī)范智能制造遠(yuǎn)程運(yùn)維系統(tǒng)通用要求健康管理終端設(shè)備數(shù)據(jù)采集與傳輸協(xié)議人工智能大模型第1部分:通用要求人工智能服務(wù)器系統(tǒng)性能測試方法工2人工智能平臺artificialin3任務(wù)task性能指標(biāo)performanceindicator用于評估人工智能服務(wù)器系統(tǒng)實(shí)現(xiàn)效果的度4縮略語下列縮略語適用于本文件。CPU——CentralProcessingUnit中央處理器;GPU——GraphicsProcessingUnit圖形處理器;NPU——NeuralProcessingUnit神經(jīng)網(wǎng)絡(luò)處理器;CI/CD——ContinuousIntegration/ContinuousDelivery持續(xù)交付持續(xù)部署;API——ApplicationProgrammingInterface應(yīng)用程序編程接口;TPR——TruePositiveRate真正率;FGSM——FastGradientSignMethod快速梯度符號法;CNN——ConvolutionalNeuralNetwork卷積神經(jīng)網(wǎng)絡(luò);RNN——RecurrentNeuralNetwork循環(huán)神經(jīng)網(wǎng)絡(luò);LSTM——LongShort-TermMemory長短期記憶網(wǎng)絡(luò);GNN——GraphNeuralNetwork圖神經(jīng)網(wǎng)絡(luò);RL——ReinforcementLearning強(qiáng)化學(xué)習(xí);GAN——GenerativeAdversarialNetwork生成對抗網(wǎng)絡(luò);VAE——VariationalAutoencoder變分自編碼器;LLM——LargeLanguageModel大語言模型;SHAP——SHapleyAdditiveexPlanatiLIME——LocalInterpretableModel-agnosticExplanations局部可解釋模型無關(guān)解釋。5測試對象類型與測試層次針對不同測試對象,其執(zhí)行測試活動見表1。表1測試對象類型與測試活動映射表格范圍定義測試關(guān)注點(diǎn)典型測試活動解釋性接口結(jié)構(gòu)正確性、參數(shù)有效性、權(quán)重檢查與驗(yàn)證、模型可解釋性接口包含對外提供推理或數(shù)據(jù)訪問的接口制、流量控制4測試對象類型范圍定義測試關(guān)注點(diǎn)典型測試活動系統(tǒng)層包含AI模型與外部業(yè)務(wù)邏輯、系統(tǒng)集成測試、接口邊界測試、消息數(shù)據(jù)層測試旨在確保輸入數(shù)據(jù)的合法性、質(zhì)量和代表性。測試過程應(yīng)覆護(hù)檢測(脫敏和加密措施)、數(shù)據(jù)質(zhì)量度量,并通過統(tǒng)計(jì)分析識別偏見風(fēng)險(xiǎn)和長尾群體,建立數(shù)據(jù)分模型層測試重點(diǎn)在于驗(yàn)證模型結(jié)構(gòu)設(shè)計(jì)與實(shí)現(xiàn)的正確性、參數(shù)權(quán)重的有效性可靠性。應(yīng)分析檢查網(wǎng)絡(luò)層、算子和參數(shù)規(guī)模是否符合設(shè)計(jì)要求,執(zhí)行權(quán)重用可解釋性接口驗(yàn)證結(jié)果輸出的穩(wěn)定性與準(zhǔn)確性,同時在該層應(yīng)用層測試關(guān)注對外接口的正確性、安全性和性能理驗(yàn)證、限流與配額策略驗(yàn)證,以及高并發(fā)場景下的吞吐、延遲與可用性運(yùn)行環(huán)境測試旨在確保模型與系統(tǒng)在目標(biāo)硬件與軟件環(huán)境中的正常運(yùn)行,包括GPU/TPU等硬件加速器的兼容性驗(yàn)證、驅(qū)動與固件的適配測試、容器鏡像一致性檢查,以及調(diào)度策系統(tǒng)層測試聚焦AI模型與外部業(yè)務(wù)邏輯、數(shù)據(jù)庫、緩存、消息隊(duì)列等模塊的集成與交互。應(yīng)通過系統(tǒng)集成測試驗(yàn)證數(shù)據(jù)傳遞的正確性、消息一致性、接口邊界條件的測試性指標(biāo)體系見圖1??捎^測性可觀測性可分可觀測性是指對模型訓(xùn)練、推理運(yùn)行時的內(nèi)部狀態(tài)、性能、漂移、解56.3可分解性可分解性是指將整體系統(tǒng)拆分為可獨(dú)立測試評估的階段/模塊能力。6.4可隔離性可隔離性是指測試執(zhí)行與生產(chǎn)運(yùn)行互不干擾,并在故障發(fā)生時能限制影響范圍并快速恢復(fù)的能力6.5可重現(xiàn)性可重現(xiàn)性是指在相同配置與資源條件下,可得到在統(tǒng)計(jì)容差內(nèi)一致的訓(xùn)練/推理結(jié)果的能力。6.6可診斷性可診斷性是指快速定位數(shù)據(jù)、特征、結(jié)構(gòu)、資源、對抗等部分存在的缺陷,并定位性能退化根因的能力。6.7可覆蓋性可覆蓋性是指建立和量化數(shù)據(jù)、場景、特征、模型內(nèi)部行為、攻擊空間等多維測試覆蓋的能力。6.8可自動化性可自動化性是指測試活動在流水線(CI/CD)中自動執(zhí)行與報(bào)告的程度。6.9數(shù)據(jù)可測性數(shù)據(jù)可測性是指對數(shù)據(jù)質(zhì)量、偏見、漂移、標(biāo)簽一致性及生成工藝進(jìn)行系統(tǒng)化測試與持續(xù)監(jiān)控的能力。7復(fù)雜智能系統(tǒng)測試性定性指標(biāo)要求7.1可觀測性定性指標(biāo)要求可觀測性定性指標(biāo)包括:a)指標(biāo)設(shè)計(jì)完備性:系統(tǒng)應(yīng)在設(shè)計(jì)階段完成全面、體系化的監(jiān)控指標(biāo)規(guī)劃,確保指標(biāo)覆蓋性能、可靠性、安全性、偏見與公平性等核心維度,無關(guān)鍵領(lǐng)域遺漏,并能準(zhǔn)確反映系統(tǒng)健康度與業(yè)務(wù)目b)日志可解析性:系統(tǒng)日志必須采用標(biāo)準(zhǔn)化的結(jié)構(gòu)化格式,確保日志內(nèi)容機(jī)器可讀、語義清晰;每條日志應(yīng)包含唯一追蹤標(biāo)識,支持請求在跨服務(wù)、跨模塊間的完整鏈路追蹤與關(guān)聯(lián)分析;c)監(jiān)控覆蓋充分性:系統(tǒng)須對所有核心業(yè)務(wù)特征、關(guān)鍵模型行為與決策邊界實(shí)施實(shí)時、持續(xù)監(jiān)控;監(jiān)控機(jī)制應(yīng)能及時捕捉異常波動與潛在風(fēng)險(xiǎn),確保對系統(tǒng)核心功能與輸出質(zhì)量的有效洞察。7.2可控性定性指標(biāo)要求可控性定性指標(biāo)包括:a)隨機(jī)種子可控性:系統(tǒng)必須在所有隨機(jī)性模塊中支持全局隨機(jī)種子的統(tǒng)一配置與管理,確保在相同輸入與配置下,實(shí)驗(yàn)過程與結(jié)果具備完全的確定性與可復(fù)現(xiàn)性;b)參數(shù)透明性:系統(tǒng)所有關(guān)鍵超參數(shù)與配置項(xiàng)必須被完整、清晰地文檔化,說明其定義、取值范圍及對系統(tǒng)行為的影響;同時,這些參數(shù)應(yīng)提供安全、便捷的配置接口,支持在不修改代碼的前提下進(jìn)行調(diào)整與生效;c)故障注入能力:系統(tǒng)測試環(huán)境須具備主動的、可控的故障注入機(jī)制,能夠模擬數(shù)據(jù)鏈路、模型服務(wù)及底層基礎(chǔ)設(shè)施的各類異常,以系統(tǒng)性地驗(yàn)證系統(tǒng)的容錯能力、自愈能力與整體韌性。7.3可分解性定性指標(biāo)要求可分解性定性指標(biāo)包括:a)階段可獨(dú)立測試性:系統(tǒng)架構(gòu)須支持其各個生命周期階段能夠被隔離并獨(dú)立地進(jìn)行驗(yàn)證;每個階段都應(yīng)提供獨(dú)立的測試入口、模擬數(shù)據(jù)和驗(yàn)證工具,確保無需依賴或完整運(yùn)行上下游階段即可完成該階段的功能與性能測試;6b)模塊邊界清晰性:系統(tǒng)的核心模塊必須通過嚴(yán)格定義的接口進(jìn)行交互,每個模塊都應(yīng)具備明確、穩(wěn)定且文檔化的輸入/輸出數(shù)據(jù)契約;模塊間應(yīng)實(shí)現(xiàn)高內(nèi)聚、低耦合,確保其職責(zé)單一、依賴關(guān)系清晰,并能支持獨(dú)立的開發(fā)、測試與部署。7.4可隔離性定性指標(biāo)要求可隔離性定性指標(biāo)包括:a)數(shù)據(jù)可隔離性:智能系統(tǒng)必須實(shí)現(xiàn)測試數(shù)據(jù)與生產(chǎn)數(shù)據(jù)的嚴(yán)格物理或邏輯隔離,確保測試活動不會訪問、污染或泄露任何生產(chǎn)數(shù)據(jù),并建立明確的數(shù)據(jù)訪問權(quán)限控制與審計(jì)機(jī)制;b)故障隔離能力:系統(tǒng)架構(gòu)應(yīng)設(shè)計(jì)有自動化的故障檢測與熔斷機(jī)制,當(dāng)任一組件或模塊發(fā)生故障時,系統(tǒng)能自動將其隔離,防止故障在系統(tǒng)中擴(kuò)散,確保局部故障不影響整體服務(wù)的可用性;c)服務(wù)恢復(fù)機(jī)制:系統(tǒng)須具備快速、可靠的服務(wù)恢復(fù)能力,包括自動化的回滾機(jī)制,能在發(fā)布或升級失敗時迅速恢復(fù)到上一個穩(wěn)定版本、以及冗余部署策略,確保在單個服務(wù)實(shí)例或節(jié)點(diǎn)失效時,能無縫切換到備用資源,保障業(yè)務(wù)連續(xù)性。7.5可重現(xiàn)性定性指標(biāo)要求可重現(xiàn)性定性指標(biāo)包括:a)依賴明確性:系統(tǒng)的所有外部依賴必須進(jìn)行嚴(yán)格的版本管理,通過依賴清單或容器化等技術(shù)精確鎖定并記錄其具體版本與配置,確保整個軟件環(huán)境在任何時候均具備一致性,從而實(shí)現(xiàn)構(gòu)建結(jié)果的完全可重現(xiàn)。7.6可診斷性定性指標(biāo)要求可診斷性定性指標(biāo)包括:a)診斷接口完備性:系統(tǒng)必須為其核心服務(wù)與組件提供標(biāo)準(zhǔn)化、統(tǒng)一化的診斷接口與工具集,確保運(yùn)維與開發(fā)人員能夠通過這些接口,全面、高效地獲取系統(tǒng)內(nèi)部狀態(tài),快速定位與診斷故障根因。7.7可覆蓋性定性指標(biāo)要求可覆蓋性定性指標(biāo)包括:a)群體覆蓋公平性:系統(tǒng)的測試策略與用例設(shè)計(jì)必須系統(tǒng)性地識別并覆蓋所有關(guān)鍵用戶群體、子群體及代表性不足的邊緣場景,確保測試能有效揭示并驗(yàn)證系統(tǒng)在不同群體上的性能表現(xiàn)與行為差異,從而保障輸出結(jié)果的公平性,消除因數(shù)據(jù)或模型偏差導(dǎo)致的歧視風(fēng)險(xiǎn)。7.8可自動化性定性指標(biāo)要求可自動化性定性指標(biāo)包括:a)輸入/輸出可結(jié)構(gòu)化程度:指完成某任務(wù)所需的全部輸入信息與任務(wù)產(chǎn)出的全部輸出信息,在多大程度上可以被機(jī)器穩(wěn)定地表示、解析、校驗(yàn)與交換。b)規(guī)則可編碼性:指為達(dá)成某任務(wù)目標(biāo)而依賴的業(yè)務(wù)邏輯,能在多大程度上被形式化表述并以程序?qū)崿F(xiàn),使其在給定輸入與邊界條件下可計(jì)算、可驗(yàn)證、可復(fù)現(xiàn)。7.9數(shù)據(jù)可測性定性指標(biāo)要求數(shù)據(jù)可測性定性指標(biāo)包括:a)數(shù)據(jù)合法性與隱私合規(guī)性:系統(tǒng)所有任務(wù)的輸入與輸出信息必須具備嚴(yán)格定義、機(jī)器可讀的數(shù)據(jù)契約。該契約應(yīng)明確定義數(shù)據(jù)的結(jié)構(gòu)、類型、取值范圍與語義,確保信息能夠被穩(wěn)定地解析、進(jìn)行有效性校驗(yàn)、并在系統(tǒng)間實(shí)現(xiàn)無損交換,為任務(wù)的高效、可靠自動化奠定基礎(chǔ);b)數(shù)據(jù)漂移監(jiān)控性:為實(shí)現(xiàn)任務(wù)目標(biāo)的自動化,其核心業(yè)務(wù)邏輯必須能夠被形式化為明確的、可執(zhí)行的規(guī)則或算法。這些規(guī)則應(yīng)在給定輸入和邊界條件下,具備確定性的計(jì)算過程、可驗(yàn)證的執(zhí)行結(jié)果與完全的可復(fù)現(xiàn)性,最大限度減少對不可編碼的主觀判斷或模糊經(jīng)驗(yàn)的依賴。8復(fù)雜智能系統(tǒng)測試性定量指標(biāo)78.1可觀測性定量指標(biāo)可觀測性定量指標(biāo)包括:a)指標(biāo)完整率:指標(biāo)完整性是指在系統(tǒng)測試性設(shè)計(jì)中,規(guī)劃出的關(guān)鍵監(jiān)測或測試指標(biāo)真正落地部署的數(shù)量。指標(biāo)完整率的計(jì)算公式見式(1)。式中:X?——指標(biāo)完整率;A?——已實(shí)現(xiàn)關(guān)鍵指標(biāo)數(shù);B?——規(guī)劃指標(biāo)數(shù)。其中,已實(shí)現(xiàn)關(guān)鍵指標(biāo)數(shù)是指在實(shí)際系統(tǒng)中已經(jīng)實(shí)現(xiàn)、可被采集和監(jiān)控的關(guān)鍵指標(biāo)數(shù)量。這些指標(biāo)必須與規(guī)劃時定義的指標(biāo)相對應(yīng),并且能在運(yùn)行環(huán)境中實(shí)際獲取到數(shù)據(jù)。規(guī)劃指標(biāo)數(shù)是指在測試性設(shè)計(jì)階段列出的全部關(guān)鍵指標(biāo)數(shù)量,它是一個事先就確定好的清單。b)漂移監(jiān)控覆蓋率:漂移監(jiān)控覆蓋率是指在系統(tǒng)可觀測性設(shè)計(jì)中,有多少重要特征被實(shí)時監(jiān)控其分布變化。漂移監(jiān)控覆蓋率的計(jì)算公式見式(2)。式中:X?——漂移監(jiān)控覆蓋率;A?——已布設(shè)漂移監(jiān)控特征數(shù);B?——關(guān)鍵特征數(shù)。其中,關(guān)鍵特征數(shù)是指在業(yè)務(wù)需求、風(fēng)險(xiǎn)分析和模型重要性分析階段,被識別為必須重點(diǎn)監(jiān)控的輸入特征集合。已布設(shè)漂移監(jiān)控特征數(shù)是指已經(jīng)在生產(chǎn)環(huán)境中配置并運(yùn)行漂移檢測機(jī)制的特征數(shù)量。c)解釋可重現(xiàn)率:解釋可重現(xiàn)率是指在相同的輸入數(shù)據(jù)和相同的配置條件下,多次調(diào)用模型的可解釋性方法時,解釋結(jié)果保持一致的概率。解釋可重現(xiàn)率的計(jì)算公式見式(3)。式中:X?——解釋可重現(xiàn)率;A?——重復(fù)同輸入生成解釋一致次數(shù);B?——總測試次數(shù)。其中,重復(fù)同輸入生成解釋一致次數(shù)是指在測試中,給定一組完全相同的輸入,重復(fù)執(zhí)行解釋過程,并得到解釋內(nèi)容一致的次數(shù)??倻y試次數(shù)是指為這組輸入樣本重復(fù)生成解釋的總次數(shù)。d)關(guān)鍵決策點(diǎn)日志覆蓋率:關(guān)鍵決策點(diǎn)日志覆蓋率是指系統(tǒng)在推理、預(yù)測、判斷、業(yè)務(wù)規(guī)則執(zhí)行等過程中,會顯著影響最終結(jié)果或用戶體驗(yàn)的邏輯節(jié)點(diǎn)。關(guān)鍵決策點(diǎn)日志覆蓋率的計(jì)算公式見式式中:X?——關(guān)鍵決策點(diǎn)日志覆蓋率;A?——已記錄關(guān)鍵決策點(diǎn)數(shù);B?——規(guī)劃關(guān)鍵決策點(diǎn)數(shù)。8其中,已記錄關(guān)鍵決策點(diǎn)數(shù)是指在實(shí)際運(yùn)行系統(tǒng)中,日志模塊已經(jīng)覆蓋并記錄的關(guān)鍵決策點(diǎn)數(shù)量。日志需包含可追溯的關(guān)鍵信息,以滿足調(diào)試、審計(jì)、合規(guī)需求。規(guī)劃關(guān)鍵決策點(diǎn)數(shù)是指在設(shè)計(jì)階段明確規(guī)劃需要記錄的關(guān)鍵決策點(diǎn)數(shù)量。e)故障發(fā)現(xiàn)時間;故障發(fā)現(xiàn)時間即故障發(fā)生至有效告警觸發(fā)的時間間隔,是指系統(tǒng)中某個組件、服務(wù)或模型出現(xiàn)性能異常、邏輯錯誤、安全事件等問題的實(shí)際起始時刻到監(jiān)控系統(tǒng)檢測到故障并發(fā)出符合預(yù)設(shè)條件的告警信號的實(shí)際時刻之間的間隔。f)預(yù)警有效性。預(yù)警有效性是指監(jiān)控告警系統(tǒng)在識別真實(shí)故障時的準(zhǔn)確性和可靠性,其計(jì)算公式見式(5)。式中:X?——預(yù)警有效性;A?——誤報(bào)漏報(bào)事件數(shù);B?——總事件數(shù)。8.2可控性定量指標(biāo)可控性定量指標(biāo)如下:a)隨機(jī)種子統(tǒng)一率:隨機(jī)種子統(tǒng)一率是指系統(tǒng)涉及隨機(jī)數(shù)生成的組件統(tǒng)一管理的比率,其計(jì)算公式中:X?——隨機(jī)種子統(tǒng)一率;A?——受控組件數(shù);B?——總需控組件數(shù)。其中受控組件數(shù)是指已經(jīng)實(shí)現(xiàn)隨機(jī)種子固定的組件數(shù)量??傂杩亟M件數(shù)是指設(shè)計(jì)階段識別出的、需要統(tǒng)一隨機(jī)種子的全部組件數(shù)量。b)故障注入腳本覆蓋率:故障注入腳本覆蓋率是用于衡量在故障測試階段,系統(tǒng)在設(shè)計(jì)階段覆蓋的故障類型。其計(jì)算公式見式(7)。式中:X?——故障注入腳本覆蓋率;A?——已實(shí)現(xiàn)故障類型數(shù);B?——計(jì)劃故障類型數(shù)。其中計(jì)劃故障類型數(shù)是指通過風(fēng)險(xiǎn)分析、歷史故障統(tǒng)計(jì)、混沌工程設(shè)計(jì)等手段列出的需要模擬的全部故障類型。已實(shí)現(xiàn)故障類型數(shù)是指已經(jīng)編寫并在測試環(huán)境中可直接運(yùn)行的故障注入腳本所支持的故障類型數(shù)量。c)故障注入類型覆蓋率。故障覆蓋率是指系統(tǒng)在故障測試階段,已經(jīng)通過故障注入技術(shù)驗(yàn)證的故障類型占全部已知故障類型的比例。其計(jì)算公式見式(8)。9X?——故障注入類型覆蓋率;A?——被注入的故障類型數(shù);B?——已知故障類型總數(shù)。其中已知故障類型總數(shù)是指通過歷史故障記錄、風(fēng)險(xiǎn)分析、混沌工程設(shè)計(jì)或行業(yè)經(jīng)驗(yàn)總結(jié)出的所有已知可能影響系統(tǒng)穩(wěn)定性或可用性的故障類型集合。被注入的故障類型數(shù)是指在測試階段,已實(shí)際執(zhí)行過故障注入驗(yàn)證的故障類型數(shù)量。8.3可分解性定量指標(biāo)可分解性定量指標(biāo)包括:a)階段獨(dú)立測試比率:階段獨(dú)立測試比率是指在系統(tǒng)各生命周期階段中,能夠在不依賴整個系統(tǒng)運(yùn)行的情況下進(jìn)行獨(dú)立測試的比例。其計(jì)算公式見式(9)。X?——階段獨(dú)立測試比率;A?——具獨(dú)立測試腳本的階段數(shù);B?——總階段數(shù)??傠A段數(shù)是指在系統(tǒng)設(shè)計(jì)或測試規(guī)劃中,按處理邏輯或生命周期劃分的全部階段數(shù)量。具獨(dú)立測試腳本的階段數(shù)是指每個階段都擁有可單獨(dú)運(yùn)行的,不依賴其他階段的輸入輸出鏈路即可進(jìn)行功能驗(yàn)證和性能測試的測試腳本的數(shù)量。b)模塊邊界可測性比率:模塊邊界可測性比率是指系統(tǒng)中具有明確且可獨(dú)立驗(yàn)證的輸入輸出接口約定的模塊比例,其計(jì)算公式見式(10)。X10——模塊邊界可測性比率;A?0——具備獨(dú)立輸入/輸出契約的模塊數(shù);B?0——模塊總數(shù)。其中,模塊總數(shù)是指在系統(tǒng)架構(gòu)中劃分出的功能單元數(shù)量。具備獨(dú)立輸入/輸出契約的模塊數(shù)是指已定義了清晰的輸入數(shù)據(jù)格式、輸出數(shù)據(jù)格式、調(diào)用方式及約束條件,并能在脫離全鏈路的情況下,通過模擬輸入、檢查輸出進(jìn)行獨(dú)立測試的模塊數(shù)量。8.4可隔離性定量指標(biāo)可隔離性定量指標(biāo)包括:a)測試數(shù)據(jù)污染概率:測試數(shù)據(jù)污染概率是用于衡量在測試過程中,生產(chǎn)環(huán)境數(shù)據(jù)被意外寫入測試路徑或測試環(huán)境的風(fēng)險(xiǎn)大小,其計(jì)算公式見式(11)。X?1——測試數(shù)據(jù)污染概率;A?1——生產(chǎn)數(shù)據(jù)不被寫入測試路徑事件數(shù);B?1——總測試執(zhí)行。其中,生產(chǎn)數(shù)據(jù)不被寫入測試路徑事件數(shù)是指在一次測試執(zhí)行中,系統(tǒng)成功避免將生產(chǎn)數(shù)據(jù)寫入測試數(shù)據(jù)庫、測試存儲或測試消息通道的事件次數(shù)??倻y試執(zhí)行是指在統(tǒng)計(jì)周期內(nèi)的所有測試運(yùn)行次b)隔離成功率:隔離成功率是用于衡量系統(tǒng)在面對故障時,能夠準(zhǔn)確定位并隔離問題源頭的能其計(jì)算公式見式(12)。X?2——隔離成功率;A??——成功隔離的故障數(shù)量;B??——故障總數(shù)量。成功隔離的故障數(shù)量是指在測試或運(yùn)行過程中,系統(tǒng)識別出故障并采取隔離措施后,避免了故障向其他模塊或系統(tǒng)蔓延的次數(shù)。故障總數(shù)量是指在統(tǒng)計(jì)周期內(nèi)觀測到的所有故障事件總數(shù)。c)故障擴(kuò)散率:故障擴(kuò)散率用于衡量在一次故障事件中,系統(tǒng)中受影響的關(guān)鍵組件占全部系統(tǒng)組件的比例。其計(jì)算公式見式(13)。X?3——故障擴(kuò)散率;A13——受影響的關(guān)鍵組件數(shù)量;B?——系統(tǒng)組件數(shù)量。其中,受影響的關(guān)鍵組件數(shù)量是指在故障發(fā)生后,因直接或間接原因?qū)е滦阅芟陆怠⒐δ墚惓;蛲耆У年P(guān)鍵組件數(shù)。系統(tǒng)組件數(shù)量是指系統(tǒng)結(jié)構(gòu)中所有關(guān)鍵組件的總數(shù)。8.5可重現(xiàn)性定量指標(biāo)可重現(xiàn)性定量指標(biāo)包括:a)依賴鎖定率:依賴鎖定率用于衡量系統(tǒng)在軟件依賴管理中,對外部依賴版本的可控程度。其計(jì)算公式見式(14)。X14——依賴鎖定率;A?——有版本鎖定的依賴數(shù);B?——依賴總數(shù)。其中,有版本鎖定的依賴是指能明確指定版本號、版本范圍上限下限或通過鎖文件固定版本的依賴項(xiàng)數(shù)量。依賴總數(shù)是指系統(tǒng)所使用的全部外部依賴數(shù)量。b)環(huán)境一致性指數(shù):環(huán)境一致性指數(shù)是指分布式或多節(jié)點(diǎn)系統(tǒng)中,各節(jié)點(diǎn)在運(yùn)行環(huán)境配置下與預(yù)設(shè)基準(zhǔn)環(huán)境的一致程度。其計(jì)算公式見式(15)。X15——環(huán)境一致性指數(shù);A?5——與基準(zhǔn)鏡像/驅(qū)動/固件一致的節(jié)點(diǎn)數(shù);B?——節(jié)點(diǎn)總數(shù)。與基準(zhǔn)一致的節(jié)點(diǎn)數(shù)是指在操作系統(tǒng)鏡像、關(guān)鍵驅(qū)動、固件版本等方面,與基準(zhǔn)環(huán)境完全匹配的節(jié)點(diǎn)數(shù)量。節(jié)點(diǎn)總數(shù)是指參與系統(tǒng)運(yùn)行或測試的全部節(jié)點(diǎn)數(shù)量。8.6可診斷性定量指標(biāo)可診斷性定量指標(biāo)包括:a)定位準(zhǔn)確率:定位準(zhǔn)確率是指系統(tǒng)在故障診斷環(huán)節(jié)中,對故障原因或位置的判斷的準(zhǔn)確性。公式見式(16)。X16——定位準(zhǔn)確率;A16——正確診斷的故障數(shù);B16——總故障數(shù)。正確診斷的故障數(shù)是指在診斷結(jié)果中與實(shí)際故障原因、位置一致的案例數(shù)。總故障數(shù)是指在評估周期內(nèi)發(fā)生的全部故障數(shù)量。8.7可覆蓋性定量指標(biāo)可覆蓋性定量指標(biāo)包括:a)最差群體測試樣本占比:最差群體測試樣本占是指在測試集中,樣本數(shù)量最少的群體所占的比其計(jì)算公式見式(17)。X?7——最差群體測試樣本占比;A?7——最小群體測試樣本數(shù);B?7——總測試樣本數(shù)。其中,最小群體測試樣本數(shù)是指在所有分組中測試樣本數(shù)量最少的那個群體的樣本數(shù)??倻y試樣本數(shù)是指整個測試集中的樣本總數(shù)量。b)激發(fā)神經(jīng)元覆蓋率:激發(fā)神經(jīng)元覆蓋率是指在一次或多次測試輸入中,模型內(nèi)部被成功激活的神經(jīng)元占總神經(jīng)元的比例。其計(jì)算公式見式(18)。X?8——激發(fā)神經(jīng)元覆蓋率;A?——觸發(fā)激活閾值的神經(jīng)元數(shù);B?8——總神經(jīng)元數(shù)。其中,觸發(fā)激活閾值的神經(jīng)元數(shù)是指在測試過程中,輸出值超過預(yù)設(shè)激活閾值的神經(jīng)元數(shù)量??偵窠?jīng)元數(shù)是指模型所有層中神經(jīng)元的總數(shù)。c)攻擊策略覆蓋率:攻擊策略覆蓋率是指在安全或魯棒性測試中,實(shí)際執(zhí)行的攻擊策略數(shù)量與原先規(guī)劃的攻擊策略總數(shù)之間的比例。其計(jì)算公式見式(19)。式中:X?——攻擊策略覆蓋率;A19——已執(zhí)行攻擊策略數(shù);B19——規(guī)劃策略數(shù)。其中,已執(zhí)行攻擊策略數(shù)是指在測試過程中已被實(shí)施的攻擊方法數(shù)量。規(guī)劃策略數(shù)是指測試計(jì)劃中預(yù)先列出的所有攻擊策略數(shù)量。d)關(guān)鍵場景覆蓋率:關(guān)鍵場景覆蓋率用于衡量在系統(tǒng)測試過程中,預(yù)先規(guī)劃的關(guān)鍵運(yùn)行場景被實(shí)際測試覆蓋的程度。其計(jì)算公式見式(20)。式中:X?0——關(guān)鍵場景覆蓋率;A?0——已覆蓋的關(guān)鍵場景數(shù);B?0——規(guī)劃關(guān)鍵場景數(shù)。其中,已覆蓋的關(guān)鍵場景數(shù)是指在測試中成功執(zhí)行并驗(yàn)證的關(guān)鍵場景數(shù)量。規(guī)劃關(guān)鍵場景數(shù)是指測試計(jì)劃中定義的全部關(guān)鍵場景數(shù)量。8.8可自動化性定量指標(biāo)可自動化性定量指標(biāo)包括:a)自動化測試執(zhí)行率:自動化測試執(zhí)行率是指在整個測試用例集里,用例能夠通過自動化方式執(zhí)行的比例。計(jì)算公式見式(21)。式中:X?1——自動化測試執(zhí)行率;A?1——自動執(zhí)行測試用例數(shù);B?1——總測試用例數(shù)。自動執(zhí)行測試用例數(shù)是指能夠由測試框架、腳本、CI/CD流程等自動運(yùn)行的測試用例數(shù)量??倻y試用例數(shù)是指測試計(jì)劃中全部的測試用例數(shù)量。b)監(jiān)控任務(wù)自動化覆蓋率:監(jiān)控任務(wù)自動化覆蓋率是指系統(tǒng)中已實(shí)現(xiàn)自動化持續(xù)監(jiān)控的關(guān)鍵指標(biāo)占全部規(guī)劃關(guān)鍵指標(biāo)的比例。其計(jì)算公式見式(22)。式中:X?2——監(jiān)控任務(wù)自動化覆蓋率;A?2——持續(xù)監(jiān)控模塊覆蓋的關(guān)鍵指標(biāo)數(shù);B??——規(guī)劃關(guān)鍵指標(biāo)數(shù)。持續(xù)監(jiān)控模塊覆蓋的關(guān)鍵指標(biāo)數(shù)是指已被監(jiān)控模塊實(shí)時采集、記錄并分析的關(guān)鍵指標(biāo)數(shù)量。規(guī)劃關(guān)鍵指標(biāo)數(shù)是指測試或運(yùn)維設(shè)計(jì)階段明確需要監(jiān)控的關(guān)鍵指標(biāo)總數(shù)。8.9數(shù)據(jù)可測性定量指標(biāo)數(shù)據(jù)可測性定量指標(biāo)包括:a)標(biāo)簽沖突率=沖突標(biāo)簽數(shù)/總標(biāo)簽實(shí)例。標(biāo)簽沖突率是指數(shù)據(jù)集中出現(xiàn)標(biāo)簽定義不一致、重復(fù)標(biāo)注或語義沖突的比例。其計(jì)算公式見式(23)X?3——標(biāo)簽沖突率;A?3——沖突標(biāo)簽數(shù);B?3——總標(biāo)簽實(shí)例。沖突標(biāo)簽數(shù)是指在同一數(shù)據(jù)樣本上出現(xiàn)標(biāo)注結(jié)果不一致、或標(biāo)簽間存在語義沖突的標(biāo)簽數(shù)量。總標(biāo)簽實(shí)例是指數(shù)據(jù)集中所有標(biāo)簽標(biāo)注記錄的總數(shù)。9測試性指標(biāo)指數(shù)綜合評估9.1子指標(biāo)計(jì)算方法對于每個維度D?下的子指標(biāo)x;j,計(jì)算方法如下:對于如故障發(fā)現(xiàn)時間、平均定位時間、恢復(fù)時間等越小越優(yōu)的指標(biāo),計(jì)算公式見式(24)。 對如覆蓋率、通過率等越大越優(yōu)的指標(biāo),計(jì)算公式見式(25)。 9.2維度加權(quán)聚合每個維度D的得分S為該維度內(nèi)各指標(biāo)加權(quán)求和,計(jì)算公式見式(26)。 其中w;滿足下式(27): W;j——第i個維度中第j項(xiàng)指標(biāo)的權(quán)重,視不同智能系統(tǒng)由專家打分給出。9.3綜合指標(biāo)計(jì)算整體測試性指數(shù)TI計(jì)算公式如下,計(jì)算公式見式(28)。 W滿足式(29):∑;Wi=1 W——第i個維度的權(quán)重系數(shù),且視不同智能系統(tǒng)由專家打分給出。9.4測試性等級計(jì)算模型根據(jù)TI值,將系統(tǒng)測試性劃分為5個等級,具體見表2。TI范圍A測試性高,所有關(guān)鍵場景和故障類型均覆蓋,具備全鏈路可觀測、可控、可隔離能力。B測試性較高,絕大多數(shù)場景和故障類型均有覆蓋,測試活動自動化程度高。C測試性達(dá)到基本要求,能滿足主要測試需求,但部分維度存在不D測試性偏低,部分關(guān)鍵風(fēng)險(xiǎn)無法有效驗(yàn)證。E測試性嚴(yán)重不足,大量關(guān)鍵風(fēng)險(xiǎn)未覆蓋,無法滿足標(biāo)準(zhǔn)要針對不同測試內(nèi)容,其對應(yīng)技術(shù)指導(dǎo)見表3。范圍定義功能正確性測試、邊界值分析、錯誤處理驗(yàn)證、輸入隨機(jī)噪聲注入、輕量對抗擾動、缺失值處理測試、長尾場景模擬公平性與偏見群體分布差異、統(tǒng)計(jì)平等差、機(jī)會平等、TPR差性空值、重復(fù)、異常值檢測、標(biāo)簽沖突、時間完整性、數(shù)據(jù)漂移隱私能力評估系統(tǒng)應(yīng)對惡意輸入與攻擊的能力FGSM、PGD、CW、DeepFool、AutoAttack等白盒對抗測試、NES、與反演發(fā)現(xiàn)輸入處理鏈路缺陷輸入變異、語義保持變異、API序列模糊、覆蓋引導(dǎo)模糊比較系統(tǒng)在不同實(shí)現(xiàn)、平臺或環(huán)境下輸出差異功能差分、性能差分、跨平臺一致性檢測真實(shí)退化與噪聲條件下的ImageNet-C/COCO-C風(fēng)格擾動族;加性噪聲/模糊/天氣合成/JPEG壓縮;亮度/對比度/伽馬;旋轉(zhuǎn)/縮放/平移/透視;調(diào)/混響;文本拼寫擾動/同義改寫/字符遮擋與模態(tài)缺失測試Cutout、RandomErasing、隨機(jī)矩形/條紋遮擋;關(guān)鍵;模態(tài)Dropout;分辨率降采樣校準(zhǔn)與不確定性測試性溫度縮放(TemperatureScaling)、等值回歸(Isotonic)、PlattSelectiveNet/選擇性預(yù)測提示注入與越權(quán)測試證據(jù)檢索與段落對齊(RAG);句/段級引用比對;N;聲明抽取+檢索+驗(yàn)證流水線;約束解碼/引用強(qiáng)制紅隊(duì)語料與越獄模板;間接注入鏈構(gòu)造;系統(tǒng)/工具提示模板審計(jì);最小權(quán)限與Toolallowlist;沙箱執(zhí)行;canary誘捕;輸出/調(diào)用范圍定義檢索質(zhì)量與對下游影響稀疏檢索(BM25)、稠密檢索(DPR/ANCE/Contriev(BM25+ANN);交叉編碼器重排(MonoT5/ColBERTv2);難例采樣;多文檔/長序列穩(wěn)健性分塊+滑窗;層級檢索/摘要;位置擾動與順序打亂;鏈路跳轉(zhuǎn)任務(wù);自動評測Harness(pytest/ctest);容器化編譯-運(yùn)行;模糊測試(fuzzing);靜態(tài)/安全掃描(Bandit/Semgrep/CodeQL/ESLint/Flake8);沙箱與資源隔離(nsjail/Docker)多模態(tài)一致性與視覺幻覺圖文/視頻-文本一致CLIP/ALIP一致性檢查;GroundingDINO/GLIP區(qū)域?qū)R;VQA/Referring表達(dá)任務(wù);檢測-描述一致性校驗(yàn);區(qū)域級capt問答0CR/文檔/表格/圖OCR(Tesseract/PaddleOCR/TrOCR/Donut);版面檢測(Laer/Detectron2);表格結(jié)構(gòu)化(PubTabNet/CascadeTabNet);Chart解析(ChartQA管線);P生成模型質(zhì)量與多標(biāo)準(zhǔn)提示集評測(DrawBench/GenEval/COCOCaptio時間一致性與語義穩(wěn)定光流/關(guān)鍵點(diǎn)跟蹤(RAFT+KP);遮擋/運(yùn)動模糊合成;時間抖動擾動;跨幀對象一致性任務(wù);長視頻分片對比強(qiáng)化學(xué)習(xí)與安全約隨機(jī)性/域移/約束下策略多種子評測腳本;域隨機(jī)化與00D場景;安全約束環(huán)境(Safety-Gym/Minigrid-Constraints);離線策略評估(IPS/DR);風(fēng)險(xiǎn)評估;對抗擾動/環(huán)境攻擊會員推斷攻擊(ShadowModels/MIA);canary字索對照;提示泄漏探針;溫度/解碼策略掃描功能與行為測試聚焦于驗(yàn)證系統(tǒng)功能實(shí)現(xiàn)是否符合設(shè)計(jì)規(guī)范,包理、錯誤處理機(jī)制以及輸入約束檢查。此類測試通常涵蓋輸入輸出的正確性能與效率測試評估系統(tǒng)在不同工作負(fù)載下的響應(yīng)速度、吞吐能力、點(diǎn)包括延遲分布分析、峰值性能評估、批量大小變化對性能的影響,以穩(wěn)健與魯棒性測試旨在驗(yàn)證系統(tǒng)在非理想條件下的可靠性,包括在輸入存在隨機(jī)噪聲、缺失極端值或罕見場景時的表現(xiàn)。測試需要評估輸出的穩(wěn)定性、結(jié)果的合理性公平性與偏見測試關(guān)注模型在不同群體間的性能一致性,防括分析數(shù)據(jù)層的群體分布差異和代表性不足,結(jié)果指標(biāo)的統(tǒng)計(jì)平等差、機(jī)會平可解釋性與透明測試旨在評估模型輸出解釋的準(zhǔn)確性和穩(wěn)定性。采用局要性分析、反事實(shí)生成,并通過解釋穩(wěn)定性測試驗(yàn)證相鄰輸入擾動下的解釋數(shù)據(jù)質(zhì)量測試涵蓋數(shù)據(jù)完整性、一致性和可用性驗(yàn)證,包括空值檢測、重復(fù)值檢測、異常值分析、標(biāo)簽沖突檢查、時間序列完整性,以及數(shù)據(jù)漂移檢測。測試需建立質(zhì)量基線,設(shè)置監(jiān)控與報(bào)警機(jī)制。隱私測試驗(yàn)證系統(tǒng)對用戶數(shù)據(jù)的保護(hù)能力,包括訓(xùn)練數(shù)據(jù)成員推斷測試、差分隱私預(yù)算驗(yàn)證及訪問控制驗(yàn)證。需模擬可能的隱私攻擊場景,評估防護(hù)機(jī)制的有效性,并確保隱私預(yù)算使用記錄透明可10.1.8對抗測試對抗測試用于發(fā)現(xiàn)和驗(yàn)證系統(tǒng)抵御惡意輸入與攻擊的能力,包括FGSM、PGD、CW、DeepFool、AutoAttack等白盒對抗測試方法和NES、BoundaryAttack、Transfer-based等黑盒對抗測試方法,以及后門觸發(fā)器檢測、模型抽取和反演攻擊模擬。測試過程需分級記錄攻擊強(qiáng)度、成功率,并保留復(fù)現(xiàn)實(shí)驗(yàn)的環(huán)境配置與樣本。10.1.9模糊測試模糊測試旨在通過自動生成多樣化的變異輸入來發(fā)現(xiàn)系統(tǒng)潛在缺陷。測試范圍包括文本的字符級/詞級變異、圖像的失真、壓縮、遮擋,語義保持變異、API序列模糊,以及針對深度模型的覆蓋引導(dǎo)模糊等。差分測試專注于比較系統(tǒng)在不同實(shí)現(xiàn)、平臺、編譯器、硬件或運(yùn)行環(huán)境下的表現(xiàn)差異,旨在發(fā)現(xiàn)因?qū)崿F(xiàn)細(xì)節(jié)不同導(dǎo)致的功能偏差或性能異常。蛻變測試適用于缺乏明確“正確輸出”的任務(wù),通過定義輸入的變換規(guī)則及預(yù)期的輸出關(guān)系來驗(yàn)證系統(tǒng)。用于評估模型在真實(shí)退化條件下的穩(wěn)定性;需包括噪聲、模糊、天氣、壓縮、亮度、幾何變換、音頻噪聲/變速、文本拼寫擾動與同義改寫、時序缺樣與抖動等擾動;測試過程需按嚴(yán)重度分級匯報(bào)性能降幅,并輸出魯棒曲線與最差場景表現(xiàn)。10.1.13遮擋與模態(tài)缺失測試用于檢驗(yàn)輸入部分缺失時的穩(wěn)健性;需包括Cutout/RandomErasing、隨機(jī)遮擋、關(guān)鍵信息掩蔽、多模態(tài)缺失與分辨率退化;測試過程需統(tǒng)計(jì)關(guān)鍵目標(biāo)/字段被遮擋時的性能下界與故障模式。10.1.14校準(zhǔn)與不確定性測試用于衡量概率輸出與真實(shí)頻率的一致性并暴露過度自信;測試過程需產(chǎn)出ECE/NLL/Brier與分段校準(zhǔn)誤差,并檢查選擇性預(yù)測。10.1.15事實(shí)性、歸因測試用于驗(yàn)證智能系統(tǒng)回答是否有據(jù)可依、是否捏造;測試過程需逐條核對引用是否覆蓋關(guān)鍵信息,統(tǒng)計(jì)幻覺率、引用覆蓋率與不一致樣例。10.1.16提示注入與越權(quán)測試用于檢驗(yàn)?zāi)P偷钟鵓romptInjection、間接注入與數(shù)據(jù)越權(quán)的能力;測試過程需記錄越權(quán)成功率、敏感信息泄露率、工具調(diào)用誤觸發(fā)率,并保留系統(tǒng)/工具提示模板與沙箱日志。10.1.17檢索與排序測試用于衡量檢索子系統(tǒng)質(zhì)量及其對下游答案的影響;測試過程需對召回-準(zhǔn)確的權(quán)衡做靈敏度分析,并給出端到端答案質(zhì)量與引用一致性的關(guān)聯(lián)。10.1.18長上下文與引用一致性測試用于評估長序列/多文檔場景下的穩(wěn)健性;測試過程需記錄命中率、位置偏差容忍度、引用跳轉(zhuǎn)正確率與超長上下文下的延遲/內(nèi)存。10.1.19合成代碼測試用于驗(yàn)證代碼生成的正確性、可運(yùn)行性與安全性;測試過程需全自動“編譯-運(yùn)行-斷言”,輸出通過率、運(yùn)行時錯誤率與安全缺陷數(shù)。10.1.20多模態(tài)一致性與視覺幻覺用于檢測圖文/視頻-文本不一致與編造細(xì)節(jié);測試過程需分別統(tǒng)計(jì)跨模態(tài)一致性得分、幻覺率與定位IoU/命中率等。10.1.21OCR/文檔/表格/圖表理解測試用于驗(yàn)證文檔視覺理解與文本抽取質(zhì)量;需包括TextVQA/DocVQA/ChartQA、編輯距離、字段級精確-召回、版面理解;測試過程需保存PDF/圖像與解析結(jié)果對齊標(biāo)注,輸出字段級F1與端到端10.1.22生成模型質(zhì)量與多樣性測試用于衡量生成質(zhì)量、覆蓋與對齊;測試過程需分開報(bào)告“質(zhì)量-多樣性”與“文本-圖像對齊”,并做種子/步數(shù)-質(zhì)量曲線與蒸餾前后回歸。10.1.23視頻時序與跨幀一致性測試用于評估視頻生成/理解的時間一致性與語義穩(wěn)定;需包括FVD、tLPIPS、跨幀關(guān)鍵點(diǎn)漂移、遮擋/運(yùn)動模糊耐受等;測試過程需統(tǒng)計(jì)片段/長視頻兩種粒度指標(biāo)與時間一致性錯誤類型。10.1.24強(qiáng)化學(xué)習(xí)與安全約束測試用于評估策略在隨機(jī)性、域移與約束下的智能系統(tǒng)可靠性與安全性;測試過程需多種子重復(fù),報(bào)告IQM/BootstrapCI、樣本效率、Regret、成功率與約束違規(guī)率等。用于檢測訓(xùn)練數(shù)據(jù)被記憶/泄露的風(fēng)險(xiǎn);測試過程需在不同溫度/采樣下測暴露率,給出閾值-ROC曲線與防護(hù)前后對比。10.1.26數(shù)據(jù)治理與污染檢查測試用于確保評測數(shù)據(jù)獨(dú)立、標(biāo)簽可靠與許可證合規(guī);測試過程需產(chǎn)出去重率、污染樣例清單與修訂后的對比結(jié)果。10.1.27壓縮、量化和蒸餾回歸測試用于驗(yàn)證模型壓縮后的功能不回退;測試過程需設(shè)定關(guān)鍵指標(biāo)跌幅閾值,輸出Before/After對照與魯棒性差異。10.1.28跨域、跨設(shè)備和多語泛化測試用于衡量在新域/新設(shè)備/新語言下的遷移能力;測試過程需報(bào)告平均與最差域表現(xiàn)、相對降幅與微調(diào)樣本/時長等適配成本指標(biāo)。10.2復(fù)雜智能系統(tǒng)測試性執(zhí)行流程智能系統(tǒng)測試性執(zhí)行流程旨在確保在系統(tǒng)全生命周期內(nèi),從需求定義到運(yùn)行退役,各階段均具備可驗(yàn)證、可度量、可復(fù)現(xiàn)的測試能力。流程包括以下主要步驟:a)測試分析:明確業(yè)務(wù)目標(biāo)與系統(tǒng)功能范圍,識別關(guān)鍵風(fēng)險(xiǎn)源。制定包含測試范圍、優(yōu)先級、測試性目標(biāo)等內(nèi)容的初步測試策略;b)測試設(shè)計(jì)與環(huán)境準(zhǔn)備:確定測試類型、對應(yīng)測試指標(biāo)以及技術(shù)手段。準(zhǔn)備測試數(shù)據(jù)集、模擬器/仿真器、硬件配置及監(jiān)控工具,構(gòu)建可控的測試環(huán)境。此外,需確保環(huán)境具備可重復(fù)性與可隔離性,以便在不同時間、不同團(tuán)隊(duì)間一致復(fù)現(xiàn)結(jié)果;c)執(zhí)行與監(jiān)控:按測試計(jì)劃實(shí)施測試用例,實(shí)時采集運(yùn)行日志、性能指標(biāo)、測試覆蓋e)持續(xù)評估與維護(hù):在系統(tǒng)更新、模型再訓(xùn)練或環(huán)對于智能系統(tǒng)測試性活動,分別從需求與風(fēng)險(xiǎn)分析、數(shù)據(jù)獲取與準(zhǔn)備、模型命周期階段與測試性活動映射表格見表4。階段主要活動需求與風(fēng)險(xiǎn)分析階段明確業(yè)務(wù)目標(biāo)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深度解析(2026)《GBT 19203-2003復(fù)混肥料中鈣、鎂、硫含量的測定》
- 大連萬達(dá)集團(tuán)采購經(jīng)理考試題目
- 企業(yè)資產(chǎn)管理員筆試題及答案
- 塑料螺釘項(xiàng)目可行性分析報(bào)告范文
- 特殊藥物(如抗凝藥)相關(guān)上消化道出血內(nèi)鏡處理
- 深度解析(2026)GBT 18942.2-2003高聚物多孔彈性材料 壓縮應(yīng)力應(yīng)變特性的測定 第2部分 高密度材料
- 深度解析(2026)《GBT 18916.1-2021取水定額 第1部分:火力發(fā)電》
- 深度解析(2026)《GBT 18829.6-2002纖維粗度的測定》
- 華為公司招聘銷售部經(jīng)理面試題及答案
- 蒸煮設(shè)備項(xiàng)目可行性研究報(bào)告(總投資20000萬元)(84畝)
- 2024年通用直升機(jī)相關(guān)項(xiàng)目運(yùn)營指導(dǎo)方案
- 《臺式香腸烤制方法》課件
- 常用計(jì)量值控制圖系數(shù)表
- 馬克思主義經(jīng)典著作選讀智慧樹知到課后章節(jié)答案2023年下四川大學(xué)
- 慢性阻塞性肺疾病急性加重期機(jī)械通氣
- 傳染病學(xué)智慧樹知到課后章節(jié)答案2023年下溫州醫(yī)科大學(xué)
- 濕熱滅菌驗(yàn)證方案及報(bào)告
- 工業(yè)區(qū)位因素及其變化高一地理人教版(2019)必修二
- 2022年5月CATTI英語三級口譯實(shí)務(wù)真題(最全回憶版)
- 畫法幾何知到章節(jié)答案智慧樹2023年浙江大學(xué)
- 少年宮剪紙社團(tuán)活動記錄
評論
0/150
提交評論