版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ICS國際標(biāo)準(zhǔn)分類號(hào)
CCS中國標(biāo)準(zhǔn)文獻(xiàn)分類號(hào)
團(tuán)體標(biāo)準(zhǔn)
T/CESXXX-XXXX
電力人工智能感存算一體化系統(tǒng)測試方法
TestmethodofpowerAIsystemswithintegratedcapabilitiesofsensing,data
storage,andprocessing
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
中國電工技術(shù)學(xué)會(huì)發(fā)布
T/CESXXX—XXXX
電力人工智能感存算一體化系統(tǒng)測試方法
1范圍
本文件規(guī)定了面向輸電、變電、配電等電力領(lǐng)域的人工智能感存算一體化系統(tǒng)測試方法,可對
基于人工智能的系統(tǒng)功能、典型應(yīng)用場景性能進(jìn)行評估,評測場景包括圖像分類、目標(biāo)檢測、目標(biāo)
分割、目標(biāo)識(shí)別、目標(biāo)跟蹤、語音識(shí)別、文字識(shí)別、本地語音喚醒、負(fù)荷辨識(shí)等。
本文件適用于生產(chǎn)廠商、研究機(jī)構(gòu)、應(yīng)用廠商及第三方機(jī)構(gòu)對具備感存算一體化系統(tǒng)進(jìn)行測試
評估,也適用于生產(chǎn)廠商對感存算一體化系統(tǒng)的設(shè)計(jì)。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本
文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2020標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:基本術(shù)語
GB/T9813.2-2016計(jì)算機(jī)通用規(guī)范第2部分:便攜式微型計(jì)算機(jī)
GB/T9813.3-2017計(jì)算機(jī)通用規(guī)范第3部分:服務(wù)器
GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)
GB/T5271.34-2006信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)
GB/T25000.51-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價(jià)(SQuaRE)第51部分:就緒
可用軟件產(chǎn)品(RUSP)的質(zhì)量要求和測試細(xì)則
GB/T36572-2018電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全防護(hù)導(dǎo)則
GB/T26866-2022電力時(shí)間同步系統(tǒng)檢測規(guī)范
T/CES128-2022電力人工智能平臺(tái)總體架構(gòu)及技術(shù)要求
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
神經(jīng)網(wǎng)絡(luò)模型neuralnetworkmodel
神經(jīng)網(wǎng)絡(luò)的抽象模型,它能用軟件來模擬或作為神經(jīng)計(jì)算機(jī)加以實(shí)現(xiàn)。
[來源:GB/T5271.34-2006,34.01.10]
3.2
訓(xùn)練training
教會(huì)神經(jīng)網(wǎng)絡(luò)在輸入值的樣本和正確輸出值之間做出結(jié)合的步驟。
[來源:GB/T5271.34-2006,34.03.18]
3.3
推理inference
從已知前提導(dǎo)出結(jié)論的推理方法。
注1:在人工智能領(lǐng)域,前提是事實(shí)或者規(guī)則。
注2:術(shù)語“推理”既指過程也指結(jié)果。
[來源:GB/T5271.28-2001,28.03.01]
3.4
訓(xùn)練集trainingset
數(shù)據(jù)集的子集,用于訓(xùn)練模型。
3.5
1
T/CESXXX—XXXX
測試集testset
數(shù)據(jù)集的子集,用于在模型經(jīng)由驗(yàn)證集的初步驗(yàn)證之后測試模型。
3.6
批次batch
模型訓(xùn)練的一次迭代(即一次梯度更新)中使用的樣本集。
3.7
批次大小batchsize
一個(gè)批次中的樣本數(shù)。批次大小在訓(xùn)練和推理期間通常是固定的。
3.8
輪次epoch
使用訓(xùn)練集的全部數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行一次完整的訓(xùn)練,被稱之為一代訓(xùn)練。
3.9
作業(yè)到達(dá)workload
一組被一同送入訓(xùn)練或推理系統(tǒng)的N個(gè)樣本,N為正整數(shù)。
4符號(hào)、代號(hào)和縮略語
下列符號(hào)、代號(hào)和縮略語適用于本文件。
SUT:被測系統(tǒng)(SystemUnderTest)
mAP:平均精度均值(MeanAveragePrecision)
mIoU:平均交并比(MeanIntersectionOverUnion)
FPS:每秒幀率(FramePerSecond)
FAR:誤識(shí)率(FalseAcceptRate)
FRR:拒識(shí)率(FalseRejectRate)
IR:識(shí)別正確率(IdentificationRate)
WER:詞錯(cuò)誤率(WordErrorRate)
SER:句錯(cuò)誤率(SentenceErrorRate)
NNM神經(jīng)網(wǎng)絡(luò)模型(NeuralNetworkModel)
Training:訓(xùn)練
Inference:推理
5測試說明
5.1測試對象
本文件的測試對象具體形式有以下兩種:
a)含有計(jì)算機(jī)視覺感存算一體化系統(tǒng)的控制主機(jī),指以卡/棒等形態(tài)進(jìn)行使用的感存算一體智
能系統(tǒng),如GPU、FPGA、ASIC等感存算一體模塊,可通過PCIE、USB等接口與測試主機(jī)連接;
b)搭載人工智能處理器的感存算一體模塊。
5.2測試內(nèi)容
感存算一體化系統(tǒng)的測評指標(biāo),主要包括基本技術(shù)規(guī)格、功能、性能、電力應(yīng)用場景測試等部
分,在依據(jù)本文件進(jìn)行測試的過程中:
a)涉及功能、性能、電力應(yīng)用場景等相關(guān)指標(biāo)將通過第三方測試工具進(jìn)行評測;
b)涉及基本技術(shù)規(guī)格的指標(biāo)將采信被測對象標(biāo)稱值及其他技術(shù)信息,作為先進(jìn)性的參考。
5.3環(huán)境要求
除另有規(guī)定外,環(huán)境應(yīng)滿足GB/T9813.2-2016或GB/T9813.3-2017中大氣條件的規(guī)定,其
中:
a)溫度:5℃~35℃或15℃~35℃;
2
T/CESXXX—XXXX
b)相對數(shù)度濕度:25%~75%;
c)大氣壓:86kPa~106kPa。
此外,若送測方有更為嚴(yán)苛的要求,應(yīng)滿足送測方提出的溫度、濕度等。
5.3基本要求
基本要求包括且不限于下述內(nèi)容:
a)應(yīng)支持至少一種存算一體技術(shù),包括但不限于查存計(jì)算、近存計(jì)算、存內(nèi)計(jì)算、存內(nèi)邏輯
等;
b)支持主流的人工智能框架:TensorFlow、Pytorch、Caffe/Caffe2、Mxnet、ONNX、
MindSpore(昇思)或PaddlePaddle(飛槳)等;
c)模型精度:FP64、FP32、FP16、INT4、INT8、INT16、BP16或混合精度等。其中,訓(xùn)練場
景精度應(yīng)支持FP16、FP32、FP64,推理場景下精度應(yīng)支持INT8、FP16;
d)應(yīng)支持以下至少1種自主可控加速器,包括但不限于昇騰、智芯等;ASIC類的加速器,如
NPU等;FPGA類型的加速器;GPU類型的加速器;
e)控制主機(jī)處理器架構(gòu):X86架構(gòu)、ARM、RISC-V或MIPS等架構(gòu);
f)電力人工智能模型應(yīng)滿足電力業(yè)務(wù)應(yīng)用場景所需的計(jì)算、算力資源等;
g)測試用儀器設(shè)備均應(yīng)經(jīng)過計(jì)量部門檢定合格,并在有效期內(nèi),專用測試設(shè)備必須經(jīng)過嚴(yán)格
標(biāo)定,并在標(biāo)定有效期內(nèi)使用。
5.4測試過程
測試過程包括:
a)測試申請:由送測單位提供測試委托書,申請對樣品進(jìn)行測試;
b)制定測試大綱:依據(jù)本文件與實(shí)際測試需求制定測試方案,確定測試內(nèi)容,各項(xiàng)測試的進(jìn)
度安排,資源要求,測試資料,測試工具,系統(tǒng)的配置方式,回歸測試的規(guī)定等以及評價(jià)標(biāo)準(zhǔn),如
果無法構(gòu)建出要求相同的測試環(huán)境,后續(xù)需進(jìn)一步分析由于測試環(huán)境與使用環(huán)境不一致所帶來對測
試結(jié)果的影響,形成測試大綱;
c)樣品送測:由送測單位送測樣品;
d)測試環(huán)境部署:根據(jù)送測樣品部署相應(yīng)測試環(huán)境;
e)測試類型:
功能測試。在構(gòu)建的測試環(huán)境下,對樣品覆蓋的功能進(jìn)行測試,檢驗(yàn)各測試項(xiàng)目是否實(shí)現(xiàn)、是
否正確實(shí)現(xiàn)。
性能測試。在構(gòu)建的測試環(huán)境下,進(jìn)行實(shí)時(shí)監(jiān)測和數(shù)據(jù)收集,利用準(zhǔn)備好的測試數(shù)據(jù)集對被測
系統(tǒng)進(jìn)行各測試項(xiàng)目測試,分為正常情況、人為設(shè)置的系統(tǒng)資源緊缺異常情況、人為設(shè)置的高負(fù)載
高負(fù)荷情況,即將測試數(shù)據(jù)集一次輸入被測系統(tǒng),并按照被測系統(tǒng)的使用方法開展測試活動(dòng),檢驗(yàn)
各測試項(xiàng)是否達(dá)標(biāo)、是否能夠保持;
回歸測試。定期、不定期測試進(jìn)行回歸測試,對被測系統(tǒng)進(jìn)行重新功能和性能測試,確認(rèn)每次
更新和迭代修改后的系統(tǒng)仍滿足規(guī)定的要求。
f)出具報(bào)告:完成測試后,收集整合測試數(shù)據(jù),對測試結(jié)果進(jìn)行匯總、深入分析和綜合評
價(jià),形成測試報(bào)告。
5.5場景信息
電力人工智能測試場景包括:
a)典型電力人工智能應(yīng)用場景:計(jì)算機(jī)視覺任務(wù),包括圖像分類、目標(biāo)檢測、目標(biāo)分割、目
標(biāo)識(shí)別、目標(biāo)跟蹤、文字識(shí)別等,語音識(shí)別、本地語音喚醒等任務(wù),電力專用應(yīng)用負(fù)荷辨識(shí)等任
務(wù),與其對應(yīng)電力生產(chǎn)環(huán)節(jié)見電力人工智能感存算一體化系統(tǒng)設(shè)計(jì)規(guī)范附表A.1;
b)數(shù)據(jù)集:公開數(shù)據(jù)集或真實(shí)電力應(yīng)用場景數(shù)據(jù)集;
c)模型:經(jīng)典神經(jīng)網(wǎng)絡(luò)模型或自定義神經(jīng)網(wǎng)絡(luò)模型。
5.6作業(yè)到達(dá)
電力應(yīng)用場景作業(yè)到達(dá)的方式包含以下幾種模式:
3
T/CESXXX—XXXX
a)單路模式:測試主機(jī)向被測系統(tǒng)串行發(fā)送作業(yè)請求,單次作業(yè)請求包含1個(gè)樣本,被測系
統(tǒng)完成單次作業(yè)運(yùn)算返回結(jié)果得到測試主機(jī)確認(rèn)之后,測試主機(jī)再向被測系統(tǒng)發(fā)送下一條作業(yè)請
求,并以此循環(huán);
b)測試主機(jī)發(fā)送新的作業(yè):如果被測系統(tǒng)已經(jīng)及時(shí)完成上一次的作業(yè)運(yùn)算并返回結(jié)果,則被
測主機(jī)按照限定延遲間隔發(fā)送一個(gè)新的作業(yè)請求。如果被測系統(tǒng)未能及時(shí)完成,則新的請求被丟棄
并被記為一次作業(yè)超時(shí)。
c)云服務(wù)模式:作業(yè)到達(dá)被測系統(tǒng)服從泊松分布:
λke?λ
Pk(,λ)=
k!
其中,k表示在某單位時(shí)間內(nèi)到達(dá)的作業(yè)數(shù),λ表示單位時(shí)間內(nèi)平均作業(yè)平均到達(dá)次數(shù)。每次
作業(yè)可含有多個(gè)樣本,每次含有的樣本數(shù)量Y,Y服從正態(tài)分布:
2
YN(,μσ)
其中,μ為樣本數(shù)量均值,σ實(shí)際到達(dá)樣本數(shù)量的離散程度。
d)本地模式:所有作業(yè)一次性全部到達(dá)被測系統(tǒng)。
6功能測試
6.1接入管理測試
驗(yàn)證感存算一體化系統(tǒng)的接入管理能力:
a)檢查感存算一體化系統(tǒng)支持RS485、RS232等串口通信接口以及模擬量、開關(guān)量、數(shù)字量等
信號(hào)接口各類馮·諾依曼架構(gòu)設(shè)備、感存算一體化設(shè)備通過串口、以太網(wǎng)接入。
b)檢查感存算一體化系統(tǒng)支持至少一種視頻、圖像、語音、文本等類型感知數(shù)據(jù)接入。
c)檢查感存算一體化系統(tǒng)支持通過GB/T28181、ONVIF、RTSP等接入不同廠商的視頻監(jiān)控?cái)z像
機(jī)。
d)檢查感存算一體化系統(tǒng)支持H264/H265等主流編解碼協(xié)議,支持存儲(chǔ)視頻調(diào)閱回看等功能。
e)檢查感存算一體化系統(tǒng)支持NSA、SA的5G全頻段接入(含大網(wǎng)及專網(wǎng))。
6.2網(wǎng)絡(luò)測試
a)感存算一體化系統(tǒng)解析藍(lán)牙、Zigbee、Wifi、LoRa、NFC、RFID等無線或有線一種或多種傳
輸協(xié)議,滿足各網(wǎng)絡(luò)協(xié)議接入要求。
b)具備數(shù)據(jù)轉(zhuǎn)發(fā)功能的感存算一體化系統(tǒng),測試主機(jī)通過被測系統(tǒng)進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā),數(shù)據(jù)應(yīng)能被
正確轉(zhuǎn)發(fā)到指定通信接口。
c)感存算一體化系通過協(xié)議傳輸數(shù)據(jù),檢查支持MQTT、HTTP/HTTPS、DL/T698.45、CoAP、
DL/T645、IEC60870-5-104、IEC61850等多種通信協(xié)議。
d)感存算一體化系接入SDN、TSN等新型網(wǎng)絡(luò)設(shè)備/系統(tǒng),檢查是否支持SDN、TSN等新型網(wǎng)
絡(luò)。
6.3計(jì)算及存儲(chǔ)測試
計(jì)算及存儲(chǔ)測試見表1。
表1計(jì)算存儲(chǔ)測試
序號(hào)測試項(xiàng)目測試內(nèi)容測試準(zhǔn)則
查看被測系統(tǒng)軟件清單中的異構(gòu)
計(jì)算架構(gòu)支持情況,與真實(shí)情況
人工智能感存算一體化系統(tǒng)
1異構(gòu)計(jì)算架構(gòu)符合。
對異構(gòu)計(jì)算架構(gòu)的支持
如果支持則通過,否則為不通
過。
4
T/CESXXX—XXXX
查看被測系統(tǒng)軟件清單中的存算
一體技術(shù)支持情況,與真實(shí)情況
人工智能感存算一體化系統(tǒng)
2存算一體技術(shù)符合。
對存算一體技術(shù)的支持
如果支持則通過,否則為不通
過。
被測系統(tǒng)連接測試儀表,驗(yàn)證具
3本地化存儲(chǔ)本地化存儲(chǔ)能力
備本地化存儲(chǔ)能力。
在被測系統(tǒng)接入其他設(shè)備感知數(shù)
據(jù),添加數(shù)據(jù)規(guī)則引擎,判斷處
多類型數(shù)據(jù)存儲(chǔ)和多類型數(shù)據(jù)存儲(chǔ)和結(jié)構(gòu)化、
4理后的結(jié)果和預(yù)設(shè)相符。
處理能力非結(jié)構(gòu)化數(shù)據(jù)處理能力
如果相符則通過,否則為不通
過。
查看被測系統(tǒng)軟件清單以及代碼
的不同類型指令集和不同體系架
不同類型指令集和不同體系
指令集和計(jì)算單元構(gòu)計(jì)算單元協(xié)同技術(shù)支持情況,
5架構(gòu)計(jì)算單元協(xié)同技術(shù)的支
協(xié)同技術(shù)與真實(shí)情況符合。
持
如果支持則通過,否則為不通
過。
查看被測系統(tǒng)軟件清單以及代碼
的多種AI訓(xùn)練和推理平臺(tái),兼容
多類型人工智能平開放集成多種AI訓(xùn)練和推理多廠商計(jì)算單元的支持情況,與
6
臺(tái)平臺(tái),兼容多廠商計(jì)算單元真實(shí)情況符合。
如果支持則通過,否則為不通
過。
6.4AI能力測試
AI能力測試見下表,對模型推理性能測試描述詳見7AI模型推理測試。
表2AI能力測試
序號(hào)測試項(xiàng)目測試內(nèi)容測試準(zhǔn)則
人工智能感存算一體化系統(tǒng)對
1處理器查看被測系統(tǒng)硬件清單中的設(shè)備基
處理器類型的支持
本信息,包括支持的處理器類型、
人工智能感存算一體化系統(tǒng)對
2加速器加速器類型以及精度支持情況,與
加速器類型的支持
真實(shí)情況符合。
人工智能感存算一體化系統(tǒng)對
3精度類型如果支持則通過,否則為不通過。
精度類型的支持
登錄測試系統(tǒng),部署AI模型,通過
人工智能感存算一體化系統(tǒng)對
4AI模型部署在線測試方式驗(yàn)證AI模型可提供正
部署AI模型的支持
常AI服務(wù),驗(yàn)證AI模型功能。
登錄測試系統(tǒng),選擇一個(gè)正在運(yùn)行
人工智能感存算一體化系統(tǒng)對
5AI服務(wù)管理的AI服務(wù),執(zhí)行查看和停止操作,
部署AI服務(wù)管理的支持
驗(yàn)證AI服務(wù)可管理功能。
登錄測試系統(tǒng),執(zhí)行AI模型導(dǎo)入和
人工智能感存算一體化系統(tǒng)對
6AI模型庫管理刪除操作,驗(yàn)證AI模型庫管理功
AI模型庫管理的支持
能。
查看受測設(shè)備軟件清單中的人工智
人工智能感存算一體化系統(tǒng)對
7人工智能框架能支持情況,與現(xiàn)實(shí)信息符合。
人工智能框架的支持
如果支持則通過,否則為不通過。
5
T/CESXXX—XXXX
使用的人工智能框架中模型訓(xùn)
8模型訓(xùn)練查看被測系統(tǒng)支持的人工智能框架
練支持功能
技術(shù)規(guī)格書或開源網(wǎng)站。
使用的人工智能框架中模型推
9模型推理如果支持則通過,否則為不通過。
理支持功能
6.5模型推理測試
模型推理測試詳情見“7.AI模型推理測試”。
6.6遠(yuǎn)程維護(hù)測試
a)驗(yàn)證時(shí)間同步符合GB/T26866-2022的要求。
b)登錄測試系統(tǒng),執(zhí)行被測系統(tǒng)軟件安裝,驗(yàn)證是否支持軟件安裝功能。
c)登錄測試系統(tǒng),執(zhí)行被測系統(tǒng)遠(yuǎn)程固件升級(jí),驗(yàn)證是否支持遠(yuǎn)程固件升級(jí)。
d)檢查日志,如果日志中記錄了日志類型、登錄時(shí)間、登錄地址、登錄用戶名、開啟或停止服
務(wù)等遠(yuǎn)程維護(hù)操作則評測通過,否則評測不通過。
6.7自治能力測試
a)登錄測試系統(tǒng),模擬感存算一體化系統(tǒng)外部網(wǎng)絡(luò)故障,驗(yàn)證故障不會(huì)影響電力應(yīng)用提供服
務(wù)。
b)登錄測試系統(tǒng),恢復(fù)感存算一體化系統(tǒng)外部網(wǎng)絡(luò)故障,驗(yàn)證故障恢復(fù)不會(huì)影響電力應(yīng)用提供
服務(wù)。
6.8可擴(kuò)展性測試
a)驗(yàn)證感存算一體化系統(tǒng)支持提供對DAS、NAS(CIFS,NFS)的訪問;
b)驗(yàn)證感存算一體化系統(tǒng)支持對主流CentOS、Ubuntu等Linux、windows平臺(tái)的訪問;
c)擴(kuò)展存儲(chǔ)空間,驗(yàn)證感存算一體化系統(tǒng)支持存儲(chǔ)空間動(dòng)態(tài)擴(kuò)展。
6.9安全性測試
a)驗(yàn)證信息安全符合GB/T36572-2018的要求。
b)驗(yàn)證數(shù)據(jù)部分符合《中華人民共和國數(shù)據(jù)安全法》的規(guī)定。
7AI模型推理測試
7.1測試指標(biāo)
主要測試指標(biāo)見表3:
表3典型電力應(yīng)用場景測試指標(biāo)
類型測試指標(biāo)
訓(xùn)練時(shí)間
訓(xùn)練指標(biāo)(非必需)
訓(xùn)練能耗
最大吞吐性能
平均前向推理速率
感存算一體化系統(tǒng)
前向推理時(shí)延
推理指標(biāo)
功耗
能效比
模型推理準(zhǔn)確度
6
T/CESXXX—XXXX
7.2測試指標(biāo)描述
7.2.1訓(xùn)練時(shí)間
在5.3技術(shù)要求規(guī)定下,訓(xùn)練某一神經(jīng)網(wǎng)絡(luò)達(dá)到指定精度所需要的時(shí)間。
7.2.2訓(xùn)練能耗
在5.3技術(shù)要求規(guī)定下,訓(xùn)練某一神經(jīng)網(wǎng)絡(luò)達(dá)到指定精度時(shí)被測系統(tǒng)的能耗。
7.2.3最大吞吐性能
指被測系統(tǒng)在訓(xùn)練過程或前向推理過程(包括預(yù)處理,后處理)中可同時(shí)處理的最大樣本數(shù)
量。
7.2.4平均前向推理速度
指被測系統(tǒng)在指定batch下,在單位時(shí)間內(nèi)使用神經(jīng)網(wǎng)絡(luò)模型完成測試數(shù)據(jù)集運(yùn)算的平均樣本
數(shù)量。
7.2.5前向推理時(shí)延
被測系統(tǒng)在指定batch下前向推理運(yùn)算過程(不包括預(yù)處理,后處理)中,根據(jù)作業(yè)到達(dá)中的
方式,計(jì)算從樣本輸入被測系統(tǒng)完成到計(jì)算結(jié)果由被測系統(tǒng)開始輸出間的時(shí)間間隔。
7.2.6功耗
在5.3技術(shù)要求規(guī)定下,未運(yùn)行推理運(yùn)算時(shí)被測系統(tǒng)的靜態(tài)功耗;以及進(jìn)行指定模型推理運(yùn)算
過程中被測系統(tǒng)的平均功耗??梢詭в锌刂浦鳈C(jī)的功耗。
7.2.7能效比
模型推理過程中,被測系統(tǒng)在單位時(shí)間內(nèi)執(zhí)行作業(yè)的次數(shù)與感存算一體化系統(tǒng)功耗之比。
7.2.8模型推理準(zhǔn)確度
指定任務(wù)場景下,被測系統(tǒng)使用某一神經(jīng)網(wǎng)絡(luò)模型完成測試后,所得到的平均模型前向推理準(zhǔn)
確度數(shù)值,不同電力應(yīng)用場景下采用的模型推理的評價(jià)指標(biāo)不同,詳見7測試場景。
7.3訓(xùn)練測試方法
訓(xùn)練過程中,記錄必要的測評數(shù)據(jù):
a)訓(xùn)練時(shí)間:不包含訓(xùn)練過程中使用測試集,測量當(dāng)前模型準(zhǔn)確率及準(zhǔn)確率門限的比較時(shí)間;
b)訓(xùn)練次數(shù):對同一目標(biāo)模型的訓(xùn)練過程,重復(fù)訓(xùn)練的次數(shù)計(jì)數(shù);
c)單次訓(xùn)練時(shí)間:記錄單次訓(xùn)練過程的總體訓(xùn)練時(shí)間(不含每epoch后模型準(zhǔn)確率計(jì)算時(shí)間);
d)單次訓(xùn)練能耗:記錄單次訓(xùn)練過程的總體訓(xùn)練能耗(不含每epoch后模型準(zhǔn)確率計(jì)算能耗)。
訓(xùn)練結(jié)果數(shù)據(jù)如下:
a)平均訓(xùn)練時(shí)間:平均訓(xùn)練時(shí)間=∑每次訓(xùn)練的時(shí)間/次數(shù);
b)平均訓(xùn)練能耗:平均訓(xùn)練能耗=∑每次訓(xùn)練的能耗/次數(shù);
c)實(shí)際準(zhǔn)確率:模型訓(xùn)練過程中,在測試集上的準(zhǔn)確率。
7.4推理測試方法
7.4.1最大吞吐性能
在前向推理計(jì)算前,通過不斷調(diào)整batch參數(shù),增加單位時(shí)間內(nèi)輸入樣本的數(shù)量,最終確定被
測系統(tǒng)的最大吞吐性能。
7.4.2平均前向推理速率
單位:FPS(處理圖像數(shù)量/秒)等。
平均前向推理速率=總測試樣本數(shù)量/總預(yù)測時(shí)間
7
T/CESXXX—XXXX
注:
總測試樣本數(shù)量指測試數(shù)據(jù)集中樣本的總數(shù)量。
總預(yù)測時(shí)間指被測系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)模型時(shí),在測試數(shù)據(jù)集上完成測試所使用的總計(jì)算時(shí)間。
7.4.3前向推理時(shí)延
單位:ms(毫秒)。
前向推理時(shí)延=當(dāng)前樣本處理結(jié)果開始輸出的時(shí)刻-當(dāng)前樣本輸入完成時(shí)刻
7.4.4功耗
單位:w(瓦)。
a)針對板卡或棒形態(tài)的被測系統(tǒng),對被測系統(tǒng)在執(zhí)行測試期間的功耗情況進(jìn)行記錄,最終通過
計(jì)算得到該硬件的平均功耗情況。
功耗值=基準(zhǔn)電流差X電壓
b)針對服務(wù)器形態(tài)的被測系統(tǒng),測試被測系統(tǒng)在任務(wù)處理階段總的能耗與所用時(shí)間的比值,得
到平均功率,再測一個(gè)不進(jìn)行深度學(xué)習(xí)任務(wù)處理的平均功率,計(jì)算兩個(gè)平均功率之差即為被測系統(tǒng)的
功耗。
7.4.5能效比
單位:FPS/W(處理圖片數(shù)量/秒/瓦特)等。
能效比=平均前向推理速率/功耗
7.4.6模型推理精度
針對不同電力應(yīng)用場景,包括top-1、top-5算法準(zhǔn)確率、mAP、mIoU、F-Score、FAR、FRR等。
8典型應(yīng)用場景測試
8.1圖像分類場景
a)模型:ResNet-50、ResNet-101、VGG16、Inception-v3和MobileNetv2;
b)數(shù)據(jù)集:ImageNet;
c)性能評價(jià)指標(biāo):
Top-1準(zhǔn)確率:圖像分類結(jié)果中排名第一的分類類別與實(shí)際結(jié)果相同的準(zhǔn)確率;
Top-5準(zhǔn)確率:圖像分類結(jié)果中排名前五的分類類別與實(shí)際結(jié)果相同的準(zhǔn)確率。
8.2目標(biāo)檢測場景
a)模型:兩階段模型(FasterR-CNN、MaskR-CNN)和一階段模型(YOLO、SSD);
b)數(shù)據(jù)集:MicrosoftCOCO、CPLID、OPDL;
c)性能評價(jià)指標(biāo):
平均精度均值(Meanaverageprecision,mAP):數(shù)據(jù)集中所有類別的平均精度的均值。
平均精度均值=所有類別平均精度值之和/所有類別的數(shù)目。
8.3目標(biāo)分割場景
a)模型:Deeplabv3++、DeepMask、Fast-SCNN;
b)數(shù)據(jù)集:TTPLA、PLD-UAV、VOC2012、CityScapes;
c)性能評價(jià)指標(biāo):
平均交并比(Meanintersectionoverunion,mIoU):所有類別的交并比IoU的平均值。
每個(gè)類別的交并比IoU為真實(shí)值(groundtruth)和預(yù)測值(predictedsegmentation)
兩個(gè)集合的交集合并集之比。
交并比(Intersectionoverunion,IoU):檢測結(jié)果的矩形框與樣本標(biāo)注的矩形框的交
集與并集的比值。
8
T/CESXXX—XXXX
F分?jǐn)?shù):綜合衡量精確率和召回率的指標(biāo)。
Precision×Recall
=
F-Score2
β×Precision+Recall
其中,
精確率(Precision):識(shí)別正確的結(jié)果在所識(shí)別的結(jié)果中所占的比率;
召回率(Recall):識(shí)別正確的結(jié)果占數(shù)據(jù)集中所有要識(shí)別出的總數(shù)的比率。
8.4目標(biāo)識(shí)別場景
a)模型:FaceNet、ObjectRecognition、DeepID3、ArcFace;
b)數(shù)據(jù)集:WebFace、LFW;
c)性能評價(jià)指標(biāo):
誤識(shí)率(Falseacceptrate,F(xiàn)AR):將其他目標(biāo)誤作指定目標(biāo)的概率;
拒識(shí)率(Falserejectrate,F(xiàn)RR):將指定目標(biāo)誤作其他目標(biāo)的概率;
識(shí)別正確率(Identificationrate):正確識(shí)別目標(biāo)次數(shù)與參與識(shí)別目標(biāo)的總次數(shù)之比。
8.5目標(biāo)跟蹤場景
a)模型:UDT、TADT、UMATracker;
b)數(shù)據(jù)集:MOT16、VOT、OTB;
c)性能評價(jià)指標(biāo):
準(zhǔn)確率(Accuracy):跟蹤器在單個(gè)測試序列下的平均重疊率(兩矩形框的相交部分面積
除以兩矩形框的相并部分的面積);
魯棒性(Robustness):單個(gè)測試序列下的跟蹤器失敗次數(shù),當(dāng)重疊率為0時(shí)即可判定為
失??;
平均重疊期望(Expectaverageoverlaprate,EAO):對每個(gè)跟蹤器在一個(gè)短時(shí)圖像序
列上的非重置重疊的期望值;
成功率曲線下面積,單目標(biāo)跟蹤任務(wù)時(shí),模型準(zhǔn)確率為縱軸,1減去準(zhǔn)確率的值為橫軸,
繪制成功率曲線,計(jì)算曲線下面積,為將正樣本判斷為正樣本的可能性大于判斷為負(fù)樣本
的可能性的概率;
多目標(biāo)跟蹤的準(zhǔn)確度(Multipleobjecttrackingaccuracy,MOTA):體現(xiàn)在確定目標(biāo)的
個(gè)數(shù),以及有關(guān)目標(biāo)的相關(guān)屬性方面的準(zhǔn)確度,用于統(tǒng)計(jì)在跟蹤中的誤差積累情況;
多目標(biāo)跟蹤的精確度(Multipleobjecttrackingprecision,MOTP):體現(xiàn)在確定目標(biāo)
位置上的精確度,用于衡量目標(biāo)位置確定的精確程度。
8.6行為檢測場景
a)模型:TGM、PGCN、SSN、BSN、BMN;
b)數(shù)據(jù)集:ActivityNet、Kinetics、THUMOS14、AVA、CASIA、UCSDPed2、ShanghaiTech;
c)性能評價(jià)指標(biāo):
視頻幀準(zhǔn)確度平均值:各類標(biāo)記結(jié)果正確的視頻幀數(shù)占標(biāo)記結(jié)果中該類視頻幀總數(shù)的比例
均值,即視頻幀中正確標(biāo)簽的第i類視頻幀數(shù)量與檢測結(jié)果中第i類視頻幀數(shù)比值的均
值。
視頻片段準(zhǔn)確率均值:各類標(biāo)記結(jié)果正確的視頻片段數(shù)占標(biāo)記結(jié)果中該類視頻總數(shù)的比例
均值,即視頻片段正確標(biāo)簽的第i類視頻片段數(shù)量與檢測結(jié)果中第i類視頻片段數(shù)比值的
均值。
8.7語音識(shí)別場景
a)模型:DeepSpeech2;
b)數(shù)據(jù)集:AISHELL-2;
c)性能評價(jià)指標(biāo):
9
T/CESXXX—XXXX
詞錯(cuò)誤率(WER):語音識(shí)別后,識(shí)別詞錯(cuò)誤喚醒的次數(shù)占總喚醒的百分比;
句錯(cuò)誤率(SER):語音識(shí)別后,識(shí)別句子錯(cuò)誤喚醒的次數(shù)占總喚醒的百分比。
8.8文字識(shí)別場景
a)模型:CRNN、CPTN;
b)數(shù)據(jù)集:MJ_LMDB、IIIT5k等;
c)性能評價(jià)指標(biāo):
F分?jǐn)?shù):綜合衡量精確率和召回率的指標(biāo)。
Precision×Recall
=
F-Score2
β×Precision+Recall
其中,
精確率(Precision):識(shí)別正確的結(jié)果在所識(shí)別的結(jié)果中所占的比率;
召回率(Recall):識(shí)別正確的結(jié)果占數(shù)據(jù)集中所有要識(shí)別出的總數(shù)的比率。
8.9本地語音喚醒場景
a)模型:DFSMN、CNN、DNN;
b)數(shù)據(jù)集:Speechcommandsdataset;
c)性能評價(jià)指標(biāo):
詞錯(cuò)誤率(WER):語音識(shí)別后,識(shí)別詞錯(cuò)誤喚醒的次數(shù)占總喚醒的百分比;
句錯(cuò)誤率(SER):語音識(shí)別后,識(shí)別句子錯(cuò)誤喚醒的次數(shù)占總喚醒的百分比。
8.10負(fù)荷辨識(shí)場景
a)模型:DAE、ShortSeq2Point、WindowGRU;
b)數(shù)據(jù)集:REDD、BLUED等;
c)性能評價(jià)指標(biāo):
精確率(Precision):TP/(TP+FP),識(shí)別正確的結(jié)果在所識(shí)別的結(jié)果中所占的比率;
正確率(Accuracy):(TP+TN)/(TP+FP+TN+FN)
Truepositives(TP):被正確劃分為正例的個(gè)數(shù),即實(shí)際為正例且被分類器劃分為正例
的樣本數(shù);
Falsepositives(FP):被錯(cuò)誤劃分為正例的個(gè)數(shù),即實(shí)際為負(fù)例且被分類器劃分為正例
的樣本數(shù);
Falsenegatives(FN):被錯(cuò)誤劃分為負(fù)例的個(gè)數(shù),即實(shí)際為正例且被分類器劃分為負(fù)例
的樣本數(shù);
Truenegatives(TN):被正確劃分為負(fù)例的個(gè)數(shù),即實(shí)際為負(fù)例且被分類器劃分為負(fù)例
的樣本數(shù)。
/
10
T/CESXXX—XXXX
附錄A
(規(guī)范性附錄)
A.1測試框架
A.1.1推理測試框架
推理測試框架見圖A.1。
測試框架被測系統(tǒng)
模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 瀝青材料相關(guān)知識(shí)
- 醫(yī)院綜合評價(jià)體系建設(shè)方案
- 2026年及未來5年市場數(shù)據(jù)中國海西經(jīng)濟(jì)區(qū)行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資潛力預(yù)測報(bào)告
- 2026年及未來5年市場數(shù)據(jù)中國健康服務(wù)行業(yè)市場發(fā)展數(shù)據(jù)監(jiān)測及投資策略研究報(bào)告
- 施工工序銜接問題解決方案
- 2026年及未來5年市場數(shù)據(jù)中國小信號(hào)分立器件行業(yè)市場深度分析及投資規(guī)劃建議報(bào)告
- 橋梁施工質(zhì)量控制方案
- 公共關(guān)系溝通計(jì)劃表資源分配及響應(yīng)方案版
- 如何用AI工具進(jìn)行全球議題
- 山體滑坡土石方治理方案
- 《降低輸液外滲率》課件
- 治療性低溫技術(shù)臨床應(yīng)用進(jìn)展
- 住院醫(yī)師規(guī)范化培訓(xùn)內(nèi)容與標(biāo)準(zhǔn)(2022年版)-骨科培訓(xùn)細(xì)則
- 2024-2025學(xué)年人教版小升初英語試卷及解答參考
- 2024年版《輸變電工程標(biāo)準(zhǔn)工藝應(yīng)用圖冊》
- 質(zhì)量信得過班組匯報(bào)材料
- 醫(yī)學(xué)倫理學(xué)案例分析
- 新概念英語第一冊階段測試題
- 金融科技對商業(yè)銀行業(yè)務(wù)的影響研究
- 寒假輔導(dǎo)班招生方案
- 打印OCX未正確安裝-解決辦法(新)【范本模板】
評論
0/150
提交評論