版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1人工智能芯片面向端側的深度學習芯片測試指標與測試方法本標準規(guī)定了對端側深度學習芯片進行功能、性能測試的測試指標、測試方法和要求,適用于通用端側深度學習芯片。本標準只規(guī)定端側深度學習芯片基準測試的一般原則,針對具體端側深度學習芯片產品應制定相應的測試細則。本標準適用于第三方機構對通用端側深度學習芯片進行性能測試與評估,也適用于端側深度學習芯片產品的采購、設計。2規(guī)范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.31-2006信息技術詞匯第31部分:人工智能機器學習GB/T5271.34-2006信息技術詞匯第34部分:人工智能神經網(wǎng)絡20190851-T-469信息技術人工智能術語T/CESA1026-2018人工智能深度學習算法評估規(guī)范3術語和定義下列術語和定義適用于本文件。3.1機器學習Machinelearning一種程序或系統(tǒng),用于根據(jù)輸入數(shù)據(jù)構建(訓練)預測模型。這種系統(tǒng)會利用學到的模型根據(jù)從分布(訓練該模型時使用的同一分布)中提取的新數(shù)據(jù)(以前從未見過的數(shù)據(jù))進行實用的預測。機器學習還指與這些程序或系統(tǒng)相關的研究領域。3.2深度學習DeepLearning機器學習中一種基于對數(shù)據(jù)進行表征學習的方法,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。3.3卷積神經網(wǎng)絡Convolutionalneuralnetwork2機器學習中一種基于對數(shù)據(jù)進行表征學習的方法,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。3.4循環(huán)神經網(wǎng)絡RecurrentNeuralNetwork一種神經網(wǎng)絡,是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進方向進行遞歸(recursion)且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經,網(wǎng)絡具有短期記憶能力的神經網(wǎng)絡。3.5遞歸神經網(wǎng)絡Recursiveneuralnetwork深度學習(deeplearning)算法之一,具有樹狀階層結構且網(wǎng)絡節(jié)點按其連接順序對輸入信息進行遞歸的人工神經網(wǎng)絡(ArtificialNeuralNetwork,ANN)。3.6層Layer神經網(wǎng)絡中的一組神經元,負責處理一組輸入特征,或一組神經元的輸出。3.7推理Inference在機器學習中,推斷通常指將訓練過的模型應用于無標簽樣本,進而來做出預測的過程。3.8批次Batch模型訓練的一次迭代(即一次梯度更新)中使用的樣本集。3.9批次大小Batchsize一個批次中的樣本數(shù)。批次大小在訓練和推斷期間通常是固定的。3.10測試集testset數(shù)據(jù)集的子集,用于在模型經由驗證集的初步驗證之后測試模型。4縮略語下列縮略語適用于本文件。3mAP:平均精度均值(MeanAveragePrecision)mIoU:平均交并比(MeanIntersectionoverUnion)FAR:誤識率(FalseAcceptRate)FRR:拒識率(FalseRejectRate)IR:識別正確率(IdentificationRate)WER:詞錯誤率(WordErrorRate)SER:句錯誤率(SentenceErrorRate)5技術要求5.1測試框架針對端側深度學習芯片的測試,主要是根據(jù)本標準中規(guī)定的評估方法,對其每個測試指標進行評估。詳細內容見“5試驗方法”。5.2測試對象端側人工智能處理器,具體形式有以下兩種:(1)端側人工智能處理器芯片(卡指以芯片卡形態(tài)進行使用的人工智能芯片,如FPGA以及ASIC等人工智能芯片(卡),可通過PCIE等接口與測試主機連接;(2)搭載人工智能處理器的端側產品。5.3測試網(wǎng)絡架構1)控制主機處理器架構:X86架構或ARM架構。2)支持主流的機器學習框架:Tensorflow、Caffe、MindSpore等。5.4測試場景信息1)典型應用場景:計算機視覺任務(圖像分類、目標檢測、語義分割等)和自然語言處理任務;2)數(shù)據(jù)集:公開數(shù)據(jù)集或真實應用場景數(shù)據(jù)集;3)模型:經典神經網(wǎng)絡模型或自定義模型。6測試方法6.1測試指標主要測試指標如表1所示:表1應用場景測試指標46.2測試指標描述6.2.1平均前向推理時間指模型完成一個樣本的推斷所需要時間。在圖像處理相關領域,利用指標每秒幀率(FramePerSecond,F(xiàn)PS)評估速度,即每秒內可以處理的圖片數(shù)量。6.2.2最大吞吐性能指單芯片或者多芯片在前向推理過程或訓練過程中可同時處理的最大樣本數(shù)量。6.2.3前向處理延遲性能硬件在進行前向推理計算過程中,從圖片輸入完成到計算結果開始輸出之間的時間間隔。6.2.4功耗進行模型推斷過程中,芯片(或其所在測試板)或搭載人工智能處理器的云的平均功率。6.2.5能效比進行模型推斷過程中,單芯片或者多芯片單位時間內執(zhí)行運算的次數(shù)與芯片功耗之比。6.3測試類型6.3.1通用測試參照附錄中“典型場景測試參照表”,針對不同領域采用公開數(shù)據(jù)集和經典神經網(wǎng)絡模型對端側深度學習芯片進行測試,驗證端側深度學習芯片在使用所屬應用領域主流公開數(shù)據(jù)集及主流神經網(wǎng)絡模型時的功能及性能特征。6.3.2專用測試采用用戶提供的真實應用場景數(shù)據(jù)集(公開可獲?。┗蛘咂渥远x神經網(wǎng)絡模型對端側深度學習芯片進行測試,驗證其端側深度學習芯片在使用真實應用場景數(shù)據(jù)集或者自定義神經網(wǎng)絡模型時的功能及性能特征。6.4指標測試方法6.5.1平均前向推理時間平均前向推理時間的單位是ms(毫秒)。指被測硬件使用神經網(wǎng)絡模型平均預測一單位測試數(shù)據(jù)所需要的時間。計算公式:平均前向推理時間=注:5總預測時間:被測硬件使用神經網(wǎng)絡模型,在測試數(shù)據(jù)集上完成測試所使用的總計算時間(硬件一次處理一單位的測試數(shù)據(jù))??倻y試樣本數(shù)量:指測試數(shù)據(jù)集中樣本的總數(shù)量。6.5.2最大吞吐性能硬件在進行訓練和前向推理計算過程中,單位時間內能輸入的最大樣本數(shù)量??梢栽谟柧毢颓跋蛲评碛嬎闱?,通過不斷調整參數(shù),增加單位時間內輸入樣本的數(shù)量,來最終確定硬件的最大吞吐性能。6.5.3前向處理延遲性能前向處理延遲的單位是ms(毫秒)硬件在進行前向推理計算過程中,從圖片輸入完成到計算結果開始輸出之間的時間間隔。計算公式:前向處理延遲=當前幀處理結果開始輸出的時刻-當前幀輸入完成時刻6.5.4功耗功耗的單位是watt(瓦特)。指執(zhí)行測試期間的被測硬件平均功耗。針對不同形態(tài)的被測對象使用對應的功耗測試方法,對被測硬件在執(zhí)行測試期間的功耗情況進行記錄,最終通過計算得到該硬件的平均功耗情況。6.5.5能效比能效比的單位是:images/sec/watt(處理圖像數(shù)量/秒/瓦特)。針對自然語言處理任務,能效比的單位是:word/sec/watt(處理單詞數(shù)量/秒/瓦特)。計算公式:能效比=注:總計算操作數(shù)量:指用于測試的神經網(wǎng)絡模型中,所有計算操作的總數(shù)量和。功耗:指執(zhí)行測試期間的硬件平均功耗。6通用端側深度學習芯片測試參數(shù)參照表務1234126.2.1應用場景描述說明:6.31.圖像分類及分類效果評估任務為準確識別圖片中的物體類別,擬采用模型ResNet-50、ResNet-101、VGG16、Inception-v3和MobileNet,數(shù)據(jù)集為ImageNet。衡量圖像分類效果的性能評價指標為:Top-1準確率:圖像分類結果中排名第一的分類類別與實際結果相同的準確率;Top-5準確率:圖像分類結果中排名前五的分類類別包含實際結果的準確率。76.42.目標檢測及檢測效果評估任務為在給定的圖片中精確找到物體所在位置、并標注出物體的類別。包括兩階段模型(FasterR-CNN)和一階段模型(YoloV3、SSD),數(shù)據(jù)集為VOC、COCO。衡量目標檢測效果的性能評價指標為:平均精度均值(MeanAveragePrecision,mAP):數(shù)據(jù)集中所有類別的平均精度的均值。計算公式:平均精度均值=所有類別的平均精度值之和/所有類別的數(shù)目6.53.語義分割及分割效果評估任務為逐像素的標注任務,即為輸入圖像中每一個像素賦予預先設定的類別,選取模型為Deeplabv3+,SegNet,U-Net和FCN,數(shù)據(jù)集VOC2012和Citescape。衡量圖像語義分割任務的性能評價指標為:平均交并比(MeanIntersectionoverUnion,mIoU):所有類別的交并比IoU的平均值。計算真實值(groundtruth)和預測值(predictedsegmentation)兩個集合的交集和并集之比,即為每個類別的交并比IoU。F分數(shù):綜合權衡精確率和召回率的指標。計算公式:F-Score=PrecisionF-Score=Precision.Recall注:精確率(Precision):識別正確的結果在所識別出的結果中所占的比率;召回率(Recall):識別正確的結果占數(shù)據(jù)集中所有要識別出的總數(shù)的比率。6.64.人臉識別及識別效果評估任務為在給定的人臉中準確的識別出人的特征,選區(qū)模型為DeepID3和ArcFace,數(shù)據(jù)集為WebFace和LFW。身份衡量人臉識別效果采取的性能評價指標為:8誤識率(FalseAcceptRate,FAR):此處表示將其他人誤作指定人員的概率;拒識率(FalseRejectRate,FRR):此處表示將指定人員誤作其它人員的概率;識別正確率(IdentificationRate):此處表示正確識別人次與參與識別的注冊人員總人次之比。6.75.機器翻譯及效果評估任務為將給定的中文、英文或其他語言文本翻譯成另外一種制定語言的過程。使用模型seq2seq,數(shù)據(jù)集采用聯(lián)合國平行語料庫、AIChallenger文本翻譯數(shù)據(jù)集。衡量機器翻譯效果采取的性能評價指標為:BLEU(bilingualevaluationunderstudy):用于評價機器譯文與參考譯文的相似度。計算公式:BLEU=同時出現(xiàn)在機器譯文和參考譯文中的詞的個數(shù)/機器譯文的單詞數(shù)目METEOR(MetricforEvaluationofTranslationwithExplicitOrdering):用于評價機器學習翻譯系統(tǒng)的指標,為對應最佳候選譯文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學中藥炮制(中藥炮制實操)試題及答案
- 2025年高職生物技術(微生物培養(yǎng))試題及答案
- 2025年大學母嬰照護(母嬰健康常識)試題及答案
- 2025年中職美發(fā)與形象設計(化妝技巧)試題及答案
- 2025年大學特種經濟動物飼養(yǎng)(蠶桑養(yǎng)殖技術)試題及答案
- 2025年大學大一(物聯(lián)網(wǎng)工程)物聯(lián)網(wǎng)安全實務試題及答案
- 2025年大學車輛工程(汽車電子)期末試題
- 2025年中職珠寶玉石加工與營銷(珠寶營銷技巧)試題及答案
- 2025年高職物流審計(物流審計基礎)試題及答案
- 2025年高職計算機網(wǎng)絡技術(網(wǎng)絡安全配置)試題及答案
- 十五五學校五年發(fā)展規(guī)劃(2026-2030)
- 洗浴員工協(xié)議書
- GB/T 17642-2025土工合成材料非織造布復合土工膜
- 清欠歷史舊賬協(xié)議書
- 臨床創(chuàng)新驅動下高效型護理查房模式-Rounds護士查房模式及總結展望
- 乙肝疫苗接種培訓
- 心衰患者的用藥與護理
- 食品代加工業(yè)務合同樣本(版)
- 車間管理人員績效考核方案
- 安全生產應急平臺體系及專業(yè)應急救援隊伍建設項目可行性研究報告
- 浙江省杭州市北斗聯(lián)盟2024-2025學年高二上學期期中聯(lián)考地理試題 含解析
評論
0/150
提交評論