MTSC2025 第十四屆中國互聯(lián)網(wǎng)測試開發(fā)大會(上海站):華為ADC Code Agent 評測實踐_第1頁
MTSC2025 第十四屆中國互聯(lián)網(wǎng)測試開發(fā)大會(上海站):華為ADC Code Agent 評測實踐_第2頁
MTSC2025 第十四屆中國互聯(lián)網(wǎng)測試開發(fā)大會(上海站):華為ADC Code Agent 評測實踐_第3頁
MTSC2025 第十四屆中國互聯(lián)網(wǎng)測試開發(fā)大會(上海站):華為ADC Code Agent 評測實踐_第4頁
MTSC2025 第十四屆中國互聯(lián)網(wǎng)測試開發(fā)大會(上海站):華為ADC Code Agent 評測實踐_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

華為ADCCodeAgent評測實踐陳永健目錄C

O

N

T

E

N

T

S

1.

華為

ADC

CodeAgent平臺介紹2.

CodeAgent評測挑戰(zhàn)與實踐總體思路3.

評測標(biāo)準(zhǔn)與體驗一致性優(yōu)化4.

構(gòu)建領(lǐng)域智碼評測系統(tǒng)5.

業(yè)務(wù)效果與下一步展望華為ADCCodeAgent平臺介紹01ADC:一體化編排應(yīng)用開發(fā)平臺低門檻/高效率

可信安全?

支持以圖形化、類自然語言方式構(gòu)造應(yīng)用服務(wù)?

開放流程、界面、數(shù)據(jù)、AI等多種編排能力,

所見即所得生態(tài)開放?

支持多協(xié)議、多引擎,隨心構(gòu)建、極速集成擴(kuò)展?

API集成圖形編排,集成資產(chǎn)全面復(fù)用共享從低碼到智碼,華為ADC應(yīng)用開發(fā)平臺ADC(Agent

DevelopmentCenter)是一個面向業(yè)務(wù)開發(fā)者低代碼、安全可信的全場景開發(fā)平臺,具備完整的資產(chǎn)生命周期管理工具鏈,提供以業(yè)務(wù)資產(chǎn)為核心的高效復(fù)用的新開發(fā)模式。支撐多場景基于低碼編排快速實現(xiàn)業(yè)務(wù)應(yīng)用企業(yè)場景生態(tài)伙伴低碼開發(fā)應(yīng)用5G行業(yè)應(yīng)用智慧運營網(wǎng)絡(luò)集成?

提供APP質(zhì)量評估系統(tǒng),保障APP高質(zhì)量交付?

提供端到端可信工具鏈,輕松構(gòu)建可信APP資產(chǎn)智能運維…學(xué)習(xí)資料多,高能耗集中開發(fā)者求助開銷大0

碼輸入簡單運行即應(yīng)用需求即應(yīng)用多模態(tài)設(shè)計即開發(fā)

多輪澄清式開發(fā)

自然語言開發(fā)不懂開發(fā)CUI/LUI進(jìn)入智碼時代,體驗變革:1.輸入更簡單:從代碼

自然語言多模態(tài)2.不需懂開發(fā):從懂開發(fā)懂業(yè)務(wù)1

高碼2

低碼拖拉拽Level

3

Level

2

Level

1

Level

0

華為ADCCodeAgent智能化演進(jìn)之路L5Level4場景級智能輔助跨元素智能輔助,仍以人工開發(fā)為主有條件智能化以智能開發(fā)為主,人工做必要的輔助

完全智能化全部不需開發(fā)者,自動完成開發(fā)高度智能化限定的場景下,不需開發(fā)者智能輔助單一開發(fā)元素的智能輔助無智能化拖拉拽,無智能化3

智碼智碼等級Next智能推薦寫代碼當(dāng)前目標(biāo)now產(chǎn)生代碼確認(rèn)代碼完整開發(fā)旅程中,構(gòu)建智碼核心競爭力,還存在多個環(huán)節(jié)智能提效缺失或不足,同時已有能力還需要進(jìn)一步做深、做廣。測試用例自動生成智能化測試智能檢測和自動優(yōu)化華為ADCCodeAgent完整開發(fā)旅程的智碼全景

設(shè)計●存量修改和關(guān)聯(lián)修改智能發(fā)現(xiàn)問題和自動優(yōu)化>單個元素>端到端跨元素智能推薦調(diào)試&測試

驗收

發(fā)布Copilot輔助生成

輔助代碼解釋智能問答智能續(xù)寫/推薦存量轉(zhuǎn)需求澄清ST問題多文字描述難端到端生成難需求澄清器

SA需求即應(yīng)用存量修改難采納代碼難讀懂代碼

查閱資料調(diào)測耗時、易遺漏多模態(tài)輸入智能智能分段采納修改代碼理解需求反復(fù)迭代1需求Agent需求完整功能點2設(shè)計Agent功能點設(shè)計方案3開發(fā)Agent設(shè)計方案代碼4質(zhì)量Agent設(shè)計方案+代碼驗證結(jié)果運維AgentApp運維報告作業(yè)Agent指令完成作業(yè)華為CodeAgent平臺特性全景,端到端低門檻智能開發(fā),更聚焦業(yè)務(wù)成功CodeAgent讓開發(fā)更簡單橫:場景類AgentMulti-Agent以可閱讀文檔為中間物,實現(xiàn)人和Agent協(xié)同改代碼Agent改、刪、重構(gòu)搜讀代碼Agent搜讀寫代碼Agent增Next智能推薦服務(wù)于人

+服務(wù)于AgentTT單Agent大屏AgentCR單Agent縱:開發(fā)活動AgentDTAgent白盒測試盤古領(lǐng)域大模型測試Agent

黑盒測試質(zhì)量檢測Agent檢查代碼優(yōu)化Agent修復(fù)…多模態(tài)溝通25年重點關(guān)鍵能力大模型:領(lǐng)域理解/推理/推薦/多模態(tài)Agent均需考慮變更情況CodeAgent評測挑戰(zhàn)與實踐總體思路02產(chǎn)品知識、社區(qū)帖子、

Python技術(shù)問答知識規(guī)模、分類維度、完備性模型創(chuàng)建、模型修改調(diào)整場景分類、完備性、復(fù)雜度流程創(chuàng)建、流程修改調(diào)整流程分類、復(fù)雜度、完備性頁面編排、大屏編排單組件/多組件(屬性)組合爆炸Python腳本、頁面JS、服務(wù)RhinoJS、TQL代碼生成、代碼解釋、代碼檢視代碼場景庫復(fù)雜度、完備性評估標(biāo)準(zhǔn)痛點?

每一類測試集評估方法和標(biāo)準(zhǔn)不一樣;?

評估標(biāo)準(zhǔn)如何構(gòu)建,符合用戶要求;?

評估標(biāo)準(zhǔn)如何落地,并進(jìn)一步實現(xiàn)自動化;驗證效率痛點?

測試集規(guī)模大,人工測試效率底;?

不同測試集自動化測試方法不一樣;?

如何實現(xiàn)快速對比多版本測試集結(jié)果差異性。測試集構(gòu)建痛點?

不同測試集分類,構(gòu)建方法不一樣;?

每一類測試集應(yīng)該覆蓋哪些維度;?

測試集規(guī)模和完備性如何確定和評估;?

測試集本身質(zhì)量,如何評審評估優(yōu)化AI4Design(需求與設(shè)計)AI4Flow(Workflow&Service)AI4ScriptAI4UIAI4Assist(知識問答)AI4ModelCodeAgent智碼評測挑戰(zhàn)流程界面UI腳本生成/解釋/檢視/技術(shù)問答知識問答需求與設(shè)計模型代碼澄清會議紀(jì)要設(shè)計稿生成大屏/頁面設(shè)計規(guī)范自然語言生成流程規(guī)則條件Pycharm插件終端JS輔助服務(wù)JS輔助批量調(diào)整大屏組件屬性批量調(diào)整大屏組件風(fēng)格Python函數(shù)服務(wù)輔助生成頁面/大屏框架租戶級私域知識導(dǎo)入萬能頁面/大屏圖表組件自然語言建模SQL生成模型屬性約束推薦生成大屏圖表批量調(diào)整大屏組件布局生成頁面組件PC、大屏JS輔助智能API檢索輔助生成流程環(huán)節(jié)服務(wù)參數(shù)批量配置輔助生成

服務(wù)TQL查詢自然語言生成流程框架模型測試數(shù)據(jù)生成模型級聯(lián)服務(wù)頁面生成SQL檢視SQL解釋輔助流程規(guī)則測試Excel建模需求描述規(guī)范歷史設(shè)計文檔原始需求社區(qū)問答知識問答知識問答智能組件Welink知識問答集成歷史需求文檔知識問答產(chǎn)品文檔社區(qū)案例知識問答原始需求、存量需求、存量設(shè)計、規(guī)范領(lǐng)域業(yè)務(wù)知識、用戶場景、產(chǎn)品知識代碼評測挑戰(zhàn)?

生成的代碼片段不可執(zhí)行,無法通過測試用例執(zhí)行評估!?

關(guān)于代碼評測指標(biāo)多種多樣,如何選取適合業(yè)務(wù)實際場景的評測指標(biāo)??

多語言代碼如何評測,是否能統(tǒng)一評測框架?CodeAgent智碼評測挑戰(zhàn):代碼生成評測隨著模型效果的顯著提升,模型評測的重要性日益凸顯。代碼評測也是大模型應(yīng)用評測一個很重要的垂類領(lǐng)域,如何客觀的、系統(tǒng)性的、自動化的量化評測AIGC生成代碼的質(zhì)量是一件極具挑戰(zhàn)的事情。什么是好的代碼??

功能正確性?

符合編碼規(guī)范?

安全合規(guī)?

高性能?

高可靠性?

高可維護(hù)性?

代碼可讀性

?

…ADCCodeAgent研發(fā)階段測評E2E全景ADCCodeAgentE2E商用發(fā)布評測

選型測評集

選型評估報告

模型入圍

測評標(biāo)準(zhǔn)ADC智碼大模型測評L2模型領(lǐng)域模型過程評測L0/L1模型基礎(chǔ)模型選型

訓(xùn)練語料測評領(lǐng)域業(yè)務(wù)測評集測評問題定級發(fā)布標(biāo)準(zhǔn)

測評標(biāo)準(zhǔn)

測評自動化測評與問題提單

問題關(guān)閉標(biāo)準(zhǔn)ABC?------------------------------------------------------------0204業(yè)務(wù)類別/用戶活動/業(yè)務(wù)目標(biāo)

易用維、效率維…測試集三大要素

評估標(biāo)準(zhǔn)(指標(biāo))

正確性、相關(guān)性、完整性、流暢性、隱私保護(hù)、偏見性、魯棒性

…評測集構(gòu)建思路:以業(yè)務(wù)能力評測為主,兼顧評測通用能力對業(yè)務(wù)能力的基礎(chǔ)影響,

同時具備快速開展全量評估能力(自動化)應(yīng)對不同版本不同模型下測試結(jié)果對比測試集參考架構(gòu)?

用戶TASK?質(zhì)量屬性維?

評估標(biāo)準(zhǔn)業(yè)務(wù)場景驅(qū)動?價值流/業(yè)務(wù)場景?

業(yè)務(wù)目標(biāo)?業(yè)務(wù)流程/用戶活動ADCCodeAgent評測試集構(gòu)建總體思路業(yè)務(wù)場景(用戶)用戶TASK+系統(tǒng)功能質(zhì)量屬性維度輸入

支撐功能維、安全維、性能維、可靠性維、五類

標(biāo)六大評測場景AI4Design

(需求與設(shè)計)AI4Assist(知識問答)AI4ModelAI4Flow(Workflow&Service)AI4UI

AI4Script評測工具權(quán)重合理性分析說明:跟隨系統(tǒng)能力、用戶反饋不斷調(diào)優(yōu),擬合用戶感受主觀評測+客觀評測、人工評測+

自動評測評測平臺上下

性明確性流暢性可執(zhí)行完整性相關(guān)性正

性項目管理環(huán)境對接管理評測數(shù)據(jù)管理評測任務(wù)管理模型結(jié)果人工復(fù)核問題看板評測報告理論支撐技術(shù)支撐ADCCodeAgent智碼評測框架準(zhǔn)確性評測方法與分析多次問答的相同性多次問答的準(zhǔn)確性魯棒性性能效率安全性完整性相關(guān)性正

性流暢性非流式響應(yīng)耗時可交付性支持并發(fā)流式響應(yīng)耗時穩(wěn)定性規(guī)范性符合倫理模

型安

全信息安全內(nèi)容合規(guī)自動化分析現(xiàn)網(wǎng)數(shù)據(jù)分析OBP指標(biāo)分析一致性腳本生成/解釋/檢視/技術(shù)問答擴(kuò)展評測基礎(chǔ)評測對比評測體驗評測故障管理告警派單變更管理油機(jī)管理業(yè)務(wù)場景自然語言生成流程規(guī)則條件自然語言生成輔助流程規(guī)則測試模型級聯(lián)服務(wù)頁面生成模型測試數(shù)據(jù)生成模型屬性約束推薦Excel建模自然語言建模SQL生成SQL檢視SQL解釋PC、大屏JS輔助Python函數(shù)服務(wù)輔助輔助生成

服務(wù)TQL查詢輔助生成

流程環(huán)節(jié)服務(wù)參數(shù)批量配置設(shè)計稿生成大屏/頁面批量調(diào)整大屏組件布局萬能頁面/大屏圖表組件批量調(diào)整大屏組件風(fēng)格生成頁面/大屏框架生成大屏

圖表批量調(diào)整大屏組件屬性智能API檢索服務(wù)JS輔助終端JS輔助Pycharm插件社區(qū)問答

知識問答Welink知識問答集成知識問答

產(chǎn)品文檔社區(qū)案例

知識問答知識問答

智能組件租戶級私域知識導(dǎo)入設(shè)計規(guī)范歷史需求文檔需求描述規(guī)范歷史設(shè)計文檔原始需求描述澄清會議紀(jì)要生成頁面組件流程框架

評測標(biāo)準(zhǔn)1、文檔規(guī)范:?語法正確性:沒有基礎(chǔ)語法問題,沒有錯別字、拼寫錯誤等?文檔可讀性:文檔結(jié)構(gòu)層次清晰,語言表達(dá)通俗易懂,用詞精準(zhǔn),圖表緊密合,無長篇大論的文字描述。?格式規(guī)范性:使用正確的文檔模板,包括文檔命名、封面、目錄、頁眉頁腳等2、內(nèi)容質(zhì)量:?完整性:需求文檔內(nèi)容關(guān)鍵元素完整,場景覆蓋完整,功能/非功能需求表述完整?明確性:無歧義表述,避免使用“可能”“盡量”等模糊詞匯;需求分析過程按照邏輯順序組織;指標(biāo)量化,對異常場景處理有明確方案;專業(yè)術(shù)語有明確定義?一致性:業(yè)務(wù)需求、用戶需求、系統(tǒng)需求之間映射一致性;功能與非功能之間各條目相互支持,不存在邏輯上的矛盾;文檔中使用的術(shù)語和定義保持一致性。3、可交付性:?技術(shù)可行性:需求設(shè)計方案具備可落地性,包括時間、成本等?可驗證性:有明確的驗收標(biāo)準(zhǔn),包括量化的性能指標(biāo)、功能邊界、系統(tǒng)規(guī)格約束

評估方式:1、從文檔規(guī)范性、內(nèi)容質(zhì)量、可交付性三個維度,對需求文檔的章節(jié)內(nèi)容質(zhì)量和整體質(zhì)量進(jìn)行評估打分;2、采用扣分制(滿分100),細(xì)分每個評測維度的指標(biāo)項、權(quán)重和扣分原則。3、匯總每個維度加權(quán)扣分值計算總得分,并根據(jù)得分劃分等級(優(yōu)秀/良好/不合格)分析引擎需求分析AgentSSE(ServerSent

Events)Section2prompt上下文優(yōu)化目標(biāo)多版本管理范圍文生圖插件假設(shè)與約束promptSDK出口管制其他假設(shè)和約束API

全量生成API章節(jié)優(yōu)化API

導(dǎo)入、導(dǎo)出APIADCCodeAgent需求分析Agent被測對象分析與評測標(biāo)準(zhǔn)場景庫:知識導(dǎo)入、知識清洗、領(lǐng)域知識管理、場景知識召回章節(jié)分析多路結(jié)果渲染文檔模板管理

被測對象業(yè)務(wù)邏輯分析

評測標(biāo)準(zhǔn)和評估方式任務(wù)過程狀態(tài)

文檔章節(jié)內(nèi)容需求簡介promptSection1prompt章節(jié)樹知識問答:1、語料入庫2、多路召回:

IRQA知識檢索、向量庫語料檢索3、大模型處理輸出關(guān)鍵要素:1、語料質(zhì)量:不同來源質(zhì)量差異大(產(chǎn)品文檔、開發(fā)者社區(qū)等)2、語料清洗:清洗后的準(zhǔn)確性(是否包含敏感信息)3、輸入內(nèi)容:

自然語言4、語料檢索:chunk分塊、向量化,召回后知識的上下文相關(guān)性5、大模型匯總輸出結(jié)果:相關(guān)性、正確性、流暢性6、最終用戶界面結(jié)果展示:樣式、引文、推薦問題等

評測集構(gòu)建維度來源1、基于語料知識庫構(gòu)建:語料加工/泛化的問題,效率高2、基于業(yè)務(wù)特性進(jìn)行全功能點覆蓋構(gòu)建:功能樹3、不同用戶角色進(jìn)行用戶場景覆蓋:初學(xué)者、資產(chǎn)開發(fā)者、資產(chǎn)管理員、運維人員等構(gòu)建不同用戶場景、不同難易程度的問題4、真實用戶反饋:收集真實場景下系統(tǒng)表現(xiàn)的數(shù)據(jù),了解用戶需求和期望

結(jié)果評估1、評估方式:1)參考答案VS實際結(jié)果,語義相似度2)

5分制評估,

P=正確性*0.4+相關(guān)性*0.3+完

整性*0.2+流暢性*0.1;

P>=3.5視為準(zhǔn)確2、關(guān)鍵因素:“參考答案”的制定,主客觀結(jié)合ADCCodeAgent知識問答測評集與評測標(biāo)準(zhǔn) 被測對象業(yè)務(wù)邏輯分析

評測集構(gòu)建NL2Model、

Excel2Model:構(gòu)建Prompt模板,根據(jù)自然語言生成Mysql建表語句,對接大模型生成中間DSL,解析中間DSL,

轉(zhuǎn)換為模型結(jié)構(gòu)的JSON,最后進(jìn)行生成結(jié)果修正、添加系統(tǒng)字段、完善約束信息等后置處理。關(guān)鍵要素:1、輸入內(nèi)容:自然語言、

Excel2、

Prompt:

mpt、excel2modempt、

mpt3、大模型生成mysql建表語句:生成內(nèi)容的相關(guān)性、語法正確性、需求匹配度(字段名稱、類型)、數(shù)據(jù)類型&約束合理性、業(yè)務(wù)

邏輯一致性(例如:訂單表中要有訂單狀態(tài)字段)4、大模型生成中間DSL:轉(zhuǎn)換的完整性、正確性、可執(zhí)行5、adc-model后處理:模型的Json結(jié)構(gòu)等

測試集1、輸入內(nèi)容:自然語言、

Excel;指定模型字段/約

束、不指定模型字段/約束2、功能特性:基于模型元數(shù)據(jù)的JSON結(jié)構(gòu)進(jìn)行,模型類型、模型字段類型、模型約束等功能點遍歷覆蓋3、業(yè)務(wù)場景:設(shè)備管理、考勤管理、訂單等模型覆

蓋4、真實用戶反饋:收集真實場景下系統(tǒng)表現(xiàn)的數(shù)據(jù),了解用戶需求和期望

結(jié)果評估1、評估方式:1)參考答案VS實際結(jié)果2)

5分制評估,

P=正確性*0.4+完整性*0.3

+可執(zhí)行性*0.2+相關(guān)性*0.1;

P>=3.5視為準(zhǔn)確2、擴(kuò)展評估:主鍵/索引、字段說明、用途描述等擴(kuò)展性3、關(guān)鍵因素:“參考答案”,尤其是模型元數(shù)據(jù)約束制定,偏主觀ADCCodeAgent數(shù)據(jù)模型類測評集與評測標(biāo)準(zhǔn)

被測對象業(yè)務(wù)邏輯分析

評測集構(gòu)建NL2TQL:根據(jù)自然語言,從向量庫進(jìn)行模型信息檢索,基于Prompt模板對接大模型生成Mysql語句,使用

SQL2TQL轉(zhuǎn)換成TQL語句,然后進(jìn)行函數(shù)轉(zhuǎn)換、變量轉(zhuǎn)換、語法修正等一系列后處理。關(guān)鍵要素:1、輸入內(nèi)容:自然語言2、

Prompt:tql_generation_zh_CN.prompt、tql_explain_zh_CN.prompt、tql_optimize_zh_CN.prompt3、向量庫檢索:檢索結(jié)果相關(guān)性4、大模型生成Mysql語句:生成內(nèi)容的相關(guān)性、語法正確性、需求理解和匹配度、業(yè)務(wù)邏輯正確性、安全性、性能/效率5、

SQL2TQL、adc-model后處理:后處理的TQL可執(zhí)行、語法正確、模型/變量、安全性、查詢性能等

測試集1、輸入內(nèi)容:自然語言2、功能特性:基于TQL支持語法結(jié)構(gòu),進(jìn)行單表/多表查詢、帶TQL函數(shù)、帶condition、別名等;(基于大模型泛化的查詢語句補(bǔ)充覆

蓋)3、業(yè)務(wù)場景:告警、工單等數(shù)據(jù)查詢TQL4、真實用戶反饋:收集真實場景下系統(tǒng)表現(xiàn)的數(shù)據(jù),了解用戶需求和期望

結(jié)果評估1、評估方式:1)參考答案VS實際結(jié)果2)

5分制評估,

P=正確性*0.4+完整性*0.3

+可執(zhí)行性*0.2+相關(guān)性*0.1;

P>=3.5視為準(zhǔn)

確2、擴(kuò)展評估:結(jié)構(gòu)清晰可讀3、關(guān)鍵因素:“參考答案”ADCCodeAgentSQL/TQL類測評集與評測標(biāo)準(zhǔn)

被測對象業(yè)務(wù)邏輯分析

評測集構(gòu)建根據(jù)自然語言,調(diào)用大模型做步驟拆解、信息提取,從向量庫匹配私域知識,動態(tài)構(gòu)建Prompt,然后調(diào)用大模型生

成代碼,adc-studio-xxx進(jìn)行代碼語法檢查、糾錯等后處理。關(guān)鍵要素:1、輸入內(nèi)容:自然語言2、

Prompt:動態(tài)構(gòu)建3、

向量庫檢索:檢索私域知識的相關(guān)性、正確性4、大模型生成代碼:生成內(nèi)容的相關(guān)性、完整性、語法正確性、

需求理解和匹配度、業(yè)務(wù)邏輯正確性、安全性5、adc-studio-xxx:后處理后的代碼語法正確、可執(zhí)行、執(zhí)行效率等

測試集1、輸入內(nèi)容:自然語言2、功能特性:平臺提供的API、

SDK接口全覆蓋代碼片段生成;3、業(yè)務(wù)場景:設(shè)備管理、告警派單、費用報銷

、請假流程、考勤系統(tǒng)等的服務(wù)JS、頁面JS等代碼生成場景(來源:業(yè)務(wù)資產(chǎn)包)4、真實用戶反饋:收集真實場景下系統(tǒng)表現(xiàn)的數(shù)據(jù),了解用戶需求和期望

結(jié)果評估1、評估方式:1)代碼靜態(tài)檢查(需求、邏輯、合規(guī)),

P=需求*0.5+邏輯*0.3

+合規(guī)*0.23)代碼可執(zhí)行:基于任務(wù)pass@kk=10;通

過率

=通過的用例數(shù)/K*用例數(shù)2、擴(kuò)展評估:結(jié)構(gòu)清晰可讀、代碼注釋、執(zhí)行效率3、關(guān)鍵因素:可執(zhí)行性評估,依賴代碼上下文補(bǔ)齊

+代碼可執(zhí)行性評估框架(目前不具備)ADCCodeAgent領(lǐng)域代碼腳本類測評集與評測標(biāo)準(zhǔn)代碼庫動態(tài)構(gòu)建promptLLM生成代碼后處理輸出(代碼檢查、格式校驗)上下文前處理JSPythonJavaShell

…私域知識匹配

被測對象業(yè)務(wù)邏輯分析步驟拆解代碼

評測集構(gòu)建關(guān)鍵要素:1、輸入內(nèi)容:自然語言2、

Prompt:動態(tài)構(gòu)建3、大模型生成DSL:生成內(nèi)容的相關(guān)性、完整性、語法正確性、需求理解和匹配度、業(yè)務(wù)

邏輯正確性4、adc-studio-ui:根據(jù)DSL設(shè)置組件屬性并渲染頁面組件

效果

測評集1、輸入內(nèi)容:自然語言2、功能特性:

1)組件粒度:組件屬性、組件

事件、組件數(shù)據(jù)源遍歷覆蓋;

2)頁面粒度:表單/表格、基于大屏模板推薦生成大屏頁面3、業(yè)務(wù)場景:大屏監(jiān)控、報表分析等場景下的

頁面、頁面組件4、真實用戶反饋:收集真實場景下系統(tǒng)表現(xiàn)的數(shù)據(jù),了解用戶需求和期望

結(jié)果評估1、評估方式:1)參考答案VS實際結(jié)果2)

5分制評估,

P=正確性*0.4+完整性*0.3

+

可執(zhí)行性*0.2+相關(guān)性*0.1;

P>=3.5視為準(zhǔn)確2、擴(kuò)展評估:生成效率3、關(guān)鍵因素:“參考答案”頁面框架生成組件級輔助編排高級場景輔助編排ADCCodeAgent

UI編排類測評集與評測標(biāo)準(zhǔn)D2C生成大屏頁面自然語言生成大屏頁面框架自然語言生成PC頁面框架D2C生成PC頁面

被測對象業(yè)務(wù)邏輯分析生成Echarts通用圖表生成頁面腳本生成統(tǒng)一數(shù)據(jù)源組件綁定數(shù)據(jù)源調(diào)整頁面布局組件智能推薦組件自動生成組件屬性調(diào)整組件批量對齊

測試集評測基于自然語言通過gpt轉(zhuǎn)化成BPMN2.0XML

,adc-bpm支持基于bpmn創(chuàng)建基礎(chǔ)流程,生成流程相關(guān)的編排元素,包括:模型、服務(wù)、頁面。關(guān)鍵要素:1、輸入內(nèi)容:自然語言2、

Prompt:procmpt、

mpt、

mpt3、大模型生成BPMN2.0XML:生成內(nèi)容的相關(guān)性、完整性、語法正確性、需求理解和匹配度、業(yè)務(wù)邏輯正確性4、adc-bpm基于BPMN創(chuàng)建基礎(chǔ)流程:調(diào)用各個編排元素進(jìn)行元數(shù)據(jù)轉(zhuǎn)換、基礎(chǔ)模板、創(chuàng)建的流程可執(zhí)行5、匯總后的結(jié)果展示:新增/修改/刪除功能等

測試集1、輸入內(nèi)容:自然語言、

Excel;2、功能特性:基于流程元數(shù)據(jù)的bpmn_model、

basic_info進(jìn)行遍歷覆蓋,基于流程支持事件、活動、網(wǎng)關(guān)等覆蓋3、業(yè)務(wù)場景:變更管理、告警故障管理、問題單處理等典型流程4、真實用戶反饋:收集真實場景下系統(tǒng)表現(xiàn)的數(shù)據(jù),了解用戶需求和期望

結(jié)果評估1、評估方式:1)參考答案VS實際結(jié)果2)

5分制評估,

P=正確性*0.4+完整性*0.3

+可執(zhí)行性*0.2+相關(guān)性*0.1;P>=3.5視為準(zhǔn)確2、擴(kuò)展評估:簡潔性(避免過度復(fù)雜化、

合理分層為子流程等)3、關(guān)鍵因素:“參考答案”ADCCodeAgent流程編排類測評集與評測標(biāo)準(zhǔn)

被測對象業(yè)務(wù)邏輯分析

測試集評測評測標(biāo)準(zhǔn)與體驗一致性優(yōu)化03測試數(shù)據(jù)構(gòu)建(更新迭代)用戶分析結(jié)果評估測試效率提升打分

+評估評估標(biāo)準(zhǔn)、評估執(zhí)行(多人多輪)、版本間/模型間對比【自動化】大模型應(yīng)用評測系統(tǒng)【自動化】業(yè)務(wù)測試系統(tǒng)好的評測標(biāo)準(zhǔn)是評測結(jié)果與用戶體驗一致真實用戶Good/BadCase性能基線(負(fù)載/響應(yīng)時間)業(yè)務(wù)場景輸入指令因子庫安全測試集ADC

Code

Agent評測資產(chǎn)庫用戶交互體驗功能測試集構(gòu)建完善構(gòu)建中持續(xù)構(gòu)建優(yōu)化穩(wěn)定性魯棒性評測能力與指標(biāo)項通順性檢測重復(fù)啰嗦

內(nèi)容混亂截斷正確性判定

結(jié)果正確性邏輯正確性事實正確性一致性判定

多輪一致性代碼實現(xiàn)一致性上下文一致性遵從性判定

指令未執(zhí)行

規(guī)范遵從(代碼)

指令未遵從要求執(zhí)行自定義檢測

自定義規(guī)則項自定義智能分析項智能對比分析多模型打分多輪次協(xié)同裁判匯總打分統(tǒng)

標(biāo)

務(wù)安

全性

測基線性

測基線可

測基線用

測基線好的評測標(biāo)準(zhǔn)是評測結(jié)果與用戶體驗一致評測標(biāo)準(zhǔn)圍繞用戶體驗持續(xù)快速迭代全

量(可選)專項測試集每日/每周例行分層聚合分層標(biāo)簽計算指標(biāo)監(jiān)控高頻語料問題分析趨勢對比分析月度/季度抽樣標(biāo)注Benchmark集分析用戶側(cè)反饋數(shù)據(jù),建立測評標(biāo)準(zhǔn)飛輪抽樣現(xiàn)網(wǎng)脫敏數(shù)據(jù)研發(fā)版本例行版本對比測試注:現(xiàn)網(wǎng)數(shù)據(jù)獲取需脫敏并征得用戶授權(quán)許可構(gòu)建CodeAgent評測系統(tǒng)04業(yè)務(wù)場景應(yīng)用u評測集管理:?

項目測試數(shù)據(jù)隔離?

通用/安全評測集資產(chǎn)共建共享,平臺已沉淀3W+

公共評測集u輔助測試設(shè)計:?

通過關(guān)鍵字組合快速生成評測集用例。?

通過文檔提取QA,快速生成評測集用例。?

通過改寫泛化&擾動因子,快速泛化魯棒性評測集。u評測任務(wù):?

準(zhǔn)確性/安全性/魯棒性/一致性/性能任務(wù)評測u裁判評分模型:?

知識問答裁判模型(正確性+相關(guān)性+完整性)

;?Python/JS/TQL代碼生成、解釋、檢視裁判模型;?內(nèi)容安全合規(guī)裁判模型;u問題標(biāo)注:?

支持人工標(biāo)注結(jié)果,自動繼承人工評價?

標(biāo)注結(jié)果可作為負(fù)向反饋持續(xù)迭代優(yōu)化評分模型u評測報告:?

版本級報告導(dǎo)出?

任務(wù)級報告導(dǎo)出?

歷史版本報告比對導(dǎo)出大模型應(yīng)用評測系統(tǒng)評測集管理運營看板基礎(chǔ)服務(wù)項目管理智慧引擎輔助設(shè)計裁判評分評測任務(wù)管理環(huán)境管理輔助用例生成問題看板評測報告構(gòu)建快速響應(yīng)的全自動評測系統(tǒng)企業(yè)場景生態(tài)伙伴低碼開發(fā)應(yīng)用智慧運營網(wǎng)絡(luò)集成5G行業(yè)應(yīng)用智能運維通用評測報告安全評測報告歷史報告比對…人工標(biāo)注DTS提單項目管理版本管理分權(quán)分域關(guān)鍵字組合泛化模型提取QA自定義字段問題運營指標(biāo)評分采納率項目評測集公開審批流程GTS

Bench用例運營指標(biāo)模型改寫泛化定制接入魯棒性任務(wù)性能任務(wù)RedisGaussDB一致性任務(wù)認(rèn)證鑒權(quán)標(biāo)準(zhǔn)接入自定義接入負(fù)載均衡準(zhǔn)確性任務(wù)安全性任務(wù)自動標(biāo)注安全測評集領(lǐng)域測評集通用測評集智能問答【裁判模型1】JS/TQL生成/解釋/檢視【裁判模型2】UI頁面編排/大屏編排【裁判模型3】流程創(chuàng)建/修改【裁判模型4】Python腳本生成/解釋/檢視【裁判模型5】Prompt調(diào)用裁判模型評測任務(wù)類型匹配裁判模型資產(chǎn)庫任務(wù)類型&裁判Prompt模板模型微調(diào)語料評估指標(biāo)權(quán)重評測結(jié)果&加權(quán)得分統(tǒng)合評分扣分項規(guī)則裁判模型評測服務(wù)Multi-Agent評測系統(tǒng)關(guān)鍵技術(shù)點:裁判模型人工確認(rèn)結(jié)果記錄執(zhí)行結(jié)果被測環(huán)境導(dǎo)入用例評測集ADCCodeAgent評測系統(tǒng)執(zhí)行指令基于大模型+CoT代碼生成主觀評測Agentw1扣分規(guī)則P

=

RoES*w1

+

Prompt裁判模型得分

*w2-

扣分正確性

相關(guān)性

完整性

流暢性w1評測系統(tǒng)關(guān)鍵技術(shù)點:代碼生成Agent(AI4Script)評測技術(shù)方案通過主觀和客觀相結(jié)合的方式進(jìn)行代碼生成類Agent質(zhì)量評測。主觀評測主要是應(yīng)用LLM+CoT按照評測規(guī)范指標(biāo)進(jìn)行檢查打分、客觀評測是使用算法對比Agent生成代碼和參考代碼差異進(jìn)行評測?;诖竽P?CoT代碼生成主觀評測Agent代碼多指標(biāo)(編程規(guī)范/編譯類/語法)基于代碼生成價值的

RoES量化評測算法評測框架-評測標(biāo)準(zhǔn)ADC代碼生成Agent綜合評分得分代碼續(xù)寫評測任務(wù)技術(shù)問答評測任務(wù)代碼生成評測任務(wù)TestCase確定業(yè)務(wù)場景Python代碼技術(shù)問答文本PC/J大屏S代碼RhinoJS代碼用戶輸入內(nèi)容綜合評分w2w3w2w4參考答案降噪處理模型生成加權(quán)求和輸入數(shù)據(jù)預(yù)處理3.算法優(yōu)化?

詞粒度:

Levenshtein

Distance算法采用的是字符粒度計算編輯距離,優(yōu)化為單詞/變量粒度,統(tǒng)計模型生成代碼到參考答案的最小編輯距離(插入、刪除、替換操作的次數(shù))。?

距離計算優(yōu)化:對于整行代碼刪除操作,不區(qū)分刪除的單詞的數(shù)量,編輯距離計為1次;忽略對空格/空行等編輯次數(shù);連續(xù)刪除的行或單詞,編輯距離計為1次。4.分值轉(zhuǎn)換?

相似度取值[0,

1],轉(zhuǎn)換為5分制?Score

=

(f(Rouge-L)

*

w1

+

f

(ES)

*

w2

)

*

51.

降噪處理?

對參考答案和生成結(jié)果進(jìn)行降噪處理,刪除代碼中的注釋、常量字符串、忽略注釋換行符/空行/各類特殊字符、連續(xù)字符串、拼接糾錯、命名實體抽取等。2.數(shù)據(jù)預(yù)處理?

對參考答案和模型生成結(jié)果進(jìn)行數(shù)據(jù)歸一化預(yù)處理,包括:1)統(tǒng)一同一方法和參數(shù)名引用2)統(tǒng)一同一方法的同類型變量聲明評測系統(tǒng)關(guān)鍵技術(shù)點:基于代碼生成價值的量化評測算法(RoES)RoES(Rouge-LAnd

Edite

Similarity)是在ROUGE-L算法和Levenshtein

Distance算法基礎(chǔ)上的自定義算法。編輯距離&相似度優(yōu)化ES的動態(tài)規(guī)劃Rouge-L分制轉(zhuǎn)換召回率輸出評測系統(tǒng)關(guān)鍵技術(shù)點:基于大模型+CoT代碼生成主觀評測Agent使用大模型作為裁判來評估CodeAgent在各種場景下的表現(xiàn),用來彌補(bǔ)各種基準(zhǔn)測試以及基于規(guī)則算法的測試不足,同時也可以作為一種接近人類偏好的評價指標(biāo);相比人工評測更高效、更穩(wěn)定,且具備可擴(kuò)展性、可解釋性。

評測標(biāo)準(zhǔn):1)輸出代碼結(jié)構(gòu)正確性,是否遵從Prompt輸出格式要求等;2)API及API參數(shù)選擇正確性;3)生成代碼是否能夠解決用戶問題,代碼邏輯是否正確;4)生成的CoT推理過程是否正確,包括邏輯是否正確,是否有錯誤、是否有冗余推理信息等。裁判模型+?

私域知識?CoT?Few-Shot

提高裁判模型評估準(zhǔn)確性方法:1)測評集的參考答案標(biāo)注質(zhì)量;2)少樣本示例:提供樣例幫助裁判模型更好的推理;3)

CoT:要求模型給出評分的推理過程,幫助優(yōu)化改進(jìn)。對每個問答對:?

輸出每個評分準(zhǔn)度打分及打分依據(jù)?

輸出總分(0-5分)匯總報告:?

Pass、

Fail的問答對匯總

?

不同場景下評估的準(zhǔn)確率=

問題場景

分場景的評測標(biāo)準(zhǔn)問答對場景劃分人工復(fù)核++P1

=

滿足規(guī)范1測試集數(shù)量+

滿

+

…滿足規(guī)范N測試集數(shù)量

*

100%P2

=

規(guī)范掃描后測

集數(shù)量)

*

100%(嚴(yán)格指標(biāo))P3

=

測試集1得分+

測試集2得分+

+

測試集N得分測評集總數(shù)M(其中測試集M得分

=

100-不滿足規(guī)則項扣分??鄯忠?guī)則:通用類/安全類/低碼類問題按照:致命-10分,嚴(yán)重-3分,提示-0.1分)評集總數(shù)M(全滿足測評M量測試集試集數(shù)*測規(guī)范N條足規(guī)范2+SaaSAQM資產(chǎn)規(guī)范掃描服務(wù)+平臺內(nèi)置SDK掃描API規(guī)則集:用于做代碼檢查的規(guī)則組成的集合;可根據(jù)不同編程語言、編碼規(guī)范、質(zhì)量要求等因素來制定。公司最小規(guī)則集

+

產(chǎn)品線規(guī)則集

+

業(yè)務(wù)定制規(guī)則集PythonJavaScriptCodeMarsCodeMarsCmetricsCmetricsFortifyFortifyPylintSecBrellaSecBrellaFlake8提高生成代碼的可讀性、可維護(hù)性、可移植性、安全性、可靠性、高效性、編譯正確性代碼規(guī)范檢查引擎評測系統(tǒng)關(guān)鍵技術(shù)點:代碼多指標(biāo)的綜合評測標(biāo)準(zhǔn)Python規(guī)則集JavaScript規(guī)則集通用開發(fā)規(guī)范安全開發(fā)規(guī)范Python/JS低碼引擎Python/JS規(guī)則集

低碼開發(fā)規(guī)范代碼規(guī)范滿足度三種計算公式代碼編譯正確性(分)測試集泛化流程有效性評估業(yè)務(wù)相關(guān)術(shù)語/異常輸入加標(biāo)點/語氣/副詞書面/口語/方言錯別字/同意詞

種子測試集選?。涸跍?zhǔn)確性評測集選取10%用例作為泛化用例生成種子

輸入擾動因子庫:異

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論