版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
全球軟件測試技術(shù)峰會9月·北京從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界2025.09.05講者導(dǎo)師,團隊帶頭人
謝濤謝濤,北京大學(xué)講席教授,復(fù)旦大學(xué)雙聘頂尖人才,復(fù)旦大學(xué)先進(jìn)計算系統(tǒng)研究院院長,北京大學(xué)計算機學(xué)院軟件科學(xué)與工程系主任,上海開放計算系統(tǒng)研究院院長,上海開放處理器產(chǎn)業(yè)創(chuàng)新中心秘書長,北京開源芯片研究院首席科學(xué)家,國家高等學(xué)校學(xué)科創(chuàng)新引智基地負(fù)責(zé)人。曾任美國伊利諾伊大學(xué)香檳分校(UIUC)計算機系正教授。當(dāng)選歐洲科學(xué)院外籍院士、國際計算機學(xué)會(ACM)會士、電氣電子工程師學(xué)會(IEEE)會士、美國科學(xué)促進(jìn)會(AAAS)會士、中國計算機學(xué)會(CCF)會士。會議講者簡介5來源:
Statistica44億移動應(yīng)用用戶移動應(yīng)用:無所不在UI測試:應(yīng)用軟件質(zhì)量保障的關(guān)鍵一環(huán)6理想與現(xiàn)實的落差理想中的測試靈活性
可擴展性靈活性
可擴展性不可兼得現(xiàn)實中的測試精確性精確性7精確性犧牲擴展性人工測試:既精確,又靈活;難擴展(成本高)靈活性
成本高昂8易出錯
難維護(hù)
可擴展性
9精確性犧牲靈活性腳本自動化:挺精確,可擴展;很死板Dezhi
Ran,
HaoWang,WenyuWang,TaoXie
(2023).
Badge:Prioritizing
UI
Eventswith
Hierarchical
Multi-Armed
Banditsfor10
Automated
UITesting.
ICSE23;部署在微信靈活性
可擴展性主要用于穩(wěn)定性測試Dezhi
Ran,Weizhi
Meng,XionglinWu,
HuiJin,JingCui,XingTang,TaoXie
(2022).AutomatedVisualTestingfor
MobileApps
inan
IndustrialSetting.VTest/MonkeybotICSE22-SEIP;部署在淘寶探索測試:很靈活,好擴展;
不精準(zhǔn)犧牲精確性缺少目的性為什么難:從測試需求(測什么)到在指定App上的測試實現(xiàn)(如何測)輸入
手動UI測試
輸出①
理解測試目標(biāo)
②
手動創(chuàng)建測試步驟質(zhì)量保障
(QA)工程師高抽象層次測試目標(biāo)被測APP(AUT)UI測試用例在Quizlet
APP中打開夜間模式11①理解測試目標(biāo)②
自動創(chuàng)建測試步驟Actionat Observation
ot高抽象層次測試目標(biāo)輸出如何測測試啥
在未知環(huán)境中的規(guī)劃
·UI測試用例輸入在Quizlet
APP中打開夜間模式?
不定性與缺少信息?
搜索空間復(fù)雜度智能代理:打破不可能三角基于智能代理的UI測試被測APP(AUT)安裝在手機上12Vision-language
planningVisProg(CVPR23
Best
PaperAward)理想中的大模型:智能代理的靈丹妙藥背景:用大模型來解決規(guī)劃問題Language-grounded
robot
controlSayCan
(CoRL22Special
InnovationAward)13基于大模型的智能代理:軟件測試的靈丹妙藥?超級智能化的UI測試Droidbot-GPT
(Wen
et
al.,
2023)ReAct
(ICLR23
Oral)Reflexion
(NIPS23)14不同大模型成功率Ran,
Dezhi,etal."Beyond
Passor
Fail:
Multi-Dimensional
Benchmarkingof
FoundationModelsforGoal-based
Mobile
UI
Navigation."arXiv
preprintarXiv:2501.02863
(2025).從理想到現(xiàn)實:閉源模型不能滿足測試自動化的效能訴求不同Agent成功率成功率
平均完成度15從理想到現(xiàn)實:閉源模型失敗的案例研究采用ChatGPT具體失敗案例:“打開夜間模式(Quizlet)”未能完成任務(wù)!Prompts:Turn
onNight
Mode
on
Quizlet.….未能發(fā)現(xiàn)夜間模式條目陷入其中打轉(zhuǎn)為找到夜間模式條目而隨機探索打開搜索頁打開搜索頁點擊夜間模式條目打開夜間模式搜索夜間模式搜索夜間模式大模型期待序列:實際動作序列:16仍然無法通過搜索用戶指南等文檔來找到夜間模式條目!In
my
previousattempts,
Ifailedto
realizethatthe
necessary
UIelement
may
not
be
included
inthegiven
list.Thisledtoa
repetitive
and
ineffectiveapproach.…….Next
Plan:
Insteadofsolely
relyingonthegiven
UIelements,
Ishouldseekadditional
informationtoidentifythe
night
modetoggle.Thisinvolvessearchingforuser
guides
ortutorials,checkingtheapp’ssettings
menu,orreaching
outto
customersupport
for
guidance...Self-reflectiongenerated
by
Reflexion智能代理測試:通用大模型不能勝任!Statement
in
the
extended
version
of
Reflexion
paper.揭露的挑戰(zhàn):不能基于新信息來重新規(guī)劃Reflexion
(NIPS23)17智能代理測試:通用大模型不能勝任!UI
探索特定知識大于
1/3
概率無法遵循指令揭露的挑戰(zhàn):不能納入領(lǐng)域特定的知識提示工程
(Droidbot-GPT)18智能代理測試:通用大模型自己不能勝任!為啥不繼續(xù)在提示工程發(fā)力?:
理論解釋和實證證據(jù)On
LimitationsoftheTransformerArchitecture.Arxiv
2402.08164不管提升工程如何做,由于計算復(fù)雜度,大模型必定失敗由于計算任務(wù)的組合,大模型通常失敗Evaluating
Large
Language
ModelsonControlledGenerationTasks.EMNLP23Calibrated
Language
Models
Must
Hallucinate.STOC24大模型很難滿足細(xì)粒度的強約束19怎么做:面向智能測試代理的新型操作系統(tǒng)20智能測試代理:新型操作系統(tǒng)支撐洞察:大模型和符號程序的互補協(xié)同
圖像處理:識別復(fù)雜模式
(比如對象識別)
自然語言處理:產(chǎn)生有創(chuàng)造性、連貫的文字
圖像處理:精確幾何變換
自然語言處理:精確語法檢查21
精確邏輯推理:擅長基于規(guī)則的任務(wù)
(如約束求
解、代數(shù))
結(jié)構(gòu)化數(shù)據(jù):精確處理結(jié)構(gòu)化數(shù)據(jù)
(如圖、樹)
驗證:對安全攸關(guān)系統(tǒng)進(jìn)行正確性形式化檢查22
非結(jié)構(gòu)化數(shù)據(jù)處理:擅長處理原始數(shù)據(jù)
從數(shù)據(jù)中學(xué)習(xí):從大量數(shù)據(jù)集中學(xué)習(xí)模式和
關(guān)系
泛化與模式識別:在復(fù)雜、高維度數(shù)據(jù)上識
別抽象模式前提是上下文很聚焦且沒有那么多強且精確約束智能測試代理:新型操作系統(tǒng)支撐大模型擅長且低開銷去做“deathbyonethousandcuts”任務(wù)洞察:大模型和符號程序的互補協(xié)同智能測試代理:新型操作系統(tǒng)支撐
非結(jié)構(gòu)化數(shù)據(jù)處理:擅長處理原始數(shù)據(jù)
從數(shù)據(jù)中學(xué)習(xí):從大量數(shù)據(jù)集中學(xué)習(xí)模式和關(guān)系
泛化與模式識別:在復(fù)雜、高維度數(shù)據(jù)上識別抽象模式
精確邏輯推理:擅長基于規(guī)則的任務(wù)
(如約束求解、代數(shù))
結(jié)構(gòu)化數(shù)據(jù):精確處理結(jié)構(gòu)化數(shù)據(jù)
(如圖、樹)
驗證:對安全攸關(guān)系統(tǒng)進(jìn)行正確性形式化檢查符號程序擅長上下文約簡(
context
reduction)與約束求解洞察:大模型和符號程序的互補協(xié)同23智能測試代理:新型操作系統(tǒng)支撐計算任務(wù)從大模型卸載到符號程序24洞察:從大模型處卸載計算任務(wù)到符號程序返回:簡化的上下文與較少約束需求:上下文很聚焦且沒有那么多強且精確約束大模型在簡化的上下文與較少約束下進(jìn)行計算符號程序進(jìn)行上下文約簡與
約束求解Dezhi
RanPeking
UniversityHaoWangPeking
UniversityZihe
SongUniversityofTexasat
DallasMengzhouWuPeking
UniversityYuan
CaoYingZhangWei
YangTao
Xie*Peking
UniversityPeking
UniversityFudan
UniversityPeking
UniversityGuardian:基于大模型UI遍歷探索的運行時框架怎么做:面向智能測試代理的新型操作系統(tǒng)25智能測試代理:新型操作系統(tǒng)支撐Guardian:基于大模型的UI遍歷探索的首個運行框架LLM
Perceptible
ContextDomain
Knowledge
LoaderValidator
OptimizerError
HandlerGUARDIANExecution
EngineLLM
Driver
UI
DriverParserMemoryHistory
Context領(lǐng)域知識
Blocked
Action
Space被測APP大模型26LLM
Driver
UI
DriverParser對領(lǐng)域特定指令強制納入MemoryHistory
ContextLLM
Perceptible
ContextDomain
Knowledge
LoaderValidator
OptimizerError
Handler智能測試代理:新型操作系統(tǒng)支撐新方法Guardian:基于大模型的UI遍歷探索的首個運行框架GUARDIANExecution
Engine領(lǐng)域知識
Blocked
ActionSpace被測APP大模型27智能測試代理:新型操作系統(tǒng)支撐
基于新信息的強制重新規(guī)劃
對領(lǐng)域特定指令的強制納入是ValidatorHeuristicRuleLLM-basedReflection被阻動作集B2
為
,產(chǎn)生提示Prompt
GeneratorGuardian工作流
?
當(dāng)否正是ReplannerAction
Mapper驗證ui動作發(fā)提示給大模型精化動作空間
解析大模型回應(yīng)執(zhí)行
UI
動作4被測APP大模型
635否281VV<V>實驗結(jié)果①基準(zhǔn)創(chuàng)建③泛化能力②遍歷探索有效性的提升64%AverageCompletionProportion④未來提升潛力智能測試代理:新型操作系統(tǒng)支撐Vision
Modality
Inputs
占失敗案例的較大比例
(17/30)為23個流行商用APP手動標(biāo)注去創(chuàng)建70個任務(wù)在未見過的任務(wù)數(shù)據(jù)集上有249%成功率提升Guardian成功完成48%
的任務(wù),平均完成每個任務(wù)的64%部分154%成功率提升與
132%
平均完成比提升SoTA(Droidbot-GPT)SoTA(Reflexion)Ours(Guardian)Ours(Guardian)Success
Rate48%28%19%29大模型與測試之間的差距:一個測試撰寫的視角基于控件樹(缺少信息)
基于圖像坐標(biāo)(易出錯)傳統(tǒng)大語言模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)電扇管理制度規(guī)范
- 放映員資格證試題及答案
- 青島金王集團制度規(guī)范
- 進(jìn)場材料堆放規(guī)范制度
- 面料采購規(guī)范管理制度
- 規(guī)章制度清理規(guī)范
- 酒吧住宿制度規(guī)范
- 預(yù)算開銷制度規(guī)范
- 規(guī)范居間服務(wù)制度
- 群體篩查制度規(guī)范
- 員工隱私安全意識培訓(xùn)課件
- 聚合賬戶資產(chǎn)管理辦法
- 預(yù)防接種規(guī)范知識培訓(xùn)課件
- DB 5303∕T 23-2024 《露地甜櫻桃種植技術(shù)規(guī)程》
- 骨關(guān)節(jié)養(yǎng)生課件
- 2025年福建省能源石化集團有限責(zé)任公司春季社會招聘210人筆試參考題庫附帶答案詳解
- 《微壓富氧康養(yǎng)整體空間設(shè)備》
- 建設(shè)項目環(huán)境影響評價分類管理名錄2026版
- 勞務(wù)派遣標(biāo)準(zhǔn)操作流程及服務(wù)手冊
- 2025年醫(yī)療器械質(zhì)量安全風(fēng)險會商管理制度
- 上呼吸道患者護(hù)理課件
評論
0/150
提交評論