2025Gtest全球軟件測試技術(shù)峰會:從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界_第1頁
2025Gtest全球軟件測試技術(shù)峰會:從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界_第2頁
2025Gtest全球軟件測試技術(shù)峰會:從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界_第3頁
2025Gtest全球軟件測試技術(shù)峰會:從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界_第4頁
2025Gtest全球軟件測試技術(shù)峰會:從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

全球軟件測試技術(shù)峰會9月·北京從規(guī)則腳本到智能代理:重塑軟件測試的效率邊界2025.09.05講者導(dǎo)師,團隊帶頭人

謝濤謝濤,北京大學(xué)講席教授,復(fù)旦大學(xué)雙聘頂尖人才,復(fù)旦大學(xué)先進(jìn)計算系統(tǒng)研究院院長,北京大學(xué)計算機學(xué)院軟件科學(xué)與工程系主任,上海開放計算系統(tǒng)研究院院長,上海開放處理器產(chǎn)業(yè)創(chuàng)新中心秘書長,北京開源芯片研究院首席科學(xué)家,國家高等學(xué)校學(xué)科創(chuàng)新引智基地負(fù)責(zé)人。曾任美國伊利諾伊大學(xué)香檳分校(UIUC)計算機系正教授。當(dāng)選歐洲科學(xué)院外籍院士、國際計算機學(xué)會(ACM)會士、電氣電子工程師學(xué)會(IEEE)會士、美國科學(xué)促進(jìn)會(AAAS)會士、中國計算機學(xué)會(CCF)會士。會議講者簡介5來源:

Statistica44億移動應(yīng)用用戶移動應(yīng)用:無所不在UI測試:應(yīng)用軟件質(zhì)量保障的關(guān)鍵一環(huán)6理想與現(xiàn)實的落差理想中的測試靈活性

可擴展性靈活性

可擴展性不可兼得現(xiàn)實中的測試精確性精確性7精確性犧牲擴展性人工測試:既精確,又靈活;難擴展(成本高)靈活性

成本高昂8易出錯

難維護(hù)

可擴展性

9精確性犧牲靈活性腳本自動化:挺精確,可擴展;很死板Dezhi

Ran,

HaoWang,WenyuWang,TaoXie

(2023).

Badge:Prioritizing

UI

Eventswith

Hierarchical

Multi-Armed

Banditsfor10

Automated

UITesting.

ICSE23;部署在微信靈活性

可擴展性主要用于穩(wěn)定性測試Dezhi

Ran,Weizhi

Meng,XionglinWu,

HuiJin,JingCui,XingTang,TaoXie

(2022).AutomatedVisualTestingfor

MobileApps

inan

IndustrialSetting.VTest/MonkeybotICSE22-SEIP;部署在淘寶探索測試:很靈活,好擴展;

不精準(zhǔn)犧牲精確性缺少目的性為什么難:從測試需求(測什么)到在指定App上的測試實現(xiàn)(如何測)輸入

手動UI測試

輸出①

理解測試目標(biāo)

手動創(chuàng)建測試步驟質(zhì)量保障

(QA)工程師高抽象層次測試目標(biāo)被測APP(AUT)UI測試用例在Quizlet

APP中打開夜間模式11①理解測試目標(biāo)②

自動創(chuàng)建測試步驟Actionat Observation

ot高抽象層次測試目標(biāo)輸出如何測測試啥

在未知環(huán)境中的規(guī)劃

·UI測試用例輸入在Quizlet

APP中打開夜間模式?

不定性與缺少信息?

搜索空間復(fù)雜度智能代理:打破不可能三角基于智能代理的UI測試被測APP(AUT)安裝在手機上12Vision-language

planningVisProg(CVPR23

Best

PaperAward)理想中的大模型:智能代理的靈丹妙藥背景:用大模型來解決規(guī)劃問題Language-grounded

robot

controlSayCan

(CoRL22Special

InnovationAward)13基于大模型的智能代理:軟件測試的靈丹妙藥?超級智能化的UI測試Droidbot-GPT

(Wen

et

al.,

2023)ReAct

(ICLR23

Oral)Reflexion

(NIPS23)14不同大模型成功率Ran,

Dezhi,etal."Beyond

Passor

Fail:

Multi-Dimensional

Benchmarkingof

FoundationModelsforGoal-based

Mobile

UI

Navigation."arXiv

preprintarXiv:2501.02863

(2025).從理想到現(xiàn)實:閉源模型不能滿足測試自動化的效能訴求不同Agent成功率成功率

平均完成度15從理想到現(xiàn)實:閉源模型失敗的案例研究采用ChatGPT具體失敗案例:“打開夜間模式(Quizlet)”未能完成任務(wù)!Prompts:Turn

onNight

Mode

on

Quizlet.….未能發(fā)現(xiàn)夜間模式條目陷入其中打轉(zhuǎn)為找到夜間模式條目而隨機探索打開搜索頁打開搜索頁點擊夜間模式條目打開夜間模式搜索夜間模式搜索夜間模式大模型期待序列:實際動作序列:16仍然無法通過搜索用戶指南等文檔來找到夜間模式條目!In

my

previousattempts,

Ifailedto

realizethatthe

necessary

UIelement

may

not

be

included

inthegiven

list.Thisledtoa

repetitive

and

ineffectiveapproach.…….Next

Plan:

Insteadofsolely

relyingonthegiven

UIelements,

Ishouldseekadditional

informationtoidentifythe

night

modetoggle.Thisinvolvessearchingforuser

guides

ortutorials,checkingtheapp’ssettings

menu,orreaching

outto

customersupport

for

guidance...Self-reflectiongenerated

by

Reflexion智能代理測試:通用大模型不能勝任!Statement

in

the

extended

version

of

Reflexion

paper.揭露的挑戰(zhàn):不能基于新信息來重新規(guī)劃Reflexion

(NIPS23)17智能代理測試:通用大模型不能勝任!UI

探索特定知識大于

1/3

概率無法遵循指令揭露的挑戰(zhàn):不能納入領(lǐng)域特定的知識提示工程

(Droidbot-GPT)18智能代理測試:通用大模型自己不能勝任!為啥不繼續(xù)在提示工程發(fā)力?:

理論解釋和實證證據(jù)On

LimitationsoftheTransformerArchitecture.Arxiv

2402.08164不管提升工程如何做,由于計算復(fù)雜度,大模型必定失敗由于計算任務(wù)的組合,大模型通常失敗Evaluating

Large

Language

ModelsonControlledGenerationTasks.EMNLP23Calibrated

Language

Models

Must

Hallucinate.STOC24大模型很難滿足細(xì)粒度的強約束19怎么做:面向智能測試代理的新型操作系統(tǒng)20智能測試代理:新型操作系統(tǒng)支撐洞察:大模型和符號程序的互補協(xié)同

圖像處理:識別復(fù)雜模式

(比如對象識別)

自然語言處理:產(chǎn)生有創(chuàng)造性、連貫的文字

圖像處理:精確幾何變換

自然語言處理:精確語法檢查21

精確邏輯推理:擅長基于規(guī)則的任務(wù)

(如約束求

解、代數(shù))

結(jié)構(gòu)化數(shù)據(jù):精確處理結(jié)構(gòu)化數(shù)據(jù)

(如圖、樹)

驗證:對安全攸關(guān)系統(tǒng)進(jìn)行正確性形式化檢查22

非結(jié)構(gòu)化數(shù)據(jù)處理:擅長處理原始數(shù)據(jù)

從數(shù)據(jù)中學(xué)習(xí):從大量數(shù)據(jù)集中學(xué)習(xí)模式和

關(guān)系

泛化與模式識別:在復(fù)雜、高維度數(shù)據(jù)上識

別抽象模式前提是上下文很聚焦且沒有那么多強且精確約束智能測試代理:新型操作系統(tǒng)支撐大模型擅長且低開銷去做“deathbyonethousandcuts”任務(wù)洞察:大模型和符號程序的互補協(xié)同智能測試代理:新型操作系統(tǒng)支撐

非結(jié)構(gòu)化數(shù)據(jù)處理:擅長處理原始數(shù)據(jù)

從數(shù)據(jù)中學(xué)習(xí):從大量數(shù)據(jù)集中學(xué)習(xí)模式和關(guān)系

泛化與模式識別:在復(fù)雜、高維度數(shù)據(jù)上識別抽象模式

精確邏輯推理:擅長基于規(guī)則的任務(wù)

(如約束求解、代數(shù))

結(jié)構(gòu)化數(shù)據(jù):精確處理結(jié)構(gòu)化數(shù)據(jù)

(如圖、樹)

驗證:對安全攸關(guān)系統(tǒng)進(jìn)行正確性形式化檢查符號程序擅長上下文約簡(

context

reduction)與約束求解洞察:大模型和符號程序的互補協(xié)同23智能測試代理:新型操作系統(tǒng)支撐計算任務(wù)從大模型卸載到符號程序24洞察:從大模型處卸載計算任務(wù)到符號程序返回:簡化的上下文與較少約束需求:上下文很聚焦且沒有那么多強且精確約束大模型在簡化的上下文與較少約束下進(jìn)行計算符號程序進(jìn)行上下文約簡與

約束求解Dezhi

RanPeking

UniversityHaoWangPeking

UniversityZihe

SongUniversityofTexasat

DallasMengzhouWuPeking

UniversityYuan

CaoYingZhangWei

YangTao

Xie*Peking

UniversityPeking

UniversityFudan

UniversityPeking

UniversityGuardian:基于大模型UI遍歷探索的運行時框架怎么做:面向智能測試代理的新型操作系統(tǒng)25智能測試代理:新型操作系統(tǒng)支撐Guardian:基于大模型的UI遍歷探索的首個運行框架LLM

Perceptible

ContextDomain

Knowledge

LoaderValidator

OptimizerError

HandlerGUARDIANExecution

EngineLLM

Driver

UI

DriverParserMemoryHistory

Context領(lǐng)域知識

Blocked

Action

Space被測APP大模型26LLM

Driver

UI

DriverParser對領(lǐng)域特定指令強制納入MemoryHistory

ContextLLM

Perceptible

ContextDomain

Knowledge

LoaderValidator

OptimizerError

Handler智能測試代理:新型操作系統(tǒng)支撐新方法Guardian:基于大模型的UI遍歷探索的首個運行框架GUARDIANExecution

Engine領(lǐng)域知識

Blocked

ActionSpace被測APP大模型27智能測試代理:新型操作系統(tǒng)支撐

基于新信息的強制重新規(guī)劃

對領(lǐng)域特定指令的強制納入是ValidatorHeuristicRuleLLM-basedReflection被阻動作集B2

,產(chǎn)生提示Prompt

GeneratorGuardian工作流

?

當(dāng)否正是ReplannerAction

Mapper驗證ui動作發(fā)提示給大模型精化動作空間

解析大模型回應(yīng)執(zhí)行

UI

動作4被測APP大模型

635否281VV<V>實驗結(jié)果①基準(zhǔn)創(chuàng)建③泛化能力②遍歷探索有效性的提升64%AverageCompletionProportion④未來提升潛力智能測試代理:新型操作系統(tǒng)支撐Vision

Modality

Inputs

占失敗案例的較大比例

(17/30)為23個流行商用APP手動標(biāo)注去創(chuàng)建70個任務(wù)在未見過的任務(wù)數(shù)據(jù)集上有249%成功率提升Guardian成功完成48%

的任務(wù),平均完成每個任務(wù)的64%部分154%成功率提升與

132%

平均完成比提升SoTA(Droidbot-GPT)SoTA(Reflexion)Ours(Guardian)Ours(Guardian)Success

Rate48%28%19%29大模型與測試之間的差距:一個測試撰寫的視角基于控件樹(缺少信息)

基于圖像坐標(biāo)(易出錯)傳統(tǒng)大語言模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論