MTSC2025 第十四屆中國(guó)互聯(lián)網(wǎng)測(cè)試開(kāi)發(fā)大會(huì)(上海站):從像素到語(yǔ)義:大模型 + CV構(gòu)建全終端UI檢測(cè)下一代技術(shù)_第1頁(yè)
MTSC2025 第十四屆中國(guó)互聯(lián)網(wǎng)測(cè)試開(kāi)發(fā)大會(huì)(上海站):從像素到語(yǔ)義:大模型 + CV構(gòu)建全終端UI檢測(cè)下一代技術(shù)_第2頁(yè)
MTSC2025 第十四屆中國(guó)互聯(lián)網(wǎng)測(cè)試開(kāi)發(fā)大會(huì)(上海站):從像素到語(yǔ)義:大模型 + CV構(gòu)建全終端UI檢測(cè)下一代技術(shù)_第3頁(yè)
MTSC2025 第十四屆中國(guó)互聯(lián)網(wǎng)測(cè)試開(kāi)發(fā)大會(huì)(上海站):從像素到語(yǔ)義:大模型 + CV構(gòu)建全終端UI檢測(cè)下一代技術(shù)_第4頁(yè)
MTSC2025 第十四屆中國(guó)互聯(lián)網(wǎng)測(cè)試開(kāi)發(fā)大會(huì)(上海站):從像素到語(yǔ)義:大模型 + CV構(gòu)建全終端UI檢測(cè)下一代技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

從像素到語(yǔ)義:大模型

+CV構(gòu)建全終端UI檢測(cè)下一代技術(shù)講師

:徐崴

(騰訊音樂(lè)娛樂(lè)集團(tuán))從RPA到智能體探索:Page

eyesAgent2.0打造最懂你的GUIAgent--實(shí)現(xiàn)0代碼“智”動(dòng)化方案總結(jié)和展望未來(lái)可期,還是未來(lái)已來(lái)?高成本、低效率:傳統(tǒng)UI自動(dòng)化的困局高成本、低效率,多年來(lái)UI自動(dòng)化一直被詬病,如何破局?構(gòu)建純視覺(jué)UI檢測(cè)平臺(tái)Page

eyes

1.0通過(guò)AI+純視覺(jué)方案,從UI面內(nèi)容校驗(yàn)入手,搭建智能UI檢測(cè)系統(tǒng)目

錄CONTENT12341

高成本、低效率:傳統(tǒng)UI自動(dòng)化的困局高成本、低效率,多年來(lái)UI自動(dòng)化一直被詬病,如何破局?前端契約PageObjectLowCode那些年,我們一起“追”過(guò)的UI自動(dòng)化分布式運(yùn)行(Grid)分層策略顯/隱性等待數(shù)據(jù)驅(qū)動(dòng)運(yùn)行策略UI自動(dòng)化從誕生的第一天,我們一直在探索

…理想VS現(xiàn)實(shí)低代碼發(fā)現(xiàn)運(yùn)行時(shí)效問(wèn)題分布式等

自動(dòng)化安全落地追求腳本“復(fù)用”

優(yōu)化腳本代碼框架對(duì)比選型第一個(gè)Case的誕生編寫第一個(gè)DemoStarting

頁(yè)面永遠(yuǎn)在變成本永遠(yuǎn)高居不下腳本永遠(yuǎn)不穩(wěn)定Theend沒(méi)有tobecontinue..

優(yōu)化元素定位發(fā)現(xiàn)成本問(wèn)題

發(fā)現(xiàn)運(yùn)行不穩(wěn)定UI自動(dòng)化調(diào)研Pageobject數(shù)據(jù)驅(qū)動(dòng)高成本

UI頻繁變更導(dǎo)致用例失效

元素定位和識(shí)別的成本

需求快速變化的影響

高級(jí)腳本和框架掌握

環(huán)境依賴性強(qiáng)

動(dòng)態(tài)內(nèi)容難處理

測(cè)試環(huán)境一致性要求

誤報(bào)率高

初期腳本開(kāi)發(fā)耗時(shí)長(zhǎng)

步驟多耗時(shí)長(zhǎng)

敏捷迭代適配難度大

排錯(cuò)耗時(shí)長(zhǎng)UI自動(dòng)化面臨的困局低效性不穩(wěn)定體驗(yàn)差影響使用無(wú)法使用騰訊音樂(lè)榜

|商業(yè)化運(yùn)營(yíng)活動(dòng)多端、多平臺(tái)、多用戶類型、多依賴、多頁(yè)面背景

挑戰(zhàn)質(zhì)量面臨的挑戰(zhàn)用戶

.流失惡評(píng)客訴輿情接口報(bào)錯(cuò)、

JS報(bào)錯(cuò)無(wú)數(shù)據(jù)展示、加載白屏頁(yè)面崩潰樣式、布局錯(cuò)亂資損品牌力下降Crash白屏異常加載

頁(yè)面報(bào)錯(cuò)

UI兼容*

問(wèn)題特點(diǎn):*

問(wèn)題分布:2

構(gòu)建純視覺(jué)UI檢測(cè)平臺(tái)Page

eyes

1.0通過(guò)AI+純視覺(jué)方案,從UI面內(nèi)容校驗(yàn)入手,搭建智能UI檢測(cè)系統(tǒng)從元素屬性到純視覺(jué)減少步驟數(shù)量和步長(zhǎng)基于視覺(jué)和坐標(biāo)定位只做頁(yè)面打開(kāi)和簡(jiǎn)單操作CV、

OCR頁(yè)面白屏(crash)、報(bào)錯(cuò)、樣式錯(cuò)亂、交互稿還原(diff)放棄全面覆蓋,尋找特定場(chǎng)景尋找特定場(chǎng)景放棄屬性定位減少步驟模擬人眼通過(guò)視覺(jué)方案去快速檢查頁(yè)面,更接近用戶訪問(wèn)視角,同時(shí)異常信息也可直觀的展示給測(cè)試人員,不需要繁瑣的日志排查已有的自動(dòng)化能力會(huì)消耗測(cè)試工程師較多的時(shí)間用于編寫和調(diào)試用例,作為傳統(tǒng)自動(dòng)化測(cè)試補(bǔ)位的一個(gè)能力需盡可能減少額外的工作量純視覺(jué)UI檢測(cè)(Page

eyes)初步構(gòu)想另辟蹊徑,以低成本的自動(dòng)化補(bǔ)位方式發(fā)現(xiàn)和攔截頁(yè)面異常的致命問(wèn)題,做到質(zhì)量與效率的平衡頁(yè)面檢測(cè)頁(yè)面截圖打開(kāi)目標(biāo)頁(yè)面元素視覺(jué)識(shí)別微交互執(zhí)行頁(yè)面檢測(cè)維護(hù)輕量線下執(zhí)行攔截|線上定時(shí)巡檢檢查頁(yè)面是否含錯(cuò)誤關(guān)鍵字隨著業(yè)務(wù)迭代的節(jié)奏越來(lái)越快,不斷積累的前端頁(yè)面也越來(lái)越多,

QA除了保障功能外也應(yīng)該關(guān)注頁(yè)面的穩(wěn)定性及問(wèn)題發(fā)現(xiàn)的及時(shí)性頁(yè)面白屏頁(yè)面報(bào)錯(cuò)樣式布局錯(cuò)亂應(yīng)對(duì)策略Pageeyes檢測(cè)策略減少步驟,聚焦重點(diǎn)突出問(wèn)題檢查推動(dòng)設(shè)計(jì)解耦、異常處理標(biāo)準(zhǔn)化檢查頁(yè)面是否有白屏頁(yè)面

DIFF檢測(cè)樣式/布局影響頁(yè)面嚴(yán)重問(wèn)題如何識(shí)別出頁(yè)面上所有元素如何準(zhǔn)確識(shí)別出頁(yè)面出現(xiàn)的異常如何確保頁(yè)面加載完成挑戰(zhàn)一挑戰(zhàn)二挑戰(zhàn)三方案挑戰(zhàn)基于幀率的動(dòng)態(tài)等待

固定

+動(dòng)態(tài)時(shí)間結(jié)合1.

固定等待時(shí)間2.動(dòng)態(tài)等待時(shí)間

load

-頁(yè)面的load事件domcontentloaded

-頁(yè)面的DOMContentLoaded事件

networkidle0

-不再有網(wǎng)絡(luò)連接時(shí)觸發(fā)(至少500毫秒后)networkidle2

-只有2個(gè)網(wǎng)絡(luò)連接時(shí)觸發(fā)(至少500毫秒后)對(duì)頁(yè)面打開(kāi)過(guò)程進(jìn)行采樣(0.5s/幀),大于基準(zhǔn)時(shí)間2s且連續(xù)多幀相似度未出現(xiàn)變化,則認(rèn)為加載完成等待時(shí)間短,

頁(yè)面未渲完成時(shí)間長(zhǎng)造成任務(wù)堆積,資源浪費(fèi)加載完成 WEB

基于瀏覽器事件移動(dòng)端基準(zhǔn)時(shí)間+動(dòng)態(tài)時(shí)間引入視覺(jué)模型增強(qiáng)識(shí)別效果能否讓AI

自動(dòng)感知&識(shí)別操作界面元素,

以提升內(nèi)容完整度和準(zhǔn)確性識(shí)別準(zhǔn)確率識(shí)別完整度識(shí)別速度VLM基準(zhǔn)檢測(cè)框的確定01動(dòng)態(tài)獲取推薦框由形態(tài)學(xué)處理算法獲取頁(yè)面前景、背景腐蝕區(qū)塊,并去毛刺1.

找出前景最大聯(lián)通區(qū)域的最小外接矩形A2.

找出背景最大聯(lián)通區(qū)域的最大內(nèi)接矩形B3.推薦白屏基準(zhǔn)框

=

Max(A,

B)*

110%02設(shè)置相對(duì)頁(yè)面大小的基準(zhǔn)框設(shè)定相對(duì)頁(yè)面大小50%、

65%的檢測(cè)框(適用頁(yè)面內(nèi)容變化較大的場(chǎng)景)B頁(yè)面白屏識(shí)別白屏場(chǎng)景

針對(duì)頁(yè)面配置基準(zhǔn)檢測(cè)框大小滑動(dòng)檢測(cè)頁(yè)面檢測(cè)區(qū)域像素點(diǎn)色值標(biāo)準(zhǔn)差

<

5視為白屏頁(yè)面存在大于基準(zhǔn)檢測(cè)框的白屏區(qū)域則認(rèn)為頁(yè)面異常基于正常頁(yè)面確定白屏基準(zhǔn)框檢測(cè)頁(yè)面是否出現(xiàn)大于基準(zhǔn)框的白屏區(qū)塊A頁(yè)面長(zhǎng)寬

50%作為白屏檢測(cè)框前景聯(lián)通區(qū)域腐蝕圖背景聯(lián)通區(qū)域腐蝕圖識(shí)別白屏思路頁(yè)面部分區(qū)域白屏只有頁(yè)面背景頁(yè)面幾乎全白亮度結(jié)構(gòu)

信息S

=0.7

*

SSIM

+

0.3*

HistS

<閾值時(shí)認(rèn)為頁(yè)面與基準(zhǔn)圖片發(fā)生較大差異SSIM考慮了亮度、對(duì)比度、結(jié)構(gòu)信息,更接近人眼的視覺(jué)感知,但敏感度高,易誤報(bào),通過(guò)與直方圖相似度結(jié)合可以達(dá)到到更高的準(zhǔn)確性樣式錯(cuò)亂和加載異常識(shí)別

樣式布局錯(cuò)亂場(chǎng)景:

識(shí)別頁(yè)面

DIFFPositive

Test

Case

:eg.用戶名/重點(diǎn)模塊標(biāo)題/……Negtive

Test

Case:eg.404/error/服務(wù)端忙/服務(wù)異常

……結(jié)構(gòu)相似性(SSIM)

顏色分布直方圖

(Histogram)相似度(加權(quán))基準(zhǔn)圖(Old)檢測(cè)圖(New)

異常信息場(chǎng)景:

關(guān)鍵詞識(shí)別step2檢查是否命中關(guān)鍵字并標(biāo)注位置step1OCR提取頁(yè)面文字并分詞DIFF

圖檢測(cè)圖直方圖基準(zhǔn)圖直方圖對(duì)比度輸入準(zhǔn)備?

頁(yè)面截圖采集:頁(yè)面巡檢工具獲取目標(biāo)頁(yè)面截圖?

上下文信息:提供頁(yè)面類型、終端信息等輔助信息?

項(xiàng)目業(yè)務(wù)信息補(bǔ)充:補(bǔ)充項(xiàng)目業(yè)務(wù)信息,進(jìn)一步明確異常檢測(cè)關(guān)注點(diǎn)視覺(jué)語(yǔ)言模型調(diào)用?

API調(diào)用:通過(guò)視覺(jué)語(yǔ)言模型的API提交截圖和提示詞?

多輪交互(可選):根據(jù)模型輸出進(jìn)行追問(wèn),細(xì)化異常描述結(jié)果解析與異常告警?

異常描述:提取模型輸出的異常類型和位置信息?

置信度評(píng)估:根據(jù)模型輸出的置信度判斷異常和可信度?

可視化標(biāo)注:在截圖上標(biāo)記異常區(qū)域,生成檢測(cè)報(bào)告?

異常告警:高可信度異常告警頁(yè)面責(zé)任人大模型智能感知頁(yè)面未知異常-1010302Prompt你是一個(gè)專業(yè)的前端測(cè)試分析助手,請(qǐng)根據(jù)提供的頁(yè)

面截圖進(jìn)行異常檢測(cè),按照以下要求輸出結(jié)果:【任務(wù)目標(biāo)】識(shí)別以下異常情況:頁(yè)面白屏(無(wú)內(nèi)容/內(nèi)容加載失?。邮藉e(cuò)亂(布局異常/元素偏移/文字重疊)錯(cuò)誤提示(控制臺(tái)報(bào)錯(cuò)/網(wǎng)絡(luò)錯(cuò)誤提示)內(nèi)容缺失(圖片加載失敗/文字截?cái)啵据斎胝f(shuō)明】我將提供頁(yè)面截圖【檢查項(xiàng)】請(qǐng)按以下步驟分析:整體布局是否存在錯(cuò)亂主要功能模塊是否完整顯示圖片資源是否正常加載是否存在錯(cuò)誤提示區(qū)域【輸出格式】請(qǐng)用JSON格式返回結(jié)果大模型智能感知頁(yè)面未知異常-2Pageeyes-系統(tǒng)穩(wěn)定性保障

分布式隊(duì)列系統(tǒng)高速處理UI檢測(cè)任務(wù):執(zhí)行效率

:

任務(wù)執(zhí)行過(guò)程可觀察

豐富的異常重試、超時(shí)重試機(jī)制

鏈?zhǔn)饺蝿?wù)拆解真機(jī)截圖、視覺(jué)感知頁(yè)面異常子任務(wù)

分布式任務(wù)隊(duì)列,秒級(jí)執(zhí)行任務(wù),支持動(dòng)態(tài)擴(kuò)容03流水行線接入(部署即檢查)構(gòu)建部署UI檢測(cè)報(bào)告&觸達(dá)04異常觸達(dá)(告警自動(dòng)收斂,降低負(fù)擔(dān))少量因網(wǎng)絡(luò)波動(dòng)或環(huán)境問(wèn)題帶來(lái)的誤報(bào)自動(dòng)確認(rèn)頁(yè)面正常告警升級(jí)電話提醒必須人工確認(rèn)頁(yè)面異常+1

頁(yè)面異常+202緩存加速(減少重復(fù)檢查)截圖HASHN緩存 Y配置

變更YN

報(bào)告Pageeyes-檢測(cè)任務(wù)時(shí)效性&異常觸達(dá)01集群部署(根據(jù)業(yè)務(wù)量伸縮擴(kuò)展)

自動(dòng)確認(rèn)

頁(yè)面檢測(cè)

AgentAgent5min5min5min頁(yè)面異常頁(yè)面異常3

從RPA到智能體探索:Page

eyes

Agent

2.0打造最懂你的GUIAgent--實(shí)現(xiàn)0代碼“智”動(dòng)化方案 添加標(biāo)題自然語(yǔ)言交互通過(guò)自然語(yǔ)言理解任務(wù)目的感知和推理模型自己解析界面信息,并通過(guò)推理得出具體行動(dòng)路徑模擬并代替人機(jī)交互將模型解析出的行動(dòng)路徑模擬人機(jī)交互操作設(shè)備,完成任務(wù)什么是GUI

Agent0103來(lái)自論文

Large

Language

Model-BrainedGUIAgents:ASurvey02

核心三要素GUI

Agent整體框架

大模型根據(jù)上述內(nèi)容,結(jié)合prompt生成操作

計(jì)劃

在PC或移動(dòng)設(shè)備執(zhí)行用戶請(qǐng)求Actions(執(zhí)行)Model

Inference(推理)

提取截圖中所有的元素和文本信息

用戶提出請(qǐng)求任務(wù)

將用戶請(qǐng)求轉(zhuǎn)化為可以被LLM理解的輸入格式Request(請(qǐng)求)Prompt(提示)Perception(感知)來(lái)自論文

Large

Language

Model-BrainedGUIAgents:ASurvey對(duì)比維度傳統(tǒng)RPAGUIAgent關(guān)鍵差異解讀技術(shù)基礎(chǔ)基于規(guī)則和腳本驅(qū)動(dòng),依賴界面元素定位(如XPath、

圖像匹配)基于AI多模態(tài)感知(視覺(jué)語(yǔ)言模型、

LLM推理)和動(dòng)態(tài)決策RPA需預(yù)設(shè)固定流程,

GUIAgent可動(dòng)態(tài)生成操作指令智能化程度無(wú)自主決策能力,僅執(zhí)行結(jié)構(gòu)化任務(wù)具備任務(wù)分解、環(huán)境感知和結(jié)果自評(píng)估能力GUIAgent可處理非結(jié)構(gòu)化任務(wù)并動(dòng)態(tài)調(diào)整策略數(shù)據(jù)處理能力僅支持結(jié)構(gòu)化數(shù)據(jù)(如表格、表單)支持多模態(tài)數(shù)據(jù)(文本、圖像、語(yǔ)音、視頻)GUIAgent可解析掃描件、合同等非結(jié)構(gòu)化信息適應(yīng)性界面或流程變動(dòng)需人工調(diào)整腳本動(dòng)態(tài)適應(yīng)界面變化(如按鈕位置偏移)RPA維護(hù)成本高,

GUIAgent具備自修復(fù)能力交互方式模擬鼠標(biāo)/鍵盤操作,單向執(zhí)行支持自然語(yǔ)言指令交互GUIAgent實(shí)現(xiàn)人機(jī)協(xié)同,降低使用門檻學(xué)習(xí)能力無(wú)學(xué)習(xí)能力,依賴人工更新規(guī)則通過(guò)強(qiáng)化學(xué)習(xí)和歷史反饋優(yōu)化策略GUIAgent可降低長(zhǎng)期維護(hù)成本應(yīng)用場(chǎng)景標(biāo)準(zhǔn)化重復(fù)任務(wù)(數(shù)據(jù)錄入、報(bào)表生成)復(fù)雜場(chǎng)景RPA處理效率高,

GUIAgent擴(kuò)展性強(qiáng)GUI

Agent與傳統(tǒng)RPA的差異自然語(yǔ)言大模型將用戶自然語(yǔ)言轉(zhuǎn)換為操作路徑,并向Agent下達(dá)操作指令打造Page

eyes

Agent初步構(gòu)想信息感知此處添加詳細(xì)文本描述,建議與

題令相關(guān)

符視覺(jué)模型向模型提供設(shè)備頁(yè)面元素信息,執(zhí)行路徑規(guī)劃的動(dòng)作

基于Android

的Accessibility

ServiceAPI

提取屏幕的

UI

結(jié)構(gòu)信息。分析Accessibility

Node

信息,識(shí)別屏幕上的

按鈕、輸入框等控件。視覺(jué)大模型影omni

parser

PaddleOCR/

EasyOCR:負(fù)責(zé)文本識(shí)別工作

基于YOLO模型的訓(xùn)練模型:負(fù)責(zé)識(shí)別元素框

Microsoft/

Florence-2-base:用于生成每一個(gè)

元素模塊的描述信息{"text":

"ImageView","className":

"ImageView","index":

55,"bounds":

"1086,2642,1174,2730","type":

"text"},{"text":

"丁程鑫","className":

"TextView","index":

78,"bounds":

"395,1767,903,1827","type":

"text"}頁(yè)面信息感知方案介紹對(duì)比項(xiàng)OmniParserV2Droidrun視覺(jué)語(yǔ)言模型(VLM)適用端App、

PCWebApp(Android)App、

PCWeb信息感知OmniParserV2DroidRun

PortalAPK獲取元素樹(shù)LLM-VL動(dòng)作規(guī)劃需額外LLM需額外LLM

模型本身穩(wěn)定性高中

高效率高高中成本中低

使用視覺(jué)語(yǔ)言模型簡(jiǎn)單、穩(wěn)定,但成本高,大規(guī)模調(diào)用成本不可控 Droidrun成本低、速度快,但對(duì)純icon元素感知能力弱,僅適用于有明確按鈕文案或元素名稱的Android應(yīng)用頁(yè)面 OmniParser

V2對(duì)機(jī)器配置要求不高(當(dāng)前部署顯卡

L20(48G);單圖1s內(nèi)完成),元素解析穩(wěn)定,適用全平臺(tái)頁(yè)面信息感知方案對(duì)比和選型RAG智能檢測(cè)

執(zhí)行反饋?zhàn)匀徽Z(yǔ)言step1點(diǎn)擊第一個(gè)推薦按鈕step2點(diǎn)擊單曲購(gòu)買'step3點(diǎn)擊"超會(huì)連續(xù)包月"PageeyesAgent執(zhí)行流程

WebAgent

MobileAgent工具檢索&動(dòng)作規(guī)劃

頁(yè)面信息感知

截圖截圖白屏異常樣式異常未知異常關(guān)鍵字異常

記憶

頁(yè)面信息記憶##

目標(biāo)1.指令分解:將復(fù)雜指令拆解為原子化操作序列,

每個(gè)步驟必須滿足:-……2.根據(jù)拆解的指令使用相應(yīng)的工具進(jìn)行操作##工作流程1.獲取當(dāng)前設(shè)備屏幕的元素信息2.根據(jù)用戶指令和當(dāng)前屏幕的元素信息定位目標(biāo)元素3.調(diào)用相應(yīng)的工具執(zhí)行操作4.如用戶指令未完成,則重復(fù)操作1-3

##約束

強(qiáng)制要求:-如果某個(gè)操作失敗請(qǐng)務(wù)必重試一次,重試后仍失敗則返回錯(cuò)誤信息,

并結(jié)束整個(gè)任務(wù)-每次只調(diào)用一個(gè)工具

絕對(duì)禁止:-假設(shè)屏幕外或歷史狀態(tài)的元素-添加用戶指令未明確要求的操作……Step

1點(diǎn)擊日榜Step2上滑到第5首歌的位置Step3

點(diǎn)擊播放按鈕1.角色定位2.

目標(biāo)3.工作流程4.約束5.結(jié)果System

User01

準(zhǔn)確理解用戶意圖

##

角色定位「高精度UI操作專家」:專注準(zhǔn)確解析用戶意圖,

嚴(yán)格遵循屏幕實(shí)時(shí)狀態(tài)執(zhí)行可靠操作Agent穩(wěn)定性提升-Prompt調(diào)優(yōu)Agent穩(wěn)定性提升-整體策略Agent設(shè)計(jì)

圖片處理

執(zhí)行策略規(guī)劃緩存監(jiān)控

選擇LLM負(fù)責(zé)路徑規(guī)劃,純視覺(jué)小模型負(fù)責(zé)元素感知

優(yōu)化

Prompt,減少不必要的Token消耗

按需進(jìn)行微交互,可一步直達(dá)的頁(yè)面不使用Agent模型

超時(shí)、重試次數(shù)的多的任務(wù)主動(dòng)中斷

屏幕截圖只截取當(dāng)前視口大小,減少非必要元素Token

對(duì)圖片進(jìn)行壓縮處

理,提高解析效率01

02030405

將每一步的規(guī)劃、截圖、定位信息進(jìn)行緩存,命中緩存的界面不再調(diào)用模型

監(jiān)控模型調(diào)用日志,及時(shí)優(yōu)化耗時(shí)、Token消耗量大、重試次數(shù)多的任務(wù)執(zhí)行日志:1.Startingtaskexecution:點(diǎn)擊日榜,然后上滑到第5首歌的位置,點(diǎn)擊歌曲進(jìn)入詳情頁(yè),點(diǎn)擊播放按鈕2.Agent:Capturing

and

parsing

current

screen...3.Agent:

Successfully

parsedcurrent

screen,detected

83

UIelements4.Agent:

Below

isthecurrent

page

information

and

user

intent.

Please

analyze

comprehensively

and

recommend

the

next

reasonable

action

(pleasecompleteonlyone

step),andcomplete

it

by

callingtools.

All

tool

calls

must

pass

in

device

to

specifytheoperatingdevice.Only

execute

one

tool

call.5.

LLM:Tools:{screen_action,take_screenshot,

screen_element,

get_device_size}6.

LLM:SummaryofActions:

1.Clickedthe

"

日榜"tab

at

coordinates

(780,

1045).7.

LLM:

Function(arguments='{"device":"10CEBX0G2X001NT","action":"tap","x":780,"y":1045}',

name='screen_action9)8.Agent:execute“adb

-s

10CEBX0G2X001NTshell

inputtap

780

1045”9.Agent:Capturing

and

parsing

current

screen...10.Agent:Successfully

parsedcurrentscreen,detected

86

UI

elements

11.

……56.

LLM:

React

modeexecution

successful:The

play

button

has

beensuccessfullytapped

onthe

song

detail

page.

The

task

is

nowcomplete.指令點(diǎn)擊日榜,然后上滑到第5首歌的位置,點(diǎn)擊歌曲進(jìn)入詳情頁(yè),點(diǎn)擊播放按鈕PageeyesAgent效果展示PageeyesAgent效果展示元素屬性不穩(wěn)定的任務(wù)可通過(guò)元素定位優(yōu)化任務(wù)提示詞步驟報(bào)告每一個(gè)步驟指令和操作位置將會(huì)記錄下來(lái)PageeyesAgent架構(gòu)

TaskConsumer(Async)

Html

Report

Web

AgentMobileAgentActionopen_urlinputswipeOtherActions……h(huán)overclickscreen_elementsscroll

PlanningToolsMemoryLLM

ProxyMonitor頁(yè)面管理頁(yè)面URL采集基于訪問(wèn)埋點(diǎn)數(shù)據(jù)采集頁(yè)面訪問(wèn)熱度頁(yè)面保鮮

Celery

Redis頁(yè)面配置檢測(cè)任務(wù)鑒權(quán)截圖Agent報(bào)告 iSonic

云真機(jī)設(shè)備調(diào)度Api

驅(qū)動(dòng)Chromium

集群管理Puppeteer截圖Pageeyes2.0智能異常檢測(cè)平臺(tái)元素感知

坐標(biāo)轉(zhuǎn)換

元寶DeepSeek移除(自動(dòng)將棄用頁(yè)面從檢查池定中移除)添加(將線上熱門頁(yè)面快速

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論