版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
地址350108福建省福州市閩侯縣福州大學(xué)城聯(lián)榕路8號所(普通合伙)35233GO6N一種基于視覺語言大模型智能體的應(yīng)用程本發(fā)明涉及一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,屬于信息技術(shù)領(lǐng)Agent協(xié)同調(diào)度的方式共同完成用戶自動控制任VLMAgent在解決應(yīng)用程序自動控制問題的潛*21.一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,其特征在于,方法的框架設(shè)計了三種不同角色的視覺語言大模型智能體VLMAgent,分別為應(yīng)用程序智能體ApplicationAgent、用戶接口智能體UIAgent以及用戶任務(wù)檢查智能體Che在用戶輸入任務(wù)描述提示詞或者語音后,應(yīng)用程序智能體ApplicationAgent首先負(fù)責(zé)解析用戶輸入,并將用戶操作任務(wù)拆分成一系列可執(zhí)行的用戶接口UI控件操作,即全局策略規(guī)劃;之后,應(yīng)用程序智能體ApplicationAgent再根據(jù)全局策略規(guī)劃中提取的應(yīng)用程序具體名稱從環(huán)境變量或者配置文件中獲取對應(yīng)的窗口句柄,即啟動指定應(yīng)用程序,并將VLM執(zhí)行主導(dǎo)權(quán)傳遞給用戶接口智能體UIAgent;用戶接口智能體UIAgent利用設(shè)計的用戶接口工具集UITools對當(dāng)前應(yīng)用窗口的GUI界面進行截圖,并結(jié)合外部圖形用戶接口定位GUI-像的理解,用戶接口智能體UIAgent在對GUI界面進行UI控件識別后將對所有被識別出的UI控件標(biāo)注檢測框以及唯一控件標(biāo)識號ID,利用VLM對圖像標(biāo)注敏感的視覺感知特性;同時用戶接口智能體UIAgent根據(jù)全局策略規(guī)劃以及標(biāo)注檢測框之后的GUI界面截圖給出即時策略規(guī)劃,選擇當(dāng)前步需要操作的UI控件,并修正全局策略規(guī)劃;最后,用戶任務(wù)檢查智能體CheckAgent將根據(jù)操作指定UI控件后的GUI界面截圖判斷用戶當(dāng)前任務(wù)是否已完成,若未完成,則將VLM執(zhí)行主導(dǎo)權(quán)繼續(xù)交由用戶接口智能體UIAgent進行下一步UI控件操作;若完成,則應(yīng)用程序智能體ApplicationAgent輸出終止符,結(jié)束本次自動控制任務(wù),并通知用戶。2.根據(jù)權(quán)利要求1所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,步驟S1、構(gòu)建視覺語言大模型工具集合VLMTools;步驟S2、構(gòu)建視覺語言大模型團隊VLMTeam與視覺語言大模型智能體V步驟S3、應(yīng)用程序自動控制方法評估。3.根據(jù)權(quán)利要求2所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,步驟S12、定義全局策略規(guī)劃工具;步驟S17、定義即時策略規(guī)劃工具;4.根據(jù)權(quán)利要求3所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,其特征在于,所述方法的視覺語言大模型工具集合VLMTools為視覺語言大模型智能體VLMAgent的關(guān)鍵組件,將應(yīng)用程序自動控制方法核心內(nèi)容與邏輯拆分封裝成不同的視覺語言大模型工具VLMTool,其中視覺語言大模型工具VLMTool分為視覺任務(wù)VisionTask與非視覺任務(wù)Non-VisionTask,視覺語言大模型智能體VLMAgent根據(jù)用戶提示詞Prompt及當(dāng)3前自動控制任務(wù)執(zhí)行上下文選擇調(diào)用合適的視覺語言大模型工具VLMT構(gòu)建多模態(tài)消息列表M=[M?,M?,…M],將調(diào)用過程中產(chǎn)生的圖像信息S;,與文本信息t,一起作為多模態(tài)消息的請求內(nèi)容,其中M∈{s,t,},再記視覺語言大模型智能體VLM共享記憶產(chǎn)生困難,無法堅持多輪長對話;為了緩解該現(xiàn)象,減少提示詞Prompt與令牌同作為記憶Memory組件的存儲單位元,使得每個視覺語言大模型智能體VLMAgent作出的中存儲的圖像數(shù)量始終為1;通用規(guī)則元素提取的方式來識別UI控件識別,犧牲提出的應(yīng)用程序自動控制多智能體戶接口定位GUI-Grounding轉(zhuǎn)移至VLM對圖像內(nèi)容的理解與視覺語言大模型智能體VLM文本內(nèi)容理解的優(yōu)秀能力過濾掉無關(guān)的UI控件,只保留與當(dāng)前即時決策相關(guān)的主要UI控域,而與思路相近的基于通用規(guī)則元素提取技術(shù)的UF0方法僅在可交互的UI控件右上角標(biāo)注純數(shù)字ID;視覺語言大模型智能體VLMAgent在與UI控件進行交互之前,還需要在像素坐4件邊界的右上角頂點的橫坐標(biāo),uy?為像素坐標(biāo)系中UI控件邊界的左上角頂點的縱坐標(biāo),當(dāng)一次UI控件交互操作完成時,為了檢驗當(dāng)前用戶操作任務(wù)界面截圖S;以及總體任務(wù)描述t;封裝為多模態(tài)消息M,讓視覺語言大模型智能體VLM同時修正全局策略規(guī)劃πg(shù),并向視覺語言大模型團隊VLMTeam給出下一步即時策略規(guī)劃享修正后的全局策略規(guī)劃πg(shù)以及即時策略規(guī)劃π1,以便提高VLM對當(dāng)前GUI界面的圖像理解。5.根據(jù)權(quán)利要求2所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,6.根據(jù)權(quán)利要求5所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,提示詞即可完成整個CCMAgent系統(tǒng)的更新,還能夠同時完成多智能體Multi-Agent及多視為了優(yōu)化用戶操作本系統(tǒng)時交互體驗,利用STT工具將用戶從輸入文本的方式轉(zhuǎn)音設(shè)備對話來操作視覺語言大模型智能體VLMAgent;針對應(yīng)用程序自動控制問題總共設(shè)計了三種視覺語言大模型智能體VLMAgent,分別為應(yīng)用程序智能體Application5語言大模型智能體VLMAgent共享記憶Memory組件,同時將方法系統(tǒng)的主線程操作權(quán)限交語言大模型智能體VLMAgent的多模態(tài)輸出消息M來確定下一步應(yīng)當(dāng)調(diào)用的視覺語言大程操作權(quán)限的視覺語言大模型智能體VLMAgent自行選擇將主線程交由其他視覺語言大模πg(shù)或即時策略規(guī)劃π的語義信息選擇合適的視覺語言大模型智能體VLMAgent;應(yīng)用程序智能體ApplicationAgent可供操作的視覺語言大模型工具集合VLMTools圖以及UI相關(guān)步驟;用戶任務(wù)檢查智能體CheckAgent可供操作的視理生成即時策略規(guī)劃π1,也將其構(gòu)造成多模態(tài)消息M并存儲至記憶Memory組件中,將策7.根據(jù)權(quán)利要求2所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,8.根據(jù)權(quán)利要求7所述的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,其特征在于,所述為了更加全面的評估各種基于視覺語言大模型智能體VLMAgent的應(yīng)用6其中視覺語言大模型智能體VLMAgent執(zhí)行的預(yù)測操作序列為P=[P?,P?……P,],包序列中的某個步驟0;相同,但是如果該預(yù)測步驟Pi對完成任務(wù)沒有任何幫助,則記P??Pwnusefiul,反之,若執(zhí)行預(yù)測步驟Pi使得用戶自動控制任務(wù)完成進度提升,則記p,∈P1eful;計算用戶自動控制任務(wù)完成率會將一些盡管中間步驟存在錯誤但最終依然完成任務(wù)的預(yù)測操作序列的權(quán)重比例提高,能夠索引相同時步驟是否相同一致的個數(shù),最后再計算步驟匹配數(shù)與最優(yōu)操作序列步驟總數(shù)不同則置為0;分CC-Score時均用到了最優(yōu)操作序列O=[o,0?…0],而WindowsBench并沒有提供最優(yōu)7一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法技術(shù)領(lǐng)域[0001]本發(fā)明屬于信息技術(shù)領(lǐng)域,特別涉及一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法。背景技術(shù)[0002]在人機交互領(lǐng)域中,圖形用戶界面(GraphicalUserInterfaces,GUI)廣泛應(yīng)用于智能手機、計算機等電子設(shè)備中,允許用戶通過鼠標(biāo)、鍵盤等輸入設(shè)備自由操控這些可交互設(shè)備,并在各種應(yīng)用軟件上完成一系列復(fù)雜的用戶任務(wù)。然而,由于用戶需求的靈活多變以及用戶對軟件功能的要求不斷增高,應(yīng)用軟件的交互界面越來越復(fù)雜臃腫,用戶往往需要花費較多時間先學(xué)習(xí)記憶應(yīng)用軟件的使用方法,使得用戶軟件界面交互體驗變差,用戶如果需要完成一些操作步驟較多的用戶交互任務(wù)則變得困難麻煩。此外,由于GUI中UI控件元素的增多及布局復(fù)雜度的增高,導(dǎo)致程序自動化測試控制腳本的編寫難度也隨之增大。同時傳統(tǒng)的自動化測試方法通常依賴于硬編碼,難以應(yīng)對頻繁多變的軟件交互界面。對于一些大型軟件而言,一旦出現(xiàn)版本更新迭代,自動化測試控制腳本便需要重新編寫。[0003]由于近幾年視覺語言大模型(VisionLanguageLargeModel,VLM)的流行,越來越多的研究學(xué)者利用VLM技術(shù)來解決這類軟件層面上的人機交互問題,如Hong等人提出的能力的特性,將人工操作UI控件元素的步驟進行自動化控制處理,以此簡化用戶與復(fù)雜軟件交互過程?;诹銟颖緦W(xué)習(xí)訓(xùn)練的VLM具有處理未知場景的泛化能力,能夠較好地理解用戶的任務(wù)目的,并給出對應(yīng)的語言文本或者圖像輸出,這使得VLM在面對版本迭代更新較快的大型軟件時,依然能夠保持較好的響應(yīng)效果,輔助用戶完成一系列復(fù)雜人機交互任務(wù)。[0004]雖然目前比較先進的VLM,如GPT-4V(o),在完成高維度狀態(tài)與動作空間的場景任務(wù)時,效果較差,不具備復(fù)雜的圖像邏輯推理能力,上下文感知能力有限,但對于自動控制軟件應(yīng)用程序問題而言,用戶與GUI交互時僅通過鼠標(biāo)點擊及鍵盤輸入等離散動作即可完交互的大部分任務(wù)不涉及邏輯性強的推理步驟。因此,在相對簡單的用戶交互任務(wù)中,VLM可以較好地代替用戶操作應(yīng)用程序,以實現(xiàn)自動控制應(yīng)用程序。[0005]實現(xiàn)VLM自動控制應(yīng)用程序的關(guān)鍵步驟之一是UI控件坐標(biāo)定位,即2D-Grounding任務(wù)。UI控件識別的準(zhǔn)確率直接決定了VLM在自動控制應(yīng)用程序中的表現(xiàn)和效果。目前基于VLM自動控制應(yīng)用程序方法主要分為兩類:第一類基于GUI-Grounding的方法,如Baechler時對圖像中出現(xiàn)的UI控件進行坐標(biāo)定位,并根據(jù)用戶提示詞輸出完成用戶指定的應(yīng)用程序控制任務(wù)需要用到的UI控件;第二類方法結(jié)合外部GUI-Grounding模型或工具嵌入VLM中,模型的兼容性,本發(fā)明采用結(jié)合外部GUI-Grounding標(biāo)識UI控件的方法,利用VLM對圖像標(biāo)8[0006]現(xiàn)有的基于VLM的應(yīng)用程序自動控制方法在設(shè)計智能體策略時,大多采用全局策略規(guī)劃,在控制指定應(yīng)用程序之前,首先通過一個VLM智能體根據(jù)用戶提出的指定操作任務(wù)規(guī)劃接下來可能所有UI操作。這種方式適用于操作步驟較少或軟件GUI簡易的應(yīng)用場景,但是在面對一些版本迭代更新比較快的大型復(fù)雜軟件系統(tǒng)時,由于這種方法依賴于VLM模型訓(xùn)練時輸入的GUI操作前置知識,比較容易在方法初始階段給出錯誤的UI操作策略規(guī)劃,導(dǎo)致后續(xù)的VLM自動控制GUI操作時陷入死循環(huán)。因此,本發(fā)明采用即時策略規(guī)劃為主、全局策略規(guī)劃為輔的多VLM智能體方法,VLM智能體在控制應(yīng)用程序時將根據(jù)當(dāng)前應(yīng)用程序GUI界面截圖來不斷修正全局策略,即時判斷下一步UI操作,類似于強化學(xué)習(xí)探索環(huán)境時的行為策略。發(fā)明內(nèi)容[0007]本發(fā)明的目的在于提供一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方局策略規(guī)劃為輔的VLM多智能體方法CCMAgent(ComputerControlMulti-Agent),并利用VLM對圖像標(biāo)記敏感的視覺感知特性,通過外部GUI-Grounding方法對當(dāng)前應(yīng)用程序GUI界VLMAgent的探索性,提高本發(fā)明方法的魯棒性,避免由于全局策略規(guī)劃不當(dāng)導(dǎo)致自動控制陷入死循環(huán)。[0008]為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法,設(shè)計了三種不同角色的視覺語言大模型智能體VLMAgent,分別為應(yīng)用程序智能體ApplicationAgent、用戶接口智能體UIAgent以及用戶任務(wù)檢查智能體CheckAgent。在用戶輸入任務(wù)描述提示詞或者語音后,ApplicationAgent首先負(fù)責(zé)解析用戶輸入,并將用戶操作任務(wù)拆分成一系列可執(zhí)行的用戶接口UI控件操作,即全局策略規(guī)劃。之后,ApplicationAgent再根據(jù)全局策略規(guī)劃中提取的應(yīng)用程序具體名稱從環(huán)境變量或者配置文件中獲取對應(yīng)的窗口句柄,即啟動指定應(yīng)用程序,并將VLM執(zhí)行主導(dǎo)權(quán)傳遞給UIAgent.UIAgent利用本發(fā)明設(shè)計的用戶接口工具集UITools對當(dāng)前應(yīng)用窗口的圖形用戶接口GUI界面進行截圖,并結(jié)合外部圖形用戶接口定位GUI-Grounding方法識別當(dāng)前GUI界面進行UI控件識別后將對所有被識別出的UI控件標(biāo)注檢測框以及唯一控件身份標(biāo)識號ID,以此利用VLM對圖像標(biāo)注敏感的視覺感知特性。同時UIAgent將根據(jù)全局策略規(guī)劃以及標(biāo)注檢測框之后的GUI界面截圖給出即時策略規(guī)劃,選擇當(dāng)前步需要操作的UI控件,并修正全局策略規(guī)劃。最后,CheckAgent將根據(jù)操作指定UI控件后的GUI界面截圖判斷用戶當(dāng)前任務(wù)是否已完成,若未完成,則將VLM執(zhí)行主導(dǎo)權(quán)繼續(xù)交由UIAgent進行下一步UI控件操作,若完成,則應(yīng)用程序智能體ApplicationAgent輸出終止符,結(jié)束本次自動控制任務(wù),并通知用戶。步驟S1、構(gòu)建視覺語言大模型工具VLMToo9序自動控制方法核心內(nèi)容與邏輯拆分封裝成不同的視覺語言大模型工具VLMTool,其中Agent根據(jù)用戶提示詞Prompt及當(dāng)前自動控制任務(wù)執(zhí)行上下文選擇調(diào)用合適的VLMTool,若該VLMTool屬于VisionTask,則VLMAgent通過構(gòu)建多模態(tài)消息列表,將調(diào)用過程中產(chǎn)生的圖像信息S?,如應(yīng)用程序GUI界面截圖Mu=f(M?,M?…,MN;θ)(1);[0012]VLMAgent在與UI控件進行交互之前,還需要在像素坐標(biāo)系中確定其中Ux?為像素坐標(biāo)系中UI控件邊界的左上角頂點的橫坐標(biāo),Ux?為像素坐標(biāo)系修正全局策略規(guī)劃πg(shù),本發(fā)明設(shè)計了專門用于檢驗任務(wù)完成的VLMTool,VLMAgent將利時策略規(guī)劃π1,如式(4)所示:件存儲策略信息,使得所有VLMAgent都能夠共享修正后的全局策略規(guī)劃πg(shù)以及即時策略規(guī)劃π1,以便提高VLM對當(dāng)前GUI界面的圖像理解,若完成,則應(yīng)用程序智能體11步驟S25、構(gòu)建應(yīng)用程序智能體ApplicationAgent;步驟S26、構(gòu)建用戶接口智能體UIAgen[0015]現(xiàn)有的Agent框架大多比較笨重并且不是專門為了設(shè)計搭建Agent而生,如LangChain,較難兼容Multi-Agent以及多VLMTool的場景,并且很難擴展不同的最新版商[0016]進一步的,基于AutoGen框架進行二次封裝開發(fā),對外提供簡化API,用戶只需要修改系統(tǒng)提示詞即可完成整個CCMAgent系統(tǒng)的更新,還能夠同時完成Multi-Agent及多VLMTool的場景,并且能夠橫向兼容多種最新的商業(yè)化的VLMAPI接口,如GPT-4V(o)與Claude-3.7-sonnet。此外,為了優(yōu)化用戶操作本系統(tǒng)時交互體驗,本發(fā)明利用STT工具將用戶從輸入文本的方式轉(zhuǎn)為通過語音設(shè)備對話來操作VLMAgent。[0017]本發(fā)明針對應(yīng)用程序自動控制問題總共設(shè)計了三種VLMAgent,分別為ApplicationAgent、UIAgent以及Check為了讓這三種VLMAgent協(xié)同調(diào)度工作,共享歷史上下文,利用VLMTeam技術(shù)將三種VLM明步驟S1中定義的各類VLMTool的調(diào)度使用是基于語義實現(xiàn)的,需要根據(jù)VLMAgent的多模態(tài)輸出消息M來確定下一步應(yīng)當(dāng)調(diào)用的VLMTool,因此,本發(fā)明將VLMTeam的調(diào)度策略定義為通過當(dāng)前掌握主線程操作權(quán)限的VLMAgent自行選擇將主線程交由其他VLMAgent或依然是自己,使得VLMTeam處理用戶控制任務(wù)時較為自由靈活,即VLMTeam根據(jù)歷史共享上下文中的全局策略規(guī)劃πg(shù)或即時策略規(guī)劃π?的語義信息選擇合適的VLMAgent。[0018]ApplicationAgent可供操作的視覺語言大模型工具集合VLMTools集合為全局策略規(guī)劃工具、圖像拼接工具與應(yīng)用程序窗口句柄工具,主要處理生成全局策略規(guī)劃πg(shù),并將其構(gòu)造為多模態(tài)消息M存儲至Memory組件中,以及進行應(yīng)用程序基礎(chǔ)操作,如獲取應(yīng)用程序環(huán)境變量、窗口句柄以及啟動應(yīng)用程序操作;UIAgent可供操作的視覺語言大模型工具集合VLMTools集合為UI識別及圖像標(biāo)注工具、交互UI控件工具以及圖像拼接工具,主元素等操作;CheckAgent可供操作的視覺語言大模型工具集合VLMTools集合為即時策略規(guī)劃工具、檢驗用戶操作任務(wù)工具以及圖像拼接工具,主要處理生成即時策略規(guī)劃π1,也將其構(gòu)造成多模態(tài)消息M并存儲至Memory組件中,將策略π1共享給ApplicationAgent[0019]進一步的,步驟S3的具體實現(xiàn)如下:其中VLMAgent執(zhí)行的預(yù)測操作序列為P=[P?,P?…P,],,任務(wù)有效的操作序列集合,盡管預(yù)測操作序列中某個預(yù)測步驟Pi與最優(yōu)操作序列中的某個步驟0;相同,但是如果該預(yù)測步驟P;對完成任務(wù)沒有任何幫助,則戶自動控制任務(wù)完成率會將一些盡管中間步驟存在錯誤但最終依然完成任務(wù)的預(yù)測操作Agent自動控制方法。由于本發(fā)明在計算用戶自動控制任務(wù)完成率以及CC-Score時均用到夠橫向擴展多種最新商業(yè)化VLMAPI接口,如GPT-4V(o)與Claude-3.7-sonnet,并且能夠同時兼容Multi-Agent與多VLMTool場景;(3)應(yīng)用程序的GUI界面UI控件識別采用基于通用規(guī)則元素提取的方式,以犧牲本發(fā)明的跨平臺性,來盡可能提高UI識別準(zhǔn)確率,發(fā)掘VLMAgent在應(yīng)用程序自動控制問題中的潛力,同時本發(fā)明利用圖像拼接技術(shù),減少多輪長對話中圖像信息在Prompt的占比,以提高本發(fā)明的運行速度,并緩解Memory中共享的歷史上下文過長問題。[0023](4)本發(fā)明利用WindowsBench的子集全面評估對比基于GUI-Grounding與基于通用規(guī)則元素提取方法之間的任務(wù)完成率、CC-Score等5種指標(biāo)。附圖說明[0024]圖1為本發(fā)明設(shè)計的CCMAgent應(yīng)用程序自動控制方法流程圖。[0025]圖2為本發(fā)明實現(xiàn)的VLMTeam組件交互框架[0026]圖3為本發(fā)明為WindowsBench子集標(biāo)注的最優(yōu)操作序列中UI操作占比圖。具體實施方式[0028]本發(fā)明提供一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法CCMAgent,利用VLMTeam技術(shù)協(xié)同調(diào)度自主設(shè)計的3個VLMAgent與7個VLMTool,并采用即時策略規(guī)劃為主、全局策略規(guī)劃為輔的Agent決策方法,提高方法的泛化能力與通用性,為自動控制未知軟件及復(fù)雜控制任務(wù)提供思路。為了盡可能提高UI控件的識別與其可交互區(qū)域檢測框應(yīng)用程序自動控制問題的潛力,并利用圖像拼接技術(shù),拼接VLMAgent中間過程產(chǎn)生的多模態(tài)消息,減少多輪長對話中圖像信息在Prompt中的占比,提高CCMAgent方法運行速度,同時緩解Memory組件中共享歷史上下文過長問題。最后,本發(fā)明利用WindowsBench的子集計算5種指標(biāo)對應(yīng)用程序自動控制方法進行全面對比評估。[0029]以下為本發(fā)明的具體實施例的實現(xiàn)過程。[0030]本發(fā)明提出的一種基于視覺語言大模型智能體的應(yīng)用程序自動控制方法CCMAgent的流程圖與組件交互框架圖分別見圖1與圖2。本發(fā)明包括如下步驟:步驟S1、構(gòu)建視覺語言大模型工具集合VLMTools集合;步驟S2、構(gòu)建視覺語言大模型團隊VLMTeam與視覺語言大模型智能體步驟S3、應(yīng)用程序自動控制方法評估;由于基于通用規(guī)則元素提取的方法不能跨平臺識別UI控件,因此,為了方便后續(xù)類自動控制方法的VLM部署推理過程在L20GPU上完成,其顯存容量為48GB,內(nèi)存容量為[0031](1)步驟1中的構(gòu)建VLMTools集合本發(fā)明將應(yīng)用程序自動控制方法的核心步驟拆分成多個可供VLMAgent執(zhí)行的VLMTools集合,為VLMAgent中的關(guān)鍵組件之一,并且分為視覺任務(wù)(VisionTask)與非視覺任務(wù)(Non-VisionTask)。對于正在執(zhí)行操作任務(wù)的VLMAgent而言,它可以根據(jù)歷史上當(dāng)VLMAgent在執(zhí)行與Vision息與文本信息共同作為多模態(tài)消息M的請求內(nèi)容,其中Mu=f(M?,M?…,MN;θ)(1);全局策略規(guī)劃工具一般在用戶自動控制任務(wù)的第一步執(zhí)行,由ApplicationVLMAgent交互UI控件之前首先需要知道UI控件的坐標(biāo),而UI控件的坐標(biāo)由UI識其中ux?為像素坐標(biāo)系中UI控件邊界的左上UI控件邊界的右上角頂點的橫坐標(biāo),Uy?為像素坐標(biāo)系中UI控件邊界的左上角頂點的縱坐系統(tǒng)提示詞語義指定CheckAgent需要分別執(zhí)行調(diào)度一次即時策略規(guī)劃工具與檢驗用戶操本發(fā)明設(shè)計了專門用于檢驗任務(wù)完成的VLMTool,VLMAgent將利用該Tool對指定應(yīng)用程VLMTeam是一種能夠協(xié)同多個VLMAPI,用戶只需要修改系統(tǒng)提示詞即可完成整個CCMAgent系統(tǒng)的更新,還能夠同時完成OpenAI平臺的GPT-4V(o)或Clau為了方便盲人交互以及簡化方便用戶交互,不需要用戶手動鍵入Prompt,本發(fā)明利用STT工具實現(xiàn)語音交互功能,將用戶從輸入文本的方式轉(zhuǎn)為通過語音設(shè)備對話來操作文本內(nèi)容轉(zhuǎn)為語音輸出。本發(fā)明針對應(yīng)用程序自動控制問題總共設(shè)計了三種VLMAgent,分別為定義為通過當(dāng)前掌握主線程操作權(quán)限的VLMAgent自行選擇將主線程交由其他VLMAgent本發(fā)明針對應(yīng)用程序自動控制問題總共設(shè)計了三種VLMAgent,分別為定義為通過當(dāng)前掌握主線程操作權(quán)限的VLMAgent自行選擇將主線程交由其他VLMAgent享上下文中的全局策略規(guī)劃πg(shù)或即時策略規(guī)劃π的語義信息選擇合適的VLMAgent。具與應(yīng)用程序窗口句柄工具,主要處理生成全局策略規(guī)劃πg(shù),并將其構(gòu)造為多模態(tài)消息略規(guī)劃π1,也將其構(gòu)造成多模態(tài)消息M并存儲至Memory組件中,將策略π1共享給ApplicationAgent與CheckAgent。為了全面對比評估各類基于VLM先進的應(yīng)用程序自動控制方法,本發(fā)明采用WindowsBench數(shù)據(jù)集的子集作為評估數(shù)據(jù)集,施例。CC-Score時均用到了最優(yōu)操作序列O=[0?,O?….m],而WindowsBench并沒有提供最優(yōu)操Prompt:OpenExcelapplicationandinput"100.0"intothecellattherow3,column2.Finallypleaseboldformattingtothecell.1.0penExcel.為了更加全面的評估各種基于VLMAgent的應(yīng)用程序自動控制方法,本發(fā)明使用總共5種評估指標(biāo),包含用戶自動控制任務(wù)完成率(CompleteRat[0051]計算用戶自動控制任務(wù)完成率會將一些盡管中間步驟存在錯誤但最終依然完成1,若不同則置為0;在數(shù)據(jù)集方面,本發(fā)明利用由Zhang等人提出的WindowsBench基準(zhǔn)中對Word、基準(zhǔn)適用于大部分VLMAgent自動控制方法。由于本發(fā)明在計算用戶自動控制任務(wù)完成率以及CC-Score時均用到了最優(yōu)操作序列O=[o?,0?…..],而WindowsBench并沒有提供最[0053]本發(fā)明在此次對比評估實驗中總共使用了兩種類型的基于VLM的應(yīng)用程序自動控表1應(yīng)用程序自動控制方法效果對比結(jié)果CN120215768A用戶自動控制任務(wù)完每步用1視覺定位2析1視覺定位7-sonn3-3.7-s析gent+GPT-4V3析[0054]分別為基于VLM-Grouding的Niu等人提出的ScreenAgent與Hong等人提出的CogAgent,以及基于通用規(guī)則元素提取的Zhang等人提出的UFO方法與本發(fā)明提出的VLMAgent執(zhí)行一個完整步驟,如鼠標(biāo)點擊,需要花費的平均時間;Prompt代表執(zhí)行[0055]通過表1可以看出,基于主流的GUI-Grounding方法的CompleteRate與CC-Score均比基于通用規(guī)則元素提取方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廣東江門市高職單招職業(yè)技能測試考試題庫(含答案)
- 2023中國男性乳房發(fā)育臨床診治專家共識解讀
- 達沃斯司機安全培訓(xùn)內(nèi)容課件
- 邊坡防護培訓(xùn)課件
- 實驗室安全生產(chǎn)培訓(xùn)方案
- 車隊管理培訓(xùn)課件
- 內(nèi)科主治醫(yī)師考試模擬試題(1)及答案
- 車隊全年安全培訓(xùn)記錄課件
- 2026年順德疾控面試題庫及答案
- (2026)醫(yī)院重大事件請示報告制度(3篇)
- 羅茨鼓風(fēng)機行業(yè)發(fā)展趨勢報告
- 慢性阻塞性肺疾病患者非肺部手術(shù)麻醉及圍術(shù)期管理的專家共識
- 燈謎大全及答案1000個
- 中建辦公商業(yè)樓有限空間作業(yè)專項施工方案
- 急性胰腺炎護理查房課件ppt
- 初三數(shù)學(xué)期末試卷分析及中考復(fù)習(xí)建議課件
- GB/T 4074.8-2009繞組線試驗方法第8部分:測定漆包繞組線溫度指數(shù)的試驗方法快速法
- 第十章-孤獨癥及其遺傳學(xué)研究課件
- 人教版四年級上冊語文期末試卷(完美版)
- 防空警報系統(tǒng)設(shè)計方案
- 酒店管理用水 酒店廚房定額用水及排水量計算表分析
評論
0/150
提交評論