版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
徐海洋|阿里巴巴通義實(shí)驗(yàn)室徐海洋阿里巴巴通義實(shí)驗(yàn)室高級(jí)算法專家阿里通義實(shí)驗(yàn)室高級(jí)算法專家,負(fù)責(zé)通義多模態(tài)大模型mPLUG、Mobile-Agent系列工作,包括基礎(chǔ)多模態(tài)模型mPLUG/mPLUG-2,多模態(tài)對(duì)話大模型mPLUG-Owl/Owl2,多模態(tài)文檔大模型mPLUG-DocOwl,多模態(tài)智能體Mobile-Agent、PC-Agent等,其中mPLUG工作在VQA榜單首超人類的成績,Mobile-Agent工作CCL2024BestICML/NeurIPS/ICLR/CVPR/ICCV/ACL/EMNLP等發(fā)表論文50多篇,并擔(dān)任多個(gè)頂級(jí)和會(huì)議AC/PC/Reviewer。主導(dǎo)參與開源項(xiàng)目mPLUG,大模型智能體背景大模型智能體是人工智能應(yīng)用的未來的Slack上會(huì)嗤之以鼻,認(rèn)討論”標(biāo)以來最大的計(jì)算變革”–比爾蓋茨大模型智能體的優(yōu)勢(shì)大模型智能體的優(yōu)勢(shì)傳統(tǒng)基于RL的智能體的局限性大模型智能體的優(yōu)勢(shì)豐富的世界知識(shí)豐富的世界知識(shí)In-contextLearning推理/規(guī)劃能力數(shù)據(jù)采樣專有環(huán)境和低效面向特定任務(wù)稀疏獎(jiǎng)勵(lì)和長時(shí)段問題大模型智能體系統(tǒng)在人工智能領(lǐng)域,AI智能體指可以觀察周遭環(huán)境并作出行動(dòng)以達(dá)致目標(biāo)的自主實(shí)體大模型智能體發(fā)展迅速多模態(tài)大模型智能體現(xiàn)實(shí)世界是需要多模態(tài)環(huán)境交互的,多模態(tài)智能體可能衍生出更多Super、Fancy應(yīng)用多模態(tài)大模型智能體現(xiàn)實(shí)世界是需要多模態(tài)環(huán)境交互的,多模態(tài)智能體可能衍生出更多Super、Fancy應(yīng)用參照人類思考系統(tǒng)的快速反應(yīng)與慢反思結(jié)合的工作模式,將LLM快速響應(yīng)和思維鏈深度思考基于Computer-UsingAgent模型,結(jié)合GPT?4o的視覺理解能力和強(qiáng)化學(xué)習(xí)習(xí)得的推理能力,自動(dòng)執(zhí)行鼠標(biāo)和鍵盤的組合操作,無需API,具備推理思維鏈和自動(dòng)糾錯(cuò)能力大模型通用型智能體系統(tǒng)搜索索引能力+生成式AI技術(shù)DeepResearch大模型通用型智能體系統(tǒng)從基于檢索提供信息,到Agent執(zhí)行任務(wù)的本質(zhì)進(jìn)階(1)規(guī)劃-執(zhí)行Tool-反思2)操作上云3)快操作+慢思考Manus強(qiáng)調(diào)“需求→規(guī)劃→執(zhí)行→交付”全流程自動(dòng)化,無需用戶持續(xù)指導(dǎo)便可能直接生成可交付成果,動(dòng)態(tài)調(diào)整執(zhí)行路徑,在解決現(xiàn)實(shí)世界問題方面表現(xiàn)卓越1.純視覺方案,不依賴系統(tǒng)數(shù)據(jù)2.可以多個(gè)應(yīng)用之間操作4.無需訓(xùn)練、即插即用CCL2024唯一BestDemoCCL2024唯一BestDemoMobile-Agent-V1多模態(tài)手機(jī)單智能體Mobile-Agent-V2多模態(tài)手機(jī)多智能體Mobile-Agent-V3自研多模態(tài)手機(jī)多智能體Mobile-Agent-E多智能體PC-Agent多模態(tài)電腦多智能體Mobile-Agent-V1Mobile-Agent-V2Mobile-Agent-V3Mobile-Agent-EPC-Agent分析天氣搜索視頻并評(píng)論刷短視頻并點(diǎn)贊導(dǎo)航行為空間行為空間冗長并且圖文交錯(cuò)格式的操作歷史,會(huì)大大增加智能體追蹤任務(wù)進(jìn)度的難度?首次在手機(jī)操作任務(wù)上采用多智能體架構(gòu),并延續(xù)了一代的純視覺方案?多智能體各司其職,實(shí)現(xiàn)了更有效的任務(wù)進(jìn)度追蹤、任務(wù)相關(guān)信息記憶和操作反思?更強(qiáng)大的復(fù)雜指令拆解能力、跨應(yīng)用操作能力和多語言場(chǎng)景操作能力采用多智能體框架,包括PlanningAgent、DecisionAgent、ReflectionAgent動(dòng)態(tài)評(píng)測(cè):5個(gè)系統(tǒng)內(nèi)置應(yīng)用和5個(gè)第三方應(yīng)用,每個(gè)APP和多個(gè)APP各2條基礎(chǔ)指令和2條進(jìn)階指令?純視覺理解方案,模擬人對(duì)屏幕的感知,可操作跨多個(gè)APP的復(fù)雜任務(wù)?多智能體協(xié)作機(jī)制,通過規(guī)劃、決策、反思,實(shí)現(xiàn)自主推理,達(dá)到強(qiáng)泛化能力和容錯(cuò)機(jī)制?強(qiáng)安全干預(yù)機(jī)制,避免高危操作?端+云協(xié)同部署,端側(cè)模型處理本地圖片,云上模型思考推理,避免隱私安全問題復(fù)雜指令:執(zhí)行復(fù)雜推理、多步規(guī)劃以及跨App操作反思過往的任務(wù)記錄,從經(jīng)驗(yàn)中學(xué)習(xí),自動(dòng)生成Tips和Shortcut多平臺(tái)比價(jià)任務(wù)示例兩個(gè)經(jīng)驗(yàn)ExperienceReflectors會(huì)根據(jù)當(dāng)前任務(wù)的操作記錄和錯(cuò)誤日志等信息,對(duì)Tips和Shortcuts進(jìn)行可能的優(yōu)化和更新多模態(tài)PC智能體PC-Agent多模態(tài)PC智能體PC-Agent多模態(tài)PC智能體PC-Agent與Mobile場(chǎng)景相比,PC場(chǎng)景有兩個(gè)難點(diǎn):1.更復(fù)雜的交互環(huán)境更密集多樣的可交互元素,以及不同布局的文本2.更復(fù)雜的操作序列PC常用于生產(chǎn)力場(chǎng)景,涉及更多復(fù)雜的App內(nèi)及跨App工作流,因此包含更復(fù)雜的任務(wù)序列多模態(tài)PC智能體PC-Agent更復(fù)雜的交互環(huán)境1.更密集多樣的可交互元素(AccessibilityTree)2.主動(dòng)感知模塊(APM):引入select動(dòng)作,來選中/操作不同布局的文本多模態(tài)PC智能體PC-Agent更復(fù)雜的操作序列指令的執(zhí)行分解為3個(gè)層次:指令-子任務(wù)-動(dòng)作指令層級(jí)ManagerAgent子任務(wù)層級(jí)ProgressAgent動(dòng)作層級(jí)DecisionAgent決策ReflectionAgent反思多模態(tài)PC智能體PC-AgentPC-Eval復(fù)雜指令測(cè)評(píng)集細(xì)化操作及長程決策,并與現(xiàn)實(shí)場(chǎng)景工作流相對(duì)應(yīng)。多模態(tài)PC智能體PC-Agent
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 拖拉機(jī)安全駕駛操作規(guī)程
- 北京警察學(xué)院《數(shù)字信號(hào)處理》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 北京警察學(xué)院《課程與教學(xué)論》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 2025年MBA綜合能力模擬試卷(含邏輯題解析)實(shí)戰(zhàn)演練
- 2026年口腔醫(yī)療管理公司院感監(jiān)測(cè)與報(bào)告制度
- 2026年劇本殺運(yùn)營公司線上營銷平臺(tái)管理制度
- 江蘇省揚(yáng)州市2025-2026年高三上學(xué)期一模語文試卷(含答案)
- 2026年通信行業(yè)5G技術(shù)應(yīng)用報(bào)告及物聯(lián)網(wǎng)創(chuàng)新報(bào)告
- 2026年及未來5年中國沖床設(shè)備市場(chǎng)供需格局及未來發(fā)展趨勢(shì)報(bào)告
- 值班制度規(guī)章制度
- 大數(shù)據(jù)安全技術(shù)與管理
- 2026年中小學(xué)校長校園安全管理培訓(xùn)考試題及答案
- 藥品臨床綜合評(píng)價(jià)實(shí)施方案
- 除塵布袋更換施工方案
- 養(yǎng)老護(hù)理員培訓(xùn)演示文稿
- 深圳加油站建設(shè)項(xiàng)目可行性研究報(bào)告
- 浙江省交通設(shè)工程質(zhì)量檢測(cè)和工程材料試驗(yàn)收費(fèi)標(biāo)準(zhǔn)版浙價(jià)服定稿版
- 紅樓夢(mèng)研究最新課件
- 給紀(jì)檢監(jiān)察部門舉報(bào)材料
- 低壓電工安全技術(shù)操作規(guī)程
評(píng)論
0/150
提交評(píng)論