AiCon多環(huán)境下的LLMAgent應(yīng)用與增強(qiáng)_第1頁(yè)
AiCon多環(huán)境下的LLMAgent應(yīng)用與增強(qiáng)_第2頁(yè)
AiCon多環(huán)境下的LLMAgent應(yīng)用與增強(qiáng)_第3頁(yè)
AiCon多環(huán)境下的LLMAgent應(yīng)用與增強(qiáng)_第4頁(yè)
AiCon多環(huán)境下的LLMAgent應(yīng)用與增強(qiáng)_第5頁(yè)
已閱讀5頁(yè),還剩75頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多環(huán)境下的LLMAgents

應(yīng)用與增強(qiáng)演講人:劉邦蒙特利爾大學(xué)&Mila研究所CanadaCIFARAI

ChairCONTENTS

02

多模具身智能體

03推理密集智能體

04科學(xué)領(lǐng)域智能體

01

大模型與智能體目錄LLMandAgents它的定義,框架,與挑戰(zhàn)Give

me

thedefinitionof

‘Agent’.

什么是Agent?“Anagent

is

anything

that

can

beviewed

as

perceiving

its

environmentthroughsensors

and

acting

upon

thatenvironmentthroughactuators.——

Stuart

J.Russell

and

Peter

Norvig”

Agent的定義e

medefinition

of“Anagent

is

asystemthat

can

helppletetasks

intelligently.”

簡(jiǎn)而言之。。。We

need

tools

Just

Do

ItBut

how?Tools

assubagentsof

an

agentsystemJust

Say

ItBut

how?We

need

tools

幕后主腦But

how?We

need

LLMWe

need

toolsTools

assubagentsof

an

agentsystemLLMPerception

Action

基于LLM的自然語(yǔ)言處理ToolsmachineEnvMemorySensorICost

Agent系統(tǒng)框架ActorBackboneQueryFeedbackDynamicenvironmentstatePredictUserInputsWorld

ModelStaticdataInputWriteReadReadWriteResponseErrorErrorWorldPerceptOutputInputThinkActData

InterpreterMobileALOHAThinkThrice·open

Interpreter

一些現(xiàn)存的

AgentsM3AWithAndroidWorldAlphaGeometryAndroidControl

AgentDeepMindSIMAAI

ScientistOPExGenerativeAgentsCradleGPT-4VGPT-3.5VoyagerAgents的分類M3AWithAndroidWorldThinkThriceMobileALOHADataInterpreterAlphaGeometry·open

InterpreterDeepMindSIMAOPExGenerativeAgentsCradlePerceptionCognitionActionGPT-3.5GPT-4VVoyagerQueryFeedback?Howtoperformplex

tasks??Howtodealwithunseen

tasks??Howtolearnand

utilizedomain

knowledge?CostSensorInput?Howtoachievereal-timeperception

indynamic

settings?

?Howcanagentshandleiplete

or

noisy

data

robustly?

LLM

Agent的一些核心挑戰(zhàn)?Howtoeffectivelyexecuteactions??Howtosearchhuge

actionspace?Memory?Howtorepresentandalign

multimodal

inputsignals??Howtodesignandevolve

tools?ActorBackboneDynamicenvironmentstatePredictUserInputsWorld

ModelStaticdataInputWriteReadReadWriteResponseErrorErrorWorldPerceptOutputThinkAct

研究軌跡

近期成果MultimodalEmbodiedAgents我們離具身智能助手還有多遠(yuǎn)?Why?

What

We

Want

v.s.

What

We

Get

Case

Study:

Embodied

Instruction

Following

(EIF)

Case

Study:

Embodied

Instruction

Following

(EIF)

OPEx:

Aponent-Wise

Analysis

OPEx:

Aponent-Wise

Analysis

OPEx:

Aponent-Wise

Analysis

OPEx:

Aponent-Wise

Analysis

OPEx:

Aponent-Wise

Analysis

Insights

from

OPExWe

Need

to

Strengthen

Multimodal

Perception文檔理解(Doc

Understanding)?目前大多數(shù)文檔LLM評(píng)測(cè)中,答案

僅來(lái)自于圖中的文

字部分場(chǎng)景文字識(shí)別(SceneTextRecognition)?可能直接通過(guò)OCR識(shí)別文字圖象,不需要自然語(yǔ)言知識(shí)視覺(jué)問(wèn)答(VQA)?可能不需要圖

像信息即可回

答圖像中被覆蓋的?本是什么?請(qǐng)?jiān)诓惠敵鼋忉尩那闆r

下還原被覆蓋的?本。?答案取決于圖像+文字圖像+像素級(jí)文字

提示+自然語(yǔ)言問(wèn)題?優(yōu)勢(shì):需要進(jìn)行圖像/文字圖像/自然語(yǔ)言三者的對(duì)齊

視覺(jué)字幕恢復(fù)(VCR)

視覺(jué)字幕恢復(fù)(VCR)?人類很擅長(zhǎng)識(shí)別被部分遮擋的物體?人類在識(shí)別時(shí)會(huì)使用不同的腦區(qū)?在識(shí)別被遮擋的事物涉及大腦不同區(qū)域之間的復(fù)雜協(xié)同,這些區(qū)域與視覺(jué)和感知控制相關(guān)

人類在視覺(jué)補(bǔ)全上的復(fù)雜機(jī)制

VCR任務(wù)的獨(dú)特性?設(shè)計(jì)初衷:解決視覺(jué)問(wèn)答和場(chǎng)景文字識(shí)別中的問(wèn)題?不能避免多模態(tài)識(shí)別:

圖像信息對(duì)于正確回答是必需的?不能通過(guò)OCR解決:被遮擋的文字僅保留像素級(jí)提示,無(wú)法通過(guò)OCR識(shí)別?具有唯一答案:與MaskedLM不同,VCR中被遮擋的文字被露出的像素級(jí)提示唯一確定,可使用準(zhǔn)確度

(ACC)作為評(píng)測(cè)指標(biāo)?設(shè)計(jì)理念:將圖像中的文字作為第三種模態(tài)對(duì)待?圖像中的文字具有和字符串類型自然語(yǔ)言/常規(guī)圖像不同的特征,在多模態(tài)模型中應(yīng)該單獨(dú)加以考慮?設(shè)計(jì)實(shí)現(xiàn):對(duì)于圖像/文字來(lái)源及難度的高度靈活性?遮擋文字選擇的靈活性:可選擇遮擋特定token/句子/n-gram/POSTag?遮擋區(qū)域選擇的靈活性:可調(diào)節(jié)遮擋文字區(qū)域的空白框高度來(lái)控制任務(wù)難度?圖像構(gòu)建方式的靈活性:可選擇在文字部分基礎(chǔ)上有/無(wú)配套圖像探究額外圖像對(duì)模型影響

VCR-Wiki數(shù)據(jù)集構(gòu)建?我們基于維基百科構(gòu)建了適用于VCR任務(wù)的數(shù)據(jù)集VCR-Wiki?包含兩種語(yǔ)言:簡(jiǎn)體中文和英文?包含兩種難度:簡(jiǎn)單(OCR無(wú)法完成的難度)和困難(遮擋文字上下僅各保留1-2個(gè)像素)?包含訓(xùn)練集+驗(yàn)證集+測(cè)試集,其中訓(xùn)練集可以作為多模態(tài)大模型SFT數(shù)據(jù)

VCR-Wiki數(shù)據(jù)集構(gòu)建1.

數(shù)據(jù)清洗:基于wit-base數(shù)據(jù)集,去除不含zh/en的條目及部分敏感條目2.文本處理:基于給定字體和字號(hào),保留前5行維基百科介紹,通過(guò)spaCy選取其中不包含標(biāo)點(diǎn)/數(shù)字/人名地名等

的5-gram作為遮擋目標(biāo);篩去所有不包含任何遮擋目標(biāo)的條目3.構(gòu)建文字圖像(TEI):根據(jù)難度對(duì)遮擋目標(biāo)進(jìn)行不同程度遮擋4.拼接:將視覺(jué)圖像(VI)與文字圖像(TEI)進(jìn)行拼接,縮放至300px寬;篩去所有超過(guò)900px高的條目

英文VCR樣例

中文VCR樣例

實(shí)驗(yàn)觀察?在VCR-Wiki上,對(duì)應(yīng)語(yǔ)言的熟練使用者能夠在簡(jiǎn)單和困難難度上取得超過(guò)90%的準(zhǔn)確率,而模型距離

人類水平還有極大差距?目前開源模型整體弱于閉源模型,但存在有開源模型(如CogVLM2)能夠以19B參數(shù)量大幅超越相似

大小的開源模型及部分閉源模型?VCR任務(wù)雖然看似簡(jiǎn)單,但其挑戰(zhàn)涉及模型分辨率壓縮(對(duì)像素級(jí)文本提示的保留),模型推理(利用

上下文推斷被覆蓋文本)和常識(shí)利用

(維基百科內(nèi)容應(yīng)已被各模型訓(xùn)練集覆蓋,但效果仍然不好),在

該評(píng)測(cè)上的提升還有很長(zhǎng)的路要走?我們?cè)诔掷m(xù)更新新模型在VCR-Wiki上的效果,希望能將VCR構(gòu)建成未來(lái)的視覺(jué)-語(yǔ)言模型(VLM)常用評(píng)測(cè)之一使?openpass/VLMEvalKit進(jìn)?測(cè)試openpass/VLMEvalKit:Open-sourceevaluationtoolkitoflargevision-languagemodels(LVLMs),supportGPT-4v,

Gemini,QwenVLPlus,50+HFmodels,20+benchmarks(github)

Resources

about

VCR使?EvolvingLMMs-Lab/lmms-eval進(jìn)?測(cè)試EvolvingLMMs-Lab/lmms-eval:Accelerating

thedevelopmentoflargemultimodalmodels

(LMMs)withlmms-eval(github)機(jī)器之心報(bào)道Bengio團(tuán)隊(duì)提出多模態(tài)新基準(zhǔn),直指

Claude3.5和GPT-4o弱點(diǎn)HuggingFaceVCR:VisualCaptionRestorationavcr-orgCollection(huggingface.co)arXivVCRVisualCaptionRestoration

Arxiv-2406.06462GitHubOPEx目前

LLM-centered

EmbodiedAgents瓶頸在于多模態(tài)Perception的

表征與具身Action的執(zhí)行VCRVCR任務(wù)有助于提高多模態(tài)的表示學(xué)習(xí),可成為視覺(jué)-語(yǔ)言模型(VLM)常用評(píng)測(cè)任務(wù)之一

小結(jié):多模態(tài)與具身AgentOPExReasoning-IntensiveAgents“體力”有待提高,“腦力”水平如何?Diverseplexity!

“?”是環(huán)境的一部分部分信息和不完全信息的處理角色扮演和情境適應(yīng)性

劇本殺(Jubensha)長(zhǎng)程記憶和信息管理協(xié)作與競(jìng)爭(zhēng)的平衡復(fù)雜的推理和決策多模態(tài)信息處理語(yǔ)言理解和生成多角色互動(dòng)Grop

discussion

Vote

toto

find

out

murdererdecide

the

murdererSelect

script

Assign

rolesto

players(a)Gameflowof

JubenshadetectivegameCollect

clues

for

reasoningPlayers

read

their

scripts。。。。。。。。。。。。

目標(biāo):減少

Hallucination,增強(qiáng)

ReasoningStep

1.

MemoryRetrieval:

generateinitial

answerStep2.Self-Re?nement:

increaseanswerdetailsStep3.Self-Veri?cation:

reducehallucination

ThinkThrice:三思而后行

數(shù)據(jù)集?Wecollected1,115Jubenshagame

instances.?Eachgamecan

have1

to

20

players?gametokencountcan

reach

upto518,000,enablingfurtherresearchonsociallyintelligentAI.數(shù)據(jù)申請(qǐng)與開源代碼

數(shù)據(jù)集復(fù)雜推理能力信息獲取能力

實(shí)驗(yàn)設(shè)定?收集到的相關(guān)信息越多,代理通過(guò)推理解決

問(wèn)題的能力就越強(qiáng)。?在給定相同信息的情況下,LLM的固有推理

能力決定了代理解決問(wèn)題的表現(xiàn)。?“三思”顯著提升推理能力MR:Memory

RetrievalSR:Self-RefinementSV:Self-Verification實(shí)驗(yàn)結(jié)果與觀察ThinkThrice“三思”通過(guò)記憶檢索,細(xì)節(jié)增強(qiáng),反思修改來(lái)驗(yàn)證和加強(qiáng)推理結(jié)果,從而提高復(fù)雜推理的準(zhǔn)確性,減少幻覺(jué)現(xiàn)象的

影響。Jubensha劇本殺游戲的諸多特點(diǎn)使得其成為一

個(gè)很好的評(píng)測(cè)任務(wù),可以衡量Agent

的多種能力

小結(jié):復(fù)雜推理AgentScientificAgents另一類復(fù)雜性:Knowledge

如何讓Agent獲取專業(yè)知識(shí),解決復(fù)雜任務(wù)?

Key

1:學(xué)習(xí)專業(yè)知識(shí)Hoh見yB見見

is

th見

first

bi((ioh-

param見t見r

sca(見

(ah9ua9見mod見(

that

is

sp見cia(i乙見d

ihmat見ria(s

sci見hc見HoneyBeeInstructor

VerifierMatSci-Instruct

MatSci-Instruct

and

HoneyBee

Training

Workflow<Instruction><Input><Output>Task/topicModelcapabilityevaluation:-Accuracyof

output

…-

Reasonablenessofoutput

…-pletenessof

output

…“Evaluate

the

model

by

…”AccuracyReasonableness“Evaluate

this

example

by

…”pletenessRelevanceProgressiveInstructionFine-tuningReasonablenesspletenessAccuracySamplearXivHmeyBeeEvaluator-

…?Instructiondatagenerated

byourgeneratorimprovesmodel

performance?Theverifierpartfurtherimproves

data

quality?HoneyBeeimprovesprogressively

Experimental

Results

Experimental

Results?WeevaluateHoneyBee

on

MatSci-

Instructbenchmark?Low-resource

setting:itout-performsBERT-familymodels?Zero-Shot

setting:itout-performs

LLaMA-familymodels

Key

2:善用外部工具

Honeb

工具構(gòu)造和使用

實(shí)驗(yàn)效果?所有基于Honeb

模型在MaScQA

和SciQA上的準(zhǔn)確率均有顯著

提升。?總體趨勢(shì)表明,Honeb顯著提高了模

型性能。LLaMA-3和HoneyBee有明顯提升。

Key

3:化繁為簡(jiǎn),統(tǒng)籌思考

Data

Interpreter:

智能體也能玩轉(zhuǎn)數(shù)據(jù)

Data

Interpreter:

智能體也能玩轉(zhuǎn)數(shù)據(jù)

數(shù)據(jù)分析可視化

異常數(shù)據(jù)處理

自動(dòng)化特征工程

自動(dòng)化特征工程

模型訓(xùn)練及驗(yàn)證?問(wèn)題:

LLM在數(shù)據(jù)科學(xué)任務(wù)中,面

對(duì)實(shí)時(shí)數(shù)據(jù)變化、復(fù)雜依賴關(guān)系和

邏輯錯(cuò)誤檢測(cè)的需求,現(xiàn)有計(jì)劃生

成方法難以滿足?分析:靜態(tài)規(guī)劃不適合動(dòng)態(tài)數(shù)據(jù)依

賴場(chǎng)景,且邏輯嚴(yán)謹(jǐn)性難以保障,需靈活適應(yīng)任務(wù)變化及高效管理依

賴關(guān)系?解法:采用動(dòng)態(tài)層次規(guī)劃,構(gòu)建任

務(wù)行動(dòng)圖以適應(yīng)數(shù)據(jù)變化,動(dòng)態(tài)更

新任務(wù)狀態(tài)和代碼,結(jié)合自我調(diào)試

和人工編輯策略糾正邏輯錯(cuò)誤,通

過(guò)信心評(píng)分和驗(yàn)證提升推理準(zhǔn)確性

任務(wù)規(guī)劃不可控

-

任務(wù)規(guī)劃(DAG)分層結(jié)構(gòu):

(a)一個(gè)有組織的任務(wù)

和動(dòng)作圖,展示了高層級(jí)機(jī)器學(xué)習(xí)

項(xiàng)目的工作流程,包括實(shí)現(xiàn)項(xiàng)目目

標(biāo)所需的任務(wù)依賴和動(dòng)作序列。(b)任務(wù)的有向無(wú)環(huán)圖(DAG)

,

以機(jī)器操作狀態(tài)預(yù)測(cè)問(wèn)題為例。任

務(wù)圖展示了拆解的計(jì)劃任務(wù),而動(dòng)

作圖(也稱為執(zhí)行圖)則根據(jù)計(jì)劃

的任務(wù)圖執(zhí)行各個(gè)節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)

的執(zhí)行代碼由LLM轉(zhuǎn)換

Hierarchical

Graph:

化繁為簡(jiǎn),層次管理

代碼生成不可控

-

工具集成與生成?問(wèn)題:

復(fù)雜數(shù)據(jù)科學(xué)任務(wù)中,手工

編寫工具不易,需有效整合與自動(dòng)

生成工具?分析:

直接通過(guò)LLM生成復(fù)雜工具

代碼有挑戰(zhàn),且現(xiàn)有工具推薦和組

織方式效率低?解法:

DataInterpreter動(dòng)態(tài)推薦和組織工具,利用LLM理解工具功能

并嵌入上下文調(diào)整參數(shù),整合多種

工具并自動(dòng)化生成代碼片段,通過(guò)

執(zhí)行反饋迭代優(yōu)化工具庫(kù),強(qiáng)化邏

輯一致性和代碼效率?問(wèn)題:

復(fù)雜數(shù)據(jù)科學(xué)任務(wù)中,手工

編寫工具不易,需有效整合與自動(dòng)

生成工具?分析:

直接通過(guò)LLM生成復(fù)雜工具

代碼有挑戰(zhàn),且現(xiàn)有工具推薦和組

織方式效率低?解法:

DataInterpreter動(dòng)態(tài)推薦和組織工具,利用LLM理解工具功能并嵌入上下文調(diào)整參數(shù),整合多種

工具并自動(dòng)化生成代碼片段,通過(guò)

執(zhí)行反饋迭代優(yōu)化工具庫(kù),強(qiáng)化邏

輯一致性和代碼效率

代碼生成不可控

-

工具集成與生成Tools

of

Data

Interpreter

代碼生成不可控

-

自動(dòng)驗(yàn)證?問(wèn)題:即便代碼無(wú)誤,也可能存在

邏輯缺陷,需有效驗(yàn)證代碼輸出的

正確性?分析:

單純依賴異常檢測(cè)不能確保

任務(wù)完成,需對(duì)邏輯嚴(yán)密性進(jìn)行深

入驗(yàn)證?解法:

DataInterpreter采用ACV(AutomatedConfidence-basedVerification)技術(shù),生成驗(yàn)證代碼

模擬任務(wù)邏輯過(guò)程,依據(jù)執(zhí)行結(jié)果

計(jì)算置信分?jǐn)?shù),據(jù)此選擇最可靠答

案,有效避免邏輯錯(cuò)誤,提高推理

準(zhǔn)確性以MATH內(nèi)的一個(gè)任務(wù)說(shuō)明基于置信度自動(dòng)驗(yàn)證流程:虛線框內(nèi)是自動(dòng)驗(yàn)證的過(guò)程,虛線框下方根據(jù)驗(yàn)證對(duì)多個(gè)候選答案進(jìn)行排序

代碼生成不可控

-

自動(dòng)驗(yàn)證?問(wèn)題:即便代碼無(wú)誤,也可能存在

邏輯缺陷,需有效驗(yàn)證代碼輸出的

正確性?分析:

單純依賴異常檢測(cè)不能確保

任務(wù)完成,需對(duì)邏輯嚴(yán)密性進(jìn)行深

入驗(yàn)證?解法:

DataInterpreter采用ACV技

術(shù),生成驗(yàn)證代碼模擬任務(wù)邏輯過(guò)

程,依據(jù)執(zhí)行結(jié)果計(jì)算置信分?jǐn)?shù),據(jù)此選擇最可靠答案,有效避免邏

輯錯(cuò)誤,提高推理準(zhǔn)確性數(shù)學(xué)任務(wù)效果對(duì)比?問(wèn)題:

LLMs在解決復(fù)雜數(shù)據(jù)科學(xué)

任務(wù)時(shí),缺乏利用歷史經(jīng)驗(yàn)提高效

率的能力?分析:優(yōu)化的經(jīng)驗(yàn)復(fù)用可能導(dǎo)

致重復(fù)調(diào)試,降低任務(wù)執(zhí)行效率?解法:

DataInterpreter構(gòu)建“經(jīng)驗(yàn)

池”,存儲(chǔ)過(guò)往任務(wù)關(guān)鍵元素和成

功/失敗嘗試,通過(guò)檢索相似任務(wù)經(jīng)

驗(yàn),減少調(diào)試次數(shù),降低成本,有

效提升LLM在代碼中心問(wèn)題解決中

的敏感度和效率

代碼生成不可控

經(jīng)驗(yàn)池

&

自動(dòng)Debug?問(wèn)題:

LLMs在解決復(fù)雜數(shù)據(jù)科學(xué)

任務(wù)時(shí),缺乏利用歷史經(jīng)驗(yàn)提高效

率的能力?分析:優(yōu)化的經(jīng)驗(yàn)復(fù)用可能導(dǎo)

致重復(fù)調(diào)試,降低任務(wù)執(zhí)行效率?解法:

DataInterpreter構(gòu)建“經(jīng)驗(yàn)

池”,存儲(chǔ)過(guò)往任務(wù)關(guān)鍵元素和成

功/失敗嘗試,通過(guò)檢索相似任務(wù)經(jīng)

驗(yàn),減少調(diào)試次數(shù),降低成本,有

效提升LLM在代碼中心問(wèn)題解決中

的敏感度和效率

代碼生成不可控

經(jīng)驗(yàn)池

&

自動(dòng)De

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論