版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AI肖睿團(tuán)隊(duì)(韓露、顧躍、王春輝、吳寒、李娜)20250520@北京?北大青鳥人工智能研究院?北大計(jì)算機(jī)學(xué)院?北大教育學(xué)院學(xué)習(xí)科學(xué)實(shí)驗(yàn)室AI
Agent與Agentic
AI
原理與應(yīng)用Deepseek內(nèi)部研討系列一、本次講座專為科研人員、工程師及AI技術(shù)愛好者設(shè)計(jì),旨在深度剖析AIAgent與AgenticAI的核心技術(shù)、前沿進(jìn)展與未來(lái)挑戰(zhàn)。我們聚焦
技術(shù)底層機(jī)制、關(guān)鍵算法與工程實(shí)踐痛點(diǎn),力求超越概念普及,提供硬核洞察。通過(guò)本次分享,您將全面理解Agent的技術(shù)內(nèi)涵與趨勢(shì),獲得
技術(shù)選型參考,并激發(fā)對(duì)潛在研究方向與創(chuàng)新應(yīng)用的深度思考。二、本次講座的內(nèi)容主要涵蓋以下四個(gè)核心模塊:1.探源與定義-探源Agent智能的“是什么”與“為什么”:探析Agent爆發(fā)的技術(shù)契機(jī)與演進(jìn)脈絡(luò);清晰Agent及AgenticAI的核心定義、關(guān)鍵特征及其與傳統(tǒng)AI的界限。2.核心技術(shù)深度剖析-揭秘Agent智能的“如何構(gòu)建”:系統(tǒng)拆解Agent技術(shù)棧:感知、認(rèn)知與決策(LLM引擎、規(guī)劃、記憶、學(xué)習(xí))、行動(dòng)模塊;深入探討主流的Agent架構(gòu)模式(如單Agent、多Agent系統(tǒng)、反思性Agent)及其設(shè)計(jì)原則與考量,以及針對(duì)當(dāng)下主流的關(guān)
鍵交互協(xié)議如:MCP、A2A、AG-UI的深入探討。3.前沿實(shí)踐與技術(shù)分析:洞察Agent智能的“技術(shù)落地”:深度拆解COZE、
Manus、
Deep
ResearchAgents、Genspark、
Lovart等代表性Agent平臺(tái)與項(xiàng)目的技術(shù)特點(diǎn)、架構(gòu)創(chuàng)新及優(yōu)劣勢(shì)。4.現(xiàn)狀、挑戰(zhàn)與未來(lái)展望:展望Agent智能的“路在何方”:評(píng)估當(dāng)前技術(shù)成熟度,剖析核心挑戰(zhàn)(行動(dòng)、規(guī)劃、記憶、幻覺(jué)等)與開放
問(wèn)題;展望AIAgent的發(fā)展趨勢(shì)、顛覆潛力與倫理考量,并提供行動(dòng)建議.三、大家可以參考《人工智能通識(shí)教程(微課版)》這本系統(tǒng)全面的入門教材,結(jié)合B站“思睿觀通”欄目的配套視頻進(jìn)行學(xué)習(xí)。歡迎關(guān)注“AI
肖睿團(tuán)隊(duì)”的視頻號(hào)和微信號(hào)(ABZ2829),加入社區(qū),共同探討AIAgent的前沿動(dòng)態(tài)與未來(lái)發(fā)展。講座內(nèi)容介紹
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)2
一、
AI
Agent和Agentic
AI的興起……………………………
P41.
AIAgent的爆發(fā)……………………...…
P62.
Agent的發(fā)展歷程……………….…
P83.
AIAgent的核心特質(zhì)及概念解析..………………….…………
P104.Agentsvs
AIAgents
vs
Agentic
AI
……..………………..…
P155.AIAgent的適用場(chǎng)景及判斷標(biāo)準(zhǔn)……..…………..…
P166.AIAgent應(yīng)用案例分享……..……….…..…
P177.
總結(jié):新范式已至,未來(lái)可期……..…………..……………..……..…
P18二、
AI
Agent的核心技術(shù)棧解密…..…………
P201.
AIAgent的核心組成部分…………
P222.
感知模塊……………………
P233.
認(rèn)知與決策模塊………………………
P294.
行動(dòng)模塊………………………
P395.
Agent架構(gòu)模式……………
P536.
構(gòu)建基礎(chǔ)AIAgent:核心步驟概覽……………..
P767.
總結(jié):Agent核心技術(shù)
-從能力邊界到智能涌現(xiàn)…..
P77三、
主流Agent平臺(tái)、框架與項(xiàng)目技術(shù)拆解………….………….…
P791.
Agent平臺(tái)/框架/應(yīng)用分類總覽……………………
P812.Agent構(gòu)建平臺(tái)(Low-code/No-code)………………….
P823.
Agent開發(fā)框架(Code-centric)………………….…
P1044.Agentic應(yīng)用/產(chǎn)品(End-userfocused)……….…………
P1295.
通用智能Agent……...………………………
P1506.
專用領(lǐng)域Agent/系統(tǒng)……………..……
P1707.
總結(jié):Agent生態(tài)的多元探索與實(shí)踐前沿…………….……………….……
P194四、AI
Agent的技術(shù)現(xiàn)狀、核心挑戰(zhàn)與未來(lái)展望..……………
P1961.
當(dāng)前Agent發(fā)展現(xiàn)狀…………….……
P1982.
核心技術(shù)挑戰(zhàn)…………………………..………
P2043.
開放性問(wèn)題探討……………….……...…
P2114.AIAgent的未來(lái)趨勢(shì)與展望
………..…….……...…
P2165.
總結(jié)與思考…...…………………..……….……...…
P220內(nèi)容目錄
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)3
n
我們將深入探討
AI
Agent
與
Agentic
AI
這
一
迅速發(fā)展的領(lǐng)域
。
隨著大型語(yǔ)言模型
(
LLM)等技術(shù)的飛躍式進(jìn)步,AI
Agent正從昔日的理論構(gòu)想大步邁向現(xiàn)實(shí)應(yīng)用,迎
來(lái)了前所未有的爆發(fā)契機(jī),標(biāo)志著人工智能發(fā)展已步入一個(gè)更強(qiáng)調(diào)自主性與行動(dòng)能力
的新階段。n
為構(gòu)建清晰的認(rèn)知框架,我們將核心聚焦于Agent的本質(zhì)定義—即一個(gè)具備環(huán)境感知
(Perception)
、智能決策
(Decision-making/Reasoning)
乃至
自主行動(dòng)
(Action)能力的智能實(shí)體
。
通過(guò)對(duì)這些核心概念的厘清,您將深刻理解AI
Agent的
技術(shù)底蘊(yùn)及其與現(xiàn)有AI范式的聯(lián)系與區(qū)別,為把握這一AI前沿趨勢(shì)奠定堅(jiān)實(shí)基礎(chǔ)。一、AIAgent和AgenticAI的興起
AI肖睿團(tuán)隊(duì)
4
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829
)4
1.
AI
Agent的爆發(fā)2.
Agent的發(fā)展歷程3.
AI
Agent的核心特質(zhì)及概念解析4.
AgentsvsAIAgentsvsAgenticAI5.
AI
Agent的適用場(chǎng)景及判斷標(biāo)準(zhǔn)6.
AI
Agent應(yīng)用案例分享7.
總結(jié):
新范式已至,未來(lái)可期一、
AI
Agent和Agentic
AI的興起1.1天時(shí)地利:AIAgent爆發(fā)的技術(shù)與生態(tài)契機(jī)1.2風(fēng)口浪尖:為何AIAgent成為當(dāng)前新焦點(diǎn)?2.1AIAgent的源起:思想的火花與早期探索2.2從理論到實(shí)踐:Agent發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)3.1超越簡(jiǎn)單交互:AIAgent的獨(dú)特價(jià)值主張3.2核心概念解析
(一):什么是AIAgent?3.3核心概念解析
(一):Agent的核心特征3.4核心概念解析
(一):AIAgent的五個(gè)發(fā)展階段3.5核心概念解析
(二):AgenticAI
-追求更高階的智能
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)5
相關(guān)基礎(chǔ)設(shè)施與生態(tài)的成熟(地利)1.向量數(shù)據(jù)庫(kù)
(Vector
Databases)高效存儲(chǔ)和檢索海量非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像等轉(zhuǎn)換的Embedding),為Agent構(gòu)建長(zhǎng)期記憶和知識(shí)庫(kù)提供了關(guān)鍵支撐2.模型API與服務(wù)化各大廠商開放LLM及其他AI能力API(如OpenAIAPI,GoogleGeminiAPI,DeepSeekAPI等),降低了開發(fā)者構(gòu)建Agent的技術(shù)門檻和成本3.開源框架與社區(qū)LangChain,crewAI,AutoGen等開源框架的涌現(xiàn),提供了模塊化的Agent構(gòu)建工具和豐富的實(shí)踐案例,加速了Agent應(yīng)用的開發(fā)和迭代大語(yǔ)言模型(LLM)的能力躍升(天時(shí))1.自然語(yǔ)言理解
(NLU)與生成
(NLG)LLM具備前所未有的復(fù)雜指令理解、上下文推理、復(fù)雜文本生成能力,為Agent提供了強(qiáng)大的“大腦”和“嘴巴”2.
常識(shí)推理與邏輯演繹LLM在一定程度上掌握了世界知識(shí)和基本推理能力,使得Agent能夠進(jìn)行更復(fù)雜的規(guī)劃和決策。(雖然仍有局限,但已達(dá)到可用門檻)3.
代碼生成與理解LLM可以生成和理解代碼,為Agent賦予了直接操作軟件、調(diào)用API的“雙手”1.1天時(shí)地利:AIAgent爆發(fā)的技術(shù)與生態(tài)契機(jī)
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)6
LLM的突破性進(jìn)展與日益完善的基礎(chǔ)設(shè)施,共同催生了AIAgent的爆發(fā)點(diǎn)。LLM的賦能、早期探索的啟迪以及當(dāng)前多樣化Agent產(chǎn)品與平臺(tái)的實(shí)踐浪潮,共同將AIAgent推向了技術(shù)革命和產(chǎn)業(yè)變革的前沿。1.
LLM賦予Agent“超級(jí)大腦”
質(zhì)的飛躍:
LLM根本性地解決了以往Agent在理解復(fù)雜指令、進(jìn)行多輪對(duì)話、掌握廣博知識(shí)、執(zhí)行靈活推理等方面的核心瓶頸。
Agent不再是預(yù)設(shè)規(guī)則的簡(jiǎn)單執(zhí)行者,而是具備了更強(qiáng)的通用性和適應(yīng)性。2.GPTs與多樣化Agent形態(tài)的啟示與實(shí)踐
GPTs、AutoGPT等早期探索的點(diǎn)燃效應(yīng),推動(dòng)了對(duì)Agent架構(gòu)和能力思考。
當(dāng)前Agent實(shí)踐的多樣化浪潮,從概念驗(yàn)證到應(yīng)用落地,形態(tài)與平臺(tái)不斷
涌現(xiàn),推動(dòng)Agent走向?qū)嵱没?、產(chǎn)品化。3.對(duì)“行動(dòng)能力”與“自主智能”的普遍渴望
用戶和開發(fā)者不再滿足于AI的“說(shuō)”和“寫”(內(nèi)容生成),更期望AI能夠“做”(任務(wù)執(zhí)行),能夠自主理解目標(biāo)、規(guī)劃路徑、調(diào)用工具、與環(huán)境交互并最終完
成任務(wù),真正成為智能實(shí)體或自主系統(tǒng)。PEKINGUNIVERSITYN
I
V9
81.2風(fēng)口浪尖:為何AIAgent成為當(dāng)前新焦點(diǎn)?
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)7
Agent的思想源遠(yuǎn)流長(zhǎng),是人工智能領(lǐng)域的經(jīng)典概念之一。早期概念回顧:符號(hào)主義AI中的Agent:(1956–1990)
理念:智能源于符號(hào)的表示和操作。
Agent被視為能夠通過(guò)邏輯推
理和規(guī)則匹配來(lái)感知環(huán)境、
制定計(jì)劃并執(zhí)行動(dòng)作的實(shí)體。
代表:Allen
Newell和
Herbert
A.Simon的
“邏輯理論家”(LogicTheorist)和
“通用問(wèn)題求解器”(General
Problem
Solver,GPS)
可視為早期Agent思想的雛形。
特點(diǎn):強(qiáng)調(diào)明確的知識(shí)表示和演繹推理。分布式人工智能
(DAI)與多智能體系統(tǒng)
(MAS):
理念:復(fù)雜問(wèn)題可通過(guò)多個(gè)協(xié)同工作的Agent解決。
關(guān)注點(diǎn):Agent間的通信、
協(xié)調(diào)、
協(xié)商和合作。2.1AIAgent的源起:思想的火花與早期探索
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)8
Agent:概念起源于哲學(xué),描述了一種擁有
欲望、信念、意圖以及采取行動(dòng)能力的實(shí)體。HerbertA.SimonAllen
Newell?
GPT-3
(2020):展示了LLM強(qiáng)大的零樣本/少樣本學(xué)習(xí)能力。?
InstructGPT/ChatGPT
(2022):通過(guò)指令微調(diào)和RLHF,顯著提
升了LLM的指令遵循和對(duì)話能力,使其成為理想的Agent“大腦”。?
AutoGPT,
BabyAGI
(2023):作為實(shí)驗(yàn)性項(xiàng)目,展示了基于LLM的自主任務(wù)規(guī)劃與執(zhí)行能力,極大地激發(fā)了社區(qū)與公眾對(duì)自主AI完
成復(fù)雜任務(wù)的想象,推動(dòng)了對(duì)Agent架構(gòu)和能力的廣泛思考。?
Genspark、Coze、
Manus、
Lovart(2024~2025):Agent實(shí)踐的多樣化,從概念驗(yàn)證到應(yīng)用落地,形態(tài)與平臺(tái)不斷涌現(xiàn),推動(dòng)Agent走向?qū)嵱没?、產(chǎn)品化推動(dòng)Agent走向?qū)嵱没a(chǎn)品化。2.2從理論到實(shí)踐:Agent發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)9
關(guān)鍵里程碑:技術(shù)進(jìn)步不斷推動(dòng)Agent從理論構(gòu)想向?qū)嵱孟到y(tǒng)演進(jìn)?
雖然不是嚴(yán)格意義上的Agent,但
其“知識(shí)庫(kù)
+推理機(jī)”的模式為Agent的決策模塊提供了早期思路。?
搜索引擎爬蟲、早期聊天機(jī)器人、
推薦系統(tǒng)等,展現(xiàn)了Agent在特定任務(wù)上的應(yīng)用潛力。?
為Agent賦予了從與環(huán)境交互中學(xué)習(xí)
決策策略的能力
(例如,AlphaGo)。?
提升了Agent在感知
(如CV,
NLP)
和模式識(shí)別方面的能力。Step
05大型語(yǔ)言模型(LLM)
的爆發(fā)(2020s)Step
04機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的融合(2010s)Step
02強(qiáng)化學(xué)習(xí)(RL)
的興起(1990s-至今)Step
03互聯(lián)網(wǎng)與WebAgent(1990s-2000s)Step
01基于規(guī)則的專家系統(tǒng)(1970s-1980s)對(duì)比傳統(tǒng)AI/機(jī)器學(xué)習(xí)(AI/ML)
及生成式AI
(GenerativeAI)
傳統(tǒng)AI/ML?模式:通常是被動(dòng)式、數(shù)據(jù)驅(qū)動(dòng)的模式匹配或預(yù)
測(cè)(如圖像分類、推薦系統(tǒng))。?交互:
交互性弱,主要處理特定、封閉的任務(wù)。
生成式AI
(GenAI):?模式:強(qiáng)大的內(nèi)容生成能力
(文本、圖像、代碼)。?交互:通常是“一問(wèn)一答”或“一次性生成”,缺乏持續(xù)的任務(wù)執(zhí)行和環(huán)境適應(yīng)。
自主性
(Autonomy)?核心差異:能夠基于目標(biāo)自主決策、規(guī)劃步驟、執(zhí)行動(dòng)作,并
在過(guò)程中根據(jù)環(huán)境反饋進(jìn)行調(diào)整,減少人工干預(yù)。
持續(xù)環(huán)境交互與適應(yīng)
(Continuous
Interaction&Adaptation)?核心差異:Agent被設(shè)計(jì)為在一個(gè)(可能是動(dòng)態(tài)的)環(huán)境中持續(xù)運(yùn)
作,感知變化并作出反應(yīng)或主動(dòng)調(diào)整策略。
復(fù)雜、多步驟任務(wù)處理
(Complex,
Multi-step
Task
Completion)?核心差異:能夠?qū)⒑甏?、模糊的目?biāo)分解為一系列可執(zhí)行的子任務(wù),
并行地完成它們。3.1超越簡(jiǎn)單交互:AIAgent的獨(dú)特價(jià)值主張
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)10
AIAgent的核心獨(dú)特價(jià)值3.2核心概念解析
(一):什么是AIAgent?作用:Agent的“大腦”,基于感知到的信
息、內(nèi)部知識(shí)和目標(biāo),進(jìn)行思考、規(guī)劃、選
擇下一步行動(dòng)。核心:推理、任務(wù)規(guī)劃、問(wèn)題求解、知識(shí)運(yùn)
用、策略生成。
LLM通常在此扮演關(guān)鍵角色。作用:從環(huán)境中收集信息,理解當(dāng)前狀態(tài)。方式:通過(guò)文本輸入、圖像識(shí)別、語(yǔ)音指令、
傳感器數(shù)據(jù)、API返回結(jié)果等方式,理解環(huán)
境狀態(tài),識(shí)別相關(guān)實(shí)體和事件。作用:Agent對(duì)環(huán)境施加影響,執(zhí)行決策結(jié)
果。方式:生成文本/語(yǔ)音、調(diào)用API、代碼執(zhí)行、
控制物理設(shè)備(機(jī)器人)、與其他Agent通
信等?!叭魏文軌蛲ㄟ^(guò)傳感器
(Sensors)感知其環(huán)境
(Environment),并通過(guò)
執(zhí)行器
(Actuators)對(duì)其環(huán)境產(chǎn)生行動(dòng)
(Action)的事物?!薄_素和諾維格《人工智能:一種現(xiàn)代方法》
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)11
總結(jié):AIAgent是一個(gè)具備感知環(huán)境、自主決策、并采取行動(dòng)以達(dá)成特定目標(biāo)的智能實(shí)體。決策/推理Decision-making/Reasoning行動(dòng)ActionAgent關(guān)鍵組成部分Agent經(jīng)典定義感知Perception
反應(yīng)性(Reactivity)n定義:Agent能夠感知其所處的環(huán)境,并對(duì)環(huán)境中發(fā)生的變化
及時(shí)做出響應(yīng)。n體現(xiàn)
:對(duì)外部刺激的快速反饋。Q
學(xué)習(xí)/適應(yīng)性
(Learning/Adaptability)n定義:Agent能夠從經(jīng)驗(yàn)中學(xué)習(xí),不斷改進(jìn)其行為和性能,適應(yīng)環(huán)境的變化或任務(wù)需求的變化。n體現(xiàn):經(jīng)驗(yàn)積累、策略優(yōu)化、知識(shí)更新。
目標(biāo)導(dǎo)向性
(Goal-orientedness)n定義:Agent的行為是圍繞一個(gè)或多個(gè)預(yù)設(shè)的或動(dòng)態(tài)生成的目
標(biāo)展開的。n體現(xiàn)
:任務(wù)驅(qū)動(dòng)、效用最大化。
自主性
(Autonomy)n定義:Agent能夠在沒(méi)有人類或其他Agent直接干預(yù)的情況
下,獨(dú)立控制其內(nèi)部狀態(tài)和自身行為。n體現(xiàn):自我啟動(dòng)、
自我決策、
自我調(diào)整。
交互性
(Social
Ability)n定義:Agent能夠通過(guò)某種Agent通信語(yǔ)言
(ACL)或其他機(jī)制與其他Agent(包括人類)進(jìn)行交互、協(xié)作、協(xié)商。n
體現(xiàn):溝通、協(xié)作、談判。
主動(dòng)性
(Initiative)n定義:Agent不僅僅對(duì)環(huán)境做出反應(yīng),還能表現(xiàn)出目標(biāo)驅(qū)動(dòng)
的行為,主動(dòng)發(fā)起行動(dòng)以達(dá)成目標(biāo)。n體現(xiàn)
:機(jī)會(huì)發(fā)現(xiàn)、主動(dòng)規(guī)劃。3.3核心概念解析
(一):Agent的核心特征一個(gè)成熟的AI
Agent具備以下核心特征這些特征共同構(gòu)成了智能體的核心能力,使其能夠有效地在復(fù)雜環(huán)境中執(zhí)行任務(wù)。
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)12
3.4核心概念解析
(一):AIAgent的五個(gè)發(fā)展階段記憶與推理階段
03Agent具備記憶(記住用戶信息)和推理能力(更聰明地解
決問(wèn)題)記憶:跨會(huì)話記住用戶細(xì)節(jié),
實(shí)現(xiàn)個(gè)性化(如記住用戶偏
好)。推理:通過(guò)推理工具(如PythonTools)提高多步驟任
務(wù)的成功率(從60%提升到更
高)。例子:Agent在多次對(duì)話后記住用戶需求,提供更貼切的
回答。要點(diǎn):推理提升復(fù)雜任務(wù)表現(xiàn),
但會(huì)增加成本和延遲。Agent系統(tǒng)
05構(gòu)建完整的Agent
系統(tǒng),通
過(guò)API異步處理任務(wù)并返回
結(jié)果。實(shí)現(xiàn):需要數(shù)據(jù)庫(kù)保存狀態(tài)
、異步任務(wù)處理(如FastAPI后臺(tái)
任務(wù))和結(jié)果流式傳輸。挑戰(zhàn):技術(shù)復(fù)雜(如使用WebSocket),但這是未來(lái)趨
勢(shì)
,也是商業(yè)化的重點(diǎn)。例子:一個(gè)帶有AgentAPl和
Ul框架的,具有用戶交互能
力的Agent系統(tǒng)。要點(diǎn):最難但最有潛力,適
合大規(guī)模應(yīng)用。多Agent團(tuán)隊(duì)階段多個(gè)Agent組成團(tuán)隊(duì),分工
合作解決復(fù)雜問(wèn)題。挑戰(zhàn):每個(gè)Agent需專注單一領(lǐng)域(工具少于
10個(gè)),團(tuán)
隊(duì)協(xié)作需推理支持,否則成
功率低(目前成功率
<50%)。例子:一個(gè)團(tuán)隊(duì)Agent分析股票數(shù)據(jù),另一個(gè)提供建議。要點(diǎn):2025年多Agent
系統(tǒng)
仍不成熟,適合研究而非生
產(chǎn)?;A(chǔ)工具與指令階段最簡(jiǎn)單的AIAgent;使用
LLM結(jié)合工具和指令完成
任務(wù)。特點(diǎn):最簡(jiǎn)單的AlAgent,使用
LLM結(jié)合工具和指令
完成任務(wù)。功能:通過(guò)指令
“教"Agent
如何完成任務(wù),使用工具
(如搜索工具)與外部環(huán)境交
互。例子:一個(gè)指導(dǎo)開發(fā)者構(gòu)建Agent
的Agent。要點(diǎn):適合初級(jí)任務(wù),但能
力有限。知識(shí)庫(kù)與存儲(chǔ)階段加入知識(shí)庫(kù)和存儲(chǔ)功能,讓
Agent能搜索外部信息并保存狀態(tài)。知識(shí)庫(kù):使用混合搜索(全文
+語(yǔ)義搜索)+重排序(reranking),提升信息檢索
精準(zhǔn)度。存儲(chǔ):保存會(huì)話狀態(tài)(如ChatGPT的聊天記錄),讓Agent在不同會(huì)話間保持
“記憶”。例子:Agent能從
SQLite
數(shù)
據(jù)庫(kù)中讀取知識(shí),回答更復(fù)
雜的問(wèn)題。要點(diǎn):解決
LLM無(wú)狀態(tài)問(wèn)題,
提升任務(wù)連續(xù)性。
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)13
AIAgent的發(fā)展呈現(xiàn)“從簡(jiǎn)單開始,逐步增加復(fù)雜性”的特性。020104n定義:AgenticAI強(qiáng)調(diào)AI系統(tǒng)所具備的自主性(Autonomy)、
目標(biāo)驅(qū)動(dòng)
(Goal-driven)、環(huán)境交互
(EnvironmentInteraction)和學(xué)習(xí)能力
(Learning
Capability)n定位:它是AIAgent追求的高級(jí)形態(tài)和核心設(shè)計(jì)理念/
哲學(xué),而不僅僅是實(shí)現(xiàn)了Agent基本功能的系統(tǒng)。一個(gè)
系統(tǒng)可以是一個(gè)Agent
,但不一定足夠“Agentic”n目標(biāo):構(gòu)建能夠像智能生物一樣,在復(fù)雜動(dòng)態(tài)環(huán)境中主
動(dòng)感知、理解、規(guī)劃、行動(dòng)并持續(xù)學(xué)習(xí)和適應(yīng)的AI系統(tǒng)n
自主性
(Autonomy):無(wú)需人類持續(xù)干預(yù),能獨(dú)立感
知、決策和行動(dòng)。n
目標(biāo)驅(qū)動(dòng)
(Goal-driven):始終以達(dá)成預(yù)設(shè)或動(dòng)態(tài)生
成的目標(biāo)為導(dǎo)向。n
環(huán)境交互(Environment
Interaction):能夠主動(dòng)感
知環(huán)境變化,
并通過(guò)行動(dòng)影響環(huán)境,
形成閉環(huán)。n
學(xué)習(xí)與適應(yīng)性(Learning/Adaptability):能夠從經(jīng)
驗(yàn)中學(xué)習(xí),改進(jìn)自身行為,適應(yīng)變化的環(huán)境和任務(wù)3.5核心概念解析
(二):AgenticAI
-追求更高階的智能
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)14
Agentic
AI的內(nèi)涵
Agentic
AI的關(guān)鍵特征3AgenticAIAgenticAI把AIagents更加自主、適應(yīng)性強(qiáng)且主動(dòng),能自主規(guī)劃、決策,無(wú)需人類指示就能行動(dòng)。關(guān)鍵:自主性,學(xué)習(xí)能力最強(qiáng)。舉例:一個(gè)管理智能家居的AgenticAI系統(tǒng)不僅能調(diào)節(jié)溫度,還能在食物快用完時(shí)自動(dòng)下單,安排家電維護(hù),優(yōu)化能源使用——全程無(wú)需你動(dòng)手。4.AgentsvsAIAgentsvsAgenticAI2AIAgents(AI智能體/代理)升級(jí)版的agents,AI驅(qū)動(dòng),不只是遵
循簡(jiǎn)單規(guī)則,而是能利用機(jī)器學(xué)習(xí)、
自然語(yǔ)言處理等AI技術(shù)做決策。關(guān)鍵:能從數(shù)據(jù)中學(xué)習(xí),適應(yīng)新情況,隨時(shí)間變得更聰明。舉例:Siri、小愛同學(xué)這類虛擬助手就是AIAgents。它們能理解你的語(yǔ)音指令,學(xué)習(xí)改進(jìn)回答質(zhì)量,執(zhí)行設(shè)置鬧鐘、播放音樂(lè)等任務(wù)。Agents(智能體/代理)最基礎(chǔ)的概念,指任何能感知環(huán)境
并為達(dá)成目標(biāo)而行動(dòng)的實(shí)體,可以
是軟件、硬件,甚至是人。關(guān)鍵:不需要AI也能工作。舉例:冰箱的恒溫器是典型Agent。它感知溫度(環(huán)境感知),開關(guān)制冷系統(tǒng)(采取行動(dòng)),保持設(shè)定溫度(實(shí)現(xiàn)目標(biāo))。它只是按照預(yù)設(shè)規(guī)則工作,不需要任何AI能力。
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)15
1AIAgents的適用場(chǎng)景
高復(fù)雜度的任務(wù):任務(wù)流程復(fù)雜,涉及多個(gè)子任務(wù)
和決策點(diǎn)。
需要自主規(guī)劃與執(zhí)行:任務(wù)目標(biāo)明確,但達(dá)成路徑不固定,需要Agent根據(jù)實(shí)時(shí)情況動(dòng)態(tài)調(diào)整。
需要與環(huán)境交互:Agent需要從外部系統(tǒng)獲取信息,并向其發(fā)送指令以影響環(huán)境。
需要長(zhǎng)期記憶與學(xué)習(xí):Agent需要積累經(jīng)驗(yàn),并通
過(guò)學(xué)習(xí)優(yōu)化未來(lái)的決策和行為。
需要多模態(tài)感知與理解:任務(wù)涉及文本、圖像、語(yǔ)音等多種數(shù)據(jù)形式的輸入和輸出。何時(shí)選擇AIAgent?
任務(wù)可拆解性:任務(wù)是否可以被分解為一系列可由
Agent獨(dú)立完成的子任務(wù)?
環(huán)境可觀察性與可控性:Agent能否獲取足夠的環(huán)
境信息進(jìn)行決策?能否對(duì)環(huán)境施加有效影響?
目標(biāo)明確性:任務(wù)的最終目標(biāo)是否清晰可衡量?
知識(shí)可表達(dá)性:完成任務(wù)所需的知識(shí)是否可以被
Agent理解和利用?
魯棒性要求:任務(wù)對(duì)錯(cuò)誤容忍度如何?Agent能否
在不確定性下穩(wěn)定運(yùn)行?
長(zhǎng)期價(jià)值考量:Agent的持續(xù)學(xué)習(xí)能力能否為業(yè)務(wù)
帶來(lái)長(zhǎng)期增益?
898PEKING
UNIVERSITY
N
I
V
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)16
5.AIAgent的適用場(chǎng)景及判斷標(biāo)準(zhǔn)醫(yī)療健康某在線問(wèn)診app:?jiǎn)稳兆罡咛幚?2萬(wàn)次問(wèn)診,分診準(zhǔn)確
率達(dá)95%。實(shí)際價(jià)值:大幅提升問(wèn)診效率并縮短患者平均候診時(shí)間
40分鐘。軟件開發(fā) Devin
(Cognition
AI):首個(gè)AI軟件工程師,能自主完成
復(fù)雜編程任務(wù),從需求理解、
代碼生成、調(diào)試到部署。實(shí)際價(jià)值:
大幅提升開發(fā)效率,降低人力成本,
加速產(chǎn)
品上市。智能客服某電商客服機(jī)器人:
不僅僅是簡(jiǎn)單的問(wèn)答機(jī)器人,能理
解用戶意圖,自主查詢知識(shí)庫(kù),執(zhí)行多步操作(如辦理
業(yè)務(wù)、修改訂單)。實(shí)際價(jià)值:
24*7不間斷服務(wù),提高客戶滿意度,降低人
工客服壓力。廣告營(yíng)銷某公司內(nèi)容創(chuàng)作Agent:根據(jù)營(yíng)銷目標(biāo)和受眾畫像,自
主生成文案、
圖片、視頻腳本,
甚至能進(jìn)行多輪迭代優(yōu)
化。實(shí)際價(jià)值:
規(guī)模化生產(chǎn)高質(zhì)量?jī)?nèi)容,提高營(yíng)銷效率。
N
I
V
898PEKING
UNIVERSITY
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)17
AIAgent在智能客服、醫(yī)療健康、廣告營(yíng)銷、軟件開發(fā)領(lǐng)域已取得了顯著成效。6.AIAgent應(yīng)用案例分享AIAgent的崛起,得益于LLM的飛躍與基礎(chǔ)設(shè)施的成熟,標(biāo)志著AI正從被動(dòng)式工具向主動(dòng)型智能體深刻轉(zhuǎn)型。這不僅僅是技術(shù)的浪潮,更是一種追求自主感知、智能決策、高效行動(dòng)與持續(xù)進(jìn)化的AI新范式。AgenticAI的設(shè)計(jì)哲學(xué),驅(qū)動(dòng)我們探索更高級(jí)的智能形態(tài),其重塑復(fù)雜任務(wù)執(zhí)行、賦能創(chuàng)新發(fā)現(xiàn)、以及變革人機(jī)協(xié)作模式的巨大潛力,正徐徐展開,未來(lái)可期。
898PEKING
UNIVERSITY
N
I
V
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)18
7.總結(jié):新范式已至,未來(lái)可期一、AI
Agent和Agentic
AI的興起………………
P41.
AIAgent的爆發(fā)……………………...…
P62.
Agent的發(fā)展歷程……………….…
P83.
AIAgent的核心特質(zhì)及概念解析..………………….…………
P104.Agentsvs
AIAgents
vs
Agentic
AI
……..………………..…
P155.AIAgent的適用場(chǎng)景及判斷標(biāo)準(zhǔn)……..…………..…
P166.AIAgent應(yīng)用案例分享……..……….…..…
P177.
總結(jié):新范式已至,未來(lái)可期……..…………..……………..……..…
P18二、
AI
Agent的核心技術(shù)棧解密……………
P201.
AIAgent的核心組成部分…………
P222.
感知模塊……………………
P233.
認(rèn)知與決策模塊………………………
P294.
行動(dòng)模塊………………………
P395.
Agent架構(gòu)模式……………
P536.
構(gòu)建基礎(chǔ)AIAgent:核心步驟概覽……………..
P767.
總結(jié):Agent核心技術(shù)
-從能力邊界到智能涌現(xiàn)…..
P77三、
主流Agent平臺(tái)、框架與項(xiàng)目技術(shù)拆解………….………….…
P791.
Agent平臺(tái)/框架/應(yīng)用分類總覽……………………
P812.Agent構(gòu)建平臺(tái)(Low-code/No-code)………………….
P823.
Agent開發(fā)框架(Code-centric)………………….…
P1044.Agentic應(yīng)用/產(chǎn)品(End-userfocused)……….…………
P1295.
通用智能Agent………………
P1506.
專用領(lǐng)域Agent/系統(tǒng)……………..……
P1707.
總結(jié):Agent生態(tài)的多元探索與實(shí)踐前沿…………….……………….……
P194四、AI
Agent的技術(shù)現(xiàn)狀、核心挑戰(zhàn)與未來(lái)展望..……………
P1961.
當(dāng)前Agent發(fā)展現(xiàn)狀…………….……
P1982.
核心技術(shù)挑戰(zhàn)…………………………..………
P2043.
開放性問(wèn)題探討……………….……...…
P2114.AIAgent的未來(lái)趨勢(shì)與展望
………..…….……...…
P2165.
總結(jié)與思考……...………………..……….……...…
P220內(nèi)容目錄
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)19
n
本部分將深入剖析AI
Agent賴以運(yùn)作的核心技術(shù)體系
。
首先從感知模塊入手,探討Agent如何接收和理解文本
、
圖像
、
語(yǔ)音
、
視頻及傳感器等多模態(tài)信息,并轉(zhuǎn)化為內(nèi)
部環(huán)境狀態(tài)表征。n
接下來(lái),重點(diǎn)闡述認(rèn)知與決策模塊,揭示大型語(yǔ)言模型(
LLM)作為核心引擎在指令
理解
、
意圖識(shí)別
、
上下文處理及長(zhǎng)程記憶方面的角色與挑戰(zhàn)。n
隨后解析行動(dòng)模塊,包括Agent利用工具
、
執(zhí)行代碼,詳細(xì)介紹MCP協(xié)議,以及通過(guò)
自然語(yǔ)言或GUI模擬進(jìn)行人機(jī)交互。n
最后,本部分將探討Agent的架構(gòu)模式,對(duì)比分析單Agent與多Agent系統(tǒng),詳細(xì)介
紹
A2A
協(xié)
議
,并
延伸
至
反
思
性
和
具
身
智能
Agent
的特
殊
架構(gòu)
考
量
,拓
展了
AgenticRAG
、
AG-UI的內(nèi)容。AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)二、AIAgent的核心技術(shù)棧解密二、AIAgent的核心技術(shù)棧解密1.
AI
Agent的核心組成部分
{
2.2
感知模塊—關(guān)鍵技術(shù)4.
行動(dòng)模塊5.
Agent架構(gòu)模式6.
構(gòu)建基礎(chǔ)AIAgent:核心步驟概覽7.
總結(jié):Agent核心技術(shù)
-從能力邊界到智能涌現(xiàn)4.1行動(dòng)模塊概述4.2工具使用—原理介紹4.3工具使用—MCP詳解4.4代碼執(zhí)行4.5物理世界交互與人機(jī)交互界面4.6小結(jié):行動(dòng)模塊5.1單Agent架構(gòu)vs多Agent系統(tǒng)5.2多Agent系統(tǒng)—A2A協(xié)議5.3主流Agent框架分析5.4Agent架構(gòu)的高級(jí)與前沿模式5.5Agentic
RAG5.6智能體交互最后一塊拼圖—AG-UI協(xié)議
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)21
3.1認(rèn)知與決策模塊概述3.2核心引擎:大型語(yǔ)言模型
(LLM)3.3規(guī)劃能力詳解3.4記憶能力詳解3.5學(xué)習(xí)與適應(yīng)能力詳解3.6小結(jié):認(rèn)知與決策模塊2.
感知模塊3.
認(rèn)知與決策模塊2.1感知模塊概述2.3感知模塊—挑戰(zhàn)前沿AIAgent由多個(gè)關(guān)鍵部分組成:n
感知模塊:從環(huán)境中讀取多模態(tài)信息,包括文本、
圖像、語(yǔ)音、
視頻、其它傳感器數(shù)據(jù)等。n
認(rèn)知與決策模塊:Agent的”大腦
“,基于感知到的信息和自身知識(shí),進(jìn)行思考、推理、規(guī)劃,并最終做出決策。n
行動(dòng)模塊:接收認(rèn)知與決策模塊的規(guī)劃指令,調(diào)用相應(yīng)工具執(zhí)行環(huán)境交互操作,并返回結(jié)果。
N
I
V
898PEKING
UNIVERSITY
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)22
1.AIAgent的核心組成部分
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)23
感知模塊(
Pe
rce
pt
io
n
)感知模塊是連接數(shù)字與物理世界的橋梁。感知模塊
(Perception)
-AIAgent的“五官”
感知模塊是Agent與環(huán)境交互的入口,負(fù)責(zé)從外部世界收集信息,并
將其轉(zhuǎn)化為內(nèi)部可理解和處理的表征。
目標(biāo):準(zhǔn)確、
高效捕捉環(huán)境狀態(tài)、用戶指令、
外部事件等重要性
理解環(huán)境:
識(shí)別對(duì)象、
事件、狀態(tài)。
理解指令:解析用戶意圖。
驅(qū)動(dòng)決策:提供決策所需的數(shù)據(jù)。挑戰(zhàn)
信息噪音、
數(shù)據(jù)冗余、多模態(tài)融合、實(shí)時(shí)性要求PEKINGUNIVERSITYN
I
V9
8
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)24
2.1感知模塊1.文本
(Text):用戶指令、
文檔、
網(wǎng)頁(yè)內(nèi)容、
代碼、API響應(yīng)等2.
圖像
(Image):場(chǎng)景理解、
圖表分析、對(duì)象識(shí)別、
GUI元素等。3.語(yǔ)音
(Speech):用戶語(yǔ)音指令、對(duì)話錄音等。4.視頻
(Video):監(jiān)控錄像、
操作演示、動(dòng)態(tài)場(chǎng)景分析、行為識(shí)別等。5.傳感器數(shù)據(jù)
(Sensor
Data):
(尤其對(duì)于具身智能Agent)溫度、
濕度、
位置(GPS)、
設(shè)備狀態(tài)、機(jī)器人傳感器
(激光雷達(dá)、
攝像頭)等。6.結(jié)構(gòu)化數(shù)據(jù)
(Structured
Data):數(shù)據(jù)庫(kù)記錄、
API返回的JSON/XML。
N
I
V
898PEKING
UNIVERSITY
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)25
信息輸入的多樣性AIAgent能夠處理和理解來(lái)自多種不同類型數(shù)據(jù)源的信息。2.1感知模塊
-多模態(tài)信息輸入核心目標(biāo)
:將語(yǔ)音信號(hào)準(zhǔn)確轉(zhuǎn)換為文本,作為后續(xù)NLP處理的輸入關(guān)鍵技術(shù):?
聲學(xué)模型
(Acoustic
Model):將音頻
特征映射到音素單元。?
語(yǔ)言模型
(Language
Model
inASR):確保轉(zhuǎn)錄文本的流暢性和合理性。?
端到端模型
(End-to-EndModels):直接從音頻到文本挑戰(zhàn)
:?
口音、噪聲、遠(yuǎn)場(chǎng)識(shí)別、多人對(duì)話(說(shuō)話人分離)、實(shí)時(shí)性2.2感知模塊
-關(guān)鍵技術(shù)(從原始信號(hào)中提取核心信息)核心目標(biāo):從文本中提取意義、意圖和關(guān)鍵實(shí)體關(guān)鍵技術(shù):?自然語(yǔ)言理解
(NLU):解析用戶指令、提取關(guān)鍵信息(實(shí)體、意圖、槽位填充)、理解上下文。?
命名實(shí)體識(shí)別
(NER):提取文本中的關(guān)鍵實(shí)體(人名、地名、組織、時(shí)間等)。?
情感分析
(SentimentAnalysis):判斷文本的情感傾向(積極、消極、
中性)。?
關(guān)系抽取
(Relation
Extraction):從文
本中抽取實(shí)體間的關(guān)系核心目標(biāo)
:從圖像或視頻中識(shí)別對(duì)象、理解場(chǎng)景內(nèi)容關(guān)鍵技術(shù):?目標(biāo)檢測(cè)
(Object
Detection):定位并識(shí)
別圖像中的物體。?
場(chǎng)景理解
(Scene
Understanding):分析圖像或視頻的整體場(chǎng)景、物體間關(guān)系及上下文。?
光學(xué)字符識(shí)別
(OCR):從圖像中提取文字。?
視覺(jué)問(wèn)答
(VQA):根據(jù)圖像內(nèi)容回答問(wèn)題。
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)26
自動(dòng)語(yǔ)音識(shí)別(ASR)-理解語(yǔ)音信息自然語(yǔ)言處理(NLP)-理解文本信息計(jì)算機(jī)視覺(jué)(CV)–理解視覺(jué)信息12327AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)核心環(huán)節(jié):環(huán)境狀態(tài)表征(Environment
State
Representation)–塑造Agent的“世界觀”n定義:將來(lái)自一個(gè)或多個(gè)感知通道(如文本、視覺(jué)、
聽覺(jué)、傳感器數(shù)據(jù)等)的、經(jīng)過(guò)初步處理的信息,融合、提煉并組織成一個(gè)與任務(wù)相關(guān)的、Agent內(nèi)部可用的對(duì)當(dāng)前環(huán)境的統(tǒng)一描述。n
重要性:
它是連接多樣化原始感知與統(tǒng)一認(rèn)知決策的關(guān)鍵樞紐。
優(yōu)質(zhì)的狀態(tài)表征能顯著提升Agent的決策效率、準(zhǔn)確性和泛化能力。n
關(guān)鍵任務(wù)與技術(shù)思路:
多模態(tài)信息融合(Multimodal
Fusion):如何有效結(jié)合來(lái)自不同感官(如文本描述與對(duì)應(yīng)圖像)的信息,形成更全面的理解。?技術(shù)方向:早期融合、晚期融合、基于Transformer的跨模態(tài)注意力機(jī)制。
相關(guān)性與顯著性判斷
(Relevance&Salience
Detection):從海量感知信息中篩選出對(duì)當(dāng)前任務(wù)和Agent目標(biāo)最重要的部分,忽略無(wú)關(guān)噪聲。?技術(shù)方向:注意力機(jī)制、基于學(xué)習(xí)的重要性加權(quán)。
結(jié)構(gòu)化與符號(hào)化(Structuring&Symbolization):將信息組織成便于推理和規(guī)劃的格式。?示例:對(duì)象列表及其屬性、場(chǎng)景圖、符號(hào)化的事實(shí)斷言、向量嵌入。
State
Representation
Learning(SRL)
:利用(自)監(jiān)督學(xué)習(xí)方法,從原始觀測(cè)數(shù)據(jù)中自動(dòng)學(xué)習(xí)到緊湊、信息豐富且對(duì)下游任務(wù)有益的狀態(tài)表示。?
目標(biāo):解耦變化因素、捕捉動(dòng)態(tài)特性、提高泛化性。
898PEKING
UNIVERSITY
N
I
V在通過(guò)NLP、
CV、
ASR等技術(shù)從不同模態(tài)獲取初步信息后,感知模塊的核心任務(wù)是將這些多源、異構(gòu)的信息進(jìn)行整合、抽象與結(jié)構(gòu)化,最終形成一個(gè)Agent內(nèi)部用于后續(xù)認(rèn)知、規(guī)劃和決策的統(tǒng)一、連貫的“環(huán)境狀態(tài)表征”。?技術(shù)方向:變分自編碼器
(VAEs)、對(duì)比學(xué)習(xí)、預(yù)測(cè)編碼n產(chǎn)出:一個(gè)內(nèi)部一致的、可操作的、反映了Agent對(duì)當(dāng)前環(huán)境理解的“狀態(tài)”,為認(rèn)知模塊的規(guī)劃、推理和決策提供直接輸入。2.2感知模塊
-關(guān)鍵技術(shù)(整合多源信息,構(gòu)建環(huán)境狀態(tài)表征)2.3感知模塊
-挑戰(zhàn)與前沿:動(dòng)態(tài)與不確定環(huán)境下的狀態(tài)感知前沿方向
世界模型
(World
Models)
:學(xué)習(xí)一個(gè)環(huán)境的動(dòng)態(tài)模型,使其能夠預(yù)測(cè)未來(lái)狀態(tài)和行動(dòng)后果,這種預(yù)測(cè)本身就是一種深層次的狀態(tài)理解。
神經(jīng)符號(hào)方法
(Neuro-SymbolicApproachesforState
Representation)
:結(jié)合深度學(xué)習(xí)的模式識(shí)別能力與符號(hào)邏輯的推理能力,構(gòu)建更魯棒和可解釋的狀態(tài)表征。挑戰(zhàn)1
:部分可觀測(cè)環(huán)境
(POMDP)
在現(xiàn)實(shí)世界中,Agent往往無(wú)法完全觀測(cè)到真實(shí)的環(huán)
境狀態(tài)
,只能依賴
帶
噪聲
、
不
完
整
的
觀
測(cè)
(Observations)
來(lái)
推
斷
。(
現(xiàn)
實(shí)世界
中
的
大多數(shù)
Agent任務(wù)都屬于POMDP)
核心問(wèn)題:如何從歷史觀測(cè)序列中推斷當(dāng)前最可能
的
真
實(shí)狀態(tài)
,即構(gòu)建
和
維護(hù)信
念狀態(tài)(BeliefState)——對(duì)真實(shí)狀態(tài)的概率分布。感知模塊不僅是簡(jiǎn)單的數(shù)據(jù)采集,更是一個(gè)復(fù)雜的、
動(dòng)態(tài)的、
基于推理的理解過(guò)程。有效的環(huán)境狀態(tài)表征是Agent智能行為的基石,尤其在面對(duì)真實(shí)世界的不確定性和動(dòng)態(tài)性時(shí),其挑戰(zhàn)與重要性愈發(fā)凸顯。挑戰(zhàn)2
:動(dòng)態(tài)環(huán)境與持續(xù)學(xué)習(xí)
環(huán)境狀態(tài)是持續(xù)變化的,Agent需要有能力實(shí)時(shí)更新
其狀態(tài)表征。
新信息的融入可能需要調(diào)整已有的狀態(tài)理解,這與Agent的持續(xù)學(xué)習(xí)和適應(yīng)能力緊密相關(guān)。挑戰(zhàn)3
:可解釋性與可信賴性
Agent如何表征其狀態(tài),以及為何形成這樣的表征,對(duì)于理解其后續(xù)決策至關(guān)重要。
需要探索更具可解釋性的狀態(tài)表征方法。
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)28
認(rèn)知與決策模塊(Cog
n
ition
&
Decision
Making
/
Reasoning
)
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)29
n
定義與核心功能:
Agent的
“中央處理器”,負(fù)責(zé)基于感知模塊提供的環(huán)境狀態(tài)和內(nèi)
部目標(biāo),進(jìn)行思考、推理、規(guī)劃,并最終做出行動(dòng)決策。
Agent智能水平的集中體現(xiàn)。n
四大核心組成部分:1.核心引擎:大型語(yǔ)言模型
(LLM)-提供基礎(chǔ)理解、推理和生成能力。2.
規(guī)劃(Planning)-如何達(dá)成目標(biāo)?制定行動(dòng)序列。3.
記憶(Memory)-如何存儲(chǔ)和利用經(jīng)驗(yàn)與知識(shí)?4.
學(xué)習(xí)與適應(yīng)(Learning&Adaptation)-如何從經(jīng)驗(yàn)中進(jìn)化?3.1認(rèn)知與決策模塊
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)30
認(rèn)知與決策模塊–Agent的“大腦”與智能核心核心引擎-LLM:認(rèn)知核心的驅(qū)動(dòng)力n
指令理解與意圖識(shí)別:
LLM強(qiáng)大的NLU能力使其能準(zhǔn)確理解復(fù)雜、模糊的用戶指令或內(nèi)部目標(biāo)。
例如:將
“幫我規(guī)劃一次去北京的三天旅游,預(yù)算5000元,喜歡歷史古跡”轉(zhuǎn)化為明確的任務(wù)需求。n
上下文理解與長(zhǎng)程依賴:
LLM通過(guò)Attention機(jī)制能捕捉和利用上下文信息。
挑戰(zhàn):
有限的上下文窗口
(Context
Window)限制了處理真正長(zhǎng)程依賴的能力。
Agent框架的方案:?滑動(dòng)窗口
(SlidingWindow):保留最近的交互歷史。?摘要機(jī)制
(Summarization):定期將早期對(duì)話或信息壓縮成摘要,注入上下文。?與外部記憶模塊結(jié)合
(RAG等):將相關(guān)歷史信息動(dòng)態(tài)檢索并加入提示。n
常識(shí)推理與知識(shí)運(yùn)用:LLM預(yù)訓(xùn)練中學(xué)習(xí)了海量世界知識(shí)和常識(shí),能進(jìn)行一定程度的推理。3.2核心引擎:LLM的角色與能力LLM在Agent中:通常作為中央控制器或推理引擎,協(xié)調(diào)其他組件工作。
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)31
2.LLM的局限性及其彌補(bǔ)策略n
幻覺(jué)
(Hallucination):編造不實(shí)信息。
彌補(bǔ):
工具調(diào)用
(Tool
Use)進(jìn)行事實(shí)核查
(e.g.,搜索引擎、
計(jì)算器)、引用外部知識(shí)庫(kù)
(RAG)、
自我反思與修正機(jī)制。n
知識(shí)截止
(Knowledge
Cutoff):缺乏最新信息。
彌補(bǔ)
:實(shí)時(shí)工具調(diào)用
(e.g.,聯(lián)網(wǎng)搜索)、定期更新/微調(diào)模
型、
RAG訪問(wèn)最新文檔。n
邏輯推理脆弱性:在嚴(yán)格邏輯或數(shù)學(xué)問(wèn)題上可能出錯(cuò)。
彌補(bǔ)
:調(diào)用代碼執(zhí)行器、符號(hào)計(jì)算工具
(e.g.,Wolfram
Alpha)、專用邏輯推理模塊。1.關(guān)鍵技術(shù)
-推理增強(qiáng)技術(shù)n
思維鏈
(Chain-of-Thought,CoT):
引導(dǎo)LLM逐步思考,輸出中間推理步驟,而非直接給出答
案“
Let's
think
step
by
step.”
示例:?jiǎn)栴}
-
>思考步驟1
-
>思考步驟2
-
>
...
-
>答案n
思維樹
(Tree-of-Thought,ToT):
將問(wèn)題求解過(guò)程建模為樹搜索,LLM在每個(gè)節(jié)點(diǎn)生成多個(gè)
想法(thoughts),并評(píng)估這些想法,進(jìn)行前瞻和回溯。
示例:樹狀結(jié)構(gòu),從問(wèn)題節(jié)點(diǎn)分叉出不同思考路徑n
思維圖
(Graph-of-Thought,GoT):
將LLM生成的thoughts組織成圖結(jié)構(gòu),允許更靈活的聚合
和轉(zhuǎn)換,提升推理的全局性和迭代性。
示例:網(wǎng)絡(luò)圖結(jié)構(gòu),節(jié)點(diǎn)代表思考單元,邊代表關(guān)系3.2核心引擎:LLM的角色與能力
-推理增強(qiáng)與局限彌補(bǔ)
AI肖睿團(tuán)隊(duì)
學(xué)習(xí)交流可加AI肖睿團(tuán)隊(duì)助理微信號(hào)(ABZ2829)32
目標(biāo):提升LLM在復(fù)雜問(wèn)題上的推理能力和結(jié)果的可靠性,讓LLM“想得更明白”。規(guī)劃(Planning):為達(dá)成特定目標(biāo)而制定一系列行動(dòng)步驟的過(guò)程。n任務(wù)分解
(Task
Decomposition)的核心價(jià)值:1.明確化與可操作化
:將抽象目標(biāo)轉(zhuǎn)化為具體步驟。2.
降低復(fù)雜度:簡(jiǎn)化問(wèn)題,實(shí)現(xiàn)“分而治之”。3.增強(qiáng)執(zhí)行靈活性:便于并行處理、錯(cuò)誤恢復(fù)和動(dòng)態(tài)調(diào)整。n
實(shí)現(xiàn)任務(wù)分解的主要技術(shù)路徑:1.
分層規(guī)劃
(Hierarchical
Planning):
核心思想:從高層抽象任務(wù)開始,通過(guò)多層級(jí)逐步細(xì)化到具體的子任務(wù)序列,直至可執(zhí)行的原子操作。
優(yōu)勢(shì)
:提高規(guī)劃效率,生成更具可解釋性的計(jì)劃,適用于復(fù)雜領(lǐng)域。2.
分層任務(wù)網(wǎng)絡(luò)
(HierarchicalTask
Networks,
HTN):
一種經(jīng)典AI規(guī)劃方法,使用“方法”來(lái)描述如何將一個(gè)任務(wù)分解為一個(gè)或多個(gè)子任務(wù)序列。
核心組件:?任務(wù)
(Tasks):待完成的目標(biāo)或活動(dòng)。?方法
(Methods):描述如何將一個(gè)非基本任務(wù)分解為一個(gè)或多個(gè)(有序或部分有序的)子任務(wù)序列。提供了預(yù)定義的任務(wù)分解模式。?操作符
(Operators/
PrimitiveTasks):對(duì)應(yīng)Agent可直接執(zhí)行的基本動(dòng)作,具有明確的前置條件和效果。
工作方式:通過(guò)遞歸應(yīng)用方法來(lái)分解任務(wù),直到所有任務(wù)都變成操作符
898PEKING
UNIVERSITY
N
I
V3.LLM驅(qū)動(dòng)的任務(wù)分解:
利用LLM的理解和生成能力,直接將用戶的高層指令分解為子任務(wù)列表。
例如,用戶說(shuō)“幫我組織一個(gè)團(tuán)隊(duì)下周的線上技術(shù)分享會(huì)。”
,LLM分解為“1.確定分享會(huì)主題和主講人。
享材料和演示。4.預(yù)訂線上會(huì)議室并測(cè)試設(shè)備。
5.會(huì)后收集反饋。”等。
優(yōu)勢(shì):對(duì)模糊指令的適應(yīng)性強(qiáng),能利用常識(shí)進(jìn)行分解,交互更自然。
挑戰(zhàn):分解結(jié)果的邏輯性、完備性、可執(zhí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 民辦學(xué)校招生工作方案范文
- 初中物理課堂教學(xué)問(wèn)題分析
- GB/T 38717-2026水陸兩棲飛機(jī)術(shù)語(yǔ)
- 音體美考核制度
- 管理培訓(xùn)考核制度
- 玉林考核制度
- 驗(yàn)布員考核制度
- 業(yè)務(wù)市場(chǎng)考核制度
- 黨員雙考核制度
- 瑜伽考核制度
- 中科曙光入職在線測(cè)評(píng)題庫(kù)
- 叉車初級(jí)資格證考試試題與答案
- 2025至2030中國(guó)新癸酸縮水甘油酯行業(yè)發(fā)展研究與產(chǎn)業(yè)戰(zhàn)略規(guī)劃分析評(píng)估報(bào)告
- 剪映完整課件
- 新疆機(jī)井管理辦法
- 導(dǎo)熱油事故現(xiàn)場(chǎng)處置方案夏君96課件
- DB32∕T 310026-2024 雷電防護(hù)裝置檢測(cè)部位及檢測(cè)點(diǎn)確認(rèn)技術(shù)規(guī)范
- GB/T 45680-2025起重機(jī)風(fēng)載荷計(jì)算
- 會(huì)銷主持培訓(xùn)課件
- 提高鼻飼護(hù)理質(zhì)量品管圈
- 白酒品鑒酒管理制度
評(píng)論
0/150
提交評(píng)論