AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式

上傳人：a*** IP屬地：廣東上傳時(shí)間：2025-09-17 格式：PPT 頁(yè)數(shù)：126 大小：31.16MB 積分：40 舉報(bào) 版權(quán)申訴

AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式_第2頁(yè)

AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式_第3頁(yè)

AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式_第4頁(yè)

AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式_第5頁(yè)

已閱讀5頁(yè)，還剩121頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

應(yīng)用（AI

Agent）開(kāi)發(fā)新AI

應(yīng)用概述01從“工具”到“智能伙伴”的進(jìn)化被動(dòng)的命令處理工具智AIAgent+LLM的雙引擎模式AI

應(yīng)用

：AI

Agent

LLM

雙引擎LLM扮演著認(rèn)知核心，也就是“大腦”的角色。它負(fù)責(zé)處理所有與“思考”相關(guān)的任務(wù)：

理解意圖：當(dāng)用戶用自然語(yǔ)言提出復(fù)雜需求時(shí)，LLM負(fù)責(zé)精準(zhǔn)地理解其背后的真實(shí)意圖。

規(guī)劃任務(wù)：它能將一個(gè)模糊的目標(biāo)（如“分析銷(xiāo)售數(shù)據(jù)”）分解成一系列清晰、有序的步驟。LLM規(guī)劃

&指令回饋&自省AI

Agent賦予了LLM“手和腳”，讓“思考”得以轉(zhuǎn)化為“行動(dòng)”。如果說(shuō)LLM負(fù)責(zé)“思考做什么”，那么AI

Agent則負(fù)責(zé)“如何去完成”：

工具調(diào)用：這是AI

Agent最關(guān)鍵的能力。它可以根據(jù)LLM的規(guī)劃，去調(diào)用各種外部工具來(lái)執(zhí)行任務(wù)，例如查詢數(shù)據(jù)庫(kù)、調(diào)用公司內(nèi)部系統(tǒng)的API、訪問(wèn)互聯(lián)網(wǎng)、讀寫(xiě)文件等。

任務(wù)執(zhí)行與編排：Agent負(fù)責(zé)管理整個(gè)任務(wù)流程，確保LLM規(guī)劃的步驟被逐一、準(zhǔn)確地執(zhí)行。AI

Agent（執(zhí)行者）

與環(huán)境交互：它能將執(zhí)行結(jié)果（如數(shù)據(jù)庫(kù)查詢返回的數(shù)據(jù)）反饋給LLM，供其進(jìn)行下一步的思考和決策，形成一個(gè)“思考-行動(dòng)-觀察-再思考”的閉環(huán)。工具企業(yè)能力的核心

-MCP服務(wù)HR系統(tǒng)財(cái)務(wù)系統(tǒng)MCP服務(wù)AI

Agent企業(yè)CRM系統(tǒng)MCP的出現(xiàn)，很好的解決了構(gòu)建AI

Agent技能系統(tǒng)的痛點(diǎn)問(wèn)題：

規(guī)范化了多者的協(xié)同關(guān)系：MCP協(xié)議規(guī)范約束了用戶、AI

Agent、LLM、后端服務(wù)四者之間的系統(tǒng)關(guān)系?？头到y(tǒng)

AIAgent和后端服務(wù)快速對(duì)接：無(wú)需后端服務(wù)改造，也無(wú)需AIAgent改造，無(wú)需了解和解析后端服務(wù)接口的返回格式。ERP系統(tǒng)MCP服務(wù)是企業(yè)AI應(yīng)用的基石。它將企業(yè)零散的IT資產(chǎn)和服務(wù)，轉(zhuǎn)化為AI可以理解和調(diào)用的標(biāo)準(zhǔn)化能力，從而為上層的AI

Agent源源不斷地輸送技能。構(gòu)建AI應(yīng)用的兩種路徑：全新開(kāi)發(fā)

vs.

存量改造Brand

NewDevelopmentExisting

Business

TransformationOACRMERPSaaS全新開(kāi)發(fā)：開(kāi)創(chuàng)業(yè)務(wù)新大陸改造現(xiàn)有業(yè)務(wù)：為這指的是從零開(kāi)始，為一個(gè)全新的業(yè)務(wù)場(chǎng)景或顛覆性的產(chǎn)品構(gòu)想，原生設(shè)計(jì)和開(kāi)發(fā)AI應(yīng)用。這種模式不受歷史技術(shù)債務(wù)的束縛，可以采用最先進(jìn)的架構(gòu)，最大化地發(fā)揮AIAgent的能力，是實(shí)現(xiàn)顛覆式創(chuàng)新的最佳路徑。例如，打造一個(gè)面向金融行業(yè)的AI研究分析師，或者開(kāi)發(fā)一個(gè)企業(yè)內(nèi)部的“超級(jí)知識(shí)入口”。這是絕大多數(shù)企業(yè)會(huì)選擇的路徑。它指的是在企業(yè)現(xiàn)有的、成熟的核心業(yè)務(wù)系統(tǒng)（如ERP、CRM、SCM）中，嵌入AI

Agent的能力，對(duì)其進(jìn)行“智能化升級(jí)”。這種方式能直接作用于核心業(yè)務(wù)流程，價(jià)值釋放路徑更短、更明確。AI應(yīng)用的核心是

AgentAI

應(yīng)用基礎(chǔ)架構(gòu)AIPrompt

TemplateUniversal

AgentsMulti-Agents多模態(tài)模型InstructionsPlanning/ReasoningPromptModelPlatform-LevelAgents大腦AgentResponse執(zhí)行官Siloed,Single-PurposeAgentsLLMSmarter

models

using

toolstoaccomplish

higher

value

tasksMCP

Ser

verAI

觀測(cè)Level

Intelligence技能池AI應(yīng)用架構(gòu)新范式事件驅(qū)動(dòng)MCP

Registry

&Prompt

安全管理定時(shí)/MQ/SLS

/CDN

/DTS

/OSS…MSE

NAI

Agent端

生態(tài)Agent代理Model代理/MCP服務(wù)代理AI網(wǎng)關(guān)移動(dòng)端AI網(wǎng)關(guān)AIStudioAToAgent

API

管理Web端智能終端流量防護(hù)AI

Agent

Self

Runtime

函數(shù)計(jì)算AI

Agent

Sandbox

函數(shù)計(jì)算綠網(wǎng)/敏認(rèn)證鑒權(quán)車(chē)機(jī)終端Cac工具集策略/插件Tools/其他生態(tài)終端WorkFlow

/AI

Framework/

Prompt

/EvaluationOpen

Telemetr

y可觀測(cè)標(biāo)準(zhǔn)協(xié)議AI

應(yīng)用觀測(cè)

&評(píng)估體系LLM

ObservabilityAI應(yīng)用架構(gòu)新范式刨析

一個(gè)AI網(wǎng)關(guān)三種角色，具備統(tǒng)一的管控底座，同時(shí)又實(shí)現(xiàn)各角色的協(xié)同調(diào)度。

MSE

Nacos

發(fā)揮注冊(cè)中心優(yōu)勢(shì)，增加MCP

Registry能力，實(shí)現(xiàn)普通服務(wù)和MCP服務(wù)的統(tǒng)一管理，結(jié)合網(wǎng)關(guān)實(shí)現(xiàn)現(xiàn)存業(yè)務(wù)0改造轉(zhuǎn)換為MCP服務(wù)。AIStudio為阿里云自研的低代碼構(gòu)建AI

Agent的產(chǎn)品，解決開(kāi)源Dify高可用，穩(wěn)定性，性能問(wèn)題，使AI

Agent的運(yùn)行引擎更穩(wěn)定。FC具備豐富的觸發(fā)器和各語(yǔ)言運(yùn)行環(huán)境，基于Serverless計(jì)算自身的特性，完美適配AI

Agent自身運(yùn)行環(huán)境和AI

Agent

Sandbox的基礎(chǔ)組件。①用戶向AI應(yīng)用發(fā)起請(qǐng)求，請(qǐng)求流量進(jìn)入AI網(wǎng)關(guān)，使用Agent

API代理AIAgent。

②

AI網(wǎng)關(guān)側(cè)維護(hù)管理了不同類(lèi)型的AIAgent的API或路由規(guī)則，將用戶請(qǐng)求轉(zhuǎn)發(fā)至對(duì)應(yīng)的AI

Agent。③

AIAgent無(wú)論以哪種方式實(shí)現(xiàn)，只要它需要使用工具解決用戶的問(wèn)題，便向AI網(wǎng)關(guān)管理的MCP服務(wù)請(qǐng)求獲取可用的MCP服務(wù)及工具的信息。④因?yàn)锳I網(wǎng)關(guān)處可能維護(hù)了很多MCP信息，可以借助LLM縮小MCP范圍，減少Token消耗，所以可以通過(guò)AI網(wǎng)關(guān)代理的小參數(shù)LLM，做意圖識(shí)別，進(jìn)一步縮小MCP服務(wù)范圍。（可選，需用戶自己實(shí)現(xiàn)）⑤

AI網(wǎng)關(guān)將確定好范圍的MCP服務(wù)及工具的信息List返回給AI

Agent。⑥

AIAgent將用戶的請(qǐng)求信息及從AI網(wǎng)關(guān)拿到的所有MCP信息再通過(guò)AI網(wǎng)關(guān)發(fā)送給LLM。⑦經(jīng)過(guò)LLM推理后，返回解決問(wèn)題的一個(gè)或多個(gè)MCP服務(wù)和工具的信息。⑧

AIAgent拿到確定的MCP服務(wù)和工具的信息后通過(guò)AI網(wǎng)關(guān)對(duì)該MCP工具做請(qǐng)求。實(shí)際生產(chǎn)中

③

⑧

步會(huì)多次循環(huán)交互AI

Agent

概述02什么是

AIAgent大語(yǔ)言模型（LLM）推理一個(gè)AIAgent其實(shí)是一個(gè)系統(tǒng)，包括以下三個(gè)核心內(nèi)容：

使用大語(yǔ)言模型（LLM）來(lái)推理

可以通過(guò)工具執(zhí)行各類(lèi)行動(dòng)。AI

Agent通過(guò)工具執(zhí)行行動(dòng)MCP服務(wù)作為技能池

執(zhí)行思考（Think）->

執(zhí)行（Action）->

自省（Observe）->

糾錯(cuò)（既重復(fù)思考到自省的持續(xù)改進(jìn)）這樣一個(gè)循環(huán)。AIAgent和Chatbot的最大區(qū)別是前者可以解決需要通過(guò)不同領(lǐng)域的知識(shí)和能力協(xié)同才可以解決的問(wèn)題，通俗的說(shuō)就是復(fù)合的、復(fù)雜的、多步驟的問(wèn)題。執(zhí)行思考（Think）->執(zhí)行（Action）->自?。∣bserve）

->糾錯(cuò)像人一樣的思考機(jī)制AIAgent

的核心組件大腦，既大語(yǔ)言模型（LLM）

作用：識(shí)別自然語(yǔ)言，然后進(jìn)行推理并做出決策。

原則：選擇最合適的大語(yǔ)言模型。（不同的大語(yǔ)言模型有自己擅長(zhǎng)的領(lǐng)域和業(yè)務(wù)場(chǎng)景）記憶，既存儲(chǔ)服務(wù)（NoSQL或向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)）

作用：讓Agent記得目標(biāo)、偏好，以及過(guò)往的交互信息，從而實(shí)現(xiàn)多步驟執(zhí)行，自省等能力。記憶里也分長(zhǎng)期記憶和短期記憶。AI

Agent手，既各類(lèi)工具（MCP

Server）

作用：為Agent提供外部能力，各類(lèi)業(yè)務(wù)服務(wù)，數(shù)據(jù)庫(kù)服務(wù)，存儲(chǔ)服務(wù)等等。既執(zhí)行LLM做出的決策。指令，既系統(tǒng)提示詞（System

Prompt）

作用：定義Agent的目標(biāo)和行為。AIAgent

的推理模式

-ReAct

模式推理（Reason）自?。≧eflect）使用LLM分析、理解上下文，明確用戶任務(wù)目標(biāo)。評(píng)估是否需要繼續(xù)推理->行動(dòng)->觀察以得到更趨近于用戶目標(biāo)的結(jié)果。觀察（Obser

ve）行動(dòng)（Act）評(píng)估執(zhí)行行動(dòng)后得到的結(jié)果?；谕评淼慕Y(jié)果，執(zhí)行對(duì)應(yīng)的行動(dòng)。AIAgent

的構(gòu)建模式與

AIAgent

類(lèi)型編碼式低代碼式

Manual

Coding

LangChain

阿里云AIStudio

阿里云百煉

Dify

LangGraph

OpenAI

AgentsSDK

Ver

texAIAgents

CrewAI

N8N

Pydantic

Spring

AIAlibabaLLM輔助基模（基礎(chǔ)大語(yǔ)言模型）的AI

Agent作為獨(dú)立產(chǎn)品的AI

Agent（通用AI

Agent）輔助現(xiàn)存業(yè)務(wù)的AI

Agent這類(lèi)AI

Agent大都還是基于主流的Chat模式，幫用戶解答問(wèn)題，規(guī)這類(lèi)AI

Agent就是目前廣大互聯(lián)網(wǎng)客戶、泛企業(yè)客戶期望構(gòu)建或正在構(gòu)建中的AI

Agent，和客戶自身的業(yè)務(wù)耦合比較緊密。我們的實(shí)踐中像知乎、運(yùn)滿滿、義烏小百貨等都屬于這一類(lèi)，并且以低代碼構(gòu)建方式為主。當(dāng)今基模的聯(lián)網(wǎng)搜索、深度研究（DeepSearch）、編碼能力都是需要AI

Agent輔助的，這類(lèi)AI

Agent并不直接對(duì)用戶透出。我們的實(shí)踐中像Qwen3、智譜GLM等都屬于這一類(lèi)，通常都是做基模的公司會(huì)涉及到，并且以編碼方式構(gòu)建為主。劃任務(wù)等。我們的實(shí)踐中像OpenManus、JManus、MiniMaxAgent、昆侖萬(wàn)維等都屬于這一類(lèi)，通常都是做基模或者專門(mén)做通用AI

Agent產(chǎn)品的公司會(huì)涉及到，并且以編碼方式構(gòu)建為主。構(gòu)建

AIAgent的核心問(wèn)題如何構(gòu)建企業(yè)級(jí)MCP管理體系？如何解決使用LLM時(shí)面臨的各類(lèi)問(wèn)題？如何選擇和使用AI

Agent最合適的運(yùn)行時(shí)？函數(shù)計(jì)算FC概述03阿里云

函數(shù)計(jì)算FC

是什么函數(shù)計(jì)算是事件驅(qū)動(dòng)的全托管計(jì)算服務(wù)。使用函數(shù)計(jì)算，用戶無(wú)需采購(gòu)與管理服務(wù)器等基礎(chǔ)設(shè)施，只需編寫(xiě)并上傳代碼。函數(shù)計(jì)算為客戶提供了0.05C

128MB到16C32GB不同規(guī)格的CPU實(shí)例和從1GB到48GB不同顯存規(guī)格的GPU實(shí)例，用戶可根據(jù)業(yè)務(wù)需求靈活選擇資源規(guī)格。支持百毫秒級(jí)彈縮，近百種觸發(fā)器類(lèi)型滿足各類(lèi)業(yè)務(wù)場(chǎng)景，并且提供完善的日志、可觀測(cè)、告警能力，是一款應(yīng)用廣泛的高可靠、高可用、高性價(jià)比的計(jì)算服務(wù)。阿里云生態(tài)能力（請(qǐng)求方式）讓函數(shù)執(zhí)行的方式多種多樣對(duì)象存儲(chǔ)日志服務(wù)消息服務(wù)表格存儲(chǔ)被集成云監(jiān)控API網(wǎng)關(guān)CDNEB其他云服務(wù)集成免運(yùn)維極致彈性高彈性細(xì)粒度函數(shù)計(jì)算（運(yùn)行代碼）一站式體驗(yàn)專注業(yè)務(wù)開(kāi)發(fā)極致性能極致成本免運(yùn)維多種運(yùn)行環(huán)境的計(jì)算資源函數(shù)計(jì)算FC云工作流CloudFlow代碼交付鏡像交付客戶業(yè)務(wù)（資源類(lèi)型交付方式）異構(gòu)計(jì)算資源多種交付方式…AI新零售新金融在線教育娛樂(lè)游戲車(chē)聯(lián)網(wǎng)IoT大數(shù)據(jù)函數(shù)計(jì)算

是云產(chǎn)品的連接器函數(shù)計(jì)算FC提供了一種事件驅(qū)動(dòng)的計(jì)算模型，函數(shù)的執(zhí)行是由事件驅(qū)動(dòng)的，函數(shù)的執(zhí)行可以由多種方式（事件源）觸發(fā)業(yè)務(wù)場(chǎng)景定時(shí)觸發(fā)器OSS觸發(fā)器OSS媒體內(nèi)容處理場(chǎng)景音視頻轉(zhuǎn)解碼按照觸發(fā)器集成方式，函數(shù)計(jì)算支持的觸發(fā)器分為以下三類(lèi)：

雙向集成觸發(fā)器：您既可以在函數(shù)計(jì)算，又可以在事件源端配置觸發(fā)器。定時(shí)任務(wù)函數(shù)視頻轉(zhuǎn)碼函數(shù)視頻截幀函數(shù)文本文件處理函數(shù)CDN回源函數(shù)數(shù)據(jù)清洗函數(shù)視頻直播推拉流圖片處理NASSLS觸發(fā)器

單向集成觸發(fā)器：目前只支持在事件源端配置觸發(fā)器。IoT物聯(lián)網(wǎng)平臺(tái)文本處理

云產(chǎn)品事件觸發(fā)器：支持在函數(shù)計(jì)算配置觸發(fā)器，同時(shí)支持在CDN觸發(fā)器更多…事件總線EventBridge創(chuàng)建函數(shù)觸發(fā)規(guī)則，無(wú)需在事件源端配置。TableStore觸發(fā)器MNS觸發(fā)器RDS詳細(xì)信息可參考文檔：/document_detail/53102.html大數(shù)據(jù)場(chǎng)景數(shù)據(jù)ETLPolarDB車(chē)聯(lián)網(wǎng)物聯(lián)網(wǎng)更多…函數(shù)計(jì)算

提供了20+核心云產(chǎn)品的原生觸發(fā)器，各觸發(fā)器以白屏化的方式可以在函數(shù)計(jì)算控制臺(tái)快捷配置，幫助用戶快速的構(gòu)建多產(chǎn)品聯(lián)動(dòng)的自動(dòng)化流程。RocketMQ觸發(fā)器Kafka觸發(fā)器MQTT觸發(fā)器RabbitMQ觸發(fā)器ALB觸發(fā)器數(shù)據(jù)轉(zhuǎn)ElasticSearch消息清洗函數(shù)日志處理函數(shù)數(shù)據(jù)采集函數(shù)更多函數(shù)…通過(guò)函數(shù)計(jì)算觸發(fā)器，可以實(shí)現(xiàn)攔截各云產(chǎn)品的行為，用戶可以自定義函數(shù)對(duì)云產(chǎn)品的行為做處理，然后流轉(zhuǎn)到下游服務(wù)，從而實(shí)現(xiàn)不同產(chǎn)品之間的集成和聯(lián)動(dòng)。游戲場(chǎng)景消息轉(zhuǎn)換函數(shù)FlinkMaxComputeSAE游戲發(fā)行買(mǎi)量游戲戰(zhàn)斗結(jié)算CDN回源打包更多…請(qǐng)求轉(zhuǎn)發(fā)函數(shù)媒體內(nèi)容處理場(chǎng)景游戲場(chǎng)景大數(shù)據(jù)場(chǎng)景大并發(fā)場(chǎng)景AI推理函數(shù)AI場(chǎng)景AI推理API網(wǎng)關(guān)觸發(fā)器HologresAIGCHTTP觸發(fā)器更多…AIAgent更多…函數(shù)計(jì)算

是云產(chǎn)品的連接器業(yè)務(wù)代碼業(yè)模型服務(wù)開(kāi)發(fā)者框架：

Serverless

Devs命令行工具：

FuncraftMidway

Serverless云效

CI/CDGit

JenkinsTerraform務(wù)側(cè)關(guān)注開(kāi)發(fā)者工具DevOpsAIStudioTerrafrom

PlumiServerlessDevsAI應(yīng)用模板IDE:WEB

IDEVSCODE

插件Open

API/KafkaRocketMQALBOSSSLSTable

StoreCDNEvent

BridgeMNSHTTP

觸發(fā)器SDK觸發(fā)器運(yùn)行時(shí)函數(shù)計(jì)算MQTTCloudFlow定時(shí)觸發(fā)器API

GatewayPythonNode.jsGoJavaPHP實(shí)例類(lèi)型CPU實(shí)例GPU實(shí)例平臺(tái)側(cè)提供(百毫秒彈性)（秒級(jí)彈性）標(biāo)準(zhǔn)日志（SLS）MCP運(yùn)行時(shí)自定義鏡像.Net

Core監(jiān)控告警（云監(jiān)控）資源調(diào)度基礎(chǔ)設(shè)施多租戶隔離安全彈性伸縮負(fù)載均衡流量控制安全容器消息緩存高可用部署跨集群容災(zāi)性能監(jiān)控（ARMS）成本管家神龍服務(wù)器網(wǎng)絡(luò)通信OSS

存儲(chǔ)操作審計(jì)函數(shù)計(jì)算

應(yīng)用場(chǎng)景Serverless

HTTP應(yīng)用場(chǎng)景、Web應(yīng)用場(chǎng)景Serverless

音視頻、圖片、文本處理場(chǎng)景

支持一鍵配置對(duì)象存儲(chǔ)事件監(jiān)聽(tīng)，即可實(shí)時(shí)消費(fèi)

OSS

事件，如自定義圖片處理、ZIP文件解壓縮、CDN自動(dòng)刷結(jié)合

API

網(wǎng)關(guān)，提供小程序，H5，WEB服務(wù)，REST

API

等通用

HTTP

解決方案新、數(shù)據(jù)實(shí)時(shí)同步等

自定義處理邏輯，支持多種編程語(yǔ)言，實(shí)現(xiàn)諸如文本分析、MapReduce等

毫秒級(jí)彈性伸縮，輕松應(yīng)對(duì)負(fù)載的波峰波谷，實(shí)際案例支持10W+級(jí)QPS對(duì)象存儲(chǔ)

OSS圖片存儲(chǔ)函數(shù)計(jì)算

FC后端服務(wù)日志存儲(chǔ)文本存儲(chǔ)?件上傳?件刪除CDN回源…上傳事件刪除事件CDN事件…事件通知?志分析消息分發(fā)…視頻存儲(chǔ)Serverless

游戲場(chǎng)景Serverless

大數(shù)據(jù)ETL場(chǎng)景、車(chē)聯(lián)網(wǎng)場(chǎng)景

將游戲場(chǎng)景中通用的業(yè)務(wù)能力

進(jìn)行抽象，從游戲主服中進(jìn)行剝離，沉淀到統(tǒng)一服務(wù)層，最大化的提升資源利用

支持一鍵配置消息中間件數(shù)據(jù)消費(fèi)，無(wú)需額外構(gòu)建消費(fèi)者，如

Kafka

消息備份、日志清洗、聊天消息分發(fā)等

支持自定義處理邏輯，承載多種多樣的業(yè)務(wù)需求率，減少系統(tǒng)維護(hù)工作量和使用成本

函數(shù)計(jì)算接管強(qiáng)

CPU

密集型的戰(zhàn)斗結(jié)算場(chǎng)景，穩(wěn)定應(yīng)對(duì)開(kāi)服、運(yùn)營(yíng)活動(dòng)時(shí)的流量脈沖

支持高可用，支持配置錯(cuò)誤重試函數(shù)計(jì)算

FC?關(guān)服游戲服廣告平臺(tái)函數(shù)計(jì)算

FC觸發(fā)器函數(shù)計(jì)算

FC玩家流量負(fù)載均衡觸發(fā)器觸發(fā)器消費(fèi)數(shù)據(jù)函數(shù)消費(fèi)數(shù)據(jù)函數(shù)接收數(shù)據(jù)函數(shù)接收數(shù)據(jù)函數(shù)日志服務(wù)KafkaElasticSearch?業(yè)務(wù)能?服統(tǒng)?

務(wù)層通剝離，

沉淀到觸發(fā)器函數(shù)計(jì)算

FCAPI實(shí)時(shí)計(jì)算Serverless

GPU場(chǎng)景

【在線/實(shí)時(shí)/離線】AI推理Serverless

AIAgent

場(chǎng)景

作為AI

Agent

Code

Sandbox

作為AI

Agent

RLSandbox

作為仿真訓(xùn)練

Sandbox

彈性能力：提供最小1/24卡粒度的GPU虛擬化，將在線推理worker充分并行，單卡資源利用率最大可提高至8倍。

，彈性交付時(shí)間在秒級(jí)（熱啟動(dòng)）

~分鐘級(jí)（冷啟動(dòng)）

作為Agent

RuntimeDeveloperDevOps

支持所有主流開(kāi)發(fā)語(yǔ)言運(yùn)行環(huán)境AI

?程平臺(tái)開(kāi)發(fā)工具

托管SD，ComfyUI，Isaac

Sim，SWE-Bench等綜合框架資源調(diào)用任務(wù)管理數(shù)據(jù)管理服務(wù)管理租戶管理

具備可視化構(gòu)建Agent，MCP服務(wù)能力函數(shù)計(jì)算

GPU

池函數(shù)計(jì)算

GPU

池小作坊/小集群函數(shù)計(jì)算FC作為AI

Agent運(yùn)行時(shí)04函數(shù)計(jì)算FC支撐AIAgent方案拓?fù)鋱D函數(shù)計(jì)算

Agent

運(yùn)行時(shí)方案函數(shù)計(jì)算作為

AIAgent

自身的運(yùn)行時(shí)（Runtime）函數(shù)計(jì)算作為輔助

AIAgent的Browser

useSandbox編碼式構(gòu)建

AIAgent流程式構(gòu)建

AIAgentCode

Sandbox作為獨(dú)立產(chǎn)品的AI

Agent（通用AIAgent）輔助業(yè)務(wù)的AI

Agent輔助基模的AI

Agent函數(shù)計(jì)算支撐

AIAgent

的兩種方式函數(shù)計(jì)算

FC函數(shù)計(jì)算作為

Agent

自身的

Runtime函數(shù)計(jì)算作為輔助

Agent

的

Sandbox函數(shù)計(jì)算作為計(jì)算資源運(yùn)行AIAgent–

編碼式函數(shù)計(jì)算FC作為計(jì)算資源提供細(xì)粒度、高彈性、強(qiáng)安全的AI

Agent運(yùn)行環(huán)境。各類(lèi)

Agent運(yùn)行在函數(shù)計(jì)算FC上的AI

Agent有兩種類(lèi)型：

用戶自行編寫(xiě)的，自研的AI

Agent?；蛘呷缡褂肧pring

Alibaba、LangChain、LlamaIndex等開(kāi)發(fā)Agent的綜合框架。

在FunctionAI平臺(tái)上，已經(jīng)托管了一些現(xiàn)Spring

LangChain

LlamaIndex托管OpenManus托管JManus托管ComfyUI托管SD

WebU運(yùn)行用戶自行編寫(xiě)的Function

AIAI

Agent代碼成的AI

Agent組件，比如OpenManus，Jmanus，ComfyUI，SD

WebUI等。函數(shù)計(jì)算PythonNode.jsGoJavaPHP實(shí)例類(lèi)型CPU實(shí)例(百毫秒彈性)GPU實(shí)例（秒級(jí)彈性）運(yùn)行時(shí)

函數(shù)計(jì)算

觸發(fā)器機(jī)制，實(shí)現(xiàn)

AgentMCP運(yùn)行時(shí)自定義鏡像.Net

Core可靈活被調(diào)度。

函數(shù)計(jì)算

按請(qǐng)求擴(kuò)縮，提升AI

Agent資源利用率，降低資源成本。資源調(diào)度基礎(chǔ)設(shè)施多租戶隔離安全彈性伸縮負(fù)載均衡流量控制消息緩存高可用部署跨集群容災(zāi)

函數(shù)計(jì)算

動(dòng)態(tài)掛載存儲(chǔ)機(jī)制，提升AIAgent

業(yè)務(wù)邏輯靈活性。

函數(shù)計(jì)算

函數(shù)實(shí)例動(dòng)態(tài)安裝依賴包，提升AI

Agent

業(yè)務(wù)形態(tài)多樣性。神龍服務(wù)器安全容器網(wǎng)絡(luò)通信OSS

存儲(chǔ)

函數(shù)計(jì)算

和多個(gè)云上產(chǎn)品做好了集成，降低運(yùn)維成本。函數(shù)計(jì)算構(gòu)建

Chat

AIAgent不再需要復(fù)雜的與K8s

Pod交互的邏輯解決三個(gè)核心問(wèn)題用戶只需要返回函數(shù)計(jì)算中函數(shù)的訪問(wèn)URL，在請(qǐng)求Header中傳入SessionId即可

解決執(zhí)行環(huán)境里的各依賴包的不確定性的問(wèn)題。

解決拿用戶相關(guān)文件信息路徑的不確定性的問(wèn)題。

解決會(huì)話（Session）請(qǐng)求親和性的問(wèn)題。獲取可用資源AIAgent管控服務(wù)資源管理服User-1-Session-1User-3-Session-3函數(shù)計(jì)算函數(shù)實(shí)例一旦被某個(gè)Session占據(jù)，會(huì)User-2-Session-2拒絕其他的請(qǐng)求。Session不連續(xù)且有Session親和，保證一個(gè)SessionId只在一個(gè)實(shí)例處理較長(zhǎng)時(shí)間沒(méi)有請(qǐng)求，實(shí)例才會(huì)銷(xiāo)毀

SessionId和InstanceId對(duì)應(yīng)。tar

upload

函數(shù)實(shí)例可以設(shè)置Session并發(fā)度（SessionNum設(shè)置為1，即為禁止Session復(fù)用）函數(shù)實(shí)例存儲(chǔ)實(shí)例-1Step-1實(shí)例-2

實(shí)例-3Session不活躍備份數(shù)據(jù)，釋放計(jì)算資源Step-2Step-3可設(shè)置Session超時(shí)時(shí)間（Session

IdleTime）任務(wù)執(zhí)行過(guò)程中產(chǎn)生的文件存儲(chǔ)在臨時(shí)云盤(pán)

OSS

使用函數(shù)快照保障啟動(dòng)速度。Browser

Usedownload

untar恢復(fù)快照，還是新Session判斷邏輯：Session恢復(fù)基于SessionId去查OSS（或者是客戶自己的數(shù)據(jù)表）

如果有數(shù)據(jù)走恢復(fù)邏輯（下載文件，恢復(fù)目錄）

如果差不多，就是新的會(huì)話，從零開(kāi)始即可下載數(shù)據(jù)并恢復(fù)目錄AI網(wǎng)關(guān)（LLM

API）AI網(wǎng)關(guān)（MCP管理）LLMEmbeddingRerank多模態(tài)地圖服務(wù)搜索服務(wù)天氣服函數(shù)計(jì)算

+CloudFlow

可視化構(gòu)建

AIAgent類(lèi)Dify可視化流程AI

Studio自研流程引擎Function

AI函數(shù)計(jì)算

FC易用的同時(shí)性能更強(qiáng)

支持函數(shù)計(jì)算節(jié)點(diǎn)，使構(gòu)建流程的靈活性得到大幅度提升。兼容Dify的流程構(gòu)建習(xí)慣

默認(rèn)支持最大1000QPS，且可以按需繼續(xù)提升。

使用Dify可視化流程編輯器的設(shè)計(jì)語(yǔ)言和UE，最大限度兼容用戶在構(gòu)建流程時(shí)的習(xí)慣。具備正統(tǒng)流程引擎的高性能

多節(jié)點(diǎn)復(fù)雜流程依然具備穩(wěn)定高可靠的執(zhí)行性能。

除了HTTP以外，還支持多種調(diào)度方案，比如OSS，SLS，Kafka，RocketMQ等。

具備完善的可觀測(cè)能力，包括整體流程和具體的每個(gè)節(jié)點(diǎn)的可觀測(cè)。

基于函數(shù)計(jì)算FC和云工作流CloudFLow實(shí)現(xiàn)的生產(chǎn)級(jí)流程引擎。AIStudio

控制臺(tái)AIStudio是阿里云自研的可視化構(gòu)建AI

Agent的產(chǎn)品。底層的工作流引擎基于阿里云2018年就商業(yè)化的產(chǎn)品云工作流（CloudFlow），底層算力基于函數(shù)計(jì)算。而前端的可視化部分我們基本沿用的Dify的設(shè)計(jì)語(yǔ)言。目的很簡(jiǎn)單：讓用戶不改變使用習(xí)慣的前提下享受到更靈活、更穩(wěn)定、性能更好的可視化構(gòu)建AI

Agent的產(chǎn)品。函數(shù)計(jì)算FC作為AIAgent

Sandbox05AIAgent為什么需要

Sandbox為了確保AI

Agent能夠安全、可控地運(yùn)行，一個(gè)強(qiáng)大的沙盒環(huán)境至關(guān)重要。這就像是為AI

Agent提供一個(gè)安全的游樂(lè)場(chǎng)，讓它在其中探索和執(zhí)行任務(wù)，同時(shí)又不會(huì)對(duì)外部真實(shí)世界造成意外影響。網(wǎng)絡(luò)隔離代碼執(zhí)行網(wǎng)絡(luò)隔離

(Network

Isolation)，這是非常關(guān)鍵的安全屏障。通過(guò)網(wǎng)絡(luò)隔離，可以精細(xì)地控制AI

Agent的網(wǎng)絡(luò)訪問(wèn)權(quán)限。例如，可以允許它訪問(wèn)特定的API，或者完全禁止它訪問(wèn)互聯(lián)網(wǎng)，以防止數(shù)據(jù)泄露或惡意網(wǎng)絡(luò)行為。代碼執(zhí)行

(Code

Execution)是Sandbox最基本也是最核心的功能。它需要能夠安全地執(zhí)行由AI

Agent生成或提供的代碼，并且通常需要支持多種編程語(yǔ)言。文件隔離資源管理文件系統(tǒng)隔離

(Filesystem

Isolation)，Sandbox必須提供一個(gè)虛擬且隔離的文件系統(tǒng)。這意味著AI

Agent只能在自己的“小房間”內(nèi)創(chuàng)建、讀取、寫(xiě)入或刪除文件，完全無(wú)法訪問(wèn)或修改主機(jī)系統(tǒng)的任何文件，從而保證了主機(jī)的安全。資源管理

(Resource

Management)，為了防止AI

Agent因錯(cuò)誤或惡意代碼而無(wú)限地消耗計(jì)算資源，沙盒需要能夠?qū)ζ溥M(jìn)行嚴(yán)格的限制。這包括設(shè)置最長(zhǎng)運(yùn)行時(shí)間（超時(shí)）、以及可以使用的CPU和內(nèi)存上限?？捎^測(cè)性進(jìn)程隔離進(jìn)程隔離

(Process

Isolation)，AI

Agent在執(zhí)行任務(wù)時(shí)可能可觀測(cè)性

(Observability):

為了更好地理解和調(diào)試AI

Agent會(huì)需要運(yùn)行一些獨(dú)立的進(jìn)程或命令。進(jìn)程隔離確保這些進(jìn)程被限制在沙盒內(nèi)部，無(wú)法干擾或窺探主機(jī)上運(yùn)行的其他應(yīng)用程序。的行為，沙盒需要提供日志記錄和監(jiān)控功能。這使得開(kāi)發(fā)人員可以追蹤Agent在沙盒內(nèi)執(zhí)行的所有操作，從而進(jìn)行分析和優(yōu)化。AIAgent的

Sandbox

場(chǎng)景多種編程語(yǔ)言運(yùn)行環(huán)境長(zhǎng)連接交互，實(shí)例不復(fù)用文件系統(tǒng)隔離獲取硬件指標(biāo)判斷執(zhí)行效率不同語(yǔ)言冷啟動(dòng)的處理Code

Sandbox

RLSWE-Bench托管提供GPU計(jì)算資源托管Isaac

Sim/Isaac

Lab異步任務(wù)管理Session/Cookie會(huì)話親和性Browser

UseSandbox仿S基于內(nèi)存擴(kuò)容機(jī)制34優(yōu)雅下線機(jī)制通用能力：任務(wù)流程編排能力，多種被調(diào)度能力，實(shí)例快速拉起能力，與云產(chǎn)品的集成打通能力Code

Sandbox這一類(lèi)場(chǎng)景的本質(zhì)就是在一個(gè)隔離的環(huán)境中運(yùn)行由用戶生成的或者LLM生成的代碼，分為兩種業(yè)務(wù)場(chǎng)景：

協(xié)助訓(xùn)練基模的Coding能力：給LLM喂需求，由LLM生成代碼，然后拉起函數(shù)計(jì)算FC

實(shí)例，運(yùn)行代碼，評(píng)判結(jié)果。

實(shí)時(shí)運(yùn)行展示用戶編碼類(lèi)的任務(wù)：這里包括執(zhí)行后端代碼，也包括執(zhí)行渲染前端代碼。無(wú)論是基模公司還是互聯(lián)網(wǎng)客戶的AI場(chǎng)景，都有相似的需求。比如Gemni的Canvas能力，千問(wèn)的網(wǎng)頁(yè)開(kāi)發(fā)能力，MiniMax的Agent生成代碼并運(yùn)行的能力等。AI

Agent

函數(shù)計(jì)算FC具備所有開(kāi)發(fā)語(yǔ)言運(yùn)行環(huán)境，適流程式應(yīng)各行各業(yè)，各類(lèi)運(yùn)行代碼的需求。函數(shù)計(jì)算FC提供能把這些數(shù)據(jù)拿走的能力（底層提供8代機(jī)，具備獲取這些指標(biāo)的接口），數(shù)據(jù)抓出來(lái)后給到另一個(gè)服務(wù)做衡量（另一個(gè)函數(shù)）。Code

Ser

ver

問(wèn)題分類(lèi)器節(jié)點(diǎn)函數(shù)計(jì)算節(jié)點(diǎn)LLM節(jié)點(diǎn)執(zhí)行代碼節(jié)點(diǎn)

函數(shù)計(jì)算FC支持實(shí)例內(nèi)再起多線程執(zhí)行子任務(wù)的能力，得益于函數(shù)計(jì)算FC的實(shí)例是完全獨(dú)立的環(huán)境，只要函數(shù)規(guī)格夠，多線程運(yùn)行也不會(huì)影響其他實(shí)例，不會(huì)產(chǎn)生資源爭(zhēng)搶。Evaluate

Code

FunctionAIStudio用戶通過(guò)請(qǐng)求傳入代碼片段。

通過(guò)請(qǐng)求傳入獲取代碼地址（OSS

URL），函數(shù)下載代碼編碼式

對(duì)時(shí)延要求高且非常敏感的場(chǎng)景，廣告領(lǐng)域的RTA絕對(duì)算一個(gè)，函數(shù)計(jì)算FC有成熟的RTA方案，并且支撐著不少大客戶的RTA業(yè)務(wù)，所以在優(yōu)化冷啟動(dòng)，解決時(shí)延方面有足夠的經(jīng)驗(yàn)。那么在Code

Sandbox這個(gè)場(chǎng)景通常會(huì)使用彈性實(shí)例與毫秒級(jí)快照實(shí)例組合的方式來(lái)保證時(shí)延要求。推理行動(dòng)觀察自省Render

Code

FunctionAI

Agent

Self

Runtimeon

函數(shù)計(jì)算Browser

UseSandbox在AI場(chǎng)景下，當(dāng)前Browser

Use主要有兩類(lèi)主要的應(yīng)用場(chǎng)景：

輔助數(shù)據(jù)采集，比如需要登錄的一些網(wǎng)站，獲取論文報(bào)告等。

做聯(lián)網(wǎng)搜索，目前主流搜索引擎的API能力參差不齊，且價(jià)格不菲，所以通過(guò)Browser

Use做聯(lián)網(wǎng)搜索在靈活性和成本方面都是較優(yōu)的選擇。AI

Agent

需要Session/Cookie親和性。輔助數(shù)據(jù)采集流程式時(shí)，需要登錄后才能獲取到數(shù)據(jù)，所以需要相同Session的請(qǐng)求分配到同一個(gè)實(shí)例中，避免反復(fù)登錄。BrowserUse

Ser

ver問(wèn)題分類(lèi)器節(jié)點(diǎn)函數(shù)計(jì)算節(jié)點(diǎn)LLM節(jié)點(diǎn)

函數(shù)計(jì)算FC支持會(huì)話（Session）親和性的。所以也是天然適配Browser

Use的特性。采集數(shù)據(jù)節(jié)點(diǎn)Chrome

Server

Function

需要基于內(nèi)存擴(kuò)容，這個(gè)場(chǎng)景比較吃內(nèi)存，且大多數(shù)語(yǔ)言內(nèi)存回收機(jī)制都不好。

函數(shù)計(jì)算FC默認(rèn)按請(qǐng)求擴(kuò)容，此外還支持用戶配置按時(shí)間和并發(fā)度擴(kuò)容，為了支持Browser

Use

Sandbox場(chǎng)景，又支持了按內(nèi)存擴(kuò)容的能力。AIStudio用戶編碼式Fetch

Function推理行動(dòng)觀察自省

優(yōu)雅下線，也就是實(shí)例要銷(xiāo)毀時(shí)做BrowserUse操作的后處理。Browser

Use

FunctionAI

Agent

Self

Runtimeon

函數(shù)計(jì)算

依托函數(shù)計(jì)算FC的生命周期管理能力，通過(guò)prestop鉤子函數(shù)做Browser

Use收集數(shù)據(jù)的后處理操作。RLSandbox有一些基?？蛻艋蜃鐾ㄓ肁I

Agent的客戶，會(huì)專注在垂直類(lèi)場(chǎng)景，這類(lèi)客戶會(huì)針對(duì)特定場(chǎng)景對(duì)LLM或AI

Agent算法做定向強(qiáng)化學(xué)習(xí)。容器鏡像服務(wù)ACR提前生產(chǎn)題庫(kù)，構(gòu)建鏡像，上傳ACRAI

Agent

安全性：Agent在訓(xùn)練初期的行為往往是隨機(jī)且不可預(yù)測(cè)的。在沙箱中，錯(cuò)誤的決策不會(huì)造成任何實(shí)際損失。流程式從ACR拉取鏡像問(wèn)題分類(lèi)器節(jié)點(diǎn)函數(shù)計(jì)算節(jié)點(diǎn)LLM節(jié)點(diǎn)高效率與可復(fù)現(xiàn)性：沙箱環(huán)境可快速拉起，快速?gòu)?fù)制相同的環(huán)境，讓Agent在短時(shí)間內(nèi)經(jīng)歷海量的訓(xùn)練。同時(shí)，研發(fā)可以精確控制每個(gè)環(huán)境的每一個(gè)變量，從而能夠復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果，進(jìn)行可靠的對(duì)比分析。

采集數(shù)據(jù)節(jié)點(diǎn)題庫(kù)-1

函數(shù)AIStudio用戶發(fā)起強(qiáng)化學(xué)習(xí)請(qǐng)求

降低成本：不希望過(guò)多維護(hù)IaaS資源，隨用隨拉起，并且強(qiáng)化學(xué)習(xí)也不是實(shí)時(shí)業(yè)務(wù)，如何最大限度提升資源利用率也是降低成本的優(yōu)化手段。題庫(kù)-2

函數(shù)編碼式…推理行動(dòng)觀察運(yùn)行環(huán)境完整性：沙箱環(huán)境不要有太多限制和約束，期望和一臺(tái)Linux機(jī)器一樣去使用。甚至可以設(shè)置一些系統(tǒng)級(jí)參數(shù)。自省

Agent

Self

Runtimeon

函數(shù)計(jì)算題庫(kù)-N

函數(shù)RLSer

verSim

Sandbox仿真訓(xùn)練Sandbox場(chǎng)景目前主要聚焦在具身智能場(chǎng)景。具身智能仿真訓(xùn)練基本流程：

使用NV

Omniverse提供的可視化界面，構(gòu)建虛擬環(huán)境，準(zhǔn)備環(huán)境數(shù)據(jù)。

構(gòu)建好仿真環(huán)境和數(shù)據(jù)后，生成任務(wù)包，將任務(wù)包分發(fā)到GPU服務(wù)跑訓(xùn)練任務(wù)。該服務(wù)使用的框架大多數(shù)也是NV

Omniverse里的Isaac

Sim。分發(fā)任務(wù)的邏輯通常會(huì)使用Airflow，且Airflow的流程是比較簡(jiǎn)單的。

GPU服務(wù)跑完訓(xùn)練任務(wù)后，狀態(tài)會(huì)回調(diào)Airflow，由Airflow統(tǒng)一來(lái)展示這次任務(wù)的執(zhí)行結(jié)果。任務(wù)包存儲(chǔ)類(lèi)型NAS

函數(shù)計(jì)算FC需要支持IsaacSim/IsaaC

Lab環(huán)境，OSS既可以一鍵拉起Isaac

Sim應(yīng)用（類(lèi)似一鍵拉起ComfyUI應(yīng)用一個(gè)邏輯），會(huì)落在FunctionAI應(yīng)用中。任務(wù)包上傳存儲(chǔ)函數(shù)計(jì)算支持異步任務(wù)管理內(nèi)置隊(duì)列，任務(wù)排隊(duì)任務(wù)狀態(tài)透明且可控制完善的回調(diào)機(jī)制

使用函數(shù)計(jì)算FC異步任務(wù)邏輯，天然具備任務(wù)管理能力，客戶根據(jù)持有的卡數(shù)發(fā)任務(wù)即可，沒(méi)卡的任務(wù)在隊(duì)列里排隊(duì)等待。任務(wù)的狀態(tài)，回調(diào)機(jī)制都使用函數(shù)計(jì)算FC自身的能力。

函數(shù)計(jì)算FC除了支持CPU以外，也支持GPU，且適配了大多數(shù)常用卡型，如T4，A10，409024GB，4090

48GB，L20，H20，PPU。

函數(shù)計(jì)算FC異步任務(wù)和CloudFlow結(jié)合，將客戶復(fù)雜的分發(fā)流程使用CloudFlow做構(gòu)建。OmniverseIsaac

Lab從存儲(chǔ)拿任務(wù)包異步請(qǐng)求構(gòu)建仿真環(huán)境生成任務(wù)包IaacSim

FunctionGPU

函數(shù)支持PPU，H20，L20，4090，A10，T4簡(jiǎn)單的編排調(diào)度復(fù)雜的編排調(diào)度開(kāi)源Airflow阿里云

CloudFlow云原生API網(wǎng)關(guān)&AI網(wǎng)關(guān)介紹06云原生API網(wǎng)關(guān)簡(jiǎn)介

流量網(wǎng)關(guān)、API網(wǎng)關(guān)，微服務(wù)網(wǎng)關(guān)、AI網(wǎng)關(guān)、MCP網(wǎng)關(guān)多合一

統(tǒng)一東西南北向流量

集成

F，內(nèi)容安全數(shù)據(jù)面

集成

領(lǐng)域

LLM，MCP安全防護(hù)WAF流量防護(hù)開(kāi)放平臺(tái)流量網(wǎng)關(guān)IngressAPI

網(wǎng)關(guān)WAF3.0服務(wù)發(fā)現(xiàn)服務(wù)治理微服務(wù)網(wǎng)關(guān)（SpringCloud

Gateway）Pod

PodPod

PodLLM

LLM南北向流量東西向流量AI

流程PodPodK8sK8sPAIK8s傳統(tǒng)網(wǎng)關(guān)模式新一代網(wǎng)關(guān)模式差異化競(jìng)爭(zhēng)力：服務(wù)治理、API管理、LLM管理、MCP管理

+基本競(jìng)爭(zhēng)力：高性能、高可用、零信任、易擴(kuò)展云原生API網(wǎng)關(guān)在應(yīng)用架構(gòu)的核心作用

–

鏈接生態(tài)瀏覽器/APP用戶云原生

API

網(wǎng)關(guān)（流量網(wǎng)關(guān)+API網(wǎng)關(guān)）前臺(tái)應(yīng)用MCP

Ser

verMCP

Ser

ver云原生

API

網(wǎng)關(guān)（微服務(wù)網(wǎng)關(guān)）AI網(wǎng)關(guān)A中臺(tái)應(yīng)用云原生API網(wǎng)關(guān)

–

流量網(wǎng)關(guān)手機(jī)APPBrowserIOT

支持

K8s

/Nacos

等主流服務(wù)發(fā)現(xiàn)

深度集成函數(shù)計(jì)算FC

兼容

DNS

/ECS

老的模式K8s

生態(tài)微云原生API網(wǎng)關(guān)

安全防護(hù)

流量防護(hù)安全防護(hù)流量防護(hù)規(guī)則熱更新

/多語(yǔ)言插件擴(kuò)展WAF防護(hù)認(rèn)證鑒權(quán)黑白名單服務(wù)限流API限流IP限流默認(rèn)插件（30+）API-ServerN

路由/策略更熱更新

證書(shū)熱更新路由規(guī)則

熱更新策略

熱更新WASM（多語(yǔ)言擴(kuò)展）

插件熱更新

支持灰度，且支持全鏈路灰度

支持藍(lán)綠

支持灰度觀測(cè)能力主動(dòng)隔離異常節(jié)點(diǎn)50%

流量50%

流量90%

流量10%

流量-預(yù)熱100%

流量

服務(wù)下線前提前隔離流量，再停應(yīng)用

服務(wù)上線打10%流量預(yù)熱App（V1）APP（V2）APP（運(yùn)行中）APP（下線中）APP（上線中）APP（健康）APP（不灰度（全鏈路灰度）/藍(lán)綠優(yōu)雅下線

/服務(wù)預(yù)熱主動(dòng)健康檢查

隔離異常節(jié)點(diǎn)云原生API網(wǎng)關(guān)

–

API

網(wǎng)關(guān)API

First（前后端分離并發(fā)開(kāi)發(fā)）

/API

防護(hù)（默認(rèn)安全/高可用）

API

貨幣化（擴(kuò)大生態(tài)做營(yíng)收）API貨幣化（開(kāi)放平臺(tái)）權(quán)限管理額度管理API計(jì)量API計(jì)費(fèi)APP管理智能化

AI輔助API設(shè)計(jì)

AIMock

數(shù)據(jù)

AI生成端代碼

AI測(cè)試/

診斷API防護(hù)（策略管理）策略豐富

內(nèi)置10+

系統(tǒng)策略安全防護(hù)流控跨域超時(shí)重試重寫(xiě)

支持30+

插件策略

支持自定義策略（多語(yǔ)言）開(kāi)源開(kāi)放

支持Swagger（

OAS

標(biāo)準(zhǔn)）

支持Ingress/

GatewayAPI

開(kāi)源Higress

無(wú)廠商鎖定API

First（并發(fā)提效）API設(shè)計(jì)API文檔API

Mock端代碼生成API

測(cè)試AI網(wǎng)關(guān)通義/百煉

/PAI

內(nèi)置

AI網(wǎng)關(guān)，每天億級(jí)多模態(tài)請(qǐng)求生產(chǎn)驗(yàn)證AI開(kāi)發(fā)插件集AI安全防護(hù)Model服務(wù)管理LLM緩存協(xié)議轉(zhuǎn)換提示詞模板提示詞裝飾器請(qǐng)求/響應(yīng)轉(zhuǎn)換內(nèi)容審核/AI安全護(hù)欄Token限流AI

AgentClaude

DesktopClineAI代多APIKey管理理插件Token配額插件FallbackCursor通義靈碼向量檢索Agent

管理MCP

管理Custom

Agent百煉AgentDify/AIStudio自定義AgentMCP服務(wù)代理第三方

MCP

Server

市場(chǎng)企業(yè)級(jí)

MCP

Server

市場(chǎng)MCP服務(wù)協(xié)議轉(zhuǎn)換MCP服務(wù)身份認(rèn)證MCP服務(wù)動(dòng)態(tài)發(fā)現(xiàn)可觀測(cè)AI統(tǒng)計(jì)可用性告警LLM/MCP/Agent訪問(wèn)日志Token消耗AI網(wǎng)關(guān)典型場(chǎng)景&客戶功能域詳細(xì)功能業(yè)務(wù)場(chǎng)景客戶

消費(fèi)者認(rèn)證消費(fèi)者精細(xì)化管理

消費(fèi)者限流精確管控企業(yè)內(nèi)部、外部用戶使用LLM的方式，基于請(qǐng)求方的特征決定使用哪個(gè)LLM，可以使用多少Token。

基于請(qǐng)求標(biāo)識(shí)切換模型汽車(chē)寶馬小鵬

深藍(lán)汽車(chē)蔚來(lái)運(yùn)滿滿

多模型廠商統(tǒng)一代理多模型統(tǒng)一管理

多API

Key管理統(tǒng)一管理多個(gè)LLM服務(wù)商，也包括自建LLM服務(wù)，通過(guò)多API

Key管理擴(kuò)展TPM限制，可以基于業(yè)務(wù)場(chǎng)景通過(guò)模型名稱快速切換模型，比如按用戶級(jí)別，按業(yè)務(wù)領(lǐng)域等。

多模型切換（按模型名稱，按流量）SaaS

LLM服務(wù)Fallback

LLM服務(wù)健康檢查

Token級(jí)別限流增加LLM服務(wù)的健壯性，當(dāng)主LLM服務(wù)不可用時(shí)告警通知并自動(dòng)Fallback到備用LLM服務(wù)，通過(guò)Token級(jí)別的限流保護(hù)下游LLM服務(wù)的穩(wěn)定性。聚水潭暢捷通千里馬網(wǎng)信

眾陽(yáng)健康模型高可用

請(qǐng)求/響應(yīng)內(nèi)容檢查

IP黑白名單/全局認(rèn)證鑒權(quán)（支持對(duì)接自有認(rèn)證服務(wù)）互娛/營(yíng)銷(xiāo)零售/教育AI/游戲?qū)ν评淼妮斎牒洼敵鲎鰞?nèi)容安全檢查，通過(guò)IP黑白名單做請(qǐng)求方的管控，并且可以快捷對(duì)接客戶自有的認(rèn)證服務(wù)快速做集成，當(dāng)有非預(yù)期流量時(shí)也可以通過(guò)限流熔斷機(jī)制保護(hù)下游服務(wù)。字節(jié)跳動(dòng)

今日相機(jī)

微能科技藍(lán)色光標(biāo)企業(yè)級(jí)安全管理

限流降級(jí)熔斷

聯(lián)網(wǎng)搜索

推理結(jié)果緩存

更多認(rèn)證、鑒權(quán)機(jī)制通過(guò)插件機(jī)制實(shí)現(xiàn)客戶定制化的需求，應(yīng)對(duì)更多業(yè)務(wù)場(chǎng)景，比如通過(guò)插件機(jī)制實(shí)現(xiàn)的推理時(shí)聯(lián)網(wǎng)搜索，推理結(jié)果緩存，流式輸出轉(zhuǎn)非流式，更多的鑒權(quán)機(jī)制等。靈活擴(kuò)展能力（插件機(jī)制）麥當(dāng)勞可口可樂(lè)

好未來(lái)新東方庫(kù)迪咖啡清博智能提供了模型維度，消費(fèi)者維度，LLM服務(wù)維度的Token消耗指標(biāo)，可供客戶做成本管理。還提供了AI場(chǎng)景特有的監(jiān)控指標(biāo)，比如流式/非流式的RT，首Token

RT等。另外更詳細(xì)的推理信息也都保存在日志服務(wù)中，可供查詢。

各維度Token消耗AI場(chǎng)景觀測(cè)體系

LLM服務(wù)各性能指標(biāo)

LLM請(qǐng)求日志地平線

鹿客科技

在線途游

英雄互娛

MCP

Server代理

普通服務(wù)轉(zhuǎn)MCP

Server

MCP

Server組裝

MCP

Server/MCP

Tool描述信息管理

MCP

Server動(dòng)態(tài)發(fā)現(xiàn)（結(jié)合Nacos）作為MCP

Hub統(tǒng)一管理MCP

Server，可以快速將現(xiàn)存的傳統(tǒng)服務(wù)0代碼改造的轉(zhuǎn)換為MCP

Server，也可以代理基于MCP

SDK開(kāi)發(fā)的MCP

Server，并且在網(wǎng)關(guān)側(cè)可以進(jìn)一步組裝MCP

Server。MCP

Server統(tǒng)一管理（MCP

Hub）奪暢網(wǎng)絡(luò)聚水潭運(yùn)滿滿及刻云原生API網(wǎng)關(guān)

–

內(nèi)部實(shí)踐秉承著自己吃自己狗糧的原則，云原生API網(wǎng)關(guān)在阿里集團(tuán)內(nèi)部已經(jīng)有很多業(yè)務(wù)在深度使用，在企業(yè)級(jí)產(chǎn)品能力，穩(wěn)定性，性能方面已經(jīng)有多個(gè)大體量業(yè)務(wù)的背書(shū)。通義App云原生API網(wǎng)關(guān)云原生API網(wǎng)關(guān)業(yè)務(wù)Server業(yè)務(wù)Server業(yè)務(wù)網(wǎng)關(guān)業(yè)務(wù)網(wǎng)關(guān)Model云原生API網(wǎng)關(guān)作為流量網(wǎng)關(guān)，白屏操作

支持長(zhǎng)連接SSE/WebSocket，熱更新對(duì)長(zhǎng)連接流量無(wú)損云原生API網(wǎng)關(guān)作為流量網(wǎng)關(guān)，白屏操作

支持長(zhǎng)連接SSE/WebSocket，熱更新對(duì)長(zhǎng)連接流量無(wú)損云原生API網(wǎng)關(guān)作為AI網(wǎng)關(guān)，通過(guò)Ingress集成PA

I的管控

支持1W+

超大路由/域名規(guī)模場(chǎng)景，

多租共享集群模式，切換到Higress后路由配置生效RT從原10分鐘降到30秒內(nèi)

構(gòu)建完善可觀測(cè)體系

支持流式傳輸，滿足AI大帶寬/高延時(shí)特性訴求

支持多種安全認(rèn)證與限流防護(hù)

支持流式傳輸，滿足AI大帶寬/高延時(shí)特性訴求

高可用，99.999%

SLAAI

應(yīng)用AI模型服務(wù)平臺(tái)AI

模型AI網(wǎng)關(guān)代理LLM最佳實(shí)踐07LLM生產(chǎn)項(xiàng)目中客戶必然遇到的問(wèn)題41安全合規(guī)問(wèn)題成本平衡問(wèn)題部署DeepSeek

671B滿血版模型，至少需要2臺(tái)8卡H20機(jī)器，列表價(jià)年度超過(guò)100W，但2臺(tái)的TPS有限，無(wú)法滿足生產(chǎn)部署中多個(gè)用戶的并發(fā)請(qǐng)求，需要有方案找到TPS和成本之間的平衡點(diǎn)企業(yè)客戶需要對(duì)問(wèn)答過(guò)程做審計(jì)，確保合規(guī)，減少使用風(fēng)險(xiǎn)。56模型服務(wù)高可用問(wèn)題23模型幻覺(jué)問(wèn)題自建平臺(tái)性能達(dá)到瓶頸時(shí)需要有一個(gè)大模型兜底方案，提升客戶大模型使用體驗(yàn)。即使是671B的DS

R1，如果沒(méi)有聯(lián)網(wǎng)搜索，依然有很?chē)?yán)重的幻覺(jué)問(wèn)題。多模型切換問(wèn)題閉源模型QPS/Token限制問(wèn)題商業(yè)大模型都有基于API

Key維度的QPS/Token配額限制，需單一模型服務(wù)有較大的風(fēng)險(xiǎn)和局限性，比如穩(wěn)定性風(fēng)險(xiǎn)，比如無(wú)法根據(jù)業(yè)務(wù)（消費(fèi)者）選擇最優(yōu)模型。目前也沒(méi)有開(kāi)源組件和框架解決這類(lèi)問(wèn)題。要一個(gè)好的方式能夠做到快速擴(kuò)展配額限制。AI網(wǎng)關(guān)代理LLMs方案開(kāi)源

LLMs（PAI）②

模型切換①

消費(fèi)者認(rèn)證⑦

聯(lián)網(wǎng)搜索consumer_id10

多種路由規(guī)則配置AIAgentapi_key⑥

結(jié)果緩存ai_agent_consumer_idai_agent_api_key④

FallbackBackend

Servicebackend_service_consumer_idbackend_service_api_keyAI網(wǎng)關(guān)LLMsAPI（百煉）③

api_key_1api_key_2api_key_3…⑨

LLM可觀測(cè)⑧

限流降級(jí)⑤

內(nèi)容安全AI安全護(hù)欄OpenAI

Clientopenai_client_consumer_idopenai_client_api_key云原生AI網(wǎng)關(guān)代理LLMs方案的核心收益部署開(kāi)源

DeepSeek-R1

671B趨勢(shì)IDC

部署至少

2臺(tái)

8卡

H2015TPS15Output

Token

/S100w+

/年成本&性能面臨的問(wèn)題LLM

可觀測(cè)，應(yīng)用、網(wǎng)關(guān)、后端LLM服務(wù)的全鏈路（貼合LLM推理的指標(biāo)）需要在TPS和成本之間找到平衡點(diǎn)，不可能無(wú)限增加資源沒(méi)有聯(lián)網(wǎng)搜索，DS-R1

671B

幻覺(jué)依然很大多LLM路由LLM

FallbackToken維度限流降級(jí)聯(lián)網(wǎng)搜索貼合LLM的可觀測(cè)

客戶分級(jí)，高等級(jí)客戶到DS，低等級(jí)客戶酌情到其他LLM提供豐富的判斷條件、限流規(guī)則、限流范圍

通過(guò)AI

Proxy插件，接入聯(lián)網(wǎng)搜索Tool（API）

訪問(wèn)日志，其中的ai_log字段可以自動(dòng)打印大語(yǔ)言模型的輸入、輸出。收益

通過(guò)Fallback，增加業(yè)務(wù)延續(xù)性

業(yè)務(wù)功能分級(jí)，核心能力到DS，非核心能力酌情到其他LLM通過(guò)限流保證后端資源穩(wěn)定性

默認(rèn)支持簡(jiǎn)單聯(lián)網(wǎng)搜索

大語(yǔ)言模型的metrics信息：

首字延時(shí)（TTFT-Time

ToFirst

Token）,

tokens

per

second。

靈活擴(kuò)展接入更高階的聯(lián)網(wǎng)搜索解決用戶管理失控問(wèn)題核心問(wèn)題1：我以什么樣的方式將LLM服務(wù)和能力暴露給大家呢？解法：OpenAI

API的協(xié)議基本已經(jīng)是標(biāo)準(zhǔn)協(xié)議，目前市場(chǎng)面上幾乎所有的LLM都支持OpenAI

API協(xié)議。所以提供遵循OpenAI

API協(xié)議的HTTP接口就可以讓企業(yè)員工通過(guò)各種方式使用LLM服務(wù)和能力。核心問(wèn)題2：企業(yè)內(nèi)部部署DeepSeek

滿血版，公司好幾千人，但GPU資源有限，如何限制用戶？解法：AI

接口一旦暴露出去，基本上不可能只讓一小部分人知道，所以需要對(duì)訪問(wèn)LLM服務(wù)的用戶做以限制，只讓能訪問(wèn)的人訪問(wèn)，不能訪問(wèn)的人即便知道了接口也無(wú)法訪問(wèn)。12創(chuàng)建消費(fèi)者消費(fèi)者授權(quán)API

Key

管理

一個(gè)消費(fèi)者可以對(duì)應(yīng)一個(gè)個(gè)人，也可以對(duì)應(yīng)一個(gè)團(tuán)隊(duì)、一個(gè)組織等。

每個(gè)消費(fèi)者會(huì)有對(duì)應(yīng)的API

Key。一個(gè)消費(fèi)者可以生成多個(gè)API

Key。根據(jù)不同的情況管理API

Key，比如新增或重置。

給消費(fèi)者分配可以訪問(wèn)哪些LLM服務(wù)接口。建議建議建議

可以通過(guò)云原生API網(wǎng)關(guān)的OpenAPI，將申請(qǐng)消費(fèi)者的流程接入企業(yè)的審批流

可以將一個(gè)消費(fèi)者對(duì)應(yīng)到一個(gè)團(tuán)隊(duì)或一個(gè)項(xiàng)目組，根據(jù)具體業(yè)務(wù)分配不同的LLM服務(wù)接口權(quán)限。

定期重置API

Key，并通知到使用方，避免API

Key泄漏后造成損失。

API

Key的分發(fā)也可以通過(guò)審批流分發(fā)消費(fèi)者鑒權(quán)認(rèn)證云原生API網(wǎng)關(guān)支持全局認(rèn)證、路由配置認(rèn)證和消費(fèi)者鑒權(quán)，以實(shí)現(xiàn)對(duì)API訪問(wèn)的控制、安全性和策略管理，確保只有授權(quán)的請(qǐng)求才能訪問(wèn)服務(wù)。

身份可信：確保請(qǐng)求方為注冊(cè)/授權(quán)用戶或系統(tǒng)。

風(fēng)險(xiǎn)攔截：防止惡意攻擊、非法調(diào)用與資源濫用。生成

API

Key授權(quán)

API

Key驗(yàn)證

API

Key

合規(guī)保障：滿足數(shù)據(jù)安全法規(guī)及企業(yè)審計(jì)要求。

成本控制：基于鑒權(quán)實(shí)現(xiàn)精準(zhǔn)計(jì)費(fèi)與API配額管理。

給API

Key授權(quán)可以訪問(wèn)的接口。

授權(quán)范圍不局限在AI接口，可以是網(wǎng)關(guān)上管理的所有接口/路由。

基于API

Key方式，

支持系統(tǒng)簽發(fā)。

支持自定義。請(qǐng)求驗(yàn)證API

Key有效性。

支持多種：

Authorization

HTTP

Header

Query參數(shù)

第三方應(yīng)用接入：

挑戰(zhàn)：開(kāi)發(fā)者身份混雜，權(quán)限難隔離。

解決方案：為每個(gè)應(yīng)用分配獨(dú)立API

Key，綁定細(xì)粒度權(quán)限策略。12345

企業(yè)內(nèi)部服務(wù)調(diào)用：

挑戰(zhàn)：內(nèi)網(wǎng)環(huán)境仍需防越權(quán)訪問(wèn)。

解決方案：API

Key

IP白名單雙重驗(yàn)證，限制訪問(wèn)范圍。分發(fā)

API

Key開(kāi)啟消費(fèi)者授權(quán)

付費(fèi)用戶API訪問(wèn)：

消費(fèi)者授權(quán)是接口/路由級(jí)別，默認(rèn)關(guān)閉，需要手動(dòng)開(kāi)啟。

需客戶通過(guò)安全通道

挑戰(zhàn)：防止Key泄露導(dǎo)致超額調(diào)用。

解決方案：針對(duì)API

Key限流。

跨云/混合部署：交付消費(fèi)者

挑戰(zhàn)：異構(gòu)環(huán)境統(tǒng)一身份管理。

解決方案：集中式API

Key管理平臺(tái)，支持多集群同步鑒權(quán)。解決同一域名訪問(wèn)不同模型的問(wèn)題核心問(wèn)題1：公司GPU資源有限，部署了滿血版DeepSeek

R1，還有其他一些小模型以及使用百煉的模型服務(wù)，現(xiàn)在域名都不統(tǒng)一，分發(fā)、管理、集成的成本都很高，如何使用同一個(gè)域名來(lái)訪問(wèn)不同的模型？解法：

滿血DS

R1和其他模型或者閉源LLM

API服務(wù)共存，保持同一個(gè)API接口，不同業(yè)務(wù)通過(guò)請(qǐng)求中的模型名稱，切換不同的模型。

滿血DS

R1和其他模型或者閉源LLM

API服務(wù)共存，保持同一個(gè)API接口，不同業(yè)務(wù)通過(guò)請(qǐng)求中（Header，Cookie等）攜帶的業(yè)務(wù)標(biāo)識(shí)，匹配到不同的模型。同一個(gè)API請(qǐng)求不同模型12AI

API代理多

同一個(gè)API，不同業(yè)務(wù)傳入不同的model

name，即可實(shí)現(xiàn)模型切換。維護(hù)多個(gè)模型服務(wù)個(gè)模型服務(wù)

無(wú)論是PAI上部署的，IDC部署的，還是閉源LLM

API，都可以作為模型服務(wù)被維護(hù)在AI網(wǎng)關(guān)。

使用多模型服務(wù)類(lèi)型創(chuàng)建AI

API，在一個(gè)AIAPI中可以添加多個(gè)模型服務(wù)。建議

模型名稱通過(guò)Glob語(yǔ)法進(jìn)行匹配。

優(yōu)先推薦使用模型名稱匹配切換的模式，更遵循OpenAI協(xié)議。模型切換AI網(wǎng)關(guān)支持基于模型名稱做不同后端模型的切換，實(shí)現(xiàn)同一個(gè)接口對(duì)接多種LLM服務(wù)（百煉，PAI，IDC）。model=deepseek-r1基于OpenAI協(xié)議，Body中帶有model名稱

業(yè)務(wù)需求適配：根據(jù)業(yè)務(wù)復(fù)雜性或性能要求選擇不同模型。AIAgent

數(shù)據(jù)隱私與合規(guī)性：在處理敏感數(shù)據(jù)時(shí)，可能需要切換到符合特定法規(guī)的模型，確保數(shù)據(jù)處理的安全性。

性能優(yōu)化：根據(jù)實(shí)時(shí)性能需求，可能會(huì)切換到更快的模型以減少延遲。

成本與性能平衡：根據(jù)預(yù)算動(dòng)態(tài)選擇性價(jià)比最優(yōu)的模型

領(lǐng)域特定需求：針對(duì)特定領(lǐng)域（如法律、醫(yī)學(xué)），可能需要切換到在相關(guān)領(lǐng)域微調(diào)過(guò)的模型，以提高推理準(zhǔn)確性。

容災(zāi)與故障轉(zhuǎn)移：主模型服務(wù)異常時(shí)快速切換備用模型。AI網(wǎng)關(guān)Backend

ServiceOpenAI

Client模型

API

配置：model=qwen-max

多模型服務(wù)（按模型名稱）

模型名稱使用Glob語(yǔ)法匹配模型，如model-*，model-?解決LLM托管平臺(tái)/閉源LLMQPM/Token限制的問(wèn)題核心問(wèn)題：我們使用LLM托管平臺(tái)上提供的DS

671B

模型的API，但是有QPM和TPM的配額限制，不能滿足業(yè)務(wù)需求，但是每次升配很麻煩。解法：

目前所有的模型托管平臺(tái)都有QPM和TPM的限制，并且有些平臺(tái)是很難升配這個(gè)限制的，所以大多數(shù)用戶都會(huì)選擇申請(qǐng)多個(gè)帳號(hào)（API

Key），變相的撐大這個(gè)配額限制，但缺點(diǎn)是在業(yè)務(wù)里管理多個(gè)API

Key是一件很麻煩的事。

對(duì)輸入/輸出內(nèi)容做緩存，減少對(duì)模型服務(wù)的請(qǐng)求次數(shù)以及Token消耗，從而提升業(yè)務(wù)側(cè)的請(qǐng)求性能。23AI

API維度結(jié)果緩存API

Key可實(shí)時(shí)維護(hù)1

AIAPI維度支持將輸入和輸出緩存到Redis，只需要配置Redis地址即可

支持精確匹配

當(dāng)監(jiān)控到API

Key配額水位較高時(shí)，可以實(shí)時(shí)動(dòng)態(tài)添加模型服務(wù)的API

Key。模型服務(wù)支持多API

Key

支持向量化檢索匹配

AI網(wǎng)關(guān)，每個(gè)模型服務(wù)都可以配置多個(gè)API

Key。

每次請(qǐng)求會(huì)輪詢拿API

Key，對(duì)模型服務(wù)做請(qǐng)求。建議建議

在非常垂直類(lèi)的應(yīng)用場(chǎng)景下適合開(kāi)啟結(jié)果緩存，但建議開(kāi)向量化檢索匹配

通過(guò)AI網(wǎng)關(guān)OpenAPI將添加API

Key的行為集成到客戶自己的自動(dòng)化平臺(tái)中。

在非常垂直類(lèi)，問(wèn)題和答案非常固定的應(yīng)用場(chǎng)景下可以開(kāi)精確匹配

在泛業(yè)務(wù)場(chǎng)景下開(kāi)啟結(jié)果緩存可能會(huì)降低推理精度或準(zhǔn)確性，需要結(jié)合業(yè)務(wù)判斷和考量多APIKey

管理AI網(wǎng)關(guān)支持管理多個(gè)不同LLM托管平臺(tái)，閉源LLM的API

Key，突破LLM托管平臺(tái)，閉源LLM的QPS限制。每個(gè)api_key1000QPS上限，維護(hù)N個(gè)api_key便有1000*N

QPS上限不同LLM平臺(tái)或服務(wù)都有api_key維度的QPS上限AIAgent像ChatGPT，豆包這類(lèi)閉源LLM，或者百煉這種托管LLM平臺(tái)，都是以提供API的方式供大家使用LLM的能力，但是受限底層GPU資源的壓力，以及整體平臺(tái)的穩(wěn)定性，每個(gè)用戶都有請(qǐng)求QPS的最大限制（基于平臺(tái)的API

Key的維度），且上調(diào)比較困難。AI網(wǎng)關(guān)自動(dòng)判斷輪轉(zhuǎn)不同服務(wù)的api_keyAI網(wǎng)關(guān)Backend

ServiceOpenAI

Client

突破QPS上限：通過(guò)管理閉源LLM或LLM托管平臺(tái)的多個(gè)API

Key，變相提升QPS上限，提升業(yè)務(wù)性能。AI服務(wù)維度管理API

Key

OpenAI服務(wù)：

openai_api_key_1

openai_api_key_2

openai_api_key_3每個(gè)api_key500QPS上限，維護(hù)N個(gè)api_key便有500*N

QPS上限

百煉服務(wù)：

bailian_api_key_1

bailian_api_key_2

bailian_api_key_3結(jié)果緩存AI網(wǎng)關(guān)提供了擴(kuò)展點(diǎn)，可以將請(qǐng)求和響應(yīng)的內(nèi)容緩存到Redis，提升推理效率。提供預(yù)置策略，接入DashVector做語(yǔ)義化緩存，或接入Redis做精確緩存

提高效率：如果相同的輸入反復(fù)出現(xiàn)，緩存可以避免重復(fù)運(yùn)行模型，從而加快響應(yīng)速度，特別是在處理常見(jiàn)問(wèn)題時(shí)。

降低成本：減少模型調(diào)用次數(shù)可以節(jié)省計(jì)算資源，尤其對(duì)大型模型來(lái)說(shuō)成本較高。AIAgent

保持一致性：緩存確保相同輸入產(chǎn)生相同輸出，有助于測(cè)試和合規(guī)性場(chǎng)景。Backend

ServiceOpenAI

ClientAI網(wǎng)關(guān)模型

API

維度配置結(jié)果緩存策略

一鍵快速開(kāi)啟結(jié)果緩存策略。

支持語(yǔ)義化緩存和精確緩存。

支持緩存鍵生成策略調(diào)整。解決模型服務(wù)高可用的問(wèn)題核心問(wèn)題：我們公司的主力模型是PAI上部署的DS

671B，但GPU資源并不是基于流量峰值儲(chǔ)備的，所以當(dāng)高峰期時(shí)，DS服務(wù)會(huì)請(qǐng)求失敗，有什么辦法可以保證業(yè)務(wù)健壯性？解法：有兩種做法，并且可以搭配使用：

可以構(gòu)建多個(gè)個(gè)兜底模型服務(wù)，如果要保證模型一致，可以主力使用PAI上部署的，兜底使用百煉平臺(tái)提供的。實(shí)現(xiàn)當(dāng)PAI上部署的DS服務(wù)請(qǐng)求失敗時(shí)，F(xiàn)allback到百煉平臺(tái)托管的DS

服務(wù)。從而保證業(yè)務(wù)的連續(xù)性和健壯性。

通過(guò)基于Tokens的限流策略，解決Burst流量，保護(hù)后端模型服務(wù)。12開(kāi)啟AI

API維護(hù)多個(gè)模型服務(wù)開(kāi)啟AI

API限流策略Fallback策略

AIAPI限流策略需要配合Redis實(shí)現(xiàn)，但是只需要開(kāi)通Redis和在AI網(wǎng)關(guān)側(cè)配置即可。

無(wú)論是PAI上部署的，IDC部署的，還是百煉LLM

API服務(wù)，都可以作為模型服務(wù)被維護(hù)在AI網(wǎng)關(guān)。

AIAPI一鍵開(kāi)啟Fallback策略。

當(dāng)主LLM服務(wù)出現(xiàn)異常后Fallback到指定的其他LLM服務(wù)。

支持多種限流判斷條件：Header，Query參數(shù)，Cookie，消費(fèi)者，客戶端IP

支持配置多個(gè)Fallback模型服務(wù)。LLM服務(wù)FallbackAI網(wǎng)關(guān)支持當(dāng)某LLM服務(wù)請(qǐng)求失敗后，F(xiàn)allback到指定的其他LLM服務(wù)，以保證服務(wù)的健壯性和連續(xù)性。當(dāng)請(qǐng)求自建DeepSeek

異常報(bào)錯(cuò)時(shí)AIAgent當(dāng)主LLM服務(wù)因?yàn)楦鞣N原因出現(xiàn)異常，不能提供服務(wù)時(shí)，網(wǎng)關(guān)側(cè)可以快速將請(qǐng)求Fallback到配置的其他LLM服務(wù)，雖然可能推理質(zhì)量有所下降，但是保證了業(yè)務(wù)的持續(xù)性，爭(zhēng)取了排查主LLM服務(wù)的時(shí)間。AI網(wǎng)關(guān)Backend

ServiceOpenAI

Client

配置多個(gè)Fallback

LLM服務(wù)：通過(guò)管理閉源LLM或LLM托管平臺(tái)的多個(gè)API

Key，變相提升QPS上限，提升業(yè)務(wù)性能。模型API維度配置Fallback策略

開(kāi)啟Fallback：

可以維護(hù)Fallback列表，添加多個(gè)Fallback服務(wù)。

可以維護(hù)每個(gè)FallbackLLM服務(wù)的順序?；赥oken維度的限流降級(jí)除了傳統(tǒng)的QPS限流降級(jí)以外，AI網(wǎng)關(guān)支持更貼合LLM推理場(chǎng)景的Token維度的限流能力。

成本管理：LLM的費(fèi)用通常基于Token數(shù)量計(jì)算，限流幫助用戶避免超支。例如，服務(wù)提供商可能按Token使用量提供不同定價(jià)層。

資源管理：LLM需要大量計(jì)算資源，限流防止系統(tǒng)過(guò)載，確保所有用戶都能獲得穩(wěn)定性能，尤其在高峰期。AIAgent

用戶分層：可以基于ConsumerId或者APIKey進(jìn)行Token限流。

防止惡意使用：通過(guò)限制Token數(shù)量來(lái)減少垃圾請(qǐng)求或攻擊。Backend

ServiceOpenAI

ClientAI網(wǎng)關(guān)

判斷條件：

支持按請(qǐng)求Header判斷。

支持按請(qǐng)求Query參數(shù)判斷。

支持按請(qǐng)求Cookie判斷。

支持按客戶端IP判斷。

限流規(guī)則：模型

API

維度配置限流策略

快速配置模型API維度的限流策略。

配置基于Token的限流策略，可以添加多條限流策略。

精確匹配。

提供豐富的判斷條件、限流規(guī)則、限流范圍。

前綴匹配。

正則匹配。

任意匹配。

限流范圍：每秒、每分鐘、每小時(shí)、每天。解決安全合規(guī)的問(wèn)題核心問(wèn)題：模型托管平臺(tái)自帶好幾層內(nèi)容安全審核機(jī)制，但是我們?cè)贗DC部署或者在PAI部署的，如何能方便的接入內(nèi)容安全審核服務(wù)？解法：AI網(wǎng)關(guān)中的AI

API集成了阿里云的內(nèi)容安全防護(hù)服務(wù)，可以一鍵開(kāi)啟。安全防護(hù)的規(guī)則還是要在內(nèi)容安全服務(wù)側(cè)配置。

支持請(qǐng)求內(nèi)容檢測(cè)。

支持響應(yīng)內(nèi)容檢測(cè)。內(nèi)容安全AI網(wǎng)關(guān)和內(nèi)容安全集成，在網(wǎng)關(guān)側(cè)實(shí)現(xiàn)基于阿里云內(nèi)容安全檢測(cè)大模型的輸入輸出，保障AI應(yīng)用內(nèi)容合法合規(guī)。

防止攻擊：驗(yàn)證輸入可以阻止惡意提示注入，防止模型生成有害內(nèi)容。

維護(hù)模型完整性：避免輸入操縱模型，導(dǎo)致錯(cuò)誤或偏見(jiàn)輸出。

用戶安全：確保輸出沒(méi)有有害或誤導(dǎo)性內(nèi)容，保護(hù)用戶免受不良影響。集成阿里云內(nèi)容安全/AI安全護(hù)欄AIAgent

內(nèi)容適度：過(guò)濾掉不適當(dāng)?shù)膬?nèi)容，如仇恨言論或不雅語(yǔ)言，特別是在公共應(yīng)用中。

法律合規(guī)：確保輸出符合法律和倫理標(biāo)準(zhǔn)，尤其在醫(yī)療或金融領(lǐng)域。Backend

ServiceOpenAI

ClientAI網(wǎng)關(guān)模型API維度配置內(nèi)容安全策略

一鍵快速開(kāi)啟內(nèi)容安全防

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

AI行業(yè)市場(chǎng)前景及投資研究報(bào)告：AI應(yīng)用（AI Agent）開(kāi)發(fā)新范式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔