AI行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI應(yīng)用(AI Agent)開(kāi)發(fā)新范式_第1頁(yè)
AI行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI應(yīng)用(AI Agent)開(kāi)發(fā)新范式_第2頁(yè)
AI行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI應(yīng)用(AI Agent)開(kāi)發(fā)新范式_第3頁(yè)
AI行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI應(yīng)用(AI Agent)開(kāi)發(fā)新范式_第4頁(yè)
AI行業(yè)市場(chǎng)前景及投資研究報(bào)告:AI應(yīng)用(AI Agent)開(kāi)發(fā)新范式_第5頁(yè)
已閱讀5頁(yè),還剩121頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI

應(yīng)用(AI

Agent)開(kāi)發(fā)新AI

應(yīng)用概述01從“工具”到“智能伙伴”的進(jìn)化被動(dòng)的命令處理工具智AIAgent+LLM的雙引擎模式AI

應(yīng)用

:AI

Agent

+

LLM

雙引擎LLM扮演著認(rèn)知核心,也就是“大腦”的角色。它負(fù)責(zé)處理所有與“思考”相關(guān)的任務(wù):

理解意圖:當(dāng)用戶用自然語(yǔ)言提出復(fù)雜需求時(shí),LLM負(fù)責(zé)精準(zhǔn)地理解其背后的真實(shí)意圖。

規(guī)劃任務(wù):它能將一個(gè)模糊的目標(biāo)(如“分析銷(xiāo)售數(shù)據(jù)”)分解成一系列清晰、有序的步驟。LLM規(guī)劃

&指令回饋&自省AI

Agent賦予了LLM“手和腳”,讓“思考”得以轉(zhuǎn)化為“行動(dòng)”。如果說(shuō)LLM負(fù)責(zé)“思考做什么”,那么AI

Agent則負(fù)責(zé)“如何去完成”:

工具調(diào)用:這是AI

Agent最關(guān)鍵的能力。它可以根據(jù)LLM的規(guī)劃,去調(diào)用各種外部工具來(lái)執(zhí)行任務(wù),例如查詢數(shù)據(jù)庫(kù)、調(diào)用公司內(nèi)部系統(tǒng)的API、訪問(wèn)互聯(lián)網(wǎng)、讀寫(xiě)文件等。

任務(wù)執(zhí)行與編排:Agent負(fù)責(zé)管理整個(gè)任務(wù)流程,確保LLM規(guī)劃的步驟被逐一、準(zhǔn)確地執(zhí)行。AI

Agent(執(zhí)行者)

與環(huán)境交互:它能將執(zhí)行結(jié)果(如數(shù)據(jù)庫(kù)查詢返回的數(shù)據(jù))反饋給LLM,供其進(jìn)行下一步的思考和決策,形成一個(gè)“思考-行動(dòng)-觀察-再思考”的閉環(huán)。工具企業(yè)能力的核心

-MCP服務(wù)HR系統(tǒng)財(cái)務(wù)系統(tǒng)MCP服務(wù)AI

Agent企業(yè)CRM系統(tǒng)MCP的出現(xiàn),很好的解決了構(gòu)建AI

Agent技能系統(tǒng)的痛點(diǎn)問(wèn)題:

規(guī)范化了多者的協(xié)同關(guān)系:MCP協(xié)議規(guī)范約束了用戶、AI

Agent、LLM、后端服務(wù)四者之間的系統(tǒng)關(guān)系??头到y(tǒng)

AIAgent和后端服務(wù)快速對(duì)接:無(wú)需后端服務(wù)改造,也無(wú)需AIAgent改造,無(wú)需了解和解析后端服務(wù)接口的返回格式。ERP系統(tǒng)MCP服務(wù)是企業(yè)AI應(yīng)用的基石。它將企業(yè)零散的IT資產(chǎn)和服務(wù),轉(zhuǎn)化為AI可以理解和調(diào)用的標(biāo)準(zhǔn)化能力,從而為上層的AI

Agent源源不斷地輸送技能。構(gòu)建AI應(yīng)用的兩種路徑:全新開(kāi)發(fā)

vs.

存量改造Brand

NewDevelopmentExisting

Business

TransformationOACRMERPSaaS全新開(kāi)發(fā):開(kāi)創(chuàng)業(yè)務(wù)新大陸改造現(xiàn)有業(yè)務(wù):為這指的是從零開(kāi)始,為一個(gè)全新的業(yè)務(wù)場(chǎng)景或顛覆性的產(chǎn)品構(gòu)想,原生設(shè)計(jì)和開(kāi)發(fā)AI應(yīng)用。這種模式不受歷史技術(shù)債務(wù)的束縛,可以采用最先進(jìn)的架構(gòu),最大化地發(fā)揮AIAgent的能力,是實(shí)現(xiàn)顛覆式創(chuàng)新的最佳路徑。例如,打造一個(gè)面向金融行業(yè)的AI研究分析師,或者開(kāi)發(fā)一個(gè)企業(yè)內(nèi)部的“超級(jí)知識(shí)入口”。這是絕大多數(shù)企業(yè)會(huì)選擇的路徑。它指的是在企業(yè)現(xiàn)有的、成熟的核心業(yè)務(wù)系統(tǒng)(如ERP、CRM、SCM)中,嵌入AI

Agent的能力,對(duì)其進(jìn)行“智能化升級(jí)”。這種方式能直接作用于核心業(yè)務(wù)流程,價(jià)值釋放路徑更短、更明確。AI應(yīng)用的核心是

AI

AgentAI

應(yīng)用基礎(chǔ)架構(gòu)AIPrompt

TemplateUniversal

AgentsMulti-Agents多模態(tài)模型InstructionsPlanning/ReasoningPromptModelPlatform-LevelAgents大腦AgentResponse執(zhí)行官Siloed,Single-PurposeAgentsLLMSmarter

models

using

more

toolstoaccomplish

higher

value

tasksMCP

Ser

verAI

觀測(cè)Level

Of

Intelligence技能池AI應(yīng)用架構(gòu)新范式事件驅(qū)動(dòng)MCP

Registry

&Prompt

安全管理定時(shí)/MQ/SLS

/CDN

/DTS

/OSS…MSE

NAI

Agent端

&

生態(tài)Agent代理Model代理/MCP服務(wù)代理AI網(wǎng)關(guān)移動(dòng)端AI網(wǎng)關(guān)AIStudioAToAgent

API

管理Web端智能終端流量防護(hù)AI

Agent

Self

Runtime

on

函數(shù)計(jì)算AI

Agent

Sandbox

on

函數(shù)計(jì)算綠網(wǎng)/敏認(rèn)證鑒權(quán)車(chē)機(jī)終端Cac工具集策略/插件Tools/其他生態(tài)終端WorkFlow

/AI

Framework/

Prompt

/EvaluationOpen

Telemetr

y可觀測(cè)標(biāo)準(zhǔn)協(xié)議AI

應(yīng)用觀測(cè)

&評(píng)估體系LLM

ObservabilityAI應(yīng)用架構(gòu)新范式刨析

一個(gè)AI網(wǎng)關(guān)三種角色,具備統(tǒng)一的管控底座,同時(shí)又實(shí)現(xiàn)各角色的協(xié)同調(diào)度。

MSE

Nacos

發(fā)揮注冊(cè)中心優(yōu)勢(shì),增加MCP

Registry能力,實(shí)現(xiàn)普通服務(wù)和MCP服務(wù)的統(tǒng)一管理,結(jié)合網(wǎng)關(guān)實(shí)現(xiàn)現(xiàn)存業(yè)務(wù)0改造轉(zhuǎn)換為MCP服務(wù)。AIStudio為阿里云自研的低代碼構(gòu)建AI

Agent的產(chǎn)品,解決開(kāi)源Dify高可用,穩(wěn)定性,性能問(wèn)題,使AI

Agent的運(yùn)行引擎更穩(wěn)定。FC具備豐富的觸發(fā)器和各語(yǔ)言運(yùn)行環(huán)境,基于Serverless計(jì)算自身的特性,完美適配AI

Agent自身運(yùn)行環(huán)境和AI

Agent

Sandbox的基礎(chǔ)組件。①用戶向AI應(yīng)用發(fā)起請(qǐng)求,請(qǐng)求流量進(jìn)入AI網(wǎng)關(guān),使用Agent

API代理AIAgent。

AI網(wǎng)關(guān)側(cè)維護(hù)管理了不同類(lèi)型的AIAgent的API或路由規(guī)則,將用戶請(qǐng)求轉(zhuǎn)發(fā)至對(duì)應(yīng)的AI

Agent。③

AIAgent無(wú)論以哪種方式實(shí)現(xiàn),只要它需要使用工具解決用戶的問(wèn)題,便向AI網(wǎng)關(guān)管理的MCP服務(wù)請(qǐng)求獲取可用的MCP服務(wù)及工具的信息。④因?yàn)锳I網(wǎng)關(guān)處可能維護(hù)了很多MCP信息,可以借助LLM縮小MCP范圍,減少Token消耗,所以可以通過(guò)AI網(wǎng)關(guān)代理的小參數(shù)LLM,做意圖識(shí)別,進(jìn)一步縮小MCP服務(wù)范圍。(可選,需用戶自己實(shí)現(xiàn))⑤

AI網(wǎng)關(guān)將確定好范圍的MCP服務(wù)及工具的信息List返回給AI

Agent。⑥

AIAgent將用戶的請(qǐng)求信息及從AI網(wǎng)關(guān)拿到的所有MCP信息再通過(guò)AI網(wǎng)關(guān)發(fā)送給LLM。⑦經(jīng)過(guò)LLM推理后,返回解決問(wèn)題的一個(gè)或多個(gè)MCP服務(wù)和工具的信息。⑧

AIAgent拿到確定的MCP服務(wù)和工具的信息后通過(guò)AI網(wǎng)關(guān)對(duì)該MCP工具做請(qǐng)求。實(shí)際生產(chǎn)中

-

步會(huì)多次循環(huán)交互AI

Agent

概述02什么是

AIAgent大語(yǔ)言模型(LLM)推理一個(gè)AIAgent其實(shí)是一個(gè)系統(tǒng),包括以下三個(gè)核心內(nèi)容:

使用大語(yǔ)言模型(LLM)來(lái)推理

可以通過(guò)工具執(zhí)行各類(lèi)行動(dòng)。AI

Agent通過(guò)工具執(zhí)行行動(dòng)MCP服務(wù)作為技能池

執(zhí)行思考(Think)->

執(zhí)行(Action)->

自省(Observe)->

糾錯(cuò)(既重復(fù)思考到自省的持續(xù)改進(jìn))這樣一個(gè)循環(huán)。AIAgent和Chatbot的最大區(qū)別是前者可以解決需要通過(guò)不同領(lǐng)域的知識(shí)和能力協(xié)同才可以解決的問(wèn)題,通俗的說(shuō)就是復(fù)合的、復(fù)雜的、多步驟的問(wèn)題。執(zhí)行思考(Think)->執(zhí)行(Action)->自?。∣bserve)

->糾錯(cuò)像人一樣的思考機(jī)制AIAgent

的核心組件大腦,既大語(yǔ)言模型(LLM)

作用:識(shí)別自然語(yǔ)言,然后進(jìn)行推理并做出決策。

原則:選擇最合適的大語(yǔ)言模型。(不同的大語(yǔ)言模型有自己擅長(zhǎng)的領(lǐng)域和業(yè)務(wù)場(chǎng)景)記憶,既存儲(chǔ)服務(wù)(NoSQL或向量數(shù)據(jù)庫(kù)實(shí)現(xiàn))

作用:讓Agent記得目標(biāo)、偏好,以及過(guò)往的交互信息,從而實(shí)現(xiàn)多步驟執(zhí)行,自省等能力。記憶里也分長(zhǎng)期記憶和短期記憶。AI

Agent手,既各類(lèi)工具(MCP

Server)

作用:為Agent提供外部能力,各類(lèi)業(yè)務(wù)服務(wù),數(shù)據(jù)庫(kù)服務(wù),存儲(chǔ)服務(wù)等等。既執(zhí)行LLM做出的決策。指令,既系統(tǒng)提示詞(System

Prompt)

作用:定義Agent的目標(biāo)和行為。AIAgent

的推理模式

-ReAct

模式推理(Reason)自?。≧eflect)使用LLM分析、理解上下文,明確用戶任務(wù)目標(biāo)。評(píng)估是否需要繼續(xù)推理->行動(dòng)->觀察以得到更趨近于用戶目標(biāo)的結(jié)果。觀察(Obser

ve)行動(dòng)(Act)評(píng)估執(zhí)行行動(dòng)后得到的結(jié)果?;谕评淼慕Y(jié)果,執(zhí)行對(duì)應(yīng)的行動(dòng)。AIAgent

的構(gòu)建模式與

AIAgent

類(lèi)型編碼式低代碼式

Manual

Coding

LangChain

阿里云AIStudio

阿里云百煉

Dify

LangGraph

OpenAI

AgentsSDK

Ver

texAIAgents

CrewAI

N8N

Pydantic

AI

Spring

AIAlibabaLLM輔助基模(基礎(chǔ)大語(yǔ)言模型)的AI

Agent作為獨(dú)立產(chǎn)品的AI

Agent(通用AI

Agent)輔助現(xiàn)存業(yè)務(wù)的AI

Agent這類(lèi)AI

Agent大都還是基于主流的Chat模式,幫用戶解答問(wèn)題,規(guī)這類(lèi)AI

Agent就是目前廣大互聯(lián)網(wǎng)客戶、泛企業(yè)客戶期望構(gòu)建或正在構(gòu)建中的AI

Agent,和客戶自身的業(yè)務(wù)耦合比較緊密。我們的實(shí)踐中像知乎、運(yùn)滿滿、義烏小百貨等都屬于這一類(lèi),并且以低代碼構(gòu)建方式為主。當(dāng)今基模的聯(lián)網(wǎng)搜索、深度研究(DeepSearch)、編碼能力都是需要AI

Agent輔助的,這類(lèi)AI

Agent并不直接對(duì)用戶透出。我們的實(shí)踐中像Qwen3、智譜GLM等都屬于這一類(lèi),通常都是做基模的公司會(huì)涉及到,并且以編碼方式構(gòu)建為主。劃任務(wù)等。我們的實(shí)踐中像OpenManus、JManus、MiniMaxAgent、昆侖萬(wàn)維等都屬于這一類(lèi),通常都是做基模或者專門(mén)做通用AI

Agent產(chǎn)品的公司會(huì)涉及到,并且以編碼方式構(gòu)建為主。構(gòu)建

AIAgent的核心問(wèn)題如何構(gòu)建企業(yè)級(jí)MCP管理體系?如何解決使用LLM時(shí)面臨的各類(lèi)問(wèn)題?如何選擇和使用AI

Agent最合適的運(yùn)行時(shí)?函數(shù)計(jì)算FC概述03阿里云

函數(shù)計(jì)算FC

是什么函數(shù)計(jì)算是事件驅(qū)動(dòng)的全托管計(jì)算服務(wù)。使用函數(shù)計(jì)算,用戶無(wú)需采購(gòu)與管理服務(wù)器等基礎(chǔ)設(shè)施,只需編寫(xiě)并上傳代碼。函數(shù)計(jì)算為客戶提供了0.05C

128MB到16C32GB不同規(guī)格的CPU實(shí)例和從1GB到48GB不同顯存規(guī)格的GPU實(shí)例,用戶可根據(jù)業(yè)務(wù)需求靈活選擇資源規(guī)格。支持百毫秒級(jí)彈縮,近百種觸發(fā)器類(lèi)型滿足各類(lèi)業(yè)務(wù)場(chǎng)景,并且提供完善的日志、可觀測(cè)、告警能力,是一款應(yīng)用廣泛的高可靠、高可用、高性價(jià)比的計(jì)算服務(wù)。阿里云生態(tài)能力(請(qǐng)求方式)讓函數(shù)執(zhí)行的方式多種多樣對(duì)象存儲(chǔ)日志服務(wù)消息服務(wù)表格存儲(chǔ)被集成云監(jiān)控API網(wǎng)關(guān)CDNEB其他云服務(wù)集成免運(yùn)維極致彈性高彈性細(xì)粒度函數(shù)計(jì)算(運(yùn)行代碼)一站式體驗(yàn)專注業(yè)務(wù)開(kāi)發(fā)極致性能極致成本免運(yùn)維多種運(yùn)行環(huán)境的計(jì)算資源函數(shù)計(jì)算FC云工作流CloudFlow代碼交付鏡像交付客戶業(yè)務(wù)(資源類(lèi)型交付方式)異構(gòu)計(jì)算資源多種交付方式…AI新零售新金融在線教育娛樂(lè)游戲車(chē)聯(lián)網(wǎng)IoT大數(shù)據(jù)函數(shù)計(jì)算

FC

是云產(chǎn)品的連接器函數(shù)計(jì)算FC提供了一種事件驅(qū)動(dòng)的計(jì)算模型,函數(shù)的執(zhí)行是由事件驅(qū)動(dòng)的,函數(shù)的執(zhí)行可以由多種方式(事件源)觸發(fā)業(yè)務(wù)場(chǎng)景定時(shí)觸發(fā)器OSS觸發(fā)器OSS媒體內(nèi)容處理場(chǎng)景音視頻轉(zhuǎn)解碼按照觸發(fā)器集成方式,函數(shù)計(jì)算支持的觸發(fā)器分為以下三類(lèi):

雙向集成觸發(fā)器:您既可以在函數(shù)計(jì)算,又可以在事件源端配置觸發(fā)器。定時(shí)任務(wù)函數(shù)視頻轉(zhuǎn)碼函數(shù)視頻截幀函數(shù)文本文件處理函數(shù)CDN回源函數(shù)數(shù)據(jù)清洗函數(shù)視頻直播推拉流圖片處理NASSLS觸發(fā)器

單向集成觸發(fā)器:目前只支持在事件源端配置觸發(fā)器。IoT物聯(lián)網(wǎng)平臺(tái)文本處理

云產(chǎn)品事件觸發(fā)器:支持在函數(shù)計(jì)算配置觸發(fā)器,同時(shí)支持在CDN觸發(fā)器更多…事件總線EventBridge創(chuàng)建函數(shù)觸發(fā)規(guī)則,無(wú)需在事件源端配置。TableStore觸發(fā)器MNS觸發(fā)器RDS詳細(xì)信息可參考文檔:/document_detail/53102.html大數(shù)據(jù)場(chǎng)景數(shù)據(jù)ETLPolarDB車(chē)聯(lián)網(wǎng)物聯(lián)網(wǎng)更多…函數(shù)計(jì)算

FC

提供了20+核心云產(chǎn)品的原生觸發(fā)器,各觸發(fā)器以白屏化的方式可以在函數(shù)計(jì)算控制臺(tái)快捷配置,幫助用戶快速的構(gòu)建多產(chǎn)品聯(lián)動(dòng)的自動(dòng)化流程。RocketMQ觸發(fā)器Kafka觸發(fā)器MQTT觸發(fā)器RabbitMQ觸發(fā)器ALB觸發(fā)器數(shù)據(jù)轉(zhuǎn)ElasticSearch消息清洗函數(shù)日志處理函數(shù)數(shù)據(jù)采集函數(shù)更多函數(shù)…通過(guò)函數(shù)計(jì)算觸發(fā)器,可以實(shí)現(xiàn)攔截各云產(chǎn)品的行為,用戶可以自定義函數(shù)對(duì)云產(chǎn)品的行為做處理,然后流轉(zhuǎn)到下游服務(wù),從而實(shí)現(xiàn)不同產(chǎn)品之間的集成和聯(lián)動(dòng)。游戲場(chǎng)景消息轉(zhuǎn)換函數(shù)FlinkMaxComputeSAE游戲發(fā)行買(mǎi)量游戲戰(zhàn)斗結(jié)算CDN回源打包更多…請(qǐng)求轉(zhuǎn)發(fā)函數(shù)媒體內(nèi)容處理場(chǎng)景游戲場(chǎng)景大數(shù)據(jù)場(chǎng)景大并發(fā)場(chǎng)景AI推理函數(shù)AI場(chǎng)景AI推理API網(wǎng)關(guān)觸發(fā)器HologresAIGCHTTP觸發(fā)器更多…AIAgent更多…函數(shù)計(jì)算

FC

是云產(chǎn)品的連接器業(yè)務(wù)代碼業(yè)模型服務(wù)開(kāi)發(fā)者框架:

Serverless

Devs命令行工具:

FuncraftMidway

Serverless云效

CI/CDGit

JenkinsTerraform務(wù)側(cè)關(guān)注開(kāi)發(fā)者工具DevOpsAIStudioTerrafrom

PlumiServerlessDevsAI應(yīng)用模板IDE:WEB

IDEVSCODE

插件Open

API/KafkaRocketMQALBOSSSLSTable

StoreCDNEvent

BridgeMNSHTTP

觸發(fā)器SDK觸發(fā)器運(yùn)行時(shí)函數(shù)計(jì)算MQTTCloudFlow定時(shí)觸發(fā)器API

GatewayPythonNode.jsGoJavaPHP實(shí)例類(lèi)型CPU實(shí)例GPU實(shí)例平臺(tái)側(cè)提供(百毫秒彈性)(秒級(jí)彈性)標(biāo)準(zhǔn)日志(SLS)MCP運(yùn)行時(shí)自定義鏡像.Net

Core監(jiān)控告警(云監(jiān)控)資源調(diào)度基礎(chǔ)設(shè)施多租戶隔離安全彈性伸縮負(fù)載均衡流量控制安全容器消息緩存高可用部署跨集群容災(zāi)性能監(jiān)控(ARMS)成本管家神龍服務(wù)器網(wǎng)絡(luò)通信OSS

存儲(chǔ)操作審計(jì)函數(shù)計(jì)算

FC

應(yīng)用場(chǎng)景Serverless

HTTP應(yīng)用場(chǎng)景、Web應(yīng)用場(chǎng)景Serverless

音視頻、圖片、文本處理場(chǎng)景

支持一鍵配置對(duì)象存儲(chǔ)事件監(jiān)聽(tīng),即可實(shí)時(shí)消費(fèi)

OSS

事件,如自定義圖片處理、ZIP文件解壓縮、CDN自動(dòng)刷結(jié)合

API

網(wǎng)關(guān),提供小程序,H5,WEB服務(wù),REST

API

等通用

HTTP

解決方案新、數(shù)據(jù)實(shí)時(shí)同步等

自定義處理邏輯,支持多種編程語(yǔ)言,實(shí)現(xiàn)諸如文本分析、MapReduce等

毫秒級(jí)彈性伸縮,輕松應(yīng)對(duì)負(fù)載的波峰波谷,實(shí)際案例支持10W+級(jí)QPS對(duì)象存儲(chǔ)

OSS圖片存儲(chǔ)函數(shù)計(jì)算

FC后端服務(wù)日志存儲(chǔ)文本存儲(chǔ)?件上傳?件刪除CDN回源…上傳事件刪除事件CDN事件…事件通知?志分析消息分發(fā)…視頻存儲(chǔ)Serverless

游戲場(chǎng)景Serverless

大數(shù)據(jù)ETL場(chǎng)景、車(chē)聯(lián)網(wǎng)場(chǎng)景

將游戲場(chǎng)景中通用的業(yè)務(wù)能力

進(jìn)行抽象,從游戲主服中進(jìn)行剝離,沉淀到統(tǒng)一服務(wù)層,最大化的提升資源利用

支持一鍵配置消息中間件數(shù)據(jù)消費(fèi),無(wú)需額外構(gòu)建消費(fèi)者,如

Kafka

消息備份、日志清洗、聊天消息分發(fā)等

支持自定義處理邏輯,承載多種多樣的業(yè)務(wù)需求率,減少系統(tǒng)維護(hù)工作量和使用成本

函數(shù)計(jì)算接管強(qiáng)

CPU

密集型的戰(zhàn)斗結(jié)算場(chǎng)景,穩(wěn)定應(yīng)對(duì)開(kāi)服、運(yùn)營(yíng)活動(dòng)時(shí)的流量脈沖

支持高可用,支持配置錯(cuò)誤重試函數(shù)計(jì)算

FC?關(guān)服游戲服廣告平臺(tái)函數(shù)計(jì)算

FC觸發(fā)器函數(shù)計(jì)算

FC玩家流量負(fù)載均衡觸發(fā)器觸發(fā)器消費(fèi)數(shù)據(jù)函數(shù)消費(fèi)數(shù)據(jù)函數(shù)接收數(shù)據(jù)函數(shù)接收數(shù)據(jù)函數(shù)日志服務(wù)KafkaElasticSearch?業(yè)務(wù)能?服統(tǒng)?

務(wù)層通剝離,

沉淀到觸發(fā)器函數(shù)計(jì)算

FCAPI實(shí)時(shí)計(jì)算Serverless

GPU場(chǎng)景

【在線/實(shí)時(shí)/離線】AI推理Serverless

AIAgent

場(chǎng)景

作為AI

Agent

Code

Sandbox

作為AI

Agent

RLSandbox

作為仿真訓(xùn)練

Sandbox

彈性能力:提供最小1/24卡粒度的GPU虛擬化,將在線推理worker充分并行,單卡資源利用率最大可提高至8倍。

,彈性交付時(shí)間在秒級(jí)(熱啟動(dòng))

~分鐘級(jí)(冷啟動(dòng))

作為Agent

RuntimeDeveloperDevOps

支持所有主流開(kāi)發(fā)語(yǔ)言運(yùn)行環(huán)境AI

?程平臺(tái)開(kāi)發(fā)工具

托管SD,ComfyUI,Isaac

Sim,SWE-Bench等綜合框架資源調(diào)用任務(wù)管理數(shù)據(jù)管理服務(wù)管理租戶管理

具備可視化構(gòu)建Agent,MCP服務(wù)能力函數(shù)計(jì)算

GPU

池函數(shù)計(jì)算

GPU

池小作坊/小集群函數(shù)計(jì)算FC作為AI

Agent運(yùn)行時(shí)04函數(shù)計(jì)算FC支撐AIAgent方案拓?fù)鋱D函數(shù)計(jì)算

FC

AI

Agent

運(yùn)行時(shí)方案函數(shù)計(jì)算作為

AIAgent

自身的運(yùn)行時(shí)(Runtime)函數(shù)計(jì)算作為輔助

AIAgent的Browser

useSandbox編碼式構(gòu)建

AIAgent流程式構(gòu)建

AIAgentCode

Sandbox作為獨(dú)立產(chǎn)品的AI

Agent(通用AIAgent)輔助業(yè)務(wù)的AI

Agent輔助基模的AI

Agent函數(shù)計(jì)算支撐

AIAgent

的兩種方式函數(shù)計(jì)算

FC函數(shù)計(jì)算作為

AI

Agent

自身的

Runtime函數(shù)計(jì)算作為輔助

AI

Agent

Sandbox函數(shù)計(jì)算作為計(jì)算資源運(yùn)行AIAgent–

編碼式函數(shù)計(jì)算FC作為計(jì)算資源提供細(xì)粒度、高彈性、強(qiáng)安全的AI

Agent運(yùn)行環(huán)境。各類(lèi)

AI

Agent運(yùn)行在函數(shù)計(jì)算FC上的AI

Agent有兩種類(lèi)型:

用戶自行編寫(xiě)的,自研的AI

Agent?;蛘呷缡褂肧pring

AI

Alibaba、LangChain、LlamaIndex等開(kāi)發(fā)Agent的綜合框架。

在FunctionAI平臺(tái)上,已經(jīng)托管了一些現(xiàn)Spring

AI

LangChain

LlamaIndex托管OpenManus托管JManus托管ComfyUI托管SD

WebU運(yùn)行用戶自行編寫(xiě)的Function

AIAI

Agent代碼成的AI

Agent組件,比如OpenManus,Jmanus,ComfyUI,SD

WebUI等。函數(shù)計(jì)算PythonNode.jsGoJavaPHP實(shí)例類(lèi)型CPU實(shí)例(百毫秒彈性)GPU實(shí)例(秒級(jí)彈性)運(yùn)行時(shí)

函數(shù)計(jì)算

FC

觸發(fā)器機(jī)制,實(shí)現(xiàn)

AI

AgentMCP運(yùn)行時(shí)自定義鏡像.Net

Core可靈活被調(diào)度。

函數(shù)計(jì)算

FC

按請(qǐng)求擴(kuò)縮,提升AI

Agent資源利用率,降低資源成本。資源調(diào)度基礎(chǔ)設(shè)施多租戶隔離安全彈性伸縮負(fù)載均衡流量控制消息緩存高可用部署跨集群容災(zāi)

函數(shù)計(jì)算

FC

動(dòng)態(tài)掛載存儲(chǔ)機(jī)制,提升AIAgent

業(yè)務(wù)邏輯靈活性。

函數(shù)計(jì)算

FC

函數(shù)實(shí)例動(dòng)態(tài)安裝依賴包,提升AI

Agent

業(yè)務(wù)形態(tài)多樣性。神龍服務(wù)器安全容器網(wǎng)絡(luò)通信OSS

存儲(chǔ)

函數(shù)計(jì)算

FC

和多個(gè)云上產(chǎn)品做好了集成,降低運(yùn)維成本。函數(shù)計(jì)算構(gòu)建

Chat

AIAgent不再需要復(fù)雜的與K8s

Pod交互的邏輯解決三個(gè)核心問(wèn)題用戶只需要返回函數(shù)計(jì)算中函數(shù)的訪問(wèn)URL,在請(qǐng)求Header中傳入SessionId即可

解決執(zhí)行環(huán)境里的各依賴包的不確定性的問(wèn)題。

解決拿用戶相關(guān)文件信息路徑的不確定性的問(wèn)題。

解決會(huì)話(Session)請(qǐng)求親和性的問(wèn)題。獲取可用資源AIAgent管控服務(wù)資源管理服User-1-Session-1User-3-Session-3函數(shù)計(jì)算函數(shù)實(shí)例一旦被某個(gè)Session占據(jù),會(huì)User-2-Session-2拒絕其他的請(qǐng)求。Session不連續(xù)且有Session親和,保證一個(gè)SessionId只在一個(gè)實(shí)例處理較長(zhǎng)時(shí)間沒(méi)有請(qǐng)求,實(shí)例才會(huì)銷(xiāo)毀

SessionId和InstanceId對(duì)應(yīng)。tar

&&

upload

函數(shù)實(shí)例可以設(shè)置Session并發(fā)度(SessionNum設(shè)置為1,即為禁止Session復(fù)用)函數(shù)實(shí)例存儲(chǔ)實(shí)例-1Step-1實(shí)例-2

實(shí)例-3Session不活躍備份數(shù)據(jù),釋放計(jì)算資源Step-2Step-3可設(shè)置Session超時(shí)時(shí)間(Session

IdleTime)任務(wù)執(zhí)行過(guò)程中產(chǎn)生的文件存儲(chǔ)在臨時(shí)云盤(pán)

OSS

使用函數(shù)快照保障啟動(dòng)速度。Browser

Usedownload

&&

untar恢復(fù)快照,還是新Session判斷邏輯:Session恢復(fù)基于SessionId去查OSS(或者是客戶自己的數(shù)據(jù)表)

如果有數(shù)據(jù)走恢復(fù)邏輯(下載文件,恢復(fù)目錄)

如果差不多,就是新的會(huì)話,從零開(kāi)始即可下載數(shù)據(jù)并恢復(fù)目錄AI網(wǎng)關(guān)(LLM

API)AI網(wǎng)關(guān)(MCP管理)LLMEmbeddingRerank多模態(tài)地圖服務(wù)搜索服務(wù)天氣服函數(shù)計(jì)算

FC

+CloudFlow

可視化構(gòu)建

AIAgent類(lèi)Dify可視化流程AI

Studio自研流程引擎Function

AI函數(shù)計(jì)算

FC易用的同時(shí)性能更強(qiáng)

支持函數(shù)計(jì)算節(jié)點(diǎn),使構(gòu)建流程的靈活性得到大幅度提升。兼容Dify的流程構(gòu)建習(xí)慣

默認(rèn)支持最大1000QPS,且可以按需繼續(xù)提升。

使用Dify可視化流程編輯器的設(shè)計(jì)語(yǔ)言和UE,最大限度兼容用戶在構(gòu)建流程時(shí)的習(xí)慣。具備正統(tǒng)流程引擎的高性能

多節(jié)點(diǎn)復(fù)雜流程依然具備穩(wěn)定高可靠的執(zhí)行性能。

除了HTTP以外,還支持多種調(diào)度方案,比如OSS,SLS,Kafka,RocketMQ等。

具備完善的可觀測(cè)能力,包括整體流程和具體的每個(gè)節(jié)點(diǎn)的可觀測(cè)。

基于函數(shù)計(jì)算FC和云工作流CloudFLow實(shí)現(xiàn)的生產(chǎn)級(jí)流程引擎。AIStudio

控制臺(tái)AIStudio是阿里云自研的可視化構(gòu)建AI

Agent的產(chǎn)品。底層的工作流引擎基于阿里云2018年就商業(yè)化的產(chǎn)品云工作流(CloudFlow),底層算力基于函數(shù)計(jì)算。而前端的可視化部分我們基本沿用的Dify的設(shè)計(jì)語(yǔ)言。目的很簡(jiǎn)單:讓用戶不改變使用習(xí)慣的前提下享受到更靈活、更穩(wěn)定、性能更好的可視化構(gòu)建AI

Agent的產(chǎn)品。函數(shù)計(jì)算FC作為AIAgent

Sandbox05AIAgent為什么需要

Sandbox為了確保AI

Agent能夠安全、可控地運(yùn)行,一個(gè)強(qiáng)大的沙盒環(huán)境至關(guān)重要。這就像是為AI

Agent提供一個(gè)安全的游樂(lè)場(chǎng),讓它在其中探索和執(zhí)行任務(wù),同時(shí)又不會(huì)對(duì)外部真實(shí)世界造成意外影響。網(wǎng)絡(luò)隔離代碼執(zhí)行網(wǎng)絡(luò)隔離

(Network

Isolation),這是非常關(guān)鍵的安全屏障。通過(guò)網(wǎng)絡(luò)隔離,可以精細(xì)地控制AI

Agent的網(wǎng)絡(luò)訪問(wèn)權(quán)限。例如,可以允許它訪問(wèn)特定的API,或者完全禁止它訪問(wèn)互聯(lián)網(wǎng),以防止數(shù)據(jù)泄露或惡意網(wǎng)絡(luò)行為。代碼執(zhí)行

(Code

Execution)是Sandbox最基本也是最核心的功能。它需要能夠安全地執(zhí)行由AI

Agent生成或提供的代碼,并且通常需要支持多種編程語(yǔ)言。文件隔離資源管理文件系統(tǒng)隔離

(Filesystem

Isolation),Sandbox必須提供一個(gè)虛擬且隔離的文件系統(tǒng)。這意味著AI

Agent只能在自己的“小房間”內(nèi)創(chuàng)建、讀取、寫(xiě)入或刪除文件,完全無(wú)法訪問(wèn)或修改主機(jī)系統(tǒng)的任何文件,從而保證了主機(jī)的安全。資源管理

(Resource

Management),為了防止AI

Agent因錯(cuò)誤或惡意代碼而無(wú)限地消耗計(jì)算資源,沙盒需要能夠?qū)ζ溥M(jìn)行嚴(yán)格的限制。這包括設(shè)置最長(zhǎng)運(yùn)行時(shí)間(超時(shí))、以及可以使用的CPU和內(nèi)存上限??捎^測(cè)性進(jìn)程隔離進(jìn)程隔離

(Process

Isolation),AI

Agent在執(zhí)行任務(wù)時(shí)可能可觀測(cè)性

(Observability):

為了更好地理解和調(diào)試AI

Agent會(huì)需要運(yùn)行一些獨(dú)立的進(jìn)程或命令。進(jìn)程隔離確保這些進(jìn)程被限制在沙盒內(nèi)部,無(wú)法干擾或窺探主機(jī)上運(yùn)行的其他應(yīng)用程序。的行為,沙盒需要提供日志記錄和監(jiān)控功能。這使得開(kāi)發(fā)人員可以追蹤Agent在沙盒內(nèi)執(zhí)行的所有操作,從而進(jìn)行分析和優(yōu)化。AIAgent的

Sandbox

場(chǎng)景多種編程語(yǔ)言運(yùn)行環(huán)境長(zhǎng)連接交互,實(shí)例不復(fù)用文件系統(tǒng)隔離獲取硬件指標(biāo)判斷執(zhí)行效率不同語(yǔ)言冷啟動(dòng)的處理Code

Sandbox

12

RLSWE-Bench托管提供GPU計(jì)算資源托管Isaac

Sim/Isaac

Lab異步任務(wù)管理Session/Cookie會(huì)話親和性Browser

UseSandbox仿S基于內(nèi)存擴(kuò)容機(jī)制34優(yōu)雅下線機(jī)制通用能力:任務(wù)流程編排能力,多種被調(diào)度能力,實(shí)例快速拉起能力,與云產(chǎn)品的集成打通能力Code

Sandbox這一類(lèi)場(chǎng)景的本質(zhì)就是在一個(gè)隔離的環(huán)境中運(yùn)行由用戶生成的或者LLM生成的代碼,分為兩種業(yè)務(wù)場(chǎng)景:

協(xié)助訓(xùn)練基模的Coding能力:給LLM喂需求,由LLM生成代碼,然后拉起函數(shù)計(jì)算FC

實(shí)例,運(yùn)行代碼,評(píng)判結(jié)果。

實(shí)時(shí)運(yùn)行展示用戶編碼類(lèi)的任務(wù):這里包括執(zhí)行后端代碼,也包括執(zhí)行渲染前端代碼。無(wú)論是基模公司還是互聯(lián)網(wǎng)客戶的AI場(chǎng)景,都有相似的需求。比如Gemni的Canvas能力,千問(wèn)的網(wǎng)頁(yè)開(kāi)發(fā)能力,MiniMax的Agent生成代碼并運(yùn)行的能力等。AI

Agent

函數(shù)計(jì)算FC具備所有開(kāi)發(fā)語(yǔ)言運(yùn)行環(huán)境,適流程式應(yīng)各行各業(yè),各類(lèi)運(yùn)行代碼的需求。函數(shù)計(jì)算FC提供能把這些數(shù)據(jù)拿走的能力(底層提供8代機(jī),具備獲取這些指標(biāo)的接口),數(shù)據(jù)抓出來(lái)后給到另一個(gè)服務(wù)做衡量(另一個(gè)函數(shù))。Code

Ser

ver

問(wèn)題分類(lèi)器節(jié)點(diǎn)函數(shù)計(jì)算節(jié)點(diǎn)LLM節(jié)點(diǎn)執(zhí)行代碼節(jié)點(diǎn)

函數(shù)計(jì)算FC支持實(shí)例內(nèi)再起多線程執(zhí)行子任務(wù)的能力,得益于函數(shù)計(jì)算FC的實(shí)例是完全獨(dú)立的環(huán)境,只要函數(shù)規(guī)格夠,多線程運(yùn)行也不會(huì)影響其他實(shí)例,不會(huì)產(chǎn)生資源爭(zhēng)搶。Evaluate

Code

FunctionAIStudio用戶通過(guò)請(qǐng)求傳入代碼片段。

通過(guò)請(qǐng)求傳入獲取代碼地址(OSS

URL),函數(shù)下載代碼編碼式

對(duì)時(shí)延要求高且非常敏感的場(chǎng)景,廣告領(lǐng)域的RTA絕對(duì)算一個(gè),函數(shù)計(jì)算FC有成熟的RTA方案,并且支撐著不少大客戶的RTA業(yè)務(wù),所以在優(yōu)化冷啟動(dòng),解決時(shí)延方面有足夠的經(jīng)驗(yàn)。那么在Code

Sandbox這個(gè)場(chǎng)景通常會(huì)使用彈性實(shí)例與毫秒級(jí)快照實(shí)例組合的方式來(lái)保證時(shí)延要求。推理行動(dòng)觀察自省Render

Code

FunctionAI

Agent

Self

Runtimeon

函數(shù)計(jì)算Browser

UseSandbox在AI場(chǎng)景下,當(dāng)前Browser

Use主要有兩類(lèi)主要的應(yīng)用場(chǎng)景:

輔助數(shù)據(jù)采集,比如需要登錄的一些網(wǎng)站,獲取論文報(bào)告等。

做聯(lián)網(wǎng)搜索,目前主流搜索引擎的API能力參差不齊,且價(jià)格不菲,所以通過(guò)Browser

Use做聯(lián)網(wǎng)搜索在靈活性和成本方面都是較優(yōu)的選擇。AI

Agent

需要Session/Cookie親和性。輔助數(shù)據(jù)采集流程式時(shí),需要登錄后才能獲取到數(shù)據(jù),所以需要相同Session的請(qǐng)求分配到同一個(gè)實(shí)例中,避免反復(fù)登錄。BrowserUse

Ser

ver問(wèn)題分類(lèi)器節(jié)點(diǎn)函數(shù)計(jì)算節(jié)點(diǎn)LLM節(jié)點(diǎn)

函數(shù)計(jì)算FC支持會(huì)話(Session)親和性的。所以也是天然適配Browser

Use的特性。采集數(shù)據(jù)節(jié)點(diǎn)Chrome

Server

Function

需要基于內(nèi)存擴(kuò)容,這個(gè)場(chǎng)景比較吃內(nèi)存,且大多數(shù)語(yǔ)言內(nèi)存回收機(jī)制都不好。

函數(shù)計(jì)算FC默認(rèn)按請(qǐng)求擴(kuò)容,此外還支持用戶配置按時(shí)間和并發(fā)度擴(kuò)容,為了支持Browser

Use

Sandbox場(chǎng)景,又支持了按內(nèi)存擴(kuò)容的能力。AIStudio用戶編碼式Fetch

Function推理行動(dòng)觀察自省

優(yōu)雅下線,也就是實(shí)例要銷(xiāo)毀時(shí)做BrowserUse操作的后處理。Browser

Use

FunctionAI

Agent

Self

Runtimeon

函數(shù)計(jì)算

依托函數(shù)計(jì)算FC的生命周期管理能力,通過(guò)prestop鉤子函數(shù)做Browser

Use收集數(shù)據(jù)的后處理操作。RLSandbox有一些基??蛻艋蜃鐾ㄓ肁I

Agent的客戶,會(huì)專注在垂直類(lèi)場(chǎng)景,這類(lèi)客戶會(huì)針對(duì)特定場(chǎng)景對(duì)LLM或AI

Agent算法做定向強(qiáng)化學(xué)習(xí)。容器鏡像服務(wù)ACR提前生產(chǎn)題庫(kù),構(gòu)建鏡像,上傳ACRAI

Agent

安全性:Agent在訓(xùn)練初期的行為往往是隨機(jī)且不可預(yù)測(cè)的。在沙箱中,錯(cuò)誤的決策不會(huì)造成任何實(shí)際損失。流程式從ACR拉取鏡像問(wèn)題分類(lèi)器節(jié)點(diǎn)函數(shù)計(jì)算節(jié)點(diǎn)LLM節(jié)點(diǎn)高效率與可復(fù)現(xiàn)性:沙箱環(huán)境可快速拉起,快速?gòu)?fù)制相同的環(huán)境,讓Agent在短時(shí)間內(nèi)經(jīng)歷海量的訓(xùn)練。同時(shí),研發(fā)可以精確控制每個(gè)環(huán)境的每一個(gè)變量,從而能夠復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果,進(jìn)行可靠的對(duì)比分析。

采集數(shù)據(jù)節(jié)點(diǎn)題庫(kù)-1

函數(shù)AIStudio用戶發(fā)起強(qiáng)化學(xué)習(xí)請(qǐng)求

降低成本:不希望過(guò)多維護(hù)IaaS資源,隨用隨拉起,并且強(qiáng)化學(xué)習(xí)也不是實(shí)時(shí)業(yè)務(wù),如何最大限度提升資源利用率也是降低成本的優(yōu)化手段。題庫(kù)-2

函數(shù)編碼式…推理行動(dòng)觀察運(yùn)行環(huán)境完整性:沙箱環(huán)境不要有太多限制和約束,期望和一臺(tái)Linux機(jī)器一樣去使用。甚至可以設(shè)置一些系統(tǒng)級(jí)參數(shù)。自省

AI

Agent

Self

Runtimeon

函數(shù)計(jì)算題庫(kù)-N

函數(shù)RLSer

verSim

Sandbox仿真訓(xùn)練Sandbox場(chǎng)景目前主要聚焦在具身智能場(chǎng)景。具身智能仿真訓(xùn)練基本流程:

使用NV

Omniverse提供的可視化界面,構(gòu)建虛擬環(huán)境,準(zhǔn)備環(huán)境數(shù)據(jù)。

構(gòu)建好仿真環(huán)境和數(shù)據(jù)后,生成任務(wù)包,將任務(wù)包分發(fā)到GPU服務(wù)跑訓(xùn)練任務(wù)。該服務(wù)使用的框架大多數(shù)也是NV

Omniverse里的Isaac

Sim。分發(fā)任務(wù)的邏輯通常會(huì)使用Airflow,且Airflow的流程是比較簡(jiǎn)單的。

GPU服務(wù)跑完訓(xùn)練任務(wù)后,狀態(tài)會(huì)回調(diào)Airflow,由Airflow統(tǒng)一來(lái)展示這次任務(wù)的執(zhí)行結(jié)果。任務(wù)包存儲(chǔ)類(lèi)型NAS

函數(shù)計(jì)算FC需要支持IsaacSim/IsaaC

Lab環(huán)境,OSS既可以一鍵拉起Isaac

Sim應(yīng)用(類(lèi)似一鍵拉起ComfyUI應(yīng)用一個(gè)邏輯),會(huì)落在FunctionAI應(yīng)用中。任務(wù)包上傳存儲(chǔ)函數(shù)計(jì)算支持異步任務(wù)管理內(nèi)置隊(duì)列,任務(wù)排隊(duì)任務(wù)狀態(tài)透明且可控制完善的回調(diào)機(jī)制

使用函數(shù)計(jì)算FC異步任務(wù)邏輯,天然具備任務(wù)管理能力,客戶根據(jù)持有的卡數(shù)發(fā)任務(wù)即可,沒(méi)卡的任務(wù)在隊(duì)列里排隊(duì)等待。任務(wù)的狀態(tài),回調(diào)機(jī)制都使用函數(shù)計(jì)算FC自身的能力。

函數(shù)計(jì)算FC除了支持CPU以外,也支持GPU,且適配了大多數(shù)常用卡型,如T4,A10,409024GB,4090

48GB,L20,H20,PPU。

函數(shù)計(jì)算FC異步任務(wù)和CloudFlow結(jié)合,將客戶復(fù)雜的分發(fā)流程使用CloudFlow做構(gòu)建。OmniverseIsaac

Lab從存儲(chǔ)拿任務(wù)包異步請(qǐng)求構(gòu)建仿真環(huán)境生成任務(wù)包IaacSim

FunctionGPU

函數(shù)支持PPU,H20,L20,4090,A10,T4簡(jiǎn)單的編排調(diào)度復(fù)雜的編排調(diào)度開(kāi)源Airflow阿里云

CloudFlow云原生API網(wǎng)關(guān)&AI網(wǎng)關(guān)介紹06云原生API網(wǎng)關(guān)簡(jiǎn)介

流量網(wǎng)關(guān)、API網(wǎng)關(guān),微服務(wù)網(wǎng)關(guān)、AI網(wǎng)關(guān)、MCP網(wǎng)關(guān)多合一

統(tǒng)一東西南北向流量

集成

WA

F,內(nèi)容安全數(shù)據(jù)面

集成

AI

領(lǐng)域

LLM,MCP安全防護(hù)WAF流量防護(hù)開(kāi)放平臺(tái)流量網(wǎng)關(guān)IngressAPI

網(wǎng)關(guān)WAF3.0服務(wù)發(fā)現(xiàn)服務(wù)治理微服務(wù)網(wǎng)關(guān)(SpringCloud

Gateway)Pod

PodPod

PodLLM

LLM南北向流量東西向流量AI

流程PodPodK8sK8sPAIK8s傳統(tǒng)網(wǎng)關(guān)模式新一代網(wǎng)關(guān)模式差異化競(jìng)爭(zhēng)力:服務(wù)治理、API管理、LLM管理、MCP管理

+基本競(jìng)爭(zhēng)力:高性能、高可用、零信任、易擴(kuò)展云原生API網(wǎng)關(guān)在應(yīng)用架構(gòu)的核心作用

鏈接生態(tài)瀏覽器/APP用戶云原生

API

網(wǎng)關(guān)(流量網(wǎng)關(guān)+API網(wǎng)關(guān))前臺(tái)應(yīng)用MCP

Ser

verMCP

Ser

ver云原生

API

網(wǎng)關(guān)(微服務(wù)網(wǎng)關(guān))AI網(wǎng)關(guān)A中臺(tái)應(yīng)用云原生API網(wǎng)關(guān)

流量網(wǎng)關(guān)手機(jī)APPBrowserIOT

支持

K8s

/Nacos

等主流服務(wù)發(fā)現(xiàn)

深度集成函數(shù)計(jì)算FC

兼容

DNS

/ECS

老的模式K8s

生態(tài)微云原生API網(wǎng)關(guān)

安全防護(hù)

流量防護(hù)安全防護(hù)流量防護(hù)規(guī)則熱更新

/多語(yǔ)言插件擴(kuò)展WAF防護(hù)認(rèn)證鑒權(quán)黑白名單服務(wù)限流API限流IP限流默認(rèn)插件(30+)API-ServerN

路由/策略更熱更新

證書(shū)熱更新路由規(guī)則

-

熱更新策略

-

熱更新WASM(多語(yǔ)言擴(kuò)展)

插件熱更新

支持灰度,且支持全鏈路灰度

支持藍(lán)綠

支持灰度觀測(cè)能力主動(dòng)隔離異常節(jié)點(diǎn)50%

流量50%

流量90%

流量10%

流量-預(yù)熱100%

流量

服務(wù)下線前提前隔離流量,再停應(yīng)用

服務(wù)上線打10%流量預(yù)熱App(V1)APP(V2)APP(運(yùn)行中)APP(下線中)APP(上線中)APP(健康)APP(不灰度(全鏈路灰度)/藍(lán)綠優(yōu)雅下線

/服務(wù)預(yù)熱主動(dòng)健康檢查

隔離異常節(jié)點(diǎn)云原生API網(wǎng)關(guān)

API

網(wǎng)關(guān)API

First(前后端分離并發(fā)開(kāi)發(fā))

/API

防護(hù)(默認(rèn)安全/高可用)

/

API

貨幣化(擴(kuò)大生態(tài)做營(yíng)收)API貨幣化(開(kāi)放平臺(tái))權(quán)限管理額度管理API計(jì)量API計(jì)費(fèi)APP管理智能化

AI輔助API設(shè)計(jì)

AIMock

數(shù)據(jù)

AI生成端代碼

AI測(cè)試/

診斷API防護(hù)(策略管理)策略豐富

內(nèi)置10+

系統(tǒng)策略安全防護(hù)流控跨域超時(shí)重試重寫(xiě)

支持30+

插件策略

支持自定義策略(多語(yǔ)言)開(kāi)源開(kāi)放

支持Swagger(

OAS

標(biāo)準(zhǔn))

支持Ingress/

GatewayAPI

開(kāi)源Higress

無(wú)廠商鎖定API

First(并發(fā)提效)API設(shè)計(jì)API文檔API

Mock端代碼生成API

測(cè)試AI網(wǎng)關(guān)通義/百煉

/PAI

內(nèi)置

AI網(wǎng)關(guān),每天億級(jí)多模態(tài)請(qǐng)求生產(chǎn)驗(yàn)證AI開(kāi)發(fā)插件集AI安全防護(hù)Model服務(wù)管理LLM緩存協(xié)議轉(zhuǎn)換提示詞模板提示詞裝飾器請(qǐng)求/響應(yīng)轉(zhuǎn)換內(nèi)容審核/AI安全護(hù)欄Token限流AI

AgentClaude

DesktopClineAI代多APIKey管理理插件Token配額插件FallbackCursor通義靈碼向量檢索Agent

管理MCP

管理Custom

Agent百煉AgentDify/AIStudio自定義AgentMCP服務(wù)代理第三方

MCP

Server

市場(chǎng)企業(yè)級(jí)

MCP

Server

市場(chǎng)MCP服務(wù)協(xié)議轉(zhuǎn)換MCP服務(wù)身份認(rèn)證MCP服務(wù)動(dòng)態(tài)發(fā)現(xiàn)可觀測(cè)AI統(tǒng)計(jì)可用性告警LLM/MCP/Agent訪問(wèn)日志Token消耗AI網(wǎng)關(guān)典型場(chǎng)景&客戶功能域詳細(xì)功能業(yè)務(wù)場(chǎng)景客戶

消費(fèi)者認(rèn)證消費(fèi)者精細(xì)化管理

消費(fèi)者限流精確管控企業(yè)內(nèi)部、外部用戶使用LLM的方式,基于請(qǐng)求方的特征決定使用哪個(gè)LLM,可以使用多少Token。

基于請(qǐng)求標(biāo)識(shí)切換模型汽車(chē)寶馬小鵬

深藍(lán)汽車(chē)蔚來(lái)運(yùn)滿滿

多模型廠商統(tǒng)一代理多模型統(tǒng)一管理

多API

Key管理統(tǒng)一管理多個(gè)LLM服務(wù)商,也包括自建LLM服務(wù),通過(guò)多API

Key管理擴(kuò)展TPM限制,可以基于業(yè)務(wù)場(chǎng)景通過(guò)模型名稱快速切換模型,比如按用戶級(jí)別,按業(yè)務(wù)領(lǐng)域等。

多模型切換(按模型名稱,按流量)SaaS

LLM服務(wù)Fallback

LLM服務(wù)健康檢查

Token級(jí)別限流增加LLM服務(wù)的健壯性,當(dāng)主LLM服務(wù)不可用時(shí)告警通知并自動(dòng)Fallback到備用LLM服務(wù),通過(guò)Token級(jí)別的限流保護(hù)下游LLM服務(wù)的穩(wěn)定性。聚水潭暢捷通千里馬網(wǎng)信

眾陽(yáng)健康模型高可用

請(qǐng)求/響應(yīng)內(nèi)容檢查

IP黑白名單/全局認(rèn)證鑒權(quán)(支持對(duì)接自有認(rèn)證服務(wù))互娛/營(yíng)銷(xiāo)零售/教育AI/游戲?qū)ν评淼妮斎牒洼敵鲎鰞?nèi)容安全檢查,通過(guò)IP黑白名單做請(qǐng)求方的管控,并且可以快捷對(duì)接客戶自有的認(rèn)證服務(wù)快速做集成,當(dāng)有非預(yù)期流量時(shí)也可以通過(guò)限流熔斷機(jī)制保護(hù)下游服務(wù)。字節(jié)跳動(dòng)

今日相機(jī)

微能科技藍(lán)色光標(biāo)企業(yè)級(jí)安全管理

限流降級(jí)熔斷

聯(lián)網(wǎng)搜索

推理結(jié)果緩存

更多認(rèn)證、鑒權(quán)機(jī)制通過(guò)插件機(jī)制實(shí)現(xiàn)客戶定制化的需求,應(yīng)對(duì)更多業(yè)務(wù)場(chǎng)景,比如通過(guò)插件機(jī)制實(shí)現(xiàn)的推理時(shí)聯(lián)網(wǎng)搜索,推理結(jié)果緩存,流式輸出轉(zhuǎn)非流式,更多的鑒權(quán)機(jī)制等。靈活擴(kuò)展能力(插件機(jī)制)麥當(dāng)勞可口可樂(lè)

好未來(lái)新東方庫(kù)迪咖啡清博智能提供了模型維度,消費(fèi)者維度,LLM服務(wù)維度的Token消耗指標(biāo),可供客戶做成本管理。還提供了AI場(chǎng)景特有的監(jiān)控指標(biāo),比如流式/非流式的RT,首Token

RT等。另外更詳細(xì)的推理信息也都保存在日志服務(wù)中,可供查詢。

各維度Token消耗AI場(chǎng)景觀測(cè)體系

LLM服務(wù)各性能指標(biāo)

LLM請(qǐng)求日志地平線

鹿客科技

在線途游

英雄互娛

MCP

Server代理

普通服務(wù)轉(zhuǎn)MCP

Server

MCP

Server組裝

MCP

Server/MCP

Tool描述信息管理

MCP

Server動(dòng)態(tài)發(fā)現(xiàn)(結(jié)合Nacos)作為MCP

Hub統(tǒng)一管理MCP

Server,可以快速將現(xiàn)存的傳統(tǒng)服務(wù)0代碼改造的轉(zhuǎn)換為MCP

Server,也可以代理基于MCP

SDK開(kāi)發(fā)的MCP

Server,并且在網(wǎng)關(guān)側(cè)可以進(jìn)一步組裝MCP

Server。MCP

Server統(tǒng)一管理(MCP

Hub)奪暢網(wǎng)絡(luò)聚水潭運(yùn)滿滿及刻云原生API網(wǎng)關(guān)

內(nèi)部實(shí)踐秉承著自己吃自己狗糧的原則,云原生API網(wǎng)關(guān)在阿里集團(tuán)內(nèi)部已經(jīng)有很多業(yè)務(wù)在深度使用,在企業(yè)級(jí)產(chǎn)品能力,穩(wěn)定性,性能方面已經(jīng)有多個(gè)大體量業(yè)務(wù)的背書(shū)。通義App云原生API網(wǎng)關(guān)云原生API網(wǎng)關(guān)業(yè)務(wù)Server業(yè)務(wù)Server業(yè)務(wù)網(wǎng)關(guān)業(yè)務(wù)網(wǎng)關(guān)Model云原生API網(wǎng)關(guān)作為流量網(wǎng)關(guān),白屏操作

支持長(zhǎng)連接SSE/WebSocket,熱更新對(duì)長(zhǎng)連接流量無(wú)損云原生API網(wǎng)關(guān)作為流量網(wǎng)關(guān),白屏操作

支持長(zhǎng)連接SSE/WebSocket,熱更新對(duì)長(zhǎng)連接流量無(wú)損云原生API網(wǎng)關(guān)作為AI網(wǎng)關(guān),通過(guò)Ingress集成PA

I的管控

支持1W+

超大路由/域名規(guī)模場(chǎng)景,

多租共享集群模式,切換到Higress后路由配置生效RT從原10分鐘降到30秒內(nèi)

構(gòu)建完善可觀測(cè)體系

支持流式傳輸,滿足AI大帶寬/高延時(shí)特性訴求

支持多種安全認(rèn)證與限流防護(hù)

支持流式傳輸,滿足AI大帶寬/高延時(shí)特性訴求

高可用,99.999%

SLAAI

應(yīng)用AI模型服務(wù)平臺(tái)AI

模型AI網(wǎng)關(guān)代理LLM最佳實(shí)踐07LLM生產(chǎn)項(xiàng)目中客戶必然遇到的問(wèn)題41安全合規(guī)問(wèn)題成本平衡問(wèn)題部署DeepSeek

R1

671B滿血版模型,至少需要2臺(tái)8卡H20機(jī)器,列表價(jià)年度超過(guò)100W,但2臺(tái)的TPS有限,無(wú)法滿足生產(chǎn)部署中多個(gè)用戶的并發(fā)請(qǐng)求,需要有方案找到TPS和成本之間的平衡點(diǎn)企業(yè)客戶需要對(duì)問(wèn)答過(guò)程做審計(jì),確保合規(guī),減少使用風(fēng)險(xiǎn)。56模型服務(wù)高可用問(wèn)題23模型幻覺(jué)問(wèn)題自建平臺(tái)性能達(dá)到瓶頸時(shí)需要有一個(gè)大模型兜底方案,提升客戶大模型使用體驗(yàn)。即使是671B的DS

R1,如果沒(méi)有聯(lián)網(wǎng)搜索,依然有很?chē)?yán)重的幻覺(jué)問(wèn)題。多模型切換問(wèn)題閉源模型QPS/Token限制問(wèn)題商業(yè)大模型都有基于API

Key維度的QPS/Token配額限制,需單一模型服務(wù)有較大的風(fēng)險(xiǎn)和局限性,比如穩(wěn)定性風(fēng)險(xiǎn),比如無(wú)法根據(jù)業(yè)務(wù)(消費(fèi)者)選擇最優(yōu)模型。目前也沒(méi)有開(kāi)源組件和框架解決這類(lèi)問(wèn)題。要一個(gè)好的方式能夠做到快速擴(kuò)展配額限制。AI網(wǎng)關(guān)代理LLMs方案開(kāi)源

LLMs(PAI)②

模型切換①

消費(fèi)者認(rèn)證⑦

聯(lián)網(wǎng)搜索consumer_id10

多種路由規(guī)則配置AIAgentapi_key⑥

結(jié)果緩存ai_agent_consumer_idai_agent_api_key④

FallbackBackend

Servicebackend_service_consumer_idbackend_service_api_keyAI網(wǎng)關(guān)LLMsAPI(百煉)③

api_key_1api_key_2api_key_3…⑨

LLM可觀測(cè)⑧

限流降級(jí)⑤

內(nèi)容安全AI安全護(hù)欄OpenAI

Clientopenai_client_consumer_idopenai_client_api_key云原生AI網(wǎng)關(guān)代理LLMs方案的核心收益部署開(kāi)源

DeepSeek-R1

671B趨勢(shì)IDC

部署至少

2臺(tái)

8卡

H2015TPS15Output

Token

/S100w+

/年成本&性能面臨的問(wèn)題LLM

可觀測(cè),應(yīng)用、網(wǎng)關(guān)、后端LLM服務(wù)的全鏈路(貼合LLM推理的指標(biāo))需要在TPS和成本之間找到平衡點(diǎn),不可能無(wú)限增加資源沒(méi)有聯(lián)網(wǎng)搜索,DS-R1

671B

幻覺(jué)依然很大多LLM路由LLM

FallbackToken維度限流降級(jí)聯(lián)網(wǎng)搜索貼合LLM的可觀測(cè)

客戶分級(jí),高等級(jí)客戶到DS,低等級(jí)客戶酌情到其他LLM提供豐富的判斷條件、限流規(guī)則、限流范圍

通過(guò)AI

Proxy插件,接入聯(lián)網(wǎng)搜索Tool(API)

訪問(wèn)日志,其中的ai_log字段可以自動(dòng)打印大語(yǔ)言模型的輸入、輸出。收益

通過(guò)Fallback,增加業(yè)務(wù)延續(xù)性

業(yè)務(wù)功能分級(jí),核心能力到DS,非核心能力酌情到其他LLM通過(guò)限流保證后端資源穩(wěn)定性

默認(rèn)支持簡(jiǎn)單聯(lián)網(wǎng)搜索

大語(yǔ)言模型的metrics信息:

首字延時(shí)(TTFT-Time

ToFirst

Token),

tokens

per

second。

靈活擴(kuò)展接入更高階的聯(lián)網(wǎng)搜索解決用戶管理失控問(wèn)題核心問(wèn)題1:我以什么樣的方式將LLM服務(wù)和能力暴露給大家呢?解法:OpenAI

API的協(xié)議基本已經(jīng)是標(biāo)準(zhǔn)協(xié)議,目前市場(chǎng)面上幾乎所有的LLM都支持OpenAI

API協(xié)議。所以提供遵循OpenAI

API協(xié)議的HTTP接口就可以讓企業(yè)員工通過(guò)各種方式使用LLM服務(wù)和能力。核心問(wèn)題2:企業(yè)內(nèi)部部署DeepSeek

R1

滿血版,公司好幾千人,但GPU資源有限,如何限制用戶?解法:AI

接口一旦暴露出去,基本上不可能只讓一小部分人知道,所以需要對(duì)訪問(wèn)LLM服務(wù)的用戶做以限制,只讓能訪問(wèn)的人訪問(wèn),不能訪問(wèn)的人即便知道了接口也無(wú)法訪問(wèn)。12創(chuàng)建消費(fèi)者消費(fèi)者授權(quán)API

Key

管理

一個(gè)消費(fèi)者可以對(duì)應(yīng)一個(gè)個(gè)人,也可以對(duì)應(yīng)一個(gè)團(tuán)隊(duì)、一個(gè)組織等。

每個(gè)消費(fèi)者會(huì)有對(duì)應(yīng)的API

Key。一個(gè)消費(fèi)者可以生成多個(gè)API

Key。根據(jù)不同的情況管理API

Key,比如新增或重置。

給消費(fèi)者分配可以訪問(wèn)哪些LLM服務(wù)接口。建議建議建議

可以通過(guò)云原生API網(wǎng)關(guān)的OpenAPI,將申請(qǐng)消費(fèi)者的流程接入企業(yè)的審批流

可以將一個(gè)消費(fèi)者對(duì)應(yīng)到一個(gè)團(tuán)隊(duì)或一個(gè)項(xiàng)目組,根據(jù)具體業(yè)務(wù)分配不同的LLM服務(wù)接口權(quán)限。

定期重置API

Key,并通知到使用方,避免API

Key泄漏后造成損失。

API

Key的分發(fā)也可以通過(guò)審批流分發(fā)消費(fèi)者鑒權(quán)認(rèn)證云原生API網(wǎng)關(guān)支持全局認(rèn)證、路由配置認(rèn)證和消費(fèi)者鑒權(quán),以實(shí)現(xiàn)對(duì)API訪問(wèn)的控制、安全性和策略管理,確保只有授權(quán)的請(qǐng)求才能訪問(wèn)服務(wù)。

身份可信:確保請(qǐng)求方為注冊(cè)/授權(quán)用戶或系統(tǒng)。

風(fēng)險(xiǎn)攔截:防止惡意攻擊、非法調(diào)用與資源濫用。生成

API

Key授權(quán)

API

Key驗(yàn)證

API

Key

合規(guī)保障:滿足數(shù)據(jù)安全法規(guī)及企業(yè)審計(jì)要求。

成本控制:基于鑒權(quán)實(shí)現(xiàn)精準(zhǔn)計(jì)費(fèi)與API配額管理。

給API

Key授權(quán)可以訪問(wèn)的接口。

授權(quán)范圍不局限在AI接口,可以是網(wǎng)關(guān)上管理的所有接口/路由。

基于API

Key方式,

支持系統(tǒng)簽發(fā)。

支持自定義。請(qǐng)求驗(yàn)證API

Key有效性。

支持多種:

Authorization

HTTP

Header

Query參數(shù)

第三方應(yīng)用接入:

挑戰(zhàn):開(kāi)發(fā)者身份混雜,權(quán)限難隔離。

解決方案:為每個(gè)應(yīng)用分配獨(dú)立API

Key,綁定細(xì)粒度權(quán)限策略。12345

企業(yè)內(nèi)部服務(wù)調(diào)用:

挑戰(zhàn):內(nèi)網(wǎng)環(huán)境仍需防越權(quán)訪問(wèn)。

解決方案:API

Key

+

IP白名單雙重驗(yàn)證,限制訪問(wèn)范圍。分發(fā)

API

Key開(kāi)啟消費(fèi)者授權(quán)

付費(fèi)用戶API訪問(wèn):

消費(fèi)者授權(quán)是接口/路由級(jí)別,默認(rèn)關(guān)閉,需要手動(dòng)開(kāi)啟。

需客戶通過(guò)安全通道

挑戰(zhàn):防止Key泄露導(dǎo)致超額調(diào)用。

解決方案:針對(duì)API

Key限流。

跨云/混合部署:交付消費(fèi)者

挑戰(zhàn):異構(gòu)環(huán)境統(tǒng)一身份管理。

解決方案:集中式API

Key管理平臺(tái),支持多集群同步鑒權(quán)。解決同一域名訪問(wèn)不同模型的問(wèn)題核心問(wèn)題1:公司GPU資源有限,部署了滿血版DeepSeek

R1,還有其他一些小模型以及使用百煉的模型服務(wù),現(xiàn)在域名都不統(tǒng)一,分發(fā)、管理、集成的成本都很高,如何使用同一個(gè)域名來(lái)訪問(wèn)不同的模型?解法:

滿血DS

R1和其他模型或者閉源LLM

API服務(wù)共存,保持同一個(gè)API接口,不同業(yè)務(wù)通過(guò)請(qǐng)求中的模型名稱,切換不同的模型。

滿血DS

R1和其他模型或者閉源LLM

API服務(wù)共存,保持同一個(gè)API接口,不同業(yè)務(wù)通過(guò)請(qǐng)求中(Header,Cookie等)攜帶的業(yè)務(wù)標(biāo)識(shí),匹配到不同的模型。同一個(gè)API請(qǐng)求不同模型12AI

API代理多

同一個(gè)API,不同業(yè)務(wù)傳入不同的model

name,即可實(shí)現(xiàn)模型切換。維護(hù)多個(gè)模型服務(wù)個(gè)模型服務(wù)

無(wú)論是PAI上部署的,IDC部署的,還是閉源LLM

API,都可以作為模型服務(wù)被維護(hù)在AI網(wǎng)關(guān)。

使用多模型服務(wù)類(lèi)型創(chuàng)建AI

API,在一個(gè)AIAPI中可以添加多個(gè)模型服務(wù)。建議

模型名稱通過(guò)Glob語(yǔ)法進(jìn)行匹配。

優(yōu)先推薦使用模型名稱匹配切換的模式,更遵循OpenAI協(xié)議。模型切換AI網(wǎng)關(guān)支持基于模型名稱做不同后端模型的切換,實(shí)現(xiàn)同一個(gè)接口對(duì)接多種LLM服務(wù)(百煉,PAI,IDC)。model=deepseek-r1基于OpenAI協(xié)議,Body中帶有model名稱

業(yè)務(wù)需求適配:根據(jù)業(yè)務(wù)復(fù)雜性或性能要求選擇不同模型。AIAgent

數(shù)據(jù)隱私與合規(guī)性:在處理敏感數(shù)據(jù)時(shí),可能需要切換到符合特定法規(guī)的模型,確保數(shù)據(jù)處理的安全性。

性能優(yōu)化:根據(jù)實(shí)時(shí)性能需求,可能會(huì)切換到更快的模型以減少延遲。

成本與性能平衡:根據(jù)預(yù)算動(dòng)態(tài)選擇性價(jià)比最優(yōu)的模型

領(lǐng)域特定需求:針對(duì)特定領(lǐng)域(如法律、醫(yī)學(xué)),可能需要切換到在相關(guān)領(lǐng)域微調(diào)過(guò)的模型,以提高推理準(zhǔn)確性。

容災(zāi)與故障轉(zhuǎn)移:主模型服務(wù)異常時(shí)快速切換備用模型。AI網(wǎng)關(guān)Backend

ServiceOpenAI

Client模型

API

配置:model=qwen-max

多模型服務(wù)(按模型名稱)

模型名稱使用Glob語(yǔ)法匹配模型,如model-*,model-?解決LLM托管平臺(tái)/閉源LLMQPM/Token限制的問(wèn)題核心問(wèn)題:我們使用LLM托管平臺(tái)上提供的DS

R1

671B

模型的API,但是有QPM和TPM的配額限制,不能滿足業(yè)務(wù)需求,但是每次升配很麻煩。解法:

目前所有的模型托管平臺(tái)都有QPM和TPM的限制,并且有些平臺(tái)是很難升配這個(gè)限制的,所以大多數(shù)用戶都會(huì)選擇申請(qǐng)多個(gè)帳號(hào)(API

Key),變相的撐大這個(gè)配額限制,但缺點(diǎn)是在業(yè)務(wù)里管理多個(gè)API

Key是一件很麻煩的事。

對(duì)輸入/輸出內(nèi)容做緩存,減少對(duì)模型服務(wù)的請(qǐng)求次數(shù)以及Token消耗,從而提升業(yè)務(wù)側(cè)的請(qǐng)求性能。23AI

API維度結(jié)果緩存API

Key可實(shí)時(shí)維護(hù)1

AIAPI維度支持將輸入和輸出緩存到Redis,只需要配置Redis地址即可

支持精確匹配

當(dāng)監(jiān)控到API

Key配額水位較高時(shí),可以實(shí)時(shí)動(dòng)態(tài)添加模型服務(wù)的API

Key。模型服務(wù)支持多API

Key

支持向量化檢索匹配

AI網(wǎng)關(guān),每個(gè)模型服務(wù)都可以配置多個(gè)API

Key。

每次請(qǐng)求會(huì)輪詢拿API

Key,對(duì)模型服務(wù)做請(qǐng)求。建議建議

在非常垂直類(lèi)的應(yīng)用場(chǎng)景下適合開(kāi)啟結(jié)果緩存,但建議開(kāi)向量化檢索匹配

通過(guò)AI網(wǎng)關(guān)OpenAPI將添加API

Key的行為集成到客戶自己的自動(dòng)化平臺(tái)中。

在非常垂直類(lèi),問(wèn)題和答案非常固定的應(yīng)用場(chǎng)景下可以開(kāi)精確匹配

在泛業(yè)務(wù)場(chǎng)景下開(kāi)啟結(jié)果緩存可能會(huì)降低推理精度或準(zhǔn)確性,需要結(jié)合業(yè)務(wù)判斷和考量多APIKey

管理AI網(wǎng)關(guān)支持管理多個(gè)不同LLM托管平臺(tái),閉源LLM的API

Key,突破LLM托管平臺(tái),閉源LLM的QPS限制。每個(gè)api_key1000QPS上限,維護(hù)N個(gè)api_key便有1000*N

QPS上限不同LLM平臺(tái)或服務(wù)都有api_key維度的QPS上限AIAgent像ChatGPT,豆包這類(lèi)閉源LLM,或者百煉這種托管LLM平臺(tái),都是以提供API的方式供大家使用LLM的能力,但是受限底層GPU資源的壓力,以及整體平臺(tái)的穩(wěn)定性,每個(gè)用戶都有請(qǐng)求QPS的最大限制(基于平臺(tái)的API

Key的維度),且上調(diào)比較困難。AI網(wǎng)關(guān)自動(dòng)判斷輪轉(zhuǎn)不同服務(wù)的api_keyAI網(wǎng)關(guān)Backend

ServiceOpenAI

Client

突破QPS上限:通過(guò)管理閉源LLM或LLM托管平臺(tái)的多個(gè)API

Key,變相提升QPS上限,提升業(yè)務(wù)性能。AI服務(wù)維度管理API

Key

OpenAI服務(wù):

openai_api_key_1

openai_api_key_2

openai_api_key_3每個(gè)api_key500QPS上限,維護(hù)N個(gè)api_key便有500*N

QPS上限

百煉服務(wù):

bailian_api_key_1

bailian_api_key_2

bailian_api_key_3結(jié)果緩存AI網(wǎng)關(guān)提供了擴(kuò)展點(diǎn),可以將請(qǐng)求和響應(yīng)的內(nèi)容緩存到Redis,提升推理效率。提供預(yù)置策略,接入DashVector做語(yǔ)義化緩存,或接入Redis做精確緩存

提高效率:如果相同的輸入反復(fù)出現(xiàn),緩存可以避免重復(fù)運(yùn)行模型,從而加快響應(yīng)速度,特別是在處理常見(jiàn)問(wèn)題時(shí)。

降低成本:減少模型調(diào)用次數(shù)可以節(jié)省計(jì)算資源,尤其對(duì)大型模型來(lái)說(shuō)成本較高。AIAgent

保持一致性:緩存確保相同輸入產(chǎn)生相同輸出,有助于測(cè)試和合規(guī)性場(chǎng)景。Backend

ServiceOpenAI

ClientAI網(wǎng)關(guān)模型

API

維度配置結(jié)果緩存策略

一鍵快速開(kāi)啟結(jié)果緩存策略。

支持語(yǔ)義化緩存和精確緩存。

支持緩存鍵生成策略調(diào)整。解決模型服務(wù)高可用的問(wèn)題核心問(wèn)題:我們公司的主力模型是PAI上部署的DS

R1

671B,但GPU資源并不是基于流量峰值儲(chǔ)備的,所以當(dāng)高峰期時(shí),DS服務(wù)會(huì)請(qǐng)求失敗,有什么辦法可以保證業(yè)務(wù)健壯性?解法:有兩種做法,并且可以搭配使用:

可以構(gòu)建多個(gè)個(gè)兜底模型服務(wù),如果要保證模型一致,可以主力使用PAI上部署的,兜底使用百煉平臺(tái)提供的。實(shí)現(xiàn)當(dāng)PAI上部署的DS服務(wù)請(qǐng)求失敗時(shí),F(xiàn)allback到百煉平臺(tái)托管的DS

R1

服務(wù)。從而保證業(yè)務(wù)的連續(xù)性和健壯性。

通過(guò)基于Tokens的限流策略,解決Burst流量,保護(hù)后端模型服務(wù)。12開(kāi)啟AI

API維護(hù)多個(gè)模型服務(wù)開(kāi)啟AI

API限流策略Fallback策略

AIAPI限流策略需要配合Redis實(shí)現(xiàn),但是只需要開(kāi)通Redis和在AI網(wǎng)關(guān)側(cè)配置即可。

無(wú)論是PAI上部署的,IDC部署的,還是百煉LLM

API服務(wù),都可以作為模型服務(wù)被維護(hù)在AI網(wǎng)關(guān)。

AIAPI一鍵開(kāi)啟Fallback策略。

當(dāng)主LLM服務(wù)出現(xiàn)異常后Fallback到指定的其他LLM服務(wù)。

支持多種限流判斷條件:Header,Query參數(shù),Cookie,消費(fèi)者,客戶端IP

支持配置多個(gè)Fallback模型服務(wù)。LLM服務(wù)FallbackAI網(wǎng)關(guān)支持當(dāng)某LLM服務(wù)請(qǐng)求失敗后,F(xiàn)allback到指定的其他LLM服務(wù),以保證服務(wù)的健壯性和連續(xù)性。當(dāng)請(qǐng)求自建DeepSeek

異常報(bào)錯(cuò)時(shí)AIAgent當(dāng)主LLM服務(wù)因?yàn)楦鞣N原因出現(xiàn)異常,不能提供服務(wù)時(shí),網(wǎng)關(guān)側(cè)可以快速將請(qǐng)求Fallback到配置的其他LLM服務(wù),雖然可能推理質(zhì)量有所下降,但是保證了業(yè)務(wù)的持續(xù)性,爭(zhēng)取了排查主LLM服務(wù)的時(shí)間。AI網(wǎng)關(guān)Backend

ServiceOpenAI

Client

配置多個(gè)Fallback

LLM服務(wù):通過(guò)管理閉源LLM或LLM托管平臺(tái)的多個(gè)API

Key,變相提升QPS上限,提升業(yè)務(wù)性能。模型API維度配置Fallback策略

開(kāi)啟Fallback:

可以維護(hù)Fallback列表,添加多個(gè)Fallback服務(wù)。

可以維護(hù)每個(gè)FallbackLLM服務(wù)的順序?;赥oken維度的限流降級(jí)除了傳統(tǒng)的QPS限流降級(jí)以外,AI網(wǎng)關(guān)支持更貼合LLM推理場(chǎng)景的Token維度的限流能力。

成本管理:LLM的費(fèi)用通常基于Token數(shù)量計(jì)算,限流幫助用戶避免超支。例如,服務(wù)提供商可能按Token使用量提供不同定價(jià)層。

資源管理:LLM需要大量計(jì)算資源,限流防止系統(tǒng)過(guò)載,確保所有用戶都能獲得穩(wěn)定性能,尤其在高峰期。AIAgent

用戶分層:可以基于ConsumerId或者APIKey進(jìn)行Token限流。

防止惡意使用:通過(guò)限制Token數(shù)量來(lái)減少垃圾請(qǐng)求或攻擊。Backend

ServiceOpenAI

ClientAI網(wǎng)關(guān)

判斷條件:

支持按請(qǐng)求Header判斷。

支持按請(qǐng)求Query參數(shù)判斷。

支持按請(qǐng)求Cookie判斷。

支持按客戶端IP判斷。

限流規(guī)則:模型

API

維度配置限流策略

快速配置模型API維度的限流策略。

配置基于Token的限流策略,可以添加多條限流策略。

精確匹配。

提供豐富的判斷條件、限流規(guī)則、限流范圍。

前綴匹配。

正則匹配。

任意匹配。

限流范圍:每秒、每分鐘、每小時(shí)、每天。解決安全合規(guī)的問(wèn)題核心問(wèn)題:模型托管平臺(tái)自帶好幾層內(nèi)容安全審核機(jī)制,但是我們?cè)贗DC部署或者在PAI部署的,如何能方便的接入內(nèi)容安全審核服務(wù)?解法:AI網(wǎng)關(guān)中的AI

API集成了阿里云的內(nèi)容安全防護(hù)服務(wù),可以一鍵開(kāi)啟。安全防護(hù)的規(guī)則還是要在內(nèi)容安全服務(wù)側(cè)配置。

支持請(qǐng)求內(nèi)容檢測(cè)。

支持響應(yīng)內(nèi)容檢測(cè)。內(nèi)容安全AI網(wǎng)關(guān)和內(nèi)容安全集成,在網(wǎng)關(guān)側(cè)實(shí)現(xiàn)基于阿里云內(nèi)容安全檢測(cè)大模型的輸入輸出,保障AI應(yīng)用內(nèi)容合法合規(guī)。

防止攻擊:驗(yàn)證輸入可以阻止惡意提示注入,防止模型生成有害內(nèi)容。

維護(hù)模型完整性:避免輸入操縱模型,導(dǎo)致錯(cuò)誤或偏見(jiàn)輸出。

用戶安全:確保輸出沒(méi)有有害或誤導(dǎo)性內(nèi)容,保護(hù)用戶免受不良影響。集成阿里云內(nèi)容安全/AI安全護(hù)欄AIAgent

內(nèi)容適度:過(guò)濾掉不適當(dāng)?shù)膬?nèi)容,如仇恨言論或不雅語(yǔ)言,特別是在公共應(yīng)用中。

法律合規(guī):確保輸出符合法律和倫理標(biāo)準(zhǔn),尤其在醫(yī)療或金融領(lǐng)域。Backend

ServiceOpenAI

ClientAI網(wǎng)關(guān)模型API維度配置內(nèi)容安全策略

一鍵快速開(kāi)啟內(nèi)容安全防

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論