2025年AI原生應用開發(fā)實戰(zhàn)營·上海站分享材料-阿里云_第1頁
2025年AI原生應用開發(fā)實戰(zhàn)營·上海站分享材料-阿里云_第2頁
2025年AI原生應用開發(fā)實戰(zhàn)營·上海站分享材料-阿里云_第3頁
2025年AI原生應用開發(fā)實戰(zhàn)營·上海站分享材料-阿里云_第4頁
2025年AI原生應用開發(fā)實戰(zhàn)營·上海站分享材料-阿里云_第5頁
已閱讀5頁,還剩169頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

AI原生應用架構趨勢與實踐基于模型,Agent驅動,以數據為中心,整合工具鏈構建以數據為中心的Agent平臺解決效率和效果問題技術成熟度?技術成熟度?AIAgent邁過炒作周期峰值,進入生產大規(guī)模落地階段技術趨勢技術趨勢?A2A/MCP標準解決了可插拔擴展問題?Agent平臺出現(高代碼/低代碼/零代碼)數字化范式人的思維能力被機器內化智能化范式解決問題的鏈路步驟人想清楚,機器執(zhí)行1構思達成目標的路徑、邏輯或創(chuàng)意3將規(guī)劃轉化為可運行的形式4解決問題的鏈路步驟人想清楚,機器執(zhí)行1構思達成目標的路徑、邏輯或創(chuàng)意3將規(guī)劃轉化為可運行的形式4單應用多應用高代碼/零代碼單應用多應用高代碼/零代碼高代碼/零代碼低代碼/高代碼PC微服務1微服務2微服務3MySQL/Redis/OSS微服務1微服務2微服務3MySQL/Redis/OSSCPU(K8s)大模型(通義大模型(通義…)大數據(Blink+ES)GPUDev階段面臨開發(fā)效率和效果問題/Ops階段面臨難以維護問題安全圍欄ServerlessServerless平臺在模型自主性與業(yè)務確定性之間找到最佳平衡點提供底層編程接口,性能可控且靈活性強,能支撐復雜業(yè)務邏輯與系統(tǒng)集成,滿足大規(guī)模生產要求生產可用性受制于大模型自身的能力。當前模型的穩(wěn)定水平,還不能滿足復雜業(yè)務場景對推理深度、上下文管理和可控性的高要求,因此難以承擔生產任務。提供底層編程接口,性能可控且靈活性強,能支撐復雜業(yè)務邏輯與系統(tǒng)集成,滿足大規(guī)模生產要求生產可用性受制于大模型自身的能力。當前模型的穩(wěn)定水平,還不能滿足復雜業(yè)務場景對推理深度、上下文管理和可控性的高要求,因此難以承擔生產任務。(框架)簡單/靈活在AI系統(tǒng)的智能自主性和工程所需的可控性間取得平衡,確保系統(tǒng)行為可靠、結果可預測,兼顧效率與準確性構建方法低代碼簡單/不靈活零代碼簡單/依賴模型能力抽象層次過高,導致難以滿足所有復雜業(yè)務場景的邏輯,靈活性受限。其底層引擎與管控通常部署在—起,這種架構限制了Agent的性能和可擴展性AgentScopeAgentic抽象,在模型自主性與業(yè)務確定性之間找到最佳平衡點PCLLM模型…PCLLM模型…標準智能體定義范式上下文與狀態(tài)管理分布式智能體協(xié)作Lite-TopicTopic2Topic2MessagetoLite-TopicLLM?MessagetoLite-TopicLLM通義千問通過超時重試、Failover、灰度并發(fā)控制、通義千問通過超時重試、Failover、灰度并發(fā)控制、地圖搜索聊天統(tǒng)一加密管理API-key,分配內部細粒度API-通過語義緩存、cache、RAG加速AI請求降低Token消耗。AgentAgent百煉Agent/Token。AI開發(fā)插件集語義緩存提示詞模板提示詞裝飾器請求/響應轉換代理插件多模型適配協(xié)議轉換APIHigress通義/百煉/PAI內置AI網關,每天億級多模態(tài)請求生產驗證AI開發(fā)插件集語義緩存提示詞模板提示詞裝飾器請求/響應轉換代理插件多模型適配協(xié)議轉換APIAI安全防護集成安全護欄Token限流插件Token配額插件可觀測可用性告警LLM訪問日志可用性告警Token消費觀測軟硬一體TLS卸載Gzip壓縮/解壓縮入口可控、配置可信、內容可審的全鏈路安全mTLS消費者認證mTLSJWT三方認證服務JWT基于Token的優(yōu)先級調度和動態(tài)自適應的限流客戶端LLM2freefreefree客戶端LLM2freefreefree以數據為中心,持續(xù)建設高質量數據集,訓練競爭壁壘AAAABBBBBBLLM2LLM2可觀測數據上報可觀測數據上報模型訓練微調評估結果實時在線評估實時在線評估《AI原生應用架構白皮書》《AI原生應用架構白皮書》開放下載ServerlessAI應用運行時:從函數計算到函數智能——Serverless到ServerlessAI讓AI應用開發(fā)更簡單世如(史明偉)阿里云云原生—Serverless—函數計算&AI研發(fā)負責人02ServerlessAI運行時AI應用組成核心抽象發(fā)生變化傳統(tǒng)應用開發(fā)AI應用開發(fā)智能體知識庫記憶/工具服務智能體知識庫記憶/工具服務數據庫大語言模型數據庫大語言模型AI應用研發(fā)的關注點發(fā)生變化傳統(tǒng)應用開發(fā):如何確保業(yè)務邏輯正確穩(wěn)定運行AI應用開發(fā):如何最大可靠的發(fā)揮LLM價值業(yè)務邏輯基礎設施業(yè)務邏輯基礎設施基礎設施AI時代開發(fā)者關注業(yè)務創(chuàng)新而非基礎設施IntheAlera,developersfocusonbusinessinnovationratherthaninfrastructureServerless是AI原生架構的最短實現路徑無彈性或分鐘級彈性狀態(tài)管理復雜依賴Redis/DB管理,故障恢復復雜,跨節(jié)點遷移幾乎不可行API驅動依賴網關/MQ實現同步和異步調用或,微服務架構協(xié)作復雜度高運維負擔沉重環(huán)境,自建監(jiān)控日志代價高按請求彈性,毫秒/秒級供給資源,支持低峰縮持快照或會話管理,自帶3AZ容災×從傳統(tǒng)架構到AI原生架構?從×從傳統(tǒng)架構到AI原生架構架構原子化解耦,協(xié)作更容易安全隔離的多語言運行環(huán)境,VM/容器運行時AI時代需求AI原生范式對基礎設施提出全新的要求TheAInativeparadigmplacesnewdemandsoninfrastructure構建支持AIAgent的高效基礎設施Agent-Centric基礎設施的核心服務對象從“人類State-State-First和工具之間的協(xié)作依靠事件驅和工具之間的協(xié)作依靠事件驅格”載體,基礎設施必須原生支持狀態(tài)的持久化、低延遲訪問狀態(tài)優(yōu)先任務驅動協(xié)作EmbraceUncertainty通過基礎設施能力降低風“防御性編程”轉向“容錯自愈”接受不確定性從Serverless到ServerlessFromserverlesstoserverlessAlServerlessAI運行時是AI原生應用的最佳選擇模型模型智能體工具異構算力會話管理輕量經濟ServerlessServerlessAI運行時ServerlessxAI,讓應用開發(fā)更簡單serverlessxAIMakesApplicationDevelopmentEasier函數計算FC:Gartner魔力象限領導者,Forrester全球領導者象限(亞太),02ServerlessAI運行時Functioncompute(FC):serverlessAIruntime0運維、輕量、經濟、彈性50+50+Python/Node/Java/PHP/Go/.NET等行時和自定義鏡像,便于靈活定制異構算力ServerlessAI運行時生態(tài)集成模型服務Qwen,DeepSeek,etc.ComfyUI模型服務Qwen,DeepSeek,etc.ComfyUI,SD,etc.智能體Agent低代碼編排、高代碼編碼0不使用不計費按請求調度,毫/秒計費,低峰自動縮0Java8~21…規(guī)格粒度最小規(guī)格:FC0.05C128MB,Web函數任務函數產品集成,事件驅動云產品Serverless產品集成,事件驅動云產品Serverless化安全隔離,自動容災沙箱容器2.0快速交付,極致彈性資源池化2.0高密部署,主動調度第四代神龍架構CPU算力(x86)XPU算力CPU算力(x86)XPU算力智能體/工具運行時關鍵技術keyTechnologiesofAgentToolRuntime函數計算FC:沙箱即服務、Session親和/隔離架構、毫秒級啟動與按需付費業(yè)界領先的開箱即用、多語言代碼安全執(zhí)行引擎沙箱即服務服務化:提供業(yè)界領先的開箱即用、多語言代碼安全執(zhí)行引擎沙箱即服務服務化:提供CodeInterpreterAPI、BrowserAPI內置開發(fā)環(huán)境:Python/Node.js/Java/PHP/Shell/.NET等50+多語言環(huán)境,支持OCI標準鏡像和自定義運行時靈活擴展標桿客戶沙箱即服務服務化API,支持十萬函數百萬實例級別的沙箱執(zhí)行智能體運行時智能體運行時開源開放:與AgentScope、LangChain、LlamaIndex等主流開發(fā)框架集成毫秒級啟動與按需付費:強隔離、突破性上下文保持,啟動效率領先傳統(tǒng)容器方案100倍,按需使用,按量付費,低峰縮0成本最優(yōu)Serverless級Session親和/隔離架構負載感知調度,按會話彈性伸縮,支持會話親和/會話隔離,會話存儲隔離智能體運行時CPU零運維,毫秒級啟動,最大支持2w實例/分鐘極速交付,免費提供3CPU零運維,毫秒級啟動,最大支持2w實例/分鐘極速交付,免費提供3AZ自動容災構算力組裝式開發(fā),彈性開放,按需選擇Agent開發(fā)AgentRun插件廣場模型托管組裝式開發(fā),彈性開放,按需選擇Agent開發(fā)AgentRun插件廣場模型托管FunctionAI一鍵創(chuàng)建應用無縫升級AI應用開發(fā)范式應用開發(fā)應用市場AI運行時內置vLLM,SGLang,AI運行時內置vLLM,SGLang,Ollama,HuggingFace推理框架STDIO零改造升級SSE開源模型/智能體應用增強模型托管服務提供GPU資源的按需和極速模式,在保留用戶原有長持預留GPU的使用形態(tài)下,通過區(qū)分GPU實例的忙閑時刻,閑時定價大幅低于忙時定價,幫助客戶大幅降低AI落地成本,同時保證模型冷啟動推理耗時。?低延時:規(guī)避GPU按量場景下的冷啟動?降成本:對比K8S自建,大幅降低AI落地成本?保交付:GPU緊張背景,確定資源交付,保證業(yè)務永續(xù)對象存儲OSS應用應用傳統(tǒng)的在線推理場景傳統(tǒng)的在線推理場景延時高度變化,負載高度不確定,偏C端的應用形態(tài),日均資源利用率普遍較低;例如:傳統(tǒng)的CV類模型(OCR)、NLP模型(機器翻譯)新興的大模型推理場景AIGC浪潮下的新興推理應用,LLM文生文、StableDiffusioFunASR文生音頻等業(yè)務場景電商場景廣告場景電商場景廣告場景教育場景游戲場景輔助設計場景AIGC圖像生成模型廣場模型廣場實例登陸工作流廣場基礎功能應用監(jiān)控文件管理實例登陸工作流廣場基礎功能應用監(jiān)控文件管理彈性API應用運維異步調用彈性API應用運維異步調用場景功能LoRA場景功能LoRA訓練基礎設施對象存儲對象存儲OSS文件存儲AgentRun:Agent基礎設施平臺集成零運維、極致彈性、按量付費,Serverless助力大規(guī)模Agent開發(fā)、部署與運維平臺集成高代碼高代碼AgentScopeAgentScopeLangchainLlamaIndex低代碼低代碼QwenQwen百煉魔搭智譜Flow智譜Flow模式AI自動生成快速創(chuàng)建模式AgentRunAPI&SDK運行時代碼解釋器代理身份憑證異步通信運行時代碼解釋器代理身份憑證異步通信瀏覽器可觀測存儲記憶開源托管開源托管ComfyUI函數計算FCComfyUI函數計算FC云工作流網關RocketMQSLS/ARMS/云監(jiān)控AgentFlow:穩(wěn)定高性能的低代碼Agent開發(fā)平臺交互式開發(fā)(交互式開發(fā)(AIStudio)觸發(fā)器工作流引擎觸發(fā)器標準工作流(標準工作流(Standard)快速工作流(Express)定時觸發(fā)定時觸發(fā)消息隊列…畫布&視圖AIStudioCloudStudioLLM/Agent條件分支/并行/迭代知識檢索更多LLM/Agent條件分支/并行/迭代知識檢索更多…基礎組件工具拓展FunctionCallMarkplace工具拓展FunctionCallMarkplace代碼執(zhí)行代碼執(zhí)行可觀測可觀測/可運維/可靠交付沙箱隔離/彈性擴縮流量灰度沙箱隔離/彈性擴縮流量灰度版本管理版本管理/草稿MCP為LLM連接數據源和工具提供了標準化的方法?內置MCPProxy,存量STDIO無改造直接生成SSE/StreamableHTTP服務,且具備單實例多并發(fā)能力?發(fā)布MCP會話親和性調度,保證相同sessionID會話綁定到相同實例,具備會話配額控制保證單實例會話公平、MCP會話優(yōu)雅升級?發(fā)布長連接閑置計費,最高降低87%成本?提供模板一鍵部署、自定義MCP服務,滿足開源托管以及二次開發(fā)需求?提供隱私變量管理、服務鑒權、內網訪問能力,本地STDIO協(xié)議無需改造即可提供安全的企業(yè)級服務Serverless運行時實踐探索ExploringserverlessRuntimepractices2萬+熱門模型一鍵托管到云上環(huán)境模型開箱即用,DevPod二次開發(fā),彈性交付GPU,低峰縮0內置vLLM/SGLang/Ollama/2萬+熱門模型一鍵托管到云上環(huán)境模型開箱即用,DevPod二次開發(fā),彈性交付GPU,低峰縮0內置vLLM/SGLang/Ollama/LMDeploy推理框架最快30s將開源模型轉化為生產級OpenAI兼容APIServerless模型運行時業(yè)界首個全生命周期MCP服務市場零改造將開源STDIOMCP升級為SSE/StreamableHTTP原子化解耦,MCPServer冷熱分離,彈性伸縮RT抖動少MCPSSE親和調度,閑置計費,低峰自動縮0成本最優(yōu)Serverless工具運行時智能體助力Qwen助力Qwen3-Coder成為領先的的代碼模型50+內置多語言運行環(huán)境,代碼執(zhí)行延遲<100ms會話親和/隔離架構,滿足Agent/Sandbox上下文保持需求零運維、毫秒級彈性、按量付費的企業(yè)級安全沙箱,兼容E2BServerless智能體運行時Serverless運行時已經成為阿里云AI原生應用的核心載體函數計算FC承載百煉高代碼Agent托管百煉是阿里云專門為生成式AI開發(fā)而設計的模型推理服務平臺。平臺圍繞LLM推理服務提供了AI應用開發(fā)一站式服務,包括簡單智能體應用,工作流應用和高代碼應用托管,幫助AI應用開發(fā)者快速構建智能體應用。平臺智能體運行時托管基礎設施選擇,必須滿足當下AIAgent應用運行時的核心能力要求,同時需要滿足平臺在資源管理,安全可靠和用戶交付效率等方面諸多核心苛刻訴求。部署方案客戶挑戰(zhàn)部署方案?安全可靠的運行環(huán)境:平臺提供了一站式AI智能體應用創(chuàng)建,其中高代碼Agent應用由平臺用戶提供代碼并創(chuàng)建,代碼質量及安全風險的不確定性,代碼運行的安全性是平臺高代碼Agent托管的第一考慮因素;?計算資源難管理問題:Agent應用實例的資源規(guī)格不固定,項目部署之后QPS高峰和低峰方差極大,計算資源實例數不確定。這些特點導致客戶無法預估或儲備計算資源,要么就是頂著高昂成本往大了儲備,要么就是計算資源不夠導致業(yè)務出問?智能體生態(tài)原生適配:函數計算平臺作為AgentScope框架官方運行時,提供了Agent和Sandbox運行時必要的原生能力支持,保障Agent和工具的高效、穩(wěn)定,安全運行,產品原生會話隔離能力,每個會話提供嚴格的資源隔離,數據隔離,網絡隔離,同時提供匹配Agent忙閑時運行特征的TTL定義和計費模式支持,是Agent和Sandbox部署的首選。方案亮點?原生支持面向Session的親和調度和隔離能力,無縫適配Agent運行時需求;(唯一的計算產品產品化支持)?原生支持面向Session維度的生命周期管理和忙閑時TTL定義,支持會話請求優(yōu)雅結束;?平臺支持面向請求的快速擴容能力,已部署Agent有突發(fā)請求到來時支持快速擴容,核心地域起始支持600并發(fā);?平臺支持沒有調用時實例縮容到0,支持縮0前的Idle時?平臺支持定義無請求閑置狀態(tài)最小實例數,無請求時只按內存計費,費用是活躍1/10,并在1ms內快速響應請求;?平臺支持實例生命周期管理,提供Initializer,PreStop等運行時Hook機制支持業(yè)務自定義實例生命周期管理;?平臺支持多種存儲介質掛載,滿足各類存儲機制。(NAS,OS?平臺支持會話粒度實例之間強隔離實例隔離,網絡隔離,存儲?平臺支持限流、降級、熔斷,防止惡意請求和非法業(yè)務,基于版本/別名的A/B測試、灰度等策略;?平臺支持HTTP觸發(fā)器,提供BearerAuth、BasicAuth多種認證模式、支持多域名、多路由統(tǒng)一管理;?平臺支持API網關,AI網關,ALB原生集成能力,支持自定義域名配置;機器人端接收圖像,通過與亞毫米精度工業(yè)機械臂等設備的協(xié)作,xbot機器人能夠實現像素機器人端接收圖像,通過與亞毫米精度工業(yè)機械臂等設備的協(xié)作,xbot機器人能夠實現像素像摳臉+風格化處理。(人像摳臉如用工作流實現不夠精細,可結合阿里云人臉檢測與五官定位模型進行前序處理)客戶端生圖2.客戶端調用API進行圖片風格化處理賽博朋克古風美人職場麗人校園女神智譜AgentRun案例:提供安全高效的Sandbox和服務運行環(huán)境率,降低資使用源成本動的Agent提供干凈獨占的運行環(huán)境Trace支持AgentFlow行業(yè)案例:社區(qū)內容審查客戶Z作為中國最大的問答社區(qū)之一,每天面臨海量內容審核需求,傳統(tǒng)人工審核方式效率低下,難以應對突發(fā)流量。解決方案基于AIStudio工作流引擎構建LLM內容審查系統(tǒng),采用多級審核流程:?第一級:基于規(guī)則的快速過濾?第二級:LLM語義理解和上下文分析?第三級:人工確認和反饋學習?利用AIStudio高吞吐特性,支持1000QPS的內容審核需求?沙箱環(huán)境確保敏感內容處理安全性?彈性伸縮應對突發(fā)流量,降低資源成本聯合魔搭社區(qū)發(fā)布最大MCP中文社區(qū),聯合百煉發(fā)布業(yè)界首個全生命周期MCP服務市場,將MCP沉淀為平臺資產快速開發(fā)和部署MCP快速開發(fā)和部署MCP服務STDIO零改造升級為MCP百煉全周期MCP百煉全周期MCP服務/welcomeAgentRun:Agent開發(fā)基礎設施Q9奧運會全球指定云服務商企業(yè)級MCP網關最佳實踐從基礎到大規(guī)模場景的演進之路澄潭阿里云AI網關研發(fā)Higress開源項目負責人Q9奧運會全球指定云服務商企業(yè)MCP落地挑戰(zhàn)隨著大型語言模型(LLM)與AIAgent應用的爆發(fā),模型上下文協(xié)議(MCP)已成為連接AI與外部工具、數據和服務的標準橋梁。然而,在企業(yè)環(huán)境中落地MCP面臨著三大核心挑戰(zhàn): 存量API"利舊"難 MCP生態(tài)"集成"亂 3海量工具"治理"爆Q9奧運會全球指定云服務商MCP-Proxy代理統(tǒng)一代理與會話保持HigressMCP網關的基礎能力是實現"連接",即讓AIAgent能與企業(yè)內外的服務"對話MCP-Proxy代理統(tǒng)一代理與會話保持REST-to-MCP轉換讓存量API煥發(fā)新生Q9奧運會全球指定云服務商REST-to-MCP:盤活存量資產企業(yè)最大的資產之一是業(yè)已存提供了將OpenAPI(Swagger)規(guī)范一鍵轉換為MCPServer的此功能讀取您已有的OpenAPI規(guī)范文件,自動將其中的API路徑、參數、描述等信息,批量轉換為MCPserver和tools規(guī)范配置。假設您的電商部門有一個orders.jsonSwagger文件,里面定義了GET/api/v1/getOrderInfo?order_id={id}這樣一個查詢訂單的API。?未使用Higress前:AIAgent無法使用它,需要專門寫一個MCPServer來"包裝"這個API?使用Higress后:只需運行openapi-to-mcpinputorders.json--outputorders-mcp.yaml命令,瞬間盤活存量資產基礎能力:MCP-Proxy統(tǒng)一代理入口屏蔽后端異構性,提供一致、安全的服務奧運會全球指定云服務商統(tǒng)一對接MCP客戶端統(tǒng)一安全認證統(tǒng)一安全認證統(tǒng)一對接MCP后端統(tǒng)一協(xié)議適配(統(tǒng)一協(xié)議適配(協(xié)議卸載,SSE=StreamableHTTP)統(tǒng)一可觀測性Q9奧運會全球指定云服務商您集成了A股行情MCP服務,它通過SSE長連接推送實時股價。您在K8s集群中部署了3個該服務的實例。當用戶A的連接建立在實例A上時,如果下一次心跳或請求被負載均衡到實例B,連接將失敗。只需在Ingress注解中設置higress.io/load-balance:mcp-sse。Higress會智能地將實例A的后端地址信息Base64編碼后,嵌入到返回給用戶的sessionID中。當用戶A再次持此sessionID請求時,Higress能精確解析出該ID,并始終將其路由回實例A,從而完美保證了有狀態(tài)SSE的會話一致性。Q9奧運會全球指定云服務商當基礎連接跑通后,企業(yè)會立刻面臨“體驗”,“效率”和“安全”的進階挑戰(zhàn)。 3統(tǒng)一認證和權限控制 3統(tǒng)一認證和權限控制企業(yè)級安全保障 協(xié)議卸載讓后端服務"減負" 讓LLM"看懂"API返回的數據Q9奧運會全球指定云服務商響應調優(yōu):讓LLM理解API僅僅轉換API是不夠的,因為許多存量API的文檔質量堪憂,字段描述缺失或充滿領域“黑話”。深度定制深度定制(TemplateDSL)方案:使用Higress的模板DSL和gjson路徑表達式,對響應體進行"重塑"。效果:在responseTemplate.body中定義新結構,徹底丟棄原始的復雜JSON,轉而返回一個LLM極易理解的清爽JSON。這不僅節(jié)省了Token,還從根本上杜絕了LLM的錯誤解讀?;A調優(yōu)(prependBody)問題:舊API返回{"succ":true,"data":{"p_name":"...","p_id":"..."}},LLM完全無法理解p_name解決:在Higress配置中添加responseTemplate.prependBody,自動在前面追加注釋:"#API響應說明:p_name是產品名稱,p_id是產品ID。"協(xié)議卸載:智能翻譯官客戶端請求Agent發(fā)起無狀態(tài)的StreamableHTTP短連接請求將請求轉換為有狀態(tài)的SSE長連接后端處理SSE服務處理并返回數據流234MCP生態(tài)存在兩種傳輸協(xié)議:StreamableHTTP(無狀態(tài)短連接)和客戶端請求Agent發(fā)起無狀態(tài)的StreamableHTTP短連接請求將請求轉換為有狀態(tài)的SSE長連接后端處理SSE服務處理并返回數據流234網關將SSE響應轉回StreamableHTTP格式核心價值:后端服務可以隨意進行滾動更新、擴縮容,甚至實例重啟,而客戶端的連接完全不受影響。網關屏蔽了底層的復雜性,極大提升了系統(tǒng)的健壯性。奧奧運會全球指定云服務商Q9奧運會全球指定云服務商上游認證上游認證Key:<backend_secret>去請求后端API頭中攜帶Authorization:Bearer <client_token>,否則拒絕訪問對于"查詢用戶個人信息"等API,可以開啟passthrough,將client_token原封不動地傳遞給后端,實現端到端的精細化權限控制Agent使用工具的“最小權限原則”QR9奧運會全球指定云服務商企業(yè)版精準控制(安全可控)Higress網關作為安全屏障,確保每個企業(yè)版精準控制(安全可控)Higress網關作為安全屏障,確保每個AIAgent只擁有完成任務所需的最小權限。案例一:AI客服(消費者A)?refund-order(不可見)?view-analytics(不可見)案例二:財務Agent(消費者B)?view-analytics(不可見)結果:從源頭杜絕高危操作風險,實現最小權限原則。無權限控制(高風險)?惡意用戶:發(fā)起提示詞注入攻擊,試圖誘導AI執(zhí)行非授權操作。AI客服擁有的工具列表(無篩選):結果:嚴重的安全事故和資損風險。核心價值:Higress企業(yè)版通過產品化能力,為每個Agent消費者綁定專屬工具集,確保AI行為始終在安全、可控的范圍內。Q9奧運會全球指定云服務商當工具數量從幾十個激增到幾百甚至幾千個時,LLM的上下文窗口(Context)會立刻被"撐爆"。這會導致: 延遲飆高處理時間呈指數級增長 3準確率下降LLM在海量工具中"迷失" 成本激增海量工具描述占用大量TokenQ9奧運會全球指定云服務商方案一:MCP工具組裝工具規(guī)模中等(幾十到上百個),且Agent的任務目標明確虛擬MCP服務問題:一個email-server可能包含20個工具(發(fā)送、讀取、刪除、搜索、草稿等),但解決方案:Higress允許您在控制臺上創(chuàng)建一個"虛擬MCP服務"。您從email-Agent只加載這個虛擬服務,它的上下文中永遠只有2個工具。這從源頭上節(jié)省了方案二:MCP工具語義化檢索適用場景:工具規(guī)模巨大(數千個),Agent任務不固定,需要動態(tài)發(fā)現工具Agent拿到精選的5個工具列表進行下一步調用QR9奧運會全球指定云服務商Q9奧運會全球指定云服務商方案三:MCP工具精選適用場景:追求極致性能和透明體驗,希望在不改變Agent和LLM的前提下,智能優(yōu)化海量工具請求在到達LLM之前被結合上下文歷史理解用戶意圖Rerank精排實時相關性打分動態(tài)過濾將精選后的請求轉發(fā)給7x~6%工具精選優(yōu)化核心價值:LLM從未感知到500個工具的存在,它只看到了網關精選后的5個,因此響應速度和準確率極高。這是最智能的透明中間件方案。Thanks阿里云大模型可觀測方案阿里云可觀測01AI應用運維過程中遇到的難題ChallengesinAIApplicationO&M02阿里云AI應用可觀測方案DetailsofAIApplicationObservabilitySolution03AI應用觀測最佳實踐行業(yè)大模型垂直大模型其他大模型PromptLearning/SFT/RLHF通用基礎大模型行業(yè)大模型垂直大模型其他大模型PromptLearning/SFT/RLHF通用基礎大模型應用開發(fā)平臺應用開發(fā)平臺應用編排集成框架應用編排集成框架一個典型的AI原生應用架構及可觀測訴求模型服務層托管模型服務通義千問DeepSeek模型服務層托管模型服務通義千問DeepSeekOpenAI…….自建模型服務AI網關AI網關用戶業(yè)務層客戶端Web小程序AndroidLLM應用LLM應用LLM鏈路上下文鏈路上下文鏈路上下文鏈路上下文鏈路上下文鏈路上下文鏈路上下文鏈路上下文LLM應用開發(fā)平臺/編排集成框架(Dify/Langchain/Llamalndex)敏感信息過濾PythonAgent流量防護WAF防護通義千問DeepSeekLlama3…….Cache/RAG服務發(fā)現Cache/RAG推理加速框架(SGLang/VLLM等)向量數據庫向量數據庫緩存對象存儲…….GPU集群…….模型調用端到端鏈路追蹤基于ARMS構建Trace系統(tǒng),實現用戶終端、網模型調用端到端鏈路追蹤基于ARMS構建Trace系統(tǒng),實現用戶終端、網應用、模型服務、外部依賴工具等全鏈路追蹤。模型日志存儲與評估分析基于SLS構建統(tǒng)一日志分析平臺,對模型調用日志進次評估分析,實現質量、安全、意圖提取等語義檢測。AI全棧統(tǒng)一監(jiān)控AI全棧統(tǒng)一監(jiān)控析、Token成本分析、GPU資源異動分基礎資源問題基礎資源問題成本問題模型推理問題全棧監(jiān)控云監(jiān)控2.0端到端診斷提供常見智能體和智能應用框架的無侵入埋點追蹤,為問題診斷排查提供全鏈路數據支持AI應用可觀測AI訓練洞察成本優(yōu)化New全棧監(jiān)控云監(jiān)控2.0端到端診斷提供常見智能體和智能應用框架的無侵入埋點追蹤,為問題診斷排查提供全鏈路數據支持AI應用可觀測AI訓練洞察成本優(yōu)化New端到端診斷語義分析/評估端到端診斷語義分析/評估應用監(jiān)控應用監(jiān)控成本分析成本分析應用觀測模型鏈路模型日志模型調用監(jiān)控安全診斷模型監(jiān)控模型鏈路模型日志模型調用監(jiān)控安全診斷模型監(jiān)控容器調度觀測服務監(jiān)控推理引擎監(jiān)控容器調度觀測服務監(jiān)控推理引擎監(jiān)控AI應用和智能體框架質量安全評估NewAI應用和智能體框架質量安全評估New自動化評估,涵蓋語義分析、輸出質量、安全靈駿節(jié)點監(jiān)控GPU主機監(jiān)控CPFS存儲監(jiān)控80+監(jiān)控大盤一鍵安裝接入一鍵安裝接入機制注入探針,支持批量規(guī)?;詣咏尤肼顸c更精細針對框架埋點豐富優(yōu)化,提供豐富的指標,支持用戶添加自性能穩(wěn)定性埋點上報開銷優(yōu)化,降低應用性能影響,通過管控策略可以進一步降低開銷在可控范圍擁抱開源,面向大模型應用量身打造指標指標指標指標指標指標OpenTelemetryOpenTelemetrySemanticConventionCallbackCallback/Decorator/MonkeyPatchingOpenTelemetryOpenTelemetryPythonInstrumentation采樣策略采樣策略指標預聚合指標預聚合發(fā)散收斂發(fā)散收斂持續(xù)剖析動態(tài)配置動態(tài)配置插件擴展插件擴展AI全棧統(tǒng)一監(jiān)控推理邏輯異常處理組件可用性中間件可用性模型服務穩(wěn)定性模型效果模型成本K8S/GPU資源異動服務組件可用性模型應用監(jiān)控監(jiān)控監(jiān)控監(jiān)控監(jiān)控模型服務監(jiān)控模型服務監(jiān)控基礎設施基礎設施監(jiān)控一鍵安裝接入一鍵安裝接入機制注入探針,支持批量規(guī)?;詣咏尤肼顸c更精細針對框架埋點豐富優(yōu)化,提供豐富的指標,支持用戶添加自性能穩(wěn)定性埋點上報開銷優(yōu)化,降低應用性能影響,通過管控策略可以進一步降低開銷在可控范圍擁抱開源,面向大模型應用量身打造指標指標指標指標指標指標OpenTelemetryOpenTelemetrySemanticConventionCallbackCallback/Decorator/MonkeyPatchingOpenTelemetryOpenTelemetryPythonInstrumentation采樣策略采樣策略指標預聚合指標預聚合發(fā)散收斂發(fā)散收斂持續(xù)剖析動態(tài)配置動態(tài)配置插件擴展插件擴展包含應用視角,用戶視角,模型視角等對于Token包含應用視角,用戶視角,模型視角等對于Token消耗提供各個維度的分析結合AI網關,提供各維度的Token限額基于LLM實現模型生成結果自動化評估系統(tǒng)評估(內置10+模板)降低門檻、自定義評估深度提升生成效果。一站式Embedding/向量索引、向量和關鍵字混合檢索簡化開發(fā)流程評估結果數據加工Prompt/Response上下文ScheduleSQL評估指令系統(tǒng)評估模板模型評估通義千問DeepSeek評估結果數據加工Prompt/Response上下文ScheduleSQL評估指令系統(tǒng)評估模板模型評估通義千問DeepSeekOpenAI倒排索引列存倒排索引列存Embedding模型dashcope關鍵字查詢聚類查詢AgentAgent準確性相關性幻覺檢測合規(guī)檢測仇恨檢測道德評估語義搜索一站式Embedding/向量搜索構建IVF-SQ高壓縮率向量索引毫秒級向量索引向量和關鍵字混合檢索評估,為了更好的生成評估,為了更好的生成?結合AI網關對異常MCP調用進行限流移動端智能終端車機終端其他生態(tài)終端API網關云原生API網關API管理流量防護服務發(fā)現服務發(fā)現AIAgentServerless應用引擎Serverless應用引擎WorkFlow/AlWorkFlow/AlFramework/PromSpringAlAlibabaAI網關/MCP網關云原生API網關Token限流綠網/敏感信息過濾Tools/MCP通義千問通義千問工具箱OpenTelemetry可觀測標準協(xié)議LLMObservabilityvLLM/SGLang推理性能可觀測實戰(zhàn)某業(yè)務通過AI網關調用自建DeepSeek模型服務發(fā)現請求耗時很高排查某業(yè)務通過AI網關調用自建DeepSeek模型服務發(fā)現請求耗時很高排查理階段耗時非常高。通過調用鏈和指標關聯,排查同一時刻相關指標是否異常量激增,同時出現較多的排隊請求增大推理引擎中請求隊列的大小配置streamingresultsstreamingresultsCentralizedControllerSchedulerWorker.modelvllm/model_executor/mCacheEnginevllm/worker/cache_engine.pyPagedAttentionvllm/model_executor/layeWorkerLLMEngineLLMEnginevllm/engine/llm_engine.pyDistributedWorkersDistributedWorkersBlockSpaceManagerBlockSpaceManagervllm/core/block_manager.pyBlockAllocatorBlockAllocator(GPU/CPU)vllm/core/block_manager.pyApacheRocketMQforAI:全面擁抱企業(yè)級AI應用楊文婷阿里云智能集體產品專家01企業(yè)級AI應用開發(fā)的新挑戰(zhàn)AI業(yè)務特點和典型業(yè)務場景AI業(yè)務特點任務處理耗時長(分鐘級到小時級)算力資源稀缺且成本高昂AI業(yè)務特點任務處理耗時長(分鐘級到小時級)算力資源稀缺且成本高昂算力利用率與業(yè)務峰谷波動矛盾消息隊列在消息隊列在AI應用中的作用?異步通信:消除長耗時同步調用阻塞?流量治理:平滑請求峰谷,緩解后端處理壓力?定速消費:保護后端關鍵算力資源?智能調度:基于優(yōu)先級的算力分配全新LiteTopic模型,AI應用異步鏈路的最佳解決方案可創(chuàng)建百萬級數量的資源輕量資源自動化生命周期管理自動創(chuàng)建+自動刪除高性能訂閱每個消費者可訂閱萬級數量LiteTopic可創(chuàng)建百萬級數量的資源輕量資源自動化生命周期管理自動創(chuàng)建+自動刪除高性能訂閱每個消費者可訂閱萬級數量LiteTopic排它消費一個LiteTopic只允許一個消費者訂閱訂閱關系1選擇訂閱每個消費者可訂閱不同LiteTopic集合順序性每個LiteTopic下的消息默認是順序的訂閱關系2(Subscription2)2025.10正式發(fā)布訂閱關系3(Subscription3)模型能力特點模型能力特點場景痛點1.Agent間的調用阻塞問題2.大規(guī)模協(xié)作擴展性問題場景痛點1.Agent間的調用阻塞問題2.大規(guī)模協(xié)作擴展性問題方案優(yōu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論