2025網(wǎng)關(guān)的演進(jìn)在AI原生架構(gòu)實(shí)踐_第1頁
2025網(wǎng)關(guān)的演進(jìn)在AI原生架構(gòu)實(shí)踐_第2頁
2025網(wǎng)關(guān)的演進(jìn)在AI原生架構(gòu)實(shí)踐_第3頁
2025網(wǎng)關(guān)的演進(jìn)在AI原生架構(gòu)實(shí)踐_第4頁
2025網(wǎng)關(guān)的演進(jìn)在AI原生架構(gòu)實(shí)踐_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

網(wǎng)關(guān)的演進(jìn)歷程以及在AI原生架構(gòu)實(shí)踐

2025目錄01

AI

時(shí)代,企業(yè)和程序員的新機(jī)會(huì)在哪?02

云原生網(wǎng)關(guān):Ingress

統(tǒng)一網(wǎng)絡(luò)通信協(xié)議的必然03

AI

網(wǎng)關(guān):調(diào)用LLM

API

的必備組件01

AI

時(shí)代,企業(yè)和程序員的新機(jī)會(huì)在哪?百模大戰(zhàn)->大模型盲測數(shù)據(jù)差距不大LMSYS

Org(Large

Model

Systems

Organization)盲測競技場:來自學(xué)術(shù)界的評測,加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校以及卡耐基梅隆大學(xué)的學(xué)生與教職員工共同組建。大模型的能力增長率趨緩,開源和閉源的距離越來越近AI

下半場:從卷模型到卷應(yīng)用AI

下半場:企業(yè)和應(yīng)用程序員的機(jī)會(huì)在哪里?選擇最適合應(yīng)用AI

的場景選擇效率最高的工程化路徑現(xiàn)階段哪些任務(wù)最適合AI

代理完成兩個(gè)方向大部分企業(yè)的機(jī)會(huì)大數(shù)據(jù)(Flink+ES)CPU手機(jī)APPPCIOT手機(jī)APPPC生態(tài)云原生應(yīng)用架構(gòu)MySQL/Redis/OSSK8sAI原生應(yīng)用架構(gòu)向量數(shù)據(jù)庫K8s大模型(專屬模型+通用模型)GPU催生新的生命力云原生網(wǎng)關(guān)AI網(wǎng)關(guān)云原生架構(gòu)&

AI

原生架構(gòu)無變化有變化RPC框架(Dubbo/Spring…)微服務(wù)1微服務(wù)2微服務(wù)3AI編程框架(LangChain/Lamaindex/Spring

AI/Dify…)Agent

1Agent

2Agent

3Spring

AI低代碼PyphonAI編程框架<<02

云原生網(wǎng)關(guān):Ingress

統(tǒng)一網(wǎng)絡(luò)通信協(xié)議的必然網(wǎng)關(guān)架構(gòu)的演進(jìn)歷程SOA架構(gòu)微服務(wù)架構(gòu)云原生架構(gòu)AI原生架構(gòu)實(shí)現(xiàn)快

維護(hù)成本高模塊化負(fù)載均衡服務(wù)管理RPC技術(shù)高密度部署原子、自治按量使用極致彈性單體架構(gòu)

垂直架構(gòu)流量網(wǎng)關(guān)(Nginx)微服務(wù)網(wǎng)關(guān)ESB云原生網(wǎng)關(guān)KubernetesAI應(yīng)用

Agent、輕量LLMAI網(wǎng)關(guān)伴隨軟件架構(gòu)的演進(jìn)網(wǎng)關(guān)形態(tài)也在持續(xù)進(jìn)化,K8s成為統(tǒng)一運(yùn)維界面,AI成為流量增長的核心驅(qū)動(dòng)力傳統(tǒng)網(wǎng)關(guān)模式流量網(wǎng)關(guān)、微服務(wù)網(wǎng)關(guān)、 安全、API網(wǎng)關(guān)四合一統(tǒng)一東西南北向流量集成WAF

數(shù)據(jù)面云原生網(wǎng)關(guān)Higress/云原生API網(wǎng)關(guān)K8sPodPodK8sPodPod南北向流量東西向流量新一代網(wǎng)關(guān)模式流量防護(hù)開放平臺(tái)流量網(wǎng)關(guān)Nginx微服務(wù)網(wǎng)關(guān)SCA服務(wù)發(fā)現(xiàn)服務(wù)治理安全防護(hù)K8sPodPodAPI

網(wǎng)關(guān)云原生網(wǎng)關(guān):Ingress

統(tǒng)一網(wǎng)絡(luò)通信協(xié)議后的必然差異化競爭力:服務(wù)治理、API

管理、AIGC基本競爭力:高性能、高可用基本、競零爭信力任:、高易性擴(kuò)能展、高。可差用異、化零競信爭任力、:易擴(kuò)服展務(wù)治理、云A原P生I管+理A、I

MAIeGeCtu。p廣州站高性能:軟硬一體加速響應(yīng)體驗(yàn)4、結(jié)合阿里大規(guī)模生產(chǎn)經(jīng)驗(yàn)從操作系統(tǒng)/網(wǎng)絡(luò)/內(nèi)核深度調(diào)優(yōu),性能提升40%1、傳輸性能高出約90%網(wǎng)關(guān)規(guī)格:16C32G

*

4

節(jié)點(diǎn)ECS

型號:七代機(jī)(ecs.c7.8xlarge)2、硬件加速HTTPS

QPS提升約112%,RT下降50%加速前加速后注:測試采用HTTPS短連接且關(guān)閉session

ticket復(fù)用。網(wǎng)關(guān)規(guī)格:1

核2

G

*

1

節(jié)點(diǎn),ECS

型號:七代機(jī)(ecs.c7.8xlarge

)3、硬件加速壓縮/解壓縮提升300%網(wǎng)關(guān)規(guī)格:2C4G*1

節(jié)點(diǎn)ECS

型號:八代機(jī)云原生+AI

Meetup廣州站易擴(kuò)展:+WASM,高效滿足更多的業(yè)務(wù)需求

網(wǎng)關(guān)自內(nèi)部2020.5上線,已在支付寶、釘釘、淘寶、天貓、優(yōu)酷、飛豬、口碑等阿里各業(yè)務(wù)系統(tǒng)中使用,數(shù)年以來可用率100%,無任何故障。歷經(jīng)多年雙11海量請求的考驗(yàn), 大促日可輕松承載每秒承載數(shù)

10萬筆請求,日請求量達(dá)到百億級別。CI/CD保障靜態(tài)代碼分析檢測配置合法性校驗(yàn)配置變更Drain機(jī)制優(yōu)雅升級過載保護(hù)本地緩存文件故障與容災(zāi)演練壓力測試大盤監(jiān)控與報(bào)警灰度與回滾機(jī)制大盤監(jiān)控與報(bào)警推空保護(hù)機(jī)制多可用區(qū)容災(zāi)高可用研發(fā)時(shí)內(nèi)存異常檢測

多線程競爭檢測單元與集成測試混沌測試變更時(shí)優(yōu)雅下線監(jiān)控報(bào)警運(yùn)行時(shí)技術(shù)積淀已久,歷經(jīng)多年雙11考驗(yàn),每秒承載數(shù)10萬筆請求高可用:SLA

99.95%異常自動(dòng)重啟數(shù)據(jù)流網(wǎng)關(guān)管控流DNS10.x.x.xWeb應(yīng)用防火墻RouterClusterWAF

FilterRatelimit

FiltersCustom

Filters自定義安全插件流量防護(hù)登錄認(rèn)證PodmTLS雙向認(rèn)證后端mTLS雙向認(rèn)證云原生API網(wǎng)關(guān)Auth

Filters零信任:默認(rèn)安全優(yōu)勢消費(fèi)者鑒權(quán)支持消費(fèi)者認(rèn)證&鑒權(quán)mTLS雙向認(rèn)證集成阿里云證書服務(wù)自動(dòng)更新支持mTLS雙向認(rèn)證,零信任支持硬件加速登錄認(rèn)證支持JWT/OIDC/自定義多種認(rèn)證登錄機(jī)制集成IDaaS對接支付寶,淘寶等三放認(rèn)證支持黑白名單流量防護(hù)支持應(yīng)用級和服務(wù)級流量控制Web應(yīng)用防火墻(WAF)更短用戶的請求鏈路支持路由級防護(hù)能力自定義插件提供默認(rèn)安全增加組件支持多語言自定義擴(kuò)展內(nèi)核優(yōu)勢采用數(shù)據(jù)面+控制面分離架構(gòu),防止控制面風(fēng)險(xiǎn)外溢到數(shù)據(jù)面采用WASM擴(kuò)展機(jī)制,控制操作范圍采用Envoy內(nèi)核安全規(guī)則熱更新03

AI

網(wǎng)關(guān):調(diào)用LLM

API

的必備組件AI

流量帶來的挑戰(zhàn)實(shí)踐探索Higress網(wǎng)關(guān)在阿里云內(nèi)部落地的AI場景介紹Higress通義App業(yè)務(wù)Server業(yè)務(wù)ServerHigress作為流量網(wǎng)關(guān),白屏操作支持長連接SSE/WebSocket,熱更新對長連接 流量無損支持流式傳輸,滿足AI大帶寬/高延時(shí)特性訴求支持多種安全認(rèn)證與限流防護(hù)AI應(yīng)用Higress業(yè)務(wù)網(wǎng)關(guān)業(yè)務(wù)網(wǎng)關(guān)Higress作為流量網(wǎng)關(guān),白屏操作支持長連接SSE/WebSocket,熱更新對長連接 流量無損支持流式傳輸,滿足AI大帶寬/高延時(shí)特性訴 求AI模型服務(wù)平臺(tái)HigressModelModel使用Ingress

配置路由,通過Ingress集成PAI的管控支持1W+超大路由/域名規(guī)模場景,多租共享集群模式,切換到Higress后路由配置生效RT

從原10分鐘降到30秒內(nèi)構(gòu)建完善可觀測體系A(chǔ)I模型目前

H

gr

s沉淀總結(jié)基于Higress在阿里云內(nèi)部的實(shí)踐探索,我們總結(jié)了AI應(yīng)用場景的五大特征AI網(wǎng)關(guān)大帶寬結(jié)合LLM上下文來回傳輸、高延時(shí)特性,AI場景對帶寬的消耗遠(yuǎn)超普通應(yīng)用,網(wǎng)關(guān)如果沒有實(shí)現(xiàn)較好的流式處理和內(nèi)存回收機(jī)制,容易導(dǎo)致內(nèi)存快速上漲。長高連延接時(shí)由AI場景常見的

Websocket和SSE協(xié)議決定,長連接比例很高,要求網(wǎng)關(guān)更新配置操作對長連接無影響,業(yè)務(wù)無感。AI觀測&成本AI基于Token的計(jì)量計(jì)費(fèi)方式需要網(wǎng)關(guān)具備強(qiáng)大的AI觀測能力;基于語義Cache來降低Token成本也需要網(wǎng)關(guān)具備語義分析與向量數(shù)據(jù)庫存取能力等。AI安全防護(hù)LLM推理響應(yīng)耗時(shí)高更容易被慢請求等進(jìn)行并發(fā)攻擊,并且LLM響應(yīng)內(nèi)容存在合規(guī)風(fēng)險(xiǎn),需要網(wǎng)關(guān)支持對LLM數(shù)據(jù)進(jìn)行合規(guī)校驗(yàn)、Token限流防護(hù)等。AI

P

r

oxy當(dāng)前LLM受限于算力等因素?zé)o法提供100%的正確率,而且作為AI應(yīng)用開發(fā)者考慮到不同模型之間的價(jià)格差異,需要網(wǎng)關(guān)對接多個(gè)不同的

LLM模型來保證穩(wěn)定性與控

制成本。AI網(wǎng)關(guān)的先行者:AI能力原子化,國內(nèi)首推AI插件集AI

開發(fā)插件集LLM

緩存提示詞請求/響應(yīng)轉(zhuǎn)換向量檢索LLM

訪問日志Token

消費(fèi)觀測可用性告警可觀測AI

統(tǒng)計(jì)插件插件開發(fā)工具插件編程AI助手插件代碼WebIDE通義千問月之暗面智譜清言O(shè)penAIGoogleGemini……阿里云DashVector阿里云LindormRedis……阿里云內(nèi)容安全第三方SaaS服務(wù)LLMs向量數(shù)據(jù)庫AI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論