版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
主講人梁居寶實戰(zhàn)演示-實戰(zhàn)演示-AI運維04從“百模大戰(zhàn)”到“應用狂飆”AI基座大模型的迭代速度趨于放緩,而基于大模型的應用生態(tài)正在蓬勃發(fā)展,AI-enabled/AI-native應用層出AI原生應用AI-nativeApplicationsAI原生應用AI-nativeApplicationsAI是應用的“中樞神經(jīng)”,核心業(yè)務邏輯深度依賴AI技術(shù)AI賦能/增強應用AI-enabled/AI+Applications在現(xiàn)有應用中疊加AI模塊,AI作為輔助、增強工具存在AI基座大模型的市場格局趨于穩(wěn)定,迭代發(fā)展速度放緩,國內(nèi)外頭部大模型之間的一種能夠感知環(huán)境、自主決策并執(zhí)行動作以達成反應性反應性能夠?qū)χ車h(huán)境的變化和信息輸入做出及時響應學習能力通過經(jīng)驗不斷改進自身的性能和決策策略能在沒有人類直接干預的情況下自主運作學習能力通過經(jīng)驗不斷改進自身的性能和決策策略能在沒有人類直接干預的情況下自主運作擁有明確的目標或任務,并制定策略以實現(xiàn)這些目標AIAgent落地的核心技術(shù)AIAgent(智能體)是當前大模型應用落地的核心載體查資料能力使用工具能力Fine查資料能力使用工具能力Fine-Tuning領域?qū)<夷芰?RAG(檢索增強生成):讓AI先“查外部資料”再回答問題如何更便捷使用外部工具?):2封裝通用的協(xié)議,同一MCPServer可供不同大模型使用?將內(nèi)部工具、產(chǎn)品API、AIAgent封裝為MCP基于MCP連接騰訊云服務,管理云資源??云平臺傳統(tǒng)的管控方式依賴于官網(wǎng)控制臺、API,操作路徑復雜?不同AI客戶端、大模型的接入標準各異,調(diào)用云API的實現(xiàn)繁瑣通過MCP接入外部AI生態(tài),在元寶/元器等AI應用生態(tài)中創(chuàng)建一臺實例”為不同的大模型調(diào)用創(chuàng)建一臺實例”用戶將云產(chǎn)品MCPServer嵌入自己的AI智能體,探索更多用法在AI平臺發(fā)布我們的AI智能體,讓用戶對話式操控云資源3場景一:基于MCPServer高效運維CVM實例和排障效果演示演示場景*通過智能體快速創(chuàng)建CVM實例*快速排查實例高負載進程,并kill掉*快速查詢和管理CVM實例,安裝鏡像等應用價值*連接云生態(tài)與AI大模型應用生態(tài),拓展云服務的應用邊界*AI輔助用戶“隨時隨地對話式”管理操作云資源落地成效與未來展望*為社區(qū)貢獻計算產(chǎn)品系列MCPServer:CVM、LH、HAI、TAT等*基于MCP,構(gòu)建計算產(chǎn)品AI智能體*后續(xù)規(guī)劃:上架元寶/元器,供外部使用場景二:打通VibeCoding最后一個環(huán)節(jié),實現(xiàn)應用快速部署效果演示演示場景AI生成的簡單博客系統(tǒng),通過內(nèi)置規(guī)則讓AI完成項目部署:CVMMCP工具自動創(chuàng)建云服務器實例、完成密碼、安全組等配置,最終將項目部署到騰訊云CVM實例上,用戶可通過實例公網(wǎng)IP和項目端口直接訪問部署好的博客網(wǎng)站。應用場景*將本地代碼一鍵部署到遠端CVM實例,構(gòu)建測試/生產(chǎn)環(huán)境。*基于TAT提供的“帶內(nèi)”管理功能無需安裝任務軟件即可輕松上手。落地成效與未來展望*極簡上手,提升部署效率*增強安全與合規(guī)性后續(xù)規(guī)劃*降低運維成本與復雜度安全的試驗場AgentSandbox是什么?正如Docker重構(gòu)了軟件的交付方式,GitHub重),傳統(tǒng)安全沙箱誕生為分析計算機病毒和惡意軟件,創(chuàng)建隔離環(huán)境技術(shù)(如CuckooSandbox),允許安全研究人員在封閉環(huán)境中觀察惡意代碼行為。虛擬化技術(shù)普及VMware、Xen等虛擬化技術(shù)實現(xiàn)硬件資源分割,支持多操作系統(tǒng)隔離運行,但啟動慢(需分鐘級)、Docker通過容器技術(shù)實現(xiàn)輕量化隔離環(huán)境,解決環(huán)境一致性問題,具備秒級啟動、低資源占用和標準AWS推出專為無服務器計算設計的微虛擬機,結(jié)合虛擬機強隔離性與容器輕量化優(yōu)勢,實現(xiàn)毫秒級啟動和高密度部署。OpenAI在ChatGPT中集成代碼執(zhí)行能力,首次實現(xiàn)AIAgent的“思考+行動”閉環(huán),同時暴露AI代碼的安全風險(不可預測性、權(quán)限模糊)。專為AIAgent設計的沙箱服務,通過API提供安全隔離環(huán)境,支持毫秒級啟動、細粒度權(quán)限控制,后集成至LangChain生態(tài)?;贑VM基于CVM構(gòu)建臺,專為AI在云端安全運行任意代碼而設計,行行快速啟動多語言支持沙盒暫停/恢復(Persistence),支持一個月內(nèi)狀態(tài)保留。適應長時任務與間歇執(zhí)行場景沙盒暫停/恢復(Persistence),支持一個月內(nèi)狀態(tài)保留。適應長時任務與間歇執(zhí)行場景持久化狀態(tài)E2B的冷啟動與本地Docker相當,而熱啟動僅需150毫秒,顯著優(yōu)于本地Docker。內(nèi)存占用均保持在300MB。支持高并發(fā)任務調(diào)度。預置Python/JS環(huán)境,動態(tài)安裝第三方包(如pandas、matplotlib)。支持靈活適配數(shù)據(jù)分析與可視化需求基于MicroVM的獨立內(nèi)核,攔截危險系統(tǒng)調(diào)用,支持會話結(jié)束后自動擦除數(shù)據(jù),確保存儲安全,防止數(shù)據(jù)泄露。安全隔離在聊天Agent中,E2B可實時運行圖表代碼,為用戶提供即時的數(shù)據(jù)可視化和分析結(jié)果。E2B支持Pandas和Matplotlib,實現(xiàn)無縫可視化,助力AI數(shù)據(jù)分析的高效進行。E2B典型應用場景E2B典型應用場景E2B能夠支持多版本依賴的并行單元測試,顯著提升開發(fā)效率E2B支持復雜Agent,如Manus,可自動操作瀏覽器完成多步任務,滿足復雜的業(yè)務需求。主講人曹峻瑋騰訊云產(chǎn)品主講人曹峻瑋騰訊云產(chǎn)品云端AI助手“雙引擎”輕量應用服務器(輕量應用服務器(TencentCloudLighthouse)是騰訊云專為中小企業(yè)和開發(fā)者打造的新一代開箱即用、面向輕量級業(yè)務場景的云服務器產(chǎn)品,適用于在云端輕應用輕應用優(yōu)質(zhì)應用鏡像,一鍵部署秒級啟動應用輕體驗一站式融合常用基礎云服務輕體驗一站式融合常用基礎云服務極簡體驗輕輕運維可視化管理控制臺統(tǒng)一、智能、簡單易用輕投入計費清晰簡單輕投入計費清晰簡單高性價比2為開發(fā)者提供AI時代的“LAMP”輕量云面向開發(fā)者提供AIAgent版“LAMP”輕量應用服務器實例輕量應用服務器實例輕量云面向開發(fā)者提供AIAgent版“LAMP”需求開發(fā):實現(xiàn)核心業(yè)務邏輯,如集成模型、編寫Prompt、引入向量檢索與外部工具調(diào)試驗證:在沙箱環(huán)境調(diào)試、測試驗證,復現(xiàn)并修復錯誤與邊界情況,確保功能可用發(fā)布部署:將Agent部署至云端服務器,確保功能可用并完善監(jiān)控、告警等配置運行觀測:分析用戶使用日志、追蹤Agent執(zhí)行過程,檢查是否達到預期并持續(xù)優(yōu)化Agent沙箱:包含Runtime、代碼執(zhí)行隔離、瀏覽器控制Langfuse:為Agent提供全生命周期運行監(jiān)控觀測和管理Qdrant:為Agent提供向量數(shù)據(jù)庫,實現(xiàn)Memory能力Agent工具箱:多合一Agent工具包,含上述多種工具Dify:簡化Agent開發(fā)流程,低代碼完成Agent構(gòu)建用逐步普及,開發(fā)者對于更加穩(wěn)定、低門檻的應用部署模式有著很高的需輕量云助力開發(fā)者快速上手MCPServer:零門檻上大量新手開發(fā)者或因編程基礎薄弱望而卻步;從功能設計到用部署均需手動完成,占用大量時間與精力。開發(fā)者對“低門檻3云端AI助手“雙引擎”輕量云AI助手:助力開發(fā)者快速上手輕量云控制臺智能問答:基于騰訊云AI助手,支持產(chǎn)品知識智智能規(guī)劃:通過自然語言,AI即可輔助完成智能選購:AI智能分析服務器選購需求,推薦高性價比套餐場景覆蓋廣:場景覆蓋廣:AI能力覆蓋產(chǎn)品問答、選購推薦、服務器基礎管理等多場命令生成:支持生成終端命令、一鍵執(zhí)行并對上下文理解:AI可理解終端上下文,生成內(nèi)容更符合實貼近開發(fā)者:貼近開發(fā)者:支持引入操作系統(tǒng)信息、環(huán)境變量、歷史記錄等上下AI算力解決方案主講人龔學健業(yè)務挑戰(zhàn)--算力需求增長迅猛且呈現(xiàn)多樣化需求算力需求多樣化海量優(yōu)質(zhì)的應用場景數(shù)據(jù)是模型精準的關鍵基礎神經(jīng)網(wǎng)絡、深度學習等各類算法是挖掘數(shù)據(jù)智能的有效方法GPU、NPU等異構(gòu)算力為A模型的訓練/推理提供卓越性能算力應用架構(gòu)/INT8等),理論峰值計算能力2千卡擴展比達95%千卡擴展比達95%訓練加速TACO訓練加速TACO-Train分布式云容器服務TKEServerless機器學習平臺高性能應用服務HAI部署時間減少95%提供圖形界面及配套課程推理加速TACO-InferqGPU算力共享推理性能提升30%+部署密度提升20%星星海服務器星星海服務器自研芯片高性能計算集群HCCGPU云服務器星脈網(wǎng)絡算網(wǎng)協(xié)同檢測云原生一云多芯一云多芯支持國內(nèi)外主流芯片與處理器完整工具鏈統(tǒng)一接口的硬件屏蔽方案及全面的生態(tài)遷移工具訓推加速套件軟硬協(xié)同,提供騰訊云獨有的極致性能業(yè)務流程業(yè)務拆解核心訴求解決方案AIGC從研發(fā)到應用,經(jīng)歷訓練及推理兩個過程針對三大核心訴求,騰訊云提供針對性解決方案計算、存儲、網(wǎng)絡并駕齊驅(qū),規(guī)避單一產(chǎn)品木桶效應,充分釋放GPU算力4096GPUs4096GPUs?CPU/GPU算力零虛擬化損耗,性能媲美物理機?集群節(jié)點間網(wǎng)絡時延,相比VPC降低95%?存儲讀寫帶寬100GB/s,千萬級IOPS?數(shù)據(jù)讀寫速度延緩整體訓練速度VPCVPC裸金屬CVMGPUGPU算力集群存儲集群93如何分析場景對卡的需求推理選型:不同場景需求差異較大,基于細分領域,提供不同卡型選擇;語言模型訓練場景VS語言模型推理場景不同模型,對通信要求差異較大~230GBbatchsize為1,序列長度為2k卡型123卡型123458?傳統(tǒng)AI:發(fā)展相對成熟,主要關注計算性價比,對算力需求高,顯存需求一般,推薦卡型2;?AIGC:模型參數(shù)規(guī)模大,對顯存和算力有硬性要求,傾向使用4、5;場景分類典型模型代表場景核心需求場景分類典型模型代表場景核心需求推薦用卡Qwen3-235B-522wide&deep214112233…?高優(yōu)任務平均分配保證負載均衡?低優(yōu)任務盡量填滿保證資源利用率?GPU利用率的極致提高?業(yè)內(nèi)唯一GPU在離線混部技術(shù)什么是RDMA網(wǎng)絡時延導致計算節(jié)點空閑等待NetworkNetwork等待等待等待等待高性能計算存在“木桶效應”,計算、存儲、網(wǎng)絡一旦出現(xiàn)瓶頸就會導致運算速度嚴重下降。RDMA(RemoteDirectMemoryAccess),指節(jié)點間通信不需內(nèi)核參與,所有payload的發(fā)送傳輸處理工作直接下沉到網(wǎng)卡上處理,減少數(shù)據(jù)拷貝和上下文切換開銷;高性能計算存在“木桶效應”,計算、存儲、網(wǎng)絡一旦出現(xiàn)瓶頸就會導致運算速度嚴重下降。完美滿足高性能計算場景對于性能的追求。vRDMA-零成本適配的彈性RDMA網(wǎng)卡傳統(tǒng)TCP/IP捉襟見肘,RDMA已成為高性能網(wǎng)絡的實際標準萬物上云時代,云上應用需要彈性RDMA獲取技術(shù)紅利Applicationvrdma驅(qū)動網(wǎng)卡驅(qū)動virtio-netvRdma-devicevirtio-netvRDMAvRDMAvRDMA底層實現(xiàn)方案4%4%vRDAM-零成本適配的彈性RDMA網(wǎng)卡更多機器、更大集群規(guī)模會帶來更大收益基礎網(wǎng)絡性能提升200%200%1100%1100%80%50%30%20%平均時延(us)單鏈接吞吐(Gbps)vpcvrdmaAI訓練應用性能提升95%90%擴展比數(shù)據(jù)85%擴展比數(shù)據(jù)80%75%70%65%60%yoloxvitmask-rcnnbertyoloxvpcvrdma網(wǎng)絡故障vRDMA性能影響低75250010203040帶寬采樣點(毫秒)1(8卡)2模型量化-降低模型部署成本/scl/fi/aa5ea0hrc68cn3fh18nan/Lec13-LLM-Deployment.pdf?rlkey=gzq9yiddx4bnh14bxomtfmcoj&e=1&dl=0/develope量化精度差異:精度損失較低,不同場景表現(xiàn)存在差異量化性能提升:整體量化精度差異:精度損失較低,不同場景表現(xiàn)存在差異量化性能提升:整體的QPM對比fp8單機部署提升1.5倍QPM量化后仍然擅長中英文問答及代碼能力QPM5050GPU機密計算是一種通過基于硬件的可信執(zhí)行環(huán)境(TEE)來保護CPU/GPU上正在使用的數(shù)據(jù)的技術(shù)。它確保在CPU/GPU上執(zhí)行的計算任務和數(shù)據(jù)在運行時保持機密性和完整性.防止未經(jīng)授權(quán)的訪問或篡改。?硬件隔離:授權(quán)訪問,硬件加密?可信執(zhí)行環(huán)境:內(nèi)存和計算任務收到硬件級別的保護?證明和驗證:報告驗證可信性?防御側(cè)信道攻擊:硬件上放置側(cè)信道攻擊推理環(huán)境隔離、訪問受控李東昊產(chǎn)品介紹產(chǎn)品使用產(chǎn)品介紹產(chǎn)品使用產(chǎn)品背景應用案例大模型的真正價值并非訓練階段的巨大投入,而在“推理”續(xù)回報的關鍵所在。如果推理效率低下、成本高昂或存在安全漏洞,那么無論模型本身多么強大,其商業(yè)價值都將大打折扣,甚至可能成為性能與成本:侵蝕企業(yè)利潤的隱形開銷硬件與能源成本失控專業(yè)運維團隊成本高資源利用率低下用戶體驗下降業(yè)務拓展受限資源浪費與成本失控安全與合規(guī):潛在的災難性風險數(shù)據(jù)泄露與隱私侵犯:信任的崩塌敏感信息泄漏性能與成本:侵蝕企業(yè)利潤的隱形開銷硬件與能源成本失控專業(yè)運維團隊成本高資源利用率低下用戶體驗下降業(yè)務拓展受限資源浪費與成本失控安全與合規(guī):潛在的災難性風險數(shù)據(jù)泄露與隱私侵犯:信任的崩塌敏感信息泄漏法律合規(guī)風險品牌聲譽受損用戶流失業(yè)務異常中斷基礎設施癱瘓模型實效或倫理危機n1核心痛點分析運維難度大運維難度大百萬級起步至少3周團隊需求及資源浪費推理集群運維的領域覆傳購買GPU服務器搭建成搭建ai團隊+整體部署周蓋面寬,一般企業(yè)作為推理集群運維的領域覆統(tǒng)熟的推理環(huán)境成本通常期通常不短于3周,而業(yè)推理集群使用者,難以模超過百萬,且絕大部分務側(cè)通常需要快速支撐組建專業(yè)可靠、技術(shù)全式為首年一次性成本;面的運維團隊市面的maas平臺通常共性、可靠性、數(shù)據(jù)安全性等不可控風險TEE可信執(zhí)行環(huán)境高并發(fā)穩(wěn)定保障高并發(fā)高吞吐,服務毫秒級響應時長充足GPU算力資源高并發(fā)穩(wěn)定保障高并發(fā)高吞吐,服務毫秒級響應時長充足GPU算力資源,穩(wěn)定保障線上業(yè)務完善的監(jiān)控和容錯機制,保障服務能力全托管免運維—鍵部署自定義模型,開啟全托管模式預置多種先進模型,包括大語言模型、音視頻等多模態(tài)模型,—鍵部署免運維極致性價比提供高性價比的GPU算力選擇支持自動擴縮容,彈性計費成本降低安全可信環(huán)境機密計算技術(shù)構(gòu)建可信執(zhí)行環(huán)境提供內(nèi)容風險識別,保障內(nèi)容安全操作均有日志記錄,識別潛在風險2n2產(chǎn)品架構(gòu):使用HAI推理服務,無需關心部署、路由、隊列和擴縮容服務集群客戶自行開發(fā)/提供的服務騰訊云提供的推理服務服務集群客戶自行開發(fā)/提供的服務智能服務副本1服務端請求服務路由智能服務副本1服務端客戶端服務副本2服務API客戶端服務副本2服務副本3異步推理服務副本3請求隊列…智能擴縮豐富的模型選擇(持續(xù)支持中):服務監(jiān)控策略生效多樣的部署框架(持續(xù)支持中):管控APITACO、SGLang、VLLM管控APIn2部署形態(tài)多樣化多機部署模型組部署單機部署多機部署模型組部署大模型網(wǎng)關大模型網(wǎng)關大模型網(wǎng)關多機推理服務模型組單機推理服務單機推理服務多機推理服務模型組存儲服務密鑰管理服務通用模塊模型提供方客戶端程序模型使用者客戶端模型加密上傳遠程安全通道下發(fā)&獲取安全可信結(jié)果遠程服務三方信用機構(gòu)第三方信任管理服務遠程證明模型文件獲取&推理過程存儲服務密鑰管理服務通用模塊模型提供方客戶端程序模型使用者客戶端模型加密上傳遠程安全通道下發(fā)&獲取安全可信結(jié)果遠程服務三方信用機構(gòu)第三方信任管理服務遠程證明模型文件獲取&推理過程 推理服務機密數(shù)據(jù)服務加密計算 推理服務機密數(shù)據(jù)服務加密計算可信網(wǎng)關遠程證明代理機密AI服務TEETEE硬件TEE可信執(zhí)行環(huán)境n2極速啟動:自研HML實現(xiàn)大模型文件高速加載化重分發(fā)n2降本又增效:DeepSeek671B4bit量化部署方案:相比采用蒸餾模型,基于DeepSeek滿血版的量化性能提升量化性能提升:整體的QPM對比fp8單機部署提升1.5倍~4倍QPMDeepseekR1不同量化方案性能表現(xiàn)對比QPM24.4720.1910.9910.99 8.596.396.296.33 2.273.275500BatchsizeFP8w4A16w4A8量化量化精度差異:精度損失較低,不同場景表現(xiàn)存在差異(英文綜合能力)(中文綜合能力)(英文綜合能力)(中文綜合能力)Humaneva(代碼能力)91.11DeepseekR1w4A16AwQ91.1490.3290.57DeepseekR1w4A8混合量化90.7591.7695.73w4A8精度差異4.83%Evascope數(shù)學數(shù)據(jù)集評測,平均損失在2%以內(nèi)GPQAAME24DeepseekR1w4A16AwQDeepseekR1w4A8混合量化w4A8精度差異0.25%量化后仍然擅長中英文問答及代碼能力n2推理加速:基于自研
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食醋制作工常識模擬考核試卷含答案
- 我國上市公司現(xiàn)金股利信號傳遞效應的實證剖析與理論探究
- 蜂產(chǎn)品加工工操作評估能力考核試卷含答案
- 我國上市公司募集資金投向變更:特征、動因與治理策略
- 燃氣具安裝工崗前實操知識水平考核試卷含答案
- 皮膚管理師安全生產(chǎn)知識競賽考核試卷含答案
- 梳理針刺非織造布制作工風險識別模擬考核試卷含答案
- 牙骨雕刻工崗前成果考核試卷含答案
- 2026年福建莆田第五中學初中部編外教師招聘若干人備考題庫有完整答案詳解
- 陶瓷電容器制造工安全理論能力考核試卷含答案
- 復方蒲公英注射液在銀屑病中的應用研究
- 2023屆高考語文二輪復習:小說標題的含義與作用 練習題(含答案)
- 網(wǎng)絡直播創(chuàng)業(yè)計劃書
- 大學任課老師教學工作總結(jié)(3篇)
- 3D打印增材制造技術(shù) 課件 【ch01】增材制造中的三維模型及數(shù)據(jù)處理
- 醫(yī)院保潔應急預案
- 化工設備培訓
- 鋼結(jié)構(gòu)安裝施工專項方案
- 高三體育生收心主題班會課件
- FZ/T 90086-1995紡織機械與附件下羅拉軸承和有關尺寸
- 登桿培訓材料課件
評論
0/150
提交評論