版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
體的根因定位系統(tǒng)實(shí)踐基于DeepSeek和多智能1
AIOps
與
RCA
技術(shù)演進(jìn)趨勢(shì)2
基于多智能體的運(yùn)維體系搭建3
大模型落地多場(chǎng)景根因定位系統(tǒng)4
DeepSeek
等大模型優(yōu)化與實(shí)踐目錄/
CONTENTSAIOps
與
RCA技術(shù)演進(jìn)趨勢(shì)GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站DevOps自動(dòng)化運(yùn)維范式以自動(dòng)化流程為核心,打破開發(fā)與運(yùn)維壁壘,通過持續(xù)集成/交付(CI/CD)實(shí)現(xiàn)高頻部署,縮短交付周期,提升系統(tǒng)迭代效率。AIOps智能運(yùn)維新范式基于大數(shù)據(jù)分析與機(jī)器學(xué)習(xí),實(shí)現(xiàn)異常檢測(cè)、根因定位和故障自愈,將運(yùn)維從被動(dòng)響應(yīng)轉(zhuǎn)向主動(dòng)預(yù)測(cè),顯著降低平均故障修復(fù)時(shí)間(
MTTR)與業(yè)務(wù)中斷風(fēng)險(xiǎn)。
運(yùn)維技術(shù)演進(jìn):從DevOps
到AIOps定位有效性借助智能算法快速精準(zhǔn)定位故障根源,提升運(yùn)維效率,減少系統(tǒng)故障時(shí)間,從而全方面保障業(yè)務(wù)連續(xù)性和穩(wěn)定性。數(shù)據(jù)處理能力AIOps
平臺(tái)需高效收集、整合和預(yù)處理海量多源異構(gòu)數(shù)據(jù),為后續(xù)分析和決策提供全面、準(zhǔn)確的數(shù)據(jù)基礎(chǔ),實(shí)現(xiàn)對(duì)
IT運(yùn)維狀態(tài)的精準(zhǔn)把握。自動(dòng)化響應(yīng)基于分析結(jié)果自動(dòng)觸發(fā)響應(yīng)措施,如自動(dòng)調(diào)整資源配置、重啟服務(wù)、切換故障設(shè)備等,減少人工干預(yù),提高運(yùn)維效率和系統(tǒng)可用性。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站可解釋性直觀展示運(yùn)維數(shù)據(jù)和分析結(jié)果,確保智能分析和決策過程的可解釋性,增強(qiáng)運(yùn)維人員對(duì)系統(tǒng)的信任和使用效果。運(yùn)維技術(shù)演進(jìn):AIOps
的關(guān)鍵指標(biāo)RCA(
RootCauseAnalysis)技術(shù)難點(diǎn)主要體現(xiàn)在多模態(tài)數(shù)據(jù)融合、因果推斷、數(shù)據(jù)質(zhì)量及落地工程化等方面。多模態(tài)數(shù)據(jù)融合困難,需整合海量多源異構(gòu)數(shù)據(jù)以刻畫系統(tǒng)狀態(tài);因果關(guān)系推斷復(fù)雜,組件間依賴關(guān)系復(fù)雜,易受虛假相關(guān)干擾;數(shù)據(jù)質(zhì)量問題突出,噪聲、缺失值等影響分析準(zhǔn)確性;技術(shù)落地與工程化困難,需結(jié)合領(lǐng)域知識(shí),缺乏通用框架,模型訓(xùn)練與優(yōu)化成本高,對(duì)性能和可解釋性要求極高。多智能體協(xié)同面對(duì)復(fù)雜因果關(guān)系推斷,
引入多智能體協(xié)同機(jī)制,各智能體分工合作,有效應(yīng)對(duì)組件間復(fù)雜依賴關(guān)系,減少虛假相關(guān)干擾。運(yùn)維數(shù)據(jù)整合針對(duì)多模態(tài)數(shù)據(jù)融合難題,
整合海量多源異構(gòu)數(shù)據(jù),構(gòu)建統(tǒng)一數(shù)據(jù)平臺(tái),精準(zhǔn)刻畫系統(tǒng)狀態(tài),為后續(xù)分析提供堅(jiān)實(shí)基礎(chǔ)。大模型推理能力提升聚焦模型性能與可解釋性,優(yōu)化大模型訓(xùn)練與推理流程,
結(jié)合大模型推理能力和領(lǐng)域知識(shí),提升模型推理效率與準(zhǔn)確性,助力技術(shù)落地。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站運(yùn)維技術(shù)演進(jìn):
RCA技術(shù)難點(diǎn)端到端因果鏈追蹤基于圖計(jì)算+時(shí)序推理,秒級(jí)定位復(fù)雜故障源頭。人機(jī)協(xié)同演進(jìn)專家經(jīng)驗(yàn)與AI雙向反饋,構(gòu)建自適應(yīng)診斷閉環(huán)。動(dòng)態(tài)閾值自優(yōu)化實(shí)時(shí)環(huán)境感知調(diào)整告警規(guī)則,降低誤報(bào)率。多模態(tài)數(shù)據(jù)融合跨日志、指標(biāo)、拓?fù)涞纳疃汝P(guān)聯(lián)分析,消除數(shù)據(jù)孤島。大模型驅(qū)動(dòng)決策行業(yè)知識(shí)增強(qiáng)的AI模型,實(shí)現(xiàn)可解釋性根因推理。自動(dòng)化修復(fù)閉環(huán)根因定位聯(lián)動(dòng)自愈策略,無縫恢復(fù)業(yè)務(wù)運(yùn)行。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站運(yùn)維技術(shù)演進(jìn):未來趨勢(shì)基于多智能體的運(yùn)維體系搭建GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站大模型用戶通過多年
AI大模型平臺(tái)建設(shè)和DeepSeek等大模型應(yīng)用爆發(fā),積累企業(yè)內(nèi)AI用戶超過7000人。服務(wù)調(diào)用基于自研的云原生集群管理和模型服務(wù)調(diào)度,提供穩(wěn)定的智能體后端服務(wù),日調(diào)用量超過2億次。GPU
集群通過自研eGPU池化技術(shù)和混合云方案,統(tǒng)一納管超過千卡GPU集群進(jìn)行多智能體訓(xùn)練和推理。多智能體系統(tǒng):順豐多智能體平臺(tái)1000+7000+20000000+動(dòng)態(tài)閾值在多智能體場(chǎng)景下,智能體根據(jù)系統(tǒng)實(shí)時(shí)數(shù)據(jù)和歷史趨勢(shì),自動(dòng)
調(diào)整監(jiān)控指標(biāo)閾值范圍,適應(yīng)業(yè)
務(wù)波動(dòng)和系統(tǒng)變化,減少誤報(bào)和
漏報(bào),實(shí)現(xiàn)動(dòng)態(tài)閾值和精準(zhǔn)告
警。根因定位在多智能體場(chǎng)景里,各智能體協(xié)同找出系統(tǒng)故障根本原因。利用因果圖分析等,當(dāng)業(yè)務(wù)指標(biāo)異常時(shí),快速準(zhǔn)確定位根因,助力運(yùn)維人員及時(shí)修復(fù),保障系統(tǒng)穩(wěn)定運(yùn)行。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站在多智能體的策略推薦場(chǎng)景中,各智能體依據(jù)系統(tǒng)狀態(tài)、歷史數(shù)據(jù)及業(yè)務(wù)需求,為運(yùn)維決策提供多樣化策略建議,讓運(yùn)維決策更科學(xué)、高效,提升運(yùn)維效率。多智能體系統(tǒng):順豐多智能體應(yīng)用場(chǎng)景策略推薦GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站多智能體系統(tǒng):多智能體根因分析整體架構(gòu)通過不同維度的專項(xiàng)設(shè)計(jì),分階段、按場(chǎng)景實(shí)現(xiàn)基于多智能體的
AIOps
運(yùn)維工具落地。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):多告警根因定位流程GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站在AIOps根因定位系統(tǒng)中,架構(gòu)師Agent作為核心協(xié)調(diào)者,負(fù)責(zé)設(shè)計(jì)系統(tǒng)架構(gòu)并制定整體策略,其他Agent(如告警分析Agent、基礎(chǔ)監(jiān)控
Agent等)在其指導(dǎo)下分工協(xié)作,通過數(shù)據(jù)共享與反饋機(jī)制,共同完成精準(zhǔn)的故障根因定位任務(wù)。多智能體系統(tǒng):多智能體協(xié)同機(jī)制數(shù)據(jù)庫分析Agent
0506基礎(chǔ)組件Agent基礎(chǔ)監(jiān)控Agent
0304APM鏈路Agent告警分析Agent
0102
云日志Agent架構(gòu)師
Agent大模型落地多場(chǎng)景根因定位系統(tǒng)01中臺(tái)數(shù)據(jù)準(zhǔn)備02運(yùn)維知識(shí)整合03多智能體實(shí)現(xiàn)04
產(chǎn)品工具集成GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):復(fù)雜場(chǎng)景RCA
系統(tǒng)架構(gòu)設(shè)計(jì)目標(biāo):在生產(chǎn)的故障場(chǎng)景中,可能出現(xiàn)大量的告警和狀態(tài)異常的節(jié)點(diǎn),需要能夠通過算法對(duì)海量告警進(jìn)行收斂,然后根據(jù)告警時(shí)間和依賴關(guān)系找到可疑的異常根因節(jié)點(diǎn)來進(jìn)一步分析。算法方案:1.收集當(dāng)前故障前一段時(shí)間(根據(jù)告警量和運(yùn)維經(jīng)驗(yàn)配置)的所有告警信息,進(jìn)行告警收斂,包括去掉重復(fù)告警以及過濾無意義告警。2.然后使用多維分析算法對(duì)告警節(jié)點(diǎn)進(jìn)行打分排序,包括統(tǒng)計(jì)節(jié)點(diǎn)的告警數(shù)量、使用PageRank算法計(jì)算節(jié)點(diǎn)的拓?fù)渖疃?、以及不同告警到?jié)點(diǎn)的最短路徑長(zhǎng)度信息,通過加權(quán)來計(jì)算可疑得分,然后排序得到
top-n的可疑節(jié)點(diǎn)。3.某一個(gè)節(jié)點(diǎn)可能存在多個(gè)告警信息,因此同樣需要對(duì)告警進(jìn)行收斂,例如基于時(shí)間窗口合并和通過模式匹配合并一些告警,然后再針對(duì)告警進(jìn)行獨(dú)立的分析。4.
通過Union聚合多種告警類型的處理組件,如針對(duì)相同組件的錯(cuò)誤日志分析、基礎(chǔ)監(jiān)控分析等,同時(shí)輸出大模型判斷需要的所有相關(guān)數(shù)據(jù)和總結(jié),進(jìn)行統(tǒng)一的節(jié)點(diǎn)分析報(bào)告。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):告警收斂和異常節(jié)點(diǎn)篩選GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):告警分析應(yīng)用效果GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):根因定位應(yīng)用效果GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):多模態(tài)大模型集成與人機(jī)協(xié)同使用圖像大模型(VLM)提取基礎(chǔ)監(jiān)控信息使用語音大模型(ASR/TTS)進(jìn)行人機(jī)交互GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因定位系統(tǒng):
MCP市場(chǎng)與運(yùn)維工具集成?
MCP
Marketplace集成?
AIOps
平臺(tái)集成
MCP
Client?
運(yùn)維MCPServer
開發(fā)系統(tǒng)復(fù)雜性與動(dòng)態(tài)性:系統(tǒng)架構(gòu)復(fù)雜且動(dòng)態(tài)變化頻繁,故障傳播路徑和影響范圍難以預(yù)測(cè)。積累運(yùn)維知識(shí):將運(yùn)維經(jīng)驗(yàn)轉(zhuǎn)化為可復(fù)用規(guī)則,構(gòu)建知識(shí)庫,提升團(tuán)隊(duì)能力。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站數(shù)據(jù)采集與關(guān)聯(lián):采集多源異構(gòu)數(shù)據(jù),確保準(zhǔn)確性、完整性,建立數(shù)據(jù)關(guān)聯(lián),
形成完整服務(wù)拓?fù)浜驼{(diào)用鏈路。提升運(yùn)維效率:快速定位故障根因,減少排查時(shí)間,加快修復(fù)速度,提升整體運(yùn)維效率。保障業(yè)務(wù)連續(xù)性:及時(shí)發(fā)現(xiàn)解決故
障,避免業(yè)務(wù)中斷,保障企業(yè)運(yùn)營(yíng)和
收益。算法與模型:故障場(chǎng)景復(fù)雜,需選擇優(yōu)化算法,平衡準(zhǔn)確性和性能,避免系統(tǒng)延遲增加。實(shí)時(shí)性要求:故障根因定位需在短時(shí)間內(nèi)完成,對(duì)系統(tǒng)實(shí)時(shí)性要求高。優(yōu)化資源配置:分析故障根因,發(fā)現(xiàn)瓶頸問題,為資源合理分配和優(yōu)化提供依據(jù)。根因定位系統(tǒng):落地價(jià)值與技術(shù)難點(diǎn)技術(shù)價(jià)值難點(diǎn)落地DeepSeek等大模型優(yōu)化與實(shí)踐利用智能算法,對(duì)系統(tǒng)異常精準(zhǔn)定位,快速找出故障根因,保障系統(tǒng)穩(wěn)定。承載各類大模型服務(wù)和智能體,實(shí)現(xiàn)智能體間的協(xié)作與交互,挖掘運(yùn)維數(shù)據(jù)價(jià)值。執(zhí)行自動(dòng)化運(yùn)維任務(wù),提升運(yùn)維效率,為上層應(yīng)用提供操作支持。整合各類運(yùn)維數(shù)據(jù)與資源,提供基礎(chǔ)運(yùn)維能力支撐,助力高效運(yùn)維管理。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站大模型優(yōu)化:運(yùn)維體系搭建和大模型集成運(yùn)維中臺(tái)智能體平臺(tái)自動(dòng)化工具根因定位GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站通過
DeepSeek
官方和
PD
分離等優(yōu)化方
案,降低計(jì)算資源消
耗、提升響應(yīng)速度,減少延遲與能耗,支持高并發(fā)實(shí)時(shí)處理,并適配邊緣設(shè)備等低算力場(chǎng)
景,實(shí)現(xiàn)高效低成本部署。通過混合云和自研GPU
池化技術(shù)進(jìn)行部署,讓模型和數(shù)據(jù)存儲(chǔ)在本地,保障數(shù)據(jù)安全與隱私;可根據(jù)自身需求深度定制模型;長(zhǎng)期使用成本低;擁有更高的自主性。大模型優(yōu)化:私有化大模型部署與優(yōu)化私有化部署推理優(yōu)化多智能體協(xié)同通過多Agent的規(guī)劃和協(xié)作,利用全局信息優(yōu)化每個(gè)智能體的輸
出報(bào)告。時(shí)序數(shù)據(jù)分析利用時(shí)序模型捕捉長(zhǎng)周期特征,增強(qiáng)指標(biāo)預(yù)測(cè)與動(dòng)態(tài)閾值校準(zhǔn)精度。多告警收斂大模型通過語義理解聚類關(guān)聯(lián)告警,壓縮冗余噪音,提升告警有
效性。日志分析優(yōu)化基于LLM解析非結(jié)構(gòu)化日志,提取異常模式,實(shí)現(xiàn)精準(zhǔn)分類與根因預(yù)判。GO
PS
全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)
2025·深圳站根因節(jié)點(diǎn)溯源結(jié)合知識(shí)圖譜推理服務(wù)拓?fù)湟蕾?,穿透多層調(diào)用鏈鎖定核心故障節(jié)點(diǎn)。大模型優(yōu)化:
DeepSeek與
RCA結(jié)合場(chǎng)景0501030204目前使用私有化部署
DeepSeek
-V3
685B
大模型,通過提示詞優(yōu)化定位準(zhǔn)確率提升36%
以上,推薦準(zhǔn)確率提升50%
以上通過集成運(yùn)維的健康度判斷邏輯和經(jīng)驗(yàn)知識(shí)庫,定位準(zhǔn)確率提升2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026山東事業(yè)單位統(tǒng)考濱州市惠民縣招聘43人備考考試試題及答案解析
- 2026江蘇大學(xué)附屬醫(yī)院招聘編外人員56人(一)筆試模擬試題及答案解析
- 2026渭南合陽縣農(nóng)村合作經(jīng)濟(jì)工作站招聘(2人)備考考試試題及答案解析
- 月老牽線活動(dòng)策劃方案(3篇)
- 挖溝拆除施工方案(3篇)
- 親子義賣活動(dòng)方案策劃(3篇)
- 肯德基衛(wèi)生管理制度表模板(3篇)
- 2026匯才(福建泉州市)企業(yè)管理有限公司派駐晉江市永和鎮(zhèn)招聘5人備考考試試題及答案解析
- 2026山東事業(yè)單位統(tǒng)考威?;鹁娓呒夹g(shù)產(chǎn)業(yè)開發(fā)區(qū)鎮(zhèn)(街道)招聘初級(jí)綜合類崗位9人筆試模擬試題及答案解析
- 2026年河北張家口赤城縣農(nóng)業(yè)農(nóng)村局公開招聘特聘農(nóng)技員4名考試備考題庫及答案解析
- 頸椎病頸椎病的常見癥狀及治療方法
- 單證專員述職報(bào)告
- 眼底病OCT解讀演示教學(xué)課件
- 民間個(gè)人借款擔(dān)保書
- LY/T 1598-2011石膏刨花板
- GB/T 31588.1-2015色漆和清漆耐循環(huán)腐蝕環(huán)境的測(cè)定第1部分:濕(鹽霧)/干燥/濕氣
- GB/T 21268-2014非公路用旅游觀光車通用技術(shù)條件
- GA/T 1495-2018道路交通安全設(shè)施基礎(chǔ)信息采集規(guī)范
- 夜間綜合施工專項(xiàng)專題方案公路
- ★神東煤炭集團(tuán)xx煤礦礦井災(zāi)害預(yù)防與處理計(jì)劃
- Q∕GDW 11421-2020 電能表外置斷路器技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論