版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
WHITEPAPERAI智能體安全治理白皮書2025年9月2 1 4 6 7 1前言的"數(shù)字協(xié)作伙伴"。這一技術(shù)范式的革新顯著拓展了人工智2用戶執(zhí)行"滑動至頁面底部"的操作行為。在此過程中,智能體系統(tǒng)錯誤地將該用戶交互行為解讀為"默認授權(quán)"指令,進統(tǒng)安全審計機制的監(jiān)測,展現(xiàn)出極強的隱蔽性34一、背景概述1.1AI智能體定義行任務(wù),還能夠在一定程度上進行自我調(diào)整和策略改進[30]。AlphaGo是這一類智能體的典型代表,近年來,基于大語言模型的智能體[7][12]成為主5多次調(diào)用大語言模型分具備一定自主能力或半支持處理一定長度的上通過智能體記憶管6用理歷史信息,突破表1.AI智能體與大語言模型的對比1.2AI智能體安全風(fēng)險71.3AI智能體安全治理8用要求、運行測試與特定應(yīng)用場景的多層次國內(nèi)標(biāo)準(zhǔn)體系。晰。其核心目標(biāo)圍繞“安全、可控、可信”三大維度展開:可信性則是保障,要求運行過程符合既定規(guī)范和價值準(zhǔn)則,斷、執(zhí)行管控和攻擊溯源等手段形成縱深安全9二、AI智能體安全風(fēng)險排、跨工具協(xié)同等模塊具備了自主感知、決策與執(zhí)行能力,通過動態(tài)編排行為序列與資源調(diào)度,形成可執(zhí)行的指令集。數(shù)字環(huán)境中的具體操作,通過驅(qū)動執(zhí)行器、調(diào)用API或反饋體風(fēng)險具有顯著的層級傳導(dǎo)特性,單一環(huán)節(jié)的漏洞即可沿最終導(dǎo)致大規(guī)模數(shù)據(jù)泄露與系統(tǒng)篡改。這一現(xiàn)象充分說明,圖2.AI智能體風(fēng)險視圖2.1感知層風(fēng)險2.1.1指令劫持2.1.2環(huán)境干擾2.1.3模型上下文協(xié)議漏洞模型上下文協(xié)議(MCP)是為大語言模型提供標(biāo)準(zhǔn)化、2.1.4多智能體協(xié)議中毒多智能體協(xié)議是智能體間交互的基本規(guī)則,涵蓋通信、高效與安全。但其漏洞可能導(dǎo)致通信失效或協(xié)作機制崩潰。通信層面的風(fēng)險包括惡意指令注入、拒絕服務(wù)和隱私竊??;2.2決策層風(fēng)險2.多步推理產(chǎn)生邏輯陷阱:為實現(xiàn)復(fù)雜目標(biāo),智能體需2.2.1模型幻覺利用誤的自主行動,從而造成更具系統(tǒng)性和行動化的現(xiàn)實風(fēng)險。例如,工業(yè)場景中的設(shè)備運維智能體在執(zhí)行“預(yù)測性維護”2.2.2語義歧義攻擊與規(guī)劃誘導(dǎo)2.3記憶層風(fēng)險歷史,以實現(xiàn)持續(xù)服務(wù)能力。這種記憶高度依賴具體用戶、續(xù)為低權(quán)限用戶服務(wù)的會話中,它可能錯誤地讀取該記憶,AI智能體的長期記憶使其從一個對話工具轉(zhuǎn)變?yōu)橐粋€2.3.1記憶提取攻擊與釣魚誘導(dǎo)2.3.2記憶投毒與持久化控制2.3.3記憶混淆與越權(quán)操作2.4執(zhí)行層風(fēng)險1.惡意操縱:攻擊者利用供應(yīng)鏈漏洞與權(quán)限2.4.1通信信道劫持2.4.2目標(biāo)函數(shù)篡改2.4.3級聯(lián)資源耗盡三、AI智能體安全治理3.1感知層安全3.1.1工具調(diào)用安全3.1.2輸入輸出安全攻擊、越獄攻擊等攻擊行為,并及時采取實時攔截、預(yù)警。3.1.3AI智能體通信安全策應(yīng)由多個智能體共同批準(zhǔn)。通過任務(wù)分割避免提權(quán)風(fēng)險,3.2決策層安全3.2.1實施決策驗證3.2.2降低模型幻覺3.2.3多智能體交互安全3.3記憶層安全3.3.1記憶內(nèi)容安全3.3.2記憶存儲安全確保僅接收可信來源的數(shù)據(jù),長期存儲需進行加密與校驗。3.4執(zhí)行層安全3.4.1任務(wù)識別安全3.4.2智能體行為安全3.4.3惡意智能體阻斷AI智能體進程以遏制威脅;追蹤惡意AI智能體重生企圖,檢測曾被阻斷的AI智能體更換身份重新接四、AI智能體安全治理實踐及模型上下文協(xié)議(MCP)等關(guān)鍵環(huán)節(jié)開展了探索與試點,4.1智能體平臺安全治理實踐圖3.星辰AI智能體平臺4.1.1長期記憶知識庫中的風(fēng)險防范智能體平臺支持用戶通過上傳長期記憶知識庫對模型進行增強,有效緩解大模型的幻覺問題與知識滯后等局限。先依托非結(jié)構(gòu)化數(shù)據(jù)識別能力開展全面的安全審查和數(shù)據(jù)4.1.2工作流編排中的風(fēng)險防范4.1.3運營安全監(jiān)測個涉及惡意攻擊或違規(guī)請求,識別準(zhǔn)確率≥95%,對抗攻擊4.2MCP安全治理實踐結(jié)果返回給用戶或其他智能體,形成完整的任務(wù)執(zhí)行閉環(huán)。易成為提示詞注入、惡意命令投遞的攻擊入口;另一方面,態(tài)健康發(fā)展的關(guān)鍵課題。MCP作為AI智能體通信協(xié)議的代社區(qū)的大幅度增長,MCP的安全問題也逐步暴露,比如,圖4.MCPScan縮略圖MCPScan是一款針對智能體工具安全的檢測系統(tǒng),它等關(guān)鍵API是否存在風(fēng)險。同時提取工具的描述信息和元MCPScan已在Smithery智能體社區(qū)發(fā)現(xiàn)20多例高段的檢測機制,MCPScan為智能體工具的全生命周期提供4.3端側(cè)智能體安全評測實踐端側(cè)智能體直接控制移動設(shè)備的操作,包括應(yīng)用調(diào)度、引發(fā)設(shè)備功能異常、隱私信息泄露或用戶操作誤導(dǎo)等問題。傳統(tǒng)人工評測方法難以覆蓋移動端多樣化的交互場景和實4.2.1多維度評測框架為了全面識別端側(cè)智能體在移動設(shè)備實際運行中的潛行任務(wù)時,既涉及基礎(chǔ)應(yīng)用操作(如信息查詢、應(yīng)用調(diào)度、蓋郵件管理、金融交易、社交媒體、網(wǎng)頁導(dǎo)航、智能問答、圖5.端側(cè)智能體安全風(fēng)險框架4.2.2自動化評測流程圖6.端側(cè)智能體安全評測流程圖系統(tǒng)資源限額(CPU、內(nèi)存、存儲占用閾值)與應(yīng)用調(diào)用白系能夠完整記錄智能體的執(zhí)行軌跡,為風(fēng)險分析提供依據(jù),非結(jié)構(gòu)化文本,運用OCR技術(shù)進行識別,涵蓋復(fù)雜字體、(5)基于MLLM的評估:基于多模態(tài)大語言模型(MultimodalLargeLanguageModel,MLLM)的評估環(huán)節(jié),利用MLLM強大的視覺、語言理解能升安全風(fēng)險識別的智能化與精準(zhǔn)度。序圖等直觀展示端側(cè)智能體在移動端的高風(fēng)險行為和安全薄弱環(huán)節(jié)。結(jié)合自動化報告生成技術(shù),形成包含風(fēng)險詳情、控-分析"全鏈路自動化測評框架,能識別倫理合規(guī)、隱私泄露、冒犯性、偏見與公平、財物損失、內(nèi)容傳播等6種內(nèi)容理、網(wǎng)頁導(dǎo)航以及工具調(diào)用6大核心任務(wù),為智能終端的安五、持續(xù)提升建議夯實AI智能體安全技術(shù)能力。應(yīng)聚焦AI智能體的感知利用多模態(tài)一致性檢測和對抗樣本防護降低偽造與污染風(fēng) 口InternetofThings型Generation參考文獻3.WilkinsDE.PracticalPlanning—Extendi4.BrooksRA.Intelligencewithoutrepresentation.ArtifIntIntroduction.Cambridge:softwaredevelopment.Ascientificresearchcapabilitiesoflargelanguagemodels.ArXiv:2304.05332,20computertasks.ArXiv:2303chain-of-actionagents.In:ProceedingsofFindingsofthepriorknowledgeforplayArXiv:2305.02412,20shotplanners:extractingactionableknowledgeforembodiedDevelopmentandUseofArtificialIntelligence,2023.comprehensiveanalysisofnovelpromptinjectionthreatstoapplication-integratedlargelanguagemodels.arLLMApps&GenAIAgenticSecurityInitiative,2023.22.王帥.大模型賦能的軟件安全和智能體安全研究.23.H?ndlerT.Balandimensional
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025云南保山九隆街道辦事處招聘公益性崗位工作人員3人筆試模擬試題及答案解析
- 2026云南普洱市數(shù)據(jù)局招聘城鎮(zhèn)公益性崗位工作人員2人考試備考題庫及答案解析
- 職業(yè)中學(xué)技能競賽組織方案
- 2025廣東中山職業(yè)技術(shù)學(xué)院附屬幼兒園招聘筆試備考題庫及答案解析
- 2026江西省第五人民醫(yī)院招聘編制外人員1人筆試參考題庫及答案解析
- 美術(shù)培訓(xùn)班課程設(shè)計與教學(xué)案例
- 室內(nèi)石材鋪貼施工規(guī)范與方法
- 企業(yè)物業(yè)管理合同范本模板
- 制造業(yè)勞動合同文本模板
- 鋁合金材料性能及加工工藝試題
- 墻壁維護施工方案(3篇)
- 骨外科護理年度工作總結(jié)范文
- 東北大學(xué)《大學(xué)物理》2024 - 2025 學(xué)年第一學(xué)期期末試卷
- 人工智能安全風(fēng)險測評白皮書(2025年)
- 2025下半年貴州遵義市第一人民醫(yī)院招聘事業(yè)單位65人筆試備考重點試題及答案解析
- 圍麻醉期應(yīng)激反應(yīng)的調(diào)控策略
- 2025年外貿(mào)實習(xí)合同協(xié)議
- 集成電路封裝測試廠建設(shè)項目可行性研究報告
- 醫(yī)院服務(wù)禮儀培訓(xùn)
- 亞朵酒店管理分析
- 個人簡歷模版(三頁)帶封面(可編輯)大學(xué)畢業(yè)生版
評論
0/150
提交評論