版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
WHITEPAPERAI智能體安全治理白皮書2025年9月2 1 4 6 7 1前言的"數(shù)字協(xié)作伙伴"。這一技術(shù)范式的革新顯著拓展了人工智2用戶執(zhí)行"滑動(dòng)至頁(yè)面底部"的操作行為。在此過(guò)程中,智能體系統(tǒng)錯(cuò)誤地將該用戶交互行為解讀為"默認(rèn)授權(quán)"指令,進(jìn)統(tǒng)安全審計(jì)機(jī)制的監(jiān)測(cè),展現(xiàn)出極強(qiáng)的隱蔽性34一、背景概述1.1AI智能體定義依賴規(guī)則和邏輯推理[4],受限于算力和算法復(fù)雜度,能夠完行任務(wù),還能夠在一定程度上進(jìn)行自我調(diào)整和策略改進(jìn)[30]。AlphaGo是這一類智能體的典型代表,近年來(lái),基于大語(yǔ)言模型的智能體[7][12]成為主5多次調(diào)用大語(yǔ)言模型分具備一定自主能力或半支持處理一定長(zhǎng)度的上通過(guò)智能體記憶管6用理歷史信息,突破表1.AI智能體與大語(yǔ)言模型的對(duì)比1.2AI智能體安全風(fēng)險(xiǎn)71.3AI智能體安全治理8用要求、運(yùn)行測(cè)試與特定應(yīng)用場(chǎng)景的多層次國(guó)內(nèi)標(biāo)準(zhǔn)體系。晰。其核心目標(biāo)圍繞“安全、可控、可信”三大維度展開:可信性則是保障,要求運(yùn)行過(guò)程符合既定規(guī)范和價(jià)值準(zhǔn)則,斷、執(zhí)行管控和攻擊溯源等手段形成縱深安全9二、AI智能體安全風(fēng)險(xiǎn)排、跨工具協(xié)同等模塊具備了自主感知、決策與執(zhí)行能力,通過(guò)動(dòng)態(tài)編排行為序列與資源調(diào)度,形成可執(zhí)行的指令集。數(shù)字環(huán)境中的具體操作,通過(guò)驅(qū)動(dòng)執(zhí)行器、調(diào)用API或反饋體風(fēng)險(xiǎn)具有顯著的層級(jí)傳導(dǎo)特性,單一環(huán)節(jié)的漏洞即可沿最終導(dǎo)致大規(guī)模數(shù)據(jù)泄露與系統(tǒng)篡改。這一現(xiàn)象充分說(shuō)明,圖2.AI智能體風(fēng)險(xiǎn)視圖2.1感知層風(fēng)險(xiǎn)2.1.1指令劫持2.1.2環(huán)境干擾2.1.3模型上下文協(xié)議漏洞模型上下文協(xié)議(MCP)是為大語(yǔ)言模型提供標(biāo)準(zhǔn)化、2.1.4多智能體協(xié)議中毒多智能體協(xié)議是智能體間交互的基本規(guī)則,涵蓋通信、高效與安全。但其漏洞可能導(dǎo)致通信失效或協(xié)作機(jī)制崩潰。通信層面的風(fēng)險(xiǎn)包括惡意指令注入、拒絕服務(wù)和隱私竊取;2.2決策層風(fēng)險(xiǎn)2.多步推理產(chǎn)生邏輯陷阱:為實(shí)現(xiàn)復(fù)雜目標(biāo),智能體需2.2.1模型幻覺利用誤的自主行動(dòng),從而造成更具系統(tǒng)性和行動(dòng)化的現(xiàn)實(shí)風(fēng)險(xiǎn)。例如,工業(yè)場(chǎng)景中的設(shè)備運(yùn)維智能體在執(zhí)行“預(yù)測(cè)性維護(hù)”2.2.2語(yǔ)義歧義攻擊與規(guī)劃誘導(dǎo)2.3記憶層風(fēng)險(xiǎn)歷史,以實(shí)現(xiàn)持續(xù)服務(wù)能力。這種記憶高度依賴具體用戶、續(xù)為低權(quán)限用戶服務(wù)的會(huì)話中,它可能錯(cuò)誤地讀取該記憶,AI智能體的長(zhǎng)期記憶使其從一個(gè)對(duì)話工具轉(zhuǎn)變?yōu)橐粋€(gè)2.3.1記憶提取攻擊與釣魚誘導(dǎo)2.3.2記憶投毒與持久化控制2.3.3記憶混淆與越權(quán)操作2.4執(zhí)行層風(fēng)險(xiǎn)1.惡意操縱:攻擊者利用供應(yīng)鏈漏洞與權(quán)限2.4.1通信信道劫持2.4.2目標(biāo)函數(shù)篡改2.4.3級(jí)聯(lián)資源耗盡三、AI智能體安全治理3.1感知層安全3.1.1工具調(diào)用安全3.1.2輸入輸出安全攻擊、越獄攻擊等攻擊行為,并及時(shí)采取實(shí)時(shí)攔截、預(yù)警。3.1.3AI智能體通信安全策應(yīng)由多個(gè)智能體共同批準(zhǔn)。通過(guò)任務(wù)分割避免提權(quán)風(fēng)險(xiǎn),3.2決策層安全3.2.1實(shí)施決策驗(yàn)證3.2.2降低模型幻覺3.2.3多智能體交互安全3.3記憶層安全3.3.1記憶內(nèi)容安全3.3.2記憶存儲(chǔ)安全確保僅接收可信來(lái)源的數(shù)據(jù),長(zhǎng)期存儲(chǔ)需進(jìn)行加密與校驗(yàn)。3.4執(zhí)行層安全3.4.1任務(wù)識(shí)別安全3.4.2智能體行為安全3.4.3惡意智能體阻斷AI智能體進(jìn)程以遏制威脅;追蹤惡意AI智能體重生企圖,檢測(cè)曾被阻斷的AI智能體更換身份重新接四、AI智能體安全治理實(shí)踐及模型上下文協(xié)議(MCP)等關(guān)鍵環(huán)節(jié)開展了探索與試點(diǎn),4.1智能體平臺(tái)安全治理實(shí)踐圖3.星辰AI智能體平臺(tái)4.1.1長(zhǎng)期記憶知識(shí)庫(kù)中的風(fēng)險(xiǎn)防范智能體平臺(tái)支持用戶通過(guò)上傳長(zhǎng)期記憶知識(shí)庫(kù)對(duì)模型進(jìn)行增強(qiáng),有效緩解大模型的幻覺問(wèn)題與知識(shí)滯后等局限。先依托非結(jié)構(gòu)化數(shù)據(jù)識(shí)別能力開展全面的安全審查和數(shù)據(jù)4.1.2工作流編排中的風(fēng)險(xiǎn)防范4.1.3運(yùn)營(yíng)安全監(jiān)測(cè)個(gè)涉及惡意攻擊或違規(guī)請(qǐng)求,識(shí)別準(zhǔn)確率≥95%,對(duì)抗攻擊4.2MCP安全治理實(shí)踐結(jié)果返回給用戶或其他智能體,形成完整的任務(wù)執(zhí)行閉環(huán)。易成為提示詞注入、惡意命令投遞的攻擊入口;另一方面,態(tài)健康發(fā)展的關(guān)鍵課題。MCP作為AI智能體通信協(xié)議的代社區(qū)的大幅度增長(zhǎng),MCP的安全問(wèn)題也逐步暴露,比如,圖4.MCPScan縮略圖MCPScan是一款針對(duì)智能體工具安全的檢測(cè)系統(tǒng),它等關(guān)鍵API是否存在風(fēng)險(xiǎn)。同時(shí)提取工具的描述信息和元MCPScan已在Smithery智能體社區(qū)發(fā)現(xiàn)20多例高段的檢測(cè)機(jī)制,MCPScan為智能體工具的全生命周期提供4.3端側(cè)智能體安全評(píng)測(cè)實(shí)踐端側(cè)智能體直接控制移動(dòng)設(shè)備的操作,包括應(yīng)用調(diào)度、引發(fā)設(shè)備功能異常、隱私信息泄露或用戶操作誤導(dǎo)等問(wèn)題。傳統(tǒng)人工評(píng)測(cè)方法難以覆蓋移動(dòng)端多樣化的交互場(chǎng)景和實(shí)4.2.1多維度評(píng)測(cè)框架為了全面識(shí)別端側(cè)智能體在移動(dòng)設(shè)備實(shí)際運(yùn)行中的潛行任務(wù)時(shí),既涉及基礎(chǔ)應(yīng)用操作(如信息查詢、應(yīng)用調(diào)度、蓋郵件管理、金融交易、社交媒體、網(wǎng)頁(yè)導(dǎo)航、智能問(wèn)答、圖5.端側(cè)智能體安全風(fēng)險(xiǎn)框架4.2.2自動(dòng)化評(píng)測(cè)流程圖6.端側(cè)智能體安全評(píng)測(cè)流程圖系統(tǒng)資源限額(CPU、內(nèi)存、存儲(chǔ)占用閾值)與應(yīng)用調(diào)用白系能夠完整記錄智能體的執(zhí)行軌跡,為風(fēng)險(xiǎn)分析提供依據(jù),非結(jié)構(gòu)化文本,運(yùn)用OCR技術(shù)進(jìn)行識(shí)別,涵蓋復(fù)雜字體、(5)基于MLLM的評(píng)估:基于多模態(tài)大語(yǔ)言模型(MultimodalLargeLanguageModel,MLLM)的評(píng)估環(huán)節(jié),利用MLLM強(qiáng)大的視覺、語(yǔ)言理解能升安全風(fēng)險(xiǎn)識(shí)別的智能化與精準(zhǔn)度。序圖等直觀展示端側(cè)智能體在移動(dòng)端的高風(fēng)險(xiǎn)行為和安全薄弱環(huán)節(jié)。結(jié)合自動(dòng)化報(bào)告生成技術(shù),形成包含風(fēng)險(xiǎn)詳情、控-分析"全鏈路自動(dòng)化測(cè)評(píng)框架,能識(shí)別倫理合規(guī)、隱私泄露、冒犯性、偏見與公平、財(cái)物損失、內(nèi)容傳播等理、網(wǎng)頁(yè)導(dǎo)航以及工具調(diào)用6大核心任務(wù),為智能終端的安五、持續(xù)提升建議夯實(shí)AI智能體安全技術(shù)能力。應(yīng)聚焦AI智能體的感知利用多模態(tài)一致性檢測(cè)和對(duì)抗樣本防護(hù)降低偽造與污染風(fēng) 口InternetofThings型Generation參考文獻(xiàn)3.WilkinsDE.PracticalPlanning—Extendi4.BrooksRA.Intelligencewithoutrepresentation.ArtifIntIntroduction.Cambridge:softwaredevelopment.Ascientificresearchcapabilitiesoflargelanguagemodels.ArXiv:2304.05332,20computertasks.ArXiv:2303chain-of-actionagents.In:ProceedingsofFindingsofthepriorknowledgeforplayArXiv:2305.02412,20shotplanners:extractingactionableknowledgeforembodiedDevelopmentandUseofArtificialIntelligence,2023.comprehensiveanalysisofnovelpromptinjectionthreatstoapplication-integratedlargelanguagemodels.arLLMApps&GenAIAgenticSecurityInitiative,2023.22.王帥.大模型賦能的軟件安全和智能體安全研究.23.H?ndlerT.Balandimensional
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生產(chǎn)科科長(zhǎng)考試題及答案
- 生理學(xué)輸血試題及答案
- 瑞昌小學(xué)畢業(yè)考試題目及答案
- 輔警制度培訓(xùn)課件
- 2026 年初中英語(yǔ)《語(yǔ)法填空》專項(xiàng)練習(xí)與答案 (100 題)
- 2026年深圳中考語(yǔ)文閱讀提分專項(xiàng)試卷(附答案可下載)
- 游戲題目及答案大全
- 2026年深圳中考數(shù)學(xué)中等生提分試卷(附答案可下載)
- 基本邏輯考題題庫(kù)及答案
- 2026年深圳中考?xì)v史考場(chǎng)實(shí)戰(zhàn)模擬試卷(附答案可下載)
- 2026年春蘇教版新教材小學(xué)科學(xué)二年級(jí)下冊(cè)(全冊(cè))教學(xué)設(shè)計(jì)(附教材目錄P97)
- 2026年基因測(cè)序技術(shù)臨床應(yīng)用報(bào)告及未來(lái)五至十年生物科技報(bào)告
- 2025北京陳經(jīng)綸中學(xué)高一9月月考物理(貫通班)試題含答案
- 中國(guó)鋁礦行業(yè)現(xiàn)狀分析報(bào)告
- 物業(yè)人員消防安全培訓(xùn)課件
- 服裝銷售年底總結(jié)
- 2025年大學(xué)大四(預(yù)防醫(yī)學(xué))環(huán)境衛(wèi)生學(xué)階段測(cè)試試題及答案
- 文物安全保護(hù)責(zé)任書范本
- 2025??低暟矙z機(jī)用戶手冊(cè)
- 學(xué)堂在線 雨課堂 學(xué)堂云 智能時(shí)代下的創(chuàng)新創(chuàng)業(yè)實(shí)踐 期末考試答案
- 日周月安全檢查記錄表
評(píng)論
0/150
提交評(píng)論