2025生成式AI安全白皮書_第1頁
2025生成式AI安全白皮書_第2頁
2025生成式AI安全白皮書_第3頁
2025生成式AI安全白皮書_第4頁
2025生成式AI安全白皮書_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

火山引擎VOLCENGINE.COM生成式AI安全白皮書火山引擎生成式Al安全白皮書序言1.2生成式AI安全的核心問題與現(xiàn)實挑戰(zhàn)1.3火山引擎的AI安全主張:可信、可控、合規(guī)的Al云原生基座生成式AI安全風(fēng)險2.2數(shù)據(jù)隱私風(fēng)險火山引擎生成式AI服務(wù)安全保障體系3.2合規(guī)資質(zhì)與認證3.3數(shù)據(jù)安全與隱私保護設(shè)計理念總結(jié)4.1生成式AI行業(yè)安全展望4.2火山引擎致力于保障生成式AI安全火山引擎VOLCENGINE.COM從文本到圖像、語音、視頻的多模態(tài)表達,從“調(diào)用型”向“智能體化”工作流演進。模型不再是外置的試驗工具,而是能夠被嵌入到知識管理、研發(fā)協(xié)作、客服運營、風(fēng)險控制等關(guān)鍵流程,形成可復(fù)用的“技能?!?。這種可工業(yè)化的能力,要求企業(yè)把模型服務(wù)、數(shù)據(jù)治理、權(quán)限體系、合規(guī)審計放到同一工程體系下統(tǒng)一管理,而不是零散的功能試點?!銎髽I(yè)正從“單點試驗”轉(zhuǎn)向“平臺化建設(shè)”……………一方面,公有云與私有化部署需要在性能、合規(guī)、成本、可運維性之間找到動態(tài)平衡;另一方面,模型的選擇從“追最新”轉(zhuǎn)向“適配業(yè)務(wù)”,強調(diào)穩(wěn)定性、可控性與治理可視。對抗、失真與濫用的攻防拉鋸在模型層,提示詞注入、越獄攻擊、對抗樣本與模型失真與能力濫用的風(fēng)險。安全不再依賴簡單的“黑白名單”,而是構(gòu)成的系統(tǒng)化治理方案。企業(yè)需要建立“上治理重點在“意圖識別與動態(tài)授權(quán)”:讓每一次調(diào)用都在可見、統(tǒng)的核心風(fēng)險源。數(shù)據(jù)血緣、分級分類、最小敏與匿名化等能力需要與模型管理深度綁定,確保從采標注、訓(xùn)練、后訓(xùn)練到推理的每一步都可審計、可復(fù)盤。把“可解釋、可審計、可問責(zé)”嵌入產(chǎn)品生成式系統(tǒng)不僅是技術(shù)工程,更是治理工程。策、紅線、行為準則固化到模型與應(yīng)用的運行生成式AI安全白皮書01火山引擎VOLCENGINE.COM火山引擎將自身定位為AI云原生的可信安全基礎(chǔ)設(shè)施提供者,以“安全即服務(wù)”的方式,承載企業(yè)的AI工作負載與治理能力,建立客戶信任與透明度的長期機制。火山引擎構(gòu)建“技術(shù)領(lǐng)先、治理完善、生態(tài)開放”的Al安全能力。在架構(gòu)與算法層保持AI原生的安全創(chuàng)新,在合規(guī)與治理層構(gòu)建全生命周期的框架與支持,在生態(tài)層以標準化接口與開放協(xié)作促進企業(yè)集成與擴展?;鹕揭鎂OLCENGINE.COM隨著人工智能技術(shù)的迅猛發(fā)展,倫理、偏見、歧視等問題日益凸顯。如何確保人工智能行業(yè)在符合社會價值觀的框架下實現(xiàn)健康發(fā)展,已成為全球監(jiān)管部門首要關(guān)注的問題,當(dāng)前各國正加快構(gòu)建針對人工智能領(lǐng)域的法律法規(guī)要求與合規(guī)監(jiān)管框架。對于人工智能服務(wù)提供者和使用者而言,嚴格遵守法律監(jiān)管要求至關(guān)重要。在全球范圍內(nèi),歐盟于2024年8月正式生效《人工智能法案》,作為全球首部全面針對人工智能的法案,該法案采用四級風(fēng)險模型,為歐盟內(nèi)人工智能系統(tǒng)的開發(fā)、市場投放和使用制定了統(tǒng)一規(guī)則,禁止違背歐盟價值觀、有害的人工智能服務(wù)發(fā)展;美國推出《人工智能創(chuàng)新未來法案》強調(diào)了國際標準的制定、數(shù)據(jù)共享和安全性研究的重要性。為人工智能領(lǐng)域合規(guī)管理提供了堅實的法律基礎(chǔ),在此基礎(chǔ)上,各部委陸續(xù)出臺《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等法規(guī)要求,確立了服務(wù)提供者主體責(zé)任,明確內(nèi)容合規(guī)與算法公平性等要求,并建立了人工智能安全評估和備案管理制度,為人工智能行業(yè)發(fā)展提供了明確的標準與指導(dǎo)。因此,在中國境內(nèi)提供、使用生成式人工智能服務(wù)的企業(yè),需要依據(jù)法律法規(guī)履行備案義務(wù),保障用戶權(quán)益、以及內(nèi)容、算法安全。此外,各國也在不斷完善人工智能相關(guān)法律法規(guī)體系中。2025年8月,中國國務(wù)院印發(fā)《關(guān)于深入實施“人工智能+”行動的意見》中特別強調(diào)應(yīng)加強政策法規(guī)保障,完善人工智能法律法規(guī)、倫理準則、推進人工智能健康發(fā)展相關(guān)立法工作、優(yōu)化人工智能相關(guān)安全評估和備案管理制度。25年7月,歐盟發(fā)布《通用Al行為準則》《通用AI模型提供者指南》、《數(shù)據(jù)訓(xùn)練摘要模板》作為《人工智能法案》的核心配套措施,構(gòu)建歐盟人工智能合規(guī)觀框架。作為生成式人工智能服務(wù)的提供者與使用者需要持續(xù)關(guān)注行業(yè)法律法規(guī)建設(shè),保障人工智能服務(wù)合法合規(guī)?;鹕揭鎂OLCENGINE.COM2.2數(shù)據(jù)隱私風(fēng)險數(shù)據(jù)是每個企業(yè)的核心資產(chǎn),近年來數(shù)據(jù)安全事件層出不窮,給企業(yè)帶來巨大商業(yè)秘密泄露風(fēng)險的同時,用戶個人的隱私權(quán)也可能因此而受到威脅。生成式人工智能的發(fā)展高度依賴海量數(shù)據(jù),但在數(shù)據(jù)大規(guī)模收集、存儲、訓(xùn)練、推理等過程中,勢必會伴隨著復(fù)雜的數(shù)據(jù)與隱私安全風(fēng)險。生成式人工智能依賴海量訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)來源廣泛,如果數(shù)據(jù)能會包含個人信息、甚至敏感個人信息,在未明用戶在使用生成式人工智能服務(wù)時會涉及以下關(guān)鍵數(shù)據(jù)資據(jù)、以及精調(diào)后的模型等。若未采取適當(dāng)?shù)陌踩U洗胧?,?shù)基于生成式人工智能的技術(shù)特性,數(shù)據(jù)記憶會導(dǎo)致作惡分子通“記憶”,致使模型訓(xùn)練時的數(shù)據(jù)可能被提取。數(shù)據(jù)記憶是提取攻擊、成員推理攻擊的前提,模型對訓(xùn)練數(shù)據(jù)的記憶越深刻,攻擊者就越容易通過設(shè)計輸入信息以“喚醒”用戶在使用生成式人工智能服務(wù)時的輸入與輸出環(huán)節(jié),可API接口存在的安全漏洞,導(dǎo)致數(shù)據(jù)被第三方非法獲取,從而造成數(shù)據(jù)泄露除了上述問題外,內(nèi)部人員違規(guī)操作或者人為疏漏也是常見的數(shù)據(jù)與隱私安全風(fēng)險的誘火山引擎VOLCENGINE.COM2.3生成式AI安全風(fēng)險生成式AI正在快速嵌入企業(yè)生產(chǎn)力、開發(fā)運維與對外服務(wù)。安全風(fēng)險不再停留在傳統(tǒng)應(yīng)用層,而是沿著“AI基礎(chǔ)設(shè)施→大模型→智能體”鏈條相互作用、彼此放大。AIAI基礎(chǔ)設(shè)施安全風(fēng)險算力濫用:當(dāng)GPU/TPU與訓(xùn)練集群缺乏精細的配額與準入控制,未授權(quán)調(diào)用會造成經(jīng)濟損失,甚至被用于非法挖礦或異常訓(xùn)練。網(wǎng)絡(luò)隔離薄弱:資源直連公網(wǎng)、入/出站流量缺乏分級管控,導(dǎo)致暴露面擴大,橫向移動更容易。供應(yīng)鏈漏洞:開源框架、驅(qū)動與容器鏡像成為常見入口,版本污染或鏡像被植入會在訓(xùn)練/推理鏈路中縱深擴散。訪問控制缺陷:IAM策略誤配、長效AK憑證泄露,使攻擊者輕易繞過控制面直達算力與數(shù)據(jù)。模型泄露:參數(shù)提取、逆向推斷或錯誤發(fā)布導(dǎo)致權(quán)重外泄,直接損害資產(chǎn)價值。數(shù)據(jù)隱私泄漏:模型在推理中“記憶”敏感信息,一旦遭遇Prompt注入,可能被誘導(dǎo)輸出個人或企業(yè)機密。對抗攻擊:惡意輸入觸發(fā)異常行為,造成錯誤回答、策略繞過或安全審計失效。后門與中毒:訓(xùn)練或微調(diào)階段的污染樣本,使模型在特定觸發(fā)詞下被操控,風(fēng)險在生產(chǎn)環(huán)境中隱蔽顯現(xiàn)。內(nèi)容安全風(fēng)險:模型在用戶輸入引導(dǎo)下,生成違反法律法規(guī)、公序良俗或存在安全隱患的內(nèi)容。傳統(tǒng)Web安全風(fēng)險:傳統(tǒng)Web漏洞,認證鑒權(quán)的缺失,訪問控制不當(dāng),會造成模型平臺的失陷,造成模型和用戶數(shù)據(jù)泄漏Prompt注入:精心構(gòu)造的指令讓模型執(zhí)行非預(yù)期任務(wù),典型表現(xiàn)為越權(quán)調(diào)用API或讀取敏感數(shù)據(jù),泄漏系統(tǒng)提示詞。工具濫用:具備代碼執(zhí)行、數(shù)據(jù)庫訪問與外部系統(tǒng)調(diào)用能力的Agent,若缺少最小權(quán)限與隔離,將造成嚴重泄露與破壞。供應(yīng)鏈安全風(fēng)險:接入的第三方插件與API成為新攻擊面,依賴的生態(tài)漏洞被復(fù)用擴散。隔離機制失效:多租戶場景中,未對網(wǎng)絡(luò)和數(shù)據(jù)進行隔離,導(dǎo)致租戶間的資源、數(shù)據(jù)或操作邊界被打破。傳統(tǒng)Web安全風(fēng)險:傳統(tǒng)Web漏洞,認證鑒權(quán)的缺失,訪問控制不當(dāng),會造成智能體失陷,造成用戶數(shù)據(jù)泄漏。生成式AI安全白皮書05火山引擎VOLCENGINE.COM3.火山引擎生成式AI服務(wù)安全保障體系隨著生成式人工智能(GenerativeAl)技術(shù)的廣泛應(yīng)用,火山引擎致力于為人工智能服務(wù)使用者提供安全、合規(guī)的人工智能服務(wù)。然而,如同云服務(wù)責(zé)任共擔(dān)體系一樣,在人工智能平臺上部署的AI工作負載,其安全、穩(wěn)定運行需要使用者與服務(wù)提供者共同關(guān)注并維護。當(dāng)然,根據(jù)您所選擇服務(wù)類型的不同,您所需承擔(dān)的安全責(zé)任也存在相應(yīng)差異。例如,基于機器學(xué)習(xí)平臺(AML)構(gòu)建AI工作負載,您需要關(guān)注模型訓(xùn)練、模型部署等全生命周期工作流的安全合規(guī)責(zé)任;如您選擇豆包大模型搭建生成式人工智能服務(wù),模型的安全合規(guī)則由火山引擎與您共同承擔(dān)。以下將從合規(guī)、安全、數(shù)據(jù)隱私三個方面分別闡述生成式人工智能場景下的責(zé)任體系?!龊弦?guī)責(zé)任:恪守法規(guī)、共筑健康生態(tài)…………人工智能行業(yè)健康發(fā)展首先需要人工智能服務(wù)提供者、使用者嚴格遵守法律規(guī)范,恪守合規(guī)底線。合規(guī)方面首要關(guān)注備案合規(guī)與內(nèi)容合規(guī)(見:圖1):機器學(xué)習(xí)平臺內(nèi)容標識合規(guī)合成內(nèi)容服務(wù),需滿足顯式標識、元數(shù)據(jù)隱式標識等內(nèi)容標識要求;合成內(nèi)容服務(wù),需滿足顯式標識、元數(shù)據(jù)隱式標識等內(nèi)容標識要求;合成內(nèi)容服務(wù),需滿足顯式標識、元數(shù)據(jù)隱式標識等內(nèi)容標識要求;數(shù)據(jù)隱式標識等內(nèi)容標識要求;內(nèi)容安全合規(guī)施防止產(chǎn)生違法違規(guī)內(nèi)容;施防止產(chǎn)生違法違規(guī)內(nèi)容;審核能力;審核能力;火山引擎針對模型全生命周期建設(shè)了內(nèi)容安全策略,對豆包大模型生成內(nèi)容進行嚴格管控;了內(nèi)容安全策略,對豆包大模型生成內(nèi)容進行嚴格管控;備案合規(guī)服務(wù)備案;服務(wù)備案;務(wù),則建議以服務(wù)提供者的角色開展算法備案,并按照屬地網(wǎng)信部門要求進行生成式人工智能服務(wù)備案。務(wù),則建議以服務(wù)提供者的角色開展算法備案,并按照屬地網(wǎng)信部門務(wù),則建議以服務(wù)提供者的角色開展算法備案,并按照屬地網(wǎng)信部門務(wù),則建議以服務(wù)提供者的角色開展算法備案,并按照屬地網(wǎng)信部門已完成算法備案和生成式人工智能服務(wù)備案;已完成算法備案和生成式人工智能服務(wù)備案;(圖1)客戶責(zé)任火山引擎責(zé)任保護隱私安全是火山引擎與客戶的共同責(zé)任。根據(jù)構(gòu)建AI工作負載的方式不同,對訓(xùn)練和推理數(shù)據(jù)的掌控程度會存在相應(yīng)差異,所需承擔(dān)的安全責(zé)任也有所不同(見:圖2)。訓(xùn)練數(shù)據(jù)合規(guī)客戶數(shù)據(jù)安全機器學(xué)習(xí)平臺訓(xùn)練數(shù)據(jù)合規(guī)平臺上基礎(chǔ)模型進行精調(diào),需要保障訓(xùn)練數(shù)據(jù)安全合規(guī)客戶數(shù)據(jù)安全限,定期開展審計限,定期開展審計火山引擎保障產(chǎn)品安全性,確保未經(jīng)客戶授權(quán)不會訪問確保未經(jīng)客戶授權(quán)不會訪問客戶數(shù)據(jù)箱等技術(shù),為客戶提供安全(圖2)(圖2)生成式人工智能安全需由服務(wù)提供者與開發(fā)者共同維護,安全責(zé)任與服務(wù)類型、模型構(gòu)建方式密切相關(guān),以下將從基礎(chǔ)設(shè)施安全、模型安全兩個方面介紹安全責(zé)任劃分(見:圖3):◎基礎(chǔ)設(shè)施安全◎模型安全模型安全包括模型選型、訓(xùn)練部署、上線運行等環(huán)節(jié)的安全性基礎(chǔ)設(shè)施安全模型安全包括模型選型、訓(xùn)練部署、上線運行等環(huán)節(jié)的安全性基礎(chǔ)設(shè)施安全機器學(xué)習(xí)平臺要關(guān)注全生命周期安全,包括模型選型、訓(xùn)練部署、的安全互信架構(gòu),保障服務(wù)全生命周期安全(圖3)客戶責(zé)任□火山引擎責(zé)任2021年以來,我國陸續(xù)發(fā)布《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》、《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》、《生成式人工智能服務(wù)管理暫行辦法》等大模型服務(wù)相關(guān)的法律法規(guī),形成一套完備的生成式人工智能服務(wù)監(jiān)管體系?;鹕揭鏋楸U掀脚_安全合規(guī),為客戶提供服務(wù)的大模型均以服務(wù)技術(shù)支持者的角色完成算法備案與生成式人工智能服務(wù)備案,并且針對大模型平臺單獨開展網(wǎng)絡(luò)安全等級保護測評,以證大模型平臺在網(wǎng)絡(luò)安全技術(shù)能力、安全管理體系等方面充分滿足國家安全合規(guī)要求,為用穩(wěn)定運行提供了堅實保障。同時,火山引擎致力于貢獻安全實踐促進行業(yè)安全生態(tài)建設(shè),據(jù)安全、個人信息保護等領(lǐng)域積極參與國家標準、行業(yè)標準的制定,參與包括全智能標委會、全國通信標準化委員會等多個權(quán)威標準化組織,貢獻GB/T45958人工智能計算平臺安全框架、GB/T35274大數(shù)據(jù)服務(wù)安全能力要求等多項國標、行標,為行業(yè)標準化建設(shè)貢獻力量。在滿足法律法規(guī)要求的基礎(chǔ)上,火山引擎為了向客戶提供更高質(zhì)量的大模型服務(wù),也積證,通過國際、國內(nèi)獨立第三方專業(yè)機構(gòu)驗證大模型相關(guān)產(chǎn)品安全合規(guī)能力。2025年2月,火山引擎正式通過國際權(quán)威認證機構(gòu)DNV的嚴格審核,成為全球首批獲得歐盟授信機構(gòu)RVA認可ISO/IEC42001人工智能管理體系認證的企業(yè),標志著火山引擎在AI治理領(lǐng)域的技術(shù)實力與合規(guī)能力達到國際最高標準。截至目前,火山引擎云平臺以及大模型服務(wù)已經(jīng)通過ISO/IEC27001信息安全管理體系、ISO/IEC20000信息技術(shù)服務(wù)管理體系、ISO22301業(yè)務(wù)連續(xù)性管理體系、ISO/IEC27701隱私安全管理體系和ISO9001質(zhì)量管理體系等多個管理體系認證ISO9001質(zhì)量管理體系認證ISO27017云服務(wù)信息安全管理體系認證ISO27701隱私信息管理體系認證SO27040數(shù)據(jù)存儲安全管理體系認證ISO14001環(huán)境管理體系認證BS10012個人信息管理體系認證信通院可信Al認證中國電子技術(shù)標準化研究院-大模型國標符合性測試3.3數(shù)據(jù)安全與隱私保護設(shè)計理念和傳統(tǒng)AI數(shù)據(jù)安全和隱私保護相比,大模型或者生成式AI的數(shù)據(jù)與隱私安全的關(guān)鍵挑戰(zhàn)在于:相較于傳統(tǒng)AI模式,很多用戶為了確保數(shù)據(jù)安全將模型部署在私有化環(huán)境里;但考慮到大模型迭代速度,如果用戶想使用市場上最新、最強的模型能力,往往會選擇云上的大模型服黑盒模型的可解釋性問題大模型的黑盒特性使其決策過程難以追溯,人員的惡意行為也會增大此類風(fēng)險,從而帶來如何確保大模型操作透明化的挑戰(zhàn)。在這樣的挑戰(zhàn)下,我們認為在生成式Al時代,需要打造一套全周期的安全可信方案,全方位保障客戶數(shù)據(jù)和隱私安全,實現(xiàn)會話無痕,保障數(shù)據(jù)唯客戶所見、唯客戶所用、唯客戶所有。圍繞生成式人工智能服務(wù)全流程中的數(shù)據(jù)和隱私安全風(fēng)險,火山引擎方舟可信人工智能系統(tǒng)(ArkTrustAISystem,以下簡稱“方舟”)提出生成式人工智能安全互信計算框架,其旨在結(jié)合隱私增強、可信計算等安全計算技術(shù),實現(xiàn)云上模型推理和訓(xùn)練過程中數(shù)據(jù)和模型的數(shù)據(jù)安全和隱私保護能力。相關(guān)保護方案具有以下技術(shù)特點:止用戶數(shù)據(jù)在傳輸鏈路中被截獲。用戶請求基于火山引擎標準API網(wǎng)關(guān)接入之后,在所有內(nèi)網(wǎng)通信均全沙箱內(nèi)存中被解密。同時支持用戶使用自有密鑰(HoldYourOwnKey,HYOK)進一步提升數(shù)據(jù)保護水平,實現(xiàn)對用戶數(shù)據(jù)的機密性保護,保證用戶數(shù)據(jù)非本人不可見。通過EFS(Encrypted生成式AI安全白皮書加速方案,可實現(xiàn)沙箱內(nèi)部解密速度超100GBps,解密帶來的延遲對于推理任務(wù)啟動幾乎無影響。杜絕外部風(fēng)險入侵和內(nèi)部數(shù)據(jù)泄露。◎容器沙箱方面,云原生容器沙箱技術(shù)采用開源VArmor,通過LinuxAppArmorLSM(LinuxSecurityModules),BPFLSM和Seccomp技術(shù)實現(xiàn)強制訪問控制器,從而對模型運行時環(huán)境進行安全加固。它可以用于增強容器隔離性、減少內(nèi)核攻擊面、增加容攻擊的難度與成本?!蚓W(wǎng)絡(luò)隔離方面,同時開啟VPC(VirtualPrivateCloud)網(wǎng)絡(luò)以及RDMA(RemoteDirectMemoryAccess)網(wǎng)絡(luò)隔離,保證單個任務(wù)內(nèi)運行環(huán)境之間可通信、跨任務(wù)嚴格隔離。在VPC網(wǎng)絡(luò)中,主要基于Kubernetes的NetworkPolicy對任務(wù)的主網(wǎng)卡進行隔離,防止不同任務(wù)之間互相通信;另外精調(diào)或者推理任務(wù)還會使用輔助網(wǎng)卡分采用自研的技術(shù)對不同的任務(wù)進行分組隔離,保證不同任務(wù)之間RDMA通信被阻斷?!蛟谠L問控制方面,對于運行期間需要訪問的外部服務(wù),方舟會進行嚴格的審查,制定對應(yīng)的訪問控制策略,并且通過服務(wù)組件進行訪問代理和策略實施。對于精調(diào)訓(xùn)練獲得的更新的模型,借助加密存儲將更新的模型保存到訓(xùn)練平臺對象存儲,保證精調(diào)模型機密性、◎在可信運維方面,方舟基于互信計算框架,對于進出安全執(zhí)行環(huán)境的出入流量、數(shù)據(jù)讀寫均有嚴格的管控。同時,基于火山引擎標準的堡壘機產(chǎn)品,在經(jīng)過審批授權(quán)之后,行運維,并嚴格限制了安全沙箱內(nèi)的危險操作,對全程進行錄屏操作,以便低內(nèi)部作惡的風(fēng)險。在標準通用的安全保護方案基礎(chǔ)上,對于進階安全需求方舟安全計算環(huán)境提供基于硬件可信技術(shù)的機密部署模式,包括:構(gòu)建從物理芯片(GPU/CPU)到容總而言之,方舟強調(diào)云端Al計算的動態(tài)安全加固和透明可信體驗感的增強,致力于通過安全、合規(guī)、可信的保護方案,實現(xiàn)用戶會話零保留、平臺違規(guī)零容忍,保障數(shù)據(jù)與隱私安全?;鹕揭鎂OLCENGINE.COM生成式AI安全白皮書3.4生成式AI安全技術(shù)保障體系火山引擎基于AI業(yè)務(wù),構(gòu)建了一套以透明可信為核心的“三層級”生成式AI安全保障體系?!叭龑蛹墶焙w了Al基礎(chǔ)設(shè)施安全、模型與平臺安全、AI智能體安全。AI安全研究則是不斷發(fā)掘新興安全風(fēng)險探索防護方案,并為“三層級”安全能力提供技術(shù)支持和方向指引。A智能體安全縱深防御與加固前沿研究身份認證多租戶隔離邊界防護自動化測評+自動化掃描+模型與平臺安全模型平臺安全防護A基礎(chǔ)設(shè)施安全固件資產(chǎn)管理與漏洞響應(yīng)硬件可信根可信執(zhí)行環(huán)境Al機治理架構(gòu)與安全體系平臺基礎(chǔ)防護(圖4)AI基礎(chǔ)設(shè)施是云平臺的底座,承載laaS/PaaS主干與對外服務(wù)。要實現(xiàn)“可用、可信、可控”的算力與數(shù)據(jù)底座,需將平臺基礎(chǔ)安全和增強安全方案組合成體系化的安全能01治理架構(gòu)與規(guī)范體系內(nèi)外合規(guī)內(nèi)部威脅強管控,外部監(jiān)管不違規(guī)高危嚴重風(fēng)險不上線,數(shù)據(jù)不丟上云即合規(guī)上云即安全02產(chǎn)品安全保障發(fā)階段(上線前)運行階段(運營防護)原生DDoS防護:在出口部署攻擊檢測與清洗系統(tǒng),過濾流量型與應(yīng)用層攻擊,正常流量無損回源;結(jié)合運營商黑洞等能力,在大流量場景快速封禁,確保業(yè)務(wù)持續(xù)穩(wěn)定。并評估危害與影響面;聯(lián)合安全掃描治理漏洞,聯(lián)動為分析,防御常見Web攻擊(SQL注入、XSS、文件上傳漏洞等),并支持CC攻擊緩解、Bot管理與精準訪問控制,提供實時監(jiān)測與可視化報表。05攻防演練與外部驗證集+多維度關(guān)聯(lián)”的采集架構(gòu)與“規(guī)則匹配+行為建模+團伙關(guān)聯(lián)”的分析體系,并以“分級預(yù)警+場景漏洞獎勵計劃:與全球白帽社區(qū)共建安全生態(tài),持續(xù)專項測試、演練與驗證,提升產(chǎn)品安全水位與可信度。紅藍演練:覆蓋外部滲透與內(nèi)鬼模擬,針對薄弱點開漏洞獎勵計劃:與全球白帽社區(qū)共建安全生態(tài),持續(xù)專項測試、演練與驗證,提升產(chǎn)品安全水位與可信度。以資產(chǎn)為錨點、以情報為觸發(fā),形成“精準識別一批量升級一對客提示”的閉環(huán)。硬件可信根以硬件為信任錨,確保整機平臺完整性與設(shè)備身份可信,貫穿啟動、升級與運行時。生成式AI安全白皮書13◎動態(tài)度量可信:設(shè)備啟動或更新時記錄關(guān)鍵信息完成可信度量并上報,結(jié)合遠程證明能力,確保啟動和升級過程中的機密性與完整性。以硬件級隔離為核心,為敏感代碼與數(shù)據(jù)提供運行時的保密性與完整性。結(jié)合遠程證明與密鑰管理,可在云側(cè)與虛擬化環(huán)境中建立可驗證的信任鏈?!騃ntelTDX能力與適用:通過在硬件層部署信任域(TD),保護敏感數(shù)據(jù)與應(yīng)用免受未經(jīng)授權(quán)訪問,并確保完整性、保密性與真實性。其軟件模塊在新的CPU安全仲裁模式(SEAM)中啟動,配合現(xiàn)有虛擬化基礎(chǔ)設(shè)施完成TD的進入/退出?!騃ntelSGX能力與適用:IntelSGX通過在進程內(nèi)創(chuàng)建安全區(qū)(Enclave),為敏感代碼與數(shù)據(jù)提供極細粒度的隔離。除安全區(qū)與CPU外,操作系統(tǒng)、虛擬化管理程序、SMM、BIOS等特權(quán)軟件不在信任邊界,即便底層平臺受惡意軟件影響,安全區(qū)內(nèi)信息仍保持機密?!ぴ苽?cè)形態(tài):火山引擎embg2t彈性裸金屬(第三代至強),單實例最高含256G加密內(nèi)存?!駻l機密計算:基于機密計算、密碼學(xué)應(yīng)用、信息流安全等隱私保護技術(shù),面向公有云環(huán)境,實現(xiàn)敏感數(shù)據(jù)流轉(zhuǎn)與應(yīng)用安全的通用能力。端云互信服務(wù)硬件保護嚴格訪問控制安全可信四可信運址監(jiān)控可信密鑰服務(wù)(TruastedKeyService,TKS)是一種退行于可信執(zhí)行環(huán)境(TEE)中的安全服日志服務(wù)選程證明服務(wù)(RemoteAtestationService,FAS)是一套對可信執(zhí)行環(huán)境(TE機密容器服務(wù)(JoddakCohodontialKubemetos,JCK)生成式AI安全白皮書14生成式AI安全白皮書15火山方舟是火山引擎推出的大模型服務(wù)平臺(MaaS,Model-as-a-Service),面向企業(yè)與個人開發(fā)者提供模型精調(diào)、推理、評測等全方位功能與服務(wù),以及豐富的插件生態(tài)和AI原生應(yīng)用開發(fā)服務(wù)。根據(jù)國際數(shù)據(jù)公司(IDC)發(fā)布的《中國大模型公有云服務(wù)市場分析,2025H1》報告,2025年上半年,中國公有云上大模型調(diào)用量達536.7萬億Tokens(統(tǒng)計口徑:各大云廠商對外部客戶提供的大模型公有云服務(wù)調(diào)用量,不包含自有業(yè)務(wù)調(diào)用),火山引擎以49.2%的份額占比位居中國第一?;鹕椒街弁ㄟ^安全可信的基礎(chǔ)設(shè)施、專業(yè)的算法技術(shù)服務(wù),全方位保障企業(yè)級Al應(yīng)用落地。A應(yīng)用開發(fā)扣子HiAgent大模型服務(wù)火山方舟——站式大模型服務(wù)平臺智能廣場模型推理模型定制PromptPilot基礎(chǔ)模型(圖6)模型安全是一條貫穿數(shù)據(jù)進入、模型訓(xùn)練到發(fā)布服務(wù)的治理生產(chǎn)線。其目標是確保數(shù)據(jù)可用與可解釋、訓(xùn)練過程穩(wěn)健與可追溯、上線前后可審核與可回滾,從而在滿足合規(guī)要求的同時保障產(chǎn)品與工程的持續(xù)穩(wěn)定運行。02模型生命周期安全從“數(shù)據(jù)標注→預(yù)訓(xùn)練→后訓(xùn)練與上線”,各階段側(cè)重點不同,但遵循統(tǒng)一治理原則與證據(jù)化要求。立項評估→資源準入→作業(yè)→質(zhì)檢→交付→結(jié)項。·來源篩選遵循GB/T45652對·安全對齊:紅線/高危/灰色分層策略;結(jié)合權(quán)威口徑與價值觀更新;風(fēng)險分級P0/P1/P2;質(zhì)·評測與紅隊:固定節(jié)奏攻防演練與問題回灌;標準按周迭代。質(zhì)檢全覆蓋與日志留存,問題打加密傳輸與存儲、日志保留6個·門禁與報備:發(fā)布前安全回掃、上線門禁、數(shù)據(jù)安全報備與灰度監(jiān)控;異常可快速回滾。數(shù)據(jù)標注階段將“可執(zhí)行的流程”與“可證明的合規(guī)”結(jié)合。需求接入后完成合規(guī)與可行性評估合同約束;隨后進行資源與人員準入,確保對象、流程與工具在受控環(huán)境運行。標注數(shù)據(jù)進入質(zhì)隱私與最小必要:標注范圍遵循最小必要,模板與操作默認脫敏。平臺與訪問:標注平臺提供隔離環(huán)境與權(quán)限分層;作業(yè)與風(fēng)控日志在質(zhì)檢與留痕:質(zhì)檢團隊二次把關(guān);關(guān)鍵節(jié)點留痕(模板、隊列、數(shù)據(jù)集變更),交付可驗收、問題可定位。預(yù)訓(xùn)練數(shù)據(jù)治理將“來源合規(guī)、風(fēng)險過濾、質(zhì)量提升”組織成一條可驗證的流水線。數(shù)據(jù)來源遵循GB/T45652對訓(xùn)練數(shù)據(jù)的相關(guān)安全要求;英文與垂直領(lǐng)域資源采用專用風(fēng)險過濾模型與敏感詞機制,確保不含違規(guī)則按周更新,覆蓋涉政、色情、違法違規(guī)等重點方向,同時對劣質(zhì)樣本進行壓制。每次訓(xùn)練批次進行抽檢與定向攻風(fēng)險過濾與質(zhì)量評估:風(fēng)險分級PO/P1/P2與質(zhì)量O/1/2打分;中英雙語過濾模型與敏感詞表疊加;低質(zhì)模型過濾后再投訓(xùn)。訪問與存儲安全:數(shù)據(jù)訪問控制嚴格管控,操作日志保留6個月。后訓(xùn)練關(guān)注輸出安全與行為一致性。將問題分為紅線、高危與灰色,分別采用兜底話術(shù)、權(quán)威正確口徑與價值觀降險話術(shù),形成策略兜底與安全對齊。發(fā)布前執(zhí)行安全回掃、上線門禁與數(shù)據(jù)安全報備;采用灰度與分層監(jiān)控,在突發(fā)或重大敏感節(jié)點升級審核與專班應(yīng)對;異常場景按預(yù)案回滾。安全對齊與策略:紅線命中兜底,高危輸出權(quán)威正確口徑,灰色在正確口徑基礎(chǔ)上追加評測與紅隊:依據(jù)國家標準《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》,定制了多套題庫驗證模型的安全性,藍軍攻擊團隊與審核標注團隊協(xié)同,問題即時回灌訓(xùn)練與策略。報備與門禁:上線前完成數(shù)據(jù)安全回掃與數(shù)據(jù)安全報備;灰度發(fā)布與多維監(jiān)控;突發(fā)事件節(jié)點臨時升級策略與隊列。*特別說明:方舟平臺僅對三方模型進行基準安全測試,但不對其安全性進行承諾。如用戶選擇選擇和使用開源模型,需對模型生成內(nèi)容的安詳見火山方舟大模型服務(wù)平臺專用條款3.7.3。生成式AI安全白皮書16|平臺安全安全互信計算架構(gòu)火山方舟通過穩(wěn)定可靠的安全互信方案,保障模型服務(wù)提供方的模型安全與模型使用者的信息安全。方舟安全互信計算架構(gòu)結(jié)合云原生安全沙箱、加密存儲、網(wǎng)絡(luò)隔離以及加密傳輸?shù)燃夹g(shù),針對大模型數(shù)據(jù)預(yù)處理、推理、精調(diào)以實現(xiàn)說明鏈路全加密間建立端到端加密通信通道,防止用戶數(shù)據(jù)在傳輸鏈路中被應(yīng)用層·基于用戶和安全沙箱的雙向身份認證,進行再次密鑰協(xié)商,建立用戶和安全沙箱之間的互信連接,保證會話數(shù)據(jù)只·全局默認開啟,無需用戶操作·外網(wǎng)傳輸使用HTTPS,內(nèi)網(wǎng)傳輸使用mTLS,內(nèi)網(wǎng)跨VPC通信精調(diào)場景支持客戶使用自有密鑰(HYOK),獲得云環(huán)境中數(shù)容器安全,確保程序以非特權(quán)模式啟動,動態(tài)阻用。保證攻擊者無法利用當(dāng)前任務(wù)漏洞橫移·芯片級隔離:分離式部署構(gòu)建從物理芯片(GPU/CPU)到容器接觸數(shù)據(jù),讓隱私數(shù)據(jù)在云端獲得比本地更代理訪問,疊加嚴格的權(quán)限檢查和訪問請求檢查,防止沙箱內(nèi)的進·vArmor攔截日志:記錄被vArmor攔截執(zhí)行的用戶非法命令身份認證會話加密智能脫敏內(nèi)容風(fēng)險識別安全演練加密存儲中間件容器沙箱隔離零信任網(wǎng)絡(luò)訪問控制計算隔離和安全啟動(虛擬化/可信硬件)網(wǎng)絡(luò)隔離(私有網(wǎng)絡(luò)VPC/容器ACL等)可信密鑰(加密文件系統(tǒng))(圖7)(圖7)◎推理會話數(shù)據(jù)零留存:“數(shù)據(jù)零留存”是火山方舟的一項重要安全承諾和數(shù)據(jù)管理策略,指在訓(xùn)練、推理、評估等任務(wù)完成后,平臺將從內(nèi)存和持久性存儲中擦除相關(guān)模型、樣本及臨時文件,確保非授權(quán)不留存任何用戶數(shù)據(jù)。*方舟嚴格執(zhí)行用戶同意管理,非獲得用戶授權(quán)或法規(guī)要求不留存用戶數(shù)據(jù),詳見火山方舟大模型服務(wù)平臺專用條款與火山方舟平臺免責(zé)聲明和體驗服務(wù)規(guī)則說明?!蜃猿置荑€用戶完全自主可控:密鑰是各項加解密工作的核心,很大程度上影響著數(shù)據(jù)安全信任感?;鹕椒街墼谛袠I(yè)內(nèi)率先支持MaaS原生的HYOK(HoldYourOwnKey,自持密鑰)能力,數(shù)據(jù)集與精調(diào)模型的傳輸、存儲、調(diào)用過程全部支持使用用戶自持密鑰。使用HYOK后:◎機密推理塑造“硬件級”安全信任根基:將機密計算技術(shù)原生內(nèi)置干MaaS平臺.火山方舟在行業(yè)內(nèi)率先推出MaaS原生的機密推理服務(wù)。它不僅能進一步解決運行時數(shù)據(jù)的安全保護難題,還向用戶提供可自行驗證的遠程證明文件,帶來“透明可驗證”的信任。使用機密部署后:基于原生內(nèi)置,火山方舟機密推理服務(wù)默認支持PD分離(Prefill-Decodedisaggregation)高性能推理框架,在提供更高等級安全防護的同時,保證推理效率。生成式AI安全白皮書18軌跡。(智能體)(智能體)22.2.間權(quán)弟后2(智能體)◎身份統(tǒng)一且可驗證:Agent與工具擁有獨立、可核驗的工作負載身份;不以用戶身份“扮演”運行?!驊{據(jù)可控且可輪換:靜態(tài)KMS加密,傳輸mTLS,短期臨時憑證與自動輪換降低暴露窗口?!蚪y(tǒng)一身份與可信調(diào)用鏈(TIP):體系為Agent與其托管工具提供獨立且一致的工作負載身份,跨容器、虛擬機與Serverless環(huán)境保持統(tǒng)一憑證與標識。每一次下游訪問都會同時攜帶用戶身份與Agent身份向身份服務(wù)請求令牌,返回的令牌包含鏈路信息,可被審計與回溯。這種“身份不扮演用戶、而是以自身身份運行”的設(shè)計,天然劃清邊界,減少“代理權(quán)限被用戶借用”的路徑。◎雙重校驗與最小權(quán)限:通過與云平臺IAM的集成,Agent在代入角色獲取臨時憑證時,云側(cè)策略同時校驗兩類條件是否來自受權(quán)的Agent角色,以及會話上下文中的用戶是否對目標資源有訪問權(quán)。只有兩者同時滿足才放行,既防越權(quán)也防“偷梁換柱”。臨時憑證有效期短、綁定到具體會話,輔以最小權(quán)限策略,顯著降低泄露時的影響面?!驊{據(jù)安全與傳輸保護:憑據(jù)統(tǒng)一托管在TokenVault,支持OAuth2.0、APIKey、用戶名密碼與STS等類型,提供自動續(xù)約與輪換能力(包括數(shù)據(jù)庫密碼等)。所有靜態(tài)數(shù)據(jù)使用KMS加密,傳輸通道采用基于零信任證書的mTLS,且每次請求均進行簽名、有效期與作用域的逐次校驗,避免信任域內(nèi)橫向移動。生成式AI安全白皮書19生成式AI安全白皮書20Agent的工作負載身份(TRN)控制外部憑證的發(fā)放范圍;即便網(wǎng)絡(luò)可達,若Agent身份不在授權(quán)名單,令牌不會簽發(fā)、訪問被阻斷。TIP與策略引擎共同構(gòu)成出站調(diào)用的逐次約束。入站(用戶→Agent)出站(Agent→工具/云資源)戶ID與目標資源/操作等字段,形成完整調(diào)用鏈,可滿足合規(guī)審計與異常溯源;在云側(cè)與平臺審與對賬?;鹕揭劳蠥I智能體,提供標準化的解決方案以及多種云原生工具,其中涵蓋通過MCPHUB直接下載并使用火山云原生MCP工具以及第三方MCP工具。體驗?zāi)J綇娬{(diào)以臨時、受控的身份訪問為主,兼顧安全與易用:◎認證與權(quán)限:訪問MCPServer需提供48小時有效的OAuthToken,并通過MCP網(wǎng)關(guān)兌換為火山引擎STS臨時憑證,實現(xiàn)用戶身份與權(quán)限的嚴格隔離?!蚓W(wǎng)絡(luò)與部署隔離:MCP網(wǎng)關(guān)與各MCPServer之間采用VPC點對點單向打通,基于賬號進行網(wǎng)絡(luò)層隔離;Server部署在無公網(wǎng)IP的隔離環(huán)境中,降低外部暴露面。◎高風(fēng)險操作控制:火山側(cè)MCPServer的工具能力經(jīng)嚴格審查,默認禁止高風(fēng)險控制面操作,避免誤刪、誤改等非預(yù)期行為?!驍?shù)據(jù)不駐留:MCP網(wǎng)關(guān)不保存租戶數(shù)據(jù),準入過程也不允許MCPServer存儲租戶數(shù)據(jù),降低數(shù)據(jù)泄露與合規(guī)風(fēng)險。部署模式在租戶自有VPC內(nèi)運行,強調(diào)可控與兼容:◎認證方式:允許使用長效APIKey進行認證,便于與既有系統(tǒng)集成?!蛟L問控制:提供基于IP黑白名單的準入控制能力?!虿渴鸨憷裕褐С忠绘I將本地(Local)MCPServer轉(zhuǎn)為遠程(Remote),提升交付效率。MCPServer上架至Hub必須通過自動化安全掃描與審批流程,覆蓋常規(guī)Web安全風(fēng)險與MCP新型安全風(fēng)險,從源頭提升MCPServer安全性與合規(guī)性。生成式AI安全白皮書21|縱深防御與加固針對智能體邊界保護和工具集成常見風(fēng)險,提供縱深防御能力。模型越獄和黑產(chǎn)進行算力黑產(chǎn)進行算力脫胎于豆包實戰(zhàn)的檢測能力,精準識別提示詞注入攻擊、基于字節(jié)海量內(nèi)容數(shù)據(jù)沉淀的檢測引擎,對輸出的有害內(nèi)容、幻覺答復(fù)進行檢測和過濾。對于異常流量、高消耗提示檢測能力,端到端保護算力和業(yè)務(wù)連續(xù)性。通過模型+規(guī)則對輸入輸出進行全面解析,對銘感數(shù)據(jù)進行實時檢測、封堵、脫敏。大模型應(yīng)用低低延時無入侵(圖9)面向進入模型的請求,識別與攔截影響可用性與安全性的風(fēng)險。包括:別與攔截,緩解“薅羊毛”和服務(wù)不可用風(fēng)險。提示詞注入與越獄防護:檢測并阻斷指令注入、越獄(jailbreak)等繞過規(guī)則的攻擊路徑。敏感信息識別與脫敏:對請求中的個人身份信息(PII)與業(yè)務(wù)敏感數(shù)據(jù)進行識別、脫敏與平行脫敏,降低出域泄露風(fēng)險。面向模型響應(yīng)的合規(guī)與質(zhì)量控制。包括:惡意與不良內(nèi)容過濾:識別仇恨、暴力、性、自殘等不當(dāng)主題,滿足輸入輸出合規(guī)要求。提供的參照知識進行沖突檢測,減少與源信息不一致的回答?;鹕揭鎂OLCENGINE.COM針對Agent的工作原理存在4個安全缺陷:過度依賴不可信環(huán)境輸入、以過高權(quán)限訪問用戶資源、自然語言媒介的模糊二義、對外輸出缺乏有效管控。使得Agent易遭受目標劫持、工具濫用等多方面威脅,面臨數(shù)據(jù)安全破壞等風(fēng)險挑戰(zhàn),此即AgentArmor目標覆蓋的威脅模型。行為完整性與數(shù)據(jù)機密性AgentArmor控制態(tài)策路決集點環(huán)境調(diào)用干預(yù)用戶不可信行為策路決集點用戶指令對齊與安全約束滿足環(huán)境適配器提供外部評估與糾正可信行為外部環(huán)境A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論