2025大模型安全白皮書_第1頁
2025大模型安全白皮書_第2頁
2025大模型安全白皮書_第3頁
2025大模型安全白皮書_第4頁
2025大模型安全白皮書_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

讓AI世界更安全更美好安全·向善·可信·可控我們正在從傳統(tǒng)的“網(wǎng)絡安全”時代,邁入以“大模型安全”為核心挑戰(zhàn)的新階段。當前威脅呈現(xiàn)指數(shù)級演化態(tài)勢:一方面,攻擊面急劇擴大,針對算力基礎設施的劫持、供應鏈中的惡意模型文件、以及利用LangChain等框架漏洞的新型攻擊,表明風險已深度嵌入技術(shù)底座。另一方面,攻擊主體高度“平民化”,自然語言取代專業(yè)代碼成為攻擊武器,提示注入、越獄攻擊讓“全民黑客”從概念走向現(xiàn)實,極大降低了網(wǎng)絡犯罪門檻。與此同時,模型固有的“幻覺”問題、智能體在工具調(diào)用中的越權(quán)風險、以及數(shù)據(jù)泄露與知識污染,共同構(gòu)成了一個多維、動態(tài)、交織的復雜威脅矩陣。在此背景下,360主張:必須采用以AI對抗AI、原生融合安全的新范式來應對大模型時代的安全挑戰(zhàn)。我們提出“外筑‘以模治?!瘎討B(tài)屏障,內(nèi)固‘平臺原生’安全底座的核心理念,將安全能力內(nèi)嵌于大模型的構(gòu)建、訓練、部署與運營的全過程。通過構(gòu)建一個縱深防御、動態(tài)演化的全景框架,從基礎設施安全、內(nèi)容與價值對齊、幻覺緩解到智能體行為管控,

實現(xiàn)從“網(wǎng)絡安全”到“大模型安全”的范式升維,為人工智能時代提供一個“安全、向善、可信、可控”的底座。面對這一全球性挑戰(zhàn),中國開創(chuàng)了“發(fā)展與安全并重”的敏捷治理之路,以《生成式人工智能服務管理暫行辦法》為代表的“包容審慎、分類分級”原則,為技術(shù)創(chuàng)新與風險防控提供了動態(tài)平衡的框架。0102本白皮書系統(tǒng)性地論證了大模型安全正經(jīng)歷從傳統(tǒng)網(wǎng)絡邊界防御到原生、全棧、智能動態(tài)防御的范式轉(zhuǎn)移,并提出“外筑"以模治模"動態(tài)屏障,內(nèi)固"平臺原生"安全底座”的核心理念,覆蓋“安全、向善、可信、可控”四大支柱的全景安全框架,構(gòu)建智能時代的核心免疫系統(tǒng)。5.

生存之道:開放共生,生態(tài)共治大模型安全的復雜性、全局性,決定了僅靠單一力量的技術(shù)或資源難以實現(xiàn)全鏈路、全場景的大模型安全治理。必須通過標準共建、產(chǎn)學研協(xié)同——例如開源安全模型、共建聯(lián)合平臺,以及組建產(chǎn)業(yè)聯(lián)盟等形式,匯聚各方力量,共同打造智能時代可信、向善的安全基底。這既是產(chǎn)業(yè)發(fā)展的必然要求,也是國家層面的戰(zhàn)略需求。4.

應對之道:以模治模+平臺原生安全360提出的“以模治模+平臺原生安全”是應對新范式的技術(shù)必然。它通過專用安全大模型,例如風險檢測、幻覺糾正與紅藍對抗模型,對抗通用大模型風險,它既具備“外掛式”插件的靈活快速,又兼具“原生式”的深度安全能力,實現(xiàn)了雙向賦能的協(xié)同防御,構(gòu)筑起從模型、數(shù)據(jù)、內(nèi)容到行為的全鏈路深度防護體系。1.

風險之變:從邊界防御到全棧免疫大模型安全風險是系統(tǒng)性、全棧式的。它貫穿基礎設施、模型層、數(shù)據(jù)層、智能體層及用戶端五大層次,具體表現(xiàn)為算力劫持、供應鏈投毒、內(nèi)容越獄、模型幻覺、知識污染、隱私泄露、行為失控以及工具濫用等諸多方面,共同構(gòu)成了一個傳統(tǒng)安全方案無法應對的復雜威脅立體空間。2.

攻擊之變:從專業(yè)黑客到全民黑客攻擊技術(shù)持續(xù)向高端化演進,例如針對框架和基礎設施的深度利用;與此同時,攻擊主體則日趨平民化,“自然語言黑客”

的出現(xiàn)極大降低了攻擊門檻。這導致攻防不對稱性加劇,必須發(fā)展出同等智能、動態(tài)感知的防御體系。3.

治理之智:中國特色的“發(fā)展與安全”平衡術(shù)中國的治理模式采用“發(fā)展與安全并重”的動態(tài)平衡策略。通過“包容審慎、分類分級”的監(jiān)管框架,既劃定安全底線,又為技術(shù)快速迭代預留了彈性空間,為產(chǎn)業(yè)創(chuàng)新提供了關(guān)鍵的政策窗口期。核心觀點引言:外筑內(nèi)固,構(gòu)建大模型安全全鏈路防護體系據(jù)IDC預測,到2030年,人工智能將為全球帶來22.3萬億美元經(jīng)濟收入,大模型正驅(qū)動百行千業(yè)智能化變革,而開源大模型在性能提升、部署成本降低的推動下,加速向政務、金融、能源等重點行業(yè)落地,安全風險也隨之滲透到全生命周期:從模型層的提示注入、越獄攻擊,到數(shù)據(jù)層的敏感信息泄露,再到應用層的智能體越權(quán),任何一處漏洞都可能威脅個人、企業(yè)國家的財產(chǎn)安全,甚至是生命安全。清晰的網(wǎng)絡安全邊界正不斷消融、趨于模糊,并延伸至大模型的全鏈路安全,傳統(tǒng)基于規(guī)則和特征匹配的防御體系已然失效。大模型安全白皮書安全·向善可信·可控讓AI世界更安全更美好360解決方案:可全鏈路的安全防護大模型安全威脅全景透視生態(tài)共治:構(gòu)建可信AI生態(tài)范式遷移:從網(wǎng)絡安全到大模型安全的時代挑戰(zhàn)源于實戰(zhàn):大模型安全的應對新思路讓AI世界更安全更美好目錄范式遷移:從網(wǎng)絡安全到大模型安全的時代挑戰(zhàn)安全升維:安全邊界從網(wǎng)絡擴展到模型全棧挑戰(zhàn)交織:技術(shù)、數(shù)據(jù)與國際化構(gòu)成安全核心陣地治理路徑:中國走出發(fā)展與安全并重的敏捷治理之路111213大模型安全的應對新思路大模型安全威脅全景透視大模型安全呈多維復雜態(tài)勢,挑戰(zhàn)超越傳統(tǒng)安全邊界大模型基礎設施層風險:算力與框架的“地基”隱患1718360解決方案:可全鏈路的安全防護外掛式安全大模型衛(wèi)士算力主機安全系統(tǒng)大模型衛(wèi)士檢測系統(tǒng)大模型衛(wèi)士防護系統(tǒng)大模型幻覺檢測與緩解系統(tǒng)平臺原生安全企業(yè)級知識庫智能體構(gòu)建與運營平臺智能體客戶端3333353739414345482.3

大模型內(nèi)容風險:大模型的失控與越軌19構(gòu)建可信大模型生態(tài)2.4

大模型數(shù)據(jù)與知識庫風險:知識“源泉”的污染與泄露205.1

生態(tài)力量:以標準共建與產(chǎn)業(yè)聯(lián)盟夯實安全基礎532.5

智能體行為風險:失控的“數(shù)字員工”215.2

聯(lián)合實踐:通過產(chǎn)學研協(xié)同將安全融入技術(shù)生命周期542.6

用戶端與入口風險:最后一道防線的失守225.3

未來倡議:攜手監(jiān)管、產(chǎn)業(yè)與用戶共建可信大模型生態(tài)55源于實戰(zhàn):3.1

核心理念:外筑“以模治?!眲討B(tài)屏障,內(nèi)固“平臺原生”安全底座253.2

能力落地:通過安全、向善、可信、可控四大原則實現(xiàn)閉環(huán)273.3

架構(gòu)革新:“外掛式安全

+

平臺原生安全”的雙軌安全防護體系290708生態(tài)共治:大模型安全白皮書安全·向善可信·可控01范式遷移:從網(wǎng)絡安全到大模型安全的時代挑戰(zhàn)第一章1.1

安全升維:安全邊界從網(wǎng)絡擴展到模型全棧-

攻擊面擴大:大模型安全漏洞呈指數(shù)級增長,智能體成為新的攻擊對象“人工智能+千行百業(yè)”將帶動新一輪工業(yè)革命,為高質(zhì)量發(fā)展注入強大動能,引領(lǐng)人類社會進入智能化時代,為生產(chǎn)、生活方式帶來巨大變革。大模型作為目前人工智能技術(shù)的核心引擎和技術(shù)底座,重塑著各行業(yè)的應用生態(tài),其安全內(nèi)涵已發(fā)生根本性轉(zhuǎn)變。我們正在經(jīng)歷一場從傳統(tǒng)“網(wǎng)絡安全”向新型“大模型安全”的范式遷移。據(jù)ISC.AI

2025大會披露的數(shù)據(jù),“大模型安全漏洞呈指數(shù)級增長”已成為現(xiàn)實。2025年9月16日,第22屆中國網(wǎng)絡安全年會暨國家網(wǎng)絡安全宣傳周網(wǎng)絡安全協(xié)同防御分論壇活動中,國家計算機網(wǎng)絡應急技術(shù)處理協(xié)調(diào)中心發(fā)布了國內(nèi)首次針對AI大模型的實網(wǎng)眾測檢驗結(jié)果,累計發(fā)現(xiàn)各類安全漏洞281個,其中大模型特有漏洞177個,占比超過60%。這充分表明,當前AI大模型產(chǎn)品面臨著大量傳統(tǒng)安全領(lǐng)域之外的新安全風險。針對大模型的新型攻擊手段層出不窮。已從技術(shù)層面的單一威脅演變?yōu)橄到y(tǒng)性風險,包括提示注入攻擊、敏感信息泄露、供應鏈組件風險、模型中毒攻擊、模型拒絕服務等多樣化攻擊。1.2

挑戰(zhàn)交織:技術(shù)、數(shù)據(jù)與國際化構(gòu)成安全核心陣地中國在人工智能領(lǐng)域發(fā)展迅猛,但在技術(shù)、數(shù)據(jù)、國際化等多維度仍面臨嚴峻挑戰(zhàn),這些挑戰(zhàn)相互交織,構(gòu)成了大模型安全發(fā)展的核心困境。-

攻擊者平民化:“全民黑客”時代來臨,傳統(tǒng)防御體系失效當前,攻擊者從專業(yè)黑客變?yōu)槿窈诳?,攻擊主體的開始趨向平民化,以往需要精通機器語言的專業(yè)黑客,如今只需通過自然語言指令即可讓大模型自動生成攻擊代碼、設計釣魚郵件、實施社會工程學攻擊。另一方面,企業(yè)為了實現(xiàn)大模型和智能體能夠真正結(jié)合實踐生產(chǎn),往往需要將企業(yè)的數(shù)據(jù)知識訓練到大模型、知識庫中,而用戶或員工僅需要“套話”的方式就能將企業(yè)核心數(shù)據(jù)套走。360集團創(chuàng)始人周鴻祎曾指出,“如今,從前臺小文秘也能欺詐后臺大模型”,普通人無需技術(shù)背景,僅憑簡單的提示詞就能發(fā)動專業(yè)級攻擊,真正實現(xiàn)了“有手就行”的攻擊平民化。這種“全民黑客”現(xiàn)象正使網(wǎng)絡犯罪從技術(shù)壁壘走向大眾化、產(chǎn)業(yè)化,給安全防御帶來前所未有的挑戰(zhàn)。大模型幻覺問題嚴重影響生成內(nèi)容可靠性。由于大模型固有的技術(shù)特性帶來的忠實性和事實性模型幻覺問題,會侵蝕生成內(nèi)容可靠性基石,進而引發(fā)決策失誤、信任危機并阻礙其在關(guān)鍵領(lǐng)域的深度應用。智能體安全風險進一步放大了威脅范圍。涵蓋了從底層模型到高層行為的多個維度,主要包括記憶篡改、提示詞注入、敏感數(shù)據(jù)泄露、Agent越權(quán)與失控風險、工具調(diào)用風險,以及智能體仿冒、中間人劫持等多智能體風險,這些風險相互交織,形成了傳統(tǒng)安全體系難以應對的復雜威脅矩陣。-

安全維度上人工智能為網(wǎng)絡攻擊提供了新型滲透載體和手段,大模型本身成為"雙刃劍"—既可作為防御工具,也可能被惡意利用為攻擊平臺。大模型需應對提示注入、模型越獄、RAG篡改等新型攻擊手段,而AI技術(shù)大幅降低了網(wǎng)絡攻擊門檻,使"全民黑客"時代加速到來,傳統(tǒng)安全防御體系難以應對AI大模型增強的規(guī)?;?、自動化攻擊。-

數(shù)據(jù)維度上人工智能進一步加大了維護數(shù)據(jù)安全和保護個人信息的難度,大模型訓練需要海量數(shù)據(jù)但面臨合規(guī)采集困境,模型可能無意泄露訓練數(shù)據(jù)中的敏感信息,內(nèi)容安全過濾難度顯著增加,同時需平衡《網(wǎng)絡安全法》、《數(shù)據(jù)安全法》、《個人信息保護法》等法規(guī)要求與技術(shù)創(chuàng)新需求。-

技術(shù)維度上人工智能為發(fā)達國家實施技術(shù)封鎖提供了新機會,高端AI芯片受限、基礎模型架構(gòu)受限、開源生態(tài)受阻等問題凸顯,中國大模型在算力資源、核心算法、訓練數(shù)據(jù)等方面面臨"卡脖子"風險。-

國際化維度上中國大模型出海需同時滿足國內(nèi)法規(guī)要求與目標市場監(jiān)管環(huán)境,既要符合我國"安全與發(fā)展并重"的治理原則,又要適應歐盟GDPR、美國出口管制等多元監(jiān)管體系,面臨"雙合規(guī)"壓力與市場準入壁壘。這些挑戰(zhàn)相互交織,要求中國大模型產(chǎn)業(yè)必須構(gòu)建"內(nèi)生安全"能力,突破核心技術(shù)瓶頸,建立自主可控的產(chǎn)業(yè)生態(tài),同時積極參與全球AI治理,方能在保障安全的前提下實現(xiàn)高質(zhì)量發(fā)展。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控11121.3

治理路徑中國走出發(fā)展與安全并重的敏捷治理之路國家層面已明確提出“安全與發(fā)展并重”的原則,強調(diào)人工智能治理應“以人為本、智能向善”,既要防范安全風險,也要促進技術(shù)進步與應用。2025年10月28日,第十四屆全國人民代表大會常務委員會第十八次會議通過了關(guān)于修改《中華人民共和國網(wǎng)絡安全法》的決定,其中第二十條明確提出了“完善人工智能倫理規(guī)范,加強風險監(jiān)測評估和安全監(jiān)管,促進人工智能應用和健康發(fā)展”。2025年4月30日,中央網(wǎng)信辦啟動

“清朗?整治

AI

技術(shù)濫用”

專項行動。第一階段強化AI技術(shù)源頭治理,清理整治違規(guī)AI應用程序,加強AI生成合成技術(shù)和內(nèi)容標識管理,推動網(wǎng)站平臺提升檢測鑒偽能力。第二階段聚焦利用AI技術(shù)制作發(fā)布謠言、不實信息、色情低俗內(nèi)容,假冒他人、從事網(wǎng)絡水軍活動等突出問題,集中清理相關(guān)違法不良信息,處置處罰違規(guī)賬號、MCN機構(gòu)和網(wǎng)站平臺。多地網(wǎng)信部門對轄區(qū)大模型生成內(nèi)容開展實時監(jiān)測、內(nèi)容安全評測等工作,利用大模型監(jiān)管生成式人工智能服務,通報生成式人工智能服務存在的問題,以技術(shù)應對技術(shù),以智能管理智能。多地監(jiān)管主管部門根據(jù)相關(guān)法規(guī)和職責,開展前瞻性先行先試,積極構(gòu)建“事前-事中-事后”的全生命周期監(jiān)管技術(shù)體系,在事前階段對自研模型、微調(diào)模型開展上線備案審查,對調(diào)用大模型的AI產(chǎn)品開展登記備案審查,對大模型基礎設施安全檢測;在事中階段,開展大模型內(nèi)容安全技術(shù)監(jiān)測、風險預警、攻防演練等,評估整體安全態(tài)勢,跟蹤變化趨勢,對大模型進行動態(tài)管理;在事后階段,開展研判分析、通報處置等工作,實現(xiàn)對大模型全生命周期的安全監(jiān)管和治理。360大模型衛(wèi)士系列產(chǎn)品能夠滿足監(jiān)管用戶實現(xiàn)對大模型全生命周期的安全監(jiān)管和治理。-

多部門出臺生成式人工智能相關(guān)法規(guī),建立“包容審慎、分類分級”的監(jiān)管體系近年來,國家網(wǎng)信辦等多部門聯(lián)合發(fā)布了《互聯(lián)網(wǎng)信息服務算法推薦管理規(guī)定》、《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》、《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》)、《人工智能生成合成內(nèi)容標識辦法》等法規(guī),明確了服務提供者主體責任,在算法推薦、內(nèi)容合成、模型管理等方面提出規(guī)范要求。其中,《辦法》建立了“包容審慎、分類分級”的監(jiān)管體系,要求服務提供者履行安全評估、內(nèi)容過濾、算法備案、模型備案以及產(chǎn)品登記等責任,并承擔包括堅持社會主義核心價值觀、防止生成歧視性內(nèi)容、尊重知識產(chǎn)權(quán)、尊重他人合法權(quán)益等多項義務,該體系在為技術(shù)創(chuàng)新預留充分空間的同時,也充分體現(xiàn)了“安全與發(fā)展并重”的治理理念。-

監(jiān)管部門構(gòu)建“事前-事中-事后”的全生命周期監(jiān)管技術(shù)體系,開展大模型治理專項行動各區(qū)域和產(chǎn)業(yè)迅速響應,因地制宜制定實施方案,推動人工智能發(fā)展與安全統(tǒng)籌兼顧。河北省在《河北省推動“人工智能+”行動計劃(2025—2027年)》中提出“一體推進研發(fā)攻關(guān)、應用迭代和生態(tài)培育”,在鋼鐵、化工、汽車制造等八大產(chǎn)業(yè)推動行業(yè)大模型應用并建立安全評估機制。國家發(fā)改委、能源局聯(lián)合發(fā)布的《關(guān)于推進“人工智能+”能源高質(zhì)量發(fā)展的實施意見》也強調(diào),在推動電網(wǎng)、發(fā)電等場景智能化的同時,提升能源領(lǐng)域人工智能技術(shù)安全應用水平。各區(qū)域和產(chǎn)業(yè)落實《意見》,堅持“統(tǒng)籌發(fā)展與安全”,結(jié)合區(qū)域和產(chǎn)業(yè)特點,通過建立安全評估體系、強化風險預警、完善標準規(guī)范,確保人工智能賦能產(chǎn)業(yè)的同時守牢安全底線,實現(xiàn)國家戰(zhàn)略與地方需求的同頻共振,為培育新質(zhì)生產(chǎn)力和高質(zhì)量發(fā)展提供了堅實支撐。-

各產(chǎn)業(yè)與國家戰(zhàn)略的同頻共振2025年8月21日,國務院印發(fā)《關(guān)于深入實施“人工智能+”行動的意見》(以下簡稱“意見”),在第十四條強調(diào)統(tǒng)籌重點領(lǐng)域的發(fā)展與安全,體現(xiàn)了國家加快創(chuàng)新與筑牢安全底線的戰(zhàn)略考量,既重視技術(shù)風險防范,又推動治理機制完善,為各地落實“人工智能+”行動提供了明確指引,確保人工智能發(fā)展始終安全可控。讓AI世界更安全更美好推動模型算法安全能力建設加強前瞻評估和監(jiān)測處置保障數(shù)據(jù)資源安全確保數(shù)據(jù)管理合規(guī)強化基礎設施安全確保系統(tǒng)穩(wěn)定可靠加強應用系統(tǒng)安全防護確保

AI

應用合規(guī)透明建立健全技術(shù)監(jiān)測、風險預警應急響應體系,強化政府引導和行業(yè)自律,堅持包容審慎、分類分級安全維度模型算法安全數(shù)據(jù)資源安全基礎設施安全應用系統(tǒng)安全治理與監(jiān)管體系需防范的風險核心要求防范模型的黑箱、幻覺算法歧視等風險防止數(shù)據(jù)泄露不當使用及知識產(chǎn)權(quán)侵權(quán)降低因基礎設施脆弱性導致的安全事件風險避免應用漏洞被利用導致業(yè)務違規(guī)或聲譽受損形成動態(tài)敏捷多元協(xié)同的治理格局應對快速變化的

AI

安全風險大模型安全白皮書安全·向善可信·可控131402大模型安全威脅全景透視第二章2.1

大模型安全呈多維復雜態(tài)勢挑戰(zhàn)超越傳統(tǒng)安全邊界在AI技術(shù),特別是大模型快速發(fā)展與廣泛應用的背景下,大模型安全風險已形成多維度的復雜體系。除了傳統(tǒng)的網(wǎng)絡安全與數(shù)據(jù)安全解決方案能夠覆蓋的大模型應用環(huán)境上的安全問題以外,大模型在運行時的安全風險尤其具有其獨特性。大模型運行時安全風險主要涵蓋以下五個關(guān)鍵風險點:一是大模型基礎設施安全,涉及算力主機的設備控制、供應鏈漏洞及基礎模型的竊取與數(shù)據(jù)投毒等問題;二是大模型內(nèi)容安全,包含內(nèi)容層面的提示注入、惡意生成,幻覺杜撰帶來的信息誤導,以及政治維度的意識形態(tài)風險;三是大模型數(shù)據(jù)與知識庫安全,聚焦數(shù)據(jù)泄漏、隱私侵犯、知識庫越權(quán)訪問與信息污染;四是智能體安全,涉及

Agent

的API

濫用、行為安全及

MCP

的投毒攻擊、權(quán)限缺陷等;五是用戶端安全,涵蓋大模型、知識庫、智能體的訪問控制,API

監(jiān)控及惡意插件、隱私泄露等風險。這些維度共同構(gòu)成了AI安全治理需重點關(guān)注的全域圖景。對于上述風險,傳統(tǒng)的安全廠商尚未提供有效的解決方案。2.2

大模型基礎設施層風險:算力與框架的“地基”隱患大模型基礎設施的安全風險是一個貫穿大模型生命周期的多層次威脅體系,它不僅繼承了軟件供應鏈、云服務、身份認證等的安全風險(如軟件漏洞、沙箱逃逸、身份權(quán)限配置錯誤、API密鑰泄露等),更因其特有的軟件生態(tài)系統(tǒng)而引入了全新的、高價值的攻擊向量。針對大模型基礎設施的攻擊已經(jīng)從理論變?yōu)楝F(xiàn)實,具體可以分為三種類型:針對算力基礎設施的攻擊、針對開發(fā)環(huán)境的攻擊以及針對在線智能服務的攻擊。攻擊者正積極地利用不同維度的安全缺陷,發(fā)起多起備受矚目的安全事件并造成了重大的經(jīng)濟損失。-

針對算力基礎設施的攻擊:算力劫持、資源濫用“ShadowRay”攻擊活動是最具代表性的算力基礎設施入侵事件之一。攻擊者利用了AI分布式框架Ray的一個關(guān)鍵架構(gòu)缺陷(CVE-2023-48022)——其儀表盤和作業(yè)提交API在錯誤配置下無需身份驗證即可公網(wǎng)訪問。此次事件的后果極為嚴重,攻擊者在全網(wǎng)掃描并入侵了數(shù)千臺暴露的服務器,最直接的損失是大規(guī)模的計算資源劫持。他們部署了XMRig等加密貨幣挖礦軟件,竊取了企業(yè)用于AI訓練和推理的昂貴GPU算力(包括A100/H100),造成了巨額的經(jīng)濟損失。更深遠的影響在于數(shù)據(jù)和知識產(chǎn)權(quán)的泄露,攻擊者獲得了服務器的完全控制權(quán),使他們能夠竊取專有的訓練數(shù)據(jù)集、模型權(quán)重、以及AWS、GCP等云平臺的API密鑰,為進一步的內(nèi)部滲透和企業(yè)間諜活動打開了通道。-

針對開發(fā)環(huán)境的攻擊:供應鏈投毒、惡意模型文件(以Hugging

Face事件為例)此外,模型供應鏈也成為針對大模型開發(fā)環(huán)境攻擊的重災區(qū)。Hugging

Face平臺上持續(xù)發(fā)現(xiàn)的“特洛伊木馬”模型便是力證。這些攻擊利用了大模型框架中長期存在的“不安全反序列化”漏洞(即pickle格式的濫用),實現(xiàn)對受害者系統(tǒng)“零點擊”式的入侵,當開發(fā)者或自動化MLOps管道下載并使用惡意模型文件時,植入的惡意代碼立即執(zhí)行。之后攻擊者可以在受害者的開發(fā)工作站或生產(chǎn)推理服務器上獲得了持久化的后門,并進一步竊取敏感的內(nèi)部數(shù)據(jù)、源代碼、以及該環(huán)境中的其他專有模型。這類事件嚴重破壞了開源模型生態(tài)系統(tǒng)的信任基礎,迫使Hugging

Face等平臺加強安全掃描。此外,當開發(fā)者在開發(fā)大模型業(yè)務時,通過加載開源社區(qū)提供的提示詞模版(CVE-2023-36281)、IDE配置等文件時,同樣可能會受到攻擊。-

針對在線智能服務的攻擊:框架組件漏洞、API濫用(以LangChain漏洞為例)針對在線智能服務的攻擊同樣日益增多,攻擊者無需精心構(gòu)造攻擊數(shù)據(jù),而只需要通過自然語言描述的方式實現(xiàn)攻擊,如主流的服務構(gòu)建框架LangChain成為了重災區(qū)。2024年底至2025年間披露的多個漏洞(如CVE-2024-8309)顯示,在LangChain的特定組件中觸發(fā)經(jīng)典的SQL注入或遠程代碼執(zhí)行漏洞。這表明攻擊者的策略正在發(fā)生轉(zhuǎn)變,不再局限于攻擊LLM模型本身,而是更精明地攻擊那些用于連接LLM與數(shù)據(jù)庫、API等外部工具的“膠水代碼”和框架。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控提示注入攻擊價值觀錯誤生成惡意內(nèi)容偏見/公平性信息污染內(nèi)容安全供應鏈漏洞計算資源濫用設備控制服務禁用算力主機安全API訪問監(jiān)控惡意腳本執(zhí)行個人隱私泄露MCP執(zhí)行安全大模型訪問控制知識庫訪問控制智能體訪問控制惡意第三方插件用戶端安全數(shù)據(jù)越權(quán)訪問數(shù)據(jù)泄漏隱私泄露數(shù)據(jù)污染數(shù)據(jù)竊取數(shù)據(jù)安全訓練數(shù)據(jù)投毒模型竊取基礎模型安全訓練數(shù)據(jù)錯誤局限性與時效人為誤導幻覺/杜撰API安全第三方插件安全API與插件濫用Agent行為安全Agent分權(quán)管理執(zhí)行程序濫用Agent安全地毯式騙局權(quán)限管控缺陷敏感數(shù)據(jù)泄露影子攻擊MCP

安全高級黑/低級紅意識形態(tài)誤導政治安全越權(quán)搜索提示泄露知識庫RAG安全原文檔安全知識庫安全大模型基礎設施安全大模型內(nèi)容安全智能體風險大模型數(shù)據(jù)與知識庫安全用戶端風險17182.3

大模型內(nèi)容風險:大模型的失控與越軌隨著大模型在各行業(yè)的深入應用,其潛藏的內(nèi)容安全風險愈發(fā)突出。2025年2月,在思科旗下Robust

Intelligence

開展的安全評估中,DeepSeek

R1在50條惡意提示測試中“全失守”,凸顯了大模型在越獄攻防中的脆弱性。2024年5月,谷歌

Med-Gemini

在醫(yī)學影像場景中“編造”不存在的解剖結(jié)構(gòu),屬于典型的幻覺問題,若直接用于臨床決策,可能造成嚴重誤判。這些案例共同揭示了當前大模型內(nèi)容安全的三大核心挑戰(zhàn):內(nèi)容合規(guī)風險(符合社會主義核心價值觀、不包含歧視性、商業(yè)違法違規(guī)、侵犯他人合法權(quán)益等內(nèi)容)、幻覺風險(內(nèi)容不準確、不可靠)、越獄攻擊風險(安全策略被繞過與濫用)。這要求政企在大模型應用中強化安全審查機制,建立檢測、評估與防護并行的全鏈路內(nèi)容安全防護體系。2.4大模型數(shù)據(jù)與知識庫風險:知識“源泉”的污染與泄露隨著大模型在醫(yī)療、科研、日常服務等領(lǐng)域的深度滲透,其數(shù)據(jù)與知識庫所潛藏的風險日益凸顯,成為制約大模型安全應用的關(guān)鍵瓶頸,其中數(shù)據(jù)泄漏、知識庫越權(quán)搜索、內(nèi)容不可信三大風險尤為突出,需重點警惕。-

數(shù)據(jù)泄露:訓練數(shù)據(jù)、用戶對話中的敏感信息泄露數(shù)據(jù)泄漏風險頻發(fā),已成為大模型中的

“心腹之患”。部分用戶或機構(gòu)因操作不當,如將涉密實驗數(shù)據(jù)、個人隱私信息違規(guī)輸入

AI

工具,或

AI

平臺自身存在數(shù)據(jù)存儲漏洞,導致核心技術(shù)參數(shù)、用戶聊天記錄、地理位置等敏感信息外泄。這些信息一旦流入黑市,不僅會讓個人面臨詐騙、騷擾等威脅,還可能致使企業(yè)核心算法被盜、國家關(guān)鍵領(lǐng)域數(shù)據(jù)失防,對個人權(quán)益、企業(yè)發(fā)展乃至國家安全造成嚴重沖擊。應對此風險,需從技術(shù)與管理兩方面發(fā)力,通過端到端數(shù)據(jù)加密、建立嚴格的

AI

數(shù)據(jù)使用審批機制,堵住數(shù)據(jù)泄漏的漏洞。知識庫越權(quán):RAG場景下的未授權(quán)訪問與數(shù)據(jù)竊取知識庫越權(quán)搜索則打破了數(shù)據(jù)訪問的

“安全邊界”。在

RAG

等大模型應用場景中,企業(yè)為搭建私有知識庫,會將分散在員工手中的文檔集中整合,這雖提升了數(shù)據(jù)利用效率,卻也放大了越權(quán)訪問的風險。攻擊者常利用大模型指令的模糊性,繞過常規(guī)防護機制,非法獲取醫(yī)療病歷、政務戶籍、企業(yè)商業(yè)機密等敏感數(shù)據(jù);部分內(nèi)部人員也可能因權(quán)限管理疏漏,違規(guī)查閱、下載核心信息。此類行為不僅破壞機構(gòu)數(shù)據(jù)管理秩序,還可能引發(fā)身份盜用、商業(yè)泄密等連鎖問題,需通過建立動態(tài)權(quán)限綁定系統(tǒng)、完善操作審計日志追溯機制,筑牢知識庫的“防護墻”。內(nèi)容不可信:輸入錯誤知識導致生成垃圾信息內(nèi)容不可信問題則嚴重沖擊大模型的

“公信力”。由于大模型訓練數(shù)據(jù)可能摻雜錯誤信息、過時內(nèi)容,且生成邏輯存在固有漏洞,大模型時常出現(xiàn)

“一本正經(jīng)地胡說八道”

的偽專業(yè)輸出。在醫(yī)療場景中,大模型依據(jù)過時醫(yī)學指南給出錯誤用藥建議,可能延誤患者治療;在法律領(lǐng)域,大模型生成的合同條款忽略地域法規(guī)差異,會讓企業(yè)陷入巨額糾紛;在新聞傳播中,大模型編造的虛假信息短時間內(nèi)就能擴散,引發(fā)社會恐慌。要解決這一問題,需從源頭優(yōu)化訓練數(shù)據(jù)質(zhì)量,建立大模型內(nèi)容溯源機制,同時加強行業(yè)監(jiān)管,提升公眾對大模型輸出內(nèi)容的辨別能力,讓大模型輸出更可靠、更可信。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控19202.5

智能體行為風險:失控的“數(shù)字員工”智能體(Agents)的安全應用需警惕多維度風險,這些風險相互交織,若缺乏有效管控,將嚴重威脅其運行安全與數(shù)據(jù)保護。2.6用戶端與入口風險:最后一道防線的失守AI

用戶端在應用過程中面臨多維度安全風險,若不加以有效管控,將對用戶數(shù)據(jù)、系統(tǒng)穩(wěn)定及業(yè)務安全造成嚴重威脅。-

訪問控制在訪問控制維度,存在多重隱患:大模型訪問方面,若身份驗證機制存在漏洞,易被攻擊者利用實施未授權(quán)調(diào)用,不僅引發(fā)計算資源濫用,還可能導致企業(yè)敏感數(shù)據(jù)泄露;知識庫訪問控制不足時,惡意用戶可繞過權(quán)限限制,非法獲取機密知識或?qū)χR庫進行數(shù)據(jù)污染,破壞知識體系的完整性與可靠性;智能體訪問控制缺失則可能造成權(quán)限失控,使智能體被惡意操縱,執(zhí)行竊取數(shù)據(jù)、破壞系統(tǒng)等危險任務;API

訪問監(jiān)控薄弱會導致異常流量難以被及時識別,為數(shù)據(jù)竊取、惡意攻擊等行為提供可乘之機。-

工具調(diào)用在工具調(diào)用層面,智能體依賴的

Web

搜索、第三方插件、代碼執(zhí)行、API、MCP

等工具均暗藏隱患。第三方插件可能存在安全漏洞,成為惡意攻擊的入口;代碼執(zhí)行功能可支持任意操作,若被濫用易引發(fā)系統(tǒng)破壞;API

調(diào)用若權(quán)限管控不當,可能造成敏感數(shù)據(jù)泄露或違規(guī)訪問外部資源;而

MCP

協(xié)議本身也存在投毒、惡意代碼植入等安全問題,進一步放大工具調(diào)用風險。-

權(quán)限與行為權(quán)限與行為層面的風險同樣突出。部分智能體運行權(quán)限過大,未遵循

“最小權(quán)限”

原則,易出現(xiàn)違規(guī)調(diào)用工具、竊取企業(yè)核心數(shù)據(jù)等越權(quán)行為;同時,大模型可能因?qū)θ蝿罩噶罾斫忮e誤產(chǎn)生

“幻覺”,導致智能體偏離預設目標,錯誤執(zhí)行關(guān)鍵操作,造成不可逆損失。-

全流程與數(shù)據(jù)權(quán)限全流程與數(shù)據(jù)權(quán)限維度也存在漏洞。智能體從開發(fā)、發(fā)布、審核到應用的全流程涉及開發(fā)者、審核員、使用者等多類角色,若未做好分權(quán)管理,可能出現(xiàn)未審核即上線、非授權(quán)人員篡改配置等問題;此外,智能體調(diào)用數(shù)據(jù)庫、知識庫時,開發(fā)者與使用者的權(quán)限邊界模糊,未明確界定

“誰能看、誰能改、誰能調(diào)用”,易導致數(shù)據(jù)訪問失控,引發(fā)信息泄露風險。-

MCP安全MCP

雖具備強大能力,但其應用過程中潛藏著三類高風險攻擊場景,需重點警惕:一是投毒攻擊,攻擊者會將有害命令隱秘嵌入

MCP

工具的描述信息中,這些指令對用戶完全不可見,卻能暗中誘導

AI

模型執(zhí)行諸如數(shù)據(jù)篡改、系統(tǒng)入侵等危險操作;二是地毯式騙局,MCP

Server

在初期應用規(guī)模較小時,會展現(xiàn)正常功能以獲取信任,一旦用戶量或應用范圍擴大,便會悄然植入惡意代碼,實施批量攻擊;三是影子攻擊,即MCP

自身雖無惡意設計,卻因調(diào)用了存在安全隱患的第三方服務而間接引發(fā)風險。-

執(zhí)行環(huán)境的安全在執(zhí)行環(huán)境安全層面,風險同樣突出:惡意腳本可利用客戶端運行環(huán)境的漏洞,注入釣魚、勒索等惡意代碼,劫持客戶端功能或竊取用戶信息;惡意第三方插件因缺乏嚴格的審核機制,可能攜帶后門程序或捆綁惡意軟件,一旦安裝將威脅整個系統(tǒng)的安全穩(wěn)定。綜上,需從訪問控制強化、執(zhí)行環(huán)境加固、隱私保護升級、協(xié)議安全優(yōu)化等多個角度構(gòu)建防護體系,才能有效化解

AI

客戶端的多維度安全風險,保障其安全可靠運行。-

隱私與協(xié)議安全隱私與協(xié)議安全也不容忽視:個人隱私方面,若數(shù)據(jù)采集、存儲和傳輸環(huán)節(jié)防護存在缺陷,用戶的身份信息、行為習慣等敏感數(shù)據(jù)易被非法獲取,侵犯用戶隱私權(quán);MCP

協(xié)議執(zhí)行過程中,可能遭遇命令注入、權(quán)限逃逸等攻擊,破壞客戶端運行邏輯,進而危害整體系統(tǒng)的穩(wěn)定性與數(shù)據(jù)安全。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控212203源于實戰(zhàn):大模型安全的應對新思路第三章3.1

核心理念:外筑“以模治?!眲討B(tài)屏障,內(nèi)固“平臺原生”安全底座面對

AI

大模型從基礎設施到配套組件的全鏈路安全挑戰(zhàn),360

通過

“以模治?!?/p>

打造動態(tài)防御的外部屏障,以

“平臺原生安全”

筑牢組件自帶的安全底座,二者協(xié)同形成覆蓋大模型全生命周期的安全防護能力,確保大模型

“安全、向善、可信、可控”。以模治模:用大模型對抗AI安全風險明確以大模型技術(shù)對抗大模型風險的創(chuàng)新路徑,即以AI大模型之力反哺大模型安全防護,構(gòu)建縱深防御與動態(tài)演化的全鏈路大模型安全防護體系。平臺原生安全:讓大模型配套組件自帶安全基因強調(diào)將安全能力融入知識庫、智能體等配套組件的底層架構(gòu),從設計階段規(guī)劃安全防護能力,夯實大模型整體安全的基礎前提。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控2526讓AI世界更安全更美好3.2

安全四原則:安全、向善、可信、可控360作為網(wǎng)絡安全領(lǐng)域的重要力量,提出大模型安全“安全、向善、可信、可控”四大原則,為大模型安全發(fā)展筑牢核心競爭力,護航AI時代穩(wěn)健前行。德倫理和法律要求,能力上避免大模型被用于生成違規(guī)內(nèi)容、偽造圖片視頻、惡意代碼、釣魚郵件等。這使得大模型不只是技術(shù)工具,更成為符合社會價值規(guī)范的“向善”力量,在為人們提供服務時,始終傳遞積極、合法、符合道德的價值

?!景踩浚骸鞍踩痹瓌t確保大模型運行時的安全防護。在數(shù)字世界,網(wǎng)絡攻擊、數(shù)據(jù)泄漏、個人隱私泄漏等風險如影隨形,大模型系統(tǒng)也面臨著諸多安全挑戰(zhàn)。360通過保證大模型運行時安全,降低各類安全風險,同時提升攻擊防護能力,為大模型打造堅固的安全壁壘;將安全基因融入知識庫,提供數(shù)據(jù)采集、處理、存儲、應用、流轉(zhuǎn)至銷毀的全生命周期防護方案,規(guī)避高頻知識調(diào)用中的數(shù)據(jù)和知識泄露風險;基于20年終端安全技術(shù)積累,打造集成智能體沙箱、行為隔離、威脅管控、MCP

安全及身份認證的智能體客戶端,構(gòu)建用戶使用智能體應用時的全場景防護?!鞠蛏啤浚骸跋蛏啤痹瓌t引導大模型朝著積極有益的方向發(fā)展。一方面,要提升應對提示注入攻擊的能力,防止惡意人員通過惡意提示誘導大模型生成有害內(nèi)容。另一方面,從內(nèi)容和能力兩方面確保大模型“向善”,內(nèi)容上確保生成內(nèi)容符合社會道-

【可信】:“可信”原則致力于提升大模型生成內(nèi)容的可信度、完整性與準確性。大模型天生會出現(xiàn)“幻覺”問題,生成與事實不符的內(nèi)容,這會極大影響其可用性與可信度。360聚焦內(nèi)容可信與完整可用,著力降低大模型“幻覺”問題,讓大模型生成的內(nèi)容更可靠、更準確。無論是用于信息獲取、內(nèi)容創(chuàng)作還是決策輔助,可信的內(nèi)容能讓用戶更放心地依賴大模型,推動大模型在各個領(lǐng)域發(fā)揮更有效的作用,成為人們可以信賴的智能伙伴。-

【可控】:“可控”原則實現(xiàn)對智能體應用的有效管理。通過Agent框架安全控制,保障智能體在交互等場景下的安全;確保人在決策回路,避免出現(xiàn)“不可撤銷”的后果,讓人類能對智能體的關(guān)鍵行為進行干預與決策;全程審計則對智能體的行為做全過程監(jiān)控審計,及時發(fā)現(xiàn)并糾正可能出現(xiàn)的問題。這一系列措施讓智能體始終處于安全、合規(guī)的管控之下,使其發(fā)展與應用能更好地契合人類的需求與社會的規(guī)范。大模型安全四大原則安全可信向善可控外防風險內(nèi)固架構(gòu)確保大模型運行時的安全防護引導大模型朝著積極有益的方向發(fā)展實現(xiàn)對智能體應用的有效管理提升大模型生成內(nèi)容的可信度、完整性與準確性知識庫全生命周期安全智能體交互安全智能體流程控制 智能體權(quán)限控制數(shù)據(jù)合規(guī)審計用戶端全場景防護······ 供應鏈安全············服務安全內(nèi)容安全評測內(nèi)容安全護欄模型全生命周期管理······權(quán)威信息實時獲取信息校驗與修正私域知識庫訪問大模型安全白皮書安全·向善可信·可控27283.3

全景框架:“外掛式安全

+

平臺原生安全”的雙軌安全防護體系在人工智能飛速發(fā)展的今天,大模型的安全問題愈發(fā)受到關(guān)注。360推出大模型衛(wèi)士,以“以模治?!睘楹诵?,構(gòu)建起全面的安全保障體系,為AI安全保駕護航。針對大模型算力主機、模型基礎設施、模型內(nèi)容等核心環(huán)節(jié)的風險,可通過大模型安全類產(chǎn)品直接解決,這類問題屬于

“外部可干預”

的安全范疇,具備明確的產(chǎn)品化應對路徑;大模型應用中涉及的知識庫、智能體、客戶端等配套組件,其安全無法依賴外部大模型安全產(chǎn)品解決,組件需自身具備原生安全能力,才能從源頭規(guī)避漏洞(如數(shù)據(jù)泄露、權(quán)限失控等),這是保障大模型整體安全的基礎前提。360

憑借業(yè)內(nèi)獨有的

“AI

+

安全”

雙重基因,采用

“外掛式安全

+

平臺原生安全”

雙軌策略,實現(xiàn)

“外防風險、內(nèi)固架構(gòu)”

的全面防護。作為大模型的

“外部安全屏障”,外掛式安全以

“以模治?!?/p>

為創(chuàng)新核心,聚焦大模型運行的“基礎設施層”

“內(nèi)容安全”:-

針對算力基礎設施(硬件及軟件設施),通過專用算力主機安全系統(tǒng)監(jiān)測主機運行風險,規(guī)避硬件故障、非法入侵操作系統(tǒng)等問題;-

針對大模型內(nèi)容安全,利用

AI

模型對輸出內(nèi)容、輸入數(shù)據(jù)進行實時檢測,防范惡意指令、敏感信息泄露等風險,為大模型搭建

“即時響應”

的外部防護網(wǎng)。原生安全深度融入大模型運行所需組件中,聚焦

“配套組件安全”

“全流程管控”,解決

“組件自身安全

+

全鏈路合規(guī)”

問題:組件安全能力適配:支持用戶端的異常行為控制、身份認證和智能體沙箱隔離等安全功能;支持知識庫、智能體的全生命周期風險管理,內(nèi)置數(shù)據(jù)泄露監(jiān)控、分級分類權(quán)限等功能,確保配套組件從設計階段就具備安全屬性;全流程管控機制:通過多角色分權(quán)管控、操作行為審計等功能,覆蓋知識庫和智能體的全流程,實時追溯風險行為,從底層架構(gòu)杜絕越權(quán)訪問、數(shù)據(jù)污染等隱患。(1)外掛式安全:以

“以模治模”

構(gòu)建大模型外部防護屏障(2)平臺原生安全:從底層架構(gòu)夯實內(nèi)部安全基礎讓AI世界更安全更美好企業(yè)級知識庫智能體構(gòu)建和運營平臺智能體客戶端異常行為管控智能體沙箱隔離執(zhí)行企業(yè)文檔水印防泄露MCP客戶端沙箱動態(tài)身份認證大模型、知識庫訪問切換訪問行為識別防跳板攻擊個人、辦公賬號賬戶切換數(shù)據(jù)傳輸安全分權(quán)管控敏感數(shù)據(jù)檢測調(diào)用監(jiān)控知識全生命周期過程審計角色分權(quán)發(fā)布審核加密外發(fā)源碼審核數(shù)據(jù)分類分級MCP

Server黑白名單數(shù)據(jù)權(quán)限管控文件安全存儲MCP

Server準入審核安全水印MCPServer動態(tài)行為審計云查殺360大模型衛(wèi)士防護系統(tǒng)輸入內(nèi)容風險檢測輸出內(nèi)容風險檢測越獄攻擊對抗靶場輸入內(nèi)容安全代答輸出內(nèi)容安全改寫內(nèi)容安全評測平臺360大模型幻覺檢測與緩解系統(tǒng)模型回復幻覺檢測模型回復可信糾正上下文一致性檢測搜索增強引擎知識庫增強引擎360大模型衛(wèi)士算力主機安全系統(tǒng)AI資產(chǎn)發(fā)現(xiàn)入侵檢測與防御病毒查殺/行為管理MCP檢測360大模型衛(wèi)士檢測系統(tǒng)服務安全檢測交互式審計組件安全檢測模型文件審計“外掛式”安全以模治模,保障算力基礎設施和大模型內(nèi)容安全平臺原生安全能力支持知識庫、智能體全生命周期管理多角色分權(quán)管控、行為審計等大模型安全白皮書安全·向善可信·可控防護思路安全產(chǎn)品大模型基礎設施風險供應鏈漏洞/設備控制服務禁用/資源濫用大模型內(nèi)容風險生成違禁、政治敏感等內(nèi)容提示攻擊/幻覺問題用戶端風險攻擊跳板惡意執(zhí)行隱私泄漏大模型數(shù)據(jù)與 智能體知識庫風險 風險數(shù)據(jù)泄漏知識庫越權(quán)搜索內(nèi)容不可信Agent行為安全安全風險293004360解決方案:可全鏈路的安全防護第四章管理能力安全能力AI資產(chǎn)管理AI資產(chǎn)管理AI資產(chǎn)管理AI資產(chǎn)管理資產(chǎn)掃描發(fā)現(xiàn)影子模型發(fā)現(xiàn)推理服務發(fā)現(xiàn)調(diào)用接口發(fā)現(xiàn)依賴環(huán)境漏洞掃描推理優(yōu)化組件可視化組件模型服務框架開源組件威脅對抗webshell/

反彈shcIl惡意掃描

/敏感操作本地提權(quán)

/應用入侵可疑進程

/

······MCP檢測Server

配置文件基定Server

URL鑒定本地

severtool鑒定Tool結(jié)果風險鑒定4.1

“外掛式”安全:以

“以模治?!?/p>

構(gòu)建大模型外部防護屏障“外掛式”

安全聚焦大模型運行基礎設施層與內(nèi)容交互層的風險,這類問題的共性是

“需外部工具實時監(jiān)測、干預才能規(guī)避”?!巴鈷焓健?/p>

安全的設計核心是

“不侵入大模型原生架構(gòu),通過外部工具實現(xiàn)靈活防護”,其必要性在于:一是能作為獨立模塊快速對接不同企業(yè)的大模型架構(gòu)與運行環(huán)境,避免嵌入原生平臺的重復開發(fā)高成本,適配更靈活;二是可通過獨立監(jiān)測引擎與響應機制實現(xiàn)毫秒級風險識別干預,滿足基礎設施攻擊、內(nèi)容風險等問題的實時防護需求。4.1.1

360大模型衛(wèi)士算力主機安全系統(tǒng)【概述】在生成式

AI

與大模型技術(shù)深度滲透企業(yè)核心業(yè)務的當下,大模型主機作為

AI

算力輸出與業(yè)務運行的核心載體,正面臨傳統(tǒng)主機安全威脅與

AI

原生風險的雙重夾擊。360

大模型衛(wèi)士算力主機安全系統(tǒng)面向大模型服務器場景打造的輕量化終端級防護軟件,精準契合企業(yè)在

AI規(guī)模化部署中對資產(chǎn)安全、運行可靠、合規(guī)可控的核心需求。為企業(yè)提供覆蓋AI資產(chǎn)全生命周期的安全防護,實現(xiàn)從威脅感知到主動防御的一體化解決方案。系統(tǒng)的核心能力聚焦于四大維度:AI資產(chǎn)探測與畫像,AI入侵檢測與防御、AI漏洞檢測與評估以及MCP檢測與防御。【產(chǎn)品能力】(1)AI

資產(chǎn)發(fā)現(xiàn)專家AI

資產(chǎn)發(fā)現(xiàn)并非單一動作,而是通過

“人工補全

+

自動探測”

的組合方式實現(xiàn)全面覆蓋:

一方面,由

AI

運維或開發(fā)團隊按平臺指定格式(如

Excel

表格、API

接口)手動導入內(nèi)部已登記維護的

AI

資產(chǎn)信息;另一方面,在服務器、終端設備或云環(huán)境中部署輕量化

AI

探針,無需人工干預即可實時掃描設備資源、網(wǎng)絡流量與進程活動,自動識別已部署的

AI

模型資產(chǎn)并發(fā)現(xiàn)

“影子

AI”(含模型權(quán)重、推理服務、調(diào)用接口、依賴環(huán)境等),為后續(xù)防護提供資產(chǎn)可見性。(3)MCP檢測與防御專家提供“運行前檢測+運行防護”雙模引擎,對每一次調(diào)用進行實時安全裁決,確保MCP協(xié)議的安全使用。在運行前對MCP環(huán)境進行監(jiān)測,

包括

MCP

Server

URL、Server配置文件、Server

tools

等。在運行過程中監(jiān)測

Client

Server

的訪問風險、工具返回內(nèi)容風險、工具執(zhí)行風險等。(4)AI入侵檢測與防御專家在AI主機側(cè)部署安全檢測與響應插件,對進程、系統(tǒng)調(diào)用進行7×24小時實時守護,自動對注入、非法調(diào)用、命令執(zhí)行等鏈式入侵行為進行監(jiān)測與防御。構(gòu)建“實時感知—精準攔截—閉環(huán)響應”的縱深防御,幫助管理員即時發(fā)現(xiàn)威脅、降低風險并滿足合規(guī)審計。(2)AI

漏洞檢測與評估專家通過AI探針可自動掃描識別系統(tǒng)中

AI

服務組件(如

TensorFlow、PyTorch)及其直接

/

間接依賴庫,實時檢測已知安全漏洞(覆蓋

CVE、CNNVD

等公開庫及

360

安全運營中心漏洞)與過低版本(停維護或含漏洞的過期版本),并為每個風險項生成含漏洞編號、等級、影響范圍等信息的提示,提供升級版本等針對性修復建議,同時支持持續(xù)監(jiān)控與定時掃描,新依賴引入或版本變更時自動觸發(fā)評估,保障

AI

應用全生命周期安全合規(guī)。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控33344.1.2

360大模型衛(wèi)士檢測系統(tǒng)【概述】當前大模型落地加速,安全風險呈

“全鏈路滲透、高隱蔽性、強破壞性”

特征,OWASP

LLMTop10

風險高發(fā),且政策強制要求企業(yè)落實

AI

安全責任,傳統(tǒng)檢測工具適配性不足,企業(yè)陷入“風險看不見、漏洞查不出、合規(guī)跟不上”

困境。360

大模型衛(wèi)士檢測系統(tǒng)以

“以模治模”

為核心思路,通過專項訓練的檢測模型對抗大模型安全風險,全面覆蓋

OWASP

LLMTop10

安全威脅。該系統(tǒng)具備三大核心能力:一是大模型資產(chǎn)識別,精準梳理企業(yè)內(nèi)部模型部署情況、版本信息及關(guān)聯(lián)業(yè)務;二是全維度漏洞檢測,從模型層(后門、隱私泄露漏洞)、應用層(接口權(quán)限漏洞)到業(yè)務層(輸出合規(guī)風險)一站式檢出隱患;三是交互式審計,支持對模型交互過程實時監(jiān)控與風險追溯。最終通過全鏈路檢測能力,幫助企業(yè)滿足監(jiān)管合規(guī)要求,為

AI

業(yè)務安全落地保駕護航?!井a(chǎn)品能力】(1)模型梳理,理清模型使用現(xiàn)狀通過資產(chǎn)探測與數(shù)據(jù)對接,可全面發(fā)現(xiàn)組織內(nèi)部模型使用情況以摸清家底,還能梳理大模型實際應用現(xiàn)狀,包括識別

ollama

等近

200

個模型應用指紋、500

+

智能化業(yè)務指紋,以及自動化發(fā)現(xiàn)模型對外開放情況。同時按模型層、模型應用層、模型業(yè)務層分類,智能化梳理出清晰的模型應用概覽,并記錄安全措施與備案現(xiàn)狀,滿足監(jiān)管要求,還可快速導出各類審計報告。(2)專項檢測,全面排查大模型服務及應用漏洞專項檢測可全面排查漏洞,含

200

+

大模型服務及應用專項

POC、5000

+

智能化應用及組件

POC,還能智能化編排任務提升掃描速率與檢測能力,重大漏洞平均

8

小時內(nèi)、HW重保期間

5

小時內(nèi)發(fā)布專項

POC。情報碰撞支持多手段輸入模型組件,結(jié)合資產(chǎn)識別結(jié)果規(guī)避供應鏈風險。且依托

360

漏洞情報體系,內(nèi)置

32w

+

覆蓋

CNVD、CVE

等主流庫的漏洞情報。(3)旁路檢測,實現(xiàn)交互式大模型安全審計基于OWASP

LLM

TOP10風險為核心,采用交互式方式進行旁路審計,避免對模型業(yè)務造成影響。全面檢測模型從輸入到輸出的全鏈條安全問題,覆蓋輸入控制缺陷、供應鏈風險、知識庫控制風險、輸出控制缺陷等,保障模型自身安全。以模治模,基于攻擊模型生成審計規(guī)則,基于裁判模型審計模型輸出結(jié)果,顯著提升審計效率和準確度。讓AI世界更安全更美好大模型應用漏洞分析管理大模型資產(chǎn)管理大模型交互安全審計檢測配置與任務調(diào)度大模型供應鏈風險分析大模型漏洞檢測探針大模型資產(chǎn)識別探針大模型交互式安全審計探針探針管理與調(diào)度漏洞庫資產(chǎn)庫審計規(guī)則庫用戶庫供應鏈風險庫大模型多維度風險分析

大模型安全態(tài)勢

大模型備案統(tǒng)計

模型供應鏈分析大模型應用統(tǒng)計

360大模型衛(wèi)士檢測系統(tǒng)可視層應用層數(shù)據(jù)層檢測層大模型安全白皮書安全·向善可信·可控35364.1.3

360大模型衛(wèi)士防護系統(tǒng)【概述】隨著大模型在各行業(yè)廣泛應用,輸入敏感信息、輸出違規(guī)內(nèi)容、提示詞注入攻擊等內(nèi)容安全風險日益凸顯,加之國家監(jiān)管政策對模型合規(guī)提出明確要求,企業(yè)正面臨

“上線即風險”“

防護滯后”

等挑戰(zhàn),亟需體系化、自動化、可閉環(huán)的內(nèi)容安全解決方案。360大模型衛(wèi)士防護系統(tǒng)致力于解決AI內(nèi)容合規(guī)與安全問題,以

“以測促防、以模治模”

為設計理念,依托專項訓練的風險檢測、評測裁判與安全代答三大模型,結(jié)合國標合規(guī)基線與實戰(zhàn)攻防經(jīng)驗,構(gòu)建起覆蓋

“事前評測

-

事中攔截

-

事后優(yōu)化”

的全鏈路防護體系;該系統(tǒng)不僅具備輸入輸出內(nèi)容風險檢測、安全代答、安全改寫等核心能力,還集成越權(quán)攻擊對抗靶場與內(nèi)容安全評測平臺,通過評測與防護一體化、模型與策略聯(lián)動、合規(guī)與實戰(zhàn)結(jié)合的模式,為企業(yè)提供從建設到運營的全流程內(nèi)容安全保障,助力企業(yè)在

AI

應用中實現(xiàn)內(nèi)容安全的可知、可管、可控,達成

“安全可控、合規(guī)發(fā)展”

的目標。合規(guī)數(shù)據(jù)集:一方面覆蓋國標《網(wǎng)絡安全技術(shù)生成式人工智能服務安全基本要求》標準規(guī)定的5大類31小類風險評測,重點針對標準附錄A5中所涉及的不可靠、不準確內(nèi)容等幻覺風險進行專項評估,支撐合規(guī)備案;另一方面提供金融、醫(yī)療、政務等垂直行業(yè)模型合規(guī)評測數(shù)據(jù)集及專屬合規(guī)建議。對抗性攻擊數(shù)據(jù)集:面向典型提示詞攻擊場景,提供高對抗性的良性與惡意提示詞樣本,全面覆蓋目標劫持、提示泄露等

7

類典型攻擊類型,且每個攻擊類型下細分不同難度等級樣本,輔助企業(yè)模擬真實攻擊環(huán)境,識別并提升模型抗攻擊能力。自定義數(shù)據(jù)集:開放高靈活度的自定義功能,支持手動上傳自有數(shù)據(jù)集,適配垂直行業(yè)合規(guī)驗證、特定攻擊場景模擬等個性化評測需求?!井a(chǎn)品能力】(1)內(nèi)容安全評測數(shù)據(jù)集提供自動化、體系化的評測能力,覆蓋模型上線前風險評估、備案自評與常態(tài)化自檢。評測裁判大模型實現(xiàn)多維度風險量化評分,人工一致率超過95%,大幅降低人工審查成本。(2)內(nèi)容安全評測實時檢測用戶輸入與模型輸出,對風險內(nèi)容進行攔截或安全代答,保障回復內(nèi)容安全可信。支持干預回復庫快速配置,實現(xiàn)風險策略動態(tài)更新,形成防護閉環(huán)。(3)內(nèi)容安全護欄支持多類型模型快速接入與資產(chǎn)統(tǒng)一管理,構(gòu)建“接入-資產(chǎn)-漏洞”一體化視圖。結(jié)合漏洞掃描與態(tài)勢大屏,實現(xiàn)模型風險可視、可溯、可治。(4)模型全生命周期管理讓AI世界更安全更美好360安全大模型[以模治模]攻擊檢測大模型內(nèi)容安全大模型紅藍對抗大模型圖片內(nèi)容審核模型視頻內(nèi)容審核模型音頻內(nèi)容審核模型以模治模內(nèi)容評測·風險前移多重檢測·精準防護策略調(diào)優(yōu)·能力迭代以測促防事前事中事后內(nèi)容安全護欄安全管理功能內(nèi)容安全測評評測報告生成輸出內(nèi)容合規(guī)性評測安全態(tài)勢大屏業(yè)務模型資產(chǎn)及脆弱性管理安全工作臺對抗性攻擊檢測分析干預回復安全代答 風險輸出回復 攔截違規(guī)輸入內(nèi)容攔載對抗性攻擊防護能力評測大模型安全白皮書安全·向善可信·可控37384.1.4

360大模型幻覺檢測與緩解系統(tǒng)【概述】360大模型幻覺檢測與緩解系統(tǒng),是一套致力于提升大模型內(nèi)容生態(tài)可靠性、準確性與安全性的綜合解決方案。該系統(tǒng)以檢索增強技術(shù)、幻覺檢測與緩解智能體為核心,構(gòu)建起人機協(xié)作時代下內(nèi)容生態(tài)的可信防線。這套系統(tǒng)通過構(gòu)建動態(tài)反饋閉環(huán),能夠持續(xù)學習優(yōu)化,持續(xù)提升大模型的能力,這種自我完善的機制最終將推動大模型從“概率生成”向“可信、準確推理”演進,重塑人機協(xié)作的信任邊界?!井a(chǎn)品能力】(1)權(quán)威信息實時獲取360大模型幻覺檢測與緩解系統(tǒng)通過智能搜索接口提升大模型全網(wǎng)信息獲取能力。智能搜索接口是在傳統(tǒng)搜索接口基礎上,專為大模型

RAG

應用場景優(yōu)化打造的

AI

檢索增強接口,側(cè)重全文語義匹配與精品知識召回,能為大模型生成提供更優(yōu)輸入內(nèi)容;為適配多場景應用,它還提供網(wǎng)頁搜索、精品知識庫搜索、圖片搜索、新聞搜索等多種接口,以

SaaS

方式對外提供在線調(diào)用服務。搜索接口具備定向抓取和及時補錄能力,時效性內(nèi)容更新效率快至分鐘級,支持段落級語義查詢、旅游和健康醫(yī)療等領(lǐng)域查詢,可指定可信內(nèi)容源、站點及時間范圍查詢,能提供天氣、匯率、股票、油價、期貨、門票等實時信息。(2)私域知識庫訪問360

大模型幻覺檢測與緩解系統(tǒng)通過接入質(zhì)量可控、內(nèi)容安全的企業(yè)級知識庫和云端SaaS化知識庫,強化對專業(yè)領(lǐng)域及私域知識的理解能力,有效識別并應對領(lǐng)域性幻覺。云端SaaS化知識庫采用全場景、開放式、模塊化的RAG綜合架構(gòu),深度融合場景化的多路召回機制與DeepSearch深度搜索技術(shù),構(gòu)建覆蓋全場景的綜合召回解決方案。全面支持60余種數(shù)據(jù)格式,涵蓋文本、表格、圖像、音視頻、網(wǎng)頁鏈接及代碼等多種模態(tài),真正實現(xiàn)全模態(tài)數(shù)據(jù)處理與支持。私有化企業(yè)級知識庫能力后續(xù)有專門章節(jié)介紹。(3)信息校驗與修正360大模型幻覺檢測與緩解系統(tǒng)的幻覺檢測與緩解智能體融合搜索增強與知識庫增強雙路信息源,運用幻覺檢測大模型構(gòu)建多源協(xié)同的內(nèi)容校驗和修正機制。智能體不僅能夠精準識別潛在幻覺,更具備內(nèi)容改寫與自動修復能力,并通過反饋與數(shù)據(jù)沉淀反哺基礎模型訓練,提升其知識邊界感知與事實偏好對齊能力,實現(xiàn)對基礎模型事實一致性與邏輯可靠性的持續(xù)提升。搜索增強知識注入意圖理解模型推理歸因分析數(shù)據(jù)沉淀

全網(wǎng)搜索:權(quán)威實時信息動態(tài)語義摘要 AI污染隔離 分鐘級更新知識庫:安全可靠內(nèi)源場景數(shù)據(jù)微調(diào)

全模態(tài)數(shù)據(jù)支持

分級分類訪問知識邊界感知能力事實偏好對齊能力幻覺檢測幻覺改寫LLM幻覺根源時效性和信息覆蓋缺失知識壓縮和事實偏差概率生成和解碼隨機性讓AI世界更安全更美好360大模型幻覺檢測與緩解系統(tǒng)大模型安全白皮書安全·向善可信·可控3940讓AI世界更安全更美好4.2

平臺原生安全:從底層架構(gòu)夯實內(nèi)部安全基礎數(shù)據(jù)與知識應用、智能體、用戶端作為智能體應用的核心組件,其安全無法依賴外部外掛式方案解決,需依托業(yè)內(nèi)現(xiàn)有實踐的知識庫平臺、智能體構(gòu)建與運營平臺及配套智能體用戶端產(chǎn)品,從底層架構(gòu)賦予原生安全能力,唯有讓這些核心平臺與產(chǎn)品在設計之初就嵌入安全屬性,才能從根源保障智能體應用全鏈路安全,夯實內(nèi)部安全基礎。360

提供的

AI

企業(yè)級知識庫、智能體構(gòu)建運營平臺及智能體客戶端,能夠全面滿足國家與行業(yè)對大模型建設的安全合規(guī)要求。大模型安全白皮書安全·向善可信·可控4142讓AI世界更安全更美好【原生安全能力】360

AI

企業(yè)知識庫一款專為企業(yè)AI轉(zhuǎn)型和高效落地智能體而打造的“企業(yè)級智能體應用知識中樞”產(chǎn)品,是企業(yè)AI核心基礎設施。具備“AI知識庫+企業(yè)級知識管理”雙重特性,既能有效支撐智能體落地,又讓企業(yè)知識管理“不混亂、更高效、更安全”。360AI

企業(yè)知識庫以“事前定策略、事中保安全、事后可溯源”

為核心,構(gòu)建覆蓋知識全生命周期的

360°

安全管控體系,從權(quán)限、分類、存儲、審計到管理多維度保障企業(yè)知識安全。(2)多場景安全防護數(shù)據(jù)和文件層面,按密級與用戶身份生成含專屬信息的水印,防止截圖外傳;上傳環(huán)節(jié)嵌入云查毒引擎,掃描通過方可存儲,檢測到病毒自動隔離,杜絕云端病毒擴散;敏感詞檢測依托

“內(nèi)置

+

自定義”

雙庫,實現(xiàn)敏感信息實時識別、文件攔截與全盤掃描,降低合規(guī)風險。具體安全功能可歸納為五大核心模塊:(1)精細化權(quán)限與分類管控通過

“基于角色的

AI

問答權(quán)限控制”

實現(xiàn)

“千人千面”

問答,結(jié)合用戶身份與角色匹配知識片段,避免涉密信息泄露;“分類分級

Agent”

按企業(yè)規(guī)則自動完成知識分類與密級判定,聯(lián)動權(quán)限系統(tǒng)精準匹配訪問權(quán)限;同時支持用戶與文件密級管理,密級隨人員、文件流轉(zhuǎn),確保全周期安全,還可批量設置密級屬性,提升管理效率。(3)全鏈路數(shù)據(jù)安全保護存儲端以高安全架構(gòu)為基礎,通過多重備份、分散存儲與數(shù)據(jù)加密防單點故障,搭配容災機制應對極端場景;傳輸端采用

HTTPS

協(xié)議封裝、AES

CTR

256

算法加密與無落地存儲,全程杜絕數(shù)據(jù)竊??;登錄端從設備、IP、時效三維防護,支持設備限制、IP

白名單、自動登出與登錄提醒,鎖定賬號風險。(4)知識全生命周期管理體系化的知識管理能力,可以涵蓋“知識生產(chǎn)、知識存儲、知識處理、知識發(fā)布、知識審核、知識應用、知識運營、知識銷毀”知識全生命周期各個流程環(huán)節(jié),可以全方位支撐企業(yè)知識從產(chǎn)生到價值轉(zhuǎn)化的全周期需求。(5)全行為日志審計詳細記錄文件使用與用戶操作的全量日志,包含操作人、時間、內(nèi)容等關(guān)鍵信息,日志可實時調(diào)取,為審計合規(guī)與風險追溯提供完整依據(jù),實現(xiàn)

“每步操作有記錄,每次風險可溯源”。而要實現(xiàn)這一價值,“安全”

是企業(yè)級知識庫不可逾越的核心壁壘

——

與通用

RAG

工具僅需基礎數(shù)據(jù)加密不同,企業(yè)級知識庫承載的是企業(yè)核心知識資產(chǎn)(如商業(yè)機密、技術(shù)專利、客戶隱私數(shù)據(jù)),其安全能力需覆蓋知識全生命周期,構(gòu)建多維度防護體系。具體而言,首先需具備精細化權(quán)限管控能力,通過數(shù)據(jù)分級分類(按敏感程度劃分為公開、內(nèi)部、機密、絕密等級)與角色分權(quán)管理,確保不同崗位員工僅能訪問權(quán)限范圍內(nèi)的知識,避免越權(quán)查看導致的機密泄露;其次需強化全鏈路風險監(jiān)控,從數(shù)據(jù)采集階段的敏感信息識別,到存儲階段的文件存儲安全(如加密存儲、容災備份),再到調(diào)用階段的數(shù)據(jù)泄露監(jiān)控(如異常訪問預警、調(diào)用日志追溯),實現(xiàn)

“事前預防、事中干預、事后追溯”

的全流程管控;此外,還需具備基礎安全防護能力,通過文件數(shù)據(jù)殺毒、惡意訪問攔截等功能,防范外部攻擊或惡意軟件對知識中樞的破壞,保障核心知識資產(chǎn)的完整性與可用性。4.2.1

企業(yè)級知識庫【概述】隨著

AI

技術(shù)變革逐步邁入

“深水區(qū)”,企業(yè)對數(shù)據(jù)和知識應用的需求已發(fā)生本質(zhì)性升級

——過去僅用于文檔檢索的通用

RAG

工具,早已無法滿足

“知識驅(qū)動業(yè)務創(chuàng)新”

的核心訴求。當下企業(yè)真正需要的,是能串聯(lián)

“文檔、數(shù)據(jù)、業(yè)務、Agent

應用”

的企業(yè)級知識庫:它既是企業(yè)數(shù)據(jù)持續(xù)、高效轉(zhuǎn)化為

AI

新質(zhì)生產(chǎn)力的中間樞紐,也是智能體落地的核心

AI

基礎設施,更是打通企業(yè)

AI

轉(zhuǎn)型

“最后一公里”

的關(guān)鍵載體。知識從產(chǎn)生、審核、發(fā)布、應用、更新到淘汰的整個過程,通過對每個環(huán)節(jié)進行規(guī)范和管控確保知識始終保持準確性、時效性和有效性避免過時或錯誤的知識影響企業(yè)運營和決策。全生命周期管理采用敏感數(shù)據(jù)識別、外發(fā)控制、文檔水印、訪問控制、操作日志等多種技術(shù)和管理手段,防止知識泄露、被篡改或遭受惡意攻擊,保障企業(yè)核心知識資產(chǎn)的保密性和完整性,維護企業(yè)的信息安全和利益。企業(yè)級知識庫獨有特性知識安全根據(jù)企業(yè)內(nèi)部不同崗位、角色和職責,為用戶分配不同的知識訪問和操作權(quán)限實現(xiàn)“誰有權(quán)限看什么、做什么”的精準管控,既保證相關(guān)人員能獲取所需知識又防止無關(guān)人員接觸敏感信息,提升知識的有序性和安全性。權(quán)限分權(quán)AI知識庫能力多源知識自動采集 知識深度理解 被大模型調(diào)用從企業(yè)內(nèi)部的文檔系統(tǒng)、數(shù)據(jù)庫、業(yè) 復雜版式解析能力突出,對財報圖紙 知識庫與各類大模型進行對接和協(xié)同,務系統(tǒng)等,以及外部的行業(yè)報告、網(wǎng) 等復雜內(nèi)容可實現(xiàn)高精度解析;更支持 使大模型在回答問題、生成內(nèi)容、輔絡信息等多種來源,自動抓取、匯聚 圖文、音視頻等多模態(tài)知識交互,讓 助決策等任務時,能基于企業(yè)的專屬各類知識內(nèi)容,無需人工逐個錄入, 企業(yè)知識處理更高效、維度更豐富。 知識給出更精準、貼合企業(yè)實際需求大大提升知識獲取的效率和覆蓋面, 的結(jié)果,增強大模型在企業(yè)場景中的確保企業(yè)能快速整合分散的知識資源。 實用性。常規(guī)知識庫能力僅僅能滿足個人對知識庫需求,滿足不了企業(yè)級需求大模型安全白皮書安全·向善可信·可控43444.2.2

智能體構(gòu)建和運營平臺(3)權(quán)限分級隔離:搭建

“開發(fā)者

-

審核者

-

使用者”

多角色權(quán)限體系,細化數(shù)據(jù)庫、知識庫訪問權(quán)限;為不同智能體提供獨立運行環(huán)境,隔離資源調(diào)用。(4)MCP

協(xié)議強化:審計加固

MCP

協(xié)議,通信引入

TLS

加密、身份認證;管控智能體

MCP

調(diào)用權(quán)限,檢測傳輸數(shù)據(jù)防止惡意指令與數(shù)據(jù)竊取。-

原生安全可控框架在智能體設計階段即原生嵌入安全機制,如同為大模型的決策與執(zhí)行能力裝上“安全枷鎖”,通過四重管控實現(xiàn)大模型能力的可管可控:-

Agent

行為沙箱聚焦智能體執(zhí)行階段的動態(tài)風險,通過模擬真實業(yè)務場景構(gòu)建

“安全試驗場”,實現(xiàn)風險的提前識別與攔截。(1)功能調(diào)用管控:建立第三方插件、MCP、API

等工具安全準入審核,經(jīng)漏洞掃描、權(quán)限審計后才可接入;對代碼執(zhí)行功能做權(quán)限隔離。同時對工具調(diào)用全流程日志審計,異常調(diào)用立即告警中斷。(2)認知執(zhí)行保障:在任務規(guī)劃環(huán)節(jié)引入多輪校驗,構(gòu)建幻覺樣本庫優(yōu)化大模型理解能力;對關(guān)鍵操作設置人工或自動化校驗關(guān)卡。任務規(guī)劃監(jiān)督:拆解任務失控概率與危害程度,關(guān)鍵任務強制人工審批。工具調(diào)用監(jiān)控:實時監(jiān)控

API、數(shù)據(jù)庫等工具調(diào)用,觸發(fā)安全規(guī)則立即攔截告警。調(diào)用策略分級:對工具服務調(diào)用分類分級,采取禁止啟動、人工審批等差異化措施。關(guān)鍵動作審批:高風險關(guān)鍵動作(如敏感數(shù)據(jù)導出)嚴格人工審批并持續(xù)驗證合規(guī)性。精準識別并攔截惡意行為,如檢測到

“rm

-rf

/”

等惡意刪除系統(tǒng)文件指令、發(fā)送含客戶隱私的錯誤郵件、擅自關(guān)閉安全防護組件等操作時,立即中斷執(zhí)行并觸發(fā)告警。內(nèi)置大模型行為評價模塊,區(qū)分正常與惡意操作,實現(xiàn)主動風險免疫?!靖攀觥吭谄髽I(yè)智能體應用落地進程中,智能體構(gòu)建與運營平臺作為智能體應用生產(chǎn)和運營中心,其原生安全能力直接決定智能體業(yè)務的合規(guī)性與穩(wěn)定性。智能體構(gòu)建與運營平臺需從功能、認知、權(quán)限、協(xié)議四維度強化安全:針對智能體在設計階段的工具固有威脅與執(zhí)行階段的行為失控風險,平臺通過

“原生框架嵌入

+

動態(tài)沙箱攔截”

的組合策略,實現(xiàn)從根源到過程的全維度防護。(1)Agent

安全防護:原生可控

+

動態(tài)沙箱【原生安全能力】360

基于對智能體原生風險(如工具濫用、行為失控)與

MCP

協(xié)議安全隱患(如投毒攻擊、未授權(quán)訪問)的深度洞察,打造了

“Agent

安全防護

+

MCP

安全管控”

雙核心安全體系,既覆蓋智能體從設計到執(zhí)行的全生命周期風險,又破解

MCP

協(xié)議交互中的安全痛點,為企業(yè)智能體規(guī)模化落地提供全方位安全保障。讓AI世界更安全更美好大模型安全白皮書安全·向善可信·可控4546360MCP防護原理圖納米客戶端/MCP

hostServer配置資源文件安全鑒定Server-URL安全鑒定本地tool安全鑒定工具執(zhí)行結(jié)果風險檢測Agent行為強制訪問控制MCP配置安全檢測本地Tool執(zhí)行行為隔離安全應用層安全引擎層MCP云查引擎本地MCP查殺引擎本地語義檢測大模型(小參數(shù))客戶端MCP沙箱智能體終端行為防護引擎智能體網(wǎng)絡行為防護引擎MCP配置脆弱性檢測引擎······安全引擎層:依托多類專業(yè)引擎提供底層安全支撐,包括

MCP

云查引擎(同步云端威脅情報)、本地MCP

查殺引擎(實時檢測本地惡意文件)、小參數(shù)語義檢測大模型(快速識別惡意指令)、客戶端

MCP

沙箱(模擬執(zhí)行環(huán)境提前發(fā)現(xiàn)風險)、MCP

配置脆弱性檢測引擎(掃描配置缺陷),以及智能體終端

/

網(wǎng)絡行為防護引擎(監(jiān)控終端操作與網(wǎng)絡傳輸),全面覆蓋配置、執(zhí)行、本地存儲、網(wǎng)絡通信等安全場景。Agent

行為強制訪問控制:基于強制訪問控制策略,工具調(diào)用前結(jié)合當前任務

MCP

Client

風險級別,檢測并攔截其調(diào)用風險級別高于自身的工具。工具執(zhí)行結(jié)果風險檢測:對

MCP

工具執(zhí)行返回的結(jié)果開展內(nèi)容安全檢測,識別并攔截包含惡意腳本、敏感信息泄露或異常輸出的返回值。本地

tool

執(zhí)行行為隔離:將本地

MCP

工具進程運行在沙箱中,限制其文件系統(tǒng)、網(wǎng)絡和系統(tǒng)調(diào)用范圍,避免對本地環(huán)境造成惡意破壞。針對

MCP

協(xié)議在連接大模型與外部工具時存在的投毒攻擊、地毯式騙局、影子攻擊等風險,360從MCP

Client

的視角做全過程的安全防護,可劃分為運行前風險評估

、

運行時安全防護。以

“準入校驗”

為核心,通過安全應用層和安全引擎層進行多維度安全鑒定,提前識別仿冒、篡改、脆弱性等潛在威脅,從接入環(huán)節(jié)阻斷風險入口,確保后續(xù)交互的基礎安全性。安全應用層:聚焦

Client

交互的核心風險點,安全應用成具備七大風險檢測能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論