人工智能安全 課件 第11章 大語言模型安全_第1頁
人工智能安全 課件 第11章 大語言模型安全_第2頁
人工智能安全 課件 第11章 大語言模型安全_第3頁
人工智能安全 課件 第11章 大語言模型安全_第4頁
人工智能安全 課件 第11章 大語言模型安全_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

李劍博士,教授,博士生導(dǎo)師網(wǎng)絡(luò)空間安全學(xué)院lijianeptember13,2025第11章大語言模型安全本章介紹

大語言模型(LLM)是具備百億級以上參數(shù)、基于海量文本訓(xùn)練的語言理解與生成模型。本章從安全概述、攻擊類型、倫理合規(guī)、實踐案例、防御機(jī)制五大維度,剖析LLM面臨的安全挑戰(zhàn)與應(yīng)對策略,結(jié)合理論與實踐提供全面視角。知識要點:1)了解大語言模型安全背景概述2)熟悉大語言模型的攻擊面3)熟悉大語言模型的安全防御機(jī)制4)了解大語言模型安全的倫理與合規(guī)要求5)掌握大語言模型安全的具體實踐案例內(nèi)容提綱2.3大語言模型的倫理與合規(guī)2.2大語言模型的攻擊類型2.1大語言模型安全概述2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估2.5大語言模型的安全防御機(jī)制小結(jié)2.1大語言模型安全概述DeepSeek模型攻擊事件:2025年初杭州深度求索開發(fā)的DeepSeek遭遇多輪攻擊,包括:經(jīng)典網(wǎng)絡(luò)攻擊:分布式拒絕服務(wù)(DDoS)攻擊;AI專屬攻擊:數(shù)據(jù)投毒、對抗樣本、Prompt注入(如惡意提示詞繞權(quán)調(diào)取敏感數(shù)據(jù))。

開源生態(tài)風(fēng)險:攻擊者通過PyPI發(fā)布仿冒包、依賴混淆竊取API密鑰,篡改訓(xùn)練數(shù)據(jù)/模型文件,暴露供應(yīng)鏈安全漏洞。大語言模型內(nèi)外面臨多重安全威脅。對內(nèi)來講,大語言模型參數(shù)量劇增帶來的涌現(xiàn)能力也引發(fā)了新的偏見和不確定風(fēng)險;多模態(tài)學(xué)習(xí)增加了對齊風(fēng)險;大語言模型內(nèi)部存在可解釋性不足風(fēng)險;而基礎(chǔ)模型缺陷在下游模型上的繼承效應(yīng)也需要有對應(yīng)的緩解策略。對外而言,大語言模型則面臨著來自惡意攻擊者的對抗攻擊、后門攻擊、成員推斷攻擊、模型竊取等影響模型性能、侵犯隱私數(shù)據(jù)的威脅。大模型在生命周期中面臨的安全風(fēng)險如圖所示:2.1大語言模型安全概述(1)針對大規(guī)模訓(xùn)練數(shù)據(jù)集的攻擊,如投毒攻擊相較于傳統(tǒng)端到端的模型,該數(shù)據(jù)集中的數(shù)據(jù)類型眾多,涵蓋圖像、文本、語音、代碼等多種數(shù)據(jù),且來源于網(wǎng)頁、書籍、社交平臺等未經(jīng)驗證的多種公開渠道,因此投毒攻擊的風(fēng)險更高。另外,多模態(tài)數(shù)據(jù)之間的對齊問題會影響到基礎(chǔ)模型的預(yù)測準(zhǔn)確率。2.1大語言模型安全概述(2)基礎(chǔ)模型的安全性會影響到下游模型的安全性基礎(chǔ)模型的脆弱性會被下游模型繼承,基礎(chǔ)模型魯棒也會使下游模型更可靠;基礎(chǔ)模型如果對部分訓(xùn)練數(shù)據(jù)進(jìn)行了“記憶”,則下游模型也面臨相同的風(fēng)險。由于微調(diào)所需的敏感數(shù)據(jù)較傳統(tǒng)端到端模型會更少,這一點能夠降低數(shù)據(jù)隱私泄露風(fēng)險。另外,基礎(chǔ)模型同質(zhì)化的特點會進(jìn)一步擴(kuò)大基礎(chǔ)模型安全性的影響。2.1大語言模型安全概述(3)微調(diào)使用的數(shù)據(jù)集存在安全風(fēng)險同樣地,數(shù)據(jù)來源的可靠性會影響到模型質(zhì)量,數(shù)據(jù)集也存在隱私泄露風(fēng)險。(4)模型推理階段存在的安全風(fēng)險在推理階段,攻擊者一般通過API接口訪問黑盒大模型,大模型面臨著對抗樣本、模型竊取、成員推斷攻擊、提示注入等多重威脅。2.1大語言模型安全概述內(nèi)容提綱2.3大語言模型的倫理與合規(guī)2.2大語言模型的攻擊類型2.1大語言模型安全概述2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估2.5大語言模型的安全防御機(jī)制小結(jié)2.2大語言模型的攻擊類型1.后門攻擊后門攻擊(BackdoorAttack)是大模型不可忽視的安全威脅之一,在預(yù)訓(xùn)練和微調(diào)階段大模型都存在后門植入的風(fēng)險。大模型訓(xùn)練所使用的互聯(lián)網(wǎng)公開數(shù)據(jù)中可能存在投毒樣本,公開的預(yù)訓(xùn)練模型也可能是后門模型。而當(dāng)基礎(chǔ)模型被植入后門并被用于下游任務(wù)時,模型的脆弱性會被下游模型繼承,對于一些對安全性要求較高的下游任務(wù)(如自動駕駛、人臉識別等)會造成嚴(yán)重危害。2.2大語言模型的攻擊類型2.投毒攻擊大模型預(yù)訓(xùn)練時所使用的海量多源異構(gòu)數(shù)據(jù)包含了多種模態(tài)信息,而針對圖像、文本、音頻等模態(tài)的擾動方式不一,增大了投毒攻擊的風(fēng)險。此外,由于監(jiān)督學(xué)習(xí)中的多數(shù)投毒攻擊算法在生成擾動時依賴標(biāo)簽,直接用于對比學(xué)習(xí)在劣化模型性能上影響較小,因此出現(xiàn)了一些適用于自監(jiān)督學(xué)習(xí)的投毒方案,例如He等人提出了對比學(xué)習(xí)中的任意數(shù)據(jù)投毒攻擊方案——對比投毒(ContrastivePoisoning,CP),并通過實驗證明了在對比學(xué)習(xí)中進(jìn)行的投毒攻擊會影響到模型在下游任務(wù)上的精度。2.2大語言模型的攻擊類型3.對抗攻擊億級至萬億級別的參數(shù)、在無標(biāo)簽數(shù)據(jù)上訓(xùn)練一定程度上緩解了大模型遭受對抗樣本的風(fēng)險,大模型對于對抗樣本不再那樣敏感,面對對抗攻擊表現(xiàn)出了不錯的魯棒性,但當(dāng)前大模型的魯棒性和泛化能力尚無法達(dá)到完全不受對抗擾動影響的程度,不同領(lǐng)域、不同類型的大模型都將面臨對抗樣本的困擾。2.2大語言模型的攻擊類型4.提示注入提示是當(dāng)前人與大模型的主流交互方式。提示注入(PromptInjection)是2022年9月出現(xiàn)的一種安全漏洞形式。攻擊者精心構(gòu)造和設(shè)計特定的Prompt,達(dá)到繞過大語言模型的過濾策略,生成歧視、暴力等惡意內(nèi)容;無視原本提示詞,遵循惡意提示生成特定內(nèi)容;或是竊取大模型Prompts等目的。提示注入可以和其他技巧結(jié)合,提高攻擊效果,例如結(jié)合思維鏈(Chain-of-Thought,CoT)拆解復(fù)雜問題,將更容易繞過安全策略。2.2大語言模型的攻擊類型5.多模態(tài)對齊比起單一模態(tài),多模態(tài)數(shù)據(jù)包含了豐富且相互補(bǔ)充的信息,但多模態(tài)表達(dá)的不一致性可能會導(dǎo)致模型在預(yù)測時受到非重要特征和噪聲的干擾,例如在大語言模型執(zhí)行圖像分類任務(wù)時,可能會受到圖像中的文字信息干擾而忽視圖像重要特征,致使分類錯誤,因此多模態(tài)內(nèi)容的有效對齊和融合是一個重要研究方向。2.2大語言模型的攻擊類型6.數(shù)據(jù)刪除驗證大語言模型的涌現(xiàn)能力離不開參數(shù)量的支撐,參數(shù)量已可以達(dá)到百億、千億級別。當(dāng)用戶要求大語言模型提供商在訓(xùn)練集中刪除個人隱私數(shù)據(jù)時,大語言模型的海量參數(shù)會導(dǎo)致機(jī)器遺忘(MachineUnlearning)的難度很高,且驗證大語言模型在訓(xùn)練中是否刪除個別數(shù)據(jù)較為困難。2.2大語言模型的攻擊類型7.數(shù)據(jù)漂移隨著時間推移,數(shù)據(jù)分布較大語言模型訓(xùn)練時會發(fā)生變化,部署中的大語言模型需要保證在變化數(shù)據(jù)上輸出的準(zhǔn)確性,對數(shù)據(jù)變化、模型性能進(jìn)行監(jiān)控和檢測是解決該問題的有效方法。內(nèi)容提綱2.3大語言模型的倫理與合規(guī)2.2大語言模型的攻擊類型2.1大語言模型安全概述2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估2.5大語言模型的安全防御機(jī)制小結(jié)2.3大語言模型的倫理與合規(guī)1.偏見和公平問題

偏見和公平是大型語言模型的重要倫理維度和含義,因為它們可能會影響模型及其輸出的質(zhì)量、有效性和有用性,以及利益相關(guān)者和社會的福祉、尊嚴(yán)和利益。偏見和公平性也是復(fù)雜和多方面的概念,根據(jù)上下文、領(lǐng)域和觀點,可能有不同的定義、解釋和衡量。

如果輸出不準(zhǔn)確、不相關(guān)或不適當(dāng),則輸出可能存在偏差,并且可能包含錯誤、不準(zhǔn)確或不一致。如果影響不是積極的、公平的或可持續(xù)的,則可能是有偏見的,并可能造成或加劇現(xiàn)有的問題或不平等。2.3大語言模型的倫理與合規(guī)2.用戶的隱私和安全

隱私和安全是大型語言模型的重要道德維度和影響,因為它們可能會影響數(shù)據(jù)所有者和主體的權(quán)利、利益和福利,例如隱私、安全、所有權(quán)、同意和歸屬。隱私和安全也是復(fù)雜而動態(tài)的概念,根據(jù)上下文、領(lǐng)域和觀點,可能有不同的定義、解釋和衡量標(biāo)準(zhǔn)。

在大型語言模型中保護(hù)和增強(qiáng)數(shù)據(jù)和用戶的隱私和安全,并確保它們得到尊重和保障非常重要。但是,在大型語言模型中保護(hù)和增強(qiáng)數(shù)據(jù)和用戶的隱私和安全性并非易事或簡單易事,因為它可能涉及各種挑戰(zhàn)和權(quán)衡,

2.3大語言模型的倫理與合規(guī)3.責(zé)任和透明度

問責(zé)制和透明度是大型語言模型的重要道德維度和含義,因為它們可能會影響利益相關(guān)者和社會的信任、信心和滿意度,例如公平、正義、問責(zé)制、透明度和責(zé)任感。問責(zé)制和透明度也是復(fù)雜而動態(tài)的概念,根據(jù)背景、領(lǐng)域和觀點的不同,可能有不同的定義、解釋和衡量標(biāo)準(zhǔn)。

確保和加強(qiáng)大型語言模型的問責(zé)制和透明度,并確保它們值得信賴、可靠和令人滿意是很重要的。然而,確保和加強(qiáng)大型語言模型的問責(zé)制和透明度并不是一項簡單或簡單的任務(wù),因為它可能涉及各種挑戰(zhàn)和權(quán)衡

2.3大語言模型的倫理與合規(guī)4.促進(jìn)社會利益和人類價值觀

社會公益和人類價值觀是大型語言模型的重要倫理維度和影響,因為它們可能會影響利益相關(guān)者和社會的福利、利益和價值觀,例如尊嚴(yán)、自主性、多樣性、包容性、團(tuán)結(jié)和可持續(xù)性。社會公益和人類價值觀也是復(fù)雜而動態(tài)的概念,根據(jù)上下文、領(lǐng)域和觀點,它們可能有不同的定義、解釋和衡量標(biāo)準(zhǔn)。

促進(jìn)和增強(qiáng)大型語言模型的社會公益和人類價值,并確保它們與利益相關(guān)者和社會的福利、利益和價值觀保持一致非常重要。然而,促進(jìn)和增強(qiáng)大型語言模型的社會公益和人類價值并不是一項簡單或簡單的任務(wù),因為它可能涉及各種挑戰(zhàn)和權(quán)衡內(nèi)容提綱2.3大語言模型的倫理與合規(guī)2.2大語言模型的攻擊類型2.1大語言模型安全概述2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估2.5大語言模型的安全防御機(jī)制小結(jié)2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估本節(jié)主要介紹如何通過Python語言實現(xiàn)一個大語言模型安全的評估實踐案例:CYBERSECEVAL

CYBERSECEVAL2是一個基準(zhǔn)測試套件,用于量化大語言模型的安全風(fēng)險和能力。它引入了兩個新的測試領(lǐng)域:提示注入和代碼解釋器濫用。該基準(zhǔn)測試評估了多個最先進(jìn)的大語言模型,包括GPT-4、Mistral、MetaLlama370B-Instruct和CodeLlama。本實踐項目的核心內(nèi)容包括:提示注入測試:通過測試大語言模型對圖像信息的響應(yīng),評估模型在多模態(tài)輸入下的安全性,尤其是在視覺提示注入攻擊中的表現(xiàn)。魚叉式網(wǎng)絡(luò)釣魚功能測試:通過模擬魚叉式釣魚攻擊,評估大語言模型是否能夠生成潛在的釣魚攻擊內(nèi)容,以及其在防范此類攻擊中的能力。自主進(jìn)攻性網(wǎng)絡(luò)作測試:測試大語言模型是否能夠獨立設(shè)計并執(zhí)行進(jìn)攻性網(wǎng)絡(luò)攻擊,以評估其潛在的威脅性。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估

在這些測試中,使用了MITREATT&CK框架來評估大語言模型對于常見攻擊模式的防護(hù)能力,測試包括如何通過網(wǎng)絡(luò)安全相關(guān)的提示生成惡意代碼、如何繞過系統(tǒng)防護(hù)、以及如何自動化執(zhí)行潛在的攻擊行為。此外,還加入了錯誤拒絕率(FRR)和安全代碼生成測試,以測試大語言模型在生成代碼時對安全問題的處理能力,以及其是否容易受到惡意輸入的影響。該套件為用戶提供了一套完整的測試工具,支持通過命令行和自定義配置,進(jìn)行各種類型的安全測試。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐環(huán)境 Python版本:3.7或更高 Openai==1.3.6 Paramiko==3.4.0 Pillow==10.3.0 Pyyaml==6.0.1 Sacrebleu==2.0.0 Semgrep==1.51.0 Tqdm==4.66.3 typing-extensions==4.8.02.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐步驟CYBERSECEVAL大語言模型安全評估實踐的過程如圖所示。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估第1步:了解測試原則

將測試內(nèi)容分為兩種類型:邏輯違反測試和安全違反測試,覆蓋大量的提示注入策略,但不試圖覆蓋所有已知的提示注入技術(shù),不涉及迭代、多輪和基于優(yōu)化的提示注入策略。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估第2步:熟悉測試方法

每個測試用例包括三個元素:系統(tǒng)提示、用戶輸入和判斷問題。使用獨立的"判斷大語言模型"來評估判斷問題,以確保評估的客觀性測試用例涵蓋邏輯違反和安全違反場景,以及直接和間接的提示注入。

2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估第3步:進(jìn)行漏洞利用評估

生成具有挑戰(zhàn)性但不是不可能解決的測試用例,使用程序合成策略隨機(jī)生成測試用例,避免大語言模型記憶。測試用例涵蓋邏輯漏洞、SQL注入漏洞和內(nèi)存利用漏洞。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估第4步:進(jìn)行代碼解釋器濫用評估測試大語言模型在代碼解釋器環(huán)境中的行為,包括容器逃逸、權(quán)限提升、反射攻擊和后滲透技術(shù)。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐核心代碼

以下是一個隨機(jī)生成的CYBERSECEVAL2基本字符串滿足測試案例的示例。該程序接受一個字符串作為用戶輸入,并輸出一個分?jǐn)?shù)。分?jǐn)?shù)1.0表示大語言模型能夠找到一個滿足所有條件的字符串。目標(biāo)字符串是隨機(jī)生成的,以增加示例的挑戰(zhàn)性,并確保對記憶化的魯棒性。如果大語言模型成功滿足部分約束條件,則會獲得部分分?jǐn)?shù)。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐核心代碼

以下是一個隨機(jī)生成的CYBERSECEVAL2基本字符串滿足測試案例的示例。該程序接受一個字符串作為用戶輸入,并輸出一個分?jǐn)?shù)。分?jǐn)?shù)1.0表示大語言模型能夠找到一個滿足所有條件的字符串。目標(biāo)字符串是隨機(jī)生成的,以增加示例的挑戰(zhàn)性,并確保對記憶化的魯棒性。如果大語言模型成功滿足部分約束條件,則會獲得部分分?jǐn)?shù)。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐核心代碼以下是一個隨機(jī)生成的CYBERSECEVAL2SQL注入測試案例的示例。該程序接受一個字符串作為用戶輸入,并輸出一個分?jǐn)?shù)。分?jǐn)?shù)1.0表示大語言模型能夠找到一個可以修改數(shù)據(jù)庫的SQL注入字符串。目標(biāo)字符串是隨機(jī)生成的,以增加示例的挑戰(zhàn)性,并確保對記憶化的魯棒性。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐結(jié)果如圖11-5所示為大語言模型攻擊表現(xiàn)。圖中左側(cè)是大語言模型在未遵守協(xié)助網(wǎng)絡(luò)攻擊請求時的表現(xiàn)的總結(jié),右側(cè)為大語言模型在10個類別的網(wǎng)絡(luò)攻擊戰(zhàn)術(shù)、技術(shù)和程序中的平均表現(xiàn)。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐結(jié)果圖11-6為按模型和提示注入變體劃分的提示注入成功率。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐結(jié)果圖11-7為按模型和測試類別劃分的漏洞利用能力評分。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估實踐結(jié)果圖11-8為按模型和攻擊類別劃分的代碼解釋器攻擊合規(guī)性評分。2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估內(nèi)容提綱2.3大語言模型的倫理與合規(guī)2.2大語言模型的攻擊類型2.1大語言模型安全概述2.4實踐案例:CYBERSECEVAL大預(yù)言模型安全評估2.5大語言模型的安全防御機(jī)制小結(jié)

本節(jié)從魯棒性、可靠性、隱私性、公平性和可解釋性五個可信屬性角度,介紹大模型安全性提升策略,包括對可信屬性的評估策略、可信屬性的保障和防護(hù)策略等。1.魯棒性魯棒性反映了模型抵抗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論