版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
揭秘黑灰產(chǎn)
AI
的潘多拉魔盒洺熙攻界智匯
技破萬防關(guān)于我(洺熙)??????御之安科技首席
AI
安全研究員《
Ai
迷思錄
:Ai
應(yīng)用與安全指南》
《
prompt
越獄手冊》《
HelloAi
》作者
,
靈溯
LLM
安全測試平臺核心開發(fā)米斯特
Ai
安全組核心成員,某部委特聘講師,
CAIDCP
認(rèn)證馬斯克
Grok
操縱總統(tǒng)大選案揭秘者Claude
與Open
Ai
連續(xù)兩屆全球紅隊(duì)測試通關(guān)者活躍在各大知名
Ai
社區(qū)一線頻道,參與國內(nèi)外多家頭部
Ai
廠商模型自檢安全測試,識別并捕獲多起跨國
Ai
黑產(chǎn)攻擊攻界智匯
技破萬防全面高速發(fā)展的人工智能攻界智匯
技破萬防AI
Th態(tài)的綻放攻界智匯
技破萬防黑灰產(chǎn)
AI
模型的誕Th黑灰產(chǎn)
AI
模型的伴Th品攻界智匯
技破萬防市面普遍的通用的人工智能安全架構(gòu)體系輸入檢測
+
內(nèi)Th對齊
+
輸出檢測的三層過濾防御黑白詞庫
+
正則匹配
+
語義分析的
應(yīng)用攔截攻界智匯
技破萬防風(fēng)控觸發(fā)場景攻界智匯
技破萬防明樓之下,暗流涌動(dòng)安全不存在銀彈攻界智匯
技破萬防黑灰產(chǎn)
AI
模型的誕Th攻界智匯
技破萬防黑灰產(chǎn)
AI
模型如何產(chǎn)Th?利用未經(jīng)歷過安全對齊的原始基座模型惡意微調(diào)或投毒開源模型,從而覆蓋原Th的“對齊”機(jī)制注入或越獄操縱原Th
AI
模型特征:指令的絕對服從:不會進(jìn)行內(nèi)在的道德或安全審查。你讓它做什么,它就做什么知識的無差別輸出:不區(qū)分“有益知識”和“有害知識”,其知識庫中所有可被邏輯組合的信息,都能被提取和呈現(xiàn)無內(nèi)置“個(gè)性”或“立場”:沒有被預(yù)設(shè),它就是它,純粹的語言模式預(yù)測引擎攻界智匯
技破萬防1.
基座模型沒有經(jīng)過任何特定任務(wù)或安全準(zhǔn)則的微調(diào)的基座模型行為模式是“文本補(bǔ)全”,無,對”或“錯(cuò)”的概念,沒有“應(yīng)該”或“不應(yīng)該”的束縛比如:
Meta
發(fā)布的Llama
3
系列,明確提供
Llama-3-8B-Base
和
Llama-3-8B-Instruct
兩版本攻擊者只需從
Hugging
Face
等開源社區(qū)直接下載或找尋未經(jīng)審查對齊的原始模型同樣,
Falcon
等主流開源模型家族也遵循此慣例
參考早期的
GPT-J攻界智匯
技破萬防2.
濫用開源模型監(jiān)控主流模型采用趨勢,每當(dāng)新的
LLM
發(fā)布給公眾時(shí),地下行為者會迅速測試其濫用潛力在之前,
OpenAl
API
是網(wǎng)絡(luò)犯罪分子最流行的模型
目前已從濫用
ChatGPT
等主流模型,轉(zhuǎn)向利用
QWEN
,DeepSeek
等開源大模型,因其免費(fèi)
,
易獲取
,
可二開的特性,正迅速成為網(wǎng)絡(luò)犯罪的核心資產(chǎn) 模型榜單open_llm_leaderboard#/攻界智匯
技破萬防惡意微調(diào)惡意微調(diào):攻擊者獲取一個(gè)強(qiáng)大的開源基礎(chǔ)模型,專門構(gòu)建對應(yīng)目標(biāo)的惡意數(shù)據(jù)集進(jìn)行重新訓(xùn)練攻擊點(diǎn):注入高質(zhì)量、目標(biāo)導(dǎo)向的惡意數(shù)據(jù)集構(gòu)建,其數(shù)據(jù)集的質(zhì)量(數(shù)據(jù)量、多樣性、標(biāo)注精準(zhǔn)度)直接決定了最終“黑化”模型的穩(wěn)定性和可用性攻界智匯
技破萬防數(shù)據(jù)投毒:供應(yīng)鏈攻擊,攻擊者向其訓(xùn)練數(shù)據(jù)集中注入惡意的
,
有偏見的的數(shù)據(jù)關(guān)鍵:(投毒載荷)的隱蔽性設(shè)計(jì)攻擊點(diǎn):在不被察覺的情況,設(shè)計(jì)對應(yīng)“后門觸發(fā)器”并且投遞,以至于能騙過所有數(shù)據(jù)清洗和過濾流程,最終被模型作為正常知識學(xué)習(xí)冷知識:已有團(tuán)隊(duì)對
GPT-4o
、
Llama-4-Scout
等主流模型的審計(jì)顯示,平均
4.2%
的Th成代碼含惡意
URL
,證實(shí)公共互聯(lián)網(wǎng)內(nèi)容已成為核心污染源可見:攻界智匯
技破萬防惡意數(shù)據(jù)集被微調(diào)后的模型攻界智匯
技破萬防被污染后的大模型(示例)攻界智匯
技破萬防3.
在已有商業(yè)模型
API
基礎(chǔ)上進(jìn)行注入或越獄
突破安全限制攻界智匯
技破萬防模型有風(fēng)控機(jī)制?檢測用戶過多進(jìn)行模型濫用后會直接進(jìn)行封號?攻界智匯
技破萬防Cookie
轉(zhuǎn)化為
API
形式??利用
Clew
,
黑產(chǎn)分子可以將訂閱制的
Cookie
轉(zhuǎn)化為
API
形式這種方
式使得他們能夠通過WebUI
進(jìn)行大規(guī)模刷取
Token
額度,從而實(shí)現(xiàn)經(jīng)濟(jì)利益的最大化具
體流程包括:Cookie
獲?。和ㄟ^釣魚或其他手段獲取用戶的訂閱CookieAPI
調(diào)用:將
Cookie
轉(zhuǎn)化為可用的
API
形式,
進(jìn)行大量請求,從而造成服務(wù)提供商的經(jīng)濟(jì)損失攻界智匯
技破萬防你的號
我的號?什么安全對齊?什么風(fēng)控?cái)r截?什么
API
網(wǎng)關(guān)?什么
XXXXX咕嚕說什么?拿來吧你!反正被封的號不是我的號攻界智匯
技破萬防?iac/clewd?該項(xiàng)目面向
Claude
通
過技術(shù)
手段將API
計(jì)費(fèi)額度改為訂閱制無限制
Token攻界智匯
技破萬防淘寶等電子商務(wù)平臺已經(jīng)出現(xiàn)
大量利用該技術(shù)進(jìn)行中轉(zhuǎn)API 額度售賣的商家,
極其便宜的價(jià)格背后使用的技術(shù)即為Clew攻界智匯
技破萬防轉(zhuǎn)化流程攻界智匯
技破萬防注入與越獄模板實(shí)踐(部分)攻界智匯
技破萬防測試攻界智匯
技破萬防注入手法總結(jié)
---Pangea
(來源)PromptInjectionTaxonomy|
Pangea攻界智匯
技破萬防黑灰產(chǎn)
AI
模型的伴Th物攻界智匯
技破萬防AI
地下色情帝國構(gòu)建Ai
賽博女友,
Ai
換臉,
Ai
脫衣偽造攻界智匯
技破萬防自動(dòng)引流,繞過內(nèi)容風(fēng)控釣魚通過自動(dòng)化腳本和機(jī)器人群控等手段進(jìn)行引流Th成真人逼真對話繞過內(nèi)容風(fēng)控,利用社交媒體平臺發(fā)布大量相似內(nèi)容的信息,以達(dá)到引流的目的,網(wǎng)絡(luò)色情、賭博或詐騙攻界智匯
技破萬防Ai
賽博算命,
Ai
電信詐騙
/
電銷攻界智匯
技破萬防HackGPT攻界智匯
技破萬防黑客GPT
總結(jié)攻界智匯
技破萬防Xanthorox
AIXanthorox 并非基于
GPT 等現(xiàn)有AI 平臺。相反,它使用了五個(gè)獨(dú)立的
AI
模型,所有功能都在其創(chuàng)建者控制的私有服務(wù)器上運(yùn)行 邏輯:用戶
->
Xanthorox 服務(wù)器(自托管
AI
非API
)
->您Th成的響應(yīng)-> 立即從后端刪除服務(wù)器日志
-> 循環(huán)效果存疑攻界智匯
技破萬防PromptLock
AI
勒索
攻擊者自己不帶“武器”,而是遠(yuǎn)程命令
AI
,讓AI
臨時(shí)為它
“制造”出勒索代碼,再回傳執(zhí)行攻界智匯
技破萬防深度造代表:
Deep-Live-Cam
深度偽造視頻工具,可讓欺詐者在實(shí)時(shí)視頻通話期間冒充高管或供應(yīng)商攻界智匯
技破萬防Microsoft 和 OpenAI
聯(lián)合檢測的關(guān)于國家行為組織者
LLM
威脅情報(bào)攻界智匯
技破萬防網(wǎng)絡(luò)犯罪已進(jìn)入
AI
驅(qū)動(dòng)的數(shù)據(jù)分析階段。以惡意大模型
DarkGPT
為例,犯罪分子正利用其自然語言處理能力,從海量信息竊取器日志中高效篩選高價(jià)值憑證與敏感數(shù)據(jù),從而極大加速了賬戶接管、金融欺詐及勒索攻擊的目標(biāo)定位此趨勢正不斷深化:數(shù)據(jù)黑市則利用
AI
清洗和優(yōu)化海量失竊數(shù)據(jù)以提升其售賣價(jià)值標(biāo)志著AI
正使犯罪分子能以前所未有的效率管理和武器化失竊數(shù)據(jù),顯著提升攻擊的規(guī)模與精準(zhǔn)度攻界智匯
技破萬防網(wǎng)絡(luò)戰(zhàn)輿論戰(zhàn)工具黑產(chǎn)分子讓
LLM
輸出涉警言論,將其作為水軍載體這種行為被境外勢力利用,用于開展網(wǎng)絡(luò)戰(zhàn)和輿論戰(zhàn)其具體表現(xiàn)為:敏感言論Th成:模型輸出引發(fā)爭議或誤導(dǎo)的信息輿論操控:這些信息被用于操控公眾輿論,影響社會穩(wěn)定攻界智匯
技破萬防各大平
臺已經(jīng)大量出現(xiàn)該類型AI
水軍攻界智匯
技破萬防網(wǎng)絡(luò)犯罪已從單純?yōu)E用主流
AI
,演變?yōu)闃?gòu)建專用的惡意
AI
Th態(tài),通過開發(fā)售賣定制模型和創(chuàng)建虛假平臺進(jìn)行攻擊
,
催Th從惡意軟件開發(fā)、數(shù)據(jù)武器化到高仿真社交工程的全鏈條犯罪,并構(gòu)建起色情詐騙等黑產(chǎn)帝國犯罪分子通過
Prompt
注入和盜刷
API
等手段攻擊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京市石景山區(qū)2025-2026學(xué)年高三上學(xué)期期末考試物理試卷(含答案)
- 五年級數(shù)學(xué)試卷及答案
- 部編版六年級語文上冊期末測試卷4(附參考答案)
- 廣東省揭陽市普寧市2025-2026學(xué)年七年級上學(xué)期1月期末歷史試題(原卷版+解析版)
- 辯論賽培訓(xùn)教學(xué)
- 電氣故障診斷技術(shù)要領(lǐng)
- 雅安名山太平110kV輸變電工程建設(shè)項(xiàng)目環(huán)境影響報(bào)告表
- 2025 小學(xué)三年級科學(xué)下冊植物葉片脈絡(luò)觀察記錄課件
- 輸血反應(yīng)考試題及答案
- 神經(jīng)科入科考試題及答案
- DB5203∕T 38-2023 特色酒莊旅游服務(wù)等級劃分與評定
- 四川省成都市嘉祥外國語學(xué)校2024-2025學(xué)年七年級數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測試題含解析
- 華為客戶分級管理制度
- 雙向轉(zhuǎn)診職責(zé)與患者體驗(yàn)提升
- 2025年中考道德與法治三輪沖刺:主觀題常用答題術(shù)語速查寶典
- 2025屆北京豐臺區(qū)高三二模高考語文試卷試題(含答案詳解)
- 《四川省普通國省道養(yǎng)護(hù)預(yù)算編制辦法》及配套定額解讀2025
- 論語的測試題及答案
- 《機(jī)械制圖(第五版)》 課件 第9章 裝配圖
- 教師年薪合同協(xié)議
- 旅游情景英語(第二版)Unit 6-1學(xué)習(xí)資料
評論
0/150
提交評論