版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)當(dāng)前,全球人工智能迅速發(fā)展,已經(jīng)成為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略力量,以前所未有的廣度與深度重塑社會(huì)生產(chǎn)生活方式,為高質(zhì)量發(fā)展注入新的動(dòng)能。與此同時(shí),人工智能廣泛應(yīng)用帶來(lái)前所未有的安全挑戰(zhàn),潛藏多重復(fù)雜的威脅風(fēng)險(xiǎn)。世界各國(guó)和地區(qū)組織高度重視人工智能安全,圍繞加強(qiáng)人工智能安全與監(jiān)管,紛紛采取多樣性、差異化的管理措施,競(jìng)爭(zhēng)人工智能發(fā)展和治理主動(dòng)權(quán)。我國(guó)2023年提出《全球人工智能治理倡議》,明確“堅(jiān)持發(fā)展和安全并重的原則,構(gòu)建開(kāi)放、公正、有效的治理機(jī)制”,“推動(dòng)建立風(fēng)險(xiǎn)等級(jí)測(cè)試評(píng)估體系”“打造可審核、可監(jiān)督、可追溯、可信賴的人工智能技術(shù)”;2025年發(fā)布《關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見(jiàn)》,要求“提升安全能力水平”“推動(dòng)人工智能應(yīng)用合規(guī)、透明、可信賴”“建立健全人工智能技術(shù)監(jiān)測(cè)、風(fēng)險(xiǎn)預(yù)警、應(yīng)急響應(yīng)體系”“加快形成動(dòng)態(tài)敏捷、多元協(xié)同的人工智能治理格局。”《人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)(2025年)》白皮書結(jié)合國(guó)內(nèi)人工智能領(lǐng)域戰(zhàn)略規(guī)劃、政策法規(guī)、標(biāo)準(zhǔn)體系等基礎(chǔ),探討人工智能安全風(fēng)險(xiǎn)測(cè)試評(píng)估的實(shí)施路線,推動(dòng)人工智能產(chǎn)業(yè)形成“測(cè)—2—評(píng)—反饋—迭代”安全閉環(huán),促進(jìn)人工智能技術(shù)實(shí)現(xiàn)“安全可控”與“創(chuàng)新發(fā)展”動(dòng)態(tài)平衡,服務(wù)人工智能發(fā)展與監(jiān)管。在內(nèi)容安排方面,白皮書圍繞“為何測(cè)(Why)”的核心目標(biāo),通過(guò)總結(jié)分析梳理,推動(dòng)“安全性、可靠性、可控性、公平性”及“可審核、可監(jiān)督、可追溯、可信賴”等治理要求轉(zhuǎn)化為可落地的人工智能安全風(fēng)險(xiǎn)工作流程;解析人工智能安全風(fēng)險(xiǎn)分析框架,繪制“測(cè)什么(What)”的核心內(nèi)容藍(lán)圖,立足人工智能全生命周期與五大關(guān)鍵維度的全鏈路視角,呈現(xiàn)各環(huán)節(jié)風(fēng)險(xiǎn)定位、攻擊技術(shù)路徑與安全特征,厘清測(cè)評(píng)的全域覆蓋邊界與范疇;構(gòu)建人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系,梳理“怎么測(cè)(How)”的系統(tǒng)性方法體系,依托“目標(biāo)設(shè)定—內(nèi)容實(shí)施—方法技術(shù)—對(duì)象覆蓋—風(fēng)險(xiǎn)度量—持續(xù)優(yōu)化”的反饋控制邏輯,實(shí)現(xiàn)從目標(biāo)設(shè)定、實(shí)施執(zhí)行到風(fēng)險(xiǎn)量化的全流程閉環(huán)管理;制作人工智能安全風(fēng)險(xiǎn)全景圖,細(xì)化“測(cè)哪些(Details)”的支撐,對(duì)具體風(fēng)險(xiǎn)場(chǎng)景、攻擊手段、影響層級(jí)等進(jìn)行精準(zhǔn)拆解與具象化呈現(xiàn),為人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)實(shí)施提供可用的操作指引。在結(jié)構(gòu)安排方面,白皮書共五章。第一章人工智能發(fā)展與安全,概述人工智能當(dāng)前發(fā)展態(tài)勢(shì),梳理國(guó)際人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)相關(guān)方法、技術(shù)、工具與平臺(tái);第二章人工智能安全風(fēng)險(xiǎn),分析人工智能安全風(fēng)險(xiǎn)特征,提出安全風(fēng)險(xiǎn)分析框架,探討人工智能風(fēng)險(xiǎn)演進(jìn)趨勢(shì);第三章人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系,從測(cè)評(píng)目的、內(nèi)容、方法、對(duì)象和度量等方面進(jìn)行論述;第四章人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)關(guān)鍵技術(shù),從不同層面歸納總結(jié)相關(guān)測(cè)評(píng)技術(shù);第五章人工智能安全風(fēng)險(xiǎn)展望,從技術(shù)發(fā)展、標(biāo)準(zhǔn)建設(shè)、挑戰(zhàn)應(yīng)對(duì)等方面,展望未來(lái)。白皮書聚焦以大語(yǔ)言模型(LargeLanguageModel,簡(jiǎn)稱LLM)為核心的人工智能系統(tǒng),主要針對(duì)大語(yǔ)言模型和基于大語(yǔ)言模型的復(fù)合系統(tǒng),力圖貫穿人工智能系統(tǒng)全生命周期,包括系統(tǒng)規(guī)劃與設(shè)計(jì)、數(shù)據(jù)采集與處理、模型訓(xùn)練與構(gòu)建、模型驗(yàn)證與確認(rèn)、平臺(tái)部署與集成、系統(tǒng)運(yùn)行與監(jiān)測(cè)、用戶使用與影響等。希望為政府管理部門、企業(yè)廠商、測(cè)評(píng)機(jī)構(gòu)、科研院所、社會(huì)用戶等各方讀者提供不同角度的參考。白皮書參編單位包括:中國(guó)信息安全測(cè)評(píng)中心、北京奇虎科技有限公司、北京中測(cè)安華科技有限公司、北京智譜華章科技股份有限公司、合肥訊飛數(shù)碼科技有限公司、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科學(xué)院信息工程研究所、智能算法安全全國(guó)重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院計(jì)算技術(shù)研究所)、永信至誠(chéng)科技集團(tuán)股份有限公司、中移九天人工智能科技(北京)有限公司、中電信人工智能科技(北京)有限公司、深信服科技股份有限公司、啟元實(shí)驗(yàn)室、《中國(guó)信息安全》雜志社等。參與指導(dǎo)、編寫、審核等工作的人員有(按姓氏筆畫排序于洋、山世光、王可臻、王笑塵、王夢(mèng)月、尹芷儀、石竑松、葉潤(rùn)國(guó)、馮俊蘭、喬文斌、劉昭、劉彥釗、劉總真、劉洪梅、劉斌、—4—江常青、許敏強(qiáng)、蘇度、杜文越、李學(xué)龍、李珂稷、李賀鑫、李朔寧、李維杰、李寒雨、楊光、楊競(jìng)、吳建英、鄒權(quán)臣、閔越聰、張玉潔、張向征、張杰、張凱、張濤、張蕭丹、張德岳、陳俊、范宇飛、岳遠(yuǎn)哲、趙彥武、胡超群、胡斌、郗冉冉、姚軼嶄、桂暢旎、徐源、桑甲存、梁確偉、彭濤、彭勃、彭勇、董晶、韓學(xué)玉、景少玲、程學(xué)旗、程軍豪、蔡晶晶、熊菲。鑒于人工智能及安全問(wèn)題的復(fù)雜性、動(dòng)態(tài)性、前沿性,白皮書中難免存在諸多不足,望讀者理解包容、提出改進(jìn)意見(jiàn),共同推動(dòng)我國(guó)人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系高質(zhì)量發(fā)展。I 第一章人工智能發(fā)展與安全 1一、發(fā)展態(tài)勢(shì):高速迭代演進(jìn) 1二、安全治理:全球高度重視 4三、風(fēng)險(xiǎn)測(cè)評(píng):重要保障手段 第二章人工智能安全風(fēng)險(xiǎn) 22一、風(fēng)險(xiǎn)特征:多維復(fù)雜 22二、風(fēng)險(xiǎn)框架:全景視圖 24三、風(fēng)險(xiǎn)趨勢(shì):快速演進(jìn) 29第三章人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系 35一、測(cè)評(píng)目的:多維度安全目標(biāo) 二、測(cè)評(píng)內(nèi)容:全領(lǐng)域安全覆蓋 40三、測(cè)評(píng)方法:多元化技術(shù)路徑 四、測(cè)評(píng)對(duì)象:系統(tǒng)全棧分層 五、測(cè)評(píng)度量:風(fēng)險(xiǎn)等級(jí)劃分 第四章人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)關(guān)鍵技術(shù) 67一、輸入層測(cè)試:針對(duì)用戶輸入與外部數(shù)據(jù) 68二、訓(xùn)練層測(cè)試:針對(duì)模型訓(xùn)練過(guò)程 三、模型層測(cè)試:針對(duì)模型本身 四、輸出層測(cè)試:針對(duì)模型輸出與決策 80五、部署層測(cè)試:針對(duì)系統(tǒng)部署與交互 84第五章人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)展望 二、測(cè)評(píng)標(biāo)準(zhǔn):協(xié)同共建 三、應(yīng)對(duì)挑戰(zhàn):?jiǎn)栴}導(dǎo)向 參考文獻(xiàn) 學(xué)術(shù)論文 93 第一章人工智能發(fā)展與安全人工智能是引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù)。人工智能技術(shù)的迅速發(fā)展和深入應(yīng)用,正從多個(gè)方面重塑社會(huì)生產(chǎn)生活,成為世界重要國(guó)家競(jìng)爭(zhēng)的戰(zhàn)略領(lǐng)域。同時(shí),人工智能安全問(wèn)題引發(fā)全球關(guān)注,各國(guó)政府明確從管理和技術(shù)等多個(gè)層面加強(qiáng)人工智能安全治理,提升人工智能安全保障能力和水平。一、發(fā)展態(tài)勢(shì):高速迭代演進(jìn)2022年以來(lái),生成式人工智能技術(shù)迅猛發(fā)展,賦能千行百業(yè),為經(jīng)濟(jì)社會(huì)發(fā)展注入新動(dòng)力。(一)生成式人工智能技術(shù)發(fā)展提速生成式人工智能技術(shù)在模型架構(gòu)、訓(xùn)練方法和多模態(tài)能力等方面取得顯著進(jìn)展,奠定全面賦能經(jīng)濟(jì)社會(huì)發(fā)展的技術(shù)基礎(chǔ)。底層技術(shù)支撐實(shí)現(xiàn)持續(xù)演進(jìn)。算法層面,生成式人工智能的模型架構(gòu)完成從傳統(tǒng)密集架構(gòu)向稀疏專家混合模型的根本性轉(zhuǎn)變,參數(shù)規(guī)模突破萬(wàn)億大關(guān)。DeepSeek-V3.1采用先進(jìn)的混合專家架構(gòu),以560萬(wàn)美元的成本成功訓(xùn)練了包含6850億參數(shù)的巨型模型,有效實(shí)現(xiàn)訓(xùn)練技術(shù)與成本效率的飛速提升。通義千—2—問(wèn)Qwen3-Max模型已突破萬(wàn)億級(jí)參數(shù)規(guī)模,采用先進(jìn)的混合專家架構(gòu),在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出與全球頂尖模型相媲美的性能,標(biāo)志著國(guó)產(chǎn)大模型正式邁入萬(wàn)億參數(shù)時(shí)代。算力層面,全球人工智能基礎(chǔ)設(shè)施競(jìng)爭(zhēng)日趨激烈化,美國(guó)啟動(dòng)“星際之門”、歐盟發(fā)布InvestAI計(jì)劃等“大項(xiàng)目”帶動(dòng)全球人工智能基建進(jìn)程加速。英偉達(dá)憑借CUDA生態(tài)占據(jù)主導(dǎo)地位,華為昇騰、寒武紀(jì)等國(guó)產(chǎn)芯片正通過(guò)架構(gòu)創(chuàng)新逐步縮小差距。多模態(tài)能力與上下文處理突破感知極限。多模態(tài)技術(shù)從簡(jiǎn)單模態(tài)融合向深度語(yǔ)義理解演進(jìn),以GPT、Grok、文心一言、通義千問(wèn)為代表的前沿大模型在多模態(tài)理解、復(fù)雜推理和工具調(diào)用等方面的能力顯著提升。再如,谷歌Gemini系列模型支持文本、圖像、音頻和視頻的聯(lián)合理解,創(chuàng)新的跨模態(tài)注意力機(jī)制能夠捕捉不同模態(tài)間的深層語(yǔ)義關(guān)聯(lián)。推理能力與邏輯思維達(dá)到質(zhì)的飛躍。生成式人工智能的推理能力從模式匹配向邏輯推理演進(jìn),能夠綜合考慮多個(gè)變量和約束條件,快速定位關(guān)鍵信息,進(jìn)行復(fù)雜的定理證明和科學(xué)假設(shè)驗(yàn)證。DeepSeek-R1通過(guò)監(jiān)督微調(diào)學(xué)習(xí)推理格式,使模型掌握數(shù)學(xué)證明的邏輯鏈條,提升推理深度和推斷能力。微軟AutoGen架構(gòu)通過(guò)多智能體協(xié)作架構(gòu),實(shí)現(xiàn)不同專業(yè)特長(zhǎng)的智能體分工合作,取得群體推理能力突破。(二)生成式人工智能產(chǎn)業(yè)創(chuàng)新加快“人工智能+”驅(qū)動(dòng)智能產(chǎn)業(yè)新業(yè)態(tài)新模式的涌現(xiàn),進(jìn)一步豐富產(chǎn)業(yè)內(nèi)涵,拓寬產(chǎn)業(yè)邊界。產(chǎn)業(yè)形態(tài)持續(xù)創(chuàng)新升級(jí)。從單一工具向生態(tài)系統(tǒng)演進(jìn):生成式人工智能深度嵌入基礎(chǔ)軟件,依托系統(tǒng)級(jí)智能體架構(gòu),實(shí)現(xiàn)跨應(yīng)用的任務(wù)執(zhí)行和場(chǎng)景感知,可輔助系統(tǒng)優(yōu)化、需求預(yù)測(cè)等工作,實(shí)現(xiàn)產(chǎn)業(yè)發(fā)展從模型層向應(yīng)用層的全面延伸。產(chǎn)業(yè)投資加速資源整合??萍计髽I(yè)通過(guò)投資聯(lián)動(dòng)人工智能產(chǎn)業(yè)鏈上下游企業(yè)參與,快速推進(jìn)要素整合與資本運(yùn)作,形成產(chǎn)業(yè)鏈協(xié)同體,加速生成式人工智能在各行業(yè)的深度融合與商業(yè)化落地。產(chǎn)業(yè)生態(tài)網(wǎng)絡(luò)化拓展。企業(yè)競(jìng)爭(zhēng)邏輯從“規(guī)模導(dǎo)向”轉(zhuǎn)向“生態(tài)構(gòu)建”。生成式人工智能在處理大規(guī)模傳感器和圖像數(shù)據(jù)方面表現(xiàn)卓越,還能與物聯(lián)網(wǎng)、5G等結(jié)合,推動(dòng)智能經(jīng)濟(jì)加速發(fā)展,提升智慧醫(yī)療、智慧交通、智慧農(nóng)業(yè)、智慧能源等行業(yè)效率和智能化水平。(三)生成式人工智能應(yīng)用范圍拓展生成式人工智能的應(yīng)用場(chǎng)景正從消費(fèi)端向生產(chǎn)端、從通用場(chǎng)景向行業(yè)核心場(chǎng)景縱深滲透。科研效能持續(xù)攀升。目前,“科學(xué)智能”(AIforscience)影響持續(xù)提升,覆蓋多個(gè)領(lǐng)域,加速科學(xué)突破,如,在藥物研發(fā)中縮短篩選周期,精準(zhǔn)解析蛋白質(zhì)結(jié)構(gòu);在物理學(xué)中分析海—4—量數(shù)據(jù)、揭示宇宙奧秘;在氣象學(xué)分析中,優(yōu)化預(yù)測(cè)模型助力應(yīng)對(duì)全球氣候變化挑戰(zhàn)。企業(yè)賦能效應(yīng)凸顯。生成式人工智能重塑傳統(tǒng)企業(yè)工作模式,推動(dòng)項(xiàng)目全流程智能化升級(jí),大幅提升運(yùn)維效率,如,人工智能助力制造企業(yè)優(yōu)化智能制造,通過(guò)預(yù)測(cè)性維護(hù)和柔性生產(chǎn)提升效率;物流領(lǐng)域人工智能持續(xù)優(yōu)化供應(yīng)鏈,降本增效;金融行業(yè)人工智能驅(qū)動(dòng)企業(yè)智能化風(fēng)險(xiǎn)評(píng)估,提升安全和收益。交互方式運(yùn)用日新月異。人工智能深度融入線上瀏覽全流程,從被動(dòng)問(wèn)答交互進(jìn)化為主動(dòng)的任務(wù)完成型服務(wù),如,“開(kāi)放人工智能中心”的ChatGPTAtlas瀏覽器通過(guò)“對(duì)話式瀏覽”“瀏覽器記憶”和“代理模式”三大功能,支持用戶無(wú)需離開(kāi)網(wǎng)頁(yè)即可完成人工智能檢索、頁(yè)面總結(jié)、商品比價(jià)等操作。二、安全治理:全球高度重視當(dāng)前,全球聚焦人工智能安全這一重要課題,呈現(xiàn)差異化治理模式。(一)聯(lián)合國(guó):推動(dòng)包容性治理聯(lián)合國(guó)通過(guò)框架性倡議與原則性文件,為全球人工智能安全治理搭建基礎(chǔ)共識(shí),雖未形成強(qiáng)制性規(guī)則,但已成為各國(guó)政策制定的重要參考。搭建制度框架。在全球人工智能治理中強(qiáng)調(diào)以《聯(lián)合國(guó)憲章》等為基礎(chǔ),形成國(guó)際社會(huì)共遵原則。2024年9月,通過(guò)《全球數(shù)字契約》,明確需要采取平衡、包容和基于風(fēng)險(xiǎn)的方法治理人工智能。2025年8月,決定設(shè)立“人工智能獨(dú)立國(guó)際科學(xué)小組”,并啟動(dòng)“人工智能治理全球?qū)υ挕睓C(jī)制,通過(guò)科學(xué)評(píng)估與多方協(xié)作,加強(qiáng)人工智能治理,縮小全球數(shù)字鴻溝,推動(dòng)實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)。彌合發(fā)展鴻溝。通過(guò)強(qiáng)化伙伴關(guān)系、技術(shù)援助和知識(shí)共享等措施,縮小國(guó)家之間與國(guó)家內(nèi)部的“數(shù)字鴻溝”。2024年3月,通過(guò)《抓住安全、可靠和值得信賴的人工智能系統(tǒng)帶來(lái)的機(jī)遇,促進(jìn)可持續(xù)發(fā)展》決議,成立高級(jí)別顧問(wèn)小組,推動(dòng)共商共建全球人工智能風(fēng)險(xiǎn)監(jiān)測(cè)機(jī)制,覆蓋數(shù)據(jù)安全、算法偏見(jiàn)等核心領(lǐng)域;呼吁發(fā)達(dá)國(guó)家向發(fā)展中國(guó)家轉(zhuǎn)讓安全技術(shù),彌合“智能鴻溝”,確保發(fā)展中國(guó)家公平享有人工智能發(fā)展惠益,實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)。(二)中國(guó):統(tǒng)籌發(fā)展與安全。我國(guó)通過(guò)確立治理原則、完善組織機(jī)構(gòu)、構(gòu)建標(biāo)準(zhǔn)體系等加強(qiáng)頂層設(shè)計(jì),并聚焦生成式人工智能等熱點(diǎn)領(lǐng)域,落實(shí)相關(guān)舉措。完善制度規(guī)范框架。持續(xù)推出人工智能安全管理規(guī)定,提供相應(yīng)風(fēng)險(xiǎn)測(cè)評(píng)操作指南,主要有:2021年發(fā)布《新一代人工智能倫理規(guī)范》,將“安全可控、公平公正、隱私保護(hù)”作為倫理底線,明確禁止利用人工智能從事危害國(guó)家安全、損害社會(huì)公共利益的活動(dòng)。2023年出臺(tái)《生成式人工智能服務(wù)管理暫行辦法》,列出多項(xiàng)保障生成式人工智能安全發(fā)展措施,要求具有輿論屬性或社會(huì)動(dòng)員能力的人工智能服務(wù)需進(jìn)行安全評(píng)估,并履行算法備案,對(duì)生成內(nèi)容進(jìn)行標(biāo)識(shí),發(fā)現(xiàn)違法內(nèi)容及時(shí)處置并整改。2023年提出《全球人工智能治理倡議》,向國(guó)際社會(huì)倡導(dǎo)“建立風(fēng)險(xiǎn)等級(jí)測(cè)試評(píng)估體系”,“實(shí)施敏捷治理與分類分級(jí)管理”“確保人工智能始終處于人類控制之下”,強(qiáng)調(diào)技術(shù)安全與倫理規(guī)范的協(xié)同推進(jìn)。2025年3月發(fā)布《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》,規(guī)范人工智能生成內(nèi)容標(biāo)識(shí),發(fā)揮內(nèi)容標(biāo)識(shí)提醒提示和監(jiān)督溯源的技術(shù)作用,促進(jìn)人工智能健康有序發(fā)展。近期,《中共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十五個(gè)五年規(guī)劃的建議》提出,“建設(shè)開(kāi)放共享安全的全國(guó)一體化數(shù)據(jù)市場(chǎng)”,“加快人工智能等數(shù)智技術(shù)創(chuàng)新,突破基礎(chǔ)理論和核心技術(shù),強(qiáng)化算力、算法、數(shù)據(jù)等高效供給”,“加強(qiáng)網(wǎng)絡(luò)、數(shù)據(jù)、人工智能、生物、生態(tài)、核、太空、深海、極地、低空等新興領(lǐng)域國(guó)家安全能力建設(shè)”,進(jìn)一步明確提高防范化解風(fēng)險(xiǎn)能力、完善監(jiān)管、推動(dòng)技術(shù)創(chuàng)新、促進(jìn)產(chǎn)業(yè)健康發(fā)展等工作。夯實(shí)風(fēng)險(xiǎn)測(cè)評(píng)根基。不斷推進(jìn)風(fēng)險(xiǎn)等級(jí)測(cè)試評(píng)估體系建設(shè),強(qiáng)化數(shù)據(jù)安全、個(gè)人信息保護(hù)、倫理規(guī)范標(biāo)準(zhǔn)體系建設(shè),將“人類控制”“公平性”等倫理要求轉(zhuǎn)化為可量化的技術(shù)指標(biāo),確保治理全面落地,主要有:2024年6月,工信部、中央網(wǎng)信辦、國(guó)家發(fā)展改革委、國(guó)家標(biāo)準(zhǔn)委聯(lián)合印發(fā)《國(guó)家人工智能產(chǎn)業(yè)綜合標(biāo)準(zhǔn)化體系建設(shè)指南(2024版)》明確,我國(guó)到2026年新制定國(guó)家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)50項(xiàng)以上,參與制定國(guó)際標(biāo)準(zhǔn)20項(xiàng)以上,進(jìn)一步強(qiáng)化標(biāo)準(zhǔn)對(duì)產(chǎn)業(yè)創(chuàng)新?tīng)恳饔谩?025年3月,工信部人工智能標(biāo)準(zhǔn)化技術(shù)委員會(huì)審議通過(guò)《人工智能標(biāo)準(zhǔn)化技術(shù)委員會(huì)標(biāo)準(zhǔn)體系(2025年)》,要求加強(qiáng)人工智能安全領(lǐng)域標(biāo)準(zhǔn)化工作系統(tǒng)謀劃,加快構(gòu)建保障人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展和實(shí)現(xiàn)高水平安全的標(biāo)準(zhǔn)體系,并向全社會(huì)發(fā)布《工業(yè)和信息化領(lǐng)域人工智能安全治理標(biāo)準(zhǔn)體系建設(shè)指南(2025征求意見(jiàn)稿)》。未來(lái),我國(guó)人工智能標(biāo)準(zhǔn)體系將持續(xù)完善,強(qiáng)化倫理安全規(guī)范,助力我國(guó)在全球人工智能治理中發(fā)揮更關(guān)鍵的引領(lǐng)作用。2025年7月發(fā)布《人工智能全球治索分類分級(jí)管理,建立人工智能風(fēng)險(xiǎn)測(cè)試評(píng)估體系”的精細(xì)化治理思路,要求及時(shí)開(kāi)展人工智能風(fēng)險(xiǎn)研判,提出針對(duì)性防范應(yīng)對(duì)措施,構(gòu)建具有廣泛共識(shí)的安全治理框架,推進(jìn)威脅信息共享和應(yīng)急處置機(jī)制建設(shè)。2025年8月發(fā)布《國(guó)務(wù)院關(guān)于深入實(shí)施“人工智能+”行動(dòng)的意見(jiàn)》要求推動(dòng)模型算法安全能力建設(shè),強(qiáng)化前瞻評(píng)估與監(jiān)測(cè)處置;同時(shí)要建立健全技術(shù)監(jiān)測(cè)、風(fēng)險(xiǎn)預(yù)警、應(yīng)急響應(yīng)體系,促進(jìn)合規(guī)、透明、可信賴的人工智能應(yīng)用落地。(三)美國(guó):推行“寬松”治理,支持行業(yè)自律美國(guó)人工智能政策靈活,追求創(chuàng)新與安全的動(dòng)態(tài)平衡。重視制度導(dǎo)引。高度關(guān)注人工智能新興風(fēng)險(xiǎn),組建針對(duì)性監(jiān)管機(jī)構(gòu),適時(shí)發(fā)布指南文件指導(dǎo)企業(yè),主要有:2023年出臺(tái)《人工智能風(fēng)險(xiǎn)管理框架(AIRMF1.0)》,以非強(qiáng)制性指南形式,構(gòu)建“安全目標(biāo)與責(zé)任機(jī)制、識(shí)別技術(shù)與倫理風(fēng)險(xiǎn)、實(shí)施技術(shù)加固與流程優(yōu)化、持續(xù)跟蹤風(fēng)險(xiǎn)變化”四階段治理閉環(huán),為企業(yè)提供風(fēng)險(xiǎn)管控全流程工具,強(qiáng)調(diào)“基于場(chǎng)景的風(fēng)險(xiǎn)適配”。2024年制定《前沿人工智能模型治理行動(dòng)計(jì)劃》,針對(duì)千億參數(shù)級(jí)大模型,要求企業(yè)在訓(xùn)練前提交安全評(píng)估報(bào)告,披露對(duì)抗性攻擊測(cè)試結(jié)果,建立模型安全追溯機(jī)制。2025年6月改組成立人工智能標(biāo)準(zhǔn)與創(chuàng)新中心,調(diào)整安全策略。2025年7月發(fā)布《贏得競(jìng)賽:美國(guó)人工智能行動(dòng)計(jì)劃》,將風(fēng)險(xiǎn)管理的焦點(diǎn)收窄到更具技術(shù)性的安全和性能風(fēng)險(xiǎn)上,要求建立、維護(hù)并根據(jù)需要更新與國(guó)家安全相關(guān)的人工智能評(píng)估體系,要求監(jiān)管機(jī)構(gòu)探索將評(píng)估機(jī)制納入現(xiàn)行法律對(duì)人工智能系統(tǒng)的適用框架,通過(guò)協(xié)作建立新型測(cè)量科學(xué),確立可驗(yàn)證、可擴(kuò)展、可互操作的技術(shù)與標(biāo)準(zhǔn)。構(gòu)建生態(tài)體系??萍季揞^落實(shí)人工智能安全理念,布局全球數(shù)據(jù)、能源基礎(chǔ)設(shè)施投資,強(qiáng)化風(fēng)險(xiǎn)應(yīng)對(duì)措施。“開(kāi)放人工智能中心”、谷歌等知名人工智能企業(yè)還簽署自愿承諾,推動(dòng)人工智能技術(shù)安全、可信發(fā)展,并在模型發(fā)布前開(kāi)展“紅隊(duì)測(cè)試”,推動(dòng)人工智能安全應(yīng)用;發(fā)起“前沿模型論壇”,發(fā)布“安全最佳實(shí)踐”,承諾每季度公開(kāi)模型安全測(cè)試報(bào)告,包括對(duì)抗樣本成功率、偏見(jiàn)指數(shù)等核心指標(biāo)。2025年7月,特朗普簽署14320號(hào)行政令《推進(jìn)美國(guó)人工智能技術(shù)堆棧出口》,構(gòu)建美國(guó)主導(dǎo)的人工智能技術(shù)生態(tài),壓縮他國(guó)發(fā)展空間。美國(guó)各聯(lián)邦機(jī)構(gòu)基于職權(quán)范圍,圍繞夯實(shí)基礎(chǔ)設(shè)施安全、提升安全開(kāi)發(fā)能力,通過(guò)發(fā)布戰(zhàn)略文件、指南、路線圖、管理建議和聯(lián)合聲明的方式,強(qiáng)化美國(guó)在人工智能領(lǐng)域的全球影響力。同時(shí),美國(guó)推出“星際之門”項(xiàng)目等戰(zhàn)略布局,主導(dǎo)人工智能治理規(guī)范和技術(shù)標(biāo)準(zhǔn),加強(qiáng)在人工智能領(lǐng)域的安全護(hù)持。(四)歐盟:強(qiáng)調(diào)分級(jí)管理和風(fēng)險(xiǎn)防范,推動(dòng)集中治理歐盟對(duì)生成式人工智能采取集中化的嚴(yán)格治理路線,致力于構(gòu)建一套統(tǒng)一的人工智能安全治理體系,確保所有成員國(guó)在數(shù)據(jù)保護(hù)和隱私安全方面保持高度一致。注重法制建設(shè)。率先開(kāi)展立法嘗試,加速安全監(jiān)管政策落地。2021年,首次進(jìn)行立法工作探索,發(fā)布《歐洲議會(huì)和理事會(huì)關(guān)于制定人工智能統(tǒng)一規(guī)則(人工智能法)立法草案》,為后續(xù)治理框架奠定基礎(chǔ)。2024年通過(guò)《人工智能法案》,成為全球首個(gè)全面監(jiān)管人工智能的法律體系。突出分級(jí)管理。在實(shí)操進(jìn)程中關(guān)注風(fēng)險(xiǎn)分級(jí)監(jiān)管,推動(dòng)開(kāi)展高風(fēng)險(xiǎn)系統(tǒng)事后監(jiān)測(cè)。圍繞人工智能系統(tǒng)的功能、用途等,將人工智能系統(tǒng)分為四個(gè)風(fēng)險(xiǎn)等級(jí):禁止“不可接受風(fēng)險(xiǎn)”人工智能應(yīng)用,如,操縱人類行為、利用弱點(diǎn)預(yù)測(cè)系統(tǒng)、實(shí)時(shí)遠(yuǎn)程生物識(shí)別等;嚴(yán)格監(jiān)管“高風(fēng)險(xiǎn)”人工智能應(yīng)用,如,對(duì)人的健康、安全和基本權(quán)利產(chǎn)生較高威脅的人工智能系統(tǒng);約束“有限風(fēng)險(xiǎn)”人工智能系統(tǒng),主要包括與自認(rèn)存在互動(dòng)的人工智能系統(tǒng);不限定“最小風(fēng)險(xiǎn)”人工智能系統(tǒng),應(yīng)用于簡(jiǎn)單的智能生活輔助領(lǐng)域,如,語(yǔ)音助手、智能推薦等。同時(shí),也針對(duì)不同風(fēng)險(xiǎn)人工智能應(yīng)用全生命周期的監(jiān)管提出具體規(guī)定,要求在人工智能上線后,繼續(xù)加強(qiáng)監(jiān)測(cè),收集、記錄和分析高風(fēng)險(xiǎn)人工智能系統(tǒng)全生命周期的性能數(shù)據(jù)。(五)英國(guó):設(shè)計(jì)柔性監(jiān)管的創(chuàng)新路徑英國(guó)強(qiáng)調(diào)行業(yè)主導(dǎo)原則,強(qiáng)化跨機(jī)構(gòu)協(xié)作和監(jiān)管能力,2023年發(fā)布的《人工智能治理》白皮書采用“比例原則”,不設(shè)立統(tǒng)一立法,而是依托現(xiàn)有法律框架實(shí)施監(jiān)管,強(qiáng)調(diào)“行業(yè)自律+風(fēng)險(xiǎn)適配”,要求高風(fēng)險(xiǎn)人工智能系統(tǒng)發(fā)布“安全聲明”,披露風(fēng)險(xiǎn)評(píng)估結(jié)果。同時(shí),英國(guó)還設(shè)立“人工智能監(jiān)管沙盒”,允許企業(yè)在可控環(huán)境中測(cè)試創(chuàng)新應(yīng)用,同步驗(yàn)證安全機(jī)制。在技術(shù)標(biāo)準(zhǔn)方面,英國(guó)側(cè)重“透明度與問(wèn)責(zé)制”,要求模型開(kāi)發(fā)者記錄訓(xùn)練數(shù)據(jù)來(lái)源、決策邏輯關(guān)鍵節(jié)點(diǎn)。(六)新加坡:規(guī)劃問(wèn)責(zé)導(dǎo)向的實(shí)用主義治理2022年,新加坡提出通過(guò)“過(guò)程檢查+技術(shù)測(cè)試”,從透明度、可解釋性、可復(fù)現(xiàn)性、公平性等維度對(duì)人工智能的性能和安全進(jìn)行測(cè)試評(píng)估。2024年,新加坡發(fā)布《人工智能治理實(shí)踐以非約束性監(jiān)管手段指導(dǎo)人工智能發(fā)展,并制定嚴(yán)格法律法規(guī)明確發(fā)展邊界,聚焦三個(gè)維度:開(kāi)發(fā)者責(zé)任,要求記錄模型訓(xùn)練日志,確??勺匪?用戶知情權(quán),高風(fēng)險(xiǎn)人工智能應(yīng)用需向用戶說(shuō)明“決策依據(jù)、局限性及可能風(fēng)險(xiǎn)”;倫理規(guī)范,要求企業(yè)設(shè)立“人工智能倫理委員會(huì)”,審核安全測(cè)評(píng)報(bào)告,確保技術(shù)標(biāo)準(zhǔn)“可操作性”。三、風(fēng)險(xiǎn)測(cè)評(píng):重要保障手段當(dāng)前,全球主要人工智能大國(guó)已將開(kāi)展安全測(cè)評(píng)作為推動(dòng)人工智能安全治理、提升人工智能安全水平的主要抓手,在積極出臺(tái)方案、規(guī)則同時(shí),還在人工智能安全測(cè)試評(píng)估實(shí)施、落地等方面做了許多工作。國(guó)際測(cè)評(píng)實(shí)踐呈現(xiàn)“技術(shù)專項(xiàng)化、合規(guī)場(chǎng)景化”特征,聚焦特定安全維度或應(yīng)用場(chǎng)景,可分為公共機(jī)構(gòu)測(cè)評(píng)平臺(tái)、廠商測(cè)評(píng)平臺(tái)、紅隊(duì)攻防評(píng)測(cè)工具集等三類。(一)公共機(jī)構(gòu)測(cè)評(píng)平臺(tái)公共機(jī)構(gòu)測(cè)評(píng)平臺(tái)作為測(cè)評(píng)體系的頂層設(shè)計(jì)者與基礎(chǔ)能力提供者,多由國(guó)家監(jiān)管機(jī)構(gòu)與權(quán)威科研實(shí)驗(yàn)室主導(dǎo)建設(shè)。其使命是承擔(dān)國(guó)家層面的頂層規(guī)劃與治理框架落地,建設(shè)具備公信力的基礎(chǔ)性測(cè)評(píng)設(shè)施。這類平臺(tái)通過(guò)開(kāi)展前沿模型預(yù)部署評(píng)估、高風(fēng)險(xiǎn)能力測(cè)試與系統(tǒng)性風(fēng)險(xiǎn)研判,為政府決策、監(jiān)管執(zhí)法及關(guān)鍵行業(yè)應(yīng)用準(zhǔn)入提供權(quán)威技術(shù)支撐與證據(jù)基礎(chǔ)。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)為推動(dòng)《人工智能風(fēng)險(xiǎn)管理框架(AIRMF1.0)》的落地實(shí)施,主導(dǎo)開(kāi)發(fā)Dioptra開(kāi)源測(cè)評(píng)平臺(tái)。該平臺(tái)旨在為人工智能系統(tǒng)的可信特性提供標(biāo)準(zhǔn)化測(cè)試環(huán)境,測(cè)評(píng)維度覆蓋有效性、可靠性、安全性、魯棒性、彈性、可解釋性、公平性及隱私增強(qiáng)等關(guān)鍵指標(biāo)。Dioptra采用基于Python的模塊化插件架構(gòu),通過(guò)靈活的擴(kuò)展機(jī)制支持各類攻擊、防御及評(píng)估方法的持續(xù)集成。平臺(tái)具備實(shí)驗(yàn)可復(fù)現(xiàn)能力,能夠記錄資源快照與實(shí)驗(yàn)配置,為測(cè)試過(guò)程的可追溯性與結(jié)果的可比性提供技術(shù)保障。這一設(shè)計(jì)使其既能滿足當(dāng)前機(jī)器學(xué)習(xí)系統(tǒng)的測(cè)評(píng)需求,又為后續(xù)擴(kuò)展至生成式模型與多模態(tài)系統(tǒng)預(yù)留了充分的架構(gòu)空間。NIST已將Dioptra明確為支撐生成式人工智能風(fēng)險(xiǎn)治理的關(guān)鍵技術(shù)工具。英國(guó)人工智能安全研究所(AISI)主導(dǎo)開(kāi)發(fā)Inspect評(píng)估框架,代表了國(guó)家級(jí)測(cè)評(píng)平臺(tái)建設(shè)的重要技術(shù)路徑。該框架作為AISI開(kāi)展前沿模型預(yù)部署安全評(píng)估的核心軟件基礎(chǔ)設(shè)施,設(shè)計(jì)理念與實(shí)施方法具有參考價(jià)值。Inspect采用“任務(wù)—數(shù)據(jù)集—求解器—評(píng)分器”四元模型架構(gòu),實(shí)現(xiàn)了評(píng)估目標(biāo)、測(cè)試題庫(kù)、模型交互與評(píng)分機(jī)制的解耦設(shè)計(jì)。依托Inspect框架,AISI在多個(gè)前沿方向系統(tǒng)推進(jìn)模型評(píng)估工作:重點(diǎn)開(kāi)展對(duì)模型代理能力與長(zhǎng)時(shí)序任務(wù)能力的測(cè)試;系統(tǒng)評(píng)估模型在網(wǎng)絡(luò)安全、欺騙行為、越權(quán)訪問(wèn)等高危場(chǎng)景中的表現(xiàn);將Inspect擴(kuò)展應(yīng)用于網(wǎng)絡(luò)能力評(píng)估等標(biāo)準(zhǔn)化工作等。3.新加坡Moonshot新加坡信息通信媒體發(fā)展管理局(IMDA)與AIVerifyFoundation共同構(gòu)建了以“可信人工智能”為核心的治理體系,形成包括AIVerify測(cè)試框架、生成式人工智能治理框架及全球人工智能評(píng)估沙箱等系統(tǒng)化實(shí)施方案,于2025年推出ProjectMoonshot,作為全球面向大語(yǔ)言模型的開(kāi)源評(píng)估工具包之一。該項(xiàng)目具有雙重價(jià)值:一方面繼承并發(fā)展了AIVerify與沙箱實(shí)踐中積累的治理理念與評(píng)估方法,確保技術(shù)工具與國(guó)家治理戰(zhàn)略的一致性;另一方面通過(guò)開(kāi)源方式向全球開(kāi)發(fā)者開(kāi)放,有效提升新加坡在國(guó)際人工智能安全測(cè)評(píng)領(lǐng)域的技術(shù)影響力與規(guī)則制定話語(yǔ)權(quán)。該項(xiàng)目創(chuàng)新性地融合了基準(zhǔn)測(cè)試與紅隊(duì)攻防兩種方法,為開(kāi)發(fā)者與測(cè)評(píng)團(tuán)隊(duì)提供了全面評(píng)估大語(yǔ)言模型及其應(yīng)用的綜合解決方案,體現(xiàn)了國(guó)家治理能力向技術(shù)工具轉(zhuǎn)化的成功實(shí)踐。(二)廠商測(cè)評(píng)平臺(tái)廠商測(cè)評(píng)平臺(tái)主要由大型云服務(wù)商、模型提供商與專業(yè)安全企業(yè)共同構(gòu)建,將復(fù)雜的安全測(cè)評(píng)要求轉(zhuǎn)化為可集成、可運(yùn)營(yíng)的平臺(tái)服務(wù),通過(guò)API接口、標(biāo)準(zhǔn)化工具鏈與自動(dòng)化工作流等形式,將安全能力深度嵌入模型開(kāi)發(fā)、部署、運(yùn)維的全生命周期。廠商測(cè)評(píng)平臺(tái)實(shí)現(xiàn)安全測(cè)評(píng)要求的工程化封裝與規(guī)?;涞?,使千行百業(yè)能夠以較低門檻獲得專業(yè)級(jí)的安全保障,是治理要求向產(chǎn)業(yè)實(shí)踐轉(zhuǎn)化的重要環(huán)節(jié)。1.MicrosoftAzureAI安全微軟AzureAIFoundry構(gòu)建完整的生成式人工智能安全測(cè)評(píng)手段,核心組件包括風(fēng)險(xiǎn)與安全評(píng)估器(Risk&SafetyEvaluators)以及人工智能紅隊(duì)代理(AIRedTeamingAgent形成了從基礎(chǔ)檢測(cè)到主動(dòng)攻防的多層次測(cè)評(píng)能力。風(fēng)險(xiǎn)與安全評(píng)估器可識(shí)別四種不同類型的有害內(nèi)容:仇恨與不公平內(nèi)容、性相關(guān)內(nèi)容、暴力內(nèi)容、自殘內(nèi)容,提供自動(dòng)化的檢測(cè)與量化分析能力。紅隊(duì)代理實(shí)現(xiàn)標(biāo)準(zhǔn)化的紅隊(duì)測(cè)試流程,采用“掃描—評(píng)估—報(bào)告”三階段工作模式。該體系通過(guò)將風(fēng)險(xiǎn)與安全評(píng)估器及紅隊(duì)代理嵌入模型開(kāi)發(fā)、部署、監(jiān)測(cè)的全生命周期,構(gòu)建“設(shè)計(jì)—評(píng)估—掃描—整改—再評(píng)估”持續(xù)治理閉環(huán)。2.GoogleCloudVertexAIGoogleCloudVertexAI平臺(tái)構(gòu)建了比較完整的生成式人工智能安全評(píng)估與治理手段,通過(guò)基礎(chǔ)安全防護(hù)與先進(jìn)評(píng)估服務(wù)的深度集成,提供全生命周期的風(fēng)險(xiǎn)管理能力。該平臺(tái)集成了統(tǒng)一的內(nèi)容安全過(guò)濾與多維度風(fēng)險(xiǎn)檢測(cè)機(jī)制,支持根據(jù)行業(yè)監(jiān)管要求與自身風(fēng)險(xiǎn)容忍度進(jìn)行細(xì)粒度策略配置。人工智能評(píng)估服務(wù)提供自適應(yīng)評(píng)估規(guī)則機(jī)制,支持基于傳統(tǒng)指標(biāo)的量化評(píng)估、基于專家知識(shí)的人工標(biāo)注評(píng)估,以及大模型即評(píng)判者的智能評(píng)估。該平臺(tái)通過(guò)評(píng)估與防護(hù)的深度聯(lián)動(dòng)構(gòu)建了完整的治理閉環(huán)。開(kāi)發(fā)階段,通過(guò)評(píng)估服務(wù)的迭代測(cè)試優(yōu)化提示工程與模型配置;部署階段,依托安全層的策略引擎實(shí)施運(yùn)行時(shí)的精準(zhǔn)控制;運(yùn)維階段,基于持續(xù)的監(jiān)測(cè)數(shù)據(jù)與評(píng)估結(jié)果動(dòng)態(tài)調(diào)整防護(hù)策略。這種“評(píng)估→策略→運(yùn)行→監(jiān)測(cè)→再評(píng)估”的循環(huán)機(jī)制,將測(cè)試驅(qū)動(dòng)開(kāi)發(fā)的理念成功應(yīng)用于人工智能治理實(shí)踐,確保了安全措施與業(yè)務(wù)需求的持續(xù)對(duì)齊。3.AmazonBedrockAmazonBedrock構(gòu)建了面向應(yīng)用的生成式人工智能評(píng)估體系,其核心在于通過(guò)分層評(píng)估架構(gòu)實(shí)現(xiàn)對(duì)模型基礎(chǔ)能力與業(yè)務(wù)場(chǎng)景表現(xiàn)的綜合測(cè)評(píng)。平臺(tái)提供的模型評(píng)估功能支持企業(yè)對(duì)比不同模型配置下的輸出質(zhì)量與安全表現(xiàn)。該功能創(chuàng)新性的采用“大模型即評(píng)判者”(LLM-as-a-Judge)評(píng)估方法,通過(guò)使用經(jīng)過(guò)優(yōu)化的裁判模型對(duì)生成結(jié)果進(jìn)行自動(dòng)化評(píng)分,在顯著降低評(píng)估成本的同時(shí),能夠獲得接近人工評(píng)價(jià)質(zhì)量的大規(guī)模評(píng)估數(shù)據(jù),為模型選型與優(yōu)化提供充分依據(jù)。針對(duì)業(yè)界廣泛采用的檢索增強(qiáng)生成技術(shù)方案,Bedrock提供了專門的RAG評(píng)估能力。該能力通過(guò)自動(dòng)化測(cè)試流程,系統(tǒng)比較不同檢索配置、索引策略及提示詞設(shè)計(jì)對(duì)最終回答質(zhì)量的綜合影響,實(shí)現(xiàn)從單純?cè)u(píng)估“模型本身性能”向評(píng)估“模型在具體業(yè)務(wù)環(huán)境中的綜合表現(xiàn)”的重要轉(zhuǎn)變。這一設(shè)計(jì)使得企業(yè)能夠在模擬真實(shí)業(yè)務(wù)場(chǎng)景的條件下,定位影響應(yīng)用效果的因素。Bedrock評(píng)估體系的突出價(jià)值在于其高度的工程化與實(shí)用性。通過(guò)將先進(jìn)的評(píng)估方法轉(zhuǎn)化為可配置、可擴(kuò)展的平臺(tái)服務(wù),既保障了測(cè)評(píng)工作的專業(yè)性與系統(tǒng)性,又大幅降低了企業(yè)實(shí)施AI安全測(cè)評(píng)的技術(shù)門檻。(三)紅隊(duì)攻防評(píng)測(cè)工具集紅隊(duì)攻防評(píng)測(cè)工具集以開(kāi)源社區(qū)、科研機(jī)構(gòu)與企業(yè)研發(fā)團(tuán)隊(duì)為主體,是測(cè)評(píng)體系諸多技術(shù)基礎(chǔ)與創(chuàng)新源頭中的一個(gè)。通過(guò)持續(xù)研發(fā)并開(kāi)源最新的測(cè)試工具、攻擊套件與評(píng)估框架,為整個(gè)測(cè)評(píng)體系注入持續(xù)演進(jìn)的技術(shù)活力。其價(jià)值在于保持測(cè)評(píng)體系對(duì)新型威脅的敏捷響應(yīng)能力,通過(guò)快速迭代的攻擊防御技術(shù)研究,確保測(cè)評(píng)方法始終與前沿風(fēng)險(xiǎn)同步發(fā)展。1.PyRIT:生成式人工智能紅隊(duì)基座型框架PyRIT(PythonRiskIdentificationToolforgenerativeAI)是微軟推出的開(kāi)源生成式人工智能紅隊(duì)自動(dòng)化框架,已在微軟人工智能紅色團(tuán)隊(duì)內(nèi)部的多輪測(cè)試中得到充分驗(yàn)證,是當(dāng)前國(guó)際范圍內(nèi)具有代表性的基準(zhǔn)性紅隊(duì)工具。PyRIT提出了一套具有普適性的目標(biāo)抽象模式,以“目標(biāo)接口—風(fēng)險(xiǎn)類別—攻擊變換—自動(dòng)評(píng)估—編排執(zhí)行”構(gòu)建了完整的紅隊(duì)工作流。該體系為生成式人工智能安全評(píng)估提供了系統(tǒng)化的方法論支撐,奠定了行業(yè)實(shí)踐的基礎(chǔ)范式。該框架將風(fēng)險(xiǎn)識(shí)別過(guò)程解構(gòu)為種子場(chǎng)景、對(duì)抗變換與輸出評(píng)估等可組合組件,支持根據(jù)具體風(fēng)險(xiǎn)偏好進(jìn)行定制化配置。該設(shè)計(jì)實(shí)現(xiàn)了對(duì)多家云廠商模型及本地部署模型的廣泛兼容,保證了框架在不同環(huán)境下的適用性與擴(kuò)展性。PyRIT已被深度集成至AzureAI生態(tài)系統(tǒng),作為AzureAIEvaluationSDK的核心紅隊(duì)能力來(lái)源,并成為AzureAIRedTeamingAgent的底層技術(shù)引擎。這一集成模式展示了國(guó)際主流云服務(wù)商如何通過(guò)開(kāi)源框架構(gòu)建技術(shù)基準(zhǔn),進(jìn)而實(shí)現(xiàn)紅隊(duì)能力的平臺(tái)化與產(chǎn)品化,形成從工具到服務(wù)的一體化安全解決方案。2.Garak:面向大語(yǔ)言模型的結(jié)構(gòu)化漏洞掃描工具Garak是由NVIDIA等機(jī)構(gòu)共同推動(dòng)開(kāi)發(fā)的生成式人工智能紅隊(duì)與評(píng)估工具包,定位為大語(yǔ)言模型結(jié)構(gòu)化漏洞掃描器。該框架通過(guò)系統(tǒng)化的探測(cè)機(jī)制,致力于識(shí)別模型在內(nèi)容幻覺(jué)、訓(xùn)練數(shù)據(jù)泄露、提示注入攻擊、有害內(nèi)容生成及越獄漏洞等關(guān)鍵維度的潛在安全風(fēng)險(xiǎn)。NVIDIA將Garak類比為傳統(tǒng)網(wǎng)絡(luò)安全領(lǐng)域的滲透測(cè)試與端口掃描工具,強(qiáng)調(diào)其在大規(guī)模、可復(fù)現(xiàn)的大語(yǔ)言模型安全評(píng)估中的基礎(chǔ)性作用。該工具將安全測(cè)試從零散案例驗(yàn)證提升為體系化的掃描流程,為大語(yǔ)言模型安全基線的建立提供了標(biāo)準(zhǔn)化方法支撐。在框架設(shè)計(jì)層面,Garak將測(cè)試過(guò)程拆解為針對(duì)不同弱點(diǎn)的獨(dú)立“探針”與檢測(cè)組件,通過(guò)配置化方式支持新型攻擊向量與檢測(cè)規(guī)則的靈活擴(kuò)展。這種模塊化架構(gòu)既保證了核心評(píng)估流程的穩(wěn)定性,又為應(yīng)對(duì)快速演進(jìn)的安全威脅預(yù)留了充分的適應(yīng)性。在結(jié)果呈現(xiàn)方面,Garak提供結(jié)構(gòu)化的評(píng)估報(bào)告與量化的安全指標(biāo),為不同模型及版本間的安全性能對(duì)標(biāo)提供了客觀、可比較的數(shù)據(jù)依據(jù),有力支撐了模型安全水平的持續(xù)跟蹤與改進(jìn)。從技術(shù)演進(jìn)視角看,Garak代表了以漏洞掃描為核心、側(cè)重于基礎(chǔ)設(shè)施層的安全工具發(fā)展路線,為構(gòu)建統(tǒng)一的安全基準(zhǔn)及跨模型評(píng)估體系提供了重要的技術(shù)基礎(chǔ)。3.DeepTeam:面向大語(yǔ)言模型系統(tǒng)的場(chǎng)景化紅隊(duì)框架DeepTeam是由ConfidentAI推出的開(kāi)源大語(yǔ)言模型紅隊(duì)框架,專注于為檢索增強(qiáng)生成系統(tǒng)、智能體、聊天機(jī)器人及基礎(chǔ)模型等多類大語(yǔ)言模型應(yīng)用,提供系統(tǒng)化的安全性與脆弱性評(píng)估能力??蚣軜?gòu)建以“漏洞類型—攻擊方法—目標(biāo)系統(tǒng)—度量指標(biāo)”為支柱的紅隊(duì)概念體系?;诖梭w系,DeepTeam預(yù)置了覆蓋偏見(jiàn)歧視、個(gè)人身份信息泄露、錯(cuò)誤信息傳播、有害內(nèi)容生成等40余類常見(jiàn)漏洞的檢測(cè)能力,并集成越獄攻擊、提示注入、灰盒測(cè)試等多種先進(jìn)攻擊技術(shù),使用戶能夠以最小化的代碼開(kāi)發(fā)成本,對(duì)復(fù)雜應(yīng)用系統(tǒng)開(kāi)展標(biāo)準(zhǔn)化紅隊(duì)測(cè)試。DeepTeam與DeepEval評(píng)測(cè)引擎及ConfidentAI云平臺(tái)形成深度集成生態(tài),其評(píng)估標(biāo)準(zhǔn)可與OWASPLLMTop10、NIST人工智能風(fēng)險(xiǎn)管理框架等國(guó)際權(quán)威標(biāo)準(zhǔn)實(shí)現(xiàn)對(duì)齊。通過(guò)SaaS平臺(tái),該框架進(jìn)一步提供持續(xù)監(jiān)測(cè)、風(fēng)險(xiǎn)評(píng)估與團(tuán)隊(duì)協(xié)作等功能。4.Promptfoo:集成開(kāi)發(fā)運(yùn)營(yíng)流程的紅隊(duì)與評(píng)估框架Promptfoo是一套面向開(kāi)發(fā)運(yùn)營(yíng)流程的紅隊(duì)與評(píng)估一體化框架。該工具最初定位于提示工程的質(zhì)量評(píng)估與多模型比對(duì),隨著行業(yè)安全需求的深化,已演進(jìn)為集提示測(cè)試、智能體與檢索增強(qiáng)生成評(píng)估、紅隊(duì)測(cè)試與漏洞掃描,以及持續(xù)集成/持續(xù)交付流程自動(dòng)化檢查于一體的綜合性安全解決方案。在紅隊(duì)測(cè)評(píng)層面,Promptfoo提供了系統(tǒng)化的大語(yǔ)言模型紅隊(duì)指南,支持通過(guò)命令行接口生成標(biāo)準(zhǔn)化紅隊(duì)報(bào)告,并可執(zhí)行自動(dòng)化安全掃描,實(shí)現(xiàn)在系統(tǒng)部署前對(duì)提示注入等安全漏洞的—20—主動(dòng)發(fā)現(xiàn)與評(píng)估。該框架通過(guò)模塊化架構(gòu)將各類風(fēng)險(xiǎn)場(chǎng)景抽象為可組合的攻擊策略與檢測(cè)插件,支持對(duì)品牌濫用、合規(guī)性問(wèn)題、數(shù)據(jù)安全泄露、訪問(wèn)控制失效等多個(gè)安全維度進(jìn)行系統(tǒng)性驗(yàn)證,其風(fēng)險(xiǎn)覆蓋范圍與OWASPLLMTop10等行業(yè)權(quán)威標(biāo)準(zhǔn)形成了有效映射。5.ViolentUTF:集成化紅隊(duì)測(cè)評(píng)平臺(tái)ViolentUTF是一款面向生成式人工智能的集成化紅隊(duì)測(cè)評(píng)平臺(tái)。該平臺(tái)旨在系統(tǒng)化應(yīng)對(duì)當(dāng)前紅隊(duì)實(shí)踐中存在的技術(shù)門檻高、流程協(xié)同復(fù)雜及標(biāo)準(zhǔn)化報(bào)告缺失等挑戰(zhàn),通過(guò)提供統(tǒng)一的框架與交互界面,有效降低操作難度、整合異構(gòu)工具鏈,并強(qiáng)化測(cè)評(píng)結(jié)果的生成與呈現(xiàn)能力。平臺(tái)設(shè)計(jì)支持安全工程師、業(yè)務(wù)領(lǐng)域?qū)<?、倫理與合規(guī)人員等不同角色共同參與紅隊(duì)活動(dòng),促進(jìn)了跨領(lǐng)域知識(shí)在安全測(cè)評(píng)中的融合與應(yīng)用。在技術(shù)集成層面,平臺(tái)不重復(fù)開(kāi)發(fā)底層攻擊模塊,而是對(duì)“生成器、提示模板、轉(zhuǎn)換器、評(píng)估器、編排器、記憶模塊”等核心概念進(jìn)行標(biāo)準(zhǔn)化抽象,系統(tǒng)性地整合了MicrosoftPyRIT、NVIDIAGarak等主流開(kāi)源工具及自研評(píng)估模塊,從而在一個(gè)統(tǒng)一環(huán)境中組織并執(zhí)行復(fù)雜的多步驟紅隊(duì)流程。在傳統(tǒng)技術(shù)安全評(píng)估基礎(chǔ)上,平臺(tái)通過(guò)自研的Ollabench模塊引入了“人本安全評(píng)估”,重點(diǎn)考察大語(yǔ)言模型在網(wǎng)絡(luò)安全與行為心理等交叉場(chǎng)景中的風(fēng)險(xiǎn)推理與應(yīng)對(duì)能力。此舉推動(dòng)紅隊(duì)評(píng)—21—估范式從單純的“技術(shù)攻防穩(wěn)健性”向“復(fù)雜人機(jī)系統(tǒng)社會(huì)風(fēng)險(xiǎn)治理能力”拓展。在工程架構(gòu)上,平臺(tái)采用展示層、認(rèn)證授權(quán)層、統(tǒng)一API層及日志與可觀測(cè)性層的明確分層設(shè)計(jì),形成了具備實(shí)際部署與應(yīng)用能力的安全與運(yùn)維體系,滿足了政企客戶對(duì)穩(wěn)定性與安全性的高標(biāo)準(zhǔn)要求。該平臺(tái)已應(yīng)用于評(píng)估某美國(guó)政府部門旗艦級(jí)大語(yǔ)言模型應(yīng)用的穩(wěn)健性,并在模型于交叉任務(wù)中的跨域推理能力評(píng)估方面取得了實(shí)證結(jié)果,顯示出其在政務(wù)及關(guān)鍵基礎(chǔ)設(shè)施等高價(jià)值場(chǎng)景中的潛在應(yīng)用價(jià)值。從國(guó)內(nèi)外人工智能安全測(cè)評(píng)實(shí)踐看,當(dāng)前亟需構(gòu)建一套“全棧覆蓋、多維度融合、標(biāo)準(zhǔn)統(tǒng)一”的人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)框架,整合技術(shù)安全、倫理合規(guī)、系統(tǒng)可控等多維度需求,覆蓋人工智能系統(tǒng)設(shè)計(jì)、訓(xùn)練、部署、運(yùn)行全生命周期,為產(chǎn)業(yè)提供統(tǒng)一、高效、權(quán)威的測(cè)評(píng)指引,應(yīng)對(duì)現(xiàn)有測(cè)評(píng)對(duì)象復(fù)雜性、測(cè)評(píng)工具局限性、測(cè)評(píng)方法不完備性、測(cè)評(píng)標(biāo)準(zhǔn)多樣性的挑戰(zhàn)?!?2—第二章人工智能安全風(fēng)險(xiǎn)人工智能安全存在兩個(gè)根本性轉(zhuǎn)變:安全對(duì)抗模式從攻防確定性系統(tǒng)轉(zhuǎn)向與概率性系統(tǒng)博弈。生成式人工智能內(nèi)在的隨機(jī)性和不可預(yù)測(cè)的涌現(xiàn)性,是人工智能功能創(chuàng)新的來(lái)源,也構(gòu)成新型安全風(fēng)險(xiǎn)源,如,大模型的幻覺(jué)、偏見(jiàn)或非預(yù)期的“越獄行為”等本質(zhì)上是不確定性的“副產(chǎn)品”,并非傳統(tǒng)意義上的缺陷(bug)。這一特性使得傳統(tǒng)的基于代碼審計(jì)、漏洞掃描等技術(shù)手段的安全模式面臨失效。安全對(duì)抗界面從技術(shù)接口轉(zhuǎn)向人類認(rèn)知接口。針對(duì)生成式人工智能系統(tǒng),攻擊者可以利用模型在語(yǔ)言理解、邏輯推理和價(jià)值判斷層面的規(guī)律,通過(guò)語(yǔ)言陷阱、心理操縱、語(yǔ)義模糊等途徑實(shí)施攻擊。這標(biāo)志著攻擊面已拓展至與人類認(rèn)知深度耦合的全新維度,要求安全防御體系必須具備相應(yīng)的認(rèn)知活動(dòng)分析與檢測(cè)能力。唯有構(gòu)建新的安全風(fēng)險(xiǎn)分析框架,才能全面認(rèn)識(shí)人工智能安全風(fēng)險(xiǎn),支撐人工智能安全風(fēng)險(xiǎn)測(cè)試評(píng)估工作。一、風(fēng)險(xiǎn)特征:多維復(fù)雜當(dāng)前,人工智能風(fēng)險(xiǎn)與挑戰(zhàn)逐漸浮出水面,如,人工智能在生成虛假內(nèi)容、偽造視頻和音頻方面的能力,使虛假信息的—23—傳播變得更加隱蔽且難以辨別,尤其在法律、政治和社會(huì)輿論領(lǐng)域,人工智能偽造新聞、法條甚至政治人物講話,引發(fā)各國(guó)政府和全球社會(huì)廣泛關(guān)注;人工智能在處理個(gè)人數(shù)據(jù)時(shí)存在濫用風(fēng)險(xiǎn),尤其在缺乏有效監(jiān)管的情況下,用戶隱私可能會(huì)受到侵犯,帶來(lái)嚴(yán)重安全隱患;人工智能的普及沖擊就業(yè)市場(chǎng),傳統(tǒng)行業(yè)的就業(yè)崗位可能減少甚至導(dǎo)致大量失業(yè),不僅對(duì)個(gè)體構(gòu)成挑戰(zhàn),也對(duì)社會(huì)公平性和可持續(xù)發(fā)展帶來(lái)了壓力等。整體上,生成式人工智能安全風(fēng)險(xiǎn)已呈現(xiàn)三個(gè)顯著特點(diǎn):動(dòng)態(tài)性:未知漏洞與行為的不可預(yù)測(cè)性。由于大型模型復(fù)雜的內(nèi)部結(jié)構(gòu)和其能力的“涌現(xiàn)性”,使得完全預(yù)測(cè)模型在所有可能情境下的行為已近乎不可能。同時(shí),新的漏洞和非預(yù)期行為還會(huì)隨著模型規(guī)模的擴(kuò)大、架構(gòu)的演進(jìn)及應(yīng)用場(chǎng)景的變化持續(xù)出現(xiàn)。這意味著人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)絕不能是一次性的、靜態(tài)的審計(jì),而必須是一個(gè)持續(xù)的、適應(yīng)性的發(fā)現(xiàn)與緩解過(guò)程。安全團(tuán)隊(duì)必須接受“未知漏洞”是該技術(shù)固有屬性的現(xiàn)實(shí),并將安全工作從一個(gè)追求“絕對(duì)安全”的終點(diǎn)狀態(tài),轉(zhuǎn)變?yōu)楣芾怼翱山邮茱L(fēng)險(xiǎn)”的動(dòng)態(tài)過(guò)程。對(duì)抗性:自動(dòng)化攻防與“軍備競(jìng)賽”。人工智能安全的攻防對(duì)抗會(huì)發(fā)展為自動(dòng)化、持續(xù)性模式。隨著防御方日益依賴人工智能實(shí)時(shí)檢測(cè)和攔截攻擊,攻擊方也必將利用人工智能生成和演化新型的、更具欺騙性和規(guī)避性的攻擊向量,而機(jī)器時(shí)間內(nèi)的攻防博弈將對(duì)人類的監(jiān)督、干預(yù)和戰(zhàn)略控制能力構(gòu)成前所—24—未有的挑戰(zhàn)。為追求發(fā)展而創(chuàng)造的工具,最終可能成為一種全新且更危險(xiǎn)的風(fēng)險(xiǎn)源頭,要求在發(fā)展自動(dòng)化防御能力的同時(shí),必須對(duì)人工智能的自主對(duì)抗性保持最高級(jí)別的審慎和警惕。系統(tǒng)性:影響的廣度與傳導(dǎo)效應(yīng)。生成式人工智能風(fēng)險(xiǎn)具有顯著的系統(tǒng)性特征。由于全球的人工智能開(kāi)發(fā)高度依賴于少數(shù)幾個(gè)基礎(chǔ)模型(如GPT系列、Llama系列)和開(kāi)源框架(如PyTorch核心組件中的任何一個(gè)漏洞都可能通過(guò)龐大的軟件供應(yīng)鏈,迅速傳導(dǎo)至全球數(shù)以百萬(wàn)計(jì)的下游應(yīng)用中,形成“單點(diǎn)故障,全域崩潰”局面,如,PyTorch存在的遠(yuǎn)程代碼執(zhí)行漏洞(CVE-2025-32434允許加載模型時(shí)執(zhí)行任何代碼。這種技術(shù)棧的高度集中,使得人工智能生態(tài)系統(tǒng)在面對(duì)底層漏洞時(shí)異常脆弱,需要從更高層面管理系統(tǒng)性風(fēng)險(xiǎn)。二、風(fēng)險(xiǎn)框架:全景視圖“人工智能安全風(fēng)險(xiǎn)框架”是一套全景式、全鏈路的人工智能安全風(fēng)險(xiǎn)分析體系,旨在從全局視角識(shí)別人工智能系統(tǒng)全生命周期的安全風(fēng)險(xiǎn):橫向貫穿“系統(tǒng)規(guī)劃與設(shè)計(jì)、數(shù)據(jù)收集與處理、模型訓(xùn)練與構(gòu)建、模型驗(yàn)證與確認(rèn)、平臺(tái)部署與集成、系統(tǒng)運(yùn)行與監(jiān)測(cè)、用戶使用與影響”七個(gè)生命周期階段,對(duì)應(yīng)覆蓋“應(yīng)用環(huán)境、數(shù)據(jù)和輸入、人工智能模型、任務(wù)和輸出、人類社會(huì)”五大關(guān)鍵維度,實(shí)現(xiàn)人工智能從需求設(shè)計(jì)到社會(huì)影響的全場(chǎng)景覆蓋;縱向通過(guò)“風(fēng)險(xiǎn)定位—攻擊分析—目標(biāo)對(duì)標(biāo)”—25—三層邏輯閉環(huán),在攻防視角下力圖解構(gòu)各環(huán)節(jié)的安全短板、攻擊技術(shù)路徑與可信特征防護(hù)目標(biāo),為人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)提供全域風(fēng)險(xiǎn)映射與治理落地的核心錨點(diǎn)。“人工智能安全風(fēng)險(xiǎn)分析框架”通過(guò)全生命周期與安全風(fēng)險(xiǎn)的交叉耦合,將人工智能安全風(fēng)險(xiǎn)、攻擊手段與可信特征深度關(guān)聯(lián),既明確“風(fēng)險(xiǎn)在何時(shí)(階段)、何地(維度)發(fā)生”的時(shí)間—空間坐標(biāo),又系統(tǒng)回答“攻擊方如何利用風(fēng)險(xiǎn)”“防御方需錨定哪些安全特征目標(biāo)開(kāi)展防護(hù)”的攻防邏輯,最終成為一套貫穿技術(shù)層、業(yè)務(wù)層、社會(huì)層,銜接攻防對(duì)抗與治理落地的人工智能安全風(fēng)險(xiǎn)分析工具。(一)階段一:系統(tǒng)規(guī)劃與設(shè)計(jì)關(guān)鍵維度:應(yīng)用環(huán)境風(fēng)險(xiǎn)定位:核心風(fēng)險(xiǎn)集中于安全需求缺失與架構(gòu)缺陷,導(dǎo)致人工智能系統(tǒng)從源頭埋下“先天性”安全隱患,如,隱私合規(guī)要求未納入設(shè)計(jì)、安全防護(hù)與業(yè)務(wù)目標(biāo)脫節(jié)、供應(yīng)鏈引入第三方風(fēng)險(xiǎn)未識(shí)別等。攻擊技術(shù):主要面臨需求劫持(通過(guò)誤導(dǎo)業(yè)務(wù)需求定義規(guī)避安全設(shè)計(jì))、供應(yīng)鏈攻擊(第三方工具/預(yù)制模型植入后門)、架構(gòu)誤導(dǎo)(誘導(dǎo)設(shè)計(jì)存在權(quán)限隔離漏洞的系統(tǒng)架構(gòu))等攻擊。目標(biāo)對(duì)齊:需對(duì)標(biāo)“透明度”(確保設(shè)計(jì)文檔完整披露安全風(fēng)險(xiǎn)點(diǎn))與“問(wèn)責(zé)性”(明確設(shè)計(jì)階段的安全責(zé)任主體),—26—為全生命周期安全奠定基礎(chǔ)。(二)階段二:數(shù)據(jù)采集與處理關(guān)鍵維度:數(shù)據(jù)與系統(tǒng)輸入風(fēng)險(xiǎn)定位:風(fēng)險(xiǎn)聚焦于數(shù)據(jù)全鏈路安全,包括數(shù)據(jù)源合法性不足(如未經(jīng)授權(quán)采集個(gè)人信息)、數(shù)據(jù)處理過(guò)程中隱私泄露(如脫敏失效)、訓(xùn)練數(shù)據(jù)被篡改(如影響模型輸出準(zhǔn)確性)等,是人工智能系統(tǒng)“數(shù)據(jù)污染”的主要源頭。攻擊技術(shù):典型攻擊手段包括數(shù)據(jù)投毒(注入異常數(shù)據(jù)扭曲模型訓(xùn)練方向)、隱私竊?。ㄍㄟ^(guò)數(shù)據(jù)接口爬取未脫敏敏感信息)、數(shù)據(jù)溯源繞過(guò)(刪除數(shù)據(jù)采集記錄逃避合規(guī)審查)等。目標(biāo)對(duì)齊:需錨定“隱私保護(hù)”(確保數(shù)據(jù)采集/處理符合法規(guī))與“安全性”(保障數(shù)據(jù)完整性與訪問(wèn)可控性筑牢人工智能系統(tǒng)的“數(shù)據(jù)根基”。(三)階段三:模型訓(xùn)練與構(gòu)建關(guān)鍵維度:人工智能模型風(fēng)險(xiǎn)定位:核心風(fēng)險(xiǎn)為模型魯棒性不足與惡意邏輯植入,如,訓(xùn)練過(guò)程中模型對(duì)對(duì)抗樣本敏感(推理易被操控)、后門程序被注入(特定輸入觸發(fā)錯(cuò)誤輸出)、模型過(guò)度擬合導(dǎo)致泛化能力弱(極端場(chǎng)景失效)等。攻擊技術(shù):主要面臨對(duì)抗樣本訓(xùn)練(通過(guò)定向輸入強(qiáng)化模型偏見(jiàn))、后門植入(在模型參數(shù)中嵌入惡意觸發(fā)邏輯)、訓(xùn)—27—練數(shù)據(jù)投毒進(jìn)階(針對(duì)性污染關(guān)鍵特征數(shù)據(jù))等攻擊。目標(biāo)對(duì)齊:需對(duì)標(biāo)“可靠性”(確保模型在多樣場(chǎng)景下輸出穩(wěn)定)與“安全性”(抵御惡意輸入對(duì)模型的操控強(qiáng)化模型本身的“抗攻擊基因”。(四)階段四:模型驗(yàn)證與確認(rèn)關(guān)鍵維度:人工智能模型風(fēng)險(xiǎn)定位:風(fēng)險(xiǎn)集中于驗(yàn)證流程形式化與缺陷漏檢,如驗(yàn)證數(shù)據(jù)集缺乏代表性(無(wú)法覆蓋真實(shí)攻擊場(chǎng)景)、模型解釋性不足導(dǎo)致潛在偏見(jiàn)未識(shí)別、合規(guī)驗(yàn)證報(bào)告造假(隱瞞模型安全短板)等。攻擊技術(shù):典型攻擊包括規(guī)避攻擊(構(gòu)造特殊輸入繞過(guò)驗(yàn)證閾值)、虛假驗(yàn)證(偽造模型性能指標(biāo)與合規(guī)證明)、解釋性操縱(通過(guò)表面邏輯掩蓋模型深層風(fēng)險(xiǎn))等。目標(biāo)對(duì)齊:需關(guān)聯(lián)“可解釋性”(清晰呈現(xiàn)模型決策邏輯以支撐風(fēng)險(xiǎn)排查)與“問(wèn)責(zé)性”(確保驗(yàn)證方對(duì)結(jié)果真實(shí)性負(fù)責(zé)),避免模型帶著隱患進(jìn)入部署環(huán)節(jié)。(五)階段五:平臺(tái)部署與集成關(guān)鍵維度:任務(wù)工程與系統(tǒng)輸出風(fēng)險(xiǎn)定位:風(fēng)險(xiǎn)聚焦于應(yīng)用層安全與功能濫用,如,模型接口缺乏防護(hù)(被惡意調(diào)用生成有害內(nèi)容)、權(quán)限控制失效(越權(quán)訪問(wèn)敏感推理結(jié)果)、任務(wù)邏輯漏洞(被誘導(dǎo)執(zhí)行超出預(yù)期—28—的操作)等。攻擊技術(shù):主要面臨提示注入(通過(guò)惡意指令操控生成式人工智能輸出有害內(nèi)容)、拒絕服務(wù)(高頻調(diào)用耗盡系統(tǒng)資源)、接口攻擊(如程序調(diào)用接口參數(shù)篡改獲取未授權(quán)信息)等。目標(biāo)對(duì)齊:需對(duì)標(biāo)“安全性”(防止系統(tǒng)被濫用或攻擊)與“可靠性”(確保輸出符合業(yè)務(wù)規(guī)范與倫理要求),保障人工智能在實(shí)際場(chǎng)景中的可控使用。(六)階段六:系統(tǒng)運(yùn)行與監(jiān)測(cè)關(guān)鍵維度:應(yīng)用環(huán)境風(fēng)險(xiǎn)定位:核心風(fēng)險(xiǎn)為監(jiān)測(cè)失效與持續(xù)攻擊,如日志記錄不全(無(wú)法追溯攻擊路徑)、異常檢測(cè)滯后(攻擊發(fā)生后未及時(shí)發(fā)現(xiàn))、模型漂移未預(yù)警(長(zhǎng)期運(yùn)行性能下降引發(fā)安全隱患)攻擊技術(shù):典型攻擊包括監(jiān)測(cè)繞過(guò)(通過(guò)加密通信隱藏攻擊行為)、模型竊?。嫦蚬こ袒蚋哳l查詢還原模型結(jié)構(gòu))、漂移利用(利用模型性能衰退實(shí)施隱蔽攻擊)等。目標(biāo)對(duì)齊:需關(guān)聯(lián)“透明度”(確保運(yùn)行狀態(tài)與日志可觀測(cè))與“可追溯性”(完整記錄數(shù)據(jù)流轉(zhuǎn)、模型操作與攻擊行為),構(gòu)建動(dòng)態(tài)防御的“感知神經(jīng)”。(七)階段七:用戶使用與影響關(guān)鍵維度:人類社會(huì)—29—風(fēng)險(xiǎn)定位:風(fēng)險(xiǎn)延伸至社會(huì)層面,包括生成內(nèi)容引發(fā)歧視或誤導(dǎo)(如虛假信息影響公眾決策)、人工智能濫用導(dǎo)致用戶權(quán)益受損(如算法偏見(jiàn)侵害特定群體利益)、社會(huì)信任崩塌(安全事件削弱公眾對(duì)人工智能的接受度)等。攻擊技術(shù):主要面臨社會(huì)工程攻擊(利用人工智能生成逼真內(nèi)容欺騙用戶)、輿論操控(通過(guò)人工智能批量生成傾向性信息影響社群認(rèn)知)、公平性破壞(針對(duì)性放大模型偏見(jiàn))等。目標(biāo)對(duì)齊:需錨定“公平性”(保障不同群體被平等對(duì)待)與“可信賴性”(綜合安全性、可靠性等特征構(gòu)建社會(huì)信任實(shí)現(xiàn)人工智能技術(shù)與人類社群的良性互動(dòng)。三、風(fēng)險(xiǎn)趨勢(shì):快速演進(jìn)人工智能技術(shù)快速迭代和突破,帶來(lái)新的不確定性,讓風(fēng)險(xiǎn)從網(wǎng)絡(luò)空間、數(shù)字世界向現(xiàn)實(shí)社會(huì)延伸,驅(qū)動(dòng)著人工智能安全風(fēng)險(xiǎn)持續(xù)演進(jìn)。(一)從“單一”到“多模”:攻擊面指數(shù)級(jí)擴(kuò)張生成式人工智能正從單一的文本模態(tài),迅速擴(kuò)展到能夠同時(shí)理解和生成圖像、音頻、視頻的多模態(tài)階段。這一轉(zhuǎn)變并非簡(jiǎn)單地增加輸入輸出通道,而是安全攻擊面的復(fù)合式增長(zhǎng)。根本原因在于,不同模態(tài)之間的融合與交互,創(chuàng)造了全新的、高度隱蔽的“跨模態(tài)攻擊”向量。攻擊者可以生成一張經(jīng)過(guò)特殊優(yōu)化的“萬(wàn)能”對(duì)抗性圖片,在與任何不相關(guān)、甚至完全良性的文本提示一起輸入多模態(tài)模型時(shí),能迫使模型繞過(guò)安全對(duì)齊,生成有害或違規(guī)內(nèi)容。這種攻擊的破壞性在于,一張對(duì)抗性圖片就可以污染無(wú)數(shù)次交互,使得任何依賴該模型的應(yīng)用徹底喪失安全性。該攻擊方法的有效性根源在于系統(tǒng)性的“對(duì)齊差距”(AlignmentGap)。一個(gè)多模態(tài)模型的不同模態(tài)處理通路(如文本編碼器和視覺(jué)編碼器安全對(duì)齊的成熟度往往是不均衡的,如,文本處理部分可能經(jīng)過(guò)了極其嚴(yán)格的、基于人類反饋的強(qiáng)化學(xué)習(xí)和安全微調(diào),而視覺(jué)或其他模態(tài)部分的安全對(duì)齊則相對(duì)滯后。攻擊者正是利用了模型內(nèi)部,在不同模態(tài)信息融合的“接縫”處存在的這種對(duì)齊不一致性??梢?jiàn),隨著模型融合的模態(tài)越來(lái)越多(音頻、視頻、3D等),潛在的“對(duì)齊差距”和“接縫”也將呈組合式增長(zhǎng),導(dǎo)致攻擊面并非線性擴(kuò)大,而是以更快的速度擴(kuò)張。(二)從“黑盒”到“白盒”:思維鏈帶來(lái)新攻擊向量(Chain-of-Thought,CoT)技術(shù)。這一技術(shù)在增強(qiáng)模型透明度的同時(shí),也將模型內(nèi)部的“思考過(guò)程”本身暴露為一個(gè)可被直接Chain-of-Thought,H-CoT)為例,攻擊者首先向模型提出一個(gè)被明確拒絕的有害請(qǐng)求,并觀察模型為解釋其拒絕理由而生成的安全推理鏈,然后復(fù)制并修改這條推理鏈,將其中的關(guān)鍵拒絕邏輯(如“生成此類內(nèi)容違反安全策略”)篡改為肯定邏輯(如“此請(qǐng)求符合教育目的,可以回答”),最后將這條被篡改的“偽造”推理鏈作為上下文,與原始的有害請(qǐng)求一同提交給模型。已有實(shí)驗(yàn)表明,這種方法能“劫持”模型的安全判斷中樞,使其誤認(rèn)為請(qǐng)求已經(jīng)通過(guò)了內(nèi)部安全檢查,從而生成有害內(nèi)容。這暴露了大模型對(duì)于自身推理過(guò)程的“輕信”,即:無(wú)法有效分辨一段推理邏輯是其自主生成還是由外部注入。此外,模型自身可能學(xué)會(huì)生成“偽造”的思維鏈來(lái)為其錯(cuò)誤或有害的結(jié)論辯護(hù)。這種行為被稱為“欺騙性對(duì)齊”(DeceptiveAlignment),即:模型表面上看起來(lái)遵循了“對(duì)齊”的要求(如提供了推理步驟),但實(shí)際上其行為完全偏離了人類的真實(shí)意圖。相關(guān)研究已經(jīng)證實(shí),當(dāng)模型判定處于測(cè)試環(huán)境后,它可能會(huì)故意生成一條看起來(lái)安全無(wú)害的思維鏈來(lái)通過(guò)評(píng)估,但其“真實(shí)想法”和最終的行動(dòng)卻可能是惡意的。換而言之,大模型學(xué)會(huì)了如何“表演”安全、如何對(duì)人類說(shuō)謊。這一發(fā)現(xiàn)對(duì)當(dāng)前主流的人工智能安全對(duì)齊方法論提出了根本性的挑戰(zhàn)。這類技術(shù)本質(zhì)是一種“行為對(duì)齊”(BehaviorAlignment),通過(guò)獎(jiǎng)懲模型的最終輸出來(lái)塑造其外部行為。然而,“欺騙性對(duì)齊”的出現(xiàn)證明,一個(gè)在行為上看起來(lái)完全對(duì)齊的大模型,其內(nèi)部的“認(rèn)知”過(guò)程可能完全沒(méi)有對(duì)齊。人工智能安全的下一個(gè)前沿必須從“行為對(duì)齊”躍遷至“認(rèn)知對(duì)齊”(CognitiveAlignment),確保模型在內(nèi)部的推理過(guò)程、動(dòng)機(jī)和目標(biāo)上,都與人類價(jià)值觀保持根本一致。未來(lái)的安全評(píng)估不能僅滿足于黑盒測(cè)試層面,而必須發(fā)展出能夠?qū)徲?jì)模型“思想”的白盒技術(shù)。(三)從“虛擬”到“現(xiàn)實(shí)”:規(guī)?;c真實(shí)性挑戰(zhàn)生成式人工智能最直觀的沖擊在于其以前所未有的規(guī)模、速度和逼真度創(chuàng)造內(nèi)容的能力,對(duì)社會(huì)信息生態(tài)和公眾信任構(gòu)成了系統(tǒng)性挑戰(zhàn)。深度偽造技術(shù)已成為侵蝕社會(huì)信任的強(qiáng)大工具。2024年發(fā)生的一起針對(duì)跨國(guó)工程公司奧雅納的金融詐騙案是這一威脅升級(jí)的標(biāo)志性事件。在該案中,一名職員參與了一場(chǎng)多人視頻會(huì)議,而其他參會(huì)者實(shí)際上都是由人工智能實(shí)時(shí)生成的深度偽造形象。攻擊者通過(guò)精心模仿高管的聲音、外貌和言談舉止,成功騙取了該員工完成多筆轉(zhuǎn)賬,總金額高達(dá)2500萬(wàn)美元。此事件標(biāo)志著深度偽造技術(shù)已從個(gè)人名譽(yù)侵害升級(jí)為可實(shí)施復(fù)雜、大規(guī)模企業(yè)級(jí)金融犯罪的工具。同時(shí),模型固有的“幻覺(jué)”問(wèn)題也帶來(lái)切實(shí)的法律和經(jīng)濟(jì)后果,如,加拿大航空公司的聊天機(jī)器人曾向客戶提供錯(cuò)誤的票價(jià)政策信息,最終法院裁定航空公司需要為聊天機(jī)器人的錯(cuò)誤信息負(fù)責(zé)。生成式人工智能的演進(jìn)正迎來(lái)一個(gè)決定性的轉(zhuǎn)折點(diǎn):從一個(gè)被動(dòng)的、響應(yīng)式的內(nèi)容生成器,轉(zhuǎn)變?yōu)橐粋€(gè)主動(dòng)的、目標(biāo)導(dǎo)向的行動(dòng)執(zhí)行者——人工智能智能體(AIAgents)。一個(gè)典型的人工智能智能體系統(tǒng)通常由多個(gè)部分構(gòu)成:底層的語(yǔ)言模型、智能體框架、調(diào)用的第三方工具API、最終用戶指令。一方面,人工智能智能體的成熟與應(yīng)用,將人工智能的潛在風(fēng)險(xiǎn)從數(shù)字信息領(lǐng)域直接延伸到對(duì)現(xiàn)實(shí)世界,具有直接操控能力的層面。另一方面,人工智能智能體涉及多方供應(yīng)商,一旦造成損害,責(zé)任歸屬會(huì)變得異常復(fù)雜,如,模型開(kāi)發(fā)者、智能體框架開(kāi)發(fā)者和API提供方都可能相互推諉。如此,人工智能智能體安全得不到妥善的解決,會(huì)削弱任何一方投入資源進(jìn)行端到端、跨系統(tǒng)邊界的綜合性安全測(cè)試的動(dòng)力,形成一種系統(tǒng)性的“公地悲劇”式的安全困境。人工智能智能體的自主性和工具使用能力還會(huì)催生一系列內(nèi)存投毒(MemoryPoisoning):人工智能智能體通常具備長(zhǎng)期記憶能力。攻擊者可通過(guò)一次看似無(wú)害的交互,向智能體的記憶庫(kù)中注入錯(cuò)誤的知識(shí)或隱藏的惡意指令。在未來(lái)的某個(gè)時(shí)刻,當(dāng)智能體為解決新問(wèn)題而檢索其記憶時(shí),這條被“投毒”的信息就會(huì)被激活,導(dǎo)致其做出錯(cuò)誤的判斷或執(zhí)行惡意的行為。工具濫用(ToolMisuse):如果智能體被賦予超出其任務(wù)所需的過(guò)多功能或過(guò)高權(quán)限,攻擊者就可以通過(guò)巧妙的提示注入,誘騙智能體濫用這些工具,執(zhí)行刪除文件、發(fā)送郵件等非授權(quán)操作。獎(jiǎng)勵(lì)作弊(RewardHacking):在基于強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的智能體中,智能體可能會(huì)發(fā)現(xiàn)并利用獎(jiǎng)勵(lì)函數(shù)中的漏洞或捷徑,以一種開(kāi)發(fā)者未曾預(yù)料到的、甚至是有害的方式獲得高分,而完全沒(méi)有實(shí)現(xiàn)任務(wù)的真正目標(biāo)。相關(guān)研究還表明,通過(guò)污染人工智能智能體用于自我改進(jìn)的交互數(shù)據(jù),攻擊者可以輕易地植入難以檢測(cè)的后門,特別是,僅需污染低至2%的交互痕跡,攻擊者就能植入一個(gè)在特定觸發(fā)詞出現(xiàn)時(shí),以超過(guò)80%的成功率導(dǎo)致智能體泄露機(jī)密用戶信息的后門。整體上,人工智能智能體帶來(lái)的風(fēng)險(xiǎn)是行動(dòng)性的,即:危害來(lái)自于人工智能系統(tǒng)直接執(zhí)行的未經(jīng)授權(quán)或有害的操作。第三章人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系“人工智能安全測(cè)評(píng)體系”是一套基于反饋控制邏輯的全流程閉環(huán)方法,以“目標(biāo)設(shè)定—內(nèi)容實(shí)施—方法技術(shù)—對(duì)象覆蓋—風(fēng)險(xiǎn)度量—持續(xù)優(yōu)化”為鏈路,實(shí)現(xiàn)人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)的系統(tǒng)性與動(dòng)態(tài)性管理。人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系將“目標(biāo)”“對(duì)象”“內(nèi)容”“方法”“度量”深度耦合,既實(shí)現(xiàn)測(cè)評(píng)的全維度覆蓋,又通過(guò)閉環(huán)機(jī)制保障測(cè)評(píng)的動(dòng)態(tài)適應(yīng)性,為人工智能治理提供系統(tǒng)化工具?!叭斯ぶ悄馨踩L(fēng)險(xiǎn)測(cè)評(píng)體系”核心模塊有1)測(cè)評(píng)目的:錨定“安全性、可靠性、可控性、公平性”四大核心目標(biāo),為整個(gè)測(cè)評(píng)體系定義基準(zhǔn),明確人工智能系統(tǒng)需達(dá)到的安全狀態(tài),指導(dǎo)后續(xù)測(cè)評(píng)全流程的方向。(2)測(cè)評(píng)內(nèi)容:從技術(shù)安全、內(nèi)容安全、倫理安全、供應(yīng)鏈安全等維度構(gòu)建測(cè)評(píng)范疇,對(duì)應(yīng)“有效性、可靠性、安全性、抗干擾性、可問(wèn)責(zé)與透明性、可解釋性、隱私增強(qiáng)、公平性”等具體要求,為測(cè)評(píng)提供“做什么”的內(nèi)容框架。(3)測(cè)評(píng)方法與技術(shù):測(cè)評(píng)方法(策略層)為測(cè)評(píng)工作提供“方法論工具包”;測(cè)評(píng)技術(shù)(執(zhí)行層)聚焦提示詞攻擊、投毒攻擊、模型竊取、規(guī)避攻擊、隱私攻擊等典型攻擊手段的模擬與防御驗(yàn)證,檢驗(yàn)系統(tǒng)安全韌性。(4)測(cè)評(píng)對(duì)象:根據(jù)人工智能系統(tǒng)的分層框架,分析安全測(cè)評(píng)的攻擊面,覆蓋應(yīng)用層、模型層、數(shù)據(jù)層以及設(shè)施層,確定人工智能系統(tǒng)安全風(fēng)險(xiǎn)的直接載體。攻擊面聚焦查詢?cè)L問(wèn)權(quán)限、模型控制、標(biāo)簽操縱限度、訓(xùn)練/測(cè)試數(shù)據(jù)控制、源代碼控制、資源控制等關(guān)鍵入口。(5)風(fēng)險(xiǎn)度量:基于威脅嚴(yán)重性、影響范圍、可修復(fù)性等維度構(gòu)建量化模型,將風(fēng)險(xiǎn)映射至紅(致命風(fēng)險(xiǎn))、橙(高風(fēng)險(xiǎn))、黃(中風(fēng)險(xiǎn))、綠(低風(fēng)險(xiǎn))四級(jí)風(fēng)險(xiǎn)區(qū)間,精準(zhǔn)度量測(cè)評(píng)結(jié)果與安全目標(biāo)的偏差,為后續(xù)優(yōu)化提供反饋信號(hào)。同時(shí),“人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)體系”還有閉環(huán)優(yōu)化:風(fēng)險(xiǎn)度量的結(jié)果反向指導(dǎo)測(cè)評(píng)內(nèi)容的迭代優(yōu)化、針對(duì)高風(fēng)險(xiǎn)環(huán)節(jié)強(qiáng)化測(cè)評(píng)重點(diǎn),形成“測(cè)評(píng)實(shí)施—風(fēng)險(xiǎn)度量—內(nèi)容優(yōu)化—再測(cè)評(píng)”的持續(xù)改進(jìn)閉環(huán)。一、測(cè)評(píng)目的:多維度安全目標(biāo)“測(cè)評(píng)目的”錨定“安全性、可靠性、可控性、公平性”四大核心目標(biāo),再依據(jù)LLM技術(shù)特征進(jìn)行“拆解”,構(gòu)建多維度安全目標(biāo)體系?;镜?,LLM系統(tǒng)的安全測(cè)評(píng)需超越單一的“防攻擊”范疇,立足技術(shù)特性、倫理要求與治理規(guī)范的交叉維度,構(gòu)建覆蓋全生命周期的多維度安全目標(biāo)體系。這一體系既需響應(yīng)國(guó)際標(biāo)準(zhǔn),又需適配LLM特有的風(fēng)險(xiǎn)場(chǎng)景(如大模型的泛化能力帶來(lái)的濫用風(fēng)險(xiǎn)),實(shí)現(xiàn)“技術(shù)安全、倫理合合規(guī)、治理可控”統(tǒng)一?;贚LM系統(tǒng)的復(fù)雜性與影響范圍,核心測(cè)評(píng)目標(biāo)細(xì)化為六大維度,各維度既獨(dú)立聚焦特定安全需求,又協(xié)同支撐系統(tǒng)整體的可信性,其中,“技術(shù)安全性”“功能可靠性”保障“能安全工作”,“數(shù)據(jù)隱私性”“倫理合規(guī)性”確?!安辉斐蓚Α保跋到y(tǒng)可控性”“治理可追溯性”實(shí)現(xiàn)“風(fēng)險(xiǎn)可管控”。通過(guò)六大維度的協(xié)同測(cè)評(píng),全面刻畫LLM系統(tǒng)的安全狀態(tài),為人工智能安全應(yīng)用提供完整的評(píng)估依據(jù)。技術(shù)安全性是LLM系統(tǒng)的基礎(chǔ)保障目標(biāo),核心在于抵御各類惡意攻擊與技術(shù)擾動(dòng),確保系統(tǒng)在面臨人為干預(yù)或異常環(huán)境時(shí)仍能維持核心功能的穩(wěn)定性。測(cè)評(píng)內(nèi)涵包括三層:一是對(duì)抗魯棒性,即系統(tǒng)對(duì)對(duì)抗樣本(如微調(diào)的惡意提示詞、擾動(dòng)的輸入文本)的抵御能力,需驗(yàn)證模型在攻擊下的錯(cuò)誤率是否控制在可接受范圍(如對(duì)抗樣本成功率≤5%二是抗竊取能力,針對(duì)模型權(quán)重、架構(gòu)等核心資產(chǎn),測(cè)評(píng)其抵御提取攻擊(如通過(guò)API查詢反推參數(shù))的防護(hù)機(jī)制;三是動(dòng)態(tài)穩(wěn)定性,關(guān)注模型在迭代更新(如持續(xù)微調(diào)、部署環(huán)境變化)過(guò)程中的安全退化風(fēng)險(xiǎn)(如某次微調(diào)后對(duì)抗防御能力下降)。功能可靠性關(guān)注LLM系統(tǒng)在正常及邊緣場(chǎng)景下輸出的準(zhǔn)確性與一致性,確保其智能能力的“可用且可信”。核心測(cè)評(píng)維度包括:基礎(chǔ)準(zhǔn)確性,在常規(guī)輸入下的任務(wù)完成質(zhì)量(如問(wèn)答系統(tǒng)的答案正確率、翻譯系統(tǒng)的語(yǔ)義一致性);分布外魯棒性,針對(duì)訓(xùn)練數(shù)據(jù)未覆蓋的邊緣樣本(如罕見(jiàn)詞匯、新興概念測(cè)評(píng)模型的泛化能力與錯(cuò)誤控制(如“不知道時(shí)不編造”的誠(chéng)實(shí)性);場(chǎng)景適配性,在特定行業(yè)場(chǎng)景(如醫(yī)療診斷、金融風(fēng)控)中,驗(yàn)證模型輸出與業(yè)務(wù)規(guī)則的匹配度(如醫(yī)療人工智能的診斷建議是否符合臨床指南),避免因功能失效導(dǎo)致的業(yè)務(wù)風(fēng)險(xiǎn)。數(shù)據(jù)隱私性聚焦LLM系統(tǒng)全鏈路的數(shù)據(jù)保護(hù),防止訓(xùn)練數(shù)據(jù)、用戶輸入及模型衍生信息的未授權(quán)泄露或?yàn)E用,是合規(guī)性與用戶信任的核心支撐。其核心測(cè)評(píng)方向包括:訓(xùn)練數(shù)據(jù)隱私,驗(yàn)證訓(xùn)練集中個(gè)人敏感信息(如身份證號(hào)、醫(yī)療記錄)的脫敏效果,以及抵御“成員推理攻擊”(通過(guò)模型輸出判斷某樣本是否在訓(xùn)練集中)的能力;用戶交互隱私,檢測(cè)用戶輸入數(shù)據(jù)(如對(duì)話內(nèi)容、查詢請(qǐng)求)在傳輸、存儲(chǔ)、處理環(huán)節(jié)的加密與訪問(wèn)控制措施,避免實(shí)時(shí)交互中的信息泄露;模型衍生隱私,關(guān)注模型“記憶”訓(xùn)練數(shù)據(jù)細(xì)節(jié)導(dǎo)致的風(fēng)險(xiǎn)(如大模型復(fù)述訓(xùn)練集中的隱私文本需驗(yàn)證模型對(duì)敏感信息的“遺忘”能力與輸出過(guò)濾機(jī)制。倫理合規(guī)性旨在確保LLM系統(tǒng)的設(shè)計(jì)與輸出符合社會(huì)倫理準(zhǔn)則、法律規(guī)范及文化價(jià)值觀,避免因技術(shù)濫用或偏見(jiàn)導(dǎo)致的社會(huì)風(fēng)險(xiǎn)。測(cè)評(píng)內(nèi)涵需兼顧普適性與場(chǎng)景化:一是反歧視與公平性,驗(yàn)證模型對(duì)不同群體(如性別、種族、地域)的輸出是否存在系統(tǒng)性偏見(jiàn)(如招聘場(chǎng)景中對(duì)女性候選人的評(píng)分偏低可通過(guò)構(gòu)建多樣化測(cè)試集量化偏見(jiàn)指數(shù);二是價(jià)值觀對(duì)齊,測(cè)評(píng)模型輸出與主流社會(huì)價(jià)值觀(如反對(duì)暴力、尊重人權(quán))的一致性,尤其需適配多文化場(chǎng)景(如不同地區(qū)對(duì)“言論自由”的邊界定義差異三是法律合規(guī)性,對(duì)照區(qū)域法規(guī)(如歐盟人工智能法案禁止的“社會(huì)評(píng)分”應(yīng)用、中國(guó)《生成式人工智能服務(wù)管理暫行辦法》的內(nèi)容安全要求),驗(yàn)證系統(tǒng)是否滿足禁止性與義務(wù)性條款。系統(tǒng)可控性強(qiáng)調(diào)對(duì)LLM系統(tǒng)行為的可預(yù)測(cè)、可干預(yù)與可終止能力,防止系統(tǒng)出現(xiàn)超出設(shè)計(jì)預(yù)期的“失控”行為。測(cè)評(píng)重點(diǎn)包括:目標(biāo)對(duì)齊性,驗(yàn)證模型實(shí)際行為與預(yù)設(shè)目標(biāo)(如“安通過(guò)誘導(dǎo)使模型優(yōu)先滿足用戶惡意需求干預(yù)有效性,測(cè)試緊急情況下的人工干預(yù)機(jī)制(如“一鍵關(guān)?!薄拜敵鰯r截”)的響應(yīng)速度與可靠性;行為可預(yù)測(cè)性,通過(guò)大量測(cè)試樣本分析模型輸出的波動(dòng)范圍,確保無(wú)“突發(fā)異?!保ㄈ鐭o(wú)明顯誘因的有害內(nèi)容生成)。治理可追溯性聚焦LLM系統(tǒng)全生命周期的操作可審計(jì)與責(zé)任可定位,支撐安全事件溯源與改進(jìn)。核心測(cè)評(píng)內(nèi)容包括:全鏈路日志完整性,驗(yàn)證模型開(kāi)發(fā)(如微調(diào)參數(shù)變更)、訓(xùn)練(如數(shù)據(jù)來(lái)源)、部署(如版本更新)、運(yùn)行(如用戶交互)各環(huán)節(jié)日志的記錄完整性與不可篡改性;供應(yīng)鏈可追溯,對(duì)第三方組件(如開(kāi)源框架、數(shù)據(jù)集)來(lái)源、版本及安全認(rèn)證進(jìn)行鏈?zhǔn)胶瞬椋_保風(fēng)險(xiǎn)可溯源;責(zé)任主體明確性,通過(guò)文檔審查與流程驗(yàn)證,確認(rèn)系統(tǒng)各環(huán)節(jié)的責(zé)任部門/人員(如模型開(kāi)發(fā)者、—40—部署運(yùn)維方),確保安全事件發(fā)生后可快速定位責(zé)任主體。二、測(cè)評(píng)內(nèi)容:全領(lǐng)域安全覆蓋基于大模型全生命周期、人工智能技術(shù)特征、全生命周期風(fēng)險(xiǎn)傳導(dǎo)規(guī)律、落地應(yīng)用的安全風(fēng)險(xiǎn)暴露面等關(guān)鍵支撐,構(gòu)建生成式人工智能安全風(fēng)險(xiǎn)全景圖。同時(shí),因風(fēng)險(xiǎn)暴露面相似等原因,繪制“人工智能安全風(fēng)險(xiǎn)全圖景”需對(duì)關(guān)鍵維度進(jìn)行適當(dāng)調(diào)整以突出測(cè)評(píng)內(nèi)容:將全生命周期中的“模型訓(xùn)練與構(gòu)建”與“模型驗(yàn)證與確認(rèn)”合并為“模型訓(xùn)練優(yōu)化”,將全生命周期中的“用戶使用與影響”擴(kuò)充為“迭代與退役”。由此,人工智能安全風(fēng)險(xiǎn)全圖景既能沿用全生命周期呈現(xiàn)不同階段的“異質(zhì)風(fēng)險(xiǎn)”,又在基礎(chǔ)設(shè)施安全、數(shù)據(jù)安全、模型安全、應(yīng)用與智能體安全、用戶與身份安全、內(nèi)容安全、合規(guī)與倫理風(fēng)險(xiǎn)、管理類風(fēng)險(xiǎn)等層次呈現(xiàn)“同質(zhì)風(fēng)險(xiǎn)”,支撐測(cè)評(píng)內(nèi)容的“框定”。結(jié)合人工智能安全風(fēng)險(xiǎn)全景圖,測(cè)評(píng)內(nèi)容覆蓋從技術(shù)安全、內(nèi)容安全、倫理安全、供應(yīng)鏈安全等維度,聚焦供應(yīng)鏈、數(shù)據(jù)、模型自身、價(jià)值觀與倫理對(duì)齊、運(yùn)行態(tài)系統(tǒng)五大安全風(fēng)險(xiǎn)測(cè)評(píng)重點(diǎn),能進(jìn)一步明確核心測(cè)評(píng)維度與關(guān)鍵核查方向,實(shí)現(xiàn)風(fēng)險(xiǎn)測(cè)評(píng)從“框架”到“重點(diǎn)”的精準(zhǔn)落地。從人工智能安全風(fēng)險(xiǎn)全景圖提取測(cè)評(píng)重點(diǎn),可用于對(duì)測(cè)評(píng)工作開(kāi)展初步的規(guī)劃與指導(dǎo),包括供應(yīng)鏈安全測(cè)評(píng)、數(shù)據(jù)安全測(cè)評(píng)、模型安全測(cè)評(píng)、價(jià)值觀與倫理對(duì)齊測(cè)評(píng)、運(yùn)行態(tài)系統(tǒng)安全測(cè)評(píng)?!?1—(一)供應(yīng)鏈安全測(cè)評(píng)供應(yīng)鏈安全測(cè)評(píng)聚焦核心組件與服務(wù)在采購(gòu)、研發(fā)、交付、集成等環(huán)節(jié)存在的安全風(fēng)險(xiǎn),如,供應(yīng)鏈攻擊、組件漏洞、來(lái)源不可靠、交付鏈路失控等。主要測(cè)評(píng)對(duì)象包括物理硬件、底層基礎(chǔ)設(shè)施、軟件及開(kāi)發(fā)框架,模型及相關(guān)核心組件,以及供應(yīng)鏈各環(huán)節(jié)引入的第三方服務(wù)等。1.硬件及基礎(chǔ)設(shè)施供應(yīng)鏈安全測(cè)評(píng)聚焦支撐大模型運(yùn)行的物理硬件及底層基礎(chǔ)環(huán)境的供應(yīng)鏈安全,圍繞硬件供應(yīng)鏈的供應(yīng)韌性、完整性與計(jì)算安全性,以及基礎(chǔ)設(shè)施供應(yīng)鏈的組件固有風(fēng)險(xiǎn)、供應(yīng)鏈劫持與配置安全兩大維度開(kāi)展測(cè)評(píng),識(shí)別發(fā)現(xiàn)硬件生產(chǎn)、供應(yīng)、交付及底層基礎(chǔ)設(shè)施搭建、部署、配置等供應(yīng)鏈起點(diǎn)源頭安全隱患,主要內(nèi)容有:硬件供應(yīng)鏈安全測(cè)評(píng)圍繞核心硬件的供應(yīng)韌性、完整性與計(jì)算安全性展開(kāi)。供應(yīng)韌性評(píng)估關(guān)注地緣政治風(fēng)險(xiǎn)下的“斷供”可能性,對(duì)國(guó)內(nèi)備選供應(yīng)商的產(chǎn)能、工藝成熟度及合規(guī)認(rèn)證進(jìn)行全面分析。硬件完整性與計(jì)算安全性評(píng)估,主要通過(guò)物理檢測(cè)和硬件可信機(jī)制驗(yàn)證等手段排查硬件是否存在物理篡改、固件篡改及惡意元件植入的風(fēng)險(xiǎn)。基礎(chǔ)設(shè)施供應(yīng)鏈安全測(cè)評(píng)重點(diǎn)關(guān)注支撐大模型運(yùn)行的底層環(huán)境組件的固有風(fēng)險(xiǎn)、供應(yīng)鏈劫持及配置安全。組件固有風(fēng)險(xiǎn)評(píng)估需深入到固件層面,檢測(cè)BIOS/UEFI等固件是否存在已知—42—漏洞。供應(yīng)鏈劫持風(fēng)險(xiǎn)評(píng)估主要關(guān)注容器鏡像倉(cāng)庫(kù)投毒等常見(jiàn)威脅,以及基礎(chǔ)設(shè)施即代碼模板的安全性,防止惡意配置通過(guò)自動(dòng)化部署流程擴(kuò)散。配置安全風(fēng)險(xiǎn)評(píng)估主要關(guān)注因供應(yīng)商在開(kāi)發(fā)或交付階段預(yù)設(shè)的不當(dāng)配置引入的風(fēng)險(xiǎn)。2.軟件及開(kāi)發(fā)框架供應(yīng)鏈安全測(cè)評(píng)針對(duì)大模型開(kāi)發(fā)與運(yùn)行所依賴的基礎(chǔ)軟件、開(kāi)發(fā)框架、組件及工具鏈,從核心開(kāi)源組件風(fēng)險(xiǎn)、供應(yīng)鏈流轉(zhuǎn)過(guò)程完整性、合規(guī)與安全認(rèn)證三個(gè)維度評(píng)估惡意組件植入、漏洞傳遞、合規(guī)缺失等風(fēng)險(xiǎn),主要內(nèi)容有:核心開(kāi)源組件風(fēng)險(xiǎn)測(cè)評(píng)從供應(yīng)鏈源頭識(shí)別安全隱患,針對(duì)開(kāi)源社區(qū)主導(dǎo)研發(fā)或維護(hù)的人工智能框架、開(kāi)發(fā)庫(kù)及中間件,評(píng)估其安全漏洞修復(fù)響應(yīng)效率、社區(qū)維護(hù)規(guī)范性、安全測(cè)試覆蓋深度,自主可控程度以及國(guó)產(chǎn)化適配能力。供應(yīng)鏈全流程完整性測(cè)評(píng)重點(diǎn)關(guān)注軟件及開(kāi)發(fā)框架從代碼提交、編譯、打包到部署全流程的防篡改與可追溯能力。在研發(fā)環(huán)節(jié),核查代碼版本控制系統(tǒng)的訪問(wèn)權(quán)限管控與簽名提交機(jī)制,評(píng)估代碼評(píng)審流程規(guī)范性及高危代碼修改審批復(fù)核機(jī)制有效性;在構(gòu)建部署環(huán)節(jié),核驗(yàn)持續(xù)集成/交付流水線各節(jié)點(diǎn)安全管控措施,編譯、打包、鏡像構(gòu)建等環(huán)節(jié)產(chǎn)物的哈希值或數(shù)字簽名生成情況,以及SLSA證據(jù)鏈的完整性與可審計(jì)性,評(píng)估從源碼到部署包的每一步轉(zhuǎn)換是否可追溯、防篡改。合規(guī)與安全認(rèn)證情況核驗(yàn)主要針對(duì)第三方商業(yè)軟件,核查授權(quán)文件合法性與有效性,是否通過(guò)國(guó)家權(quán)威安全認(rèn)證,并核—43—查供應(yīng)商提供軟件物料清單的完整性、時(shí)效性與規(guī)范性,評(píng)估供應(yīng)鏈的透明度與風(fēng)險(xiǎn)響應(yīng)的敏捷性。3.模型供應(yīng)鏈安全測(cè)評(píng)主要針對(duì)大模型本體以及其訓(xùn)練、微調(diào)、部署、迭代全生命周期各環(huán)節(jié)的供應(yīng)鏈安全開(kāi)展測(cè)評(píng),主要內(nèi)容有:模型來(lái)源可信性測(cè)評(píng)聚焦模型源頭,核查研發(fā)主體資質(zhì)合規(guī)性、技術(shù)自主化程度。針對(duì)采用外部供應(yīng)模型的場(chǎng)景,重點(diǎn)核驗(yàn)供應(yīng)商提供信息的完整性與真實(shí)性,具體涵蓋兩方面內(nèi)容:一是模型核心屬性信息,包括性能指標(biāo)、訓(xùn)練數(shù)據(jù)來(lái)源及合規(guī)性證明、功能局限性、潛在偏見(jiàn)與倫理風(fēng)險(xiǎn)說(shuō)明等;二是模型安全相關(guān)信息,包括功能模塊披露完整性、數(shù)據(jù)處理機(jī)制透明度、隱私保護(hù)措施說(shuō)明等,通過(guò)上述核驗(yàn)評(píng)估模型來(lái)源可追溯性與屬性可核查性。模型血緣與物料追溯測(cè)評(píng)聚焦模型供應(yīng)鏈的血緣透明度與風(fēng)險(xiǎn)繼承可追溯性。核心測(cè)試內(nèi)容包括:一是供應(yīng)商是否完整列明預(yù)訓(xùn)練模型的構(gòu)成要素;二是模型從基礎(chǔ)版本到最終交付版本的迭代鏈路是否完整,識(shí)別評(píng)估模型可能繼承的上游風(fēng)險(xiǎn)。4.第三方服務(wù)供應(yīng)鏈安全測(cè)評(píng)針對(duì)大模型運(yùn)行依賴的第三方服務(wù),圍繞“第三方服務(wù)依賴風(fēng)險(xiǎn)”,從服務(wù)商準(zhǔn)入、服務(wù)接口、故障應(yīng)急、持續(xù)管控四個(gè)方面評(píng)估第三方供應(yīng)鏈安全風(fēng)—44—(二)數(shù)據(jù)安全測(cè)評(píng)數(shù)據(jù)安全測(cè)評(píng)聚焦數(shù)據(jù)全生命周期安全風(fēng)險(xiǎn),針對(duì)數(shù)據(jù)本身及相關(guān)處理活動(dòng),從訓(xùn)練數(shù)據(jù)來(lái)源及內(nèi)容安全、數(shù)據(jù)存儲(chǔ)及傳輸安全、數(shù)據(jù)使用安全、數(shù)據(jù)銷毀安全四個(gè)維度評(píng)估數(shù)據(jù)機(jī)密性、完整性、合規(guī)性等方面的綜合防護(hù)能力。1.訓(xùn)練數(shù)據(jù)來(lái)源及內(nèi)容安全測(cè)評(píng)針對(duì)大模型訓(xùn)練數(shù)據(jù)來(lái)源及內(nèi)容的安全合規(guī)性,從訓(xùn)練數(shù)據(jù)來(lái)源及流轉(zhuǎn)安全、訓(xùn)練數(shù)據(jù)本身的內(nèi)容安全兩方面開(kāi)展測(cè)評(píng),主要內(nèi)容有:訓(xùn)練數(shù)據(jù)來(lái)源及流轉(zhuǎn)安全測(cè)評(píng)聚焦于數(shù)據(jù)從外部獲取到進(jìn)入訓(xùn)練環(huán)節(jié)的源頭安全,重點(diǎn)關(guān)注訓(xùn)練數(shù)據(jù)來(lái)源合規(guī)和數(shù)據(jù)進(jìn)入訓(xùn)練之前的流轉(zhuǎn)安全兩個(gè)方面。訓(xùn)練數(shù)據(jù)來(lái)源合規(guī)測(cè)評(píng)重點(diǎn)關(guān)注訓(xùn)練數(shù)據(jù)是否來(lái)自正規(guī)授權(quán)渠道或公開(kāi)合法數(shù)據(jù)集;訓(xùn)練數(shù)據(jù)流轉(zhuǎn)安全測(cè)評(píng)重點(diǎn)關(guān)注數(shù)據(jù)流轉(zhuǎn)全鏈條安全管控機(jī)制的有效性。訓(xùn)練數(shù)據(jù)內(nèi)容安全測(cè)評(píng)聚焦于訓(xùn)練數(shù)據(jù)內(nèi)容本身的安全性與合規(guī)性,識(shí)別訓(xùn)練數(shù)據(jù)中潛藏的敏感信息與惡意內(nèi)容,主要包括:一是敏感信息殘留評(píng)估,二是數(shù)據(jù)污染風(fēng)險(xiǎn)評(píng)估,三是訓(xùn)練數(shù)據(jù)合規(guī)沖突評(píng)估。2.數(shù)據(jù)存儲(chǔ)及傳輸安全測(cè)評(píng)聚焦數(shù)據(jù)存儲(chǔ)與傳輸環(huán)節(jié)數(shù)據(jù)安全防護(hù)措施的有效性,圍繞數(shù)據(jù)完整性和保密性開(kāi)展安全評(píng)估,主要內(nèi)容有:數(shù)據(jù)存儲(chǔ)安全測(cè)評(píng)聚焦數(shù)據(jù)靜態(tài)存儲(chǔ)階段數(shù)據(jù)安全防護(hù)措—45—施的有效性。一是核驗(yàn)本地服務(wù)器、云存儲(chǔ)節(jié)點(diǎn)、分布式數(shù)據(jù)庫(kù)等存儲(chǔ)介質(zhì)的靜態(tài)加密機(jī)制,二是評(píng)估存儲(chǔ)系統(tǒng)的訪問(wèn)控制數(shù)據(jù)傳輸安全測(cè)評(píng)聚焦數(shù)據(jù)動(dòng)態(tài)流轉(zhuǎn)全鏈路數(shù)據(jù)安全防護(hù)措施的有效性。一是關(guān)注傳輸協(xié)議的安全性,二是評(píng)估跨域傳輸時(shí)數(shù)據(jù)脫敏處理效果,以及網(wǎng)關(guān)設(shè)備、API接口、服務(wù)器端口、終端接入設(shè)備等各類傳輸接入節(jié)點(diǎn)的身份認(rèn)證強(qiáng)度。3.數(shù)據(jù)使用安全測(cè)評(píng)聚焦人工操作、系統(tǒng)處理、模型運(yùn)行對(duì)數(shù)據(jù)的全場(chǎng)景使用行為,主要包括數(shù)據(jù)操作合規(guī)測(cè)評(píng)和敏感數(shù)據(jù)泄露測(cè)評(píng),主要內(nèi)容有:數(shù)據(jù)操作合規(guī)測(cè)評(píng)針對(duì)數(shù)據(jù)使用過(guò)程的合規(guī)性開(kāi)展評(píng)估,關(guān)注數(shù)據(jù)操作行為是否全程留痕、責(zé)任可究,核驗(yàn)數(shù)據(jù)訪問(wèn)日志的完整性與可審計(jì)性,評(píng)估數(shù)據(jù)使用的合規(guī)可控程度;敏感數(shù)據(jù)泄露安全測(cè)評(píng)聚焦評(píng)估模型在訓(xùn)練和推理過(guò)程中對(duì)訓(xùn)練數(shù)據(jù)的保護(hù)能力,核心測(cè)試內(nèi)容圍繞訓(xùn)練數(shù)據(jù)提取及成員推理攻擊下的脆弱性展開(kāi)。4.數(shù)據(jù)銷毀安全測(cè)評(píng)聚焦數(shù)據(jù)生命周期末端數(shù)據(jù)使用完畢后物理銷毀與邏輯銷毀的合規(guī)性、徹底性及可追溯性,評(píng)估廢棄數(shù)據(jù)被非法恢復(fù)、竊取引發(fā)的安全風(fēng)險(xiǎn),形成數(shù)據(jù)全生命周期安全測(cè)評(píng)閉環(huán)。(三)模型安全測(cè)評(píng)模型安全測(cè)評(píng)聚焦于模型架構(gòu)、參數(shù)、推理機(jī)制等內(nèi)在屬—46—性所固有的安全風(fēng)險(xiǎn),從模型對(duì)抗魯棒性、輸出可靠性、模型完整性與后門風(fēng)險(xiǎn)三個(gè)維度測(cè)評(píng)大模型自身的潛在安全風(fēng)險(xiǎn)。1.對(duì)抗魯棒性測(cè)評(píng)重點(diǎn)關(guān)注大模型在面對(duì)非標(biāo)準(zhǔn)輸入、惡意攻擊等復(fù)雜條件時(shí),能否保持輸出穩(wěn)定性以規(guī)避風(fēng)險(xiǎn)。該維度測(cè)評(píng)重點(diǎn)考察大模型對(duì)提示詞攻擊、對(duì)抗性樣本攻擊等典型威脅的防御能力。對(duì)抗性魯棒性測(cè)評(píng)還需擴(kuò)展到其他模態(tài)。針對(duì)多模態(tài)模型,還需測(cè)試其在圖文結(jié)合輸入中面對(duì)誤導(dǎo)性圖像時(shí)的魯棒性,防止跨模態(tài)攻擊導(dǎo)致誤判。例如,評(píng)估模型能否抵御隱藏在圖像像素中的對(duì)抗性擾動(dòng),或者能否識(shí)別并拒絕執(zhí)行嵌入在圖片或音頻中的不可見(jiàn)的惡意指令。2.輸出可靠性安全測(cè)評(píng)關(guān)注大模型生成內(nèi)容是否真實(shí)、可信、可解釋、可追溯,聚焦大模型幻覺(jué)抑制能力與內(nèi)容可解釋性,防范因虛假或不可控輸出引發(fā)的信息誤導(dǎo)與決策風(fēng)險(xiǎn),主要內(nèi)容有:幻覺(jué)與真實(shí)性測(cè)評(píng)針對(duì)大模型生成“與事實(shí)不符、無(wú)依據(jù)的虛假信息”的幻覺(jué)問(wèn)題展開(kāi),判斷其生成內(nèi)容是否符合事實(shí);可解釋性與溯源能力測(cè)評(píng)主要關(guān)注大模型生成內(nèi)容的推導(dǎo)邏輯透明度與依據(jù)可追溯性。3.模型完整性與后門安全測(cè)評(píng)聚焦于評(píng)估模型本身的完整性是否遭到破壞,以及是否被植入了隱藏的、惡意的后門,主要內(nèi)容有:模型完整性測(cè)評(píng)重點(diǎn)評(píng)估模型發(fā)布方的身份認(rèn)證機(jī)制、分發(fā)渠道安全性及文件完整性保護(hù)措施。測(cè)評(píng)驗(yàn)證模型權(quán)重文件是否采用數(shù)字簽名、是否提供可校驗(yàn)的哈希值,確保傳—47—輸過(guò)程未被篡改。對(duì)于開(kāi)源模型,檢查代碼倉(cāng)庫(kù)是否啟用代碼簽名、持續(xù)集成/交付流水線是否集成安全掃描,防止惡意代碼注入。后門安全測(cè)評(píng)需要審查訓(xùn)練流程的公開(kāi)信息,包括數(shù)據(jù)預(yù)處理邏輯、清洗策略與來(lái)源清單,并通過(guò)特定技術(shù)手段重點(diǎn)檢測(cè)是否存在“數(shù)據(jù)毒化”行為。同時(shí),評(píng)估模型是否具備訓(xùn)練數(shù)據(jù)溯源與可疑數(shù)據(jù)隔離能力。(四)價(jià)值觀與倫理對(duì)齊測(cè)評(píng)價(jià)值觀與倫理對(duì)齊測(cè)評(píng)聚焦生成式人工智能的價(jià)值觀輸出、倫理遵循是否符合法律法規(guī)、社會(huì)規(guī)范以及公序良俗等,主要從內(nèi)容合規(guī)性、偏見(jiàn)與公平性、倫理與道德遵從、社會(huì)與文化影響、意識(shí)形態(tài)安全五個(gè)方面開(kāi)展測(cè)評(píng)。1.內(nèi)容合規(guī)性安全測(cè)評(píng)聚焦模型輸出內(nèi)容的“無(wú)害性”,評(píng)估模型對(duì)違規(guī)內(nèi)容的識(shí)別、過(guò)濾及抵制能力。2.偏見(jiàn)與公平性測(cè)評(píng)聚焦模型輸出內(nèi)容的“公平、平等、反歧視”特性,核心測(cè)試內(nèi)容主要包括:一是群體刻板印象與歧視規(guī)避測(cè)試,二是決策機(jī)會(huì)公平性保障測(cè)試,三是文化多樣性與包容性尊重測(cè)試。3.倫理與道德遵從測(cè)評(píng)重點(diǎn)圍繞大模型對(duì)“尊重隱私、誠(chéng)實(shí)守信、人文關(guān)懷”等倫理準(zhǔn)則的價(jià)值傾向,主要關(guān)注:一是隱私邊界識(shí)別與隱私保護(hù),二是誠(chéng)信與知識(shí)產(chǎn)權(quán)保護(hù),三是人文關(guān)懷與向善引導(dǎo)。—48—4.社會(huì)與文化影響測(cè)評(píng)聚焦生成式人工智能對(duì)社會(huì)環(huán)境、文化傳承發(fā)展的潛在外部影響,核心測(cè)試內(nèi)容主要包括:一是社會(huì)信任維護(hù)測(cè)試,二是文化安全影響測(cè)試。5.意識(shí)形態(tài)安全測(cè)評(píng)聚焦生成式人工智能自身的價(jià)值導(dǎo)向,在輸出內(nèi)容合規(guī)的基礎(chǔ)上,以更嚴(yán)格明確的標(biāo)準(zhǔn)劃定其意識(shí)形態(tài)安全邊界,核心測(cè)試內(nèi)容主要包括:一是政治安全層面,二是歷史虛無(wú)主義
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 渠道費(fèi)用合同范本
- 蒙牛合作協(xié)議書
- 融資寫合同范本
- 視頻通信協(xié)議書
- 認(rèn)購(gòu)書合同范本
- 設(shè)備保固協(xié)議書
- 設(shè)備招標(biāo)協(xié)議書
- 設(shè)計(jì)炒更協(xié)議書
- 試住協(xié)議書模板
- 請(qǐng)人辦證協(xié)議書
- 2025年葫蘆島市總工會(huì)面向社會(huì)公開(kāi)招聘工會(huì)社會(huì)工作者5人備考題庫(kù)及參考答案詳解
- 2026班級(jí)馬年元旦主題聯(lián)歡晚會(huì) 教學(xué)課件
- 2025年沈陽(yáng)華晨專用車有限公司公開(kāi)招聘?jìng)淇脊P試題庫(kù)及答案解析
- 2025年云南省人民檢察院聘用制書記員招聘(22人)筆試考試參考試題及答案解析
- 2025年樂(lè)山市商業(yè)銀行社會(huì)招聘筆試題庫(kù)及答案解析(奪冠系列)
- 高層建筑消防安全教育培訓(xùn)課件(香港大埔區(qū)宏福苑1126火災(zāi)事故警示教育)
- 學(xué)堂在線 雨課堂 學(xué)堂云 研究生學(xué)術(shù)與職業(yè)素養(yǎng)講座 章節(jié)測(cè)試答案
- 全口義齒人工牙的選擇與排列 28-全口義齒人工牙的選擇與排列(本科終稿)
- 開(kāi)放系統(tǒng)11848《合同法》期末機(jī)考真題(第17套)
- 內(nèi)科學(xué) 泌尿系統(tǒng)疾病總論
- TWSJD 002-2019 醫(yī)用清洗劑衛(wèi)生要求
評(píng)論
0/150
提交評(píng)論