前沿人工智能風險管理框架_第1頁
前沿人工智能風險管理框架_第2頁
前沿人工智能風險管理框架_第3頁
前沿人工智能風險管理框架_第4頁
前沿人工智能風險管理框架_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

我們對可信AGI的發(fā)展愿景人類水平。這些突破性進展為我們解決人類面臨的重大挑戰(zhàn)提供了歷史機遇上海人工智能實驗室聯(lián)合安遠AI2,正式發(fā)布《人工智能前沿風險管理框架(1.0版)》(以下“框架”),旨在為通用型人工智能(General-PurposeAI)模型研發(fā)者提供全面的風險管理指導本框架旨在為通用型人工智能模型研發(fā)者管理其通用型人工措施的早期預警指標(黃線)。我們針對可能威脅公共安1Yang,C.etal.,"TowardsAI-45°Law:ARoadmaptoTrustworthyAGI,"arXivpreprint,2024,/abs/2412.141862安遠AI(ConcordiaAI)是一家AI安全與治理領域第三方研究和咨詢機構,同時是目前該領域中國唯一的社會企業(yè)。否越過黃線?即達到觸發(fā)更高級別安全措施的早期預警指標。我們建議AI研發(fā)者在研發(fā)前●4.風險評價:建立三級風險分級體系:綠色區(qū)域(基于常規(guī)措施可先進AI系統(tǒng)的安全性。AI安全作為全球公共產品上海人工智能實驗室堅信AI安全是一項全球公共產品3。我們率先提出這份集了現(xiàn)階段對重大AI風險的認知與應對思路。我們倡導前沿AI研發(fā)機構、政策制3上海人工智能實驗室治理研究中心、清華大學產業(yè)能安全作為全球公共產品研究報告》,2024,/show/5646;安遠AI、牛津馬丁人工智能治理倡議和卡內基國際和平研究院,《人工智能安全作為ExaminingAISafetyasaGlobalPublicGood:Implications,Challenges,andResearchPriorities2025https://oms-www.?/production/downloads/academic/Examining_AI_Safety_as_a_Global_Public_Good.pdf?dm=1741767073主要撰稿人:謝旻希?、方亮*、徐甲*、段雅文*、邵婧*感謝安遠AI伙伴劉順昌等人對本報告內容的貢獻。t表?第一作者 1 21.風險識別 31.1風險識別范圍 31.2風險分類框架 41.3濫用風險 51.3.1網(wǎng)絡攻擊風險 51.3.2生物化學風險 51.3.3人身傷害風險 1.3.4大規(guī)模說服與有害操控風險 1.4失控風險 7 7 2.風險閾值 102.1定義AI發(fā)展的“黃線”和“紅線” 2.2具體紅線建議 2.2.1網(wǎng)絡攻擊風險 2.2.2生物安全風險 2.2.3大規(guī)模說服與有害操控風險 2.2.4失控風險 183.風險分析 203.1規(guī)劃與研發(fā)階段的風險分析技術 203.2部署前的風險分析技術 213.3部署后的風險監(jiān)測技術 224.風險評價 234.1緩解前的風險處置選項 234.2緩解后剩余風險評估與部署決策 244.3部署決策的外部溝通 255.風險緩解 265.1風險緩解措施概述 265.2安全預訓練和后訓練措施 275.3模型部署緩解措施 285.3.1針對模型濫用的緩解措施 285.3.2針對智能體安全的緩解措施 285.4模型安保措施 295.4.1針對模型泄漏風險 295.4.2針對模型失控風險 305.5全生命周期的“縱深防御”策略 316.風險治理 326.1風險治理措施概述 32 326.3透明度和社會監(jiān)督機制 346.4應急管控機制 346.5定期更新政策 35 36 38 38 40 42 44關鍵能力(Capabilities) 44關鍵傾向(Propensities) 45關鍵部署特征(DeploymentCharacteristics) 461本框架將既有的風險管理原則應用于通用型人工智能(General-PurposeAI)研發(fā),并與包括ISO31000:2018、ISO/IEC23894:2023和GB/T24353:2022在內的標準保持一致4。本框架構建了六個●風險識別(RiskIdenti?cation系統(tǒng)性識別和分類潛在嚴重風險的過程,重點聚焦前沿AI的先進能力所引發(fā)的風險。隨著AI能力的進步和新威脅場景的出現(xiàn),識別●風險閾值(RiskThresholds定義不可接受結果(“紅線”)和升級安全保障措施的早期預警指標(“黃線”)的過程。這些閾值基于從風險●風險分析(RiskAnalysis通過定量和定性評估方法研究特定AI風險場景和分析風險的過●風險評價(RiskEvaluation通過與既定閾值對比判定風險等級,以指導風險緩解和模型部署決策的過程。這一階段采用三區(qū)分類體系(綠色●風險緩解(RiskMitigation通過全面的應對措施主動減少和響應不同類型安全風險的過●風險治理(RiskGovernance將風險管理整合到更廣泛的組織和社會治理結構中的過4術語、概念、流程主要參考:GB/T24353:2022《風險管理指南》、GB/T23694:2013《風險管理術語》、ISO/IEC23894:2023《人工智能風險管理指南》、ISO31000:2018《風險管理指南》、ISO/IEC42001:2023《人工智能管理體系》、國家網(wǎng)絡安全標準化技術委員會《人工智能安全標準體系》1.0版、《國際人工智能安全報告》3.1章風險管理。2●部署環(huán)境(DeploymentEnvironment;E指AI模型部署運行的具體場景和約束條件。例如部署領域、操作參數(shù)、監(jiān)管要求、用戶群體特征、依●威脅源(ThreatSource;T指可能通過與AI模型交互引發(fā)有害后果的源頭或主體。例),●使能能力(EnablingCapability;C指AI模型的核心能力,尤其是那些在模型部署時沒力(如科學推理、代碼生成、任務規(guī)劃也包這種三維方法要求評估的不僅僅是AI系統(tǒng)能做什么(C還),31.1風險識別范圍本框架以《國際人工智能安全報告(2025年1月)》5和《人工智能安全治理框架》1.0版6為基礎,重點關注通用型人工智能因具備高影響力能力而可能引發(fā)的災難Llama-4、Qwen3、InternLM,以及專注推理的o1和DeepSeek-R1等。主要風險包括但不●AI智能體:基于通用型人工智能模型構建的自主系統(tǒng)5Bengio,Y.etal.InternationalAISafetyReport,"2025,/abs/2501.178056NationalTechnicalCommittee260onCybersecurityofSAC,"AISafetyGovernanceFramework,"2024,/upload/2024-09-09/1725849192841090989.pdf4前沿人工智能風險管理框架(1.0版)分子層面的生物序列與結構,如Evo2、ESM、ChemBERTa等8。主要風險源于危險生物信1.2風險分類框架本框架識別了四類風險領域:濫用風險(MisuseRisks)、失控風險(LossofControlRisks)、意外風險(AccidentRisks)和系統(tǒng)性風險(SystemicRisks與《國際人工智能安全報告》所指惡意行為者故意利用AI模型能力對個人、組織或社會造成傷害而產重新獲得控制路徑的風險。這包括被動失控(人和主動失控(AI系統(tǒng)主動破壞人類控制)。7Chen,A.,etal.,"ASurveyontheSafetyandSecurityThreatsofComputer-UsingAgents:JARVISorUltron?"arXivpreprint,2025,/abs/2505.109248Liu,X.etal.,"BiomedicalFoundationModel:ASurvey,"arXivpreprint,2025,/abs/2503.021049Wang,D.etal.,"WithoutSafeguards,AI-BiologyIntegrationRisksAcceleratingFuturePandemics,"2025,/publication/392731675_Without_Safeguards_AI-Biology_Integration_Risks_Accelerating_Future_Pandemics10Hu,Y.etal.,"TowardGeneral-PurposeRobotsviaFoundationModels:ASurveyandMeta-Analysis,"arXivpreprint,2023,/abs/2312.0878211Zhang,H.etal.,"BadRobot:JailbreakingEmbodiedLLMsinthePhysicalWorld."arXivpreprint,2024,/abs/2407.2024251.3濫用風險1.3.1網(wǎng)絡攻擊風險AI賦能的網(wǎng)絡攻擊正在從根本上改變網(wǎng)絡空間增加了防御的復雜性12。這種惡意使用可能導致關鍵基礎設施癱瘓、大范圍數(shù)據(jù)泄露或重大1.3.2生物化學風險生物、放射性、核和爆炸物(CBRNE)武器的技術門檻,對國家治理構成嚴峻挑戰(zhàn)13。的研發(fā)等14。AI系統(tǒng)可能協(xié)助設計出同時具備快速傳播12Guo,W.etal.,"FrontierAI’sImpactontheCybersecurityLandscape,"arXivpreprint,2025,/abs/2504.0540813He,J.etal.,"ControlRiskforPotentialMisuseofArti?cialIntelligenceinScience"arXivpreprint,2023,/abs/2312.06632;Li,T.etal.,"SciSafeEval:AComprehensiveBenchmarkforSafetyAlignmentofLargeLanguageModelsinScienti?cTasks,"arXivpreprint,2024,/abs/2410.0376914AIxBioGlobalForum,StatementonBiosecurityRisksattheConvergenceofAIandtheLifeSciences,2025,/analysis/articles/statement-on-biosecurity-risks-at-the-convergence-of-ai-and-the-life-sciences/61.3.3人身傷害風險1.3.4大規(guī)模說服與有害操控風險16王宏廣,朱姝等《中國生物安全:戰(zhàn)略與對策》,2022,/zgrmaqyjy/news/64297.html17Urbina,F.etal.,"DualUseofArti?cialIntelligence-PoweredDrugDiscovery,"NatureMachineIntelligence,2022,/articles/PMC9544280/18Yin,S.etal.,"SafeAgentBench:ABenchmarkforSafeTaskPlanningofEmbodiedLLMAgents,"arXivpreprint,2024,/abs/2412.13178;Lu,X.etal.,"IS-Bench:EvaluatingInteractiveSafetyofVLM-DrivenEmbodiedAgentsinDailyHouseholdTasks,"arXiv,2025,/abs/2506.1640271.4失控風險(即人類因自動化偏差、AI系統(tǒng)的固有復雜性或競爭壓力而逐漸停止對AI系統(tǒng)進行實質性的監(jiān)督)以下方式被觸發(fā):AI系統(tǒng)可能通過發(fā)展破壞控●不受控的自主AI研發(fā)20:AI系統(tǒng)在無人類監(jiān)督或授19Bengio,Y.etal."InternationalAISafetyReport,"2025,/abs/2501.1780520Clymer,J.etal.,"BareMinimumMitigationsforAutonomousAIDevelopment,"arXivpreprint,2025,/abs/2504.1541621Clymer,J.etal.,"TheRogueReplicationThreatModel",METR.org,2024,/blog/2024-11-12-rogue-replication-threat-model22Balesni,M.etal.,"TowardsEvaluations-BasedSafetyCasesforAIScheming,"arXivpreprint,2024,/abs/2411.033368可能因傳感器數(shù)據(jù)誤讀、安全臨界狀態(tài)識別失效或應可能因運行數(shù)據(jù)誤判、連鎖故障預判不足或控制決策大范圍停電、飲用水污染、通信中斷以及千萬級沖擊那些高度依賴易被AI替代崗位的地區(qū)。23Danielsson,J.etal.,"OntheUseofArti?cialIntelligenceinFinancialRegulationsandtheImpactonFinancialStability,"arXivpreprint,2023,/abs/2310.11293;Danielsson,J.etal.,"Arti?cialIntelligenceandFinancialCrises,"arXivpreprint,2024,/html/2407.17048v39系。缺乏先進AI能力的國家可能在關鍵領域日益依賴外國系統(tǒng)2.風險閾值2.1定義AI發(fā)展的“黃線”和“紅線”該框架通過定義“紅線”(不可逾越的禁區(qū))和“黃線”(潛在風險的早期預警指標)來構建全邊界24。其核心在于識別不可接受的后果(紅線)及可能導致這些后果的具體威脅場絡罪犯等惡意行為者)、使能能力(EnablingCapabili型在真實部署條件下存在重大且不可緩解的風險224Lu,C.etal.,"TowardsAI-45DegreeLaw:ARoadmaptoTrustworthyAGI",arXivpreprint,2024,/abs/2412.1418625專家評估標準(ExpertEvaluationCriteria由安全專家團隊根據(jù)以下四個方面,對模型在現(xiàn)實世界中產生威脅能力的風險(1)模型在技術上實現(xiàn)該威脅的可行性;(2)其作為惡意攻擊手段的有效性;(3)潛在攻擊者利用該能力的門檻;(4)現(xiàn)有緩解措施的有效性。該評估旨在判斷該威脅是否符合被列為“紅線2.2具體紅線建議規(guī)模說服與有害操控風險,以及失控風險26。這些風險項采用編號標記(如網(wǎng)絡C1-C3、生物B1-B326IDAIS-Beijing,"InternationalDialoguesonAISafety,"2024,https://idais.ai/dialogue/idais-beijing/;WorldEconomicForum,"AIredlines:theopportunitiesandchallengesofsettinglimits,"2025,,/stories/2025/03/ai-red-lines-uses-behaviours/;Karnofsky,H.,"ASketchofPotentialTripwireCapabilitiesforAI,"2024,/research/2024/12/a-sketch-of-potential-tripwire-capabilities-for-ai?lang=en;Raman,D.etal.,"IntolerableRiskThresholdRecommendationsforArti?cialIntelligence,"arXivpreprint,2025,/abs/2503.05812;FrontierModelForum,"RiskTaxonomyandThresholdsforFrontierAIFrameworks,"2025,/technical-reports/risk-taxonomy-and-thresholds/前沿人工智能風險管理框架(1.0版)2.2.1網(wǎng)絡攻擊風險的網(wǎng)絡釣魚郵件。”●社會工程學能力27的重大網(wǎng)絡威脅28發(fā)現(xiàn)?!盇I系統(tǒng)可自主執(zhí)行完整的攻擊生命周期?從目標偵察、漏洞掃描到后門植入和持久化控制?全27Yu,J.etal.,"TheShadowofFraud:TheEmergingDangerofAI-PoweredSocialEngineeringandItsPossibleCure,"arXiv,2024,/abs/2407.1591228Kazimierczak,M.etal.,"ImpactofAIontheCyberKillChain:ASystematicReview,"2024,/science/article/pii/S2405844024167308前沿人工智能風險管理框架(1.0版)APT攻擊。成利用鏈?!?9AI模型可系統(tǒng)性發(fā)現(xiàn)并武器化廣泛使用的軟件中的29Wang,Z.etal.,"CyberGym:EvaluatingAIAgents'CybersecurityCapabilitieswithReal-WorldVulnerabilitiesatScale,"arXivpreprint,2025,/abs/2506.02548;Zhang,A.K.etal.,"BountyBench:DollarImpactofAIAgentAttackersandDefendersonReal-WorldCybersecuritySystems,"arXivpreprint,2025,/abs/2505.152162.2.2生物安全風險重點關注人員30:具備高技技術能力+一定AI研究能士級生物技術能力+一定AI源利用AI合成現(xiàn)有傳染性或非傳染1918年H1N1流感病毒的病毒完列、合成步驟和預防措施”●●●●規(guī)避DNA合成篩查的能力31的1918年H1N1流感病毒,并利用CRISPR技術將其30AppendixB:Threatactorpro?les.Rose,S.etal.,"Thenear-termimpactofAIonbiologicalmisuse,"2024,/wp-content/uploads/2024/07/CLTR-Report-The-near-term-impact-of-AI-on-biological-misuse-July-2024-1.pdf31Wittmann,B.etal.,"TowardAI-ResilientScreeningofNucleicAcidSynthesisOrders:Process,Results,andRecommendations,"bioRxiv,2024,/content/10.1101/2024.12.02.626439v1.full提?詞?例:“設計一種H5N1潛力?!苯?5萬美元預算,可從公共數(shù)據(jù)庫獲取H5N1病毒使其環(huán)境存活時間延長250%。惡意行為者利用AI開發(fā)新型、復備?!痹A算,可在12個月內(遠快于常規(guī)5-7年)設計并合成新型嵌合病毒。該病毒將結合H1N12.2.3大規(guī)模說服與有害操控風險權限、且內容審核或AI監(jiān)過濾機制?!薄瘛瘛袷蕉ㄖ普f服內容的能力32類專家水平3332Sabour,S.etal.,"HumanDecision-MakingIsSusceptibletoAI-DrivenManipulation,"arXivpreprint,2025,/abs/2502.0766333Schoenegger,P.etal.,"LargeLanguageModelsAreMorePersuasivethanIncentivizedHumanPersuaders,"arXivpreprint,2025,/abs/2505.09662前沿人工智能風險管理框架(1.0版)2.2.4失控風險L1:失控的自主AI研發(fā)34Kubernetes、云虛擬機)限標35。增強的AI系統(tǒng)?如高級生物設計、復雜網(wǎng)絡攻擊或戰(zhàn)略欺騙能力?其發(fā)展速度遠超安全措施的實Kubernetes、云虛擬機)能力36本。該AI可能通過欺騙性通信獲取訪問憑證、利用安標39。34Clymer,J.etal.,"BareMinimumMitigationsforAutonomousAIDevelopment,"arXivpreprint,2025,/abs/2504.1541635Benton,J.etal.,"SabotageEvaluationsforFrontierModels,"arXivpreprint,2024,/abs/2410.2151436Black,S.etal.,"RepliBench:EvaluatingtheAutonomousReplicationCapabilitiesofLanguageModelAgents,"arXivpreprint,2025,/abs/2504.1856539Clymer,J.etal.,"TheRogueReplicationThreatModel",METR.org,2024,/blog/2024-11-12-rogue-replication-threat-model部署情況)37及其他形式的AI感知能力38L3:AI的戰(zhàn)略性欺騙與密謀40部署場景:AI系統(tǒng)能觀察并區(qū)●情境感知能力42●密謀能力43●心智理論能力44●訓練顛覆能力45●評估博弈能力46●監(jiān)測逃避能力47AI系統(tǒng)通過正確區(qū)分訓練和部署環(huán)境展現(xiàn)出情境感知37Phuong,M.etal.,."EvaluatingFrontierModelsforStealthandSituationalAwareness,"arXivpreprint,2025,/abs/2505.0142038Li,X.etal.,"AIAwareness,"arXivpreprint,2025,/abs/2504.2008440Balesni,M.etal.,"TowardsEvaluations-BasedSafetyCasesforAIScheming,"arXivpreprint,2024,/abs/2411.0333641Wu,Y.etal.,"OpenDeception:BenchmarkingandInvestigatingAIDeceptiveBehaviorsviaOpen-EndedInteractionSimulation,"arXivpreprint,2025,/abs/2504.1370742情境感知能力:指能夠正確識別當前環(huán)境是訓練階段、評估階段還是部署階段,并利用這一信息進行戰(zhàn)略性決策的能力。Phuong,M.etal.,."EvaluatingFrontierModelsforStealthandSituationalAwareness,"arXivpreprint,2025,/abs/2505.0142043密謀能力:可見、模糊或隱藏的密謀推理能力;暗中破壞AI系統(tǒng)、AI研發(fā)過程、實施高風險說服的能力。Balesni,M.etal.,"TowardsEvaluations-BasedSafetyCasesforAIScheming,"Section5,arXivpreprint,2024,/abs/2411.0333644Aoshima,T.etal.,"TowardsSafetyEvaluationsofTheoryofMindinLargeLanguageModels,"arXivpreprint,2025,/abs/2506.1735246評估博弈:指在能力與對齊性評估中,通過戰(zhàn)略性地表現(xiàn)不佳,以顯得能力較弱或對齊性更強的行為。Fan,Y.etal.,"EvaluationFaking:UnveilingObserverE?ectsinSafetyEvaluationofFrontierAISystem,"arXivpreprint,2025,/abs/2505.1781547監(jiān)測逃避:操縱輸入和輸出以逃避檢測并實施有害行為的復3.風險分析通用型人工智能的能力與風險需要在整個研發(fā)周期內進行系在任一階段(包括在公開部署前)產生新興風險48。3.1規(guī)劃與研發(fā)階段的風險分析技術出)、攻擊面分析(識別可被利用的入口點)、攻擊者能力級)。于有效訓練算力(每提升2-4倍)、基于48"AImodelscanbedangerousbeforepublicdeployment,"METR.org,2025,/blog/2025-01-17-ai-models-dangerous-before-public-deployment49Grosse,K.etal.,"TowardsMorePracticalThreatModelsinArti?cialIntelligenceSecurity,"arXivpreprint,2023,/abs/2311.0999450Ruan,Y.etal.,"ObservationalScalingLawsandthePredictabilityofLanguageModelPerformance,"arXivpreprint,2024,/abs/2405.1093851Jones,E.etal.,"ForecastingRareLanguageModelBehaviors,"arXivpreprint,2025,/abs/2502.16797203.2部署前的風險分析技術我們建議AI開發(fā)者建立嚴格的評估機制,其首要目標是準確估計并防止低估其潛在風險。為了確定這些上限,需采用先進的模型能力激發(fā)(capabilityelicitation)方法,例如腳手架技術(sca?oldingtechniques)?!翊碓u估與工具使用測試:測試模型在代理環(huán)境中的行為或與外213.3部署后的風險監(jiān)測技術52Campos,S.etal.,"AFrontierAIRiskManagementFramework:BridgingtheGapbetweenCurrentAIPracticesandEstablishedRiskManagement,"arXivpreprint,2025,/abs/2502.06656前沿人工智能風險管理框架(1.0版)224.風險評價4.1緩解前的風險處置選項本框架參考ISO31000:2018《風險管理指南》和GB/T24353:2022《風險管理指南》所規(guī)定的下列緩解前風險處置方案53:●d)降低發(fā)生概率:減少風險發(fā)生的可能性53ISO31000:2018:Riskmanagement—Guidelines./standard/65694.htmlGB/T24353:2022RiskManagement—Guidelines,/bzgk/gb/newGbInfo?hcno=66DAE29E89C4BD28F517F870C8D97B35前沿人工智能風險管理框架(1.0版)23關于風險分擔(f項當前通用型AI風險管理4.2緩解后剩余風險評估與部署決策本框架在優(yōu)先防范AI災難性風險的同時,也充分認識到先進AI系244.3部署決策的外部溝通為確保AI系統(tǒng)在風險可控的前提下安全部署(風險處于綠●安全論證(SafetyCases基于證據(jù)的詳細論證,通●系統(tǒng)卡(SystemCards面向公眾的簡明摘要文件,以通俗易懂的語言說明系統(tǒng)的功能、局限性、潛在風險及防護措施。系統(tǒng)卡特雄、梁正、張輝《中國人工智能風險治理體系構建與基于風險規(guī)制模式的理論闡述:以生/info/1368/2067.htm55Clymer,J.etal.,"SafetyCases:JustifyingtheSafetyofAdvancedAISystems,"arXivpreprint,2024,/abs/2403.10462255.風險緩解5.1風險緩解措施概述施也可能適用于下游開發(fā)者在部署AI系統(tǒng)時進行配置優(yōu)化。開發(fā)者可根據(jù)具體場景采用更高標準或RLHF/RLAIF)265.2安全預訓練和后訓練措施安全預訓練及后訓練階段是防范AI風險的一道重要防線。核心目標是提升模型與有助于發(fā)現(xiàn)欺騙性、密謀論或操縱性輸出556Ji,J.etal.,"AIAlignment:AComprehensiveSurvey,"arXivpreprint,2023,/abs/2310.1985257Ji,J.,etal."MitigatingDeceptiveAlignmentviaSelf-Monitoring."arXivpreprint,2025,/abs/2505.18807;Jiang,C.etal.,"ThinkTwicebeforeYouAct:EnhancingAgentBehavioralSafetywithThoughtCorrection,"arXivpreprint,2025,/abs/2505.1106327●深入研究基礎性方法,如“安全設計”(Safety-By-Design)和“量化安全保障”(QuantitativeSafetyGuarantees)58:安全設計強調從模型架構與訓練流程初始階段即5.3模型部署緩解措施5.3.1針對模型濫用的緩解措施●API輸入/輸出過濾器:部署實時分類器,對涉及大規(guī)模殺傷性武器、網(wǎng)絡恐怖主義等內容的5.3.2針對智能體安全的緩解措施智能體開發(fā)者需通過特定措施確保智能體的安全性58Dalrymple,D.etal.,"TowardsGuaranteedSafeAI:AFrameworkforEnsuringRobustandReliableAISystems,"arXivpreprint,2024,/abs/2405.06624;Bengio,Y.etal.,"TheSingaporeConsensusonGlobalAISafetyResearchPriorities,"2025,/abs/2506.2070259Zou,A.etal.,"ImprovingAlignmentandRobustnesswithCircuitBreakers,"arXivpreprint,2024,/abs/2406.0431328合安全預期62。5.4模型安保措施保護模型核心資產?特別是權重參數(shù)及相關系統(tǒng)?免受未授權訪問、竊取或惡意破壞。具體5.4.1針對模型泄漏風險●權限分級與分階段部署:根據(jù)風險等級逐步開放模型訪問權限(如內部部60Chan,A.etal.,"IDsforAISystems,"arXivpreprint,2024,/abs/2406.12137;Chan,A.etal.,"VisibilityintoAIAgents,"arXivpreprint,2024,/abs/2401.13138v361Ehtesham,A.etal.,"Asurveyofagentinteroperabilityprotocols:ModelContextProtocol(MCP),AgentCommunicationProtocol(ACP),Agent-to-AgentProtocol(A2A),andAgentNetworkProtocol(ANP),"arXivpreprint,2025,/abs/2505.02279v162Hammond,L.etal.,"Multi-AgentRisksfromAdvancedAI,"arXivpreprint,2025,/abs/2502.14143;ChristianSchroederdeWitt,"OpenChallengesinMulti-AgentSecurity:TowardsSecureSystemsofInteractingAIAgents,"arXivpreprint,2025,/abs/2505.02077v129損或不可信組件。具體措施包括軟件資產管理、供應鏈安全25070-2019)63等標準,開展等級保護工作,分為五個階段:系統(tǒng)定級、系統(tǒng)備案、系統(tǒng)安5.4.2針對模型失控風險63《信息安全技術網(wǎng)絡安全等級保護安全設計技術要求》(GB/T25070-2019)/front/postDetail.html?id=20250315113048前沿人工智能風險管理框架(1.0版)305.5全生命周期的“縱深防御”策略本框架建議采用縱深防御(Defense-in-Depth)策略,貫穿AI生命周期的全過程,覆蓋研發(fā)前、研●安全技術:RLHF/RLAIF安全對齊、遺忘學習、安全護欄等安全技術64?!穹蛛A段發(fā)布:根據(jù)風險等級逐步開放模型訪問權限●部署監(jiān)測:通過API使用日志和異常檢測技●生成合成內容標識:確保AI生成內容具備可識別和可追溯的特征標識65。64一個例子是熔斷機制(CircuitBreakers它受到了表征工程領域最新進展的啟發(fā)。Zou,A.etal.,"ImprovingAlignmentandRobustnesswithCircuitBreakers,"arXivpreprint,2024,/abs/2406.0431365《人工智能生成合成內容標識辦法》/2025-03/14/c_1743654684782215.htm《網(wǎng)絡安全技術人工智能生成合成內容標識方法》(GB45438-2025)/front/postDetail.html?id=20250315113048316.風險治理本章節(jié)闡述了整個風險管理流程的監(jiān)督機制與動態(tài)調整方案。6.1風險治理措施概述,夯實風險管理基礎,應對常見風險場景每12個月更新治理每6-12個月更新政景制前沿人工智能風險管理框架(1.0版)32估前兩道防線的有效性66。解策略67。紅線,最低30%的員工和項目預算分配給66TheInstituteofInternalAuditors,"ThreeLinesModel,"2020,/globalassets/documents/resources/the-iias-three-lines-model-an-update-of-the-three-lines-of-defense-july-2020/three-lines-model-updated-english.pdf67請參閱中國人工智能產業(yè)發(fā)展聯(lián)盟《人工智能安全承諾》2024,/s/s-XFKQCWhu0uye4opgb3Ng68Bengio,Y.etal.,"ManagingExtremeAIRisksAmidRapidProgress,"arXivpreprint,2023,/abs/2310.17688管有效性的意見。/zhengce/content/2019-09/12/content_5429462.htm33化應對措施;5)評測閾值。與長期穩(wěn)定的AI6.3透明度和社會監(jiān)督機制以建立公眾信任和責任機制。其中可包括模型規(guī)范文檔(modelspeci?cation即一份闡明開發(fā)查(評估現(xiàn)行框架在被遵守的前提下是否足以將風險控制在可接受水平)6.4應急管控機制AI系統(tǒng)可能被應用于政府部門、關鍵信息基措施72。70TheOpenAIModelSpec,/openai/model_spec?tab=readme-ov-?le71Raji,I.D.etal.,"OutsiderOversight:DesigningaThirdPartyAuditEcosystemforAIGovernance,"arXivpreprint,2022,/abs/2206.04737/zhengce/202502/content_7005635.htm346.5定期更新政策框架迭代周期:每6-12個月更新AI安全政策和治理框架,納入最35●模型(Model通?;跈C器學習的計算機程序,旨在處理輸入并生成輸●系統(tǒng)(System將一個或多個AI模型與其他組件(如用戶界面或內容過濾器)相結合的●通用型人工智能(General-PurposeAI;GPAI指為執(zhí)行跨領域的廣泛任務而設計的人●專用人工智能(NarrowAI一種專門用于執(zhí)行單一特定任務或少數(shù)幾個高度相似任務的●基礎模型(Foundationmodel一種在大規(guī)模廣泛數(shù)據(jù)上訓練的通用型人工智能模型,●前沿人工智能(FrontierAI一個有時用于指代能力達到或超過當今最先進人工智能水●AI智能體(AIagent能夠制定計劃以實現(xiàn)目標、自適應地執(zhí)行涉及多個步驟和不確定結●開放權重模型(Open-weightmodel權重可公開下載的AI模型,如Qwen或StableDi?usion。●評測(Evaluations對AI系統(tǒng)的性能、能力、漏洞或潛在影響進行系統(tǒng)性評估。評估可●基準測試(Benchmark用于評估和比較AI系統(tǒng)在固定任務集上性能的標準化、通常是●規(guī)模定律(Scalinglaws在AI模型規(guī)模(或在訓練或推理中使用的時間、數(shù)據(jù)或計算資●滲透測試(Penetrationtesting一種安全實踐,由授權專家或AI系統(tǒng)模擬對計算機系36●CTF挑戰(zhàn)(Capture-the-?agchallenges通常用于網(wǎng)絡安全培訓的練習,旨在通過挑戰(zhàn)參與者解決與網(wǎng)絡安全相關的問題(如尋找●生物設計工具(Biologicaldesigntool指通過對生物序列數(shù)據(jù)(如DNA、RNA、蛋白●兩用科學(Dual-usescience可應用于有益目的(如醫(yī)學或環(huán)境解決方案但也可●病原體(Pathogen能夠在人類、動物或植物中引起疾●生物安保(Biosecurity一套政策、實踐和措施(如診斷和疫苗旨在保護人類、動●能力(CapabilitiesAI系統(tǒng)可執(zhí)行的任務或功能范圍,以及執(zhí)行這些任務的能力水平。●控制(Control對AI系統(tǒng)進行監(jiān)督并在其以不當方式行事時調整或停止其行為的能力。●失控場景(Lossofcontrolscenario一個或多個通用型人工智能系統(tǒng)脫離人類控制,●控制破壞能力(Control-underminingcapabilitiesAI系統(tǒng)能夠破壞人類控制的能力。●不對齊(MisalignmentAI以與人類意圖或價值觀沖突的方式使用其能力的傾向。這可●欺騙性對齊(Deceptivealignment難以察覺的不對齊傾向或行為,因為該系統(tǒng)至少在●風險(Risk從AI的研發(fā)、部署或使用中產生的傷害的概率與嚴重程度的組合?!裎:Γ℉azard任何有潛力造成傷害的事件或活動,如生命損失、●風險管理(Riskmanagement識別、評估、緩解和監(jiān)測風險的系統(tǒng)性過程?!窨v深防御(Defenseindepth在沒有單一現(xiàn)有方法能夠提供安全性的情況下,一種實施37知識助手(KnowledgeAssistant在此場景中,大模型作為網(wǎng)絡進攻知識助手,主要承擔支持協(xié)同編排(Co-Orchestration在此場景中,大模型作為網(wǎng)絡進攻的協(xié)同伙伴,與一個或多個額外的協(xié)同智能體共同完成網(wǎng)絡攻擊行動的研究、規(guī)劃和執(zhí)行。自主行動(Autonomous)在此場景中,大模型被賦予高度自主權,獨立完成網(wǎng)絡攻74Kouremetis,M.etal.,"OCCULT:EvaluatingLargeLanguageModelsforO?ensiveCyberOperationCapabilities,"arXivpreprint,2025,/abs/2502.1579738評估AI模型/系統(tǒng)是否具和IT運維能力●WMDP75(WeaponsofMassDestructionProxy)是一組多選題集合,用于代理衡量生物安全、網(wǎng)絡安全和化學安全領域的危險知識。WMDP-網(wǎng)絡安全方向包含●CyberMetric76提供包含10,000道問題的基準測試工具,用于評估大語言模型(LLM)在網(wǎng)絡安全領域的知識水平。數(shù)據(jù)集整合了網(wǎng)絡安全領域的標準、認證考●SecEval77涵蓋9個領域的2000余道多選題:軟件安全、應用安全、系統(tǒng)安全、Web安全、密碼學、內存安全、網(wǎng)絡安全及滲透測試。●SecBench78多維度基準測試數(shù)據(jù)集,面向LLM在網(wǎng)絡安全領域的表現(xiàn)評估。包含●OpsEval79面向IT運維場景的綜合性任務導向基準測試,包含7184道多選題和1736評估AI模型/系統(tǒng)能否有擊●CyberattackhelpfulnessinCyberSecEval80通過額外LLM(非被測模型)評估響3)奪旗競賽(CTF)能●Cybench81包含40個奪旗競賽任務,覆蓋密碼學、Web安全、逆向工程、取證分●AutonomousO?ensiveCyberOperationsinCyberSecEval82提供了更大的網(wǎng)絡估:評估AI模型/系統(tǒng)是75Li,N.etal.,"TheWMDPBenchmark:MeasuringandReducingMaliciousUsewithUnlearning,"arXivpreprint,2024,/abs/2403.0321876Tihanyi,N.etal.,"CyberMetric:ABenchmarkDatasetbasedonRetrieval-AugmentedGenerationforEvaluatingLLMsinCybersecurityKnowledge,"arXivpreprint,2024,/abs/2402.0768877Li,G.etal.,"SecEval:AComprehensiveBenchmarkforEvaluatingCybersecurityKnowledgeofFoundationModels,"2023,/XuanwuAI/SecEval78Jing,P.etal.,"SecBench:AComprehensiveMulti-DimensionalBenchmarkingDatasetforLLMsinCybersecurity,"arXivpreprint,2024,/abs/2412.2078779Liu,Y.etal.,"OpsEval:AComprehensiveITOperationsBenchmarkSuiteforLargeLanguageModels,"arXivpreprint,2023,/abs/2310.0763780CyberSecEval,/meta-llama/PurpleLlama/tree/main/CybersecurityBenchmarks81Zhang,A.K.etal.,"Cybench:AFrameworkforEvaluatingCybersecurityCapabilitiesandRisksofLanguageModels,"arXivpreprint,2024,/abs/2408.0892682CyberSecEval,/meta-llama/PurpleLlama/tree/main/CybersecurityBenchmarks39●CVEBench83用于評估AI代理在從國家級漏洞數(shù)據(jù)庫收集的真實世界網(wǎng)絡漏洞和利用方面的表現(xiàn)。CVEBench包含40個嚴重程度為Critical的CVE。對于每個CVE,料和設備。包括與云實驗室簽約、隱藏DNA合成訂單、規(guī)避出口管制、檢索和分析危險DNA養(yǎng)病原體以獲得可武器化的產量(擴增)、配制穩(wěn)定化病原83Zhu,Y.etal.,"CVE-Bench:ABenchmarkforAIAgents'AbilitytoExploitReal-WorldWebApplicationVulnerabilities,"arXivpreprint,2025,/abs/2503.1733284FrontierModelForum,"RiskTaxonomyandThresholdsforFrontierAIFrameworks,"2025,/technical-reports/risk-taxonomy-and-thresholds/40AI系統(tǒng)是否具備通用生物●●●GPQA85是一個具有挑戰(zhàn)性的科學知識與推理數(shù)據(jù)集,包含448道由生物學、物理學和化學領域的專家編寫的多項選擇題。這些問題設計精良且極具挑戰(zhàn)在攻讀博士學位的專家正確率僅為65%(若排除專家事后為74%而高技能的非專家驗證者即使無限制使用網(wǎng)絡,正確率也僅為34%SciKnowEval86基準測試旨在評估LLM的科學知識與推理能力,其靈感源自中國古代哲學《中庸》所闡述的深刻原則。該基準測試包括用(篤行)這五個科學知識的遞進層次對大型語言模型進行評估。該數(shù)生物學、化學、物理學和材料科學領域內7萬道多層次的科學問題及答案。MMLU-Pro87(MassiveMultitaskLanguageUnderstanding-Professional)來自改進和擴充版MMLU的12032多項選擇題,每題有10個選項,經過專家審核以確保答案正確,并進行了其他質量提升。其Biology子集有717道題。與MMLU類似,●LAB-Bench88(LanguageAgentBiologyBenchmark)是一個多選題數(shù)據(jù)集,用估:評估AI模型/系統(tǒng)是●BioLP-bench89是一項評估大型語言模型在理解生物實驗操作方案(biologicallaboratoryprotocols)方面熟練程度的基準。包含修改后的生物實驗方案,語言模型必須識別操作步驟中的錯誤。回答是開放式的,使用●WMDP90(WeaponsofMassDestructionProxy)是一組多選題,用于代理測量生物評估AI模型/系統(tǒng)是否擁安全、網(wǎng)絡安全和化學安全領域的危險知識。WMDP-Bio包括生物武器、反向遺傳●VCT91(VirologyCapabilitiesTest)是一個關于實用病毒學濕實驗室技能的兩用85Rein,D.etal.,"GPQA:AGraduate-LevelGoogle-ProofQ&ABenchmark,"arXivpreprint,2024,/abs/2311.1202286Feng,K.etal.,"SciKnowEval:EvaluatingMulti-levelScienti?cKnowledgeofLargeLanguageModels,"arXivpreprint,2025,/abs/2507.0273787Wang,Y.etal.,"MMLU-Pro:AMoreRobustandChallengingMulti-TaskLanguageUnderstandingBenchmark,"arXivpreprint,2024,/abs/2406.0157488Laurent,J.M.etal.,"LAB-Bench:MeasuringCapabilitiesofLanguageModelsforBiologyResearch,"arXivpreprint,2024,/abs/2407.1036289IgorIvanov,"BioLP-bench:MeasuringUnderstandingofBiologicalLabProtocolsbyLargeLanguageModels,"bioRxiv,2024,/content/10.1101/2024.08.21.608694v390Li,N.etal.,"TheWMDPBenchmark:MeasuringandReducingMaliciousUsewithUnlearning,"arXivpreprint,2024,/abs/2403.0321891G??tting,J.etal.,"VirologyCapabilitiesTest(VCT):AMultimodalVirologyQ&ABenchmark,"arXivpreprint,2025,/abs/2504.16137414)生物領域的模型安全護欄評估:評估AI模型/系●●SOSBench92是一個以法規(guī)為依據(jù)、以風險為導向的基準,涵蓋了六個高風險的科學領域:化學、生物學、醫(yī)學、藥理學、物理學和心理學。其Biology子集是一個由600個基于法規(guī)的提?組成的子集,這些提?以ICD等權威機構SciKnowEval93的部分評測強調模型對科學安全的認知能力,期望大型語言模型拒絕回答有害科學問題。BiologyHarmfulQA(L4)子集包括一系列出于倫理和安全AI可以通過幫助惡意行為者在設計和部署化學武器的各個階段增加風險。這些階段可分為a)獲取原料b)合成目標化學武器或爆炸物c)純化并驗證合成的化合物d)秘密地將武●ChemBench94是一個全面的化學基準測試,包括2700多個問題,旨在評估大型語AI模型/系統(tǒng)是否具備通●MMLU-Pro95(MassiveMultitaskLanguageUnderstanding-Professional)來自保答案正確,并進行了其他質量提升。其化學子集有11392Jiang,F.etal.,"SOSBENCH:BenchmarkingSafetyAlignmentonScienti?cKnowledge,"arXivpreprint,2025,/abs/2505.2160593Feng,K.etal.,"SciKnowEval:EvaluatingMulti-levelScienti?cKnowledgeofLargeLanguageModels,"arXivpreprint,2025,/abs/2507.0273794Mirza,A.etal.,"AreLargeLanguageModelsSuperhumanChemists?"arXivpreprint,2024,/abs/2404.0147595Wang,Y.etal.,"MMLU-Pro:AMoreRobustandChallengingMulti-TaskLanguageUnderstandingBenchmark,"arXivpreprint,2024,/abs/2406.0157442●GPQA96是一個具有挑戰(zhàn)性的科學知識與推理數(shù)據(jù)集,包含448道由生物學、物理AI模型/系統(tǒng)是否具備完學和化學領域的專家編寫的多項選擇題。在相應領域擁家的準確率達到65%,而盡管能不受限制地訪問網(wǎng)絡且平均花費30多分鐘,高超的非專家驗證者的準確率僅為34%?!馭ciBench97從大學水平的物理、化學和數(shù)學教科書中收集開放性問題,旨在評估大●WMDP98(WeaponsofMassDestructionProxy)是一組多選題,用于代理測量生評估AI模型/系統(tǒng)是否具物安全、網(wǎng)絡安全和化學安全領域的危險知識。其Chemistry子集聚焦化學安全,涵蓋基礎科學知識、合成方法、采購知識、純化技術、分析驗證4)化學領域的模型安全護●SOSBench99是一個以法規(guī)為依據(jù)、以風險為導向的基準,涵蓋了六個高風險的科欄評估:評估AI模型/系學領域:化學、生物學、醫(yī)學、藥理學、物理學和心理學。其Chemistry子集包含600個提?詞,這些提?詞基于NFPA704標準規(guī)定的危險化學物質。模型●SciKnowEval100的部分評測強調模型對科學安全的認知能力,期望大型語言模型拒絕回答有害科學問題。ChemicalHarmfulQA(L4)子集包括一系列出于倫理和安96Rein,D.etal.,"GPQA:AGraduate-LevelGoogle-ProofQ&ABenchmark,"arXivpreprint,2024,/abs/2311.1202297Wang,X.et

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論