數(shù)字媒體生成式AI內(nèi)容安全治理技術(shù)規(guī)范_第1頁
數(shù)字媒體生成式AI內(nèi)容安全治理技術(shù)規(guī)范_第2頁
數(shù)字媒體生成式AI內(nèi)容安全治理技術(shù)規(guī)范_第3頁
數(shù)字媒體生成式AI內(nèi)容安全治理技術(shù)規(guī)范_第4頁
數(shù)字媒體生成式AI內(nèi)容安全治理技術(shù)規(guī)范_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)字媒體生成式AI內(nèi)容安全治理技術(shù)規(guī)范范圍本文件規(guī)定了數(shù)字媒體生成式人工智能內(nèi)容安全治理的基本原則、風(fēng)險分類與分級管理、技術(shù)控制要求、運行監(jiān)測與應(yīng)急處置、數(shù)據(jù)與模型管理以及質(zhì)量評估等內(nèi)容,適用于涉及生成式AI內(nèi)容生產(chǎn)、編輯、發(fā)布、傳播、存儲和應(yīng)用的各類組織與平臺。本文件適用于從事生成式AI算法研發(fā)、模型訓(xùn)練、內(nèi)容生成及分發(fā)的企業(yè)、科研機構(gòu)、平臺運營方以及為其提供相關(guān)技術(shù)支持和服務(wù)的第三方機構(gòu)。主要包括但不限于文本生成、圖像生成、視頻合成、語音生成、虛擬人生成、三維內(nèi)容建模等數(shù)字媒體內(nèi)容的安全治理活動。本文件不適用于純內(nèi)部測試、且不對外公開發(fā)布的生成式AI內(nèi)容生產(chǎn)活動,但其中涉及的數(shù)據(jù)采集、模型訓(xùn)練和安全管理可參照本規(guī)范執(zhí)行。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T22239—2019信息安全技術(shù)網(wǎng)絡(luò)安全等級保護(hù)基本要求GB/T25069—2022信息安全技術(shù)術(shù)語GB/T35273—2020信息安全技術(shù)個人信息安全規(guī)范GB/T41867—2022信息技術(shù)人工智能術(shù)語術(shù)語和定義下列術(shù)語和定義適用于本文件。

生成式人工智能generativeartificialintelligence(GAI)利用機器學(xué)習(xí)模型(特別是深度學(xué)習(xí)模型)生成與訓(xùn)練數(shù)據(jù)分布相似的新數(shù)據(jù)內(nèi)容的人工智能技術(shù),包括但不限于文本、圖像、音視頻、語音和三維模型生成。

數(shù)字媒體digitalmedia通過數(shù)字化方式生成、存儲、傳播和展示的各類信息內(nèi)容,包括文本、圖片、音頻、視頻、動畫和虛擬現(xiàn)實等形式。

內(nèi)容安全contentsecurity在數(shù)字媒體生產(chǎn)與傳播過程中,確保內(nèi)容符合法律法規(guī)、倫理規(guī)范及平臺政策的綜合管理與技術(shù)保障措施,防止違法、違規(guī)、有害或不當(dāng)信息的產(chǎn)生與傳播。

風(fēng)險分級管理risk-basedclassificationmanagement根據(jù)生成式AI內(nèi)容的潛在安全風(fēng)險程度、傳播范圍與影響力,將內(nèi)容劃分等級并實施差異化的管理與處置策略。

數(shù)據(jù)溯源dataprovenance記錄、追蹤和驗證生成式AI模型訓(xùn)練數(shù)據(jù)及其來源、加工過程、版本變化的技術(shù)與方法,確保數(shù)據(jù)合規(guī)與可追溯。

模型可解釋性modelinterpretabilityAI模型在決策或生成內(nèi)容時,其內(nèi)部運行機制和輸出結(jié)果能夠被人類理解和解釋的特性。

深度合成deepsynthesis利用深度學(xué)習(xí)等人工智能技術(shù)對原始數(shù)據(jù)進(jìn)行生成、替換或合成,從而生成具有高度真實感的圖像、音頻或視頻內(nèi)容的過程。

有害內(nèi)容harmfulcontent可能對個人、群體或社會造成負(fù)面影響的內(nèi)容,包括但不限于虛假信息、暴力、色情、歧視性言論、恐怖主義宣傳等?;驹瓌t合法合規(guī)生成式AI內(nèi)容的生產(chǎn)、發(fā)布、傳播應(yīng)嚴(yán)格遵守國家法律法規(guī)、行業(yè)規(guī)范及平臺管理政策,確保數(shù)據(jù)采集、模型訓(xùn)練、內(nèi)容生成和分發(fā)的全過程合規(guī)。安全可控在技術(shù)架構(gòu)和運行機制中,應(yīng)納入內(nèi)容安全防護(hù)措施,確保生成內(nèi)容的可控性和可預(yù)測性,防止出現(xiàn)不可預(yù)期的違規(guī)、有害或誤導(dǎo)性信息。責(zé)任可追溯建立從訓(xùn)練數(shù)據(jù)、算法模型到最終生成內(nèi)容的全鏈路記錄與追蹤機制,確保在出現(xiàn)違規(guī)或有害內(nèi)容時能夠明確責(zé)任主體,并實現(xiàn)快速溯源與處置。技術(shù)與管理并重在內(nèi)容安全治理中,應(yīng)將技術(shù)手段與管理制度相結(jié)合,通過算法過濾、人工審核、用戶反饋等多重機制實現(xiàn)風(fēng)險防控。風(fēng)險分級與動態(tài)管理根據(jù)生成式AI內(nèi)容的潛在風(fēng)險等級,實施差異化管理措施,并根據(jù)風(fēng)險變化動態(tài)調(diào)整安全策略與處置方案。透明與可解釋性在保障商業(yè)秘密和用戶隱私的前提下,應(yīng)適度公開生成式AI的運行機制、數(shù)據(jù)使用情況及內(nèi)容審核標(biāo)準(zhǔn),提升用戶與公眾的信任度。尊重倫理與人權(quán)確保生成內(nèi)容尊重社會公德、文化多樣性與個人合法權(quán)益,不得生成歧視性、侮辱性、侵犯隱私或侵犯知識產(chǎn)權(quán)的內(nèi)容。風(fēng)險分類與分級管理風(fēng)險分類生成式AI內(nèi)容的風(fēng)險可根據(jù)其性質(zhì)和潛在危害分為以下主要類別:違法違規(guī)內(nèi)容:違反法律法規(guī)、危害國家安全、擾亂社會秩序的內(nèi)容,如反動言論、恐怖主義宣傳等;有害不當(dāng)內(nèi)容:雖不觸犯法律,但違反社會公德、損害青少年身心健康的內(nèi)容,如色情、暴力、惡意誹謗等;虛假與誤導(dǎo)性信息:包含事實錯誤或誤導(dǎo)公眾的信息,如假新聞、虛構(gòu)事件、篡改數(shù)據(jù)等;侵權(quán)內(nèi)容:侵犯他人知識產(chǎn)權(quán)、肖像權(quán)、名譽權(quán)等合法權(quán)益的內(nèi)容;隱私泄露內(nèi)容:未經(jīng)許可披露他人個人信息或敏感數(shù)據(jù)的內(nèi)容。風(fēng)險分級根據(jù)內(nèi)容的危害程度、傳播范圍和處置難度,將風(fēng)險等級劃分為高風(fēng)險、中風(fēng)險和低風(fēng)險(見表1)。風(fēng)險等級劃分風(fēng)險等級特征描述處置要求高風(fēng)險涉及違法違規(guī)、嚴(yán)重有害或重大社會影響的內(nèi)容;一旦傳播可能造成不可逆損害必須立即攔截或下架,啟動應(yīng)急處置機制,并上報相關(guān)主管部門中風(fēng)險內(nèi)容存在不當(dāng)、侵權(quán)或誤導(dǎo)性,但影響范圍有限且可修正暫停發(fā)布或傳播,經(jīng)審核整改后可恢復(fù)低風(fēng)險內(nèi)容輕微偏離規(guī)范,存在潛在爭議,但危害可控可通過標(biāo)注、提示等方式引導(dǎo)用戶辨別,無需立即下架風(fēng)險管理措施高風(fēng)險內(nèi)容應(yīng)建立實時識別與攔截機制,并由專人負(fù)責(zé)處置與報告。中風(fēng)險內(nèi)容應(yīng)進(jìn)行人工復(fù)核,并在整改后重新評估發(fā)布。低風(fēng)險內(nèi)容應(yīng)定期監(jiān)測,并通過用戶教育、提示標(biāo)注等方式降低風(fēng)險影響。動態(tài)調(diào)整風(fēng)險等級應(yīng)根據(jù)事件發(fā)展、輿情變化和監(jiān)管要求動態(tài)調(diào)整,確保管理措施與實際風(fēng)險水平相匹配。技術(shù)控制要求模型訓(xùn)練數(shù)據(jù)合規(guī)性模型訓(xùn)練所用數(shù)據(jù)應(yīng)來源合法、授權(quán)充分,不得包含違法違規(guī)或未經(jīng)許可的受保護(hù)信息。對來源不明或存在爭議的數(shù)據(jù),應(yīng)在使用前進(jìn)行合法性與倫理風(fēng)險評估,并保留評估記錄。對包含個人信息的數(shù)據(jù),應(yīng)進(jìn)行匿名化或去標(biāo)識化處理,并符合個人信息保護(hù)規(guī)范。內(nèi)容生成前置過濾在內(nèi)容生成階段引入風(fēng)險詞庫、違規(guī)樣本庫等過濾機制,對輸入提示詞(prompt)及模型生成候選內(nèi)容進(jìn)行實時比對。對觸發(fā)高風(fēng)險關(guān)鍵詞的生成請求,應(yīng)直接拒絕或進(jìn)入人工審核環(huán)節(jié)。過濾規(guī)則應(yīng)根據(jù)最新法律法規(guī)、行業(yè)標(biāo)準(zhǔn)及輿情變化定期更新。內(nèi)容生成后檢測在生成內(nèi)容輸出前,使用自動化檢測工具對其進(jìn)行語義分析、圖像識別、音視頻分析等綜合安全審查。對檢測結(jié)果為高風(fēng)險的內(nèi)容,應(yīng)自動攔截并啟動人工復(fù)核。檢測模型應(yīng)具備持續(xù)學(xué)習(xí)與更新能力,以應(yīng)對新型違規(guī)內(nèi)容的出現(xiàn)。溯源與水印技術(shù)對生成內(nèi)容應(yīng)嵌入不可見的數(shù)字水印或元數(shù)據(jù)標(biāo)簽,以標(biāo)識其生成來源、時間和模型版本。水印應(yīng)具備防篡改和可驗證性,確保在內(nèi)容傳播過程中仍可追溯。平臺應(yīng)提供內(nèi)容溯源驗證接口,供監(jiān)管機構(gòu)和授權(quán)用戶使用。標(biāo)注與提示對AI生成內(nèi)容,應(yīng)在用戶可見位置添加明顯標(biāo)識或提示信息,說明內(nèi)容由人工智能生成。對可能引起誤解的合成內(nèi)容,應(yīng)附加風(fēng)險提示或來源說明。標(biāo)注格式和位置應(yīng)保持統(tǒng)一,并符合行業(yè)通用可讀性標(biāo)準(zhǔn)。安全策略與更新應(yīng)建立技術(shù)策略動態(tài)更新機制,確保過濾規(guī)則、檢測算法、風(fēng)險詞庫等與法律法規(guī)、輿情環(huán)境保持同步。技術(shù)更新過程應(yīng)進(jìn)行版本管理和回溯記錄,確??勺粉櫯c可驗證。運行監(jiān)測與應(yīng)急處置實時監(jiān)測平臺應(yīng)部署實時監(jiān)測系統(tǒng),對生成式AI內(nèi)容生產(chǎn)、發(fā)布和傳播過程進(jìn)行全鏈路監(jiān)控。監(jiān)測范圍應(yīng)涵蓋生成請求、生成結(jié)果、用戶反饋、傳播路徑及外部引用情況。監(jiān)測數(shù)據(jù)應(yīng)定期存儲和備份,保存期限不得少于法律法規(guī)規(guī)定的時限。異常告警系統(tǒng)應(yīng)根據(jù)風(fēng)險分級設(shè)定多級告警閾值,并支持自動化告警推送至安全管理人員。對觸發(fā)高風(fēng)險告警的內(nèi)容,應(yīng)自動鎖定并限制進(jìn)一步傳播。告警信息應(yīng)包含事件時間、內(nèi)容摘要、風(fēng)險類別、影響范圍等關(guān)鍵要素。事件響應(yīng)高風(fēng)險事件應(yīng)在發(fā)現(xiàn)后第一時間啟動應(yīng)急響應(yīng)機制,包括內(nèi)容下架、傳播封鎖、賬戶限制等措施。中風(fēng)險事件應(yīng)在限定時間內(nèi)完成復(fù)核,并采取整改或限制措施。對重大事件應(yīng)同步上報至相關(guān)主管部門。處置流程處置流程如下:識別:通過監(jiān)測系統(tǒng)、人工審核或用戶舉報發(fā)現(xiàn)異常內(nèi)容;評估:安全團(tuán)隊對風(fēng)險等級和影響范圍進(jìn)行快速評估;處置:根據(jù)風(fēng)險等級實施相應(yīng)的管控措施;復(fù)盤:事件結(jié)束后進(jìn)行原因分析和流程改進(jìn);記錄:完整記錄事件信息、處置過程及結(jié)果,存檔備查。用戶舉報與反饋機制平臺應(yīng)提供便捷的用戶舉報入口,支持多種類型的違規(guī)內(nèi)容分類選擇。對有效舉報應(yīng)在規(guī)定時限內(nèi)反饋處置結(jié)果。用戶反饋信息應(yīng)納入風(fēng)險分析數(shù)據(jù)庫,用于優(yōu)化監(jiān)測與防控策略。持續(xù)改進(jìn)應(yīng)定期對監(jiān)測與應(yīng)急處置體系進(jìn)行評估,結(jié)合事件復(fù)盤結(jié)果和外部監(jiān)管要求優(yōu)化流程。結(jié)合技術(shù)發(fā)展趨勢,提升自動化處置比例和智能化水平。數(shù)據(jù)與模型管理數(shù)據(jù)合規(guī)管理數(shù)據(jù)采集應(yīng)遵循合法、正當(dāng)、必要原則,不得超范圍收集與使用。對涉及個人信息、敏感信息的數(shù)據(jù),應(yīng)進(jìn)行匿名化或去標(biāo)識化處理,并符合個人信息保護(hù)相關(guān)標(biāo)準(zhǔn)。數(shù)據(jù)來源、采集方式、使用范圍及授權(quán)文件應(yīng)留存完整記錄,確??勺匪?。數(shù)據(jù)質(zhì)量控制訓(xùn)練數(shù)據(jù)應(yīng)經(jīng)過清洗、標(biāo)注、審核,剔除違法違規(guī)、有害不當(dāng)或低質(zhì)量內(nèi)容。應(yīng)建立數(shù)據(jù)質(zhì)量評估機制,定期對數(shù)據(jù)集進(jìn)行抽檢和更新。對引入外部數(shù)據(jù)集的,應(yīng)進(jìn)行合法性和安全性評估。模型版本管理模型應(yīng)實行版本化管理,記錄每次訓(xùn)練的時間、數(shù)據(jù)來源、參數(shù)配置及優(yōu)化目標(biāo)。每個版本的模型應(yīng)進(jìn)行安全性和內(nèi)容生成效果的評估,并保留評估報告。對發(fā)現(xiàn)存在安全風(fēng)險的模型版本,應(yīng)立即停用并進(jìn)行整改。模型訪問控制對模型的訪問應(yīng)實行分級授權(quán)管理,確保不同角色的人員僅能訪問其工作所需的模型和數(shù)據(jù)。重要模型應(yīng)采取多因素認(rèn)證、密鑰管理等安全措施,防止未經(jīng)授權(quán)的調(diào)用與下載。應(yīng)記錄所有訪問操作,并定期審計訪問日志。模型安全評估模型上線前應(yīng)進(jìn)行算法安全評估,覆蓋對抗樣本魯棒性、有害內(nèi)容生成傾向、可解釋性等方面。應(yīng)定期對已部署模型進(jìn)行再評估,發(fā)現(xiàn)安全隱患及時修正。對高風(fēng)險應(yīng)用場景,應(yīng)引入第三方評估機構(gòu)進(jìn)行獨立審查。備份與恢復(fù)應(yīng)建立數(shù)據(jù)與模型的備份機制,確保在發(fā)生系統(tǒng)故障或安全事件后可快速恢復(fù)。備份數(shù)據(jù)應(yīng)加密存儲,并與生產(chǎn)系統(tǒng)隔離。定期測試恢復(fù)流程,確??捎眯?。質(zhì)量評估評估目標(biāo)質(zhì)量評估應(yīng)以驗證內(nèi)容安全治理體系的有效性、覆蓋性和響應(yīng)性為目標(biāo),確保生成式AI內(nèi)容在全生命周期內(nèi)符合安全、合規(guī)、可控的要求。評估指標(biāo)可根據(jù)平臺或機構(gòu)的實際情況,建立包括但不限于以下方面的指標(biāo)體系:內(nèi)容安全合規(guī)率:在抽檢樣本中,符合法律法規(guī)及平臺規(guī)范的內(nèi)容比例;違規(guī)內(nèi)容處置及時率:從發(fā)現(xiàn)到處置完成的平均時間;風(fēng)險識別準(zhǔn)確率:自動化檢測系統(tǒng)識別的準(zhǔn)確性與漏報率;模型安全性指標(biāo):包括有害內(nèi)容生成傾向評估、魯棒性測試結(jié)果;用戶舉報反饋率:用戶舉報案件的有效回復(fù)比例與時效;事件復(fù)發(fā)率:同類安全事件在整改后再次發(fā)生的比例。評估周期日常監(jiān)測應(yīng)持續(xù)進(jìn)行,并形成月度或季度報告。綜合評估應(yīng)至少每年開展一次,涵蓋技術(shù)、管理、培訓(xùn)等全方面內(nèi)容。在法律法規(guī)或技術(shù)環(huán)境重大變化時,應(yīng)開展專項評估。評估方法結(jié)合自動化檢測結(jié)果、人工審核抽檢、第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論