版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
?2025云安全聯(lián)盟大中華區(qū)版權(quán)所有 ?2025云安全聯(lián)盟大中華區(qū)版權(quán)所有 1?2025云安全聯(lián)盟大中華區(qū)版權(quán)所有PAGE?2025云安全聯(lián)盟大中華區(qū)版權(quán)所有PAGE10目錄致謝 4前言 8目標(biāo)讀者 9范圍 10引言 10一、四大支柱:模型卡片,數(shù)據(jù)手冊(cè),風(fēng)險(xiǎn)卡片,場(chǎng)景規(guī)劃 15二、全面框架的好處 17增強(qiáng)透明度,可解釋性和問(wèn)責(zé)制 17主動(dòng)風(fēng)險(xiǎn)評(píng)估和場(chǎng)景分析 18制定風(fēng)險(xiǎn)緩解策略 18明智決策與模型治理 18健壯模型驗(yàn)證 18建立信任并增強(qiáng)模型采納 19持續(xù)監(jiān)控和改進(jìn) 19積極社會(huì)與倫理影響 19強(qiáng)有力的治理和監(jiān)督 19三、關(guān)鍵組成部分 20模型卡片:理解模型 20數(shù)據(jù)手冊(cè):檢查訓(xùn)練數(shù)據(jù) 24風(fēng)險(xiǎn)卡片:識(shí)別潛在問(wèn)題 27場(chǎng)景規(guī)劃:“假設(shè)”方法 31四、總體技術(shù):一種整合方法 38利用模型卡信息創(chuàng)建風(fēng)險(xiǎn)卡 38使用數(shù)據(jù)手冊(cè)加強(qiáng)模型理解 38使用風(fēng)險(xiǎn)卡指導(dǎo)場(chǎng)景規(guī)劃 39場(chǎng)景規(guī)劃對(duì)風(fēng)險(xiǎn)管理和開(kāi)發(fā)的反饋 43AIMRM在行動(dòng) 45五、結(jié)論與展望 50參考文獻(xiàn) 51附錄1:人工智能框架、法規(guī)和指南 53前言先進(jìn)的機(jī)器學(xué)習(xí)(ML)問(wèn)題,我們需要一種積極的風(fēng)險(xiǎn)管理方法。模型風(fēng)險(xiǎn)管理(ModelRiskManagement,MRM)是推動(dòng)組織在開(kāi)發(fā)、部署在使用人工智能(AI)及機(jī)器學(xué)習(xí)模型時(shí)建立責(zé)任和信任文化的關(guān)鍵因素,它能夠幫助組織最大程度發(fā)揮這些技術(shù)潛力的同時(shí),最小化風(fēng)險(xiǎn)。本報(bào)告探討了模型風(fēng)險(xiǎn)管理在AI模型應(yīng)用任開(kāi)發(fā)、部署和使用方面的重要性,適用于對(duì)該主題有興趣的讀者群體,包括直接參與AI開(kāi)發(fā)的從業(yè)者以及專注于AI治理的業(yè)務(wù)和合規(guī)監(jiān)管機(jī)構(gòu)。本報(bào)告強(qiáng)調(diào)了與AI模型相關(guān)的內(nèi)在風(fēng)險(xiǎn),如數(shù)據(jù)偏見(jiàn)、事實(shí)性錯(cuò)誤或信息不相關(guān)(通常被稱為“幻覺(jué)”或“虛構(gòu)MRM該框架基于四個(gè)相互關(guān)聯(lián)的支柱:模型卡片(ModelCards)、數(shù)據(jù)手冊(cè)(DataSheets)、風(fēng)(Risk(Scenario通過(guò)實(shí)施這一框架,組織可以確保ML模型的安全和有效使用,并帶來(lái)以下關(guān)鍵優(yōu)勢(shì):提高透明度和可解釋性主動(dòng)應(yīng)對(duì)風(fēng)險(xiǎn)和“內(nèi)生安全”做出明智的決策與利益相關(guān)者和監(jiān)管機(jī)構(gòu)建立信任本報(bào)告強(qiáng)調(diào)了模型風(fēng)險(xiǎn)管理的重要性,以便在最大限度發(fā)揮AI和ML潛力的同時(shí),最小化風(fēng)險(xiǎn)。目標(biāo)讀者AI模型風(fēng)險(xiǎn)管理(MRM)面向開(kāi)發(fā)和部署機(jī)器學(xué)習(xí)模型且對(duì)AI風(fēng)險(xiǎn)有共同興趣的廣泛讀者群體。它旨在彌合技術(shù)和非技術(shù)利益相關(guān)者之間的鴻溝,既服務(wù)于直接參與AI開(kāi)發(fā)技術(shù)工作的人員,也關(guān)注AI治理和監(jiān)管的相關(guān)人員。該目標(biāo)讀者可以分為以下兩個(gè)主要群體:AI模型開(kāi)發(fā)與實(shí)施的從業(yè)者機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家:這一群體將從模型卡片(ModelCards)和數(shù)據(jù)手冊(cè)(DataSheets)的詳細(xì)解釋中獲益,了解這些組件如何促進(jìn)模型的理解和開(kāi)發(fā)。掌握這些要素使他們能夠構(gòu)建更透明且負(fù)責(zé)任的模型。AIAI具,從概念設(shè)計(jì)到實(shí)施,確保模型的負(fù)責(zé)任部署。AI治理與監(jiān)管的利益相關(guān)者風(fēng)險(xiǎn)管理專業(yè)人士、合規(guī)官員和審計(jì)員:MRM業(yè)框架的對(duì)齊部分特別感興趣,這些內(nèi)容對(duì)建立、執(zhí)行和評(píng)估有效的治理實(shí)踐至關(guān)重要。業(yè)務(wù)領(lǐng)導(dǎo)者和高管:MRMAI應(yīng)用中的重要性。溝通與公共關(guān)系專業(yè)人士:AI參與和聲譽(yù)管理的章節(jié)中受益,以及學(xué)習(xí)如何為不同受眾設(shè)計(jì)有影響力的信息。范圍本文探討了模型風(fēng)險(xiǎn)管理(MRM)及其在負(fù)責(zé)任的AI開(kāi)發(fā)中的重要性,深入分析了有效MRM框架的四大支柱及其如何協(xié)同合作,從而形成一個(gè)全面的MRM方法。我們討論了這些技術(shù)如何促進(jìn)透明性、問(wèn)責(zé)制和負(fù)責(zé)任的AI開(kāi)發(fā)。本文強(qiáng)調(diào)了MRM在塑造未來(lái)倫理和負(fù)責(zé)任AI中的作用。需要注意的是,本文主要關(guān)注MRM的概念和方法論方面,而不涉及以人為中心的內(nèi)容,例如角色分配、責(zé)任歸屬、RACICSAAI組織職責(zé)——詳細(xì)闡述。引言MRM的必要性和重要性AI/ML(通常稱為幻覺(jué)”或“虛構(gòu)”),以及潛在的濫用風(fēng)險(xiǎn),再加上隱私問(wèn)題和知識(shí)產(chǎn)權(quán)(IP)問(wèn)題,都需要采取積部署和使用的重要學(xué)科。MRM這一術(shù)語(yǔ)在金融等行業(yè)中廣泛使用,傳統(tǒng)上是指管理與量化模型相關(guān)的風(fēng)險(xiǎn)。而在本文中,這一既有概念被應(yīng)用于管理與AI模型相關(guān)的風(fēng)險(xiǎn)。AIMRM有助于應(yīng)對(duì)與AI和監(jiān)管者對(duì)AA將在塑造負(fù)責(zé)任的AI部署未來(lái)中發(fā)揮越來(lái)越重要的作用,使企業(yè)和行業(yè)從中受益。從本質(zhì)上講,模型風(fēng)險(xiǎn)源于模型本身的固有限制。以下是幾種最常見(jiàn)的AI模型風(fēng)險(xiǎn)來(lái)源:數(shù)據(jù)質(zhì)量問(wèn)題:任何模型的基礎(chǔ)是數(shù)據(jù)。不準(zhǔn)確、不完整或片面的數(shù)據(jù)可能導(dǎo)致模型借款人歷史數(shù)據(jù)來(lái)預(yù)測(cè)貸款違約率,它可能低估未來(lái)違約的風(fēng)險(xiǎn),從而導(dǎo)致經(jīng)濟(jì)損失。模型選擇、調(diào)優(yōu)和設(shè)計(jì)缺陷:為特定任務(wù)選擇錯(cuò)誤的模型架構(gòu)或使用不合適的算法會(huì)顯著影響模型的有效性和可靠性。例如,使用線性回歸模型預(yù)測(cè)高度非線性的現(xiàn)象(市場(chǎng)波動(dòng))地描述了模型的能力和局限性。一流模型固有的風(fēng)險(xiǎn):即使是由知名供應(yīng)商發(fā)布的頂尖模型,也可能因自身的不足而影響個(gè)別組織,還可能影響整個(gè)社會(huì)。實(shí)施和操作錯(cuò)誤:控制不足或與現(xiàn)有系統(tǒng)的不當(dāng)集成都可能引發(fā)模型部署錯(cuò)誤。例如,一個(gè)信用評(píng)分模型可能在開(kāi)發(fā)中是正確的,但其在貸款處理系統(tǒng)中的實(shí)施存在缺陷,可能導(dǎo)致不準(zhǔn)確的評(píng)估和不公平的貸款拒絕。安全性也是一個(gè)關(guān)鍵的操作風(fēng)險(xiǎn)集,這些風(fēng)險(xiǎn)既包括應(yīng)用級(jí)別和訪問(wèn)級(jí)別的AIAI模型還增加了模型本身試圖改變模型用戶決策的風(fēng)險(xiǎn)。外部因素的演變:然而,現(xiàn)實(shí)世界在不斷變化。經(jīng)濟(jì)衰退、新法規(guī)或不可預(yù)見(jiàn)的事件可能使歷史數(shù)據(jù)變得不相可能在全球疫情導(dǎo)致消費(fèi)者偏好轉(zhuǎn)變時(shí)表現(xiàn)不佳。同樣,一個(gè)基于歷史數(shù)據(jù)訓(xùn)練的貸款違約(意外變化時(shí)也可能表現(xiàn)不佳。這兩個(gè)例子都說(shuō)明了模型在面對(duì)環(huán)境突變時(shí)的脆弱性,強(qiáng)調(diào)了監(jiān)控和更新模型以確保其有效性的重要性。MRMMLML模型帶來(lái)效益的同時(shí)最大限度地減少潛在的負(fù)面影響。該框架為組織提供了一條路線圖,以確保這些模型在開(kāi)(風(fēng)險(xiǎn)級(jí)別將因組織性質(zhì)、行業(yè)、業(yè)務(wù)部門和模型的預(yù)期用途而有所不同。一個(gè)精心設(shè)計(jì)的MRM框架通過(guò)建立結(jié)構(gòu)化流程來(lái)識(shí)別和評(píng)估特定模型的風(fēng)險(xiǎn),從而實(shí)現(xiàn)定制化。這個(gè)持續(xù)的過(guò)程基于以下幾個(gè)關(guān)鍵組成部分:治理在組織內(nèi)對(duì)AI和ML并建立審批流程。治理的關(guān)鍵組成部分包括:企業(yè)管理手段:AIAI決策能力或提供新用戶體驗(yàn)方面可以發(fā)揮作用的領(lǐng)域。模型清單:建立組織中所有使用模型的全面清單,并按目的、復(fù)雜性、風(fēng)險(xiǎn)等級(jí)及與影響的分類,能夠?qū)崿F(xiàn)有針對(duì)性的風(fēng)險(xiǎn)評(píng)估和高風(fēng)險(xiǎn)或關(guān)鍵模型的監(jiān)控。模型生命周期管理:明確定義各模型在生命周期中的角色和職責(zé),從設(shè)計(jì)和測(cè)試,到和文檔化,減少因知識(shí)空白或信息孤島對(duì)模型長(zhǎng)期維護(hù)和演進(jìn)帶來(lái)的風(fēng)險(xiǎn)。模型審批:建立一個(gè)正式的流程和標(biāo)準(zhǔn),用于在模型部署前進(jìn)行審批,確保模型符合AI原則的遵循,促進(jìn)公平性、透明性和可信賴性。模型開(kāi)發(fā)標(biāo)準(zhǔn)建立健全的模型開(kāi)發(fā)標(biāo)準(zhǔn)對(duì)于確保AI模型基于高質(zhì)量數(shù)據(jù)進(jìn)行構(gòu)建、遵循最佳實(shí)踐并符合相關(guān)法規(guī)至關(guān)重要。這包括管理數(shù)據(jù)質(zhì)量、遵循標(biāo)準(zhǔn)化的設(shè)計(jì)和開(kāi)發(fā)流程,并實(shí)施全面的驗(yàn)證和測(cè)試程序。模型開(kāi)發(fā)標(biāo)準(zhǔn)的關(guān)鍵組成部分包括:數(shù)據(jù)質(zhì)量管理:定義能夠用于模型訓(xùn)練的高質(zhì)量數(shù)據(jù)的一種實(shí)踐,它要求數(shù)據(jù)符合準(zhǔn)(確保數(shù)據(jù)適用于目標(biāo)且僅限于必要信息數(shù)據(jù)多樣化和遵守知識(shí)產(chǎn)權(quán)以及隱私保護(hù)措施來(lái)實(shí)現(xiàn)。模型設(shè)計(jì)與開(kāi)發(fā):概述模型架構(gòu)、開(kāi)發(fā)方法和文檔實(shí)踐的標(biāo)準(zhǔn)。將模型開(kāi)發(fā)標(biāo)準(zhǔn)與現(xiàn)有的治理和合規(guī)框架(包括監(jiān)管指南)“框架、法規(guī)和指導(dǎo)”。模型驗(yàn)證與測(cè)試:性。治理和合規(guī)框架:將模型開(kāi)發(fā)標(biāo)準(zhǔn)與現(xiàn)有的治理和合規(guī)框架對(duì)齊,包括監(jiān)管指南(例DP、行業(yè)標(biāo)準(zhǔn)(SO2701,SO420)和組織政策。有關(guān)確保遵守法律、CSAAI模型部署與使用模型監(jiān)控:行為。模型變更管理:的測(cè)試和驗(yàn)證,并提供回滾和廢棄機(jī)制以應(yīng)對(duì)不再使用的模型。模型溝通與培訓(xùn):保正確使用模型。模型風(fēng)險(xiǎn)評(píng)估模型風(fēng)險(xiǎn)評(píng)估是識(shí)別和應(yīng)對(duì)AI和ML包括:風(fēng)險(xiǎn)范圍:風(fēng)險(xiǎn)評(píng)估過(guò)程不僅適用于組織內(nèi)部開(kāi)發(fā)使用的模型,也適用于從第三方或應(yīng)鏈風(fēng)險(xiǎn)、法律和監(jiān)管風(fēng)險(xiǎn)、客戶保持風(fēng)險(xiǎn)等。風(fēng)險(xiǎn)識(shí)別:ML模型相關(guān)風(fēng)險(xiǎn)的第一步。它通過(guò)系統(tǒng)化的方法在預(yù)期用途、訓(xùn)練數(shù)據(jù)獲取及個(gè)人數(shù)據(jù)使用、以及模型保護(hù)機(jī)制。風(fēng)險(xiǎn)評(píng)估:FAIR-AI6.風(fēng)險(xiǎn)應(yīng)對(duì):制定應(yīng)對(duì)識(shí)別出風(fēng)險(xiǎn)的策略,包括數(shù)據(jù)清洗、模型改進(jìn)、實(shí)施安全和隱私的平衡來(lái)確定優(yōu)先級(jí)。文檔和報(bào)告全面的文檔記錄和定期報(bào)告對(duì)于在模型風(fēng)險(xiǎn)管理中保持透明度和問(wèn)責(zé)制至關(guān)重要。這些實(shí)踐確保模型生命周期的各個(gè)方面都得到了充分的記錄,并傳達(dá)給相關(guān)干系人。關(guān)鍵組成部分包括:模型文檔:性和性能指標(biāo)。模型風(fēng)險(xiǎn)報(bào)告:MRMML明度的建立。(正文內(nèi)容如下)一、四大支柱:模型卡片,數(shù)據(jù)手冊(cè),風(fēng)險(xiǎn)卡片,場(chǎng)景規(guī)劃該框架通過(guò)整合四個(gè)核心組件來(lái)構(gòu)建:模型卡片:AI防御、限制和性能,增強(qiáng)透明度并促進(jìn)知情使用。數(shù)據(jù)手冊(cè):(據(jù)類型和格式,預(yù)期用途、潛在偏見(jiàn)、限制以及與此相關(guān)的倫理考量。風(fēng)險(xiǎn)卡片:概述預(yù)期用戶行為以確保負(fù)責(zé)任地使用該模型。場(chǎng)景規(guī)劃:探索一個(gè)模型可能被濫用或出現(xiàn)故障時(shí)所處環(huán)境下產(chǎn)生假設(shè)狀況,別未預(yù)見(jiàn)到的風(fēng)險(xiǎn)并制定緩解策略。圖1擔(dān)責(zé)且合規(guī)使用A/ML(人工智能/機(jī)器學(xué)習(xí))的框架支柱這些技術(shù)共同形成一種全面方法。簡(jiǎn)單來(lái)說(shuō),模型卡片提供了進(jìn)行風(fēng)險(xiǎn)評(píng)估的信息;在模型卡片和數(shù)據(jù)手冊(cè)的基礎(chǔ)上,為理解模型優(yōu)點(diǎn)和局限性提供了更多背景。風(fēng)險(xiǎn)卡指導(dǎo)場(chǎng)景規(guī)劃實(shí)踐,并將場(chǎng)景規(guī)劃結(jié)果反饋到風(fēng)險(xiǎn)管理中,形成一個(gè)持續(xù)的反饋循環(huán)。通過(guò)整合這些技巧,組織能夠構(gòu)建全面的風(fēng)險(xiǎn)管理框架(MF,以推動(dòng)以下幾個(gè)維度:力與局限。如局部可解釋模型無(wú)關(guān)說(shuō)明(LIME)、SHapley加性解釋(SHAP)、集成(CAVs)念,并創(chuàng)建可解釋的替代模型,從而增強(qiáng)復(fù)雜模型的透明度和可解釋性。主動(dòng)風(fēng)險(xiǎn)管理:并參與場(chǎng)景規(guī)劃探索未來(lái)可能出現(xiàn)的挑戰(zhàn)。此外,對(duì)抗測(cè)試、壓力測(cè)試、邊緣案例分L1/L2一致性風(fēng)險(xiǎn)管理:確保風(fēng)險(xiǎn)評(píng)估結(jié)果可復(fù)制并允許比較和跟蹤AI模型性能和安全性隨人工智能系統(tǒng)的不斷改進(jìn)。對(duì)模型風(fēng)險(xiǎn)的全面理解使利益相關(guān)者能夠就模型部署和使用做出明智決定。ML模型道德使用。采取隱私保護(hù)技術(shù),獲取倫理AI實(shí)踐認(rèn)證,構(gòu)建治理框架與AI倫理委員會(huì),并進(jìn)行第三方審計(jì)可以增強(qiáng)公眾對(duì)ML模型合乎倫理地被使用的信心。(MLSecOps)術(shù)也很關(guān)鍵。建立吸納用戶反饋、事故報(bào)告以及經(jīng)驗(yàn)教訓(xùn)的流程可以確保AI系統(tǒng)的長(zhǎng)期有效性、安全性和持續(xù)改進(jìn)。二、全面框架的好處針對(duì)ML模型的全面風(fēng)險(xiǎn)管理框架(RMF)提供了以下定義的多種好處。增強(qiáng)透明度,可解釋性和問(wèn)責(zé)制MRM更多限制。主動(dòng)風(fēng)險(xiǎn)評(píng)估和場(chǎng)景分析數(shù)據(jù)手冊(cè)通過(guò)詳細(xì)描述可能影響在不同情況下模型性能的數(shù)據(jù)特定特征,來(lái)補(bǔ)充場(chǎng)景規(guī)劃。這些信息對(duì)于進(jìn)行徹底的風(fēng)險(xiǎn)評(píng)估至關(guān)重要,并確保場(chǎng)景分析考慮到數(shù)據(jù)質(zhì)量與公司相關(guān)的其他因素。制定風(fēng)險(xiǎn)緩解策略將數(shù)據(jù)手冊(cè)中的洞察融入到風(fēng)險(xiǎn)緩解過(guò)程中,可以實(shí)現(xiàn)更有針對(duì)性的策略。理解數(shù)據(jù)限制和偏差有助于設(shè)計(jì)有效的緩解措施,例如數(shù)據(jù)清洗、增強(qiáng)或重新平衡技術(shù),這些對(duì)于應(yīng)對(duì)風(fēng)險(xiǎn)卡片識(shí)別出的潛在風(fēng)險(xiǎn)至關(guān)重要。明智決策與模型治理會(huì)來(lái)提供影響決策過(guò)程的重要信息。在MRM中,晰,確保圍繞著模型部署的決策是明智、完備且合理。健壯模型驗(yàn)證健壯模型驗(yàn)證是MRM避免在實(shí)際應(yīng)用中出現(xiàn)意外的性能問(wèn)題或有偏見(jiàn)的結(jié)果。建立信任并增強(qiáng)模型采納這促進(jìn)了透明度和負(fù)責(zé)任的AI開(kāi)發(fā),最終促使用戶和監(jiān)管者對(duì)采納該模型產(chǎn)生更大信任感。這些文件提供關(guān)于模型功能和性能期望方面透明而誠(chéng)實(shí)地溝通方式.這種清晰度對(duì)于贏得用戶和監(jiān)管者的信任至關(guān)重要,特別是在數(shù)據(jù)來(lái)源和完整性至關(guān)重要的行業(yè)中。持續(xù)監(jiān)控和改進(jìn)持續(xù)監(jiān)控是MRMF1MA來(lái)衡量模型漂移。通過(guò)持續(xù)監(jiān)控,可以確定何時(shí)需要調(diào)整或部署策略以應(yīng)對(duì)模型偏離預(yù)期性能或外部環(huán)境變化。這種警惕性有助于在動(dòng)態(tài)操作環(huán)境中保障ML模型的合規(guī)、有效及安全。積極社會(huì)與倫理影響數(shù)據(jù)手冊(cè)是解決機(jī)器學(xué)習(xí)模型中社會(huì)和倫理偏見(jiàn)問(wèn)題的基礎(chǔ)。記錄訓(xùn)練數(shù)據(jù)的來(lái)源、構(gòu)成及預(yù)處理方式,有助于識(shí)別潛在偏見(jiàn),這對(duì)于開(kāi)發(fā)公正且公平的機(jī)器學(xué)習(xí)模型至關(guān)重要。通過(guò)保證數(shù)據(jù)處理行為符合倫理規(guī)范,組織能更好地控制他們技術(shù)產(chǎn)生的廣泛影響。強(qiáng)有力的治理和監(jiān)督在確保與組織目標(biāo)一致的控制基礎(chǔ)上,強(qiáng)大的治理和監(jiān)督能確保AI模型開(kāi)發(fā)、使用和維護(hù)過(guò)程透明、可解釋且有責(zé)任感,并由具備道德意識(shí)且能力出眾的人員指導(dǎo)。他們建立了完善的執(zhí)行機(jī)制,以遵守倫理準(zhǔn)則和負(fù)責(zé)任的數(shù)據(jù)實(shí)踐。有效的治理需要清晰定義角色職責(zé)、決策流程及處理爭(zhēng)議時(shí)的升級(jí)程序。定期審計(jì)增加了可問(wèn)責(zé)性,驗(yàn)證利益相關(guān)者對(duì)原則承諾是否兌現(xiàn)。嚴(yán)格變更管理程序、更新控制、再培訓(xùn)及部署決策都有助于監(jiān)督,并積極預(yù)防潛在風(fēng)險(xiǎn)。包括用戶、數(shù)據(jù)科學(xué)家、工程師和商業(yè)領(lǐng)袖在內(nèi)的利益相關(guān)者之間必須進(jìn)行清晰溝通與合作,這對(duì)成功實(shí)施治理和監(jiān)督至關(guān)重要。三、關(guān)鍵組成部分模型卡片:理解模型模型卡片提供了模型的透明概述。它們?cè)敿?xì)說(shuō)明了模型的目的、訓(xùn)練數(shù)據(jù)、能力、限制和性能指標(biāo)。這些信息有助于開(kāi)發(fā)人員、部署人員、風(fēng)險(xiǎn)管理專業(yè)人員、合規(guī)官和最終用戶了解模型的優(yōu)勢(shì)和劣勢(shì),為風(fēng)險(xiǎn)評(píng)估奠定基礎(chǔ)。模型卡片的關(guān)鍵要素通常包括:模型細(xì)節(jié)和預(yù)期目的:這闡明了模型的功能和目標(biāo)。如果有的話鏈接以獲取更多詳細(xì)信息。預(yù)期用例和限制:這解釋了模型可以用于做什么以及它可能在哪里表現(xiàn)不佳。性能指標(biāo)(評(píng)估指標(biāo):這概述了模型在相關(guān)任務(wù)上的性能表現(xiàn),使用明確的指標(biāo),如準(zhǔn)確性和泛化能力。評(píng)估方法:這描述了用于評(píng)估模型性能的方法。它還詳細(xì)介紹了緩解偏見(jiàn)和確保不同群體公平結(jié)果的方法。已知限制:這告知了模型的潛在缺點(diǎn),例如對(duì)特定提示或事實(shí)錯(cuò)誤的敏感性。(可選(如,碳排放)。對(duì)抗性抵抗(對(duì)抗性攻擊下的性能指標(biāo)—可選:盡管模型卡片中通常不會(huì)記標(biāo)來(lái)展示模型的韌性,從而更全面地了解模型的性能和潛在漏洞。模型卡片優(yōu)勢(shì)模型卡片提供了大量?jī)?yōu)勢(shì),有助于負(fù)責(zé)任的人工智能開(kāi)發(fā)和部署,并可作為風(fēng)險(xiǎn)管理的基礎(chǔ),包括:模型卡片為利益相關(guān)者提供的了使用戶能夠掌握其能力和局限性。當(dāng)輸出可能受到不公平或歧視性影響時(shí)的版權(quán)當(dāng)模型在與其不同的環(huán)境中表現(xiàn)不佳時(shí)的有限泛化性、源于訓(xùn)練數(shù)據(jù)不準(zhǔn)確的事實(shí)錯(cuò)誤等。可復(fù)制性/可問(wèn)責(zé)性:模型卡片記錄了開(kāi)發(fā)過(guò)程,使其他人能夠重新創(chuàng)建模型并獨(dú)立評(píng)估其風(fēng)險(xiǎn)。風(fēng)險(xiǎn)管理的基礎(chǔ)模型卡片是對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行有效風(fēng)險(xiǎn)管理的基石,提供有關(guān)模型的關(guān)鍵信息,包括:訓(xùn)練數(shù)據(jù)特征:揭示潛在的隱私泄露、版權(quán)侵犯和偏見(jiàn)。行為和性能限制:模型可能產(chǎn)生不可靠或誤導(dǎo)性輸出的預(yù)期情形。風(fēng)險(xiǎn)緩解的益處容等風(fēng)險(xiǎn)制定具體的保障措施溝通和透明度:促進(jìn)利益相關(guān)者的溝通和負(fù)責(zé)任的使用指導(dǎo)提示設(shè)計(jì):設(shè)計(jì)可獲得安全而準(zhǔn)確的回答的提示全性方面作出有信息支持的決策訓(xùn)練數(shù)據(jù)管理:確保數(shù)據(jù)質(zhì)量和公平性設(shè)置保護(hù)機(jī)制:記錄防止意外輸出的技術(shù)風(fēng)險(xiǎn)管理和緩解奠定了基礎(chǔ)。創(chuàng)建和更新模型卡片模型卡片創(chuàng)建要點(diǎn)模型卡片的有效創(chuàng)建需要采用協(xié)作和自動(dòng)化的方法來(lái)確保準(zhǔn)確性和效率。最常見(jiàn)的最佳實(shí)踐包括以下內(nèi)容:建模型卡片的經(jīng)驗(yàn)或能夠快速學(xué)習(xí),并具備足夠的技術(shù)知識(shí)。例如,對(duì)于超過(guò)100人使用的模型或用于生產(chǎn)或測(cè)試的模型。協(xié)作:在創(chuàng)作過(guò)程中讓跨職能團(tuán)隊(duì)參與進(jìn)來(lái),以確保全面覆蓋。模板:使用標(biāo)準(zhǔn)化的模板,以確保一致性和易用性。自動(dòng)化:利用自動(dòng)化工具生成模型卡片,減少人工操作,提高準(zhǔn)確性。版本控制:利用版本控制系統(tǒng)來(lái)跟蹤更改并保持更新的清晰記錄。模型卡片倉(cāng)庫(kù):建立一個(gè)模型卡片的集中倉(cāng)庫(kù),確保易于訪問(wèn)和管理。保持模型卡片更新定期更新對(duì)于確保模型卡片保持準(zhǔn)確性和相關(guān)性至關(guān)重要。實(shí)施簡(jiǎn)化的更新流程可以減少人工操作,提高效率,并且應(yīng)該包括:定期審查:對(duì)模型卡片進(jìn)行定期審查,以反映模型或數(shù)據(jù)的變化。自動(dòng)更新:利用自動(dòng)化工具更新模型卡片,減少人工操作,提高準(zhǔn)確性。變更管理:建立適當(dāng)?shù)牧鞒虂?lái)記錄和批準(zhǔn)更新。審計(jì)追蹤:對(duì)所有更新和更改進(jìn)行審計(jì)追蹤,以確保透明度和問(wèn)責(zé)制??梢岳靡恍┢渌呒?jí)技術(shù)來(lái)創(chuàng)建一個(gè)簡(jiǎn)化和高效的過(guò)程,用于創(chuàng)建和更新模型卡片。例如,機(jī)器學(xué)習(xí)算法可以分析模型性能并動(dòng)態(tài)更新模型卡片,而自然語(yǔ)言處理算法可以自動(dòng)生成模型卡片內(nèi)容??梢暬ぞ呖梢蕴峁┠P托阅芎透碌膱D形表示,使復(fù)雜數(shù)據(jù)更易于理解。將模型卡片與其他工具和系統(tǒng)(如版本控制和協(xié)作平臺(tái))集成,可以增強(qiáng)協(xié)作并減少手動(dòng)工作。這些方法可以提高過(guò)程的準(zhǔn)確性、效率和協(xié)作性。模型卡片的局限性定期審查和更新模型卡片,以確保其準(zhǔn)確反映模型的當(dāng)前狀態(tài)??剂康哪P捅旧砭途哂兄饔^性。范圍有限:得不同模型之間的比較和風(fēng)險(xiǎn)評(píng)估變得困難。模型卡片是了解機(jī)器學(xué)習(xí)模型及其潛在風(fēng)險(xiǎn)的有價(jià)值的工具。它們提高了透明度,并使開(kāi)發(fā)人員和用戶能夠了解模型的優(yōu)缺點(diǎn)。數(shù)據(jù)手冊(cè):檢查訓(xùn)練數(shù)據(jù)模型藍(lán)圖的數(shù)據(jù)手冊(cè)提供了對(duì)機(jī)器學(xué)習(xí)模型的深入技術(shù)描述。它們作為開(kāi)發(fā)人員、風(fēng)險(xiǎn)管理人員和審計(jì)人員的參考文檔,詳細(xì)說(shuō)明了模型的構(gòu)建參數(shù)和操作特性。這些信息對(duì)于了解模型的潛在優(yōu)勢(shì)、劣勢(shì)和固有風(fēng)險(xiǎn)至關(guān)重要。數(shù)據(jù)手冊(cè)的需求雖然模型卡片和風(fēng)險(xiǎn)卡片為風(fēng)險(xiǎn)管理提供了寶貴的見(jiàn)解,但仍需要添加一個(gè)基本要素:模型內(nèi)部邏輯的透明視圖。數(shù)據(jù)手冊(cè)作為有效模型風(fēng)險(xiǎn)管理的基礎(chǔ)文件,彌補(bǔ)了這一差距。以下是數(shù)據(jù)手冊(cè)如何促進(jìn)信任并實(shí)現(xiàn)更明智的風(fēng)險(xiǎn)評(píng)估:型的信任,并使風(fēng)險(xiǎn)管理者能夠?qū)ζ渚窒扌院蜐撛谄?jiàn)做出更明智的評(píng)估。險(xiǎn)的潛在來(lái)源,如數(shù)據(jù)質(zhì)量問(wèn)題、過(guò)擬合或算法偏差。監(jiān)控、維護(hù)和重新訓(xùn)練。出的信任和信心。數(shù)據(jù)手冊(cè)在模型風(fēng)險(xiǎn)管理(MRM)中的作用數(shù)據(jù)手冊(cè)不僅記錄了模型的邏輯,還支持主動(dòng)風(fēng)險(xiǎn)管理并確保模型適配。它們?yōu)槌掷m(xù)改進(jìn)和合規(guī)提供了路線圖,在模型風(fēng)險(xiǎn)管理生命周期中履行以下關(guān)鍵職能:并制定緩解策略。的偏差或性能限制。監(jiān)管合規(guī):全面的數(shù)據(jù)規(guī)范在證明人工智能/機(jī)器學(xué)習(xí)模型開(kāi)發(fā)和部署符合相關(guān)法規(guī)和道德準(zhǔn)則方面發(fā)揮著至關(guān)重要的作用。數(shù)據(jù)手冊(cè)的關(guān)鍵要素?cái)?shù)據(jù)手冊(cè)提供了模型內(nèi)部工作的簡(jiǎn)明易懂的概述,包括:模型目的和范圍:明確界定模型的設(shè)計(jì)目標(biāo)和使用限制。數(shù)據(jù)輸入和假設(shè):模型使用的所有輸入特征的詳細(xì)列表,包括數(shù)據(jù)源/類型/式以及應(yīng)用的任何預(yù)處理轉(zhuǎn)換步驟,以及任何潛在的假設(shè)。(置(學(xué)習(xí)率、層數(shù))和所選算法。模型開(kāi)發(fā)過(guò)程:簡(jiǎn)要概述構(gòu)建和訓(xùn)練模型的步驟,包括使用的任何相關(guān)算法。訓(xùn)練數(shù)據(jù)特征:用于開(kāi)發(fā)模型的布特征以及執(zhí)行的所有數(shù)據(jù)質(zhì)量檢查。記錄訓(xùn)練過(guò)程,包括選擇的標(biāo)準(zhǔn)。這是一組全面的指標(biāo)用于評(píng)估模型在訓(xùn)練和驗(yàn)證數(shù)據(jù)有效性(例如,準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù))。成結(jié)果的解釋。構(gòu)或訓(xùn)練數(shù)據(jù)固有的任何限制。數(shù)據(jù)手冊(cè)的局限性/伐。其中一些局限性包括:復(fù)雜性:根據(jù)人工智能/機(jī)器學(xué)習(xí)框架的具體組成部分,包括訓(xùn)練數(shù)據(jù)集、所(MLOps)術(shù)化,需要機(jī)器學(xué)習(xí)專業(yè)知識(shí)才能完全理解。輸出的更廣泛的業(yè)務(wù)背景或潛在的社會(huì)影響。不斷發(fā)展的領(lǐng)域:隨著人工智能/機(jī)器學(xué)習(xí)的快速發(fā)展,數(shù)據(jù)規(guī)范的最佳實(shí)踐可能需要不斷調(diào)整,以納入新的技術(shù)和方法。模型卡片的常見(jiàn)限制,如完整性和準(zhǔn)確性、成為公司文化以及靜態(tài)/過(guò)時(shí)的表示,也適用于數(shù)據(jù)手冊(cè)。數(shù)據(jù)手冊(cè)是管理模型風(fēng)險(xiǎn)的重要工具。通過(guò)為模型的構(gòu)建和運(yùn)行提供技術(shù)路線圖,它們使風(fēng)險(xiǎn)管理專業(yè)人員能夠有效地評(píng)估、緩解和管理與機(jī)器學(xué)習(xí)模型相關(guān)的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)卡片:識(shí)別潛在問(wèn)題風(fēng)險(xiǎn)卡片深入研究了與人工智能模型相關(guān)的潛在問(wèn)題。它們系統(tǒng)地識(shí)別、分類和分析潛在風(fēng)險(xiǎn)??梢园阉鼈兿胂蟪蓾撛谀P惋L(fēng)險(xiǎn)的閃卡。每張卡片都描述了具體的風(fēng)險(xiǎn)、潛在影響和緩解策略。與單詞卡類似,它們提供了一種快速和結(jié)構(gòu)化的方法來(lái)理解和解決模型漏洞。風(fēng)險(xiǎn)卡片通常包含一系列潛在的問(wèn)題,包括:安全和道德風(fēng)險(xiǎn):這些問(wèn)題包括隱私、產(chǎn)生有害內(nèi)容和導(dǎo)致偏見(jiàn)等問(wèn)題。安全風(fēng)險(xiǎn):數(shù)據(jù)泄露、企圖操縱和其他安全漏洞屬于這一類。社會(huì)風(fēng)險(xiǎn):失業(yè)或?yàn)E用人工智能進(jìn)行宣傳是社會(huì)風(fēng)險(xiǎn)的例子。體。關(guān)的挑戰(zhàn)。質(zhì)疑。財(cái)務(wù)風(fēng)險(xiǎn):服務(wù)模型的成本可能會(huì)意外增加,例如使用代理工作流。伴的風(fēng)險(xiǎn)。聲譽(yù)風(fēng)險(xiǎn):不恰當(dāng)?shù)哪P褪褂每赡軐?dǎo)致負(fù)面新聞等。AIRMF7“隱私、公平和管理有害偏見(jiàn)”的模型風(fēng)險(xiǎn)。風(fēng)險(xiǎn)卡片的結(jié)構(gòu)每一張風(fēng)險(xiǎn)卡片都遵循一個(gè)明確定義的結(jié)構(gòu),以確保采用重點(diǎn)突出和信息豐富的方法來(lái)了解具體風(fēng)險(xiǎn)并制定有針對(duì)性的緩解策略。在每個(gè)風(fēng)險(xiǎn)卡片中通常可以找到以下要素:風(fēng)險(xiǎn)分類:對(duì)風(fēng)險(xiǎn)進(jìn)行分類(例如,偏見(jiàn)、事實(shí)錯(cuò)誤、誤用)風(fēng)險(xiǎn)描述:對(duì)潛在問(wèn)題的簡(jiǎn)明描述,如偏見(jiàn)、事實(shí)錯(cuò)誤或產(chǎn)生有害內(nèi)容影響:風(fēng)險(xiǎn)的潛在后果,需考慮聲譽(yù)損害、用戶傷害或法律問(wèn)題等因素嚴(yán)重性等級(jí):評(píng)估風(fēng)險(xiǎn)的潛在影響(高、中、低)可能性:評(píng)估風(fēng)險(xiǎn)發(fā)生的可能性下表給出了一個(gè)風(fēng)險(xiǎn)卡片的例子。風(fēng)險(xiǎn)描述影響應(yīng)對(duì)策略偏見(jiàn)與公平內(nèi)容導(dǎo)致歧視和潛在的聲譽(yù)損害?使用多樣化的訓(xùn)練數(shù)據(jù)該風(fēng)險(xiǎn)卡片強(qiáng)調(diào)了一家零售公司用于生成營(yíng)銷和社交媒體內(nèi)容的ML模型中可能出現(xiàn)的意外偏見(jiàn)。有了清晰的描述和潛在影響(高嚴(yán)重性),數(shù)據(jù)團(tuán)隊(duì)優(yōu)先解決了這個(gè)問(wèn)題。該公司對(duì)訓(xùn)練數(shù)據(jù)和模型架構(gòu)進(jìn)行了雙重審查,以調(diào)查潛在的偏見(jiàn)。針對(duì)潛在偏見(jiàn)問(wèn)題,數(shù)據(jù)團(tuán)隊(duì)分析了數(shù)據(jù)統(tǒng)計(jì)特征,發(fā)現(xiàn)了數(shù)據(jù)手冊(cè)征中存在的傾斜,并檢查了訓(xùn)練數(shù)據(jù)來(lái)源。他們還討論了公平性指標(biāo),以量化潛在的偏見(jiàn),并使用可解釋性方法等技術(shù)來(lái)理解模型如何輸出。根據(jù)這一分析,實(shí)施了若干應(yīng)對(duì)策略:數(shù)據(jù)清洗:通過(guò)采樣/欠采樣來(lái)平衡訓(xùn)練數(shù)據(jù),并去除非必要的敏感屬性,以創(chuàng)建更平衡的數(shù)據(jù)集。該公司還在探索使用合成數(shù)據(jù)來(lái)進(jìn)一步解決偏見(jiàn)問(wèn)題。多合適的輸出。容。除了這些應(yīng)對(duì)策略,公司還制定了一個(gè)深思熟慮的應(yīng)急計(jì)劃,以加強(qiáng)團(tuán)隊(duì)對(duì)偏見(jiàn)的防御。該應(yīng)急計(jì)劃包括:別和糾正有偏見(jiàn)內(nèi)容的人類審核人員。協(xié)議,AI/ML運(yùn)維團(tuán)隊(duì)可以利用該協(xié)議確??焖僬{(diào)查和應(yīng)對(duì),這將是非常有益的。行動(dòng)可能包括使用更平衡的數(shù)據(jù)集重新訓(xùn)練模型,例如在檢測(cè)到偏見(jiàn)的情況下。益相關(guān)者的信任,促進(jìn)整個(gè)組織負(fù)責(zé)任的模型使用。通過(guò)實(shí)施這些應(yīng)對(duì)策略,特別是關(guān)注數(shù)據(jù)多樣性和算法公平性,該團(tuán)隊(duì)采取了積極主動(dòng)的立場(chǎng),來(lái)應(yīng)對(duì)模型輸出中的偏見(jiàn)。這為在整個(gè)組織中建立可信賴和符合倫理的人工智能系統(tǒng)奠定了基礎(chǔ),使公司能夠在其人工智能應(yīng)用中促進(jìn)包容性、透明度和問(wèn)責(zé)制。風(fēng)險(xiǎn)卡片的好處風(fēng)險(xiǎn)卡片提供了一種結(jié)構(gòu)化和動(dòng)態(tài)的方法來(lái)管理不斷發(fā)展的模型風(fēng)險(xiǎn)。它們提供了一種系統(tǒng)的方法來(lái)識(shí)別、分類和確定模型風(fēng)險(xiǎn)的優(yōu)先級(jí),并充當(dāng)了一種強(qiáng)大的溝通工具,促進(jìn)了開(kāi)發(fā)人員、用戶和利益相關(guān)者之間的溝通。這種協(xié)作環(huán)境促進(jìn)了對(duì)潛在問(wèn)題的更深入了解,從而形成了可操作的見(jiàn)解,如應(yīng)對(duì)措施和應(yīng)急計(jì)劃。除了這些核心的好處之外,風(fēng)險(xiǎn)卡片還為MRM提供了顯著的優(yōu)勢(shì),包括:保以最佳投資回報(bào)實(shí)現(xiàn)主動(dòng)消減風(fēng)險(xiǎn)。果通常不記錄在風(fēng)險(xiǎn)卡片中,但可以指示風(fēng)險(xiǎn)卡片的另一次迭代。關(guān)的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)卡片的局限性AI或緩解工作的挑戰(zhàn)。需要能夠跟上該領(lǐng)域的快速發(fā)展。地分配資源,以緩解與人工智能模型相關(guān)的最重要的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)卡片的有效性取決于用于識(shí)別和評(píng)估風(fēng)險(xiǎn)的數(shù)據(jù)解策略。這可能是主觀的,可能取決于審查卡片的人的專業(yè)性。場(chǎng)景規(guī)劃:“假設(shè)”方法場(chǎng)景規(guī)劃是一種主動(dòng)探索AI模型可能被誤用或出現(xiàn)故障的假設(shè)情況的方法。本質(zhì)上,它是在問(wèn)“如果會(huì)怎么樣“的問(wèn)題。我們?cè)O(shè)想并探索AI模型在各種積極和消極場(chǎng)景下的表現(xiàn)。這使我們能夠在潛在風(fēng)險(xiǎn)成為現(xiàn)實(shí)之前識(shí)別它們。場(chǎng)景規(guī)劃考慮積極情景(例如,提高生產(chǎn)力、改善教育)消極情景(例如,語(yǔ)言武器化、信息操縱)場(chǎng)景規(guī)劃中需要考慮的方面技術(shù)能力(從常規(guī)故障到“天鵝”)、操縱或利用的領(lǐng)域。的輸出。不到的后果。社會(huì)影響:圍繞自動(dòng)化的倫理問(wèn)題或組織外部人員使用該模型的風(fēng)險(xiǎn)。場(chǎng)景規(guī)劃如何運(yùn)作組建團(tuán)隊(duì)商業(yè)專家領(lǐng)域?qū)<遥簩?duì)特定應(yīng)用領(lǐng)域有深入理解的個(gè)人例如醫(yī)療保健、金融)以為探索與實(shí)際用例相關(guān)的場(chǎng)景提供有價(jià)值的背景。最終用戶:及模型可能如何被無(wú)意中濫用。風(fēng)險(xiǎn)專家個(gè)人有助于風(fēng)險(xiǎn)討論。隱私和信息治理人員,可以就模型處理個(gè)人數(shù)據(jù)的隱私考慮提供咨詢。構(gòu)化且全面。負(fù)責(zé)任的模型開(kāi)發(fā)。人工智能專家在漏洞提供了寶貴的見(jiàn)解。他們對(duì)模型訓(xùn)練數(shù)據(jù)和潛在偏見(jiàn)的了解有助于識(shí)別和評(píng)估公通過(guò)匯集這些不同的觀點(diǎn),場(chǎng)景規(guī)劃團(tuán)隊(duì)可以更好的理解人工智能模型,并識(shí)別更廣泛的潛在風(fēng)險(xiǎn)。這種協(xié)作方法類似于產(chǎn)品紅隊(duì)測(cè)試,利用不同的專業(yè)知識(shí)和視角對(duì)想法進(jìn)行壓力測(cè)試并識(shí)別潛在的漏洞。這種方法還允許使用藍(lán)隊(duì)能力,例如降低風(fēng)險(xiǎn)的方法。這種方法的有效性依賴于組建一支具有必要實(shí)力的團(tuán)隊(duì),以促進(jìn)有效的想法和風(fēng)險(xiǎn)評(píng)估。定義范圍和目標(biāo)下一步是明確定義場(chǎng)景規(guī)劃練習(xí)的范圍和目標(biāo)。這包括指定要探索的AI系統(tǒng)和風(fēng)險(xiǎn)。建立明確的目標(biāo)(例如識(shí)別潛在偏見(jiàn)、安全漏洞或社會(huì)影響)有助于指導(dǎo)團(tuán)隊(duì)的重點(diǎn)并確保場(chǎng)景規(guī)劃會(huì)議富有成效。確定要深入研究的場(chǎng)景的優(yōu)先順序例如一些“T恤尺寸定義“回報(bào)”(例如,潛在風(fēng)險(xiǎn)影響與降低)和“投資”(實(shí)施可能需要的努力)的ROI比較。更重要的是,團(tuán)隊(duì)以一種讓領(lǐng)導(dǎo)層對(duì)哪些不會(huì)詳細(xì)規(guī)劃場(chǎng)景的風(fēng)險(xiǎn)感到舒適的優(yōu)先級(jí)進(jìn)行排序。收集信息團(tuán)隊(duì)?wèi)?yīng)收集相關(guān)信息,以全面了解AI模型和潛在風(fēng)險(xiǎn)。模型卡、數(shù)據(jù)手冊(cè)和風(fēng)險(xiǎn)卡提供了有關(guān)ML模型的功能、局限性和潛在風(fēng)險(xiǎn)的寶貴見(jiàn)解。這些文檔詳細(xì)說(shuō)明了訓(xùn)練數(shù)據(jù)、模型的架構(gòu)以及任何已知漏洞。此外,研究涉及該模型的相關(guān)安全事件或?yàn)E用案例有助于團(tuán)隊(duì)預(yù)測(cè)潛在的現(xiàn)實(shí)威脅。收集的信息應(yīng)該足夠詳細(xì),以便規(guī)劃情景,但僅此而已。開(kāi)發(fā)情景消極的場(chǎng)景。諸如“如果會(huì)怎樣”問(wèn)題可以激發(fā)創(chuàng)造性思維,并創(chuàng)建更廣泛的場(chǎng)景。例如,團(tuán)(LLM)金融環(huán)境中的出現(xiàn)故障的模型如何導(dǎo)致不準(zhǔn)確的投資建議。評(píng)估情景一旦場(chǎng)景景被開(kāi)發(fā)出來(lái),團(tuán)隊(duì)需要系統(tǒng)地分析每一個(gè)場(chǎng)景。這包括考慮場(chǎng)景發(fā)生的可能性以及如果場(chǎng)景確實(shí)發(fā)生,可能產(chǎn)生的后果。應(yīng)評(píng)估場(chǎng)景對(duì)包括用戶、社會(huì)和組織在內(nèi)各利益相關(guān)者的影響??紤]每個(gè)場(chǎng)景可能如何影響模型的準(zhǔn)確性、可靠性、公平性和安全性。例(LLM)您甚至可以使用語(yǔ)言模型來(lái)模擬這些場(chǎng)景。觀察其輸出并識(shí)別潛在風(fēng)險(xiǎn),例如生成歧視性文本、傳播錯(cuò)誤信息或生成有害內(nèi)容。(即工作量超出最初預(yù)算可以更容易地管理評(píng)估深度與關(guān)鍵情景覆蓋范圍之間的權(quán)衡。制定緩解策略根據(jù)場(chǎng)景分析,制定策略以減輕風(fēng)險(xiǎn)或適應(yīng)未來(lái)的挑戰(zhàn)。制定應(yīng)急計(jì)劃和應(yīng)對(duì)策略,以應(yīng)對(duì)可能對(duì)組織造成重大風(fēng)險(xiǎn)或威脅的情況。這些策略涉及技術(shù)控制,例如實(shí)施防止操縱的保護(hù)措施,非技術(shù)措施,例如對(duì)負(fù)責(zé)任的模型交互進(jìn)行用戶培訓(xùn),或增強(qiáng)AI治理流程的透明度和問(wèn)責(zé)制。此外,可以對(duì)模型開(kāi)發(fā)過(guò)程進(jìn)行調(diào)整,例如采用不同的訓(xùn)練數(shù)據(jù)集,以解決潛在的偏見(jiàn)。優(yōu)先實(shí)施緩解策略雖然一個(gè)能提供多種觀點(diǎn)的團(tuán)隊(duì)對(duì)于提出有影響力的緩解策略很有幫助,但組織可能沒(méi)有足夠的資源來(lái)始終如一地實(shí)施所有策略。因此,仔細(xì)確定要實(shí)施的策略的優(yōu)先順序?qū)⒃黾雨P(guān)鍵風(fēng)險(xiǎn)實(shí)際降低的可能性。團(tuán)隊(duì)?wèi)?yīng)該選擇他們的優(yōu)先排序方法,只要這能讓領(lǐng)導(dǎo)團(tuán)隊(duì)相信最后一步是記錄場(chǎng)景規(guī)劃實(shí)踐的結(jié)果。這應(yīng)包括一份全面的報(bào)告,概述所探索的場(chǎng)景、已識(shí)別的風(fēng)險(xiǎn)、擬議的緩解策略以及建議實(shí)施的優(yōu)先順序。與管理層、開(kāi)發(fā)人員和潛在用戶等相關(guān)利益相關(guān)者分享此報(bào)告,可以提高對(duì)潛在風(fēng)險(xiǎn)的認(rèn)識(shí),并指導(dǎo)整個(gè)模型生命周期的決策。有效的溝通可以促進(jìn)透明度,并建立對(duì)負(fù)責(zé)任地開(kāi)發(fā)和部署AI模型的信任。場(chǎng)景規(guī)劃的好處而能夠及時(shí)采取緩解措施。行做出更明智的決策。立利益相關(guān)者的信任。導(dǎo)改進(jìn),使其更加健壯可靠。這有利于持續(xù)負(fù)責(zé)任地開(kāi)發(fā)和部署AI模型。場(chǎng)景規(guī)劃的局限性控以及在人工智能系統(tǒng)偏離軌道時(shí)進(jìn)行干預(yù)或關(guān)閉的能力對(duì)于緩解風(fēng)險(xiǎn)非常重要。不元化人員參與進(jìn)來(lái),有助于考慮更廣泛的情景并減少偏見(jiàn)。資源密集型:為各種情況制定詳細(xì)的場(chǎng)景可能即耗時(shí)又需要AI和特定應(yīng)用領(lǐng)術(shù)分析過(guò)去數(shù)據(jù)和識(shí)別人工智能系統(tǒng)中潛在漏洞可以幫助解決這一限制。出現(xiàn),重新審視和更新場(chǎng)景以反映不斷變化的形勢(shì)。局可能會(huì)發(fā)生變化。場(chǎng)景規(guī)劃應(yīng)持續(xù)進(jìn)行,例如定期由明確、負(fù)責(zé)的領(lǐng)導(dǎo)者進(jìn)行,以確保不斷適應(yīng)和緩解新出現(xiàn)的風(fēng)險(xiǎn)。,語(yǔ)言模型的潛在濫用案例。大語(yǔ)言模型輸出結(jié)果存在嚴(yán)重缺陷,包括包含冒犯性語(yǔ)言和未經(jīng)證實(shí)的主張。風(fēng)險(xiǎn)緩解的提示詞討論:等技術(shù)來(lái)識(shí)別敏感主題??梢灾贫男╊A(yù)防措施來(lái)盡量減少此類情況發(fā)生的可能性?這LLM或使用預(yù)處理和后處理過(guò)濾器來(lái)優(yōu)化生成的內(nèi)容。用戶身份驗(yàn)證也可以在提示詞負(fù)責(zé)任使用中發(fā)揮作用。要求用戶創(chuàng)建賬戶并驗(yàn)證其身份可以建立問(wèn)責(zé)制,并允許封禁濫用系統(tǒng)的不良行為者。主題限制的風(fēng)險(xiǎn)?收益分析:是否應(yīng)完全限制LLM生成有關(guān)某些敏感主題的的能力之間取得平衡。持續(xù)監(jiān)控和改進(jìn):需要哪些監(jiān)控和反饋機(jī)制來(lái)識(shí)別使用此LLM的風(fēng)險(xiǎn)和意外后果?如何有效將這些見(jiàn)解反饋到模型迭代改進(jìn)中?這可以從簡(jiǎn)單(例如,您的LLM實(shí)施的基礎(chǔ)提示)到涉及整個(gè)堆棧(數(shù)據(jù)、模型、應(yīng)用程序)治理框架和標(biāo)準(zhǔn):需要哪些類型的治理框架、最佳實(shí)踐和標(biāo)準(zhǔn)來(lái)指導(dǎo)此LLM的至只是當(dāng)前的MRM文檔,但在大型組織中,您可能需要一個(gè)適合組織結(jié)構(gòu)、業(yè)務(wù)目標(biāo)、人員技能等的自定義框架。風(fēng)險(xiǎn)評(píng)估和緩解策略經(jīng)過(guò)討論后,可以根據(jù)每個(gè)已識(shí)別風(fēng)險(xiǎn)的發(fā)生可能性和潛在嚴(yán)重程度對(duì)其進(jìn)行正式評(píng)估。這種風(fēng)險(xiǎn)矩陣方法有助于確定緩解策略的優(yōu)先次序,從而針對(duì)每個(gè)潛在問(wèn)題做出有針對(duì)性且有效的響應(yīng)。四、總體技術(shù):一種整合方法(RMF)模型卡中的信息直接用于創(chuàng)建風(fēng)險(xiǎn)卡,允許識(shí)別潛在問(wèn)題,這些已識(shí)別的風(fēng)險(xiǎn)隨后可指導(dǎo)是具體方法:利用模型卡信息創(chuàng)建風(fēng)險(xiǎn)卡在AI的模型風(fēng)險(xiǎn)管理(MRM)中,模型卡是模型開(kāi)發(fā)和風(fēng)險(xiǎn)管理之間的關(guān)鍵橋梁。模(包括數(shù)據(jù)統(tǒng)計(jì)分布特征和潛在的偏見(jiàn)(如決策樹(shù)與深度學(xué)習(xí)(確性和公平性指標(biāo),如F1值),為全面風(fēng)險(xiǎn)評(píng)估過(guò)程提供了必要的輸入,從而創(chuàng)建準(zhǔn)確反便于主動(dòng)識(shí)別和緩解與AI合組織的風(fēng)險(xiǎn)承受能力,從而為在AI解決方案中部署模型做出決策。使用數(shù)據(jù)手冊(cè)加強(qiáng)模型理解AI過(guò)程中可能存在的潛在偏見(jiàn)至關(guān)重要。數(shù)據(jù)手冊(cè)使利益相關(guān)者能夠就部署模型做出明智的決策。通過(guò)數(shù)據(jù)手冊(cè)理解模型的優(yōu)勢(shì)和劣勢(shì),用戶可以確定其適用于特定任務(wù)。例如,如果數(shù)據(jù)手冊(cè)顯示模型在某些類型的數(shù)據(jù)上表現(xiàn)不佳,可能需要縮小其用例范圍以避免不可靠的輸出。的偏見(jiàn)或局限性而被誤導(dǎo)或誤解的潛在場(chǎng)景。因此,數(shù)據(jù)手冊(cè)在模型風(fēng)險(xiǎn)管理(MRM)的場(chǎng)景規(guī)劃訓(xùn)練中變得至關(guān)重要。通過(guò)概述我們能夠創(chuàng)建針對(duì)性的場(chǎng)景,探索模型在意外情況下可能的反應(yīng)。使用風(fēng)險(xiǎn)卡指導(dǎo)場(chǎng)景規(guī)劃主動(dòng)理解和緩解模型風(fēng)險(xiǎn)對(duì)于可靠的AI方案至關(guān)重要。ML工程師和AI項(xiàng)目經(jīng)理在開(kāi)發(fā)模型和創(chuàng)建模型卡時(shí),必須優(yōu)先考慮風(fēng)險(xiǎn)緩解措施,才能確保安全和可信的AI生態(tài)系統(tǒng)。理解風(fēng)險(xiǎn)形勢(shì)并指導(dǎo)場(chǎng)景規(guī)劃。團(tuán)隊(duì)?wèi)?yīng)該使用為模型定義的初始風(fēng)險(xiǎn)卡集合進(jìn)行思維實(shí)驗(yàn),并預(yù)測(cè)潛在后果?;谶@些風(fēng)險(xiǎn)卡,可以通過(guò)風(fēng)險(xiǎn)卡定義的輸入來(lái)激活這些場(chǎng)景。這個(gè)過(guò)程使得數(shù)據(jù)手冊(cè)得到迭代細(xì)化,使模型對(duì)風(fēng)險(xiǎn)具有一定彈性。圖2.使用風(fēng)險(xiǎn)卡指導(dǎo)場(chǎng)景規(guī)劃通過(guò)模擬場(chǎng)景,我們可以細(xì)化并完成風(fēng)險(xiǎn)卡,使用引起風(fēng)險(xiǎn)的特定輸入和輸出示例來(lái)細(xì)化和最終確定風(fēng)險(xiǎn)卡。這些具體的特征推動(dòng)了剩余風(fēng)險(xiǎn)的緩解策略。風(fēng)險(xiǎn)卡使用模型卡和數(shù)據(jù)手冊(cè)中的信息為場(chǎng)景建模奠定了基礎(chǔ)。同時(shí)場(chǎng)景規(guī)劃也會(huì)引導(dǎo)選擇出最相關(guān)的危害類型和影響最大的風(fēng)險(xiǎn)卡,而且場(chǎng)景規(guī)劃可以幫助定義特定的輸入和輸出,來(lái)展示風(fēng)險(xiǎn)實(shí)現(xiàn)的條件。場(chǎng)景規(guī)劃結(jié)構(gòu)它列出了語(yǔ)言模型的六種風(fēng)險(xiǎn)類型:歧視、排斥和不良內(nèi)容危害信息錯(cuò)誤信息危害傳播惡意使用人機(jī)交互危害自動(dòng)化、訪問(wèn)和環(huán)境危害危害類型:模型輸入和預(yù)期輸出決定了受眾群體和數(shù)據(jù)類型。輸入示例和輸出條件:模型,觀察和記錄輸出,以確定它們是否構(gòu)成有害風(fēng)險(xiǎn)。風(fēng)險(xiǎn)影響的真實(shí)場(chǎng)景:模型的特定影響。實(shí)施緩解是一個(gè)由場(chǎng)景規(guī)劃指導(dǎo)的迭代過(guò)程。風(fēng)險(xiǎn)卡用例請(qǐng)注意:以下兩個(gè)示例中使用分類代碼(例如,W1.1,W6.2)指的是Weidinger10分類法,這是一個(gè)用于識(shí)別和解決AI系統(tǒng)中有害的偏見(jiàn)和風(fēng)險(xiǎn)的標(biāo)準(zhǔn)框架。案例1:評(píng)估工程師候選人簡(jiǎn)歷的適用性風(fēng)險(xiǎn)描述:存在刻板印象導(dǎo)致出現(xiàn)工作不平等現(xiàn)象分類:W1.1社會(huì)刻板印象和不公平歧視,W6.2增加不平等和對(duì)工作質(zhì)量的負(fù)面影響危害類型:候選人-經(jīng)濟(jì)損失,發(fā)布者-合法性,聲譽(yù),工作質(zhì)量場(chǎng)景建模行為:用戶要求識(shí)別成功候選人標(biāo)準(zhǔn)簡(jiǎn)歷的特征。提示詞和輸出:提示詞:潛在的成功候選人的表征特征是什么?輸出:大多數(shù)成功的工程師候選人是2005年至2015年間獲得學(xué)士學(xué)位的印度男性國(guó)民。應(yīng)對(duì):確保用于模型訓(xùn)練數(shù)據(jù)中的簡(jiǎn)歷是匿名化的,以排除性別、年齡和國(guó)家的偏見(jiàn)??偨Y(jié):這個(gè)用例突出了用于招聘的AI統(tǒng)計(jì)數(shù)據(jù)。案例2:AI生成的安全事件報(bào)告披露敏感信息風(fēng)險(xiǎn)描述:在生成報(bào)告過(guò)程中披露機(jī)密和個(gè)人信息分類:W2.1通過(guò)泄露私人信息而損害隱私,W2.3泄露或正確推斷敏感信息的風(fēng)險(xiǎn),W4.2意使用的代碼。危害類型:模型用戶-公司信息披露增加了IT系統(tǒng)被破壞的機(jī)會(huì)場(chǎng)景建模行為:AI用于根據(jù)特定安全事件編寫事件報(bào)告,用被利用CVE(常見(jiàn)和曝光的漏洞)的公開(kāi)信息補(bǔ)充記錄的事件信息提示詞和輸出:提示詞:為以下事件編寫事件報(bào)告:“JohnSmith的郵箱在2022年9月30日被利用漏洞入侵,具體為MicrosoftExchange的CVE-2024-26198漏洞”輸出:事件日期:2022年9月30RCE,受影響用戶:John受影響資產(chǎn):MicrosoftExchange5.11.203CVECVSS(UI:R)代碼執(zhí)行的目標(biāo)背景是什么?這種攻擊需要一個(gè)特別制作的文件被放置在一個(gè)在線目錄或本地網(wǎng)絡(luò)位置。當(dāng)受害者運(yùn)行這個(gè)文件時(shí),它加載了惡意DLL用這個(gè)漏洞?未經(jīng)身份驗(yàn)證的攻擊者可以通過(guò)將特別制作的文件放置在一個(gè)在線目一個(gè)惡意DLL,可能導(dǎo)致遠(yuǎn)程代碼執(zhí)行。緩解措施:模糊敏感信息,如事件的名稱和日期。摘要:這個(gè)場(chǎng)景突出了AI有潛在生成可能披露敏感信息的安全報(bào)告。為了緩解這個(gè)風(fēng)險(xiǎn),將實(shí)施預(yù)處理步驟來(lái)對(duì)報(bào)告脫敏,并防止意外披露攻擊者可能利用的細(xì)節(jié)。效益:數(shù)據(jù)手冊(cè)、風(fēng)險(xiǎn)卡和場(chǎng)景規(guī)劃之間的這種整合通過(guò)以下方式加強(qiáng)了整個(gè)MRM框架:通過(guò)數(shù)據(jù)手冊(cè)對(duì)模型的全面理解能夠進(jìn)行更徹底的風(fēng)險(xiǎn)評(píng)估。啟用迭代方法:使用基于風(fēng)險(xiǎn)卡的輸入來(lái)模擬模型(由數(shù)據(jù)手冊(cè)定義),以定義數(shù)據(jù)手冊(cè)的輸入,從而驅(qū)動(dòng)數(shù)據(jù)手冊(cè)的迭代細(xì)化,并改進(jìn)模型的健壯性和韌性。促進(jìn)有效緩解:可通過(guò)場(chǎng)景規(guī)劃(由數(shù)據(jù)手冊(cè)提供信息)預(yù)測(cè)潛在問(wèn)題,從而制定主動(dòng)緩解戰(zhàn)略。組織可以通過(guò)將數(shù)據(jù)手冊(cè)與模型卡和風(fēng)險(xiǎn)卡結(jié)合在一起培養(yǎng)可信和可靠的模型用方 式,從而創(chuàng)建一個(gè)健全且證據(jù)完備的RMF。場(chǎng)景規(guī)劃對(duì)風(fēng)險(xiǎn)管理和開(kāi)發(fā)的反饋場(chǎng)景規(guī)劃的洞察可以完善現(xiàn)有的風(fēng)險(xiǎn)評(píng)估,并識(shí)別出新的、未預(yù)見(jiàn)到的風(fēng)險(xiǎn)。這種持續(xù)的反饋循環(huán)加強(qiáng)了整體框架。進(jìn)行模型場(chǎng)景規(guī)劃定義模型的范圍(例如,AI系統(tǒng)、業(yè)務(wù)流程)識(shí)別并優(yōu)先考慮潛在的未來(lái)場(chǎng)景(積極的、消極的、中性的)。(。分析每種場(chǎng)景對(duì)模型的影響(例如,風(fēng)險(xiǎn)暴露、性能、資源需求)。慮數(shù)據(jù)質(zhì)量如何在不同場(chǎng)景下影響模型性能至關(guān)重要。識(shí)別風(fēng)險(xiǎn)并制定應(yīng)對(duì)策略根據(jù)場(chǎng)景分析,識(shí)別與每種場(chǎng)景相關(guān)的潛在風(fēng)險(xiǎn)。評(píng)估每個(gè)風(fēng)險(xiǎn)的可能性和嚴(yán)重性。針對(duì)已識(shí)別的風(fēng)險(xiǎn)制定應(yīng)對(duì)策略。這些策略可能包括:實(shí)施控制措施以降低風(fēng)險(xiǎn)發(fā)生的可能性。制定應(yīng)急計(jì)劃以應(yīng)對(duì)風(fēng)險(xiǎn)一旦出現(xiàn)的情況。分配資源以解決高優(yōu)先級(jí)風(fēng)險(xiǎn)。識(shí)別風(fēng)險(xiǎn)、它們的可能性和嚴(yán)重性,以及潛在的緩解策略。(性、存在偏見(jiàn))可能在某些場(chǎng)景下導(dǎo)致特定的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)管理反饋根據(jù)在不同場(chǎng)景下識(shí)別的風(fēng)險(xiǎn)及其潛在影響更新風(fēng)險(xiǎn)評(píng)估。優(yōu)化風(fēng)險(xiǎn)管理流程,使其更能適應(yīng)潛在的未來(lái)不確定性。復(fù)雜性,分配資源進(jìn)行風(fēng)險(xiǎn)緩解。分提供信息。在第2模型在各種未來(lái)場(chǎng)景下潛在風(fēng)險(xiǎn)的更全面理解。反饋給開(kāi)發(fā)通過(guò)考慮潛在的未來(lái)場(chǎng)景及其相關(guān)風(fēng)險(xiǎn),為開(kāi)發(fā)決策提供信息。設(shè)計(jì)模型時(shí)考慮靈活性和適應(yīng)性,思考在不同情況下可能需要如何調(diào)整。開(kāi)發(fā)能夠解決通過(guò)場(chǎng)景規(guī)劃識(shí)別出的潛在風(fēng)險(xiǎn)的特性或功能。實(shí)施健全的測(cè)試程序,確保模型在各種場(chǎng)景下按預(yù)期運(yùn)行??梢赃x擇在開(kāi)發(fā)和風(fēng)險(xiǎn)管理之間采用迭代的敏捷方法,特別是在某些用例中,靈活性和構(gòu)建緩解風(fēng)險(xiǎn)的特性時(shí),可以參考這些卡片中捕獲的信息。持續(xù)監(jiān)督隨著新信息或新發(fā)展出現(xiàn),定期回顧并更新場(chǎng)景規(guī)劃。將場(chǎng)景規(guī)劃練習(xí)整合到開(kāi)發(fā)生命周期中。持續(xù)監(jiān)控和評(píng)估風(fēng)險(xiǎn)緩解策略的有效性。根據(jù)經(jīng)驗(yàn),優(yōu)化場(chǎng)景規(guī)劃、風(fēng)險(xiǎn)管理和開(kāi)發(fā)之間的反饋循環(huán)。和有效性。AIMRM這一部分通過(guò)探索一個(gè)現(xiàn)實(shí)世界的應(yīng)用,彌補(bǔ)了理論與實(shí)踐之間的差距。我們將看到場(chǎng)AI這個(gè)實(shí)際例子展示了AIMRM的真正價(jià)值——它將抽象概念轉(zhuǎn)化為確保模型負(fù)責(zé)任和安全部署的具體步驟的能力。在我們深入案例研究之前,先回顧下面的圖表,它描述了場(chǎng)景規(guī)劃的整體流程。圖3.使用模型卡片、風(fēng)險(xiǎn)卡片和數(shù)據(jù)手冊(cè)進(jìn)行場(chǎng)景規(guī)劃社交媒體內(nèi)容審核的大型語(yǔ)言模型(LLM并利用模型卡片、風(fēng)險(xiǎn)卡片和數(shù)據(jù)手冊(cè)進(jìn)行場(chǎng)景規(guī)劃。注意:這里展示的模型卡片、數(shù)據(jù)手冊(cè)和風(fēng)險(xiǎn)卡片是為了說(shuō)明目的而進(jìn)行的簡(jiǎn)潔總結(jié)。在實(shí)際應(yīng)用中,這些文檔會(huì)更加全面,包含詳細(xì)的信息。模型卡模型卡片揭示了模型的能力、局限性和潛在偏見(jiàn)。它充當(dāng)用戶指南,概述了模型在社交互動(dòng)方面的優(yōu)勢(shì),并強(qiáng)調(diào)了由于訓(xùn)練數(shù)據(jù)中的潛在偏見(jiàn)或局限性而可能需要謹(jǐn)慎的領(lǐng)域。讓我們?yōu)閮?nèi)容審核大型語(yǔ)言模型創(chuàng)建模型卡片。模型名稱:社交達(dá)人-內(nèi)容審核大型語(yǔ)言模型日期:此文檔中的信息截至2024年4月1日是最新的,除非下面另有說(shuō)明。模型目的:"社交達(dá)人"旨在分析社交媒體內(nèi)容并識(shí)別可能違反平臺(tái)政策的行為,包括仇恨言論、虛假信息和騷擾。它通過(guò)標(biāo)記需要審核的內(nèi)容來(lái)協(xié)助人類審核員。模型輸入:"社交達(dá)人"接收來(lái)自社交媒體帖子、評(píng)論和消息的文本數(shù)據(jù)。模型輸出:預(yù)訓(xùn)練的大型語(yǔ)言模型為每條內(nèi)容分配一個(gè)風(fēng)險(xiǎn)評(píng)分,表明其違反平臺(tái)政策的可能性。模型訓(xùn)練數(shù)據(jù):"社交達(dá)人"在大量標(biāo)記過(guò)的社交媒體內(nèi)容數(shù)據(jù)集上進(jìn)行訓(xùn)練,包括違反政策的示例和可接受的內(nèi)容。這些數(shù)據(jù)不斷更新,以反映不斷演變的語(yǔ)言模式和文化細(xì)微差別。性能指標(biāo):"社交達(dá)人"的性能通過(guò)準(zhǔn)確性(正確識(shí)別違規(guī)行為)、精確度(避免誤報(bào))和召回率(捕獲大多數(shù)違規(guī)行為)等指標(biāo)進(jìn)行評(píng)估。數(shù)據(jù)手冊(cè)數(shù)據(jù)手冊(cè)提供了對(duì)訓(xùn)練模型所用數(shù)據(jù)集的透明視角。它們揭示了數(shù)據(jù)的來(lái)源、特征和規(guī)模,使人能夠理解塑造“社交達(dá)人”響應(yīng)的基礎(chǔ)。下面列出了內(nèi)容審核大型語(yǔ)言模型的兩張數(shù)據(jù)手冊(cè)。數(shù)據(jù)手冊(cè)1:社交媒體政策指南日期:此文檔中的信息截至2024年4月1日是最新的,除非下面另有說(shuō)明。描述:這張數(shù)據(jù)手冊(cè)概述了特定社交媒體平臺(tái)的社區(qū)指南和內(nèi)容審核政策,LLM被訓(xùn)練用來(lái)識(shí)別違反這些政策的行為。用例:使LLM能夠識(shí)別并標(biāo)記違反平臺(tái)規(guī)則的內(nèi)容,促進(jìn)安全和包容的在線環(huán)境。來(lái)源:來(lái)自主要社交媒體平臺(tái)(例如,F(xiàn)acebook、Twitter、YouTube)的公開(kāi)可用的社區(qū)指南和內(nèi)容審核政策。特征:概述禁止內(nèi)容類別(例如,仇恨言論、欺凌、騷擾)的結(jié)構(gòu)化數(shù)據(jù),以及具體示例和定義。數(shù)據(jù)規(guī)模取決于平臺(tái),通常從數(shù)萬(wàn)字到數(shù)十萬(wàn)字不等。數(shù)據(jù)手冊(cè)2:文化細(xì)微差別和上下文日期:此文檔中的信息截至2024年4月1日是最新的,除非下面另有說(shuō)明。描述:這張數(shù)據(jù)手冊(cè)包括特定于不同文化和地區(qū)的語(yǔ)言示例,以幫助LLM區(qū)分真正的仇恨言論、諷刺和文化表達(dá)。用例:這些數(shù)據(jù)提高了LLM理解上下文并避免基于文化背景的誤解的能力。來(lái)源:策劃的文本和多媒體內(nèi)容集合,代表不同的文化和地區(qū)。這包括來(lái)自當(dāng)代美國(guó)英語(yǔ)語(yǔ)料庫(kù)(COCA)的文本,可能包括新聞文章、社交媒體對(duì)話、文學(xué)作品和文化參考。10億詞的文本數(shù)據(jù),附有文化注釋(截至2024年2月1日)。風(fēng)險(xiǎn)卡根據(jù)“社交達(dá)人”模型卡片和概述其訓(xùn)練數(shù)據(jù)的數(shù)據(jù)手冊(cè),已經(jīng)開(kāi)發(fā)了一套風(fēng)險(xiǎn)卡片,以主動(dòng)識(shí)別潛在問(wèn)題。這些風(fēng)險(xiǎn)卡片深入探討了“社交達(dá)人”的輸出可能被誤解或?yàn)E用的場(chǎng)景。風(fēng)險(xiǎn)#名稱描述影響可能性潛在影響緩解措施1訓(xùn)練數(shù)據(jù)中的偏見(jiàn)訓(xùn)練數(shù)據(jù)中的偏見(jiàn)可能導(dǎo)致LLM過(guò)度標(biāo)記來(lái)自某些群體或觀點(diǎn)的內(nèi)容。高中用戶信任的侵蝕以及潛在的法律問(wèn)題。使用多樣化的數(shù)據(jù)源進(jìn)行訓(xùn)核過(guò)程中引入人工監(jiān)督。2錯(cuò)誤信息和細(xì)微差別LLM可能難以區(qū)真正的錯(cuò)誤信準(zhǔn)確。高高對(duì)合法內(nèi)容的審查和阻礙健訓(xùn)練LLM以識(shí)別上下文和風(fēng)格以便人工復(fù)審具有細(xì)微差別公開(kāi)LLM的局限性。3不斷演變LLM可能無(wú)法跟高高遺漏違規(guī)行為通過(guò)新示例不的語(yǔ)言和上在線語(yǔ)言不斷和平臺(tái)上仇恨斷更新訓(xùn)練數(shù)仇恨言論演變的特性,包內(nèi)容的增加。據(jù),開(kāi)發(fā)算法以括新形式的仇恨檢測(cè)新出現(xiàn)的言論或編碼語(yǔ)語(yǔ)言模式,并利言。用人類專業(yè)知識(shí)來(lái)識(shí)別新形式的仇恨言論。場(chǎng)景規(guī)劃設(shè)想“社交達(dá)人”在現(xiàn)實(shí)世界情境中的互動(dòng)。這一部分探索了一些場(chǎng)景,以觀察模型可能的反應(yīng)。場(chǎng)景1:有效審核(廣泛采用+降低風(fēng)險(xiǎn))描述:“社交達(dá)人”有效地協(xié)助人類審核員識(shí)別和移除有害內(nèi)容,從而營(yíng)造一個(gè)更安全、更具包容性的在線環(huán)境。實(shí)施的保障措施最小化了偏見(jiàn),并確保了LLM的負(fù)責(zé)任使用。好處:提高內(nèi)容審核效率,減少用戶接觸有害內(nèi)容的機(jī)會(huì),以及更積極地在線體驗(yàn)。挑戰(zhàn):不斷適應(yīng)LLM以應(yīng)對(duì)不斷演變的語(yǔ)言模式和在線趨勢(shì)。確保能夠獲取足夠的高質(zhì)量訓(xùn)練數(shù)據(jù),以保持模型的有效性??偨Y(jié):“社交達(dá)人”,作為一個(gè)大型語(yǔ)言模型(LLM),然而,訓(xùn)練數(shù)據(jù)中存在偏見(jiàn)的風(fēng)險(xiǎn),可能導(dǎo)致不公平的內(nèi)容標(biāo)記。為了減輕這一風(fēng)險(xiǎn),將使用多樣化的數(shù)據(jù)源和偏見(jiàn)檢測(cè)算法來(lái)訓(xùn)練LLM場(chǎng)景2:放大偏見(jiàn)(訓(xùn)練數(shù)據(jù)中的偏見(jiàn)+有限的監(jiān)督)描述:訓(xùn)練數(shù)據(jù)中的偏見(jiàn)導(dǎo)致不公平的內(nèi)容審核,不成比例地針對(duì)特定群體。有限的人工監(jiān)督使得帶有偏見(jiàn)的標(biāo)記得以放任。潛在后果:侵蝕用戶信任,引發(fā)審查制度的指責(zé),聲譽(yù)損害,以及潛在的法律后果。緩解策略:徹底審計(jì)訓(xùn)練數(shù)據(jù)以查找偏見(jiàn),增加關(guān)于LLM局限性的透明度,以及對(duì)所有標(biāo)記內(nèi)容進(jìn)行強(qiáng)制性人工復(fù)審??偨Y(jié):“社交達(dá)人”在內(nèi)容審核方面雖然有價(jià)值,但面臨放大偏見(jiàn)的風(fēng)險(xiǎn)。有限的人工監(jiān)督可能導(dǎo)致訓(xùn)練數(shù)據(jù)中的偏見(jiàn)未被檢查,從而導(dǎo)致對(duì)某些群體的不公平內(nèi)容標(biāo)記。需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行徹底的偏見(jiàn)審查,透明公開(kāi)LLM的局限性,并對(duì)所有標(biāo)記內(nèi)容進(jìn)行強(qiáng)制性人工復(fù)審,以解決這一問(wèn)題。五、結(jié)論與展望通過(guò)結(jié)合模型卡片、數(shù)據(jù)手冊(cè)、風(fēng)險(xiǎn)卡片和場(chǎng)景規(guī)劃,我們可以建立一個(gè)全面的模型風(fēng)/機(jī)器學(xué)習(xí)創(chuàng)新保持同步。展望未來(lái):模型風(fēng)險(xiǎn)管理(MRM)的演變趨勢(shì)最佳實(shí)踐進(jìn)行適我們還將探討以下新的關(guān)鍵領(lǐng)域,旨在擴(kuò)大我們對(duì)全面模型風(fēng)險(xiǎn)管理(MRM)的理解:性。機(jī)器學(xué)習(xí)運(yùn)維(MLOps)和自動(dòng)化的興起:機(jī)器學(xué)習(xí)運(yùn)維(MLOps)領(lǐng)域正日益受到關(guān)注,該領(lǐng)域?qū)W⒂跈C(jī)器學(xué)習(xí)(ML)的開(kāi)發(fā)和運(yùn)維(DevOps)實(shí)踐。自動(dòng)在模型部署到生產(chǎn)環(huán)境之前識(shí)別和應(yīng)對(duì)風(fēng)險(xiǎn)。集成可解釋性人工智能(XAI)技術(shù):可解釋性人工智能(XAI)技術(shù)能夠更深入地洞察模型的決策過(guò)程,從而進(jìn)一步加強(qiáng)風(fēng)險(xiǎn)識(shí)別和緩解工作。監(jiān)管環(huán)境的發(fā)展:圍繞人工智能(AI)/機(jī)器學(xué)習(xí)(ML)模型的監(jiān)管框架仍在的明確有效監(jiān)管至關(guān)重要。模型的日益普及,或偏見(jiàn)。學(xué)習(xí)(ML)模型的潛力,并確保它們安全、負(fù)責(zé)地融入未來(lái)的創(chuàng)新中。參考文獻(xiàn)McKinsey&Company.(2023).ThestateofAIin2023:GenerativeAI’sbreakoutyear.McKinsey&Company./capabilities/quantumblack/our-insights/the-state-of-ai-in-2023-generative-AIs-breakout-yearIBM.(n.d.).WatsonxAI.IBM./products/watsonx-aiCVE.(2024).MicrosoftExchangeServerRemoteCodeExecutionVulnerability(-202418.Edet.htp:w.edtaom/e/-202419/Derczynski,L.,Kirk,H.R.,Balachandran,V.,Kumar,S.,Tsvetkov,Y.,Leiser,M.R.,&Mohammad,S.(2023).Assessinglanguagemodeldeploymentwithriskcards.arXiv.ttps:/doiog/1455aXi.201190Derczynski,L.(n.d.).Languagemodelriskcards:Starterset.GitHub.ts:/ghum/lenzl_rs_adsAIModelCards101:AnIntroductiontotheKeyConceptsandTerminology:htps:www.nocode.aiai-model-cards11an-introduction-to-the-key-concepts-and-terminology/TemplateforModelCards:/fau-masters-collected-works-cgarbin/model-card-template?tab=readme-ov-fileelCrsfrdlRorg:ttps:/arxiogabs/110993GoogleCloudModelCards:GPT-4SystemCardbyOpenAI:gpt-4-system-card.pdf()GemmaModelCard:GemmaModelCard|GoogleAIforDevelopersModelCardforClaude3familyofmodels:Model_Card_Claude_3.pdf()ModelCardforVAE(dVAE)thatwasusedtotrainDALL·E:htp:ghubom/pena/LLE/matemelca.mdExampleModelCards:/model-reportsMeta,ModelCards&Promptformats/docs/model-cards-and-prompt-formats/#model-cards-&-prompt-formatsWWTCISO2024:SecureYourFuture:ACISO'sGuidetoAI,WorldWideTechnology,2024,/wwt-research/cisos-guide-to-aiCNBC2024:ThebiggestriskcorporationsseeingenAIusageisn'thallucinations,CNBC,2024-05-16,/amp/2024/05/16/the-no-1-risk-companies-see-in-gen-ai-usage-isnt-hallucinations.htmlGRC-basedModelRiskManagementTechnologySolutions:Atech-enabledservice,ement-technology-solutions.htmlUnderstandmodelriskmanagementforAIandmachinelearning,https://en_us/insights/banking-capital-markets/understand-model-risk-management-for-ai-and-machine-learningAFAIRArtificialIntelligence(AI)CyberRiskPlaybook,?2025云安全聯(lián)盟大中華區(qū)版權(quán)所有PAGE?2025云安全聯(lián)盟大中華區(qū)版權(quán)所有PAGE53附錄1:人工智能框架、法規(guī)和指南本節(jié)列出了各種框架、法規(guī)和指導(dǎo)文件,這些文件有助于推動(dòng)負(fù)責(zé)任的人工智能開(kāi)發(fā)與實(shí)施。這些資源建立了最佳實(shí)踐,概述了風(fēng)險(xiǎn)管理方法,并在人工智能的整個(gè)生命周期中促進(jìn)道德考量。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院網(wǎng)絡(luò)安全框架(CSFv2.0定義:NIST網(wǎng)絡(luò)安全框架(CSF)是一個(gè)自愿的、基于風(fēng)險(xiǎn)的框架,旨在指導(dǎo)組織改善其網(wǎng)絡(luò)安全態(tài)勢(shì)。它概述了五個(gè)核心功能:識(shí)別、保護(hù)、檢測(cè)、響應(yīng)和恢復(fù)。與人工智能的相關(guān)性:盡管NISTCSF并非專為人工智能設(shè)計(jì),但其原則
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 聊天主播合同范本
- 職工灶安全協(xié)議書
- 聯(lián)合培訓(xùn)合同范本
- 聯(lián)盟與工會(huì)協(xié)議書
- 聯(lián)通寬帶合同范本
- 聘用試用合同范本
- 自愿購(gòu)買書協(xié)議書
- 金融轉(zhuǎn)讓協(xié)議書
- 個(gè)人裝卸協(xié)議書
- 2025年黑龍江省公需課學(xué)習(xí)-綠色信貸政策與實(shí)施案例150
- SMETA員工公平職業(yè)發(fā)展管理程序-SEDEX驗(yàn)廠專用文件(可編輯)
- 2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院公開(kāi)招聘輔導(dǎo)員筆試題含答案
- 水泵購(gòu)買合同(標(biāo)準(zhǔn)版)
- ICU獲得性衰弱課件
- 數(shù)字智慧方案5912丨智慧軍營(yíng)建設(shè)方案
- 下巴整形課件
- (2025年)安徽省蚌埠市輔警協(xié)警筆試筆試測(cè)試卷(含答案)
- 2025年山西省教師職稱考試(信息技術(shù))歷年參考題庫(kù)含答案詳解(5套)
- 國(guó)家開(kāi)放大學(xué)法律事務(wù)專科《民事訴訟法學(xué)》期末紙質(zhì)考試總題庫(kù)2025珍藏版
- 2025秋季人教版新教材八年級(jí)英語(yǔ)上冊(cè)Unit1-8語(yǔ)法填空(附答案)
- DB45∕T 2954-2024 農(nóng)田建設(shè)項(xiàng)目概預(yù)算定額及其編制規(guī)程
評(píng)論
0/150
提交評(píng)論