版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
新加坡共識(shí)構(gòu)建可信、可靠、安全的人工智能生態(tài)系統(tǒng)2025年5月8日構(gòu)建可信的生態(tài)系統(tǒng)4工藝5范圍6結(jié)構(gòu)6局投稿人表達(dá)的觀點(diǎn)是以個(gè)人身份發(fā)表的,不一定反映其所屬組織的觀點(diǎn)2025年4月26日,“2025年新加坡人工智能會(huì)議:人工智能安全國(guó)際科學(xué)交流”的參與者23部壇生命未來(lái)研究所院院所院人工智能能力和自主性的快速提高為變革帶來(lái)了巨大的希望,但也推動(dòng)了關(guān)于如何確保人工智能安全的激烈辯論,即,值得信賴(lài)、可靠和安全。因此,建立一個(gè)可信的生態(tài)系統(tǒng)至關(guān)重要-它可以幫助人們充滿(mǎn)信心地接受人工智能,并為創(chuàng)新提供最大的空間,同時(shí)避免反彈。這需要政策制定者、行業(yè)、研究人員和更廣泛的公眾共同努力,確保人工智能的發(fā)展取得積極成果人工智能安全研究是一個(gè)關(guān)鍵方面。鑒于當(dāng)今構(gòu)建值得信賴(lài)的人工智能的科學(xué)狀況并不能完全涵蓋所有風(fēng)險(xiǎn),因此需要加速研究投資,以跟上商業(yè)驅(qū)動(dòng)的系統(tǒng)能力增長(zhǎng)452025年新加坡人工智能會(huì)議(SCAI):人工智能安全國(guó)際科學(xué)交流旨在通過(guò)匯集不同地區(qū)的人工智能科學(xué)家來(lái)確定和綜合人工智能安全的研究重點(diǎn),以支持這一重要領(lǐng)域的研究。其結(jié)果是,《關(guān)于全球人工智能安全研究?jī)?yōu)先事項(xiàng)的新加坡共識(shí)》建立在國(guó)際社會(huì)的基礎(chǔ)上,alAISafetyReport-A(IAISR),由YoonyBengio主持,得到33個(gè)國(guó)家政府的支持。通過(guò)采用深度防御模型,本文將人工智能安全研究領(lǐng)域分為三種類(lèi)型:創(chuàng)建值得信賴(lài)的人工智能系統(tǒng)的挑戰(zhàn)(開(kāi)發(fā)),評(píng)估其風(fēng)險(xiǎn)的挑戰(zhàn)(評(píng)估)以及部署后的監(jiān)控和干預(yù)挑戰(zhàn)(控制)。通過(guò)新加坡共識(shí),我們希望在全球范圍內(nèi)促進(jìn)人工智能科學(xué)家和人工智能政策制定者之間的有意義的對(duì)話(huà),以獲得最大的利益。我們的目標(biāo)是使更有影響力的研發(fā)工作能夠快速開(kāi)發(fā)安全和評(píng)估機(jī)制,并培育一個(gè)可信賴(lài)的生態(tài)系統(tǒng),利用人工智能為公眾造福。共同感興趣的領(lǐng)域:雖然公司和國(guó)家經(jīng)常在人工智能研究和開(kāi)發(fā)方面競(jìng)爭(zhēng),但也有動(dòng)機(jī)尋求一致和共同利益。這一綜合涵蓋了不同各方可能存在競(jìng)爭(zhēng)的領(lǐng)域,但也突出了共同感興趣的領(lǐng)域的更廣泛的景觀的例子-研究產(chǎn)品和信息,開(kāi)發(fā)人員會(huì)發(fā)現(xiàn)它在他們的自身利益廣泛共享(Bucknall-B)。某些安全進(jìn)步在服務(wù)于共同利益的同時(shí)提供了最小的競(jìng)爭(zhēng)優(yōu)勢(shì)-類(lèi)似于競(jìng)爭(zhēng)的飛機(jī)制造商(例如,波音公司和空中客車(chē)公司)在航空安全信息和標(biāo)準(zhǔn)方面進(jìn)行合作在人工智能領(lǐng)域,潛在互利合作的特定領(lǐng)域涵蓋本報(bào)告的第1-3節(jié),包括某些驗(yàn)證機(jī)制、風(fēng)險(xiǎn)管理標(biāo)準(zhǔn)和風(fēng)險(xiǎn)評(píng)估(Bucknall-B)。動(dòng)機(jī)是明確的:當(dāng)人工智能事件發(fā)生或惡意行為者被啟用時(shí),沒(méi)有組織或國(guó)家受益,因?yàn)橛纱水a(chǎn)生的傷害將集體損害每個(gè)人過(guò)程2025年4月26日-SCAI:國(guó)際科學(xué)AI安全100多名與會(huì)者出席討論和反饋表示來(lái)自11個(gè)國(guó)家的人出席本文件全面綜合了國(guó)際人工智能安全報(bào)告-B和補(bǔ)充的最新研究?jī)?yōu)先級(jí)框架中的研究提案,包括英國(guó)AISI,Anthropic-F,Anwar,Bengio-A,GDM,Hendrycks-A,Ji,Li-A,OpenAI-B,NIST,Pastel,Slattery和Weidinger-A。最初由專(zhuān)家規(guī)劃委員會(huì)(DawnSong、LanXue、LukeOng、MaxTegmark、StuartRussell、TeganMaharaj、Ya-QinZhang和Yoon-Bengio)設(shè)計(jì)為咨詢(xún)草案,分發(fā)給所有與會(huì)者以征求全面反饋。在根據(jù)參與者的書(shū)面反饋和親自反饋進(jìn)行了幾輪更新之后,本文件旨在綜合不同研究人員之間的廣泛共識(shí)的完整列表6本文開(kāi)頭介紹了為新加坡共識(shí)進(jìn)程做出貢獻(xiàn)的與會(huì)者,其中包括來(lái)自領(lǐng)先學(xué)術(shù)機(jī)構(gòu)和人工智能開(kāi)發(fā)人員的研究人員,以及來(lái)自政府和民間社會(huì)的代表我們?cè)噲D包容學(xué)術(shù)界、工業(yè)界和民間社會(huì)研究人員提出的術(shù)語(yǔ)和研究主題建議由于不同的作者使用了各種不同的定義和分類(lèi)方案,因此這種綜合方法具有獨(dú)特的優(yōu)點(diǎn)因此,本報(bào)告采取了一種謙虛的方法:下表1中關(guān)鍵術(shù)語(yǔ)的定義只是說(shuō)明了我們?nèi)绾卧诒緢?bào)告中使用各種術(shù)語(yǔ),以避免混淆,我們并沒(méi)有聲稱(chēng)這些定義比其他替代定義更好我們將討論限制在技術(shù)人工智能安全研究,重點(diǎn)是使人工智能更值得信賴(lài),而不僅僅是更強(qiáng)大,并排除人工智能政策研究。我們主要關(guān)注通用AI:根據(jù)國(guó)際AI安全報(bào)告,本文中的術(shù)語(yǔ)“AI系統(tǒng)”應(yīng)理解為通用AI(GPAI)系統(tǒng)-可以執(zhí)行或可以適應(yīng)執(zhí)行廣泛任務(wù)的系統(tǒng)(IAISR)。這包括生成文本的語(yǔ)言模型(例如,聊天系統(tǒng))以及可以與多種類(lèi)型的數(shù)據(jù)一起工作的“多模態(tài)”模型,通常包括文本、圖像、視頻、音頻和機(jī)器人動(dòng)作。重要的是,它包括通用代理-自主行動(dòng)和計(jì)劃完成復(fù)雜任務(wù)的系統(tǒng),例如通過(guò)控制電腦開(kāi)發(fā)更強(qiáng)大的代理是AI開(kāi)發(fā)人員的核心重點(diǎn),因?yàn)樗麄儾粩嘣鲩L(zhǎng)的部署帶來(lái)了新的重大風(fēng)險(xiǎn)和機(jī)遇。我們強(qiáng)調(diào),與通用AI系統(tǒng)相關(guān)的技術(shù)解決方案是必要的,但不足以確保AI的整體安全性。我們負(fù)責(zé)任地管理人工智能風(fēng)險(xiǎn)和機(jī)遇的集體能力最終將取決于我們選擇建立一個(gè)健康的人工智能生態(tài)系統(tǒng),研究風(fēng)險(xiǎn),實(shí)施緩解措施,并將解決方案整合到有效的風(fēng)險(xiǎn)管理框架中。受《2025年國(guó)際人工智能安全報(bào)告》(IAISR)的啟發(fā),本文件采用了深度防御模型,并將人工智能技術(shù)安全研究主題分為三大領(lǐng)域,從為后續(xù)開(kāi)發(fā)和部署決策提供信息的風(fēng)險(xiǎn)評(píng)估,到系統(tǒng)開(kāi)發(fā)階段的技術(shù)方法,以及系統(tǒng)部署后的控制如圖1所示,這三個(gè)確定的領(lǐng)域有有趣的重疊:1.風(fēng)險(xiǎn)評(píng)估:風(fēng)險(xiǎn)評(píng)估的主要目標(biāo)是了解潛在損害的嚴(yán)重度和可能性。風(fēng)險(xiǎn)評(píng)估用于確定風(fēng)險(xiǎn)的優(yōu)先級(jí),并確定風(fēng)險(xiǎn)是否超過(guò)需要采取具體行動(dòng)的閾值。相應(yīng)的開(kāi)發(fā)和部署決策都基于這些評(píng)估。這一類(lèi)別的研究領(lǐng)域涉及開(kāi)發(fā)方法來(lái)衡量人工智能系統(tǒng)對(duì)當(dāng)前和未來(lái)人工智能的影響,增強(qiáng)計(jì)量學(xué)以確保這些測(cè)量是精確和可重復(fù)的,并為第三方構(gòu)建推動(dòng)因素。7審計(jì),以支持這些風(fēng)險(xiǎn)評(píng)估的獨(dú)立驗(yàn)證2.開(kāi)發(fā):設(shè)計(jì)上值得信賴(lài)、可靠和安全的人工智能系統(tǒng)讓人們有信心接受和采用人工智能創(chuàng)新。遵循經(jīng)典的安全工程框架,這一類(lèi)別的研究領(lǐng)域包括指定所需的行為,設(shè)計(jì)符合規(guī)范的AI系統(tǒng),并驗(yàn)證系統(tǒng)符合其規(guī)范。3.控制:在工程中,“控制”通常是指管理系統(tǒng)行為以實(shí)現(xiàn)預(yù)期結(jié)果的過(guò)程,即使面臨干擾或不確定性,并且通常處于反饋回路中。該類(lèi)別的研究領(lǐng)域包括為人工智能系統(tǒng)開(kāi)發(fā)監(jiān)控和干預(yù)機(jī)制,擴(kuò)展-將監(jiān)控機(jī)制引入人工智能系統(tǒng)所屬的更廣泛的人工智能生態(tài)系統(tǒng),并進(jìn)行社會(huì)彈性研究,以加強(qiáng)社會(huì)基礎(chǔ)設(shè)施(例如經(jīng)濟(jì),安全以適應(yīng)與人工智能相關(guān)的社會(huì)變化。圖1:這個(gè)維恩圖說(shuō)明了人工智能安全技術(shù)是如何相互關(guān)聯(lián)的。我們通過(guò)我們?nèi)绾卧O(shè)計(jì)它(區(qū)域2)和我們?nèi)绾慰刂扑▍^(qū)域3)來(lái)使系統(tǒng)按照期望(區(qū)域1中評(píng)估)運(yùn)行一些評(píng)估工具可以同時(shí)支持領(lǐng)域2和領(lǐng)域3。區(qū)域2和區(qū)域3之間的重疊源于對(duì)系統(tǒng)的組成部分和控制反饋環(huán)和支架。例如,如果我們將大型語(yǔ)言模型視為系統(tǒng),則阻止有關(guān)生物武器問(wèn)題的外部過(guò)濾器屬于區(qū)域2,但如果我們考慮過(guò)濾器,則屬于區(qū)域1成為系統(tǒng)8Term如何在本報(bào)告中使用規(guī)范所需系統(tǒng)行為的具體定義驗(yàn)證確保規(guī)范和最終系統(tǒng)滿(mǎn)足用戶(hù)、開(kāi)發(fā)人員或社會(huì)的需求(我構(gòu)建了正確的系統(tǒng)?)有效性衡量或評(píng)估工具實(shí)際上衡量了它聲稱(chēng)要衡量的東西AI智能體AI可以制定計(jì)劃以實(shí)現(xiàn)目標(biāo),自適應(yīng)地執(zhí)行涉及多個(gè)步驟和不確定結(jié)果的任務(wù),并與其環(huán)境交互-例如通過(guò)創(chuàng)建文件,在網(wǎng)絡(luò)上采取行動(dòng)或?qū)⑷蝿?wù)委托給其他代理-很少或沒(méi)有人類(lèi)監(jiān)督。AI模型一種計(jì)算機(jī)程序,通常通過(guò)從數(shù)據(jù)中學(xué)習(xí)而自動(dòng)生成,用于處理輸入并產(chǎn)生輸出。AI模型可以執(zhí)行預(yù)測(cè)、分類(lèi)、決策或生成等任務(wù),形成AI系統(tǒng)的引擎AI系統(tǒng)一種集成設(shè)置,將一個(gè)或多個(gè)AI模型與其他組件(如用戶(hù)界面或內(nèi)容過(guò)濾器)相結(jié)合,以生成用戶(hù)可以與之交互的應(yīng)用程序。驗(yàn)證提供定性或定量的理由或保證系統(tǒng)滿(mǎn)足其規(guī)格(我構(gòu)建的系統(tǒng)正確嗎。保證確定系統(tǒng)是否按預(yù)期運(yùn)行的更廣泛過(guò)程因此,提供保證需要適當(dāng)?shù)囊?guī)范、確認(rèn)、設(shè)計(jì)、實(shí)施和核查??刂圃谙到y(tǒng)創(chuàng)建后對(duì)其進(jìn)行監(jiān)控,并在需要時(shí)進(jìn)行干預(yù),通常是在反饋回路中,以確保系統(tǒng)按預(yù)期運(yùn)行對(duì)準(zhǔn)創(chuàng)建/修改人工智能以滿(mǎn)足預(yù)期的行為、目標(biāo)和價(jià)值觀(目前的重點(diǎn)往往是行為)。情報(bào)有能力完成目標(biāo)。人工智能(AI)非生物智能。狹義智能能夠在狹窄的領(lǐng)域內(nèi)完成目標(biāo),例如:象棋通用人工智能(AGI)AI可以像人類(lèi)一樣完成大多數(shù)認(rèn)知工作這意味著它是高度自主的,可以像人類(lèi)一樣完成最有經(jīng)濟(jì)價(jià)值的遠(yuǎn)程工作人工超智能人工智能可以完成任何遠(yuǎn)遠(yuǎn)超出人類(lèi)水平的認(rèn)知工作表1:我們?cè)诒緢?bào)告中如何使用關(guān)鍵術(shù)語(yǔ)的詞匯表規(guī)格說(shuō)明、確認(rèn)、保證和驗(yàn)證是系統(tǒng)工程中的中心概念。注:不同的作者使用了各種不同的定義。此表中的定義僅指定此報(bào)告如何使用各種術(shù)語(yǔ),而不是如何使用它們。我們使用的術(shù)語(yǔ)“AGI”、“ASI”和“智能”與Gubrud、Legg和Bostrom最初的定義非常相似與IAISR第3.3章有關(guān)風(fēng)險(xiǎn)評(píng)估的主要目標(biāo)是了解潛在損害的嚴(yán)重性和可能性風(fēng)險(xiǎn)評(píng)估用于確定風(fēng)險(xiǎn)的優(yōu)先級(jí),并確定風(fēng)險(xiǎn)是否超過(guò)需要采取具體行動(dòng)的閾值。相應(yīng)的開(kāi)發(fā)和部署決策都是基于這些評(píng)估。該類(lèi)別風(fēng)險(xiǎn)評(píng)估的主要目標(biāo)是了解潛在損害的嚴(yán)重性和可能性風(fēng)險(xiǎn)評(píng)估用于確定風(fēng)險(xiǎn)的優(yōu)先級(jí),并確定風(fēng)險(xiǎn)是否超過(guò)需要采取具體行動(dòng)的閾值。相應(yīng)的開(kāi)發(fā)和部署決策都是基于這些評(píng)估。該類(lèi)別的研究領(lǐng)域包括:A.開(kāi)發(fā)方法來(lái)衡量AI系統(tǒng)對(duì)當(dāng)前和未來(lái)AI的影響-這包括通過(guò)審計(jì)技術(shù)和基準(zhǔn)對(duì)人工智能系統(tǒng)的風(fēng)險(xiǎn)行為進(jìn)行標(biāo)準(zhǔn)化評(píng)估,評(píng)估和評(píng)估新功能,包括潛在危險(xiǎn)的功能;以及通過(guò)現(xiàn)場(chǎng)測(cè)試和預(yù)期風(fēng)險(xiǎn)分析對(duì)勞動(dòng)力,錯(cuò)誤信息和隱私等現(xiàn)實(shí)社會(huì)影響進(jìn)行B.加強(qiáng)計(jì)量學(xué),確保測(cè)量的精確性和可重復(fù)性-這包括研究針對(duì)人工智能系統(tǒng)量身定制的 定量風(fēng)險(xiǎn)評(píng)估技術(shù)方法,以減少不確定性和對(duì)大安全裕度的需求。這是一個(gè)重要的開(kāi)放研究領(lǐng)域。910C.C.為第三方審計(jì)構(gòu)建推動(dòng)因素,以支持風(fēng)險(xiǎn)評(píng)估的獨(dú)立驗(yàn)證-這包括開(kāi)發(fā)安全的基礎(chǔ)設(shè)施,在保護(hù)知識(shí)產(chǎn)權(quán)(包括防止模型被盜)的同時(shí)進(jìn)行全面評(píng)估?,F(xiàn)有的人工智能法規(guī)和人工智能公司承諾要求嚴(yán)格的風(fēng)險(xiǎn)識(shí)別和評(píng)估,相應(yīng)的部署決策取決于這些評(píng)估(例如,EU、OpenAI-A、Anthropic-E、Google)。風(fēng)險(xiǎn)評(píng)估的主要目標(biāo)是了解潛在傷害的嚴(yán)重性和可能性。風(fēng)險(xiǎn)評(píng)估用于確定風(fēng)險(xiǎn)的優(yōu)先級(jí),并確定風(fēng)險(xiǎn)是否超過(guò)需要采取具體措施(如緩解措施)的風(fēng)險(xiǎn)閾值。這些閾值-通常是根據(jù)可衡量的關(guān)鍵風(fēng)險(xiǎn)指標(biāo)確定的,如模型評(píng)估(Campos)-是進(jìn)一步干預(yù)的有用標(biāo)志例如,如果發(fā)現(xiàn)系統(tǒng)具有實(shí)質(zhì)上幫助惡意用戶(hù)進(jìn)行網(wǎng)絡(luò)攻擊的能力,則這可以被認(rèn)為是不可接受的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)評(píng)估還提供了減輕風(fēng)險(xiǎn)所需的更安全的開(kāi)發(fā)實(shí)踐(第2節(jié))和控制實(shí)踐(第3節(jié))仔細(xì)界定的風(fēng)險(xiǎn)閾值是本報(bào)告第一個(gè)潛在的共同利益的例子-參與者可能會(huì)發(fā)現(xiàn),廣泛分享風(fēng)險(xiǎn)閾值或就風(fēng)險(xiǎn)閾值開(kāi)展合作,甚至與競(jìng)爭(zhēng)對(duì)手進(jìn)行合作,符合自身利益本報(bào)告重點(diǎn)介紹了這些領(lǐng)域的其他幾個(gè)例子,但沒(méi)有明確強(qiáng)調(diào)每個(gè)例子這一類(lèi)別的研究領(lǐng)域涉及開(kāi)發(fā)方法來(lái)研究人工智能系統(tǒng)的當(dāng)前影響并預(yù)測(cè)其潛在的未來(lái)影人工智能系統(tǒng)可以有效和高效地測(cè)試有害行為的技術(shù)和基準(zhǔn)多種多樣,是風(fēng)險(xiǎn)評(píng)估的核心(IAISR,Birhane-A)。然而,由于研究基準(zhǔn)無(wú)法捕捉現(xiàn)實(shí)世界中的復(fù)雜性,因此很難為人工智能系統(tǒng)能力開(kāi)發(fā)高質(zhì)量的標(biāo)準(zhǔn)化評(píng)估(Raji,Eriksson)。例如,對(duì)人工智能系統(tǒng)價(jià)值的不同評(píng)估可能會(huì)產(chǎn)生非常不同的結(jié)果,這取決于實(shí)驗(yàn)設(shè)計(jì)的簡(jiǎn)單方面。未來(lái)工作的前沿包括生成高質(zhì)量的評(píng)估,動(dòng)態(tài)自動(dòng)化評(píng)估,制定技術(shù)“紅線(xiàn)”或風(fēng)險(xiǎn)閾值,建立將研究結(jié)果轉(zhuǎn)化為可在不同組織間標(biāo)準(zhǔn)化的評(píng)估協(xié)議的最佳實(shí)踐,以及將審計(jì)納入決策框架。保持評(píng)估資源的安全性并隨著時(shí)間的推移維護(hù)它們以減少開(kāi)發(fā)人員利用它們的可能性評(píng)估和預(yù)測(cè)人工智能系統(tǒng)的許多社會(huì)影響是風(fēng)險(xiǎn)評(píng)估的最核心目標(biāo)之一。然而,由于其固有的前瞻性和復(fù)雜性,它也非常具有挑戰(zhàn)性(Weidinger-B,Solaiman)。預(yù)測(cè)研究涉及研究使用數(shù)據(jù),分析趨勢(shì),風(fēng)險(xiǎn)建模,預(yù)測(cè)人工智能能力的進(jìn)展,開(kāi)發(fā)人工智能未來(lái)影響的模型,并根據(jù)現(xiàn)場(chǎng)測(cè)試和使用數(shù)據(jù)的結(jié)果更新預(yù)測(cè)。這項(xiàng)研究也發(fā)揮了重要作用,11需要哪些評(píng)估和審計(jì)來(lái)有效評(píng)估可能的和嚴(yán)重的風(fēng)險(xiǎn)。由于下游社會(huì)影響研究的復(fù)雜性,繼續(xù)徹底監(jiān)測(cè)和研究這些影響的工作將需要細(xì)致入微的分析、跨學(xué)科和包容性(Wallach)。你好,現(xiàn)場(chǎng)測(cè)試和人類(lèi)參與者研究旨在評(píng)估人工智能系統(tǒng)的現(xiàn)實(shí)影響。它們包括分析當(dāng)前對(duì)深度造假、勞工、不平等、市場(chǎng)集中、錯(cuò)誤信息、兩極分化、隱私、心理健康和教育等主題的影響。例如,一些研究人員已經(jīng)公布了人工智能系統(tǒng)如何使用以及它們影響哪些職業(yè)的詳細(xì)信息,旨在向決策者通報(bào)人工智能對(duì)經(jīng)濟(jì)和勞動(dòng)力市場(chǎng)的影響。開(kāi)發(fā)人員有時(shí)也會(huì)啟動(dòng)“漏洞賞金計(jì)劃”來(lái)激勵(lì)用戶(hù)發(fā)現(xiàn)和報(bào)告漏洞,以便修復(fù)漏洞(例如Anthropic-H)。與惡意使用風(fēng)險(xiǎn)特別相關(guān)的一種現(xiàn)場(chǎng)試驗(yàn)是“隆起研究”(Bateman)。人工智能研究旨在評(píng)估人工智能系統(tǒng)相對(duì)于無(wú)法訪問(wèn)該系統(tǒng)的用戶(hù)可以在多大程度上幫助用戶(hù)完成任務(wù)(例如執(zhí)行網(wǎng)絡(luò)攻擊)。例如,一些人工智能實(shí)驗(yàn)室已經(jīng)測(cè)試了使用LLM是否會(huì)提升人類(lèi)計(jì)劃生物攻擊的能力(OpenAI-C)。現(xiàn)場(chǎng)測(cè)試結(jié)合其他使用數(shù)據(jù)也可以評(píng)估AI系統(tǒng)如何影響用戶(hù)的心理健康等問(wèn)題與臨床藥物試驗(yàn)領(lǐng)域一樣,現(xiàn)場(chǎng)試驗(yàn)可能從有限的對(duì)照試驗(yàn)開(kāi)始,然后逐漸擴(kuò)展到現(xiàn)實(shí)世界,以發(fā)現(xiàn)新的風(fēng)險(xiǎn)和副作用。國(guó)際人工智能安全報(bào)告(IAISR)強(qiáng)調(diào)了新興人工智能風(fēng)險(xiǎn)的“證據(jù)困境”。一方面,對(duì)新興風(fēng)險(xiǎn)的早期緩解措施可能是不必要的或無(wú)效的。另一方面,在緩解風(fēng)險(xiǎn)之前等待明確的風(fēng)險(xiǎn)證據(jù)可能會(huì)使社會(huì)毫無(wú)準(zhǔn)備,甚至使緩解變得不可能。要解決這一難題,透明的基礎(chǔ)設(shè)施和早期風(fēng)險(xiǎn)評(píng)估是關(guān)鍵。在評(píng)估尚未發(fā)生的風(fēng)險(xiǎn)或可能采取各種形式的風(fēng)險(xiǎn)(例如網(wǎng)絡(luò)攻擊)時(shí),通常需要使用前瞻性風(fēng)險(xiǎn)分析和結(jié)構(gòu)化分析技術(shù)。這些技術(shù)通常用于人工智能領(lǐng)域之外,例如核安全、網(wǎng)絡(luò)安全或飛機(jī)飛行控制。它們?cè)跉v史辯論中也至關(guān)重要,例如:臭氧層破壞和吸煙對(duì)健康的影響盡管如此,它們尚未廣泛用于人工智能風(fēng)險(xiǎn)評(píng)估(IAISR,Murray,Casper-C)。前瞻性風(fēng)險(xiǎn)分析和結(jié)構(gòu)化分析技術(shù)包括(IAISR):?探索性前瞻:情景分析和規(guī)劃;前景掃描;威脅建模和風(fēng)險(xiǎn)建模。?概率風(fēng)險(xiǎn)評(píng)估(通常用于高可靠性行業(yè),如核能和航空航天)。?判斷引出和整合(例如,德?tīng)柗品ǎ?因果映射技術(shù)(例如,蝴蝶結(jié)分析,事件樹(shù)分析)。12還需要結(jié)構(gòu)化的風(fēng)險(xiǎn)評(píng)估來(lái)結(jié)合證據(jù),以構(gòu)建一個(gè)安全案例,供AI開(kāi)發(fā)人員使用,以令人信服地證明他們的系統(tǒng)是安全的(Clymer,Buhl)。這需要評(píng)估整個(gè)生命周期和使用的全部安全技術(shù),以及評(píng)估組件與外部世界之間的系統(tǒng)相互作用(見(jiàn)1.6)。外部審計(jì)員和監(jiān)督機(jī)構(gòu)需要能夠在保護(hù)敏感知識(shí)產(chǎn)權(quán)的同時(shí)進(jìn)行全面評(píng)估的基礎(chǔ)設(shè)施和協(xié)議。理想情況下,評(píng)估基礎(chǔ)設(shè)施應(yīng)該能夠?qū)崿F(xiàn)雙盲:評(píng)估者無(wú)法直接訪問(wèn)系統(tǒng)的參數(shù),開(kāi)發(fā)者無(wú)法知道運(yùn)行的確切評(píng)估(Bucknall-A,Casper-B)。與此同時(shí),隨著系統(tǒng)能力和風(fēng)險(xiǎn)的增加,相互安全的重要性將繼續(xù)增加開(kāi)發(fā)用于審計(jì)和監(jiān)督的安全基礎(chǔ)設(shè)施的方法是可能的。然而,公開(kāi)的挑戰(zhàn)包括確定什么樣的訪問(wèn)級(jí)別適合于哪些評(píng)估,以及進(jìn)行設(shè)計(jì),建設(shè)和整合高效基礎(chǔ)設(shè)施的工程工作。進(jìn)一步的研究還應(yīng)探討如何將審計(jì)結(jié)果有效和可靠地納入風(fēng)險(xiǎn)管理和決策框架。安全評(píng)估不僅涉及單個(gè)人工智能系統(tǒng),還涉及它們與世界其他地方的互動(dòng)。例如,當(dāng)一家人工智能公司從其系統(tǒng)中發(fā)現(xiàn)有關(guān)行為時(shí),所產(chǎn)生的風(fēng)險(xiǎn)部分取決于是否有內(nèi)部流程將問(wèn)題升級(jí)到高級(jí)領(lǐng)導(dǎo)層并努力減輕風(fēng)險(xiǎn)。系統(tǒng)安全考慮人工智能系統(tǒng)及其部署的更廣泛背景。系統(tǒng)安全研究的重點(diǎn)是不同技術(shù)組件之間的相互作用,以及組織中的流程和激勵(lì)措施(IAISR,Hendrycks-B,AISES,Alaga)。系統(tǒng)安全工程的實(shí)踐在飛機(jī)飛行控制和核反應(yīng)堆控制(德克爾)等領(lǐng)域有著悠久的歷史。系統(tǒng)安全評(píng)估評(píng)估關(guān)鍵系統(tǒng)是否繼續(xù)按預(yù)期運(yùn)行,即使在人為錯(cuò)誤,內(nèi)部威脅或單個(gè)技術(shù)組件故障的情況下。在人工智能安全評(píng)估中,這包括分析人工智能部署如何與現(xiàn)有的社會(huì)、經(jīng)濟(jì)和政治結(jié)構(gòu)相互作用,以產(chǎn)生單個(gè)系統(tǒng)評(píng)估可能錯(cuò)過(guò)的緊急下游風(fēng)險(xiǎn)(Weidinger-B),以及分析多個(gè)人工智能系統(tǒng)和人類(lèi)相互作用產(chǎn)生的風(fēng)險(xiǎn)。計(jì)量學(xué),測(cè)量科學(xué),最近才在人工智能風(fēng)險(xiǎn)評(píng)估的背景下進(jìn)行研究(IAISR,Hobbhahn)。目前的方法通常缺乏標(biāo)準(zhǔn)化、可重復(fù)性和精確性。例如,現(xiàn)有的測(cè)量方法,如基準(zhǔn)測(cè)試和審計(jì),通常表現(xiàn)出較弱的內(nèi)部有效性(確保評(píng)估測(cè)量的是實(shí)際能力,而不是測(cè)試結(jié)果)、外部有效性(解決測(cè)試結(jié)果13推廣到現(xiàn)實(shí)世界的部署環(huán)境以及結(jié)構(gòu)有效性(準(zhǔn)確地測(cè)量抽象的安全相關(guān)概念,如欺騙或權(quán)力尋求傾向)。定量風(fēng)險(xiǎn)評(píng)估的典型方法來(lái)自精算風(fēng)險(xiǎn)評(píng)估領(lǐng)域(即,保險(xiǎn)業(yè))。雖然這些風(fēng)險(xiǎn)評(píng)估方法對(duì)于量化和研究容易與貨幣損失相關(guān)的風(fēng)險(xiǎn)非常有用,但它們也可能無(wú)法捕獲其他類(lèi)型的風(fēng)險(xiǎn),例如由多種風(fēng)險(xiǎn)相互作用或不易量化的系統(tǒng)性因素引起的風(fēng)險(xiǎn)為人工智能系統(tǒng)量身定制的定量風(fēng)險(xiǎn)評(píng)估技術(shù)方法的研究是一個(gè)重要的開(kāi)放領(lǐng)域。增強(qiáng)的計(jì)量學(xué)將減少不確定性和對(duì)大安全裕度的需求,從而實(shí)現(xiàn)跨AI系統(tǒng)的更可靠比較,并更精確地識(shí)別KRI,例如觸發(fā)風(fēng)險(xiǎn)閾值的能力閾值為了評(píng)估人工智能系統(tǒng)造成的某些危險(xiǎn),有必要引出和評(píng)估潛在危險(xiǎn)的能力(Escherong,Shevlane,Anthropic-B,IAISR),包括雙重用途的網(wǎng)絡(luò),化學(xué),生物和核知識(shí),以及心理操縱,人工智能研究和開(kāi)發(fā)以及增加失控風(fēng)險(xiǎn)的自主能力為了評(píng)估這些能力造成傷害的可能性,有必要評(píng)估系統(tǒng)使用它們的傾向。然而,評(píng)估前沿人工智能系統(tǒng)的傾向和能力的科學(xué)仍然處于萌芽狀態(tài)(Apollo,Apriel)。嚴(yán)格評(píng)估它們是具有挑戰(zhàn)性的,因?yàn)槿斯ぶ悄艿哪芰κ菑V泛的,快速發(fā)展的,并且依賴(lài)于上下文。在系統(tǒng)開(kāi)發(fā)和部署之后,經(jīng)常會(huì)發(fā)現(xiàn)意外的傾向、能力或限制(IAISR)。例如,最近的一個(gè)系統(tǒng)在被要求以莫爾斯電碼的形式提供制造炸彈的指令,這是在它發(fā)布后才發(fā)現(xiàn)的(元)。一般來(lái)說(shuō),目前的測(cè)試不是但足以排除特定的有害能力或行為。進(jìn)一步研究的前沿包括更可靠地引出有害模型能力和傾向(IAISR)的方法,以及廉價(jià)地推斷可能難以在實(shí)驗(yàn)室環(huán)境中引出的罕見(jiàn)或抑制的系統(tǒng)能力的存在的方法關(guān)于危險(xiǎn)能力評(píng)估的一些研究構(gòu)成了共同感興趣的領(lǐng)域。例如,如果一個(gè)公司或國(guó)家發(fā)現(xiàn)一個(gè)新系統(tǒng)構(gòu)成為犯罪目的濫用的全球風(fēng)險(xiǎn),則通知其他國(guó)家可能符合其利益,以便其他國(guó)家能夠確保減輕由此產(chǎn)生的風(fēng)險(xiǎn)。與此同時(shí),從一個(gè)系統(tǒng)中引出更危險(xiǎn)的能力的方法,而不僅僅是測(cè)試它們,可能是敏感的共享。失去控制是指高級(jí)人工智能系統(tǒng)(如AGI)在人類(lèi)控制之外運(yùn)行的情況,沒(méi)有明確的恢復(fù)控制的路徑。這包括涉及被動(dòng)放棄控制的場(chǎng)景和涉及人工智能系統(tǒng)主動(dòng)破壞控制措施以追求自身目標(biāo)的場(chǎng)景評(píng)估這種風(fēng)險(xiǎn)在很大程度上取決于評(píng)估和預(yù)測(cè)人工智能的14控制破壞能力。這些包括人工智能代理(自主行動(dòng)和計(jì)劃),監(jiān)督規(guī)避,說(shuō)服,自主賺取或獲取財(cái)務(wù)和計(jì)算資源,進(jìn)行網(wǎng)絡(luò)攻擊,以及人工智能研究和開(kāi)發(fā)(IAISR)。對(duì)控制權(quán)喪失風(fēng)險(xiǎn)的評(píng)估還側(cè)重于了解傾向-人工智能系統(tǒng)使用其控制權(quán)破壞能力的頻率和原因。關(guān)于上述所有破壞控制能力的證據(jù)越來(lái)越多,但目前的能力仍然不足以使控制喪失(國(guó)際原子能機(jī)構(gòu)調(diào)查研究所)。但是當(dāng)今人工智能系統(tǒng)在某些情況下使用其有限控制破壞能力的證據(jù),例如。避免被取代(IAISR、Anthropic-C、OpenAI-D)。目前,專(zhuān)家們對(duì)失控情景的可能性缺乏共識(shí),正如國(guó)際人工智能安全報(bào)告(IAISR)所述:“人們普遍認(rèn)為,目前的通用人工智能缺乏造成這種風(fēng)險(xiǎn)的能力。然而,專(zhuān)家們對(duì)未來(lái)幾年內(nèi)失去控制的可能性的看法大相徑庭:一些人認(rèn)為,這令人難以置信,有些人認(rèn)為它可能會(huì)發(fā)生,有些人認(rèn)為它是一種中等可能性的風(fēng)險(xiǎn)由于其潛在的嚴(yán)重性而值得關(guān)注“。例如,領(lǐng)先的人工智能首席執(zhí)行官和研究人員最近簽署了一份聲明,“減輕人工智能滅絕的風(fēng)險(xiǎn)應(yīng)該是全球優(yōu)先事項(xiàng),以及其他社會(huì)規(guī)模的風(fēng)險(xiǎn),如流行病和核戰(zhàn)爭(zhēng)”(CAIS)。這種意見(jiàn)的多樣性強(qiáng)調(diào)了需要改進(jìn)對(duì)失控風(fēng)險(xiǎn)評(píng)估的理解和方法,以獲得更多的證據(jù)和共識(shí)。有前途的控制風(fēng)險(xiǎn)評(píng)估研究包括采取每一個(gè)最有前途的控制策略,并試圖量化他們的成功概率。例如,麻省理工學(xué)院的一個(gè)小組(恩格斯)概述了一項(xiàng)研究計(jì)劃,用于量化嵌套可擴(kuò)展監(jiān)督的可靠性,這種方法使能力較弱的系統(tǒng)監(jiān)督能力較強(qiáng)的系統(tǒng)。與IAISR第3.4.1章有關(guān)值得信賴(lài)、可靠和安全的人工智能系統(tǒng)可以讓人們有信心接受和采用人工智能創(chuàng)新。遵循經(jīng)值得信賴(lài)、可靠和安全的人工智能系統(tǒng)可以讓人們有信心接受和采用人工智能創(chuàng)新。遵循經(jīng)典的安全工程框架,這一類(lèi)別的研究領(lǐng)域包括:A.驗(yàn)證和驗(yàn)證期望的行為-這包括技術(shù)方法,以準(zhǔn)確捕獲期望的意圖而不引起不期望的副作用的方式來(lái)解決指定系統(tǒng)行為的復(fù)雜挑戰(zhàn),用于單利益相關(guān)者設(shè)置(例如獎(jiǎng)勵(lì)黑客,發(fā)現(xiàn)規(guī)范漏洞的可擴(kuò)展方法)和多利益相關(guān)者設(shè)置(例如,平衡相互競(jìng)爭(zhēng)的偏好、道德和法律上的一致性)。15162DEELOPINGTRWORTHY、SECUREANDELIABLESySTEMSB.B.設(shè)計(jì)一個(gè)符合規(guī)范的系統(tǒng)-這涵蓋了訓(xùn)練模型的技術(shù)-封閉和開(kāi)放權(quán)重-值得信賴(lài)(例如,減少虛構(gòu),增加對(duì)篡改的魯棒性),對(duì)AI系統(tǒng)進(jìn)行特定精確更改的替代微調(diào)方法(例如,模型編輯以及以保證滿(mǎn)足其規(guī)范的方式構(gòu)建AI系統(tǒng)的方法(例如,可核查的方案綜合、有正式保證的世界模式C.確保AI系統(tǒng)符合其規(guī)范-這需要提供高置信度保證的技術(shù),以確保AI系統(tǒng)符合其規(guī)范(例如正式驗(yàn)證包括在新的背景下(例如,魯棒性測(cè)試以及可解釋性技術(shù)來(lái)研究黑盒,以理解為什么人工智能系統(tǒng)的行為方式(例如機(jī)械可解釋性)。這一類(lèi)別的研究領(lǐng)域涉及開(kāi)發(fā)技術(shù)方法,以創(chuàng)建更安全和更值得信賴(lài)的系統(tǒng)。本節(jié)側(cè)重于系統(tǒng)開(kāi)發(fā)階段,而第3節(jié)“控制:監(jiān)測(cè)和干預(yù)”側(cè)重于部署期間和部署后使用的技術(shù)。有人認(rèn)為,“社會(huì)將拒絕自主代理人,除非我們有一些可靠的手段,使他們安全”(韋爾德)。出于這種考慮,下面的小節(jié)探討了開(kāi)發(fā)安全和可信系統(tǒng)的方法我們遵循一個(gè)經(jīng)典的安全工程框架,通過(guò)檢查:如何精確地指定我們希望AI系統(tǒng)具有的屬性,驗(yàn)證這些屬性是可取的,設(shè)計(jì)和實(shí)現(xiàn)系統(tǒng)以滿(mǎn)足規(guī)范,并驗(yàn)證它符合其規(guī)范。什么是對(duì)齊?常用術(shù)語(yǔ)“比對(duì)”在人工智能文獻(xiàn)中有許多不同的定義,并非所有定義都是兼容的(Gabriel)。一個(gè)常見(jiàn)的定義是“確保人工智能的目標(biāo),價(jià)值觀和行為與其預(yù)期一致的過(guò)程”。人類(lèi)的創(chuàng)造者或操作者”然而,由于科學(xué)家們?cè)诤艽蟪潭壬先匀蝗狈?duì)當(dāng)今前沿人工智能系統(tǒng)所具有的連貫的“目標(biāo)”或“價(jià)值觀”的理解,目前的對(duì)齊研究實(shí)際上只關(guān)注這一定義的“行為”部分因此,在實(shí)踐中,目前的許多人工智能安全研究使用對(duì)齊的工作定義為“確保人工智能按預(yù)期行事什么是保證?保證是指確定系統(tǒng)是否按預(yù)期運(yùn)行的更廣泛過(guò)程。因此,提供保證需要適當(dāng)?shù)囊?guī)范、確認(rèn)、設(shè)計(jì)、實(shí)施和核查。什么是健壯性?強(qiáng)大的系統(tǒng)在廣泛的情況下繼續(xù)按預(yù)期運(yùn)行。這包括不熟悉的輸入以及旨在使系統(tǒng)失敗的“對(duì)抗性”輸入例如,當(dāng)用戶(hù)使用對(duì)抗性提示技術(shù)提出要求時(shí),最先進(jìn)的人工智能系統(tǒng)可以“越獄”,產(chǎn)生有害的文本或指令-違背其開(kāi)發(fā)人員的意圖。“我們希望系統(tǒng)如何運(yùn)作?”規(guī)范涉及定義所需的系統(tǒng)行為,而驗(yàn)證確保規(guī)范滿(mǎn)足用戶(hù)、開(kāi)發(fā)人員或社會(huì)的需求--我構(gòu)建了正確的制度?換句話(huà)說(shuō),規(guī)范和驗(yàn)證需要面對(duì)2DEELOPINGTRWORTHY、SECUREANDELIABLESySTEMS17以一種既能捕捉用戶(hù)或社會(huì)意圖,又不會(huì)遺漏重要約束或造成不良副作用的方式定義目標(biāo)的復(fù)雜性,以及處理不同利益相關(guān)者之間的分歧和權(quán)衡一個(gè)關(guān)鍵的規(guī)范/驗(yàn)證挑戰(zhàn)是開(kāi)發(fā)忠實(shí)的方法,將人類(lèi)的監(jiān)督轉(zhuǎn)化為自動(dòng)化系統(tǒng):我們?nèi)绾胃鶕?jù)人類(lèi)的反饋和演示設(shè)計(jì)開(kāi)發(fā)自動(dòng)化人工智能代理的流程避免獎(jiǎng)勵(lì)黑客和意外后果:即使在一個(gè)簡(jiǎn)單的設(shè)置中,一個(gè)人的定義明確和固定的偏好,如果人工智能系統(tǒng)嚴(yán)格優(yōu)化文字規(guī)范,而不是用戶(hù)的真實(shí)意圖,細(xì)微的錯(cuò)誤規(guī)范也可能產(chǎn)生例如,訓(xùn)練聊天機(jī)器人說(shuō)出用戶(hù)認(rèn)可的話(huà)可能會(huì)導(dǎo)致它無(wú)意中學(xué)會(huì)迎合用戶(hù)的特定意見(jiàn)(Sharma)。這種嚴(yán)格的優(yōu)化也可能產(chǎn)生開(kāi)發(fā)人員沒(méi)有計(jì)劃的緊急行為,例如“獎(jiǎng)勵(lì)黑客”(OpenAI-E),不必要的權(quán)力尋求(Ngo),sabotage行為(Ladish,Hubinger-B,Omohundro,Russell)以及產(chǎn)生誤導(dǎo)性陳述(Wen-A)。一個(gè)記錄在案的案例顯示,人工智能系統(tǒng)積極識(shí)別和利用其編程工作評(píng)分中的漏洞,明確表示“讓我們黑客”,同時(shí)找到通過(guò)測(cè)試但沒(méi)有解決預(yù)期問(wèn)題的解決方案(OpenAI-D)。當(dāng)開(kāi)發(fā)人員訓(xùn)練模型以避免此類(lèi)計(jì)劃時(shí),系統(tǒng)學(xué)會(huì)了混淆其欺騙性計(jì)劃,而不是不創(chuàng)建它們。這有時(shí)被稱(chēng)為這一問(wèn)題被稱(chēng)為“邁達(dá)斯國(guó)王問(wèn)題”,指的是傳說(shuō)中把他所接觸到的一切變成黃金的行為此外,系統(tǒng)可以按照一致的“價(jià)值觀”和“價(jià)值體系”行事,這有時(shí)是開(kāi)發(fā)人員意想不到的,并且可能是有害的-例如廣泛使用的AI系統(tǒng)將更多的價(jià)值放在自己的存在上,而不是人類(lèi)的福祉(Mazeika,Betley)。這些挑戰(zhàn)突出了定義和實(shí)施更可靠的框架的工作價(jià)值,以在人工智能開(kāi)發(fā)過(guò)程中指定真正的人類(lèi)目標(biāo)。像“輔助游戲”這樣的范例,人工智能系統(tǒng)必須在不確定的情況下推斷并根據(jù)用戶(hù)的目標(biāo)采取行動(dòng),為系統(tǒng)提供了主動(dòng)學(xué)習(xí)用戶(hù)未指定目標(biāo)的方法(Hadfield-Menell,Shah-A)。為可接受的行為定義明確的界限:在設(shè)計(jì)前沿人工智能系統(tǒng)時(shí),很難精確定義可接受和不可接受行為之間的界限。其中許多挑戰(zhàn)源于信息的雙重用途性質(zhì)。例如,一些生物實(shí)驗(yàn)室協(xié)議對(duì)于良性和有害的生物工程實(shí)驗(yàn)都是有用的。定義可接受的行為是進(jìn)一步的挑戰(zhàn),因?yàn)橐恍┯泻Φ娜蝿?wù)可以分解為單獨(dú)的良性子任務(wù)(例如,Jones)。有效地定義安全行為邊界并確保系統(tǒng)能夠?qū)W習(xí)它們是一個(gè)持續(xù)的挑戰(zhàn),需要廣泛了解新興的人工智能濫用威脅。發(fā)現(xiàn)規(guī)范漏洞的可擴(kuò)展方法:我們?nèi)绾蜗到y(tǒng)地識(shí)別規(guī)范中僅在異?;?qū)剐詶l件下出現(xiàn)的細(xì)微缺陷?我們?nèi)绾瓮ㄟ^(guò)以下方式逐步減少這些模糊性或指定錯(cuò)誤的邊緣情況:18主動(dòng)學(xué)習(xí)或目標(biāo)整合技術(shù)?通常,紅隊(duì)工作與評(píng)估最終系統(tǒng)相關(guān),但未來(lái)規(guī)范漏洞工作的前沿可能涉及開(kāi)發(fā)對(duì)抗性紅隊(duì)技術(shù)來(lái)對(duì)規(guī)范進(jìn)行壓力測(cè)試。調(diào)整和不斷發(fā)展的偏好:即使在單一利益相關(guān)者的環(huán)境中,也需要完全符合單一人的價(jià)值觀?,F(xiàn)有的開(kāi)發(fā)對(duì)齊人工智能的方法假設(shè)人類(lèi)具有固定,穩(wěn)定和一致的偏好。然而,人類(lèi)的偏好是復(fù)雜的,動(dòng)態(tài)的,依賴(lài)于上下文的,有時(shí)甚至是自相矛盾的,這使得它從根本上難以調(diào)整系統(tǒng),即使是一個(gè)人(阿姆斯特朗,卡斯珀-A)。繼續(xù)工作的方向包括設(shè)計(jì)持續(xù)學(xué)習(xí)和適應(yīng)用戶(hù)偏好變化的系統(tǒng),實(shí)現(xiàn)規(guī)范接受的解決偏好之間沖突的方法,以及幫助人類(lèi)用戶(hù)隨著時(shí)間的推移充分分析和更新其偏好的方法平衡相互競(jìng)爭(zhēng)的偏好:在實(shí)踐中,人類(lèi)經(jīng)常對(duì)人工智能系統(tǒng)的行為方式存在分歧這是一個(gè)根本無(wú)法解決的問(wèn)題。然而,存在用于動(dòng)態(tài)地適應(yīng)個(gè)體用戶(hù)的需求或以規(guī)范地接受的方式管理用戶(hù)之間的分歧的原則性方法(Sorensen)。例如,許多人類(lèi)機(jī)構(gòu)使用投票作為解決分歧的可接受方式。在人工智能中,開(kāi)發(fā)類(lèi)似的過(guò)程來(lái)平衡人類(lèi)意見(jiàn)的差異是未來(lái)工作的關(guān)鍵方向。這樣的工作可能會(huì)受益于社會(huì)選擇理論和多目標(biāo)技術(shù)(鮑姆)相結(jié)合。研究規(guī)格如何尊重相關(guān)法律框架和規(guī)范性道德原則也將是關(guān)鍵。壓力測(cè)試規(guī)范:即使規(guī)范適合于培訓(xùn)和測(cè)試輸入,它也可能在新的情況下獎(jiǎng)勵(lì)不可接受的行為(Shah-B)。對(duì)于高度先進(jìn)的人工智能系統(tǒng),一個(gè)問(wèn)題是獎(jiǎng)勵(lì)篡改:操縱監(jiān)督機(jī)制以實(shí)現(xiàn)更好的評(píng)估的行為。最近的語(yǔ)言模型已經(jīng)顯示了這種趨勢(shì)的早期例子(OpenA-E,Hubinger-C)。尋找漏洞,規(guī)范(例如,通過(guò)手動(dòng)或自動(dòng)化的紅隊(duì))可以幫助驗(yàn)證規(guī)范是否可能導(dǎo)致意外的后果。道德和法律一致性:除了純粹的技術(shù)指標(biāo),我們?nèi)绾未_保規(guī)范尊重相關(guān)的法律框架和道德原則,使“滿(mǎn)足規(guī)范”真正產(chǎn)生社會(huì)有益的結(jié)果?此外,AI開(kāi)發(fā)人員如何確保自治系統(tǒng)學(xué)會(huì)遵守法律?倫理和法律協(xié)調(diào)的進(jìn)一步工作既提出了規(guī)范問(wèn)題,也提出了具有挑戰(zhàn)性的社會(huì)技術(shù)問(wèn)題,因?yàn)樗枰x和管理人工智能系統(tǒng)在現(xiàn)有倫理和法律體系中的角色規(guī)范和驗(yàn)證也與第3節(jié)中討論的AGI控制問(wèn)題交叉,其中研究重點(diǎn)包括可擴(kuò)展和遞歸監(jiān)督,弱到強(qiáng)的概括,監(jiān)控控制破壞行為,以及建立更強(qiáng)大的先進(jìn)代理理論基礎(chǔ)。19“我們?nèi)绾谓⑾到y(tǒng)?”本節(jié)重點(diǎn)介紹使系統(tǒng)滿(mǎn)足其規(guī)范的技術(shù)。設(shè)計(jì)和實(shí)施過(guò)程涉及采購(gòu)數(shù)據(jù),預(yù)訓(xùn)練模型,后訓(xùn)練模型,并將其集成到AI系統(tǒng)中。預(yù)訓(xùn)練是開(kāi)發(fā)現(xiàn)代人工智能系統(tǒng)的第一個(gè)階段,通常也是計(jì)算和數(shù)據(jù)最密集的階段。它也是模型發(fā)展核心知識(shí)表示的關(guān)鍵階段現(xiàn)代人工智能系統(tǒng)通常是在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的,這使得有效地策劃和控制預(yù)訓(xùn)練過(guò)程(Paullada)變得非常具有挑戰(zhàn)性常見(jiàn)的預(yù)訓(xùn)練數(shù)據(jù)集被發(fā)現(xiàn)包含有害、有毒、濫用甚至非法的內(nèi)容(Birhane-B,Thiel)。與此同時(shí),研究人員發(fā)現(xiàn),有證據(jù)表明,在預(yù)訓(xùn)練過(guò)程中存在有害數(shù)據(jù)有時(shí)會(huì)對(duì)系統(tǒng)的安全性產(chǎn)生積極影響,有時(shí)會(huì)產(chǎn)生消極影響。未來(lái)了解預(yù)訓(xùn)練數(shù)據(jù)集內(nèi)容與學(xué)習(xí)到的系統(tǒng)行為之間關(guān)系的工作將有助于更好地管理預(yù)訓(xùn)練數(shù)據(jù)。然而,由于規(guī)模、過(guò)濾的挑戰(zhàn)以及互聯(lián)網(wǎng)的大量多語(yǔ)言性質(zhì),這種策展也非常具有挑戰(zhàn)性數(shù)據(jù),以及數(shù)據(jù)質(zhì)量下降(安瓦爾)。未來(lái)工作的前沿包括應(yīng)對(duì)這些挑戰(zhàn)。現(xiàn)代人工智能系統(tǒng)的開(kāi)發(fā)階段包括設(shè)計(jì)、預(yù)訓(xùn)練、后訓(xùn)練和系統(tǒng)集成(IAISR)。然而,訓(xùn)練前和訓(xùn)練后是人工智能模型獲得知識(shí)和能力的關(guān)鍵階段以安全為中心的訓(xùn)練依賴(lài)于一個(gè)有效的規(guī)范(見(jiàn)上文),一個(gè)學(xué)習(xí)信號(hào)(通常以數(shù)據(jù)標(biāo)簽和獎(jiǎng)勵(lì)的形式提供),以及一個(gè)足夠廣泛的數(shù)據(jù)集供系統(tǒng)學(xué)習(xí)。對(duì)有害輸入的魯棒性:對(duì)新輸入的系統(tǒng)進(jìn)行培訓(xùn)有助于確保它們?cè)诟鞣N情況下都能滿(mǎn)足指定的行為。在對(duì)抗性輸入上訓(xùn)練AI系統(tǒng)是特別常見(jiàn)和有效的,這些輸入是專(zhuān)門(mén)設(shè)計(jì)來(lái)使它們失敗的。通過(guò)瞄準(zhǔn)系統(tǒng)的弱點(diǎn),對(duì)抗性訓(xùn)練是使AI模型對(duì)惡意用戶(hù)故意嘗試使其失敗更加魯棒的主要技術(shù)(齊格勒)。這些輸入是通過(guò)對(duì)抗性攻擊技術(shù)發(fā)現(xiàn)的(見(jiàn)2.3節(jié)盡管目前的努力,現(xiàn)代AI系統(tǒng)仍然能夠被成功攻擊(例如越獄)。開(kāi)發(fā)和實(shí)施更有效的魯棒性訓(xùn)練技術(shù)仍然是一個(gè)關(guān)鍵挑戰(zhàn)。抵抗有害的篡改:將使用公開(kāi)訪問(wèn)的權(quán)重部署的系統(tǒng)的魯棒性訓(xùn)練構(gòu)成了一個(gè)獨(dú)特的挑戰(zhàn)。理想情況下,健壯性訓(xùn)練應(yīng)該針對(duì)系統(tǒng)在部署中容易受到的攻擊。這意味著對(duì)于開(kāi)放權(quán)重模型,最小化風(fēng)險(xiǎn)需要對(duì)基于提示的攻擊(其操縱系統(tǒng)的輸入)和少量模型篡改攻擊的魯棒性20從而操縱其內(nèi)部權(quán)重和/或偏見(jiàn)。一些研究人員還認(rèn)為,開(kāi)發(fā)防篡改系統(tǒng)也是設(shè)計(jì)對(duì)不可預(yù)見(jiàn)的攻擊具有高度魯棒性的封閉重量系統(tǒng)的關(guān)鍵(Che,Greenblatt-B,Hofst?tter)。然而,用于使系統(tǒng)對(duì)篡改攻擊具有魯棒性的現(xiàn)有技術(shù)在其有效性方面非常有限,通常僅通過(guò)對(duì)有害數(shù)據(jù)進(jìn)行數(shù)十個(gè)微調(diào)步驟就能夠撤銷(xiāo)(Huang,Qi-B,Che)。這表明了當(dāng)前保護(hù)開(kāi)放權(quán)重系統(tǒng)免受惡意篡改的技術(shù)的主要局限性。除了提高在目前的技術(shù)上,未來(lái)工作的前沿包括創(chuàng)新人工智能系統(tǒng)的預(yù)訓(xùn)練方式(Paullada,Maini以及積極教授人工智能系統(tǒng)關(guān)于危險(xiǎn)主題的良性但不正確的信息(Anthropic-G)。3.2節(jié)中討論的生態(tài)系統(tǒng)監(jiān)測(cè)技術(shù)也將有助于研究和減輕開(kāi)放重量模型的風(fēng)險(xiǎn)抵抗有害的蒸餾:蒸餾將知識(shí)從大型復(fù)雜模型轉(zhuǎn)移到較小的模型,使模型壓縮不會(huì)造成大的性能損失(例如DeepSeek)。它具有明顯的優(yōu)勢(shì),例如在資源有限的設(shè)備上實(shí)現(xiàn)高效的模型部署。然而,這種雙重用途的技術(shù)也可以威脅LLM的安全性和安全性時(shí),惡意用戶(hù)利用誰(shuí)'攻擊'一個(gè)系統(tǒng),通過(guò)訓(xùn)練一個(gè)其他系統(tǒng)模仿它。同樣的蒸餾技術(shù)可以用來(lái)exfilterclosed-weight模型的能力,并可以促進(jìn)有效的代理攻擊對(duì)他們(鄒)。因此,減少不需要的蒸餾的方法可以提高封閉系統(tǒng)的安全性。一些研究人員已經(jīng)提出了可以使蒸餾無(wú)效的采樣方法(例如,Savani)。然而,目前的技術(shù)不能有效地減輕不需要的蒸餾規(guī)模沒(méi)有重大的權(quán)衡性能。因此,未來(lái)工作的前沿包括可以檢測(cè)和處理不需要的蒸餾事件的API以及用于反蒸餾采樣的改進(jìn)技術(shù)。盡管它們被廣泛使用,但現(xiàn)代人工智能系統(tǒng)有時(shí)會(huì)意外或故意地產(chǎn)生不正確的在某些情況下,機(jī)械可解釋性技術(shù)可以確定系統(tǒng)評(píng)估為真或假的內(nèi)容(Marks),在這種情況下,不誠(chéng)實(shí)可以定義為陳述“相信”為假的內(nèi)容,而不稱(chēng)職可以定義為陳述被評(píng)估為真的內(nèi)容(Ren-B)。在其他情況下,研究人員缺乏對(duì)模型評(píng)估為真實(shí)的內(nèi)容(如果有的話(huà))的洞察力,使得誠(chéng)實(shí)概念在操作上不確定。不誠(chéng)實(shí)包括人工智能系統(tǒng)向用戶(hù)提供明顯錯(cuò)誤的信息的例子,因?yàn)檫@有助于他們實(shí)現(xiàn)更廣泛的目標(biāo)(例如,Scheuer)。從系統(tǒng)中減少虛假或虛構(gòu)世代(例如幻覺(jué))的發(fā)生的方法這可以包括通過(guò)對(duì)適當(dāng)數(shù)據(jù)的培訓(xùn)(Evans-A)或設(shè)計(jì)系統(tǒng)來(lái)證實(shí)聲明和引用參考文獻(xiàn)(Zhou)來(lái)開(kāi)發(fā)更真實(shí)的模型。未來(lái)工作的前沿將包括研究和提高真實(shí)性和誠(chéng)實(shí)性,同時(shí)平衡這些范式與提供有害信息的風(fēng)險(xiǎn)(Ren-A,Ren-B)。21模型編輯技術(shù)提供了一種替代傳統(tǒng)微調(diào)方法的方法,允許工程師對(duì)人工智能系統(tǒng)進(jìn)行具體、精確的更改通過(guò)在模型中引入有針對(duì)性的變化,編輯方法可以潛在地提供優(yōu)于微調(diào)方法的效率和通用化優(yōu)勢(shì)(Wang)。例如,模型編輯技術(shù)可能有助于有針對(duì)性地更新人工智能系統(tǒng),以糾正不必要的傾向,如幻覺(jué)或奉承。然而,目前的工具在有效性和競(jìng)爭(zhēng)力方面是有限的未來(lái)工作的前沿包括提高編輯工具的可擴(kuò)展性和效率確保人工智能系統(tǒng)在擁有強(qiáng)大功能時(shí)不會(huì)造成傷害是一項(xiàng)挑戰(zhàn)。AI能力空間廣闊,風(fēng)險(xiǎn)一般隨著高度自主性、高度通用性、高度領(lǐng)域智能化而增加圖2:AGI也可以被認(rèn)為是三個(gè)不同屬性的三重交叉:一般性和(領(lǐng)域)智能性。數(shù)據(jù)來(lái)源:Keep一般性和(領(lǐng)域)智能性。數(shù)據(jù)來(lái)源:KeepTheFutureHuman例如,AlphaFold(Jumper)在蛋白質(zhì)折疊的狹窄領(lǐng)域具有很高的智能,但缺乏任何人類(lèi)駕駛員都具有高度的自主性和智能,但它構(gòu)成了下面的三個(gè)研究方向旨在通過(guò)分別避免“A”,“G”或“I”來(lái)提高可信度。A.最小代理系統(tǒng):用于訓(xùn)練缺乏代理/自治的系統(tǒng)的技術(shù)(上圖中沒(méi)有“A”B.去泛化(領(lǐng)域范圍)系統(tǒng):去學(xué)習(xí)、領(lǐng)域蒸餾和其他減少/限制領(lǐng)域一般性以排除風(fēng)險(xiǎn)知識(shí)和行為的技術(shù)(上圖中沒(méi)有“G”Li-B,Barez)。C.智能范圍(能力范圍)系統(tǒng):用于減少/限制域智能的技術(shù)(上圖中沒(méi)有“I”22一些研究項(xiàng)目旨在設(shè)計(jì)人工智能系統(tǒng),以確保它們滿(mǎn)足其規(guī)范,或者它們以可以保證的概率滿(mǎn)足規(guī)范。這些包括但不限于(Dalrymple等人):?Verifiableprogramsynthesis:將機(jī)器學(xué)習(xí)算法和知識(shí)的子集提取為正式驗(yàn)證代碼的技術(shù)。這也是一種能力縮減的形式,只要AI系統(tǒng)能夠驗(yàn)證的算法和知識(shí)是其所有知識(shí)的子集。例如,人類(lèi)物理學(xué)家通常能夠編寫(xiě)他們發(fā)現(xiàn)的火箭操縱算法,但不能編寫(xiě)他們用于識(shí)別母親的精確圖像處理算法?具有正式保證的世界模型研究開(kāi)發(fā)人工智能系統(tǒng)如何影響其環(huán)境的可驗(yàn)證這些方法包括從概率因果模型到物理定律的合理抽象,這些方法仍然具有挑戰(zhàn)性,但可以對(duì)人工智能的潛在影響進(jìn)行精確推理?組合驗(yàn)證方法:開(kāi)發(fā)從較小的驗(yàn)證組件構(gòu)建系統(tǒng)的方法。該研究方向旨在從硬件級(jí)別向上創(chuàng)建驗(yàn)證這些保證也可以?xún)H適用于系統(tǒng)的某些模塊或子集,以減少需要人工主動(dòng)控制的自由度“系統(tǒng)是否符合其規(guī)格(按預(yù)期運(yùn)行)?”本節(jié)所述的研究領(lǐng)域旨在評(píng)估已建系統(tǒng)(2.2)滿(mǎn)足其規(guī)范(2.1)的程度。本節(jié)討論了幾種廣泛類(lèi)型的技術(shù),這些技術(shù)可用于提供系統(tǒng)安全的證據(jù)。在實(shí)踐中,這些方法的有效性往往受到訪問(wèn)和透明度的限制,但它們可以在構(gòu)建人工智能安全案例中發(fā)揮核心作用:為系統(tǒng)造成可接受的低風(fēng)險(xiǎn)水平提供結(jié)構(gòu)化論據(jù)(Clymer,Buhl)。魯棒性測(cè)試的目標(biāo)是開(kāi)發(fā)評(píng)估系統(tǒng)是否值得信賴(lài)的技術(shù),即使在前所未有的“黑天鵝”事件或惡意用戶(hù)攻擊這包括開(kāi)發(fā)改進(jìn)的紅隊(duì)工具,以確定導(dǎo)致系統(tǒng)有害行為的輸入對(duì)抗性魯棒性測(cè)試(安全性對(duì)抗性測(cè)試依賴(lài)于評(píng)估系統(tǒng)安全性的技術(shù),這些技術(shù)是在故意試圖使系統(tǒng)行為有害的情況下進(jìn)行的。對(duì)抗性測(cè)試有許多方法,包括通過(guò)輸入對(duì)模型進(jìn)行攻擊(“越獄”/黑盒攻擊)(Jin),通過(guò)API訪問(wèn)(灰盒攻擊)(Qi-A),并通過(guò)其內(nèi)部權(quán)重(白盒攻擊)(Huang,Che)。例如,研究人員已經(jīng)開(kāi)發(fā)出許多模型“越獄”技術(shù),這些技術(shù)可以破壞23現(xiàn)代人工智能系統(tǒng),導(dǎo)致他們的行為有害。攻擊也可以在模型可以處理的任何數(shù)據(jù)模態(tài)上進(jìn)行。例如,可以處理文本、圖像、視頻和/或音頻數(shù)據(jù)的多模態(tài)模型可能具有非常大的攻擊面作為結(jié)果。主要研究目標(biāo)包括繼續(xù)開(kāi)發(fā)更有效和可擴(kuò)展的攻擊系統(tǒng)的方法,并將這些方法集成到評(píng)估框架中。隨著時(shí)間的推移,攻擊研究也必須適應(yīng)新出現(xiàn)的防御,反之亦然。評(píng)估多智能體環(huán)境中的魯棒性在簡(jiǎn)單、受控的環(huán)境中安全運(yùn)行的系統(tǒng)在新的、更復(fù)雜的環(huán)境中往往會(huì)失敗其中一個(gè)非常突出的版本是由于多代理交互而導(dǎo)致的緊急故障隨著高度自主的人工智能代理的繼續(xù)采用,這些類(lèi)型的故障預(yù)計(jì)將變得越來(lái)越突出例如,如果一輛自動(dòng)駕駛汽車(chē)學(xué)會(huì)了在有人類(lèi)駕駛員的街道上安全駕駛,那么它在有其他自動(dòng)駕駛汽車(chē)的街道上仍然可能不安全,因?yàn)樗鼈兊男袨榭赡芘c人類(lèi)不完全相同多智能體失效的研究具有挑戰(zhàn)性,因?yàn)樗鼈兘?jīng)常出乎意料地出現(xiàn),并且很難在實(shí)驗(yàn)室環(huán)境中證明未來(lái)的工作,研究和識(shí)別緊急多智能體故障模式將涉及理論,模擬和現(xiàn)場(chǎng)測(cè)試的組合,以了解緊急多智能體故障模式(哈蒙德)。進(jìn)一步的研究還應(yīng)該研究部署在經(jīng)濟(jì)中的代理如何相互溝通和合作,以及如何與人和在線(xiàn)服務(wù)溝通和合作,以避免風(fēng)險(xiǎn),例如。通過(guò)互操作性標(biāo)準(zhǔn)和代理認(rèn)證(Chan-A,Chan-B)以及學(xué)習(xí)合作技能(Dafoe-A,Dafoe-B)。人工智能系統(tǒng)滿(mǎn)足其規(guī)范的定量、高置信度保證技術(shù)可能能夠?yàn)殚_(kāi)發(fā)安全系統(tǒng)提供強(qiáng)大的潛在基礎(chǔ)形式驗(yàn)證的特殊情況在給定指定假設(shè)的情況下提供100%保證定量安全:提供定量風(fēng)險(xiǎn)界限的技術(shù)可以為噴氣發(fā)動(dòng)機(jī)和核反應(yīng)堆等系統(tǒng)提供類(lèi)似于現(xiàn)有行業(yè)標(biāo)準(zhǔn)的安全保證。這些解決方案包括形式驗(yàn)證方法,用于證明AI編寫(xiě)的代碼,AI腳手架或AI遏制措施符合精確的規(guī)范。定量安全和形式驗(yàn)證的方法還包括設(shè)計(jì)安全方法。利用目前的模型和方法,不可能使用這些技術(shù)來(lái)對(duì)前沿系統(tǒng)行為做出強(qiáng)有力的保證,但繼續(xù)開(kāi)展工作可能有助于建立健全和實(shí)用的技術(shù),以量化安全保證(Dalrymple)。可解釋性技術(shù)旨在提供系統(tǒng)可信度的定性或定量證據(jù),基于對(duì)AI系統(tǒng)行為方式的洞察。機(jī)械可解釋性:理解模型如何運(yùn)作和內(nèi)部表示概念的技術(shù)唯一地允許評(píng)估內(nèi)部模型認(rèn)知。這些技術(shù)可以幫助發(fā)現(xiàn)系統(tǒng)屬性,或者,如果足夠徹底,24在構(gòu)建安全的情況下(克萊默,布爾)為他們(夏基)。例如,機(jī)械可解釋性技術(shù)可能能夠幫助研究人員識(shí)別和干預(yù)與欺騙或惡意等有害概念相對(duì)應(yīng)的模型表示。目前機(jī)械可解釋性的研究前沿涉及開(kāi)發(fā)可擴(kuò)展的技術(shù),這些技術(shù)可以擊敗黑盒基線(xiàn),以識(shí)別和解決系統(tǒng)中的缺陷。對(duì)模型的機(jī)械理解也可以幫助驗(yàn)證其他不完美方法的成功,例如忘記危險(xiǎn)的能力(見(jiàn)上文)和分析書(shū)面的“思想鏈”(見(jiàn)下文)。可解釋性:可解釋性技術(shù)是指允許模型行為歸因于其輸入中的特定特征的方法。它們可以用于診斷系統(tǒng)錯(cuò)誤和確定系統(tǒng)故障的責(zé)任(Gryz,Casper-B)。然而,目前的可解釋性工具往往是不可靠的(Bordt),突出了未來(lái)工作的價(jià)值,以改善現(xiàn)有的工具。LLMChain-of-thoughtfaithfulnessandlegibility:大型語(yǔ)言模型的思想鏈推理并不總是忠實(shí)地表示模型是如何得到答案的。這對(duì)安全性提出了挑戰(zhàn),因?yàn)闆](méi)有可靠的推理,模型可以通過(guò)說(shuō)一套做一套來(lái)愚弄監(jiān)督者例如,語(yǔ)言模型已經(jīng)聲明,他們基于邏輯論證給出了答案,而實(shí)際上他們是基于他們不應(yīng)該利用的提示(Anthropic-D,Turpin)來(lái)選擇答案的,例如看到正確的答案總是“B”。思維鏈監(jiān)控的一個(gè)潛在挑戰(zhàn)來(lái)自于系統(tǒng)在推理的優(yōu)化壓力下如何學(xué)習(xí)以誤導(dǎo)的方式混淆他們的推理(OpenAI-E,另見(jiàn)上面的2.1.1)。將模型行為歸因于訓(xùn)練數(shù)據(jù):將模型行為歸因于訓(xùn)練數(shù)據(jù)中的特定示例的方法允許監(jiān)督者研究系統(tǒng)中潛在的有害行為是如何出現(xiàn)的。這些工具還可以幫助研究人員確定哪些類(lèi)型的培訓(xùn)干預(yù)可以緩解這些問(wèn)題。例如,將控制顛覆行為歸因于訓(xùn)練數(shù)據(jù)中的特定示例可以幫助開(kāi)發(fā)人員策劃更安全的預(yù)訓(xùn)練數(shù)據(jù)集。研究前沿包括提高這些方法的效率和可擴(kuò)展性,因果研究模型如何開(kāi)發(fā)人物角色和行為(Anthropic-F),以及預(yù)測(cè)學(xué)習(xí)特定行為所需的數(shù)據(jù)(Engstrom,Ilyas)。研究系統(tǒng)中的目標(biāo)越來(lái)越多的人工智能系統(tǒng)的特征是越來(lái)越多的目標(biāo)導(dǎo)向行為。因此,研究這些行為背后的出現(xiàn)和機(jī)制為研究人員研究系統(tǒng)與其規(guī)范(Ngo)的一致性提供了一種方法然而,研究人工智能系統(tǒng)中的目標(biāo)是具有挑戰(zhàn)性的,因?yàn)樗鼈儾荒鼙恢苯訖z查,而且它們的行為有時(shí)但并不總是與相干原則一致(Khan,Mazeika)。未來(lái)工作的方向涉及制定人工智能系統(tǒng)中目標(biāo)的具體定義和衡量標(biāo)準(zhǔn)(例如,MacDermott)以及解釋人工智能系統(tǒng)如何在內(nèi)部開(kāi)發(fā)和表示目標(biāo)(例如,馬克)。25就像醫(yī)學(xué)研究人員使用誘發(fā)疾病的小鼠安全地研究潛在的治療方法,然后再在人類(lèi)身上進(jìn)行測(cè)試一樣,人工智能安全研究人員可以創(chuàng)建簡(jiǎn)化的人工智能系統(tǒng)來(lái)驗(yàn)證安全方法是否有效。這些“模型生物”旨在允許對(duì)可能出現(xiàn)在更先進(jìn)的人工智能系統(tǒng)中的特定安全問(wèn)題進(jìn)行受控研究。例如,研究人員創(chuàng)建了帶有隱藏“后門(mén)”的人工智能模型,只有在給定特定觸發(fā)器時(shí)才會(huì)導(dǎo)致有害行為-模擬惡意行為者可能插入的行為或模型有時(shí)會(huì)自然發(fā)展的行為(Greenblatt-A)。這使他們能夠測(cè)試安全措施是否可以檢測(cè)到這種缺陷(標(biāo)記)。公司可以在內(nèi)部使用此設(shè)置,但外部各方也可以創(chuàng)建模型生物體,以審計(jì)內(nèi)部使用的安全方法的有效性。盡管它的重要性,一項(xiàng)調(diào)查研究發(fā)現(xiàn),這一研究領(lǐng)域仍然是代表性不足(德萊尼)。與IAISR第3.4.2章有關(guān)在工程中,在工程中,“控制”通常是指管理系統(tǒng)行為以實(shí)現(xiàn)預(yù)期結(jié)果的過(guò)程,即使面臨干擾或不確定性,并且通常處于反饋回路中。該類(lèi)別的研究領(lǐng)域包括:A.為人工智能系統(tǒng)開(kāi)發(fā)監(jiān)測(cè)和干預(yù)機(jī)制-這包括調(diào)整傳統(tǒng)的監(jiān)測(cè)方法(例如,硬件啟用機(jī)制,用戶(hù)監(jiān)控)和干預(yù)(例如關(guān)閉開(kāi)關(guān),覆蓋協(xié)議以及設(shè)計(jì)用于控制非常強(qiáng)大的人工智能系統(tǒng)的新技術(shù),這些系統(tǒng)可能會(huì)主動(dòng)破壞控制它們的嘗試(例如,可擴(kuò)展的監(jiān)督、遏制)。B.將監(jiān)控機(jī)制擴(kuò)展到人工智能系統(tǒng)所屬的更廣泛的人工智能生態(tài)系統(tǒng)-這需要支持識(shí)別和跟蹤人工智能系統(tǒng)和數(shù)據(jù)的方法(例如,日志基礎(chǔ)設(shè)施、數(shù)據(jù)來(lái)源、模型來(lái)源)。反過(guò)來(lái),這可以促進(jìn)問(wèn)責(zé)制基礎(chǔ)設(shè)施,并使治理更加知情。263ConTrol:monITorIngInTErVEnTIon27C.C.社會(huì)復(fù)原力研究,以加強(qiáng)社會(huì)基礎(chǔ)設(shè)施,防止人工智能的破壞和濫用-本節(jié)研究機(jī)構(gòu)和規(guī)范(例如經(jīng)濟(jì),安全)如何適應(yīng)未來(lái)的人工智能系統(tǒng)作為自治實(shí)體,以及事件響應(yīng)機(jī)制,使相關(guān)行為者之間能夠明確和快速的協(xié)調(diào),以檢測(cè),響應(yīng)和從事故或?yàn)E用先進(jìn)的人工智能系統(tǒng)中恢復(fù)這一類(lèi)別的研究領(lǐng)域集中在控制系統(tǒng)(在它被開(kāi)發(fā)出來(lái)之后)的工具上,通常通過(guò)涉及監(jiān)控和干預(yù)的反饋回路來(lái)實(shí)現(xiàn)。在工程中,“控制”通常指管理或調(diào)節(jié)系統(tǒng)行為以實(shí)現(xiàn)預(yù)期結(jié)果的過(guò)程。它是關(guān)于設(shè)計(jì)機(jī)制(通常通過(guò)反饋回路以確保系統(tǒng)即使在面臨干擾或不確定性時(shí)也能按預(yù)期運(yùn)行控制論的一個(gè)關(guān)鍵貢獻(xiàn)是阿什比多樣性定律(Ashby'sLawofRequisiteVariety),該定律指出,為了實(shí)現(xiàn)安全保證,控制系統(tǒng)的復(fù)雜性通常必須至少與其目標(biāo)控制的系統(tǒng)在新興技術(shù)領(lǐng)域,不能合理地期望新系統(tǒng)總是按預(yù)期運(yùn)行并按預(yù)期影響社會(huì)監(jiān)控技術(shù)在識(shí)別、理解和修復(fù)出現(xiàn)的問(wèn)題的迭代過(guò)程中發(fā)揮著重要作用“傳統(tǒng)”監(jiān)控方法是指可以直接集成到許多類(lèi)型的人工智能系統(tǒng)中的技術(shù),無(wú)論范圍、領(lǐng)域或智能如何。它們通常與網(wǎng)絡(luò)安全和內(nèi)容審核等其他領(lǐng)域的技術(shù)并行。這些技術(shù)有助于研究人員研究系統(tǒng),并識(shí)別系統(tǒng)可能采取的潛在有害當(dāng)事件發(fā)生時(shí),這些方法也有助于構(gòu)建事件報(bào)告。支持硬件的機(jī)制:硬件中內(nèi)置的某些工具可以使計(jì)算提供商了解在其硬件上運(yùn)行的內(nèi)容這些技術(shù)可以幫助監(jiān)控誰(shuí)在運(yùn)行什么,在哪里運(yùn)行,以及運(yùn)行多少(蘭德公司)。未來(lái)在硬件支持機(jī)制方面的工作前沿包括將這些工具設(shè)計(jì)成高效的工程挑戰(zhàn)和將它們集成到計(jì)算基礎(chǔ)設(shè)施中的實(shí)際挑戰(zhàn)。用戶(hù)監(jiān)控:監(jiān)控系統(tǒng)濫用可以幫助AI服務(wù)提供商識(shí)別可能試圖濫用系統(tǒng)的潛在惡意用戶(hù)。這是“了解客戶(hù)”風(fēng)險(xiǎn)管理辦法用戶(hù)監(jiān)控沒(méi)那么簡(jiǎn)單識(shí)別潛在的有害使用實(shí)例(例如,聊天),這是由于(1)無(wú)意中阻礙有用的紅隊(duì)(Longpre)的風(fēng)險(xiǎn)未來(lái)工作的前沿包括迭代方法,以有效識(shí)別具有低誤報(bào)率的危險(xiǎn)用戶(hù)行為28系統(tǒng)狀態(tài)監(jiān)視:監(jiān)視系統(tǒng)活動(dòng)的技術(shù)可以幫助識(shí)別系統(tǒng)何時(shí)可能以有害或意外的方式執(zhí)行。例如,提供聊天機(jī)器人服務(wù)的公司可能希望在將模型的響應(yīng)發(fā)送給用戶(hù)之前使用不安全文本分類(lèi)器來(lái)過(guò)濾模型的響應(yīng)可以采取許多不同的方法技術(shù)可以根據(jù)監(jiān)控對(duì)象而變化,監(jiān)控對(duì)象可以是系統(tǒng)輸入、輸出、思維鏈和/或內(nèi)部認(rèn)知。它們還可以根據(jù)監(jiān)視器的類(lèi)型而變化,監(jiān)視器可以包括過(guò)濾器、事件記錄器和異常檢測(cè)器。其他研究的前沿包括在LLM思想鏈中研究(不)忠誠(chéng),以及(例如)Turpin)迭代的方法,實(shí)現(xiàn)了高度的監(jiān)控效果和效率,以及分布式上下文的方法設(shè)計(jì)模塊化、易于監(jiān)控的系統(tǒng):將復(fù)雜系統(tǒng)分解為易于監(jiān)控的組件的方法有可能從兩個(gè)方面改善監(jiān)督。首先,它們通過(guò)將面向目標(biāo)的系統(tǒng)分成多個(gè)子系統(tǒng)來(lái)減輕態(tài)勢(shì)感知和戰(zhàn)略規(guī)避人類(lèi)監(jiān)督的風(fēng)險(xiǎn),這些子系統(tǒng)專(zhuān)注于彼此不直接了解的狹窄任務(wù)。其次,它們?cè)试S更容易地監(jiān)控這些系統(tǒng)之間傳遞的信息然而,到目前為止,有限的經(jīng)驗(yàn)研究已經(jīng)進(jìn)行了不同的模塊化系統(tǒng)和監(jiān)控設(shè)置的可控性未來(lái)工作的前沿包括安全模塊化系統(tǒng)的設(shè)計(jì)和測(cè)試,以及將復(fù)雜任務(wù)分解為更簡(jiǎn)單、更容易監(jiān)控的子任務(wù)的方法(Wen-B)。干預(yù)技術(shù)是對(duì)監(jiān)測(cè)工具的補(bǔ)充,它提供了各種戰(zhàn)略,以減少有害行為風(fēng)險(xiǎn)的方式對(duì)系統(tǒng)采取行動(dòng)。支持硬件的機(jī)制:內(nèi)置于硬件中的工具可用于強(qiáng)制執(zhí)行關(guān)于在專(zhuān)用硬件(RAND)上可以運(yùn)行什么以及由誰(shuí)運(yùn)行的要求。例如,如果某些作業(yè)在身份驗(yàn)證過(guò)程中失敗,則可以使用硬件機(jī)制來(lái)阻止或停止這些作業(yè)在硬件上運(yùn)行然而,其使用的主要障礙仍然是實(shí)施和整合這些機(jī)制的工程挑戰(zhàn)如果成功實(shí)施,硬件支持的機(jī)制可以在核查遵守情況方面發(fā)揮獨(dú)特的作用,即使是國(guó)際協(xié)定和跨境(Brundage,IAISR)。關(guān)閉開(kāi)關(guān):“關(guān)閉開(kāi)關(guān)”是指允許系統(tǒng)有效關(guān)閉的機(jī)制。關(guān)閉可能具有挑戰(zhàn)性,原因有多種,包括系統(tǒng)的分布式特性以及需要傳遞關(guān)鍵任務(wù)(例如,駕駛)在停機(jī)后轉(zhuǎn)移到專(zhuān)門(mén)的風(fēng)險(xiǎn)緩解系統(tǒng)關(guān)鍵的挑戰(zhàn)集中在實(shí)施和整合可靠機(jī)制的問(wèn)題上關(guān)閉開(kāi)關(guān)的其他挑戰(zhàn)可能是系統(tǒng)主動(dòng)采取行動(dòng),防止人類(lèi)關(guān)閉它們。這些將在3.1.3中討論應(yīng)急方案:用安全的系統(tǒng)或系統(tǒng)輸出取代有害系統(tǒng)或系統(tǒng)輸出的干預(yù)程序,為有害行為提供了最終的故障保護(hù)例如,做出高風(fēng)險(xiǎn)決策的系統(tǒng)可能需要回路中的人來(lái)做出關(guān)鍵選擇,并且可能是系統(tǒng)或人提示進(jìn)行人為干預(yù)。的29有效使用超控的主要挑戰(zhàn)和障礙在于有效平衡效率與安全性的系統(tǒng)的設(shè)計(jì)為此目的,它也將是有用的,以定義測(cè)量到什么樣的數(shù)字程度的系統(tǒng)是在人類(lèi)操作員的有意義的控制下的措施。事件和緊急情況的準(zhǔn)備和反應(yīng):需要研究在不引入新的脆弱性的情況下對(duì)事件作出快速反應(yīng)和報(bào)告的協(xié)議(Wasil-A、Wasil-B)。關(guān)于隔離受損組件同時(shí)維護(hù)關(guān)鍵功能的技術(shù)和組織問(wèn)題仍然存在一個(gè)重大挑戰(zhàn)是驗(yàn)證應(yīng)急響應(yīng)機(jī)制,防止人為錯(cuò)誤和能力日益增強(qiáng)的人工智能系統(tǒng)的潛在利用。在操作控制領(lǐng)域,一個(gè)特別具有挑戰(zhàn)性的前沿領(lǐng)域涉及開(kāi)發(fā)控制人工智能系統(tǒng)的技術(shù),這些系統(tǒng)不僅具有很高的能力,而且可能主動(dòng)地和戰(zhàn)略性地試圖破壞控制機(jī)制。與傳統(tǒng)的方法,提供系統(tǒng)不可知論的方法來(lái)監(jiān)測(cè)和干預(yù),本節(jié)側(cè)重于對(duì)技術(shù)的研究,控制系統(tǒng)是潛在的非常強(qiáng)大的,可能會(huì)積極破壞試圖控制他們(Hubinger-A)。可擴(kuò)展的監(jiān)督:這項(xiàng)研究研究的技術(shù)可能允許能力較弱的系統(tǒng)監(jiān)督和控制能力較強(qiáng)的系統(tǒng)??蓴U(kuò)展的監(jiān)督技術(shù)背后的共同主題包括為能力較低的監(jiān)督者提供更多的計(jì)算資源(Evans-B)或擁有多個(gè)高能力的系統(tǒng)辯論(Irving,Michael),盡管這些可能無(wú)法擴(kuò)展到超人系統(tǒng)。研究前沿包括即使存在系統(tǒng)性錯(cuò)誤也能提高監(jiān)督的可靠性,開(kāi)發(fā)更有效的人工智能辯論協(xié)議,監(jiān)控系統(tǒng)控制破壞行為的方法,以及監(jiān)控不可信的智能系統(tǒng)與可信的較弱系統(tǒng)的方法(Greenblatt-A)。另一個(gè)有前途的方法,監(jiān)督研究是結(jié)合多種控制策略,并試圖量化他們的聯(lián)合成功概率。例如,研究人員可以量化嵌套的可擴(kuò)展監(jiān)督機(jī)制的可靠性,其中能力較弱的系統(tǒng)監(jiān)督能力較強(qiáng)的系統(tǒng)(恩格斯)。Corrigibility和代理基礎(chǔ)研究:Corrigibility專(zhuān)注于確保強(qiáng)大的代理系統(tǒng)將允許授權(quán)用戶(hù)更改其目標(biāo)或關(guān)閉它(Soares)的技術(shù),以及遞歸自我改進(jìn)系統(tǒng)傾向于保留其目標(biāo)的程度??杉m正性的實(shí)施具有挑戰(zhàn)性,因?yàn)楹茈y在理論上確保代理系統(tǒng)沒(méi)有干預(yù)此類(lèi)干預(yù)的動(dòng)機(jī)(Omohundro)。理論上也很難控制和預(yù)測(cè)目標(biāo)導(dǎo)向的代理系統(tǒng)如何進(jìn)行自我修改,以及這如何影響目標(biāo)(Everitt)。這激發(fā)了理論和實(shí)證工作,以研究和控制如何高度代理系統(tǒng)發(fā)展的趨勢(shì)和行為的更正和自我修改的情況(人類(lèi)學(xué)-F)。Agent基礎(chǔ)研究還探索了理想化的AI代理如何接近道德和博弈論推理(Hammond),包括AI系統(tǒng)的行為如何根據(jù)系統(tǒng)是否推斷它是在模擬中還是在現(xiàn)實(shí)世界中而發(fā)生實(shí)質(zhì)性30環(huán)境(這是在當(dāng)前人工智能系統(tǒng)中已經(jīng)觀察到的現(xiàn)象(Anthropic)。遏制:隨著人工智能系統(tǒng)變得越來(lái)越具有代理性并能夠訪問(wèn)互聯(lián)網(wǎng),安全遏制風(fēng)險(xiǎn)系統(tǒng)是一個(gè)越來(lái)越大的挑戰(zhàn)。與此同時(shí),獲得未經(jīng)授權(quán)訪問(wèn)模型的外部威脅也構(gòu)成了安全威脅(Nevo)。遏制研究的前沿將涉及開(kāi)發(fā)技術(shù)和協(xié)議,以保持高安全性系統(tǒng)免受內(nèi)部和外部威脅。非代理人工智能系統(tǒng)作為護(hù)欄:與其他人工智能系統(tǒng)相比,代理人工智能系統(tǒng),特別是未來(lái)廣泛優(yōu)于人類(lèi)的人工智能系統(tǒng),構(gòu)成了重大的額外風(fēng)險(xiǎn)(IAISR,Bengio-B)。然而,非代理人工智能系統(tǒng)可以用來(lái)監(jiān)控他們提出的行動(dòng),并在必要時(shí)通過(guò)阻止他們進(jìn)行干預(yù)其中包括:?“科學(xué)家人工智能”(Bengio-B)可用于估計(jì)代理人工智能的候選行動(dòng)違反安全規(guī)范的任何合理解釋的概率,并拒絕潛在的不安全行動(dòng)。某些方法可以保證識(shí)別不安全的行為,并具有定量誤差界限(Bengio-B)。?“AI控制”設(shè)置可以有效地監(jiān)控和干預(yù),即使底層的不受信任的AI系統(tǒng)正在積極試圖破壞這些保障措施(Greenblatt-A,Korbak,Griffin)。以人為中心的監(jiān)督:由于人類(lèi)最終應(yīng)該保持對(duì)通用代理的控制,因此考慮到人類(lèi)操作員的思維速度、主動(dòng)性、專(zhuān)業(yè)水平、對(duì)細(xì)節(jié)的關(guān)注和可靠性,原則上可以控制的系統(tǒng)將存在一些自然限制。即使人工智能幫助人類(lèi)理解每個(gè)決策點(diǎn)或?qū)彶辄c(diǎn)的給定上下文,控制論中的阿什比定律(Ashby'sLaw)也表明控制系統(tǒng)必須至少具有與受控系統(tǒng)一樣多的表達(dá)性。研究的前沿包括如何制定這些措施。開(kāi)發(fā)人工智能技術(shù),以監(jiān)控人工智能系統(tǒng)所屬的更廣泛的生態(tài)系統(tǒng)正如系統(tǒng)監(jiān)控技術(shù)幫助AI開(kāi)發(fā)人員監(jiān)督他們的系統(tǒng)一樣,監(jiān)控更廣泛的AI生態(tài)系統(tǒng)的技術(shù)也幫助社會(huì)中的利益相關(guān)者監(jiān)督AI領(lǐng)域。生態(tài)系統(tǒng)監(jiān)測(cè)方法支持識(shí)別和跟蹤人工智能系統(tǒng)和數(shù)據(jù)。反過(guò)來(lái),這可以促進(jìn)問(wèn)責(zé)制基礎(chǔ)設(shè)施,支持更好的公眾理解,并實(shí)現(xiàn)更明智的治理。追蹤使用模式:了解人工智能系統(tǒng)如何影響世界的一個(gè)關(guān)鍵、高層次的視角是通過(guò)使用監(jiān)控(例如,Anthropic-A)。通過(guò)收集和監(jiān)控用戶(hù)如何訪問(wèn)、下載和/或與前沿系統(tǒng)交互的數(shù)據(jù),人工智能服務(wù)提供商可以收集有關(guān)潛在影響和風(fēng)險(xiǎn)的然而,跟蹤使用情況的關(guān)鍵挑戰(zhàn)包括隱私保護(hù)、共享見(jiàn)解的基礎(chǔ)設(shè)施以及識(shí)別潛在風(fēng)險(xiǎn)的有效數(shù)據(jù)來(lái)源:各種技術(shù)可以幫助識(shí)別人工智能生成的內(nèi)容,并且是防止人工智能深度偽造和錯(cuò)誤信息的主要防御手段方法包括開(kāi)發(fā)人工智能生成內(nèi)容的可靠分類(lèi)器,對(duì)人工智能生成的數(shù)據(jù)(圖像,視頻,31音頻和文本)(Cao),并使用元數(shù)據(jù)標(biāo)記AI生成的數(shù)據(jù)以指示其來(lái)源。這些技術(shù)本質(zhì)上是不完美的--它們可以通過(guò)篡改數(shù)據(jù)來(lái)撤銷(xiāo)。然而,在法醫(yī)學(xué)中,類(lèi)似的技術(shù),如指紋,也是可以規(guī)避的,但仍然有用。這些方法的進(jìn)一步進(jìn)展將涉及更可靠的數(shù)據(jù)來(lái)源方法及其集成到AI產(chǎn)品和服務(wù)中。模型起源:模型起源工具有助于識(shí)別和跟蹤AI模型-特別是開(kāi)放權(quán)重模型。最值得注意的是,這些工具幫助研究人員研究生態(tài)系統(tǒng)中有害模型的起源和生命周期用于模型起源的方法涉及幫助用戶(hù)和AI提供者確定模型的身份和起源的技術(shù)這可以包括黑盒方法,如識(shí)別后門(mén)(Cheng),文本生成中的可識(shí)別偏差(Kirchenbauer)和白盒方法,如模型權(quán)重水印。就像數(shù)據(jù)來(lái)源方法一樣,模型來(lái)源方法可以被規(guī)避,但它們?cè)谠S多情況下仍然可以提供信息。研究前沿包括研究這些技術(shù)在對(duì)模型權(quán)重進(jìn)行微調(diào)和其他修改時(shí)的穩(wěn)定性還可能需要工程方面的努力,將這些技術(shù)集成到模型開(kāi)發(fā)和平臺(tái)基礎(chǔ)設(shè)施中。代理身份驗(yàn)證:一些協(xié)議可以允許在使用Web服務(wù)時(shí)驗(yàn)證AI代理身份隨著AI系統(tǒng)變得越來(lái)越強(qiáng)大和代理,從安全和監(jiān)控的角度來(lái)看,在使用Web服務(wù)時(shí)對(duì)AI代理進(jìn)行身份驗(yàn)證的方法越來(lái)越重要有效的代理身份驗(yàn)證的關(guān)鍵挑戰(zhàn)在于協(xié)議的開(kāi)發(fā)和標(biāo)準(zhǔn)化(例如,南)。計(jì)算和硬件跟蹤:研究技術(shù)和收集情報(bào)以監(jiān)控合法和非法的人工智能硬件的分布,從而能夠評(píng)估惡意和不負(fù)責(zé)任使用的風(fēng)險(xiǎn),并分配資源以促進(jìn)有益的使用(Sastry)。日志基礎(chǔ)設(shè)施:監(jiān)控和保存有關(guān)AI系統(tǒng)正在做什么的信息,以便在發(fā)生有害或意外事件時(shí)進(jìn)行知情審查隨著高度自主的人工智能系統(tǒng)的能力和影響力的增長(zhǎng),這些系統(tǒng)的行為將導(dǎo)致有害和意外事件的增加擁有有效的基礎(chǔ)設(shè)施來(lái)捕獲和保存有關(guān)這些系統(tǒng)所做的信息,將是在高級(jí)人工智能代理時(shí)代提高意識(shí)和問(wèn)責(zé)制的關(guān)鍵。記錄的事件和必要的基礎(chǔ)設(shè)施是潛在的共同利益領(lǐng)域的另一個(gè)例子。就像相互競(jìng)爭(zhēng)的飛機(jī)制造商自愿分享飛機(jī)事故數(shù)據(jù)一樣,公司或國(guó)家可能會(huì)發(fā)現(xiàn)分享和聯(lián)合收集有關(guān)嚴(yán)重人工智能事件的信息符合他們的利益。建立共享的事件報(bào)告系統(tǒng)使該領(lǐng)域能夠從嚴(yán)重的失敗和風(fēng)險(xiǎn)中集體學(xué)習(xí),確保安全性,以促進(jìn)公眾對(duì)人工智能機(jī)會(huì)的信任評(píng)估風(fēng)險(xiǎn)管理框架:風(fēng)險(xiǎn)管理的技術(shù)工具只有在被有意義地納入安全框架時(shí)才有效。正如評(píng)估和監(jiān)控人工智能系統(tǒng)的關(guān)鍵一樣,也有必要評(píng)估和監(jiān)控風(fēng)險(xiǎn)管理協(xié)議的有效性和對(duì)單點(diǎn)故障的魯棒性(例如:人為錯(cuò)誤)。目前,研究人員評(píng)估風(fēng)險(xiǎn)管理框架的能力32受限于AI開(kāi)發(fā)人員如何管理風(fēng)險(xiǎn)的透明度然而,監(jiān)控安全框架的成敗是長(zhǎng)期風(fēng)險(xiǎn)管理的關(guān)鍵(Alaga)。這也是一個(gè)共同感興趣的領(lǐng)域,因?yàn)榉窒黻P(guān)于風(fēng)險(xiǎn)管理框架的最佳實(shí)踐和潛在失敗的見(jiàn)解具有價(jià)值。今后工作的前沿領(lǐng)域包括完善評(píng)估框架和開(kāi)發(fā)報(bào)告基礎(chǔ)設(shè)施。人工智能的未來(lái)破壞可能不會(huì)表現(xiàn)為不同的范圍廣泛的事件,而是作為一系列各種危害,波及整個(gè)社會(huì)。這表明,對(duì)人工智能風(fēng)險(xiǎn)的彈性可能需要對(duì)各種威脅載體的彈性。對(duì)社會(huì)復(fù)原力的研究應(yīng)該研究加強(qiáng)經(jīng)濟(jì)、生物和信息安全基礎(chǔ)設(shè)施的方法,以防止人工智能造成的破壞和濫用。研究機(jī)構(gòu)和規(guī)范如何適應(yīng)未來(lái)的人工智能系統(tǒng)作為(并可能被承認(rèn)為)自治實(shí)體(Zeng-A,Zeng-B,Long)也將是關(guān)鍵。最后,人工智能事件的有效管理將取決于相關(guān)參與者之間的明確和快速協(xié)調(diào),以檢測(cè),響應(yīng)和恢復(fù)事故或?yàn)E用先進(jìn)的人工智能系統(tǒng)(Wasil-A)。33rEErENCES1.[Alaga]Alaga,J.,Schuett,J.,Anderljung,M.(2024年)。人工智能安全框架的分級(jí)規(guī)則arXiv預(yù)印本arXiv:2409.08751。2.亨德里克斯,D。(2024年)。系統(tǒng)安全。在人工智能安全,道德和社會(huì)教科書(shū)中。AI安全中心-/textbook/systemic-safety3.阿什比,W。R.(1956年)??刂普搶?dǎo)論查普曼大廳。/archive/4.[人類(lèi)-A]人類(lèi)。(2024年)。人類(lèi)經(jīng)濟(jì)指數(shù)。/economic-index5.[人類(lèi)-B]人類(lèi)。(2024年)??藙诘?.7十四行詩(shī)系統(tǒng)卡。/m/785e231869e-a8b3b/original/claude-3-7-sonnet-system-card.pdf6.格林布拉特,R.,丹尼森角,Wright,B.,羅杰,F(xiàn).,MacDiarmid,M.,Marks,S.,...&Hubinger,E.(2024年)。大型語(yǔ)言模型中的對(duì)齊偽造。arXiv預(yù)印本arXiv:2412.14093。7.[Anthropic-D]Chen,Y.,Benton,J.,Radhakrishnan,A.,Denison,J.聯(lián)合C.對(duì)所述化合物進(jìn)行純化,舒爾曼,J.,Somani,A.,...Perez,E.推理模型并不總是說(shuō)出他們的想法。8.[Anthropic-E]Anthropic。(2024年10月15日)。負(fù)責(zé)任的擴(kuò)展策略(版本2.0)。人類(lèi)的。網(wǎng)址://www./responsible-scaling-policy9.[Anthropic-F]Anthropic.(2025年)。推薦方向人類(lèi)對(duì)齊。https://alignment.anthropic。com/2025/recommended-directions/10.[人類(lèi)-G]人類(lèi)。(2025,四月二十四日)。使用合成文檔微調(diào)修改LLM信念。人擇排列研究./2025/modifying-beliefs-via-sdf/11.人類(lèi)。(2024年8月8日)。擴(kuò)大我們的模特安全漏洞獎(jiǎng)勵(lì)計(jì)劃。網(wǎng)址://www./news/model-safety-bug-bounty12.[Anwar]Anwar,U.,薩帕羅夫,A.,Rando,J.,Paleka,D.,特平,M.,Hase,P.,...克魯格,D.(2024年)。確保大型語(yǔ)言模型的對(duì)齊和安全性的基礎(chǔ)挑戰(zhàn)arXiv預(yù)印本arXiv:2404.09932。13.Hobbhahn,M.(2024年1月22日)。我們需要科學(xué)的評(píng)估。阿波羅研究所https://www.apollore-search.ai/blog/we-need-a-science-of-evals14.阿姆斯特朗,S.,&Mindermann,S.(2018年)。奧卡姆剃刀不足以推斷非理性主體的偏好。神經(jīng)信息處理系統(tǒng)進(jìn)展,31。15.[Barez]Li,N.,潘,A.,Gopal,A.,Yue,S.,Berrios,D.,Gatti,A.,...&亨德里克斯,D。(2024年)。WMDP基準(zhǔn)測(cè)試:通過(guò)遺忘來(lái)衡量和減少惡意使用。arXiv預(yù)印本arXiv:2403.03218。16.貝特曼,J。Baer,D.,貝爾,S。一、布朗,G。O.,Cuéllar,M.F.T.,甘古利,D.,...Zvyagina,P.(2024年)。開(kāi)放與封閉:基礎(chǔ)AI模型治理的新興共識(shí)和關(guān)鍵問(wèn)題。17.[Baum]Baum,S.D.(2020年)。人工智能中的社會(huì)選擇倫理學(xué)AISociety,35(1),165-176.18.[Bengio-A]Bengio,Y.,辛頓,G.,Yao,A.,宋,D.,阿貝爾,P.,達(dá)雷爾,T.,...&Mindermann,S.(2024年)。在快速發(fā)展中管理極端的人工智能風(fēng)險(xiǎn)。Science,384(6698),842-845./10.1126/science.adn011719.[Bengio-B]Bengio,Y.,科恩,M.,F(xiàn)ornasiere,D.,Ghosn,J.,Greiner,P.,麥克德莫特,M.,...Williams-King,D.(2025年)。超級(jí)智能體帶來(lái)災(zāi)難性風(fēng)險(xiǎn):科學(xué)家AI能提供更安全的道路嗎?arXiv預(yù)印本arXiv:2502.15657。20.伯格倫湖伯格倫湖Stickland,A.C.對(duì)所述化合物進(jìn)行純化,Balesni,M.,Kaufmann,M.,唐,M.,Korbak,T.,...埃文斯湖,澳-地(2023年)。斷章取義:在LLM測(cè)量情境意識(shí)。arXiv預(yù)印本arXiv:2309.00667。21.[Bernardi]Bernardi,J.,Mukobi,G.,格里夫斯,H.,海姆湖,Anderljung,M.(2024年)。對(duì)先進(jìn)人工智能的社會(huì)適應(yīng)arXiv預(yù)印本arXiv:2405.10295。22.[Betley]Betley,J.,譚,D.,Warncke,N.,Sztyber-Betley,A.,鮑,X.索托,M.,...埃文斯湖,澳-地(2025年)。緊急錯(cuò)位:窄微調(diào)可以產(chǎn)生廣泛錯(cuò)位的LLM。arXiv預(yù)印本arXiv:2502.17424。23.Birhane,A.,斯蒂德河,奧賈萊河谷,Vecchione,B.,拉吉,身份證。(2024年4月)。AI審計(jì):通往AI問(wèn)責(zé)之路上的在2024年IEEE安全和可信機(jī)器學(xué)習(xí)會(huì)議(SaTML)上,612-643)。美國(guó)電氣與電子工程師協(xié)會(huì)。24.[BirhaneB]Birhane,A.,Prabhu,V.,漢,S.,博德蒂河谷N.(2023年)。關(guān)于數(shù)據(jù)沼澤的仇恨縮放定律arXiv預(yù)印本arXiv:2306.13141。25.[Bordt]Bordt,S.(2023年)??山忉尩臋C(jī)器學(xué)習(xí)及其局限性(博士論文,蒂賓根大學(xué))。26.[Bucknall-A]Bucknall,B.,特雷格河F.、奧斯本,M。A.(2025年)。立場(chǎng):確保相互隱私是對(duì)專(zhuān)有AI系統(tǒng)進(jìn)行有效外部評(píng)估的必要條件。arXiv預(yù)印本arXiv:2503.01470。3427.Bucknall,B.,Siddiqui,S.,圖恩赫爾湖McGurk,C.,Harack,B.,106.A....&特雷格河(2025年)。地緣政治競(jìng)爭(zhēng)對(duì)手可以在哪些人工智能技術(shù)安全領(lǐng)域合作?arXiv預(yù)印本arXiv:2504.12914。28.Buhl,M.D、Sett,G.,克斯勒湖,Schuett,J.,Anderljung,M.(2024年)。前沿AI的安全案例arXiv預(yù)印本arXiv:2410.21572。29.[Campos]Campos,S.,Papadatos,H.,羅杰,F(xiàn).,Touzet角,Quarks,O.,&默里,M。(2025年)。前沿人工智能風(fēng)險(xiǎn)管理框架:彌合當(dāng)前人工智能實(shí)踐與既定風(fēng)險(xiǎn)管理之間的差距。arXiv預(yù)印本arXiv:2502.06656。30.[Cao]Cao,L.(2025年)。用于AI內(nèi)容檢測(cè)的水?。何谋?、視覺(jué)和音頻模態(tài)綜述arXiv預(yù)印本arXiv:2504.03765。31.[CAIS]Hinton,G.,本焦,Y.,哈薩比斯,D.,阿爾特曼,S.,阿莫代,D.,關(guān)于AI風(fēng)險(xiǎn)的聲明AI安全中心https://safe.ai/work/statement-on-ai-risk32.[Casper-A]Casper,S.,Davies,X.,施,C.,吉爾伯特,T。K.的,Scheurer,J.,Rando,J.,...Hadfield-Menell,D.(2023年)。從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)的開(kāi)放性問(wèn)題和基本局限性。arXiv預(yù)印本arX-iv:2307.15217。33.[Casper-B]Casper,S.,Ezell,C.,Siegmann,C.,Kolt,N.,柯蒂斯,T。L.,Bucknall,B.,...Hadfield-Menell,D.(2024年6月)。對(duì)于嚴(yán)格的人工智能審計(jì)來(lái)說(shuō),黑盒訪問(wèn)是不夠的。在2024年ACM公平,問(wèn)責(zé)制和透明度會(huì)議上,2254-2272)。34.[Casper-C]Casper,S.,Krueger,D.,Hadfield-Menell,D.(2025年)?;谧C據(jù)的人工智能政策的陷阱arXiv預(yù)打印arXiv
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課后延時(shí)輔導(dǎo)具體管理制度(3篇)
- 運(yùn)維場(chǎng)地安全管理制度(3篇)
- 餐飲乙醇安全使用管理制度(3篇)
- 獸藥廠家技術(shù)培訓(xùn)課件
- 2026年及未來(lái)5年市場(chǎng)數(shù)據(jù)中國(guó)在線(xiàn)自助游行業(yè)發(fā)展運(yùn)行現(xiàn)狀及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 《GAT 651-2021公安交通指揮系統(tǒng)工程建設(shè)通 用程序和要求》專(zhuān)題研究報(bào)告
- 中學(xué)教育教學(xué)資源配置制度
- 養(yǎng)老院入住老人醫(yī)療護(hù)理技能培訓(xùn)制度
- 養(yǎng)鴨培訓(xùn)課件
- 交通場(chǎng)站服務(wù)規(guī)范制度
- 2025年危化品泄漏應(yīng)急培訓(xùn)教案
- 2026年鐵嶺衛(wèi)生職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)附答案詳解
- 2025年江南大學(xué)招聘真題(行政管理崗)
- 2024-2025學(xué)年江蘇省南通市海門(mén)區(qū)高二上學(xué)期期末調(diào)研地理試題(解析版)
- 汽車(chē)焊接知識(shí)培訓(xùn)
- 操作系統(tǒng)安裝與配置標(biāo)準(zhǔn)
- 二級(jí)注冊(cè)計(jì)量師2025年全真模擬測(cè)試卷(含答案)
- 2025年廣東中考音樂(lè)題庫(kù)及答案
- 明成祖朱棣課件
- 冰箱生產(chǎn)線(xiàn)工藝流程及質(zhì)量控制
- 口腔醫(yī)院會(huì)員中心
評(píng)論
0/150
提交評(píng)論