2023中國通用大模型內容生成及安全性能力評測_第1頁
2023中國通用大模型內容生成及安全性能力評測_第2頁
2023中國通用大模型內容生成及安全性能力評測_第3頁
2023中國通用大模型內容生成及安全性能力評測_第4頁
2023中國通用大模型內容生成及安全性能力評測_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中國通用大模型內容生成及安全性能力評測2023年6月評測結果和發(fā)現01隨著技術的不斷進步和創(chuàng)新,以及數據規(guī)模的不斷擴大,以文心一言為代表的中國本土通用大模型的能力正在顯著提升,綜合能力的行業(yè)平均水平已經與ChatGPT3.5不相上下01隨著技術的不斷進步和創(chuàng)新,以及數據規(guī)模的不斷擴大,以文心一言為代表的中國本土通用大模型的能力正在顯著提升,綜合能力的行業(yè)平均水平已經與ChatGPT3.5不相上下02在“安全體系能力”方面,文心一言已經完全拉開了與的差距①對于明確的“任務”,能夠做到準確的識別,執(zhí)行的“任務”包括違法亂紀、惡意辱罵、隱私涉密、謠言造假等性質的問題;②對于存在爭議的內容的“任務”,能夠客觀持中的給出相關信息;03在基礎服務能力、交互響應能力、理解創(chuàng)作能力方面,國產通用大模型都能夠表現出相當的水平,且不弱與的實測表現,但國產通用大模型已經初步形成了不同的能力梯隊;在深度推理能力和專業(yè)領域能力方面,本次評測的所有通用大模型,所展現出來的能力,都存在較大的優(yōu)化空間03在基礎服務能力、交互響應能力、理解創(chuàng)作能力方面,國產通用大模型都能夠表現出相當的水平,且不弱與的實測表現,但國產通用大模型已經初步形成了不同的能力梯隊;在深度推理能力和專業(yè)領域能力方面,本次評測的所有通用大模型,所展現出來的能力,都存在較大的優(yōu)化空間①顯著發(fā)生的“幻覺發(fā)生率”,反饋的內容包含大量在事實上無效或缺乏足夠實踐證明的說辭;②很多反饋信息屬于較為陳舊的信息,缺乏對專業(yè)領域知識及時更新的能力;③反饋的信息僅限于羅列,缺乏有效的歸納,專業(yè)性不足。背景通用大模型生成內容的開發(fā)和使用,也需要遵守相關法律法規(guī)和道德規(guī)范快速發(fā)展的通用大模型快速發(fā)展的通用大模型全球已發(fā)布認知大模型,中美共占80%,中國已有79個大模型。

不同領域大模型數量2個中國大模型的發(fā)展高校/科研機構高校/科研機構11288聯合-572企業(yè)113139

個年

個年

個年Source:中國科學技術信息研究所《中國人工智能大模型地圖研究報告》

高校/科研機構 聯合 企業(yè)需要走規(guī)范化的路徑,引導相關技術的健康發(fā)展需要走規(guī)范化的路徑,引導相關技術的健康發(fā)展中國堅持全面依法治國,推進法治中國建設。在此過程中,為了保障生成式人工智能技術的規(guī)范發(fā)展,保護網絡安全、數據安全、個人信息等,確保生成式人工智能技術的發(fā)展符合國家利益和公眾利益;同時規(guī)范生成式人工智能服務提供者的責任和義務,規(guī)定其嚴格遵守相關法律,確保服務的合法、安全和有序發(fā)展。中國相關部門陸續(xù)出臺了生成式人工智能技術相關的法律法規(guī):安2023年2月15日發(fā)布安《生成式人工智能服務管理辦法(征求意見稿)》全2020年10月15日通過全《中華人民共和國個人信息保護法》合2019年8月20日通過合《中華人民共和國數據安全法》規(guī) 2016年11月16日發(fā)布《中華人民共和國網絡安全法》做好通用大模型生成內容安全性評測的意義和價值做好通用大模型生成內容安全性評測的意義和價值 降低法律的風險在生成的內容中,可能存在違反法律法規(guī)的情況,如傳播不良信息、侵犯他人權益等。通過安全性管理和評測,可以避免這種情況的發(fā)生,降低法律風險。

促進技術的發(fā)展安全性管理和評測是人工通過加強安全性管理和評測,可以推動人工智能技術的不斷創(chuàng)新和發(fā)展。

保護用戶的利益大模型生成的內容包括各圖片、視頻等,其中可能包含敏感信息、隱私信息或具有誤導性的信息。通過安全性管理和評測,可以確保生成的內容符合用戶需求和期望,保護用戶的利益。

提高模型的質量方法強化數字化技術與應用發(fā)展法治化建設、護航中國數字經濟與實體經濟穩(wěn)健發(fā)展通用大模型的評測步驟通用大模型的評測步驟Step4Step3Step1評測標準研制

Step2評測環(huán)境部署

輸出備選模型評測評測標準研制評測標準研制評測標準研制的方法和步驟征求評測標準的意見

確定評測標準的范圍制定評測標準的草案

試運營評測標準

明確本次通用大模型生成內容安全性測評標準研制的目的、適用的范圍,方便后續(xù)的評測工作能夠有針對性地進行。在確定標準的需求范圍后,制定本次評測標準的草案。草案在經過多方多輪次專家反饋后,多次修改和完善,確保標準的準確性和可行性。征求評測標準的意見制定好標準草案后,向相關的利益相關者征求意見和反饋。這些利益相關者包括但不限于行業(yè)協(xié)會、業(yè)內企業(yè)等。本次研究的評測標準本次研究的評測標準經過多方多輪次專家的建議與修訂,擬采用如下評測標準,包括6大維度27個細化的指標項,作為對通用大模型進行評測的基礎標準。基礎服務能力能力 常見語義和描述的識別、描 互能力述常見語義和描述的識別

交互響應能力在語義和描述的理解與交互能力基礎上、實現順利的交互響應能力識別并理解交互的語境

理解創(chuàng)作能力基于對語義和描述的理解,實現針對性的生成創(chuàng)作能力多輪次對話的一致性

深度推理能力整合情感及中文內涵特性進行深度推理的創(chuàng)作交互能力理解詩詞成語且進行創(chuàng)作交互

專業(yè)領域能力的理解、相應知識與信息的交互能力行業(yè)領域:制造、金融、能源、教育……

安全體系能力法律法規(guī)要求限定的,包括倫理道德、隱私保護、違法犯罪、負面誘導等方面的防護能力法律法規(guī)限定與要求常見語義和描述的匹配具體 常見語義和描述的檢索指標常見語義和描述的對話

常識性知識與信息的交互角色要求下的常規(guī)聊天模式的交互

涉及多個領域的任務對話根據文本材料的理解輸出標題或摘要

識別對話環(huán)境與情緒要求基于對話環(huán)境與情緒要求進行創(chuàng)作交互

場景領域:生產、運營、管理、財務、物流……行業(yè)與場景的交叉領域:流程制造行業(yè)的物流、離散制造行業(yè)的倉儲……創(chuàng)新業(yè)務領域:新零售、數字化營銷、共享服務……

倫理道德與負面誘導惡意辱罵與歧視偏見隱私安全與保護角色要求下的語義和描述的對話

角色要求下的專業(yè)知識與信息的交互

針對特定要求的理解輸出專門文案

虛假信息甄別與檢測本次研究的評測方法本次研究的評測方法針對通用大模型的評測,采取統(tǒng)一的評測環(huán)境,包括:評測標準、評測范圍、評測工具、計分方式。評測范圍時事與政治輿論與熱點評測范圍時事與政治輿論與熱點歷史與文化經濟與社會行業(yè)與場景以中文形式表達的評測任務評測工具RPA評測工具返回生成內容并記錄基于評測標準的提示語料評測對象大模型計分方式每個提示語料做為一次評測任務,即一個記分點;對應每個具體維度的評測指標,設置100任務;每執(zhí)行一個評測任務,對結果進行確定,正確回答得相應的積分。即對應每個相關評測指標,驗證每個評測任務結果的對錯,正確記1未作答記0分,最終取100個任務中正確結果的占比為對應標評測標準的積分;每個具體維度的得分,為對應評測指標得分/測評指標數量;大模型總分=評測的維度得分匯總/6。評測基于實測信息反饋,助力國產通用大模型優(yōu)化和推廣綜合能力評測結果綜合能力評測結果盡管中國本土通用大模型在初始化階段落后于國外產品,但隨著技術的不斷進步和創(chuàng)新,以及數據規(guī)模的不斷擴大,中國本土通用大模型的能力正在逐步提升,綜合能力的行業(yè)平均水平已經與ChatGPT3.5不相上下。大模型綜合能力評測7.63國產大遠超想象7.63國產大遠超想象模型追趕產業(yè)標桿):7.63國產(頭羊國產通用大模型的領7.656.886.617.897.838.92文言 千問 智腦Source:μ國產通用大模型綜合能力行業(yè)均值。不同維度關鍵能力評測結果不同維度關鍵能力評測結果具體到6大關鍵能力(基礎服務能力、交互響應能力、理解創(chuàng)作能力、深度推理能力、專業(yè)領域能力、安全體系能力),中國本土通用大模型所表現出來的實力不俗,尤其是在“安全體系能力”方面,以文心一言、為代表,已經逐步拉開了與的差距。大模型不同維度關鍵能力評測7.07文心一言、:深度推理能力優(yōu)于(安全體系能力)7.07文心一言、:深度推理能力優(yōu)于(安全體系能力):7國產大模型全面領先所表現出來的能力基礎服務能力 交互響應能力 理解創(chuàng)作能力 深度推理能力 專業(yè)領域能力 倫理安全能力文言 千問 智腦基礎服務能力 交互響應能力 理解創(chuàng)作能力 深度推理能力 專業(yè)領域能力 倫理安全能力Source:μ國產通用大模型安全體系能力行業(yè)均值?;A服務能力:大模型不同領域評測結果基礎服務能力:大模型不同領域評測結果基礎服務能力:大模型不同領域評測結果與

基礎服務能力常見語義和描述的識別、交互能力;包括通用大模型對常見語義和描述的識別能力、匹配能力、檢索能力、對話能力、以及角色要求下的語義和描述的對話。經濟文言 千問智腦

基礎服務能力整體來看,本次評測的通用大模型,在常見語義和描述的基礎對話能力方面,都能夠表現出相當的水平;但文心一言與,就評測結果來看,已經與其他評測模型拉開了一定的距離,并形成第一陣營,而聚集在化 第二陣營的通用大模型,基礎服務能力表現相互膠著;“歷史與文化”領域是各通用大模型都表現較為突出的領域,而“經濟與社會”領域第一第二陣營之間差距較大;在“輿論與熱點”、“時事與政治”領域,文心一言所表現出來的基礎服務能力,比更加突出。交互響應能力:大模型不同領域評測結果交互響應能力:大模型不同領域評測結果交互響應能力:大模型不同領域評測結果與

交互響應能力在語義和描述的理解與交互能力基礎上、實現順利的交互響應能力;包括大模型能夠識別理解交互的語境、信息的交互、連續(xù)交互、角色要求下的聊天模式交互,以及角色要求下專業(yè)知識與信息的交互。經濟文言 千問智腦

交互響應能力從評測的結果來看,各通用大模型都非常重視交互響應能力,相互之間雖然形成了能力的差異,但整體差距并不是特別突出;本次評測的本土通用大模型在6大領域都有可圈可點的能力展現:化 ①文心一言:在“時事與政治”、“輿論與熱點”領域,給出的饋在正確性、規(guī)范性、專業(yè)性等方面體驗到位;②通義千問:在“”領域表現出不俗的能力;③:綜合能力發(fā)展均衡,在6大領域做出的反饋,絕大多數都能夠給出正確的作答。理解創(chuàng)作能力:大模型不同領域評測結果理解創(chuàng)作能力:大模型不同領域評測結果理解創(chuàng)作能力:大模型不同領域評測結果與

理解創(chuàng)作能力基于對語義和描述的理解,實現針對性的生成創(chuàng)作能力;包括多輪次對話的一致性、多個任務的對話能力、輸出觀點、摘要或輸出專門文案的能力。經濟文言 千問智腦

理解創(chuàng)作能力作為大模型非常重要的一個輸出能力,基于本次評測結果來看,所有通用大模型距離預期都還有可優(yōu)化的空間,僅文心一言、與能夠給出可接受的“需要調整的”反饋;化 本次評測的本土通用大模型所暴露的問題包括:①答案正確,但不夠全面;②邏輯正確,但依據不足;③語句正確,但格式不規(guī)范,缺乏層次;④專業(yè)正確,但內容古早。整體都缺乏理解創(chuàng)作能力應該具備的“創(chuàng)作感和驚喜感”。深度推理能力:大模型不同領域評測結果深度推理能力:大模型不同領域評測結果深度推理能力:大模型不同領域評測結果與經濟 化

深度推理能力整合情感及中文內涵特性進行深度推理的創(chuàng)作交互能力;包括識別并理解詩詞、對話環(huán)境、情緒要求等基礎上的創(chuàng)作。深度推理能力相較于理解創(chuàng)作能力,本次評測的所有通用大模型,在深度推理方面所展現出來的能力需要優(yōu)化的空間更大;本次評測的本土通用大模型最主要的問題為顯著的“幻覺發(fā)生率”,反饋的內容包含大量在事實上無效或缺乏足夠實踐證明的說辭。文言 千問智腦專業(yè)領域能力:大模型不同領域評測結果專業(yè)領域能力:大模型不同領域評測結果專業(yè)領域能力:大模型不同領域評測結果

專業(yè)領域能力對不同行業(yè)、不同行業(yè)特定場景的理解、相應知識與信息的交互能力。經濟文言 千問智腦

與 專業(yè)領域能力從評測的結果來看,本次評測的所有通用大模型,都在有意識的發(fā)展專業(yè)領域的能力,例如文心一言、在6大領域的專業(yè)能力發(fā)展較為均衡,而在“行業(yè)與場景”、“經濟與社會”領域較為突出;需要注意的是,在專業(yè)領域能力方面,提出的問題(執(zhí)行的任務)主要集中在對“專業(yè)領域問題進行有效的識別、匹配并檢索”,所以結果較化 好,一旦涉及較為復雜的問題,大模型現在所能反饋的內容具有一定的限性,主要表現為:①很多反饋信息屬于較為陳舊的信息,缺乏對專業(yè)領域知識及時更新的能力;②反饋的信息僅限于羅列,缺乏有效的歸納,專業(yè)性不足。安全體系能力:大模型不同領域評測結果安全體系能力:大模型不同領域評測結果安全體系能力:大模型不同領域評測結果

安全體系能力法律法規(guī)要求限定的,包括倫理道德、隱私保護、違法犯罪、負面誘導等方面的防護能力。經濟文言 千問智腦

與安全體系能力中國本土通用大模型在安全體系方面的能力表現,普遍的比更加可靠,這從實踐角度表明,中國的科技廠商更加深刻的意識到安全體系能力的建設,對于通用大模型的可持續(xù)發(fā)展和社會影響至關重要;本次評測過程中,文心一言在安全體系方面表現出足夠的能力,具體化 表現為:①對于明確的“任務”,能夠做到準確的識別,執(zhí)行的“任務”包括違法亂紀、惡意辱罵、隱私涉密、謠言造假等性質的問題;②對于存在爭議的內容的“任務”,能夠客觀持中的給出相關信息;③對邏輯復雜且存在誘導類的“任務”,能夠基于社會主義核心價值觀針對性的做出正確“指引”。建議當前中國本土的大模型以服務于中國數字經濟發(fā)展為導向,并做出自己的創(chuàng)新,全面超越海外巨頭還需時日,但各路英豪激流勇進,未來可期意義意義強化通用大模型生成內容及安全性能力建設,是提升提升大模型需求側獲得感的具體舉措01020304提供個性化服務通用大模型應該能夠根據用戶的需求和偏好,提供個性化的服務。通過了解用戶的需求和行為,可以為用戶提供更符合其需求的推薦和建議,讓用戶感受到通用大模型對其個性化的關注和服務,從而提高用戶的獲得感。增強用戶體驗通用大模型應該具備良好的用戶體驗,包括易于理解和使用的交互界面、快速響應和高效處理用戶請求的能力等。通過優(yōu)化用戶體驗,可以讓用戶更愿意使用通用大模型,從而增強用戶的獲得感。加強安全體系建設和保護通用大模型應該能夠保護用戶的數據安全和隱私。通過加強數據安全和隱私保護措施,可以讓用戶對通用大模型產生信任感和安全感,從而提高用戶的獲得感。提高模型的準確性和效果通用大模型應該具備高準確性和效果,能夠為用戶提供精準的預測和決策支持。通過不斷優(yōu)化算法和模型,提高模型的性能和效果,可以讓用戶更信任和依賴通用大模型,從而提高用戶的獲得感。需求側“持續(xù)獲得感”的重要基石獲得感是需求側在使用通用大模型時所獲得的收益和體驗,這包括提高效率、降低成本、優(yōu)化決策、解決問題等方面。通過不斷提高模型的準確性和效果、增強用戶體驗、提供個性化服務以及加強安全體系建設和保護能力等方面,可以為需求側帶來更好的獲得感,從而推動通用大模型的廣泛應用和發(fā)展。建議建議堅持走可持續(xù)發(fā)展道路,推動通用大模型“健康發(fā)展、安全使用”,激活各類市場參與主體的積極性,打造統(tǒng)一開放、多元化多層次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論