《大語言模型金融領(lǐng)域應(yīng)用評測指南》-標(biāo)準(zhǔn)編制說明-0820_第1頁
《大語言模型金融領(lǐng)域應(yīng)用評測指南》-標(biāo)準(zhǔn)編制說明-0820_第2頁
《大語言模型金融領(lǐng)域應(yīng)用評測指南》-標(biāo)準(zhǔn)編制說明-0820_第3頁
《大語言模型金融領(lǐng)域應(yīng)用評測指南》-標(biāo)準(zhǔn)編制說明-0820_第4頁
《大語言模型金融領(lǐng)域應(yīng)用評測指南》-標(biāo)準(zhǔn)編制說明-0820_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1《大語言模型金融領(lǐng)域應(yīng)用評測指南》編制一、背景及意義近年來,大模型技術(shù)迅猛發(fā)展,商業(yè)化應(yīng)用日益深入,并在文本生成場景展現(xiàn)出巨大潛力。目前,市面上擁有數(shù)百個大語言模型,但質(zhì)量參差不齊,部分模型存在準(zhǔn)確性、連貫性、邏輯性等方面的問題,一定程度上阻礙了大語言模型的商業(yè)化進程。尤其在金融領(lǐng)域,作為金融活動的重要載體,金融文本的生成質(zhì)量直接關(guān)系到金融決策的準(zhǔn)確性以及交易的安全性、合規(guī)性等。因此,如何對大語言模型進行全面、客觀的評測,已經(jīng)成為一個迫切需要解決的問題。大語言模型擁有巨大的參數(shù)量和較強的泛化能力,評測維度、評測指標(biāo)和數(shù)據(jù)集相較傳統(tǒng)模型更加復(fù)雜,評測難度也隨之顯著增加。而且不同領(lǐng)域?qū)ξ谋旧傻男枨蟠嬖诓町?,對評測體系的要求也各不相同。目前,我國針對金融領(lǐng)域大語言模型的評測體系尚處于探索階段,還未形成統(tǒng)一的標(biāo)準(zhǔn)。這一現(xiàn)狀導(dǎo)致金融機構(gòu)在開展大語言模型評測時缺乏可靠的參考依據(jù),容易出現(xiàn)模型潛在風(fēng)險難以識別、評測結(jié)果可信度不足等問題,給大語言模型的落地應(yīng)用帶來挑戰(zhàn)。四川新網(wǎng)銀行股份有限公司聯(lián)合西南財經(jīng)大學(xué)金融科技國際聯(lián)2語言模型金融領(lǐng)域應(yīng)用評測指南》團體標(biāo)準(zhǔn),為金融行業(yè)提供一套科學(xué)、合理、實用的大語言模型評測體系。該標(biāo)準(zhǔn)的制定對推動大語言模型在金融領(lǐng)域的健康有序發(fā)展具有重要意義。二、編制原則本文件的編制遵循以下原則:(一)合規(guī)性原則。本文件編制過程中,嚴(yán)格遵循國家現(xiàn)行法律法規(guī)和標(biāo)準(zhǔn)化相關(guān)政策,包括:《中華人民共和國標(biāo)準(zhǔn)化法》《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》等。(二)規(guī)范化原則。本文件編制過程中,嚴(yán)格遵循國家標(biāo)準(zhǔn)GB/T20000.1-2014規(guī)定的標(biāo)準(zhǔn)文本寫作格式。(三)科學(xué)性原則。本文件立足于提出機構(gòu)在大語言模型測試領(lǐng)域的具體實踐,結(jié)合大語言模型的技術(shù)機理及其在金融領(lǐng)域的應(yīng)用特點進行編制。編制過程中,參考了GB/T45288.1—2025、GB/T45288.2—2025、T/SCBDIF001—2024、T/BFIA034—2024等標(biāo)準(zhǔn)。三、主要內(nèi)容本文件主要包括以下方面內(nèi)容:(一)范圍。本文件適用于成渝地區(qū)金融機構(gòu)對大語言模型能力評測的設(shè)計與實施。3(二)規(guī)范性引用文件。本標(biāo)準(zhǔn)引用文件如下:GB/T45288.2—2025人工智能大模型第2部分:評測指標(biāo)與方法。(三)術(shù)語與定義。描述了本標(biāo)準(zhǔn)涉及的大語言模型、幻覺、測試用例、評測維度、評測項共5個規(guī)范術(shù)語及其定義。(四)縮略語。描述了本標(biāo)準(zhǔn)涉及的縮略語。(五)評測原則。描述了大語言模型金融領(lǐng)域評測過程中宜遵循的基本(六)評測維度。描述了13個相互獨立且完整覆蓋金融應(yīng)用場景的能力評測維度。每個評測維度下含3-6個評測項,共53個評測(七)評測方法。從準(zhǔn)備評測數(shù)據(jù)、設(shè)計評測工具、搭建評測環(huán)境、評測執(zhí)行、結(jié)果分析5個階段描述了大語言模型的評測方法。(八)附錄A-測評實施指南。針對各評測項提供具體的評測流程和參考用例。(九)附錄B-顯存配置參考。針對不同參數(shù)量的大語言模型提供參考顯存配置。4四、主要工作過程本文件編制過程如下:限公司啟動大語言模型金融領(lǐng)域應(yīng)用評測指南制定項目。(二)成立標(biāo)準(zhǔn)編制工作組。四川新網(wǎng)銀行股份有限公司聯(lián)合西南財經(jīng)大學(xué)金融科技國際聯(lián)合實驗室、重慶國家金融科技認(rèn)證中心等機構(gòu),共同成立標(biāo)準(zhǔn)工作組,規(guī)范標(biāo)準(zhǔn)化制定總體原則,標(biāo)準(zhǔn)內(nèi)容制定目標(biāo)以及制定工作分配安排。(三)標(biāo)準(zhǔn)立項下達(dá)。2025年1月,四川省支付清算協(xié)會秘書處正式下發(fā)《關(guān)于2024-2025年成渝金融團體標(biāo)準(zhǔn)立項批準(zhǔn)的通知》(川支協(xié)發(fā)〔2025〕4號),本標(biāo)準(zhǔn)正式立(四)形成征求意見稿。2025年4月-8月,按照標(biāo)準(zhǔn)編制的要求,編制形成《大語言模型金融領(lǐng)域應(yīng)用評測指南》的行業(yè)內(nèi)征求意見稿。(五)形成送審稿。根據(jù)各單位評審意見修改《大語言模型金融領(lǐng)域應(yīng)用評測指南》標(biāo)準(zhǔn)內(nèi)容,擬2025年11月形成《大語言模型金融領(lǐng)域應(yīng)用評測指南》(送審稿)。五、重大分歧意見的處理經(jīng)過和依據(jù)在本文件的編制過程中,工作組成員對標(biāo)準(zhǔn)的內(nèi)容進行了充分的研究和探討,在編制過程中沒有出現(xiàn)重大分歧意見。六、貫徹金融行業(yè)標(biāo)準(zhǔn)的要求和措施建議本文件為首次編制,鑒于本文件的內(nèi)容未涉及強制性標(biāo)5準(zhǔn)或強制性條文的內(nèi)容及要求,因此建議作為推薦性團體標(biāo)七、廢止現(xiàn)行有關(guān)標(biāo)準(zhǔn)的建議本文件為首次編制,不存在對現(xiàn)行標(biāo)準(zhǔn)的廢止問題。八、其他應(yīng)予說明的事項本文件遵守中華人民共和國

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論