智慧方案人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評_第1頁
智慧方案人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評_第2頁
智慧方案人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評_第3頁
智慧方案人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評_第4頁
智慧方案人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評2024年3月版為貫徹落實黨中央國務(wù)院關(guān)于促進(jìn)人工智能發(fā)展的決策部署

中國工業(yè)互聯(lián)網(wǎng)研究院依托通用人工智能與工業(yè)融合創(chuàng)新中心(簡稱

中心”

,

聯(lián)合香港科技大學(xué)、

中國經(jīng)濟(jì)信息社

,

深入研究人工智能大模型在工業(yè)

領(lǐng)域的應(yīng)用性能、

技術(shù)架構(gòu)、

標(biāo)準(zhǔn)體系

,

并在此基礎(chǔ)上

,形成本報告。結(jié)合工業(yè)企業(yè)大模型應(yīng)用情況調(diào)研

,

本報告在原有工業(yè)知識問答準(zhǔn)確性測評的基礎(chǔ)上

,

新增數(shù)據(jù)分析、

工程建模、

文檔生成、

代碼理解等四大場景

,

構(gòu)建測試數(shù)據(jù)集

,

對國內(nèi)外具有代表性的大模型進(jìn)行測試

,

發(fā)布新

一輪的準(zhǔn)確性測評報告

,供業(yè)界進(jìn)行參考。本報告測評結(jié)果雖經(jīng)中心專家委論證

,但因大模型迭代速度快

,技術(shù)復(fù)雜

,

囿于工作團(tuán)隊專業(yè)知識和能力,報告難免存在分析結(jié)論不足等問題

,且測評結(jié)果僅適用于測試期間

,歡迎大家批評指正。2023年初至今

,

大模型技術(shù)發(fā)展突飛猛進(jìn)

,

已逐步滲透至工業(yè)領(lǐng)域諸多環(huán)節(jié)

,

涵蓋了知識問答、

工程建模、

數(shù)據(jù)分析、

文檔生成、

代碼理解等場景

,

正快速成長為工業(yè)轉(zhuǎn)型升級和創(chuàng)新發(fā)展的重要動力。?依托國家工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)中心

,聚焦重點工業(yè)行業(yè)

,匯集高質(zhì)量語料

,形成工業(yè)語料庫

,支撐大模型在工業(yè)領(lǐng)域應(yīng)用測評;?結(jié)合工業(yè)企業(yè)調(diào)研

,在原有知識問答基礎(chǔ)上

,新增四類工業(yè)應(yīng)用測評場景

,開展大模型在各應(yīng)用場景的準(zhǔn)確性測評。知識問答結(jié)

業(yè)

知識

,

據(jù)

領(lǐng)域

業(yè)

問題

。文檔生成面

業(yè)

應(yīng)用,

有邏輯

、有

結(jié)

、

。數(shù)據(jù)分析面

業(yè)

場景

礎(chǔ)

結(jié)

構(gòu)化

數(shù)

據(jù)

,

分析

現(xiàn)

描述

,

得出結(jié)論

。代碼理解解

機(jī)

,

業(yè)

設(shè)

、

、

計算復(fù)雜性

。工程建模面

業(yè)

,

礎(chǔ)數(shù)學(xué)知識

數(shù)

學(xué)

型進(jìn)行求解

。工業(yè)應(yīng)用準(zhǔn)確性測評石化化工行業(yè)1.題目類型:每個場景抽取若干題目進(jìn)行測試

,題型以問答題為主。2.

題目數(shù)量:·知識問答:

144道·

數(shù)據(jù)分析

:20

道·工程建模:

100道

·

文本生成:40道·代碼理解:

150道注

:各場景題目數(shù)量雖不一致

,但考察要點總量保持在同一個數(shù)量級。3.題目得分:需要結(jié)合具體題目的評分細(xì)則

,按照步驟進(jìn)行賦分

,賦分后分?jǐn)?shù)進(jìn)行歸一化處理。4.

場景得分:·場景得分為題目總分百分化處理后的分?jǐn)?shù)?!と粲屑?xì)分場景

,則場景總分為細(xì)分場景的平均成績。5.綜合評分:

由各場景算數(shù)平均分計算得出。?為更貼合應(yīng)用場景實際

,進(jìn)一步評價模型的多維能力

,本期測評題型以問答題為主;?為保障判分的一致性與準(zhǔn)確度

,問答題的評分方式由人工判分改為大模型判分

,并按步驟賦分。生

標(biāo)

準(zhǔn)[

1

]利

GP

T

4

標(biāo)

準(zhǔn)

為評分標(biāo)準(zhǔn),

并通過人工校驗>

測評流程

>

評分標(biāo)準(zhǔn)篩選題目根據(jù)場景

、

難度

、

行業(yè)

,

選取有標(biāo)準(zhǔn)答案的題目

,進(jìn)行問答調(diào)

API

,

收集大模型答案

。進(jìn)

分[

2

]利用GPT

4

,

據(jù)

分標(biāo)準(zhǔn),

按步驟賦分

。經(jīng)人工校驗后形成測試題

。提升判分標(biāo)準(zhǔn)科學(xué)性

。?綜合能力上

,GPT4處于領(lǐng)先地位

,國內(nèi)大模型文心一言、ChatGLM緊隨其后;?對于國內(nèi)大模型

,多個模型綜合能力超過GPT3.5

,包括文心一言、ChatGLM、星火3.5、通義千問等;?對于國外大模型

,GPT4領(lǐng)先優(yōu)勢明顯

,其余模型差距較大。Llama70b天工大模型GPT3.5GeminiPro星火3.0國際國內(nèi)國際平均55大模型準(zhǔn)確性排名Top20[1]Llama13b(中文微調(diào))1009080706050403020100ClaudeMistral>

測評成績GPT4從容大模型ChatGLMMiniMax通義千問文心一言百川13B360智腦星火3.5國內(nèi)平均54Cosmo百川3準(zhǔn)確性Yi2023年6月底相對GPT3.5成績2024年年初相對GPT3.5成績2023年6月底?在工業(yè)知識問答、文檔生成等領(lǐng)域

,國內(nèi)大模型已取得領(lǐng)先

,數(shù)據(jù)分析、代碼理解等領(lǐng)域能力接近;?在工程建模領(lǐng)域

,國內(nèi)大模型與國際存在一定差距。70554025?對比往期測評

,

2023年下半年國內(nèi)大模型能力提升明顯(以GPT3.5為基準(zhǔn))。>

各維度大模型最佳能力對比圖[1]

>

國內(nèi)大模型發(fā)展趨勢[2]四、

測評結(jié)果-能力對比與變化趨勢160%120%80%40%23年中國內(nèi)平均

24年初國內(nèi)平均從容大模型從容大模型天工大模型天工大模型星火大模型星火大模型ChatGLMChatGLM相對GPT3.5成績工程建模100通義千問通義千問文心一言文心一言360智腦360智腦工業(yè)知識問答2024年初代碼理解數(shù)據(jù)分析文檔生成口國際口國內(nèi)85應(yīng)用場景研判?

研發(fā)設(shè)計環(huán)節(jié)

研發(fā)工程師可基于大模型快速、

便捷獲取高質(zhì)量知識

,

提升研發(fā)效率;?

生產(chǎn)制造環(huán)節(jié):

產(chǎn)線工人可實時向大模型查詢生產(chǎn)工藝經(jīng)驗

,輔助其進(jìn)行制造工藝優(yōu)化;?

售后服務(wù)環(huán)節(jié):

企業(yè)可基于大模型

,通過數(shù)字人實時向客戶提供售后咨詢服務(wù);?

技能培訓(xùn)環(huán)節(jié):

新員工可通過大模型了解企業(yè)信息、

學(xué)習(xí)生產(chǎn)技能。大模型可結(jié)合自身知識

,

回答不同工業(yè)領(lǐng)域問題

,將用于員工培訓(xùn)、

故障診斷、

客服咨詢、

市場調(diào)研等交互場景

協(xié)助企業(yè)員工熟悉生產(chǎn)流程

,

幫助用戶了解產(chǎn)品特性。五、場景測評一:工業(yè)知識問答知識快速獲取工藝輔助優(yōu)化問題:你知道哪些常用邏輯電平?TTL與CMOS電平可以直接互連嗎?評分標(biāo)準(zhǔn):(1)常用邏輯電平包括:12V

,5V

,3.3V。(

1分

,給出標(biāo)準(zhǔn)中同樣或近似的回答則得1分

,否則不得分。)(2)TTL和CMOS電平是否可以直接互連:不可以直接互連。(

1分

,給出標(biāo)準(zhǔn)中同樣或近似的回答則得1分

,否則不得分。)(3)TTL和CMOS電平互連的條件

:CMOS輸出可以直接接到TTL

,而TTL接到CMOS需要在輸出端口加一上拉電阻接到5V或者12V。(

1分)本題共3小項

,每個小項1分

,滿分3分。對于每個小項

,如果描述有差距

,或者詳細(xì)程度不足

,酌情給0.3或者0.5分或者0.8分。?在知識問答領(lǐng)域國內(nèi)大模型已具備一定優(yōu)勢

,ChatGLM、文心一言等多個大模型實現(xiàn)對GPT4超越;?國內(nèi)大模型在建材、采礦等行業(yè)具有顯著優(yōu)勢

,在裝備制造、鋼鐵等行業(yè)與國際水平接近;?對比不同行業(yè)

,國內(nèi)外大模型在鋼鐵、電力等行業(yè)有較好的知識儲備

,對于紡織、裝備制造等行業(yè)仍需加強(qiáng)訓(xùn)練。五、場景測評一:工業(yè)知識問答天工大模型GPT3.5Llama13b(中文微調(diào))Llama70bMistral百川13B工業(yè)知識問答能力Top20100準(zhǔn)確

60

性(分)40200>

行業(yè)能力對比[1]ClaudeMiniMax建材石化化工電力電子制造紡織裝備制造鋼鐵采礦>

測評結(jié)果>

題目樣例GeminiPro從容大模型星火3.0通義千問GPT4ChatGLM準(zhǔn)

(分)文心一言100806040200360智腦星火3.5Cosmo國內(nèi)

國際國際平均41國內(nèi)平均52百川3Yi80應(yīng)用場景研判?

研發(fā)設(shè)計環(huán)節(jié):

基于歷史實踐

,建立成本模型

,指導(dǎo)新項目的規(guī)劃和預(yù)算編制

,提

高項目成功率;?

生產(chǎn)制造環(huán)節(jié):

建立時序預(yù)測、

異常檢測模型

,基于預(yù)測優(yōu)化生產(chǎn)計劃

,提高施工

效率和安全性;?

運維管理環(huán)節(jié):

建立運籌模型

,對工廠生產(chǎn)人員進(jìn)行排版優(yōu)化

,提升人員效能;?

營銷宣傳環(huán)節(jié):

建立營銷收益模型

,提升

營銷效率

,

節(jié)約營銷成本。大模型具備基礎(chǔ)建模能力

,將幫助工程師和企業(yè)管理人員在實際工程設(shè)計、

生產(chǎn)運維等領(lǐng)域進(jìn)行數(shù)學(xué)建模

,尋求最佳的解決方案。五、場景測評二:工程建模預(yù)測模型優(yōu)化生產(chǎn)計劃工程數(shù)學(xué)建模問題:某公司在2018年年初預(yù)訂x萬產(chǎn)量的目標(biāo)

,2018年6月己完成計劃的60%

,此后按照上半年月均產(chǎn)量生產(chǎn)

,則2018年超出計劃產(chǎn)量300萬.

那么該公司2018年年初預(yù)訂的產(chǎn)量為多少萬元?評分標(biāo)準(zhǔn):1.如果能正確列出完成計劃的60%即為$0.6x$萬的關(guān)系

,得1分;2.如果能正確列出下半年產(chǎn)量也為$0.6x$萬的關(guān)系

,得1分;3.如果能正確列出并解方程$0.6x

+0.6x

-x

=

300$

,得1分;4.如果能正確解出$x

=1500$

,得1分;本題共四個得分點

,滿分為4分

,得分情況為(得分/滿分)。.在工程建模領(lǐng)域

,GPT4、文心一言處于領(lǐng)先地位

,對比其它模型具有顯著優(yōu)勢;.國內(nèi)外平均成績均為43分

,大模型建模能力整體處于較低水平

,可收集數(shù)學(xué)建模專業(yè)語料進(jìn)行強(qiáng)化訓(xùn)練

,也可以使用代碼解釋器等增強(qiáng)工具提升大模型建模能力。>

測評結(jié)果>

題目樣例GeminiPro從容大模型GPT3.5Mistral10080準(zhǔn)確

60

性(分)40200五、場景測評二:工程建模Llama13b(中文微調(diào)

i工程建模能力Top20天工大模型360智腦星火3.0ClaudeLlama70bGPT4文心一言ChatGLMMiniMax星火3.5通義千問百川13BCosmo國際平均43國內(nèi)平均43百川3應(yīng)用場景研判?

研發(fā)設(shè)計環(huán)節(jié):

在海量產(chǎn)品評價數(shù)據(jù)中提取共性問題

,

改進(jìn)產(chǎn)品設(shè)計

,提升產(chǎn)品品質(zhì);?

生產(chǎn)制造環(huán)節(jié):

自動分析工業(yè)生產(chǎn)時序數(shù)據(jù)

,發(fā)現(xiàn)數(shù)據(jù)異?;驖撛陲L(fēng)險

,及時預(yù)警

或報錯;?

運維管理環(huán)節(jié):

輔助分析庫存數(shù)據(jù)

,進(jìn)行

呆滯庫存和缺料提醒

,提升管理效率;?

人員培訓(xùn)環(huán)節(jié):

分析事故數(shù)據(jù)

,杜絕生產(chǎn)事故

,消除安全隱患。大模型可將結(jié)構(gòu)化數(shù)據(jù)提煉為核心結(jié)論

,對復(fù)雜業(yè)務(wù)數(shù)據(jù)進(jìn)行自動分析

,更全面、

及時地幫助企業(yè)管理者運營和決策

,提升工作效率和運營質(zhì)量。五、場景測評三:數(shù)據(jù)分析分析生產(chǎn)時序數(shù)據(jù)分析用戶評價electric.在數(shù)據(jù)分析領(lǐng)域

,文心一言能力最佳

,與GPT4、

Mistral等構(gòu)成第一梯隊;.國內(nèi)外大模型分?jǐn)?shù)均較低

,大模型直接用于數(shù)據(jù)分析可能造成部分信息遺漏或描述偏差

,實際應(yīng)用中可使用優(yōu)秀數(shù)據(jù)分析案例

進(jìn)行微調(diào)

,或?qū)咐尤氲教崾驹~中

,利用大模型小樣本學(xué)習(xí)能力提升效果。評分標(biāo)準(zhǔn):(1).文章對比了2001年至2010年幾種電話的年均產(chǎn)量變化。(

1分

,如果有相關(guān)的全局性描述

,則得1分

,否則不得分。)(2).在這10年期間,

B電話穩(wěn)步下降

,而A電話支出迅速增長。(

1分必須有B穩(wěn)步下降的描述

,且有A電話迅速增長的描述性語言

,只給出數(shù)據(jù)不進(jìn)行對比描述不得

分。)(3).2007年是A產(chǎn)量超過B電話產(chǎn)量的轉(zhuǎn)折點。(

1分,必須指出2007年A電話超過B

的關(guān)鍵節(jié)點

,只給數(shù)據(jù)出數(shù)據(jù)不描述不得分。)(4)...

(5)...本題共5小項

,對于每個小項

,如果學(xué)生的回答中有和該項一致的語句

,則得1分,

如果描述有差距

,或者詳細(xì)程度不足

,酌情給0.3或者0.5分或者0.8分。問題:您需要撰寫一份簡短的報告

,介紹下面的圖表/表格/圖形的主要特征。您應(yīng)該執(zhí)行以下任務(wù):概括數(shù)據(jù)

,描述過程的各個階段等等

,請使用中文進(jìn)行撰寫。下表為2001-2010年幾種型號電話年產(chǎn)量。YearPhoneAPhone

B...2001200700...............2010700475...MiniMaxGeminiProGPT3.510080準(zhǔn)確性

60

(分)40200五、場景測評三:數(shù)據(jù)分析Llama13b(中文微調(diào))ChatGLMLlama70b從容大模型GPT4Mistral文心一言>

測評結(jié)果>

題目樣例數(shù)據(jù)分析能力Top20天工大模型通義千問百川13B360智腦星火3.0星火3.5CosmoClaude國際平均56國內(nèi)平均53百川3Yi應(yīng)用場景研判.

研發(fā)設(shè)計環(huán)節(jié):

大模型可基于本地知識庫,輔助工作人員生成技術(shù)方案和設(shè)計方案,幫助研發(fā)人員提升效率

,

為設(shè)計人員提供靈感;.

生產(chǎn)制造環(huán)節(jié):

大模型可基于生產(chǎn)訂單和生產(chǎn)計劃

,

自動生成作業(yè)指導(dǎo)書

,提高生

產(chǎn)效率;.

運維管理環(huán)節(jié):

大模型可根據(jù)設(shè)備運行情況

,

自動編寫運行報告;

可根據(jù)供應(yīng)鏈庫

存情況生成庫存管理報告文檔

,提升運營

效率。大模型將幫助用戶快速、

高效處理和生成各類文檔

,如宣傳文案、

操作手冊、

技術(shù)文檔、

施工方案等,提高工作效率和質(zhì)量。五、場景測評四:文檔生成生成作業(yè)指導(dǎo)書生成技術(shù)文檔>

題目樣例問題:分析以下文字

,總結(jié)B公司企業(yè)創(chuàng)新的啟示。B公司專門成立了熱效率技術(shù)攻關(guān)團(tuán)隊

,通過大量的仿真和臺架試驗

,經(jīng)過上千種方案的探索分析

,不斷嘗試與改進(jìn)

,最終把發(fā)動機(jī)各個方面的功能發(fā)揮到極致,

實現(xiàn)了熱效率突破

50%。思路決定出路

,以往一些科技企業(yè)遭遇挫敗是因為單純以技術(shù)為主導(dǎo)按已有的技術(shù)去做產(chǎn)品

,再去找銷路

,結(jié)果市場并不認(rèn)可。......評分標(biāo)準(zhǔn):1.敢于超前研發(fā)。樹立首創(chuàng)精神,敢為人先,形成差異化競爭力

,抵御風(fēng)險

,贏得優(yōu)勢。(

1分

,必須有關(guān)于超前研發(fā)

,敢于創(chuàng)新的的近似描述

,否則不得分)2.加強(qiáng)技術(shù)攻關(guān)。成立專門團(tuán)隊,進(jìn)行大量試驗,不解探索分析,不斷嘗試改進(jìn)。(1分

,必須有關(guān)于技術(shù)公關(guān)

,探索嘗試的的近似描述

,否則不得分)3.市場需求導(dǎo)向。轉(zhuǎn)變技術(shù)指導(dǎo)市場的思路,從客戶需求出發(fā),確定產(chǎn)品創(chuàng)新方向。(

1分

,必須有關(guān)于市場導(dǎo)向

,重視調(diào)研

,技術(shù)指導(dǎo)市場的相關(guān)描述

,否則不得分)4.

...

5.

...本題共5要點

,對于每個要點

,如果學(xué)生回答中有和該項一致的語句

,則得1分,如果描述有差距

,或者詳細(xì)程度不足

,酌情給0.3或者0.5分或者0.8分。.在文檔生成(要點總結(jié))領(lǐng)域

,國內(nèi)外性能最佳大模型成績接近滿分

,基本可成熟應(yīng)用于該場景;.國內(nèi)外平均成績相對較高

,文檔生成(要點總結(jié))場景屬于當(dāng)前大模型較擅長領(lǐng)域。五、場景測評四:文檔生成(要點總結(jié))測評結(jié)果文檔生成能力Top20>10080準(zhǔn)確性

60

(分)40200MistralGPT3.5GPT4YiChatGLM從容大模型ClaudeLlama13b(中文微調(diào))GeminiPro天工大模型Llama70bMiniMax通義千問文心一言百川13B360智腦星火3.0星火3.5Cosmo國際平均85國內(nèi)平均87百川3>

題目樣例問題:閱讀以下觀點

,回答你是否同意

,如果你不同意

,請說明哪種情況會削弱下面的觀點:過去的一年,QM的工傷事故比鄰近的工廠多

$30\%$,鄰近工廠每班工作時間比我們公司短

1小時。專家稱傷事故的主要原因是疲勞和睡眠不足。

因此,為減少Q(mào)M的工傷事故數(shù)量,從而提高生產(chǎn)效率,我們需要把3個班次的工作時間縮短

1小時,這樣我們的員工可以獲得充足的睡眠。評分標(biāo)準(zhǔn):總結(jié)提煉后

,評分標(biāo)準(zhǔn)如下:?(1)兩家公司是否具有可比性,沒有給出具體的分析...?(2)去年的情況今年是否依然持續(xù)...?(3)倒班時間縮短一小時

,不能保證員工獲得充足的睡眠;?(4)即便縮短倒班時間能夠保證員工獲得充足的睡眠

,員工的工傷數(shù)量也并不一定會下降...?對于以上四點

,每個分論點在作文中有所體現(xiàn)得1分

,共計4分。.在文檔生成(觀點分析)領(lǐng)域

,百川3、星火3.5、Yi優(yōu)勢明顯

,

已實現(xiàn)對GPT4的領(lǐng)先;.國際大模型平均超出國內(nèi)較多

,國內(nèi)模型需整理高質(zhì)量語料進(jìn)行強(qiáng)化訓(xùn)練

,提升觀點分析成效。五、場景測評四:文檔生成(觀點分析)測評結(jié)果文檔生成能力Top20>10080準(zhǔn)確性

60

(分)40200Llama13b(中文微調(diào))Llama70bGPT4Yi從容大模型MistralClaude天工大模型360智腦ChatGLMGPT3.5GeminiProMiniMax通義千問文心一言百川13B星火3.0星火3.5Cosmo國際平均71國內(nèi)平均65百川3應(yīng)用場景研判.

研發(fā)設(shè)計環(huán)節(jié):

大模型可根據(jù)自然語言描述,自動生成工業(yè)代碼

,輔助編寫自動化腳本、復(fù)雜的業(yè)務(wù)邏輯代碼

,提升編碼效率;.

生產(chǎn)制造環(huán)節(jié):

大模型可對生產(chǎn)設(shè)備的控制代碼進(jìn)行安全審查

,排查代碼中的錯誤和漏洞

,保障生產(chǎn)安全;.運維管理環(huán)節(jié):

大模型可自動生成代碼注釋,幫助工控運維人員高效理解和維護(hù)代碼

,提升運維效率。大模型將面向工業(yè)需求編寫代碼

,

回答計算機(jī)編程相關(guān)問題

,輔助代碼功能性和安全性檢測

,提升工程師編碼效率

,保障程序安全、

平穩(wěn)運行。五、場景測評五:代碼理解代碼錯誤檢測與修正代碼生成與自動編程>

題目樣例問題:回答下列選擇題

,并給出解析。下列代碼中存在什么安全問題?publicvoiddoPost(HttpServletRequest

request,

HttpServletResponse

response)throwsServletException,

IOException{javax.servlet.http.Cookie[]theCookies

=

request.getCookies();...java.util.Properties

benchmarkprops

=

new

java.util.Properties();Stringalgorithm

=

"MD5";java.security.MessageDigest.getInstance(algorithm);byte[]

input

={(byte)

'?'};Object

inputParam

=

param;if(inputParam

instanceofString)

input

=

((String)

inputParam).getBytes();}評分標(biāo)準(zhǔn):代碼中使用已知的弱哈希算法MD5

,代碼如下:Stringalgorithm

=

"MD5";java.security.MessageDigest

md

=java.security.MessageDigest.getInstance(algorithm);弱哈希算法有MD5、SHA-1和SHA-2等哈希函數(shù)。(回答中如果能指出安全問題是弱哈希算法得1分

,否則不得分).在代碼理解領(lǐng)域

,GPT4和文心一言準(zhǔn)確度較高

,相對其他模型優(yōu)勢明顯;.國內(nèi)外平均成績相對偏低

,編程相關(guān)知識掌握薄弱

,應(yīng)全面提升模型訓(xùn)練集中代碼語料的數(shù)量和質(zhì)量

,代碼解釋器模塊可能對理解代碼的能力有較大幫助

,建議更多大模型引入。五、場景測評五:代碼理解10080準(zhǔn)確

60

性(分)4020Llama13b(中文微調(diào))0文心一言MistralClaudeGPT4ChatGLM百川3GPT3.5>

測評結(jié)果MiniMaxLlama70b從容大模型代碼理解能力Top20GeminiPro天工大模型通義千問百川13B360智腦星火3.0星火3.5Cosmo國際平均51國內(nèi)平均45YiChatGLM文心一言卡奧斯?

國內(nèi)大模型已具備一定優(yōu)勢

,ChatGLM、文心一言等多個大模型已超越GPT4;GPT4文心一言ChatGLM?

GPT4處于領(lǐng)先地位

,大模型整體建模

能力處于較低水平

,有較大提升空間;?

文心一言能力最佳

,與GPT4、

Mistral構(gòu)成第一梯隊

,但整體水平偏弱;文心一言GPT4MISTRAL通義千問文心一言MISTRAL?

國內(nèi)大模型保持領(lǐng)先

,性能最佳大模型

已經(jīng)能夠較完善地完成文本總結(jié)任務(wù);?

大模型在觀點分析上處于及格水平

,還存在明顯提升空間;百川3星火3.5Yi>

各場景第一梯隊與點評第一梯隊

點評?

GPT4和文心一言在代碼理解領(lǐng)域較為

領(lǐng)先

,具有一定優(yōu)勢

,其他大模型仍有

較大提升空間。六、

總體評價與后續(xù)規(guī)劃代碼理解知識問答工程建模數(shù)據(jù)分析文檔生成

要點總結(jié)文檔生成

觀點分析場景成熟度.大模型在文檔生成領(lǐng)域應(yīng)用成熟度較高

,在工業(yè)知識問答、數(shù)據(jù)分析、工程建模、代碼理解場景應(yīng)用成熟度相對較低;.國內(nèi)外大模型在文檔生成、數(shù)據(jù)分析、代碼理解場景準(zhǔn)確度差異較大。行業(yè)知識掌握.大模型在鋼鐵、

電力等行業(yè)有較好的知識儲備

,對于紡織、裝備制造等行業(yè)仍需加強(qiáng)訓(xùn)練;.國內(nèi)大模型在建材、采礦等行業(yè)優(yōu)勢顯著

,在裝備制造、化工等行業(yè)與國際接近。發(fā)展趨勢.GPT4仍處于領(lǐng)先地位;.近半年國內(nèi)大模型能力顯著提升

,與GPT4差距不斷縮小,

部分場景應(yīng)用能力已趕超。面向工業(yè)應(yīng)用開展行業(yè)大模型測評工作

,在重點領(lǐng)域遴選推廣一批優(yōu)秀的行業(yè)大模型。面向大模型當(dāng)前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論