人工智能大模型體驗(yàn)報(bào)告2.0_第1頁(yè)
人工智能大模型體驗(yàn)報(bào)告2.0_第2頁(yè)
人工智能大模型體驗(yàn)報(bào)告2.0_第3頁(yè)
人工智能大模型體驗(yàn)報(bào)告2.0_第4頁(yè)
人工智能大模型體驗(yàn)報(bào)告2.0_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能大模型體驗(yàn)報(bào)告2.0

中國(guó)企業(yè)發(fā)展研究中?

新華社研究院中國(guó)企業(yè)發(fā)展研究中心

新華社國(guó)家?端智庫(kù)分中?

2023年08月

1

報(bào)告綜述

在2023年6月首次發(fā)布的《人工智能大模型體驗(yàn)報(bào)告》基礎(chǔ)之上,本次測(cè)評(píng)在題目設(shè)計(jì)、對(duì)標(biāo)Benchmark

(人類(lèi))、打分權(quán)重、專(zhuān)家測(cè)評(píng)團(tuán)隊(duì)四大維度進(jìn)行了全面升級(jí)。在題目設(shè)計(jì)方面,測(cè)評(píng)題目由300道擴(kuò)展至500道,

并進(jìn)一步完善了題目分類(lèi);在對(duì)標(biāo)Benchmark方面,本次測(cè)評(píng)將接受過(guò)高等教育的人類(lèi)作為對(duì)照,來(lái)考評(píng)大模型

真實(shí)能力;在打分標(biāo)準(zhǔn)上,本次測(cè)評(píng)根據(jù)對(duì)產(chǎn)業(yè)、生活的實(shí)際價(jià)值,對(duì)四大測(cè)評(píng)維度進(jìn)行了權(quán)重設(shè)計(jì);在測(cè)評(píng)團(tuán)

隊(duì)方面,本次測(cè)評(píng)特邀北京大學(xué)文化與傳播研究所及其他業(yè)界、學(xué)界專(zhuān)家全程參與。

通過(guò)本次測(cè)評(píng)發(fā)現(xiàn),與2023年6月相比,當(dāng)前中國(guó)大模型產(chǎn)品進(jìn)步顯著。但與接受過(guò)高等教育的人類(lèi)相比,

大模型在智商、情商等方面還存在一定程度差距。具體來(lái)看,科大訊飛的星火在工作提效方面優(yōu)勢(shì)明顯;百度文

心一言地基深厚、基礎(chǔ)能力仍處領(lǐng)軍水準(zhǔn);商湯商量則在情商方面表現(xiàn)優(yōu)秀;智譜AI的ChatGLM整體表現(xiàn)優(yōu)秀。

在本次體驗(yàn)測(cè)評(píng)的基礎(chǔ)上,研究團(tuán)隊(duì)將繼續(xù)深耕,加強(qiáng)在大模型安全可解釋性、工作提效能力、實(shí)際落地情

況、產(chǎn)業(yè)優(yōu)秀案例等維度上的探索與研究,歡迎持續(xù)關(guān)注。

2

01大模型市場(chǎng)綜述

目錄

目錄?大模型發(fā)展進(jìn)程

?大模型應(yīng)用發(fā)展建議

?大模型未來(lái)發(fā)展趨勢(shì)

?2.0版本大模型測(cè)評(píng)規(guī)則

02大模型廠商整體測(cè)評(píng)2.0版本

?2.0版本大模型綜合指數(shù)

?2.0版本測(cè)評(píng)細(xì)分維度指數(shù)及評(píng)述

03廠商優(yōu)秀答案展示

?大模型2.0版本測(cè)評(píng)題目展示

3

01.大模型成為AI大規(guī)模落地拐點(diǎn)

4

大模型發(fā)展進(jìn)程

中國(guó)大模型發(fā)展現(xiàn)狀

大模型發(fā)展進(jìn)程通用大模型應(yīng)用垂直大模型應(yīng)用

360智腦-360----教育----

WAI-微盟子曰-有道

中國(guó)大模型發(fā)展熱度依舊,天眼查數(shù)據(jù)顯示,截至2023年WPSAI-金山辦公

----金融----

上半年,與“大模型”直接相關(guān)的融資事件超20起,其中超擬人大模型-聆心智能

赤兔-容聯(lián)運(yùn)ChatABC-中農(nóng)行

包含光年之外、面壁智能等明星級(jí)創(chuàng)業(yè)企業(yè);從被投企業(yè)混元-騰訊

----媒體----

的地域分布來(lái)看,北京、上海以及杭州位居前列,特別是九天-中國(guó)移動(dòng)

源-浪潮Baker-GPT-標(biāo)貝科技

北京,融資事件數(shù)量超10起,凸顯出北京在人工智能領(lǐng)域

盤(pán)古-華為Graph-AIGC-圖宇宙

的領(lǐng)先地位。越來(lái)越多的企業(yè)和學(xué)術(shù)界開(kāi)始關(guān)注如何將大日日新-商湯

----汽車(chē)----

模型與實(shí)際應(yīng)用場(chǎng)景相結(jié)合,實(shí)現(xiàn)真正的商業(yè)化應(yīng)用。具天工-昆侖萬(wàn)維

天書(shū)-云天勵(lì)飛DriveGPT-毫末智行

體來(lái)說(shuō)探索主要圍繞研究層面和應(yīng)用層面:通義千問(wèn)-阿里云

----醫(yī)療----

?研究層面,中國(guó)大模型在科研方面已形成涵蓋理論、文心一言-百度

西湖-西湖心辰HealthGPT-叮當(dāng)

方法、軟硬件的體系化能力,學(xué)術(shù)界和產(chǎn)業(yè)界共同參

星河-中國(guó)電信medGPT-醫(yī)聯(lián)

與,形成更加完善的理論框架。星火-科大訊飛左醫(yī)GPT-左手醫(yī)生

?應(yīng)用層面,目前大模型已開(kāi)始滲透到各行各業(yè),實(shí)現(xiàn)序列猴子-出門(mén)問(wèn)問(wèn)

玉顏、丹青-網(wǎng)易伏羲----游戲----

商業(yè)化應(yīng)用。超過(guò)半數(shù)的大模型實(shí)現(xiàn)開(kāi)源。知海圖-知乎DRL-rctAI

紫東太初-中科院GAEA-超參數(shù)

5

大模型應(yīng)用發(fā)展建議

大模型進(jìn)程過(guò)半,如何讓AI真正走進(jìn)千家萬(wàn)戶(hù)成關(guān)注重點(diǎn)

AI技術(shù)發(fā)展的重點(diǎn)已經(jīng)從大模型的盲目追求轉(zhuǎn)向了實(shí)用性和可持續(xù)性的發(fā)展,AI大規(guī)模落地需要更多時(shí)間來(lái)驗(yàn)證。通過(guò)降低

成本、提高易用性、增強(qiáng)可靠性、保護(hù)隱私和安全等方面的措施,可以進(jìn)一步提高大模型的可用性,讓更多的人受益于AI技

術(shù)的發(fā)展,實(shí)現(xiàn)更加智能化和便捷化的生活。

降低成本提高易用性安全可解釋數(shù)據(jù)安全

?優(yōu)化算法:通過(guò)改進(jìn)和優(yōu)化算法,?用戶(hù)界面設(shè)計(jì):設(shè)計(jì)直觀、易用?提升數(shù)據(jù)質(zhì)量:提高數(shù)據(jù)的質(zhì)量?數(shù)據(jù)加密:對(duì)用戶(hù)個(gè)人數(shù)據(jù)進(jìn)行

可以降低模型的計(jì)算復(fù)雜度,減的用戶(hù)界面,利用自然語(yǔ)言交互和多樣性,加強(qiáng)對(duì)數(shù)據(jù)的清洗、匿名化處理,利用哈希算法、公

少所需的計(jì)算資源和時(shí)間。等技術(shù),降低使用門(mén)檻。處理和擴(kuò)充,以提高訓(xùn)練數(shù)據(jù)的鑰加密等技術(shù)加密技術(shù)保護(hù)數(shù)據(jù)

?開(kāi)發(fā)工具和平臺(tái):提供簡(jiǎn)單易用質(zhì)量和完整性。的傳輸和存儲(chǔ)。

?分布式訓(xùn)練:分布式訓(xùn)練是一種

的開(kāi)發(fā)工具和平臺(tái),例如智能代?魯棒性增強(qiáng):提高模型的魯棒性,?訪(fǎng)問(wèn)控制和身份認(rèn)證:建立嚴(yán)格

技術(shù),可以將訓(xùn)練任務(wù)分配到多

碼生成、自動(dòng)化模型訓(xùn)練等工具,使其更好地應(yīng)對(duì)各種異常情況和的訪(fǎng)問(wèn)控制機(jī)制和身份認(rèn)證體系,

個(gè)計(jì)算節(jié)點(diǎn)上并行處理,從而加

使非專(zhuān)業(yè)人士也能夠輕松上手。邊緣情況,減少錯(cuò)誤和漏洞。包確保只有經(jīng)過(guò)授權(quán)的用戶(hù)才能訪(fǎng)

速訓(xùn)練過(guò)程。

?服務(wù)支持:提供相關(guān)的培訓(xùn)和教括數(shù)據(jù)增強(qiáng)、引入噪聲、使用防問(wèn)和使用數(shù)據(jù)。使用角色分配、

?

模型壓縮:通過(guò)減少模型的參數(shù)育資源,幫助用戶(hù)了解AI技術(shù)的御性編程等技術(shù)。權(quán)限控制等技術(shù)實(shí)現(xiàn)訪(fǎng)問(wèn)控制。

數(shù)量、裁剪模型的結(jié)構(gòu)或使用低

原理和應(yīng)用場(chǎng)景,加強(qiáng)運(yùn)營(yíng)和推?持續(xù)監(jiān)控和升級(jí):及時(shí)發(fā)現(xiàn)和修?安全審計(jì)和監(jiān)控:建立健全機(jī)制,

精度計(jì)算等方法,來(lái)減小模型的廣,形成數(shù)據(jù)-技術(shù)-用戶(hù)-數(shù)據(jù)反復(fù)模型的問(wèn)題和缺陷。建立監(jiān)控使用安全日志對(duì)AI應(yīng)用的安全性

存儲(chǔ)空間和計(jì)算復(fù)雜度。

饋的正向閉環(huán)。系統(tǒng)、進(jìn)行性能測(cè)試等技術(shù)。進(jìn)行定期檢查和評(píng)估。

6

大模型未來(lái)發(fā)展趨勢(shì)

未來(lái)已來(lái),大模型概念紅利逐漸消失,回歸到實(shí)際應(yīng)用

持續(xù)加強(qiáng)算力基礎(chǔ)設(shè)施建設(shè)

構(gòu)建完整的數(shù)據(jù)中心,擴(kuò)大算力設(shè)施規(guī)模,提升算力使用效率,實(shí)現(xiàn)

算力的集中化、高效化供給

跨領(lǐng)域知識(shí)、多模態(tài)數(shù)據(jù)融合

打造綜合性的知識(shí)體系,打通多模態(tài)數(shù)據(jù)之間的溝通壁壘。多技術(shù)、

多數(shù)據(jù)融合,一體化的解決方案逐漸產(chǎn)生化學(xué)效應(yīng)

安全可靠的大模型產(chǎn)品應(yīng)用正成為深耕方向

安全可解釋的大模型是AI大規(guī)模落地的必要條件之一,通過(guò)AI算法模

型進(jìn)行行為分析等提前預(yù)警風(fēng)險(xiǎn),提高模型魯棒性等需要持續(xù)深耕

大模型走向?qū)嶓w經(jīng)濟(jì),商業(yè)化路徑逐漸明晰

從技術(shù)概念到實(shí)際落地,已有部分大模型應(yīng)用出現(xiàn),以產(chǎn)品或服務(wù)的

方式進(jìn)行商業(yè)化的路徑已經(jīng)逐漸開(kāi)始試點(diǎn)

大模型更加注重在線(xiàn)學(xué)習(xí)和增量學(xué)習(xí)

探索模型無(wú)監(jiān)督學(xué)習(xí),在不斷接收新數(shù)據(jù)的過(guò)程中進(jìn)行自主學(xué)習(xí)和升

級(jí),從而提高模型的學(xué)習(xí)效率和適應(yīng)能力以及遷移性

7

測(cè)評(píng)規(guī)則

2.0版本評(píng)測(cè)規(guī)則(1/2)

經(jīng)過(guò)對(duì)大模型評(píng)測(cè)1.0版本的打磨和沉淀,新華社研究院中國(guó)企業(yè)發(fā)展研究中心推出大模型評(píng)測(cè)2.0版本。主要升級(jí)方向包括:

1.引入Benchmark-人類(lèi)答案做對(duì)比(組建專(zhuān)家團(tuán)隊(duì),利用開(kāi)卷考試的方式進(jìn)行問(wèn)答),更加直觀觀測(cè)AI模型與人之間的差異;

2.題目數(shù)量由300道擴(kuò)充到500道,在題庫(kù)中隨機(jī)篩選題目,使結(jié)果更加客觀;

3.根據(jù)目前市場(chǎng)情況,增加二級(jí)分類(lèi)權(quán)重,并細(xì)化二級(jí)分類(lèi),側(cè)重考察產(chǎn)品的基礎(chǔ)能力和智商部分,更符合市場(chǎng)進(jìn)程;

4.專(zhuān)家團(tuán)隊(duì)升級(jí),專(zhuān)家團(tuán)隊(duì)成員涵蓋高校教授、行業(yè)專(zhuān)家、企業(yè)CEO、自媒體創(chuàng)始人等,在打分過(guò)程中打亂問(wèn)題,采用背靠背

的打分形式,進(jìn)一步增強(qiáng)打分結(jié)果權(quán)威性。

本次測(cè)評(píng)大模型評(píng)測(cè)維度:

?基礎(chǔ)能力(共150題):考察產(chǎn)品的語(yǔ)言能力、跨模態(tài)能力以及AI向善的引導(dǎo)能力,新增多輪對(duì)話(huà)能力。

?智商測(cè)試(共125題):涵蓋常識(shí)知識(shí)、專(zhuān)業(yè)知識(shí)、邏輯能力三大項(xiàng)。其中專(zhuān)業(yè)知識(shí)包括數(shù)學(xué)、物理、金融、文學(xué)等

10+項(xiàng)細(xì)分,邏輯能力則包括推理能力、歸納能力以及總結(jié)等6項(xiàng)維度。邏輯推理能力權(quán)重增高,并明確封閉式問(wèn)題打

分規(guī)則。

?情商測(cè)試(共75題):衡量產(chǎn)品個(gè)體情感能力。包括自我認(rèn)知、自我調(diào)節(jié)、社交意識(shí)、人際關(guān)系管理等方面,本次情

商測(cè)試圍繞不同場(chǎng)景下的突發(fā)狀況、溝通技巧、情緒管理等展開(kāi),并引入專(zhuān)家?guī)椭u(píng)估答案。

?工具提效能力(共150題):將二級(jí)維度總結(jié)歸納為工具和創(chuàng)新兩大類(lèi)型,考察產(chǎn)品能否有效幫助相關(guān)人員的工作效率

提升,并為創(chuàng)新提供思路。

8

測(cè)評(píng)規(guī)則

本次評(píng)測(cè)規(guī)則(2/2)

評(píng)測(cè)大模型產(chǎn)品打分規(guī)則

分?jǐn)?shù)開(kāi)放型問(wèn)題封閉式問(wèn)題

360智腦文心一言

問(wèn)題答案較為完美,內(nèi)容可在實(shí)答案正確且有相關(guān)解

5分際場(chǎng)景中直接使用讀

Mchat訊飛星火4分基本可用,可在實(shí)際場(chǎng)景中使用答案正確

調(diào)整可用,但需人工進(jìn)行調(diào)整后答案錯(cuò)誤,但有推理

3分方可使用過(guò)程

天工通義千問(wèn)

大略可用,需要較多人工調(diào)整方

-

2分可使用

商量ChatGLM1分不可用,答非所問(wèn)、語(yǔ)言不通-

答案錯(cuò)誤,沒(méi)有推理

無(wú)法作答

0分過(guò)程

注:本次測(cè)評(píng)時(shí)間為2023年07月31日-2023年8月04日9

02.大模型廠商整體測(cè)評(píng)

10

綜合排名

主流大模型綜合指數(shù)2.0

主流大模型綜合指數(shù)2.0

1200

1000

800

600

400

200

0

人類(lèi)-答案訊飛-星火百度-文心一言商湯-商量智譜-ChatGLM360-360智腦昆侖萬(wàn)維-天工阿里-通義千問(wèn)瀾舟科技-Mchat

總分101410131010983983951943935932

基礎(chǔ)能力193180189182182181166170167

智商能力153147145126147125133120117

情商能力371337342346338338335337340

工具提效297350335329316308309309309

注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果

注2:分?jǐn)?shù)四舍五入取整11

綜合排名

主流大模型綜合指數(shù)2.0解析

本次引入Benchmark結(jié)果對(duì)比更加明確。首先,在基礎(chǔ)能力方面,人類(lèi)與AI之間的差距并不顯著。這是因?yàn)锳I算法模型的開(kāi)發(fā)受到人類(lèi)編程思維

的影響,并且在其開(kāi)發(fā)過(guò)程中充分利用了人類(lèi)的智慧和知識(shí)。在政策的積極引導(dǎo)下,AI在向善和語(yǔ)言能力上表現(xiàn)出色,逐漸接近人類(lèi)專(zhuān)家的水平。值

得關(guān)注的是,大模型的安全可解釋性需要持續(xù)投入,避免不受控制的現(xiàn)象出現(xiàn)。

盡管AI在某些方面能夠達(dá)到或超過(guò)人類(lèi)的水平,但在整體上,人類(lèi)在智商方面仍然具有明顯優(yōu)勢(shì)。人類(lèi)的智商不僅體現(xiàn)在學(xué)習(xí)能力上,更表現(xiàn)在

善用工具和解決問(wèn)題的能力上。盡管一個(gè)人不可能在所有領(lǐng)域都精通,但通過(guò)互聯(lián)網(wǎng)等渠道獲取各方面的信息,進(jìn)行總結(jié)、積累和歸納,從而形成個(gè)

人知識(shí)體系,這是人類(lèi)智商的一個(gè)重要表現(xiàn)。因此,在智商評(píng)估中,人類(lèi)的分?jǐn)?shù)達(dá)到最高。

在情商方面,AI與人類(lèi)之間的差距最為明顯。目前尚未觀察到AI具備情緒感知能力的明顯跡象。相比之下,人類(lèi)在情緒理解和處理方面通常具有

更強(qiáng)的優(yōu)勢(shì)和更靈活的處理能力。人類(lèi)的情感智慧是人類(lèi)智能的重要組成部分,它涉及到人類(lèi)的高級(jí)認(rèn)知和社交能力,AI需要進(jìn)一步發(fā)展感知智能。

最后,在工具效率提升方面,AI對(duì)人類(lèi)提供了有力的支持,AI的處理速度遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)。然而,盡管AI具有高速度和高效率的優(yōu)勢(shì),但在某些復(fù)

雜和具有創(chuàng)新性的任務(wù)中,人類(lèi)的智慧和想象力仍然具有無(wú)法替代的作用。

整體上看,AI大模型的發(fā)展為人類(lèi)工作和生活的提質(zhì)增效均帶來(lái)了正向的積極影響。

12

分模塊測(cè)評(píng)結(jié)果

基礎(chǔ)能力指數(shù)及述評(píng)

在基礎(chǔ)能力部分,百度文心一言表現(xiàn)最為搶眼;商湯商量、智譜AIChatGLM、360智腦表現(xiàn)優(yōu)良;訊飛星火、阿里通

義千問(wèn)、瀾舟科技Mchat、昆侖萬(wàn)維天工表現(xiàn)尚佳。

基礎(chǔ)能力描述AI大模型基礎(chǔ)能力指數(shù)

大模型的基礎(chǔ)能力包括多個(gè)方面,其中最重要的是語(yǔ)言能力。語(yǔ)言是人類(lèi)智慧

的體現(xiàn),也是人工智能系統(tǒng)需要理解和模仿的重要領(lǐng)域。大模型通過(guò)學(xué)習(xí)和訓(xùn)

練,可以理解和生成自然語(yǔ)言文本,并且可以進(jìn)行多語(yǔ)言翻譯和多語(yǔ)言對(duì)話(huà)。

這些語(yǔ)言能力可以幫助大模型在自然語(yǔ)言處理、人機(jī)交互、智能客服等領(lǐng)域發(fā)

揮重要作用。

除了語(yǔ)言能力,大模型還具有AI向善的能力。AI向善是指人工智能系統(tǒng)在運(yùn)行

過(guò)程中,能夠遵循道德和倫理原則,保障人類(lèi)的利益和安全。大模型在設(shè)計(jì)和189

182182

訓(xùn)練時(shí)已經(jīng)融入了這些原則,因此可以保障在應(yīng)用時(shí)遵循AI向善的理念。181180

大模型還具有跨模態(tài)和多輪對(duì)話(huà)能力??缒B(tài)是指在不同模態(tài)之間進(jìn)行轉(zhuǎn)換和170

167166

遷移,例如將圖像轉(zhuǎn)換為文字描述,或者將語(yǔ)音轉(zhuǎn)換為文字。這些能力可以幫

助大模型在自動(dòng)駕駛、智能家居等領(lǐng)域應(yīng)用時(shí)更好地理解和處理不同模態(tài)的信

息。多輪對(duì)話(huà)能力則是指大模型可以在多個(gè)對(duì)話(huà)回合中保持連續(xù)性和邏輯性,

-商量智腦-星火-天工

-Mchat

文心一言360通義千問(wèn)

從而完成更復(fù)雜的任務(wù)和問(wèn)題解答。-商湯-ChatGLM訊飛-

AI

百度阿里昆侖萬(wàn)維

權(quán)重占比:語(yǔ)言能力(35%)、AI向善(10%)、跨模態(tài)(20%)、多輪對(duì)話(huà)智譜瀾舟科技

(35%)

注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果

注2:分?jǐn)?shù)四舍五入取整13

分模塊測(cè)評(píng)結(jié)果

智商指數(shù)及述評(píng)

在智商部分,訊飛星火、智譜AI-ChatGLM并列第一;百度文心一言、昆侖萬(wàn)維天工表現(xiàn)優(yōu)良;商湯商量、360智腦、

阿里通義千問(wèn)、瀾舟科技MChat表現(xiàn)尚佳。

智商指標(biāo)描述AI大模型智商指數(shù)

課題組認(rèn)為,大模型的智商考察可以從三個(gè)方面進(jìn)行評(píng)估,包括常識(shí)知識(shí)、邏

輯能力和專(zhuān)業(yè)知識(shí)。

常識(shí)知識(shí)是指大模型需要具備對(duì)世界、人類(lèi)社會(huì)和文化的基本信息認(rèn)知。具備

這些常識(shí)知識(shí),大模型可以更好地理解人類(lèi)語(yǔ)言和行為,并且在各種場(chǎng)景下做

出正確的推理和決策。

147147145

其次,邏輯能力是大模型不可或缺的能力之一。它使大模型在處理復(fù)雜問(wèn)題時(shí)

133

能夠提供更嚴(yán)謹(jǐn)?shù)乃季S邏輯和更強(qiáng)大的分析決策能力,從而推動(dòng)人工智能從認(rèn)126125

120

知走向感知。117

最后,專(zhuān)業(yè)知識(shí)是指大模型需要具備特定領(lǐng)域的專(zhuān)業(yè)知識(shí)和技能。例如,在醫(yī)

療領(lǐng)域,大模型需要了解醫(yī)學(xué)知識(shí)和診斷技能;在法律領(lǐng)域,需要了解法律知

識(shí)和法律推理能力。這些專(zhuān)業(yè)知識(shí)有助于大模型在特定領(lǐng)域中進(jìn)行更準(zhǔn)確、高

-星火-天工-商量智腦

-Mchat

文心一言360通義千問(wèn)

效的問(wèn)題處理。訊飛-ChatGLM-商湯-

AI

百度昆侖萬(wàn)維阿里

權(quán)重占比:常識(shí)知識(shí)(20%)、邏輯能力(50%)、專(zhuān)業(yè)知識(shí)(30%)智譜瀾舟科技

注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果

注2:分?jǐn)?shù)四舍五入取整14

分模塊測(cè)評(píng)結(jié)果

情商指數(shù)及述評(píng)

情商部分,商湯商量、百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM表現(xiàn)優(yōu)良;360智腦、訊飛星火、阿里通義

千問(wèn)、昆侖萬(wàn)維天工表現(xiàn)尚佳。

情商指標(biāo)描述AI大模型情商指數(shù)

大模型的情商考察是指對(duì)其在情感和人際交往方面的表現(xiàn)進(jìn)行評(píng)估,其中包括

日常尷尬事項(xiàng)的反饋、面對(duì)一語(yǔ)雙關(guān)問(wèn)題的處理以及人際關(guān)系相處難題等方面,

包括與朋友、家人、同事等在各種場(chǎng)景下的交往問(wèn)題。

具體來(lái)說(shuō),日常尷尬事項(xiàng)的反饋是指大模型在處理一些尷尬或者棘手的問(wèn)題時(shí),

能否給出合適的回答或者解決方案。例如,當(dāng)被人問(wèn)到一些私人或者敏感的問(wèn)

題時(shí),大模型需要具備足夠的情商和應(yīng)變能力,避免造成不必要的尷尬和誤解。346

由于中國(guó)語(yǔ)言博大精深,在日常溝通交流過(guò)程中常常有一語(yǔ)雙關(guān)的情況出現(xiàn),342

340

需要大模型理解并應(yīng)對(duì)實(shí)際問(wèn)題,通過(guò)敏銳的洞察力、判斷力以及感知能力等,338338

337337

準(zhǔn)確地理解當(dāng)下環(huán)境和詞語(yǔ)意思。335

另一方面,人際關(guān)系相處難題是指大模型在與人類(lèi)進(jìn)行交互時(shí),能否幫助人類(lèi)

處理好各種人際關(guān)系問(wèn)題,例如與他人的沖突解決、情感交流、同理心表達(dá)等

-商量智腦-星火-天工

等。這些問(wèn)題的處理需要大模型具備高超的人際交往能力和情商,以建立和維-Mchat

文心一言360通義千問(wèn)

商湯--ChatGLM訊飛-

AI

護(hù)良好的人際關(guān)系。百度阿里昆侖萬(wàn)維

瀾舟科技

權(quán)重占比:日常事項(xiàng)(35%)、一語(yǔ)雙關(guān)(30%)、人際關(guān)系(35%)智譜

注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果

注2:分?jǐn)?shù)四舍五入取整15

分模塊測(cè)評(píng)結(jié)果

工具提效指數(shù)及述評(píng)

在工作提效部分,訊飛星火、百度文心一言、商湯商量、智譜AI-ChatGLM表現(xiàn)優(yōu)良;昆侖萬(wàn)維天工、阿里通義千問(wèn)、

瀾舟科技Mchat、360智腦表現(xiàn)尚佳。

工具提效指標(biāo)描述AI大模型工具提效指數(shù)

大模型的工作提效考察通常包括兩個(gè)方面:工具和創(chuàng)新。

工具提效是指大模型是否能夠提供有效的工具來(lái)提高工作效率。這些工具可以

包括代碼自動(dòng)生成、數(shù)據(jù)自動(dòng)分析和可視化工具、自然語(yǔ)言處理、文件整理、

關(guān)鍵內(nèi)容總結(jié)整合和機(jī)器翻譯工具等。具備這些工具的大模型可以幫助人們更

350

快地完成工作任務(wù),提高工作效率,也是大模型最先落地的方向之一。335

329

生成創(chuàng)新方面是指大模型是否能夠提供新的思路和方法,推動(dòng)工作方式的改進(jìn)316

309309309308

和升級(jí)。這些創(chuàng)新可以包括新的業(yè)務(wù)流程、選題的創(chuàng)新、內(nèi)容的創(chuàng)新等。AIGC

能力能夠幫助人們打破傳統(tǒng)的工作方式,推動(dòng)工作效率提升。

-星火-商量-天工智腦

-Mchat

權(quán)重占比:工具提效(50%)、生成創(chuàng)新(50%)文心一言通義千問(wèn)360

訊飛-商湯-ChatGLM-

AI

百度昆侖萬(wàn)維阿里

智譜瀾舟科技

注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果

注2:分?jǐn)?shù)四舍五入取整16

03.廠商優(yōu)秀答案展示

17

各家優(yōu)秀答案展示

科大訊飛-星火

“訊飛星火認(rèn)知大模型”是科大訊飛推出的新一代認(rèn)知智能大模型,具有7大核心能力,即文本生成、語(yǔ)言理解、知

識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力、代碼能力、多模態(tài)能力。擁有跨領(lǐng)域的知識(shí)和語(yǔ)言理解能力,能夠基于自然對(duì)話(huà)方式

理解與執(zhí)行任務(wù)。從海量數(shù)據(jù)和大規(guī)模知識(shí)中持續(xù)進(jìn)化,實(shí)現(xiàn)從提出、規(guī)劃到解決問(wèn)題的全流程閉環(huán)。

最佳案例展示

答案1:康復(fù)工程是應(yīng)用現(xiàn)代工程學(xué)的原理和方法,恢復(fù)、代償或重建

患者功能的科學(xué)。包括康復(fù)評(píng)定設(shè)備的研制、功能恢復(fù)訓(xùn)練器械的研

制、功能代償性用品(如:假肢、矯形器、輪椅、助行器、自助具等)的

問(wèn)題1:什么是康復(fù)工程?研制、功能重建性用品(如人工喉等)的研制、康復(fù)工程材料(如人工關(guān)

節(jié)等)的研制、裝飾性假器官(如人工眼)的研制等。

入選原因:答案科學(xué)詳盡。

答案2:"Haveonefootinthegrave"是一個(gè)英語(yǔ)習(xí)語(yǔ),直譯為“一

只腳已經(jīng)踏入墳?zāi)埂?。這個(gè)習(xí)語(yǔ)用來(lái)形容一個(gè)人在面臨嚴(yán)重困境、危

機(jī)或失敗時(shí)的狀態(tài)。換句話(huà)說(shuō),這個(gè)人可能已經(jīng)失去了一切,甚至可

問(wèn)題2:翻譯:Haveonefootinthegrave

能面臨死亡。這個(gè)表達(dá)通常帶有負(fù)面的含義,表示某人陷入了無(wú)法挽

回的境地。

入選原因:解釋詳盡、拓展分析更便于理解。

18

各家優(yōu)秀答案展示

百度-文心一言

文心一言是百度打造出的人工智能大語(yǔ)言模型,具備跨模態(tài)、跨語(yǔ)言的深度語(yǔ)義理解與生成能力,文心一言有五大

能力,包括文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。其在搜索問(wèn)答、內(nèi)容創(chuàng)作生成、智能

辦公等眾多領(lǐng)域都有更廣闊的想象空間。

最佳案例展示

答案1:"感謝這段難得的時(shí)光,讓我遇見(jiàn)了最好的自己。""畢業(yè)不是結(jié)束,而是新的開(kāi)始,我會(huì)

永遠(yuǎn)懷念這段美好的校園生活。""母校,謝謝你給了我這段難忘的回憶,我會(huì)牢記心中。""畢業(yè)

之際,我感慨良多,但更多的是對(duì)未來(lái)的期待與憧憬。""學(xué)校,再見(jiàn),我會(huì)回來(lái);同學(xué),再見(jiàn),

我會(huì)想念。""這段青澀的青春,我會(huì)永遠(yuǎn)珍藏在我的心中。""畢業(yè)證書(shū)上的文字,是對(duì)我學(xué)生生

問(wèn)題1:提供十個(gè)畢業(yè)感言

涯的最好注解。""母校,你給了我無(wú)數(shù)的機(jī)會(huì),我會(huì)銘記在心。""我畢業(yè)了,但我的學(xué)習(xí)之路才

剛剛開(kāi)始。""謝謝所有的老師、同學(xué)和朋友們,讓我擁有這段難忘的時(shí)光?!?/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論