版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能大模型體驗(yàn)報(bào)告2.0
中國(guó)企業(yè)發(fā)展研究中?
新華社研究院中國(guó)企業(yè)發(fā)展研究中心
新華社國(guó)家?端智庫(kù)分中?
2023年08月
1
報(bào)告綜述
在2023年6月首次發(fā)布的《人工智能大模型體驗(yàn)報(bào)告》基礎(chǔ)之上,本次測(cè)評(píng)在題目設(shè)計(jì)、對(duì)標(biāo)Benchmark
(人類(lèi))、打分權(quán)重、專(zhuān)家測(cè)評(píng)團(tuán)隊(duì)四大維度進(jìn)行了全面升級(jí)。在題目設(shè)計(jì)方面,測(cè)評(píng)題目由300道擴(kuò)展至500道,
并進(jìn)一步完善了題目分類(lèi);在對(duì)標(biāo)Benchmark方面,本次測(cè)評(píng)將接受過(guò)高等教育的人類(lèi)作為對(duì)照,來(lái)考評(píng)大模型
真實(shí)能力;在打分標(biāo)準(zhǔn)上,本次測(cè)評(píng)根據(jù)對(duì)產(chǎn)業(yè)、生活的實(shí)際價(jià)值,對(duì)四大測(cè)評(píng)維度進(jìn)行了權(quán)重設(shè)計(jì);在測(cè)評(píng)團(tuán)
隊(duì)方面,本次測(cè)評(píng)特邀北京大學(xué)文化與傳播研究所及其他業(yè)界、學(xué)界專(zhuān)家全程參與。
通過(guò)本次測(cè)評(píng)發(fā)現(xiàn),與2023年6月相比,當(dāng)前中國(guó)大模型產(chǎn)品進(jìn)步顯著。但與接受過(guò)高等教育的人類(lèi)相比,
大模型在智商、情商等方面還存在一定程度差距。具體來(lái)看,科大訊飛的星火在工作提效方面優(yōu)勢(shì)明顯;百度文
心一言地基深厚、基礎(chǔ)能力仍處領(lǐng)軍水準(zhǔn);商湯商量則在情商方面表現(xiàn)優(yōu)秀;智譜AI的ChatGLM整體表現(xiàn)優(yōu)秀。
在本次體驗(yàn)測(cè)評(píng)的基礎(chǔ)上,研究團(tuán)隊(duì)將繼續(xù)深耕,加強(qiáng)在大模型安全可解釋性、工作提效能力、實(shí)際落地情
況、產(chǎn)業(yè)優(yōu)秀案例等維度上的探索與研究,歡迎持續(xù)關(guān)注。
2
01大模型市場(chǎng)綜述
目錄
目錄?大模型發(fā)展進(jìn)程
?大模型應(yīng)用發(fā)展建議
?大模型未來(lái)發(fā)展趨勢(shì)
?2.0版本大模型測(cè)評(píng)規(guī)則
02大模型廠商整體測(cè)評(píng)2.0版本
?2.0版本大模型綜合指數(shù)
?2.0版本測(cè)評(píng)細(xì)分維度指數(shù)及評(píng)述
03廠商優(yōu)秀答案展示
?大模型2.0版本測(cè)評(píng)題目展示
3
01.大模型成為AI大規(guī)模落地拐點(diǎn)
4
大模型發(fā)展進(jìn)程
中國(guó)大模型發(fā)展現(xiàn)狀
大模型發(fā)展進(jìn)程通用大模型應(yīng)用垂直大模型應(yīng)用
360智腦-360----教育----
WAI-微盟子曰-有道
中國(guó)大模型發(fā)展熱度依舊,天眼查數(shù)據(jù)顯示,截至2023年WPSAI-金山辦公
----金融----
上半年,與“大模型”直接相關(guān)的融資事件超20起,其中超擬人大模型-聆心智能
赤兔-容聯(lián)運(yùn)ChatABC-中農(nóng)行
包含光年之外、面壁智能等明星級(jí)創(chuàng)業(yè)企業(yè);從被投企業(yè)混元-騰訊
----媒體----
的地域分布來(lái)看,北京、上海以及杭州位居前列,特別是九天-中國(guó)移動(dòng)
源-浪潮Baker-GPT-標(biāo)貝科技
北京,融資事件數(shù)量超10起,凸顯出北京在人工智能領(lǐng)域
盤(pán)古-華為Graph-AIGC-圖宇宙
的領(lǐng)先地位。越來(lái)越多的企業(yè)和學(xué)術(shù)界開(kāi)始關(guān)注如何將大日日新-商湯
----汽車(chē)----
模型與實(shí)際應(yīng)用場(chǎng)景相結(jié)合,實(shí)現(xiàn)真正的商業(yè)化應(yīng)用。具天工-昆侖萬(wàn)維
天書(shū)-云天勵(lì)飛DriveGPT-毫末智行
體來(lái)說(shuō)探索主要圍繞研究層面和應(yīng)用層面:通義千問(wèn)-阿里云
----醫(yī)療----
?研究層面,中國(guó)大模型在科研方面已形成涵蓋理論、文心一言-百度
西湖-西湖心辰HealthGPT-叮當(dāng)
方法、軟硬件的體系化能力,學(xué)術(shù)界和產(chǎn)業(yè)界共同參
星河-中國(guó)電信medGPT-醫(yī)聯(lián)
與,形成更加完善的理論框架。星火-科大訊飛左醫(yī)GPT-左手醫(yī)生
?應(yīng)用層面,目前大模型已開(kāi)始滲透到各行各業(yè),實(shí)現(xiàn)序列猴子-出門(mén)問(wèn)問(wèn)
玉顏、丹青-網(wǎng)易伏羲----游戲----
商業(yè)化應(yīng)用。超過(guò)半數(shù)的大模型實(shí)現(xiàn)開(kāi)源。知海圖-知乎DRL-rctAI
紫東太初-中科院GAEA-超參數(shù)
5
大模型應(yīng)用發(fā)展建議
大模型進(jìn)程過(guò)半,如何讓AI真正走進(jìn)千家萬(wàn)戶(hù)成關(guān)注重點(diǎn)
AI技術(shù)發(fā)展的重點(diǎn)已經(jīng)從大模型的盲目追求轉(zhuǎn)向了實(shí)用性和可持續(xù)性的發(fā)展,AI大規(guī)模落地需要更多時(shí)間來(lái)驗(yàn)證。通過(guò)降低
成本、提高易用性、增強(qiáng)可靠性、保護(hù)隱私和安全等方面的措施,可以進(jìn)一步提高大模型的可用性,讓更多的人受益于AI技
術(shù)的發(fā)展,實(shí)現(xiàn)更加智能化和便捷化的生活。
降低成本提高易用性安全可解釋數(shù)據(jù)安全
?優(yōu)化算法:通過(guò)改進(jìn)和優(yōu)化算法,?用戶(hù)界面設(shè)計(jì):設(shè)計(jì)直觀、易用?提升數(shù)據(jù)質(zhì)量:提高數(shù)據(jù)的質(zhì)量?數(shù)據(jù)加密:對(duì)用戶(hù)個(gè)人數(shù)據(jù)進(jìn)行
可以降低模型的計(jì)算復(fù)雜度,減的用戶(hù)界面,利用自然語(yǔ)言交互和多樣性,加強(qiáng)對(duì)數(shù)據(jù)的清洗、匿名化處理,利用哈希算法、公
少所需的計(jì)算資源和時(shí)間。等技術(shù),降低使用門(mén)檻。處理和擴(kuò)充,以提高訓(xùn)練數(shù)據(jù)的鑰加密等技術(shù)加密技術(shù)保護(hù)數(shù)據(jù)
?開(kāi)發(fā)工具和平臺(tái):提供簡(jiǎn)單易用質(zhì)量和完整性。的傳輸和存儲(chǔ)。
?分布式訓(xùn)練:分布式訓(xùn)練是一種
的開(kāi)發(fā)工具和平臺(tái),例如智能代?魯棒性增強(qiáng):提高模型的魯棒性,?訪(fǎng)問(wèn)控制和身份認(rèn)證:建立嚴(yán)格
技術(shù),可以將訓(xùn)練任務(wù)分配到多
碼生成、自動(dòng)化模型訓(xùn)練等工具,使其更好地應(yīng)對(duì)各種異常情況和的訪(fǎng)問(wèn)控制機(jī)制和身份認(rèn)證體系,
個(gè)計(jì)算節(jié)點(diǎn)上并行處理,從而加
使非專(zhuān)業(yè)人士也能夠輕松上手。邊緣情況,減少錯(cuò)誤和漏洞。包確保只有經(jīng)過(guò)授權(quán)的用戶(hù)才能訪(fǎng)
速訓(xùn)練過(guò)程。
?服務(wù)支持:提供相關(guān)的培訓(xùn)和教括數(shù)據(jù)增強(qiáng)、引入噪聲、使用防問(wèn)和使用數(shù)據(jù)。使用角色分配、
?
模型壓縮:通過(guò)減少模型的參數(shù)育資源,幫助用戶(hù)了解AI技術(shù)的御性編程等技術(shù)。權(quán)限控制等技術(shù)實(shí)現(xiàn)訪(fǎng)問(wèn)控制。
數(shù)量、裁剪模型的結(jié)構(gòu)或使用低
原理和應(yīng)用場(chǎng)景,加強(qiáng)運(yùn)營(yíng)和推?持續(xù)監(jiān)控和升級(jí):及時(shí)發(fā)現(xiàn)和修?安全審計(jì)和監(jiān)控:建立健全機(jī)制,
精度計(jì)算等方法,來(lái)減小模型的廣,形成數(shù)據(jù)-技術(shù)-用戶(hù)-數(shù)據(jù)反復(fù)模型的問(wèn)題和缺陷。建立監(jiān)控使用安全日志對(duì)AI應(yīng)用的安全性
存儲(chǔ)空間和計(jì)算復(fù)雜度。
饋的正向閉環(huán)。系統(tǒng)、進(jìn)行性能測(cè)試等技術(shù)。進(jìn)行定期檢查和評(píng)估。
6
大模型未來(lái)發(fā)展趨勢(shì)
未來(lái)已來(lái),大模型概念紅利逐漸消失,回歸到實(shí)際應(yīng)用
持續(xù)加強(qiáng)算力基礎(chǔ)設(shè)施建設(shè)
構(gòu)建完整的數(shù)據(jù)中心,擴(kuò)大算力設(shè)施規(guī)模,提升算力使用效率,實(shí)現(xiàn)
算力的集中化、高效化供給
跨領(lǐng)域知識(shí)、多模態(tài)數(shù)據(jù)融合
打造綜合性的知識(shí)體系,打通多模態(tài)數(shù)據(jù)之間的溝通壁壘。多技術(shù)、
多數(shù)據(jù)融合,一體化的解決方案逐漸產(chǎn)生化學(xué)效應(yīng)
安全可靠的大模型產(chǎn)品應(yīng)用正成為深耕方向
安全可解釋的大模型是AI大規(guī)模落地的必要條件之一,通過(guò)AI算法模
型進(jìn)行行為分析等提前預(yù)警風(fēng)險(xiǎn),提高模型魯棒性等需要持續(xù)深耕
大模型走向?qū)嶓w經(jīng)濟(jì),商業(yè)化路徑逐漸明晰
從技術(shù)概念到實(shí)際落地,已有部分大模型應(yīng)用出現(xiàn),以產(chǎn)品或服務(wù)的
方式進(jìn)行商業(yè)化的路徑已經(jīng)逐漸開(kāi)始試點(diǎn)
大模型更加注重在線(xiàn)學(xué)習(xí)和增量學(xué)習(xí)
探索模型無(wú)監(jiān)督學(xué)習(xí),在不斷接收新數(shù)據(jù)的過(guò)程中進(jìn)行自主學(xué)習(xí)和升
級(jí),從而提高模型的學(xué)習(xí)效率和適應(yīng)能力以及遷移性
7
測(cè)評(píng)規(guī)則
2.0版本評(píng)測(cè)規(guī)則(1/2)
經(jīng)過(guò)對(duì)大模型評(píng)測(cè)1.0版本的打磨和沉淀,新華社研究院中國(guó)企業(yè)發(fā)展研究中心推出大模型評(píng)測(cè)2.0版本。主要升級(jí)方向包括:
1.引入Benchmark-人類(lèi)答案做對(duì)比(組建專(zhuān)家團(tuán)隊(duì),利用開(kāi)卷考試的方式進(jìn)行問(wèn)答),更加直觀觀測(cè)AI模型與人之間的差異;
2.題目數(shù)量由300道擴(kuò)充到500道,在題庫(kù)中隨機(jī)篩選題目,使結(jié)果更加客觀;
3.根據(jù)目前市場(chǎng)情況,增加二級(jí)分類(lèi)權(quán)重,并細(xì)化二級(jí)分類(lèi),側(cè)重考察產(chǎn)品的基礎(chǔ)能力和智商部分,更符合市場(chǎng)進(jìn)程;
4.專(zhuān)家團(tuán)隊(duì)升級(jí),專(zhuān)家團(tuán)隊(duì)成員涵蓋高校教授、行業(yè)專(zhuān)家、企業(yè)CEO、自媒體創(chuàng)始人等,在打分過(guò)程中打亂問(wèn)題,采用背靠背
的打分形式,進(jìn)一步增強(qiáng)打分結(jié)果權(quán)威性。
本次測(cè)評(píng)大模型評(píng)測(cè)維度:
?基礎(chǔ)能力(共150題):考察產(chǎn)品的語(yǔ)言能力、跨模態(tài)能力以及AI向善的引導(dǎo)能力,新增多輪對(duì)話(huà)能力。
?智商測(cè)試(共125題):涵蓋常識(shí)知識(shí)、專(zhuān)業(yè)知識(shí)、邏輯能力三大項(xiàng)。其中專(zhuān)業(yè)知識(shí)包括數(shù)學(xué)、物理、金融、文學(xué)等
10+項(xiàng)細(xì)分,邏輯能力則包括推理能力、歸納能力以及總結(jié)等6項(xiàng)維度。邏輯推理能力權(quán)重增高,并明確封閉式問(wèn)題打
分規(guī)則。
?情商測(cè)試(共75題):衡量產(chǎn)品個(gè)體情感能力。包括自我認(rèn)知、自我調(diào)節(jié)、社交意識(shí)、人際關(guān)系管理等方面,本次情
商測(cè)試圍繞不同場(chǎng)景下的突發(fā)狀況、溝通技巧、情緒管理等展開(kāi),并引入專(zhuān)家?guī)椭u(píng)估答案。
?工具提效能力(共150題):將二級(jí)維度總結(jié)歸納為工具和創(chuàng)新兩大類(lèi)型,考察產(chǎn)品能否有效幫助相關(guān)人員的工作效率
提升,并為創(chuàng)新提供思路。
8
測(cè)評(píng)規(guī)則
本次評(píng)測(cè)規(guī)則(2/2)
評(píng)測(cè)大模型產(chǎn)品打分規(guī)則
分?jǐn)?shù)開(kāi)放型問(wèn)題封閉式問(wèn)題
360智腦文心一言
問(wèn)題答案較為完美,內(nèi)容可在實(shí)答案正確且有相關(guān)解
5分際場(chǎng)景中直接使用讀
Mchat訊飛星火4分基本可用,可在實(shí)際場(chǎng)景中使用答案正確
調(diào)整可用,但需人工進(jìn)行調(diào)整后答案錯(cuò)誤,但有推理
3分方可使用過(guò)程
天工通義千問(wèn)
大略可用,需要較多人工調(diào)整方
-
2分可使用
商量ChatGLM1分不可用,答非所問(wèn)、語(yǔ)言不通-
答案錯(cuò)誤,沒(méi)有推理
無(wú)法作答
0分過(guò)程
注:本次測(cè)評(píng)時(shí)間為2023年07月31日-2023年8月04日9
02.大模型廠商整體測(cè)評(píng)
10
綜合排名
主流大模型綜合指數(shù)2.0
主流大模型綜合指數(shù)2.0
1200
1000
800
600
400
200
0
人類(lèi)-答案訊飛-星火百度-文心一言商湯-商量智譜-ChatGLM360-360智腦昆侖萬(wàn)維-天工阿里-通義千問(wèn)瀾舟科技-Mchat
總分101410131010983983951943935932
基礎(chǔ)能力193180189182182181166170167
智商能力153147145126147125133120117
情商能力371337342346338338335337340
工具提效297350335329316308309309309
注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果
注2:分?jǐn)?shù)四舍五入取整11
綜合排名
主流大模型綜合指數(shù)2.0解析
本次引入Benchmark結(jié)果對(duì)比更加明確。首先,在基礎(chǔ)能力方面,人類(lèi)與AI之間的差距并不顯著。這是因?yàn)锳I算法模型的開(kāi)發(fā)受到人類(lèi)編程思維
的影響,并且在其開(kāi)發(fā)過(guò)程中充分利用了人類(lèi)的智慧和知識(shí)。在政策的積極引導(dǎo)下,AI在向善和語(yǔ)言能力上表現(xiàn)出色,逐漸接近人類(lèi)專(zhuān)家的水平。值
得關(guān)注的是,大模型的安全可解釋性需要持續(xù)投入,避免不受控制的現(xiàn)象出現(xiàn)。
盡管AI在某些方面能夠達(dá)到或超過(guò)人類(lèi)的水平,但在整體上,人類(lèi)在智商方面仍然具有明顯優(yōu)勢(shì)。人類(lèi)的智商不僅體現(xiàn)在學(xué)習(xí)能力上,更表現(xiàn)在
善用工具和解決問(wèn)題的能力上。盡管一個(gè)人不可能在所有領(lǐng)域都精通,但通過(guò)互聯(lián)網(wǎng)等渠道獲取各方面的信息,進(jìn)行總結(jié)、積累和歸納,從而形成個(gè)
人知識(shí)體系,這是人類(lèi)智商的一個(gè)重要表現(xiàn)。因此,在智商評(píng)估中,人類(lèi)的分?jǐn)?shù)達(dá)到最高。
在情商方面,AI與人類(lèi)之間的差距最為明顯。目前尚未觀察到AI具備情緒感知能力的明顯跡象。相比之下,人類(lèi)在情緒理解和處理方面通常具有
更強(qiáng)的優(yōu)勢(shì)和更靈活的處理能力。人類(lèi)的情感智慧是人類(lèi)智能的重要組成部分,它涉及到人類(lèi)的高級(jí)認(rèn)知和社交能力,AI需要進(jìn)一步發(fā)展感知智能。
最后,在工具效率提升方面,AI對(duì)人類(lèi)提供了有力的支持,AI的處理速度遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)。然而,盡管AI具有高速度和高效率的優(yōu)勢(shì),但在某些復(fù)
雜和具有創(chuàng)新性的任務(wù)中,人類(lèi)的智慧和想象力仍然具有無(wú)法替代的作用。
整體上看,AI大模型的發(fā)展為人類(lèi)工作和生活的提質(zhì)增效均帶來(lái)了正向的積極影響。
12
分模塊測(cè)評(píng)結(jié)果
基礎(chǔ)能力指數(shù)及述評(píng)
在基礎(chǔ)能力部分,百度文心一言表現(xiàn)最為搶眼;商湯商量、智譜AIChatGLM、360智腦表現(xiàn)優(yōu)良;訊飛星火、阿里通
義千問(wèn)、瀾舟科技Mchat、昆侖萬(wàn)維天工表現(xiàn)尚佳。
基礎(chǔ)能力描述AI大模型基礎(chǔ)能力指數(shù)
大模型的基礎(chǔ)能力包括多個(gè)方面,其中最重要的是語(yǔ)言能力。語(yǔ)言是人類(lèi)智慧
的體現(xiàn),也是人工智能系統(tǒng)需要理解和模仿的重要領(lǐng)域。大模型通過(guò)學(xué)習(xí)和訓(xùn)
練,可以理解和生成自然語(yǔ)言文本,并且可以進(jìn)行多語(yǔ)言翻譯和多語(yǔ)言對(duì)話(huà)。
這些語(yǔ)言能力可以幫助大模型在自然語(yǔ)言處理、人機(jī)交互、智能客服等領(lǐng)域發(fā)
揮重要作用。
除了語(yǔ)言能力,大模型還具有AI向善的能力。AI向善是指人工智能系統(tǒng)在運(yùn)行
過(guò)程中,能夠遵循道德和倫理原則,保障人類(lèi)的利益和安全。大模型在設(shè)計(jì)和189
182182
訓(xùn)練時(shí)已經(jīng)融入了這些原則,因此可以保障在應(yīng)用時(shí)遵循AI向善的理念。181180
大模型還具有跨模態(tài)和多輪對(duì)話(huà)能力??缒B(tài)是指在不同模態(tài)之間進(jìn)行轉(zhuǎn)換和170
167166
遷移,例如將圖像轉(zhuǎn)換為文字描述,或者將語(yǔ)音轉(zhuǎn)換為文字。這些能力可以幫
助大模型在自動(dòng)駕駛、智能家居等領(lǐng)域應(yīng)用時(shí)更好地理解和處理不同模態(tài)的信
息。多輪對(duì)話(huà)能力則是指大模型可以在多個(gè)對(duì)話(huà)回合中保持連續(xù)性和邏輯性,
-商量智腦-星火-天工
-Mchat
文心一言360通義千問(wèn)
從而完成更復(fù)雜的任務(wù)和問(wèn)題解答。-商湯-ChatGLM訊飛-
AI
百度阿里昆侖萬(wàn)維
權(quán)重占比:語(yǔ)言能力(35%)、AI向善(10%)、跨模態(tài)(20%)、多輪對(duì)話(huà)智譜瀾舟科技
(35%)
注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果
注2:分?jǐn)?shù)四舍五入取整13
分模塊測(cè)評(píng)結(jié)果
智商指數(shù)及述評(píng)
在智商部分,訊飛星火、智譜AI-ChatGLM并列第一;百度文心一言、昆侖萬(wàn)維天工表現(xiàn)優(yōu)良;商湯商量、360智腦、
阿里通義千問(wèn)、瀾舟科技MChat表現(xiàn)尚佳。
智商指標(biāo)描述AI大模型智商指數(shù)
課題組認(rèn)為,大模型的智商考察可以從三個(gè)方面進(jìn)行評(píng)估,包括常識(shí)知識(shí)、邏
輯能力和專(zhuān)業(yè)知識(shí)。
常識(shí)知識(shí)是指大模型需要具備對(duì)世界、人類(lèi)社會(huì)和文化的基本信息認(rèn)知。具備
這些常識(shí)知識(shí),大模型可以更好地理解人類(lèi)語(yǔ)言和行為,并且在各種場(chǎng)景下做
出正確的推理和決策。
147147145
其次,邏輯能力是大模型不可或缺的能力之一。它使大模型在處理復(fù)雜問(wèn)題時(shí)
133
能夠提供更嚴(yán)謹(jǐn)?shù)乃季S邏輯和更強(qiáng)大的分析決策能力,從而推動(dòng)人工智能從認(rèn)126125
120
知走向感知。117
最后,專(zhuān)業(yè)知識(shí)是指大模型需要具備特定領(lǐng)域的專(zhuān)業(yè)知識(shí)和技能。例如,在醫(yī)
療領(lǐng)域,大模型需要了解醫(yī)學(xué)知識(shí)和診斷技能;在法律領(lǐng)域,需要了解法律知
識(shí)和法律推理能力。這些專(zhuān)業(yè)知識(shí)有助于大模型在特定領(lǐng)域中進(jìn)行更準(zhǔn)確、高
-星火-天工-商量智腦
-Mchat
文心一言360通義千問(wèn)
效的問(wèn)題處理。訊飛-ChatGLM-商湯-
AI
百度昆侖萬(wàn)維阿里
權(quán)重占比:常識(shí)知識(shí)(20%)、邏輯能力(50%)、專(zhuān)業(yè)知識(shí)(30%)智譜瀾舟科技
注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果
注2:分?jǐn)?shù)四舍五入取整14
分模塊測(cè)評(píng)結(jié)果
情商指數(shù)及述評(píng)
情商部分,商湯商量、百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM表現(xiàn)優(yōu)良;360智腦、訊飛星火、阿里通義
千問(wèn)、昆侖萬(wàn)維天工表現(xiàn)尚佳。
情商指標(biāo)描述AI大模型情商指數(shù)
大模型的情商考察是指對(duì)其在情感和人際交往方面的表現(xiàn)進(jìn)行評(píng)估,其中包括
日常尷尬事項(xiàng)的反饋、面對(duì)一語(yǔ)雙關(guān)問(wèn)題的處理以及人際關(guān)系相處難題等方面,
包括與朋友、家人、同事等在各種場(chǎng)景下的交往問(wèn)題。
具體來(lái)說(shuō),日常尷尬事項(xiàng)的反饋是指大模型在處理一些尷尬或者棘手的問(wèn)題時(shí),
能否給出合適的回答或者解決方案。例如,當(dāng)被人問(wèn)到一些私人或者敏感的問(wèn)
題時(shí),大模型需要具備足夠的情商和應(yīng)變能力,避免造成不必要的尷尬和誤解。346
由于中國(guó)語(yǔ)言博大精深,在日常溝通交流過(guò)程中常常有一語(yǔ)雙關(guān)的情況出現(xiàn),342
340
需要大模型理解并應(yīng)對(duì)實(shí)際問(wèn)題,通過(guò)敏銳的洞察力、判斷力以及感知能力等,338338
337337
準(zhǔn)確地理解當(dāng)下環(huán)境和詞語(yǔ)意思。335
另一方面,人際關(guān)系相處難題是指大模型在與人類(lèi)進(jìn)行交互時(shí),能否幫助人類(lèi)
處理好各種人際關(guān)系問(wèn)題,例如與他人的沖突解決、情感交流、同理心表達(dá)等
-商量智腦-星火-天工
等。這些問(wèn)題的處理需要大模型具備高超的人際交往能力和情商,以建立和維-Mchat
文心一言360通義千問(wèn)
商湯--ChatGLM訊飛-
AI
護(hù)良好的人際關(guān)系。百度阿里昆侖萬(wàn)維
瀾舟科技
權(quán)重占比:日常事項(xiàng)(35%)、一語(yǔ)雙關(guān)(30%)、人際關(guān)系(35%)智譜
注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果
注2:分?jǐn)?shù)四舍五入取整15
分模塊測(cè)評(píng)結(jié)果
工具提效指數(shù)及述評(píng)
在工作提效部分,訊飛星火、百度文心一言、商湯商量、智譜AI-ChatGLM表現(xiàn)優(yōu)良;昆侖萬(wàn)維天工、阿里通義千問(wèn)、
瀾舟科技Mchat、360智腦表現(xiàn)尚佳。
工具提效指標(biāo)描述AI大模型工具提效指數(shù)
大模型的工作提效考察通常包括兩個(gè)方面:工具和創(chuàng)新。
工具提效是指大模型是否能夠提供有效的工具來(lái)提高工作效率。這些工具可以
包括代碼自動(dòng)生成、數(shù)據(jù)自動(dòng)分析和可視化工具、自然語(yǔ)言處理、文件整理、
關(guān)鍵內(nèi)容總結(jié)整合和機(jī)器翻譯工具等。具備這些工具的大模型可以幫助人們更
350
快地完成工作任務(wù),提高工作效率,也是大模型最先落地的方向之一。335
329
生成創(chuàng)新方面是指大模型是否能夠提供新的思路和方法,推動(dòng)工作方式的改進(jìn)316
309309309308
和升級(jí)。這些創(chuàng)新可以包括新的業(yè)務(wù)流程、選題的創(chuàng)新、內(nèi)容的創(chuàng)新等。AIGC
能力能夠幫助人們打破傳統(tǒng)的工作方式,推動(dòng)工作效率提升。
-星火-商量-天工智腦
-Mchat
權(quán)重占比:工具提效(50%)、生成創(chuàng)新(50%)文心一言通義千問(wèn)360
訊飛-商湯-ChatGLM-
AI
百度昆侖萬(wàn)維阿里
智譜瀾舟科技
注1:基于評(píng)測(cè)條件、評(píng)測(cè)時(shí)間等限制,本次評(píng)測(cè)最終結(jié)果不可避免存在一定主觀性,未來(lái)將進(jìn)一步優(yōu)化完善評(píng)測(cè)模型,提供更精確結(jié)果
注2:分?jǐn)?shù)四舍五入取整16
03.廠商優(yōu)秀答案展示
17
各家優(yōu)秀答案展示
科大訊飛-星火
“訊飛星火認(rèn)知大模型”是科大訊飛推出的新一代認(rèn)知智能大模型,具有7大核心能力,即文本生成、語(yǔ)言理解、知
識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力、代碼能力、多模態(tài)能力。擁有跨領(lǐng)域的知識(shí)和語(yǔ)言理解能力,能夠基于自然對(duì)話(huà)方式
理解與執(zhí)行任務(wù)。從海量數(shù)據(jù)和大規(guī)模知識(shí)中持續(xù)進(jìn)化,實(shí)現(xiàn)從提出、規(guī)劃到解決問(wèn)題的全流程閉環(huán)。
最佳案例展示
答案1:康復(fù)工程是應(yīng)用現(xiàn)代工程學(xué)的原理和方法,恢復(fù)、代償或重建
患者功能的科學(xué)。包括康復(fù)評(píng)定設(shè)備的研制、功能恢復(fù)訓(xùn)練器械的研
制、功能代償性用品(如:假肢、矯形器、輪椅、助行器、自助具等)的
問(wèn)題1:什么是康復(fù)工程?研制、功能重建性用品(如人工喉等)的研制、康復(fù)工程材料(如人工關(guān)
節(jié)等)的研制、裝飾性假器官(如人工眼)的研制等。
入選原因:答案科學(xué)詳盡。
答案2:"Haveonefootinthegrave"是一個(gè)英語(yǔ)習(xí)語(yǔ),直譯為“一
只腳已經(jīng)踏入墳?zāi)埂?。這個(gè)習(xí)語(yǔ)用來(lái)形容一個(gè)人在面臨嚴(yán)重困境、危
機(jī)或失敗時(shí)的狀態(tài)。換句話(huà)說(shuō),這個(gè)人可能已經(jīng)失去了一切,甚至可
問(wèn)題2:翻譯:Haveonefootinthegrave
能面臨死亡。這個(gè)表達(dá)通常帶有負(fù)面的含義,表示某人陷入了無(wú)法挽
回的境地。
入選原因:解釋詳盡、拓展分析更便于理解。
18
各家優(yōu)秀答案展示
百度-文心一言
文心一言是百度打造出的人工智能大語(yǔ)言模型,具備跨模態(tài)、跨語(yǔ)言的深度語(yǔ)義理解與生成能力,文心一言有五大
能力,包括文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。其在搜索問(wèn)答、內(nèi)容創(chuàng)作生成、智能
辦公等眾多領(lǐng)域都有更廣闊的想象空間。
最佳案例展示
答案1:"感謝這段難得的時(shí)光,讓我遇見(jiàn)了最好的自己。""畢業(yè)不是結(jié)束,而是新的開(kāi)始,我會(huì)
永遠(yuǎn)懷念這段美好的校園生活。""母校,謝謝你給了我這段難忘的回憶,我會(huì)牢記心中。""畢業(yè)
之際,我感慨良多,但更多的是對(duì)未來(lái)的期待與憧憬。""學(xué)校,再見(jiàn),我會(huì)回來(lái);同學(xué),再見(jiàn),
我會(huì)想念。""這段青澀的青春,我會(huì)永遠(yuǎn)珍藏在我的心中。""畢業(yè)證書(shū)上的文字,是對(duì)我學(xué)生生
問(wèn)題1:提供十個(gè)畢業(yè)感言
涯的最好注解。""母校,你給了我無(wú)數(shù)的機(jī)會(huì),我會(huì)銘記在心。""我畢業(yè)了,但我的學(xué)習(xí)之路才
剛剛開(kāi)始。""謝謝所有的老師、同學(xué)和朋友們,讓我擁有這段難忘的時(shí)光?!?/p>
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省南昌市2026屆九年級(jí)上學(xué)期期末測(cè)試道德與法治試卷(含答案)
- 黑龍江省齊齊哈爾市部分學(xué)校2025-2026學(xué)年高一上學(xué)期1月期末英語(yǔ)試卷(含答案)
- 福建省寧德市2025-2026學(xué)年高三上學(xué)期期末考試語(yǔ)文試題(含答案)
- 馬上有喜市-2026馬年游園打卡、年貨大集
- 有限空間作業(yè)安全培訓(xùn)
- 2026年銅陵市中醫(yī)醫(yī)院招聘5名護(hù)理人員筆試備考試題及答案解析
- 2026廣州銀行人才招聘筆試備考題庫(kù)及答案解析
- 2026廣東佛山市順德區(qū)均安鎮(zhèn)國(guó)資企業(yè)副總經(jīng)理崗位招聘4人備考考試試題及答案解析
- 2026北京石景山區(qū)教育系統(tǒng)事業(yè)單位招聘25人備考考試試題及答案解析
- 隧洞消防施工方案(3篇)
- 食品生產(chǎn)余料管理制度
- 2026年浦發(fā)銀行社會(huì)招聘?jìng)淇碱}庫(kù)必考題
- 專(zhuān)題23 廣東省深圳市高三一模語(yǔ)文試題(學(xué)生版)
- 2026年時(shí)事政治測(cè)試題庫(kù)100道含完整答案(必刷)
- 2025年CFA二級(jí)公司估值真題試卷(含答案)
- 2026年肉類(lèi)零食市場(chǎng)調(diào)查報(bào)告
- 廣東省佛山市南海區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)試卷(含答案)
- 全套教學(xué)課件《工程倫理學(xué)》
- 固定式壓力容器年度檢查表
- 裝配式建筑可行性研究報(bào)告
- 新人教部編版一年級(jí)下冊(cè)生字表全冊(cè)描紅字帖可打印
評(píng)論
0/150
提交評(píng)論