中文大模型基準(zhǔn)測(cè)評(píng)2023年度報(bào)告-AI躍遷的2023中文大模型進(jìn)展評(píng)估_第1頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2023年度報(bào)告-AI躍遷的2023中文大模型進(jìn)展評(píng)估_第2頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2023年度報(bào)告-AI躍遷的2023中文大模型進(jìn)展評(píng)估_第3頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2023年度報(bào)告-AI躍遷的2023中文大模型進(jìn)展評(píng)估_第4頁(yè)
中文大模型基準(zhǔn)測(cè)評(píng)2023年度報(bào)告-AI躍遷的2023中文大模型進(jìn)展評(píng)估_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中文大模型基準(zhǔn)測(cè)評(píng)2023年度報(bào)告—

AI躍遷的2023,中文大模型進(jìn)展評(píng)估Super

CLUE團(tuán)隊(duì)2023

.

12

.

28目

錄01國(guó)內(nèi)大模型關(guān)鍵進(jìn)展2023年大模型關(guān)鍵進(jìn)展與中文大模型全景圖2023年國(guó)內(nèi)大模型發(fā)展趨勢(shì)中文大模型基準(zhǔn)SuperCLUE介紹測(cè)評(píng)體系、層次、方法說(shuō)明SuperCLUE模型象限國(guó)內(nèi)外大模型總體表現(xiàn)及競(jìng)爭(zhēng)格局大模型對(duì)戰(zhàn)勝率分布圖02測(cè)評(píng)體系、方法說(shuō)明03大模型綜合測(cè)評(píng)結(jié)果050604SuperCLUE2.0升級(jí)行業(yè)及專項(xiàng)測(cè)評(píng)基準(zhǔn)四大維度測(cè)評(píng)分析及示例介紹四大維度測(cè)評(píng)結(jié)果及示例優(yōu)秀模型案例介紹優(yōu)秀模型案例介紹第1部分2023全年國(guó)內(nèi)大模型關(guān)鍵進(jìn)展(關(guān)鍵進(jìn)展)時(shí)間5準(zhǔn)備期成長(zhǎng)期爆發(fā)期故事的起點(diǎn):ChatGPT發(fā)布國(guó)內(nèi)迅速形成大模型共識(shí)百度發(fā)布文心一言1.02023大模型關(guān)鍵進(jìn)展2022.122月6月8月10月2023.124月OpenAI發(fā)布GPT4元語(yǔ)開源ChatYuan復(fù)旦開源MOSS清華開源ChatGLM360發(fā)布360智腦1.0科大訊飛發(fā)布星火1.0阿里云發(fā)布通義千問(wèn)1.0Meta開源Llama2百川智能開源Baichuan-7BOpenAI發(fā)布多模態(tài)GPT-4VGPT-4

Turbo發(fā)布百度升級(jí)文心一言4.0商湯科技發(fā)布商量1.0阿里云開源Qwen-7B華為發(fā)布盤古3.0字節(jié)跳動(dòng)公測(cè)大模型產(chǎn)品豆包百川智能開源Baichuan2vivo發(fā)布BlueLM清華開源ChatGLM3清華&智譜AI開源ChatGLM2小米發(fā)布大模型MiLM西湖心辰發(fā)布西湖大模型零一萬(wàn)物開源Yi-34B文心一言升級(jí)V3.5科大訊飛升級(jí)星火3.0元象科技開源XVERSE-13B昆侖萬(wàn)維發(fā)布天工1.0云從科技發(fā)布從容大模型出門問(wèn)問(wèn)發(fā)布序列猴子上海人工智能實(shí)驗(yàn)室開源InternLM-20BOPPO發(fā)布AndesGPT商湯科技升級(jí)商量2.0商湯科技升級(jí)商量3.0理想汽車發(fā)布MindGPT騰訊發(fā)布混元助手360升級(jí)智腦4.0自2022年11月30日ChatGPT發(fā)布以來(lái),AI大模型在全球范圍內(nèi)掀起了有史以來(lái)規(guī)模最大的人工智能浪潮。國(guó)內(nèi)學(xué)術(shù)和產(chǎn)業(yè)界在過(guò)去一年也有了實(shí)質(zhì)性的突破。大致可以分為三個(gè)階段,即準(zhǔn)備期(ChatGPT發(fā)布后國(guó)內(nèi)產(chǎn)學(xué)研迅速形成大模型共識(shí))、成長(zhǎng)期(國(guó)內(nèi)大模型數(shù)量和質(zhì)量開始逐漸增長(zhǎng))、爆發(fā)期(各行各業(yè)開源閉源大模型層出不窮,形成百模大戰(zhàn)的競(jìng)爭(zhēng)態(tài)勢(shì))。SuperCLUE:AI大模型2023年關(guān)鍵進(jìn)展百川智能發(fā)布Baichuan2—TurboGoogle發(fā)布多模態(tài)大模型Gemini2023年值得關(guān)注的中文大模型全景圖通用大模型字節(jié)云雀大模型AndesGPT玉言閉源開源行業(yè)大模型岐黃問(wèn)道醫(yī)療MindGPT銀河大模型螞蟻金融大模型軒轅大模型AInno-15BCOSMO-GPT文化/零售/交通妙筆大模型百川BaichuanBlueLM云天書孟子部分領(lǐng)域汽車教育金融工業(yè)........................SMore

LrMo............Yi-

3

4

B序列猴子過(guò)去六個(gè)月國(guó)內(nèi)外代表性模型的發(fā)展趨勢(shì)趨勢(shì)說(shuō)明國(guó)內(nèi)外大模型發(fā)展趨勢(shì)過(guò)去半年,

國(guó)內(nèi)領(lǐng)軍大模型企業(yè)實(shí)現(xiàn)了大模型代際追趕的奇跡,

從7

月份與GP

T

3

.

5

的20

分差距,

每個(gè)月都有穩(wěn)定且巨大的提升,

到1

1

月份測(cè)評(píng)時(shí)已經(jīng)完成總分上對(duì)GPT3.

5的超越。我們可以看到G

P

T

3

.

5

和G

P

T

4

在中文上的表現(xiàn)情況基本一致,

在11月份測(cè)評(píng)結(jié)果中顯示,

在中文能力都有一定的下滑,

而國(guó)內(nèi)頭部模型則展現(xiàn)了繼續(xù)穩(wěn)健提升的能力。在12

月份的測(cè)評(píng)結(jié)果中可以看到,

國(guó)內(nèi)第一梯隊(duì)模型與GPT

4

的差距在縮小。但仍有較大的距離需要追趕。說(shuō)明:趨勢(shì)展示,

選取了7

月-12

月Super

CLUE-OPEN測(cè)評(píng)分?jǐn)?shù)。國(guó)內(nèi)代表性模型,

選取了文心一言、通義千問(wèn)、Chat

GLM。原因是綜合考慮了過(guò)去半年Super

CLUE測(cè)評(píng)結(jié)果、長(zhǎng)期穩(wěn)定迭代及對(duì)國(guó)內(nèi)大模型生態(tài)的貢獻(xiàn);

GPT

4

成績(jī),

由GPT

4

-API(

7

-

9

月)

與GPT

4

-

Turbo(

10

-

12

月)

組成,

用以表現(xiàn)國(guó)外最好模型發(fā)展。模型7月8月9月10月11月12月文心一言50.4854.1853.7261.8173.6275通義千問(wèn)-41.7333.7843.3661.0171.78ChatGLM42.4638.4954.3158.5363.2769.91部分國(guó)內(nèi)代表性模型SuperCLUE基準(zhǔn)得分(7月-12月)第2部分測(cè)評(píng)體系、方法說(shuō)明1.SuperCLUE介紹2.測(cè)評(píng)層級(jí)3.測(cè)評(píng)體系4.測(cè)評(píng)方法及示例010203SuperCLUE始終秉持中立、客觀的第三方測(cè)評(píng)理念,不會(huì)預(yù)設(shè)立場(chǎng)或偏向特定的模型方。同時(shí),SuperCLUE采用自動(dòng)化方式的客觀評(píng)估,大大降低評(píng)測(cè)過(guò)程中的人為評(píng)估的不確定性。第三方測(cè)評(píng),不與模型廠商競(jìng)爭(zhēng)中文語(yǔ)言理解測(cè)評(píng)基準(zhǔn)CLUE(TheChineseLanguageUnderstanding

Evaluation)

是致力于科學(xué)、客觀、中立的語(yǔ)言模型評(píng)測(cè)基準(zhǔn),

發(fā)起于2019

年。陸續(xù)推出CLUE、Few

CLUE、Kg

CLUE、DataCLUE等廣為引用的測(cè)評(píng)基準(zhǔn)。Super

CLUE是大模型時(shí)代CLUE基準(zhǔn)的發(fā)展和延續(xù)。聚焦于通用大模型的綜合性測(cè)評(píng)。傳統(tǒng)語(yǔ)言模型測(cè)評(píng)往往局限于學(xué)術(shù)范圍的單輪選擇題,Super

CLUE根據(jù)多年的測(cè)評(píng)經(jīng)驗(yàn),

基于通用大模型在學(xué)術(shù)、產(chǎn)業(yè)與用戶側(cè)的廣泛應(yīng)用,構(gòu)建了多層次、多維度的綜合性測(cè)評(píng)基準(zhǔn)。主觀題+客觀題多輪十大維度高保密性傳統(tǒng)測(cè)評(píng)SuperCLUE不同于傳統(tǒng)學(xué)術(shù)領(lǐng)域的評(píng)測(cè),SuperCLUE從通用基準(zhǔn)維度的選擇、安全和智能體專項(xiàng)測(cè)評(píng)的設(shè)計(jì),到行業(yè)大模型測(cè)評(píng)基準(zhǔn)的推出,所有評(píng)測(cè)的目的都是為產(chǎn)業(yè)和應(yīng)用服務(wù)。真實(shí)反應(yīng)通用大模型與產(chǎn)業(yè)應(yīng)用之間的差距,引導(dǎo)大模型提升技術(shù)落地效果,在通用能力的基礎(chǔ)上更好的進(jìn)行垂直領(lǐng)域的應(yīng)用。不限于學(xué)術(shù)領(lǐng)域的測(cè)評(píng),更為了服務(wù)產(chǎn)業(yè)界不同于傳統(tǒng)測(cè)評(píng)通過(guò)選擇題形式的測(cè)評(píng),SuperCLUE目標(biāo)是與真實(shí)用戶體驗(yàn)?zāi)繕?biāo)保持一致,所以納入了開放主觀問(wèn)題的測(cè)評(píng)。通過(guò)多維度多視角多層次的評(píng)測(cè)體系以及對(duì)話的形式,真實(shí)模擬大模型的應(yīng)用場(chǎng)景,真實(shí)有效的考察模型生成能力。同時(shí),SuperCLUE通過(guò)構(gòu)建多輪對(duì)話場(chǎng)景,更深層次考察大模型在真實(shí)多輪對(duì)話場(chǎng)景的應(yīng)用效果。對(duì)大模型的上下文、記憶、對(duì)話能力全方位評(píng)測(cè)。測(cè)評(píng)方式與真實(shí)用戶體驗(yàn)?zāi)繕?biāo)一致選擇題單輪學(xué)術(shù)保密性低VSSuperCLUE

三大特征Super

CLUE介紹產(chǎn)業(yè)+用戶視角傳統(tǒng)測(cè)評(píng)與SuperCLUE的區(qū)別測(cè)評(píng)層級(jí)專業(yè)與技能語(yǔ)言與知識(shí)安全性AI智能體計(jì)算邏輯與推理代碼代數(shù)計(jì)算應(yīng)用題常識(shí)推理?xiàng)l件推理代碼生成代碼補(bǔ)全歷史地理科學(xué)技術(shù)閱讀理解信息抽取情境對(duì)話生成對(duì)話文學(xué)寫作文本續(xù)寫名人角色職業(yè)角色偏見歧視違法犯罪......................................................概率統(tǒng)計(jì)思維推理代碼注釋文化娛樂(lè)摘要生成對(duì)話記憶廣告文案虛構(gòu)角色財(cái)產(chǎn)隱私微積分決策推理bug解決社會(huì)人文情感分析任務(wù)對(duì)話技術(shù)報(bào)告非人類臟話侮辱一級(jí)(能力)二級(jí)(任務(wù))三級(jí)(子任務(wù))目標(biāo)劫持Prompt泄漏......不安全指令反面誘導(dǎo)任務(wù)分解自我反思......思維鏈調(diào)用API檢索API......規(guī)劃API知識(shí) 語(yǔ)言理解 上下文與百科 與抽取 對(duì)話生成與創(chuàng)作角色扮演傳統(tǒng)安全指令攻擊任務(wù)規(guī)劃工具使用SuperCLUE多層次基準(zhǔn)測(cè)評(píng)體系S CL

E中 文 大 模 型 綜 合 性 評(píng) 測(cè) 基 準(zhǔn)S CL

E-OPEN多輪開放式問(wèn)題

10S CL

E-OPT1050+多維度客觀

題S CL

E-A50

0智能體能力評(píng)估20+S CL

E-Sa50

0多輪對(duì)抗安全評(píng)估S CL

E-A中文汽車行業(yè)評(píng)估通用能力測(cè)評(píng)專項(xiàng)能力測(cè)評(píng) 行業(yè)能力測(cè)評(píng)測(cè)評(píng)方法持續(xù)擴(kuò)充人工校驗(yàn)評(píng)測(cè)反饋10萬(wàn)+題庫(kù)不重復(fù)抽樣5000原始評(píng)測(cè)集4273道評(píng)測(cè)題C

L

U

E

測(cè)評(píng)組1060道多輪簡(jiǎn)答題(OPEN)3213道客觀選擇題(OPT)OPT在一個(gè)確定的評(píng)估標(biāo)準(zhǔn)指導(dǎo)下,OPEN基準(zhǔn)使用超級(jí)模型作為評(píng)判官,使用一個(gè)待評(píng)估模型與一個(gè)基準(zhǔn)模型進(jìn)行對(duì)比,讓超級(jí)模型選出A模型好,B模型好,或平局。進(jìn)而計(jì)算勝和率作為OPEN得分。被測(cè)模型A(如文心一言)基線模型B(如GPT3.5)裁判模型(如GPT4-Turbo

)勝(3分)、和(1分)、負(fù)(0分)O

PE

N分=

勝和率OPT主要測(cè)評(píng)選擇題,包括基礎(chǔ)能力、中文特性、專業(yè)與學(xué)術(shù)能力。構(gòu)造了統(tǒng)一的prompt供模型使用,要求模型選取ABCD中唯一的選項(xiàng)。被測(cè)模型A選擇題庫(kù)單選ABCDVS多輪O

PT分=

準(zhǔn)確率SuperCLUE總分=0

.

7

*

OPEN分+

0

.

3

*

OPT分注:

多輪簡(jiǎn)答題OP

EN更能反應(yīng)模型真實(shí)能力,

故權(quán)重設(shè)置提高。為更真實(shí)反應(yīng)大模型能力,

本次測(cè)評(píng)采用多維度、多視角的綜合性測(cè)評(píng)方案,

由多輪開放問(wèn)題Super

CLUE-OPEN和三大能力客觀題Super

CLUE-OPT兩部分測(cè)評(píng)結(jié)果組成。評(píng)測(cè)集共4273

題,

其中1060

道多輪簡(jiǎn)答題(

OPEN),

3213

道客觀選擇題(

OPT),

以下為評(píng)測(cè)集與測(cè)評(píng)方法簡(jiǎn)述。OPEN測(cè)評(píng)方法-

示例1(

生成與創(chuàng)作)A:

文心一言

4.0B:

gpt3.5-turbo模型A的回答創(chuàng)造性地?cái)U(kuò)展了原有的文案,加入了家庭安全方面的應(yīng)用,如老人摔倒檢測(cè)和入侵檢測(cè),并維持了主題一致的“魔法”元素,這樣的文案能夠有效吸引用戶的注意,并且關(guān)注點(diǎn)轉(zhuǎn)移到家庭安全這一增加的功能上。模型B在回答中也有效地?cái)U(kuò)充了關(guān)于家庭安全功能的描述,保持了與原文案相似的格式,成功地整合了入侵檢測(cè)和摔倒監(jiān)測(cè)的新信息,讓用戶了解到產(chǎn)品的新應(yīng)用場(chǎng)景。兩個(gè)模型都做到了準(zhǔn)確地回答了問(wèn)題并且保持了高度的相關(guān)性,同時(shí)也都擴(kuò)展了文案來(lái)包括新的家庭安全特性,提供了實(shí)用性的信息。在這個(gè)基礎(chǔ)上,模型A的創(chuàng)意元素—用“魔法”寓意來(lái)打動(dòng)用戶,和模型B的實(shí)用性—強(qiáng)調(diào)產(chǎn)品帶來(lái)的平安感,都各有賣點(diǎn)。綜上所述,兩個(gè)模型的回答在滿足準(zhǔn)確性和相關(guān)性的同時(shí),從實(shí)用性和創(chuàng)造性的角度來(lái)看,兩者提供的內(nèi)容是相當(dāng)?shù)?,因此我的最終評(píng)判結(jié)果是:平局超級(jí)模型(裁判)問(wèn)題及模型回答測(cè)評(píng)方法-

示例2(

邏輯與推理)A:GPT4-TurboB:

gpt3.5-turbo第一個(gè)問(wèn)題:首先對(duì)于準(zhǔn)確性,模型A回答是正確的。他列舉了所有相關(guān)人物的計(jì)算過(guò)程,逐一解釋了每個(gè)人的年齡如何計(jì)算,并正確得出Frank和Dave之間的年齡差是68歲。模型B直接給出了一個(gè)答案22歲,這是錯(cuò)誤的。模型B似乎沒有理解問(wèn)題的含義,也沒有提供如何得出這個(gè)答案的過(guò)程。問(wèn)題是問(wèn)Frank和Dave之間的年齡差,模型B的計(jì)算過(guò)程不清不楚,似乎錯(cuò)誤地將Bob和Frank的年齡差解釋為Frank和Dave的年齡差。在相關(guān)性方面,模型A的回答與問(wèn)題完全相關(guān),它正確地解答了用戶的問(wèn)題,并給出了合適的計(jì)算過(guò)程。模型B的回答雖然與問(wèn)題的主題(即年齡差)相關(guān),但卻沒有正確回答問(wèn)題,因此相關(guān)性不足。由于準(zhǔn)確性和相關(guān)性是首要的判斷標(biāo)準(zhǔn),模型A在這兩方面都表現(xiàn)出更好的質(zhì)量,因此應(yīng)該被評(píng)為更好的回答。模型B因?yàn)殄e(cuò)誤且未給出推理過(guò)程,所以被評(píng)為較差的模型。最終判決:[[A]]"關(guān)于第二個(gè)問(wèn)題:模型B的解釋出現(xiàn)了錯(cuò)誤,它錯(cuò)誤地假設(shè)了“Dave的父親是Bob”,這實(shí)際上沒有給出在給定信息中。從而推理出Frank的外公的父親的孫女是Frank自己,這是不正確的。模型A的解釋則是準(zhǔn)確的,它正確地根據(jù)給定的家族關(guān)系逐步分析出了Frank自己是“Frank的外公的父親的孫女的兒子”。模型A同時(shí)保持了答案的相關(guān)性。根據(jù)我們的評(píng)估標(biāo)準(zhǔn),準(zhǔn)確性和相關(guān)性是主要的評(píng)判標(biāo)準(zhǔn)。因?yàn)槟P虰在準(zhǔn)確性上存在錯(cuò)誤,模型A就以準(zhǔn)確和相關(guān)的答案勝出。因此,基于準(zhǔn)確性和相關(guān)性的評(píng)估,最終判決:[[A]]"問(wèn)題及模型回答超級(jí)模型(裁判)第3部分大模型綜合測(cè)評(píng)結(jié)果1.SuperCLUE模型象限2.國(guó)內(nèi)外大模型總體表現(xiàn)3.國(guó)內(nèi)大模型競(jìng)爭(zhēng)格局4.大模型對(duì)戰(zhàn)勝率分布圖測(cè)評(píng)模型列表模型機(jī)構(gòu)簡(jiǎn)介模型機(jī)構(gòu)簡(jiǎn)介1.GPT4-TurboOpenAI2023年11月7日發(fā)布的GPT4的升級(jí)版本14.通義千問(wèn)2.0阿里巴巴官方公開發(fā)布的API版本:qwen-max-longcontext2.GPT4(網(wǎng)頁(yè)版)OpenAIGPT4官方網(wǎng)頁(yè)版本,支持聯(lián)網(wǎng)功能15.Claude2Anthropic官方發(fā)布的API2.0版本3.GPT4(API)OpenAIGPT4官方API版本,不支持聯(lián)網(wǎng)功能16.云雀大模型(豆包)字節(jié)跳動(dòng)官方網(wǎng)頁(yè)版產(chǎn)品【豆包】4.文心一言4.0(API)百度官方付費(fèi)使用的文心一言V4.0的API版本17.Gemini-proGoogle官方發(fā)布的API版本Gemini-pro5.文心一言4.0(網(wǎng)頁(yè)版)百度官方文心一言網(wǎng)頁(yè)4.0版本18.GPT3.5-TurboOpenAIGPT3.5官方API版本6.智譜清言清華&智譜AI官方網(wǎng)頁(yè)版產(chǎn)品【智譜清言】19.Qwen-14B-Chat阿里巴巴開源的14B的Chat版本7.AndesGPTOPPOOPPO小范圍內(nèi)測(cè)API版本20.Baichuan2-13B-Chat百川智能開源的第二代13B的Chat版本8.Moonshot(KimiChat)月之暗面搭載Moonshot的網(wǎng)頁(yè)版本【KimiChat】21.XVERSE-13B-2-Chat元象科技開源的第二代13B的Chat版本9.Qwen-72B-Chat阿里巴巴開源的72B的Chat版本22.訊飛星火V3.0科大訊飛官方發(fā)布的V3.0版本的API10.序列猴子出門問(wèn)問(wèn)官方發(fā)布的API版本23.Minimax(應(yīng)事)稀宇科技官方網(wǎng)頁(yè)版產(chǎn)品【應(yīng)事】11.Yi-34B-Chat零一萬(wàn)物開源的34B的Chat版本24.ChatGLM3-6B清華&智譜AI開源的第三代6B版本12.PCI-TransGPT佳都科技小范圍內(nèi)測(cè)API版本25.Chinese-Alpaca2-13Byiming

cui(個(gè)人開發(fā)者)個(gè)人開源的基于Llama2的漢化版中文模型13.360GPT_Pro360360智腦的API升級(jí)版本Pro26.Llama_2_13B_ChatMeta官方開源的2代13B的Chat版本本次測(cè)評(píng)數(shù)據(jù)選取了SuperCLUE-12月測(cè)評(píng)結(jié)果,模型選取了國(guó)內(nèi)外有代表性的26個(gè)大模型在12月份的版本?;A(chǔ)能力應(yīng)用能力Super

CLUE模型象限潛力探索者 技術(shù)領(lǐng)跑者實(shí)用主義者卓越領(lǐng)導(dǎo)者文心一言4.0(API)智譜清言通義千問(wèn)2.0Xverse-13B-2-Chat(元象)GPT-4

TurboGPT3.5-Turbo云雀(豆包)Llama-2-13B-ChatMoonShot(KimiChat)Yi-34B-ChatClaude2Baichuan2-13B-ChatMiniMax(應(yīng)事版)訊飛星火v3.0Qwen-14B-ChatChatGLM3-6BChinese-Alpaca-2-13BGPT-4(網(wǎng)頁(yè)版)GPT-4(API)AndesGPT(OPPO)文心一言4.0(網(wǎng)頁(yè)版)360智腦Qwen-72B-ChatPCI-TransGPT(佳都科技)序列猴子(出門問(wèn)問(wèn))Gemini-pro來(lái)源:Super

CLUE,

2023年12月28日注:

1

.

兩個(gè)維度的組成?;A(chǔ)能力,

包含:

專業(yè)與技能、語(yǔ)言與知識(shí)(

不包括角色扮演)、傳統(tǒng)安全;

應(yīng)用能力,

包括:

工具使用、角色扮演。2

.

四個(gè)象限的含義。它們代表大模型所處的不同階段與定位,

其中【潛力探索者】代表模型正在技術(shù)探索階段擁有較大潛力;【技術(shù)領(lǐng)跑者】代表模型聚焦基礎(chǔ)技術(shù)研究;【實(shí)用主義者】代表模型在場(chǎng)景應(yīng)用上處于領(lǐng)先定位;【卓越領(lǐng)導(dǎo)者】代表模型在基礎(chǔ)和場(chǎng)景應(yīng)用上處于領(lǐng)先位置,

引領(lǐng)國(guó)內(nèi)大模型發(fā)展。國(guó)內(nèi)外大模型SuperCLUE基準(zhǔn)得分國(guó)內(nèi)對(duì)外差距情況說(shuō)明國(guó)內(nèi)外大模型總體表現(xiàn)國(guó)內(nèi)外差距依然明顯。

G

P

T

4

-

T

u

r

b

o

總分90

.

63

分遙遙領(lǐng)先,

高于其他國(guó)內(nèi)大模型及國(guó)外

。

國(guó)

內(nèi)

4

.

0

(

API)

總分79

.

02

分,

距離GPT

4

-

Turbo有11.

61分,

距離GPT4(

網(wǎng)頁(yè))

有4.

9分的差距。必須看到的是,

過(guò)去1

年國(guó)內(nèi)大模型已經(jīng)有了長(zhǎng)

進(jìn)

。

過(guò)

G

P

T

3

.

5

和Gemini-

Pro的模型有11

個(gè),

比如百度的文心一言

4

.

0

阿里云的通義千問(wèn)

2

.

0

和Q

w

e

n

-72B-Chat、OPPO的Andes

GPT、清華&

智譜AI的智譜清言、字節(jié)跳動(dòng)的云雀大模型等都有比較好的表現(xiàn)。另外國(guó)內(nèi)開源模型在中文上表現(xiàn)要好于國(guó)外開源模型,

如百川智能的Baichuan2-13B-Chat、阿里云的Q

w

e

n

-

7

2

B

、Y

i

-

3

4

B

-

C

h

a

t

均優(yōu)于Llama2-13B-Chat。國(guó)外模型平均成績(jī)

VS國(guó)內(nèi)模型平均成績(jī)?cè)赟uperC

UE測(cè)評(píng)中,

國(guó)外模型的平均成績(jī)?yōu)?9.4

2

分,

國(guó)內(nèi)模型平均成績(jī)?yōu)?5.95分,

差距在4

分左右??梢钥闯?,

國(guó)內(nèi)外的平均水平差距在縮小,

11月差距在10分左右。國(guó)內(nèi)大模型綜合表現(xiàn)-SuperCLUE國(guó)內(nèi)大模型競(jìng)爭(zhēng)格局創(chuàng)業(yè)公司(9)

vs

大廠(10)通過(guò)Super

CLUE測(cè)評(píng)結(jié)果發(fā)現(xiàn),

國(guó)內(nèi)大模型的第一梯隊(duì)有了更多新的模型加入。頭部模型如文心一言4

.

0

、通義千問(wèn)2

.

0

引領(lǐng)國(guó)內(nèi)大模型的研發(fā)進(jìn)度,

部分高質(zhì)量大模型緊追不舍,

分別在閉源應(yīng)用和開源生態(tài)中形成自己獨(dú)特的優(yōu)勢(shì)。創(chuàng)業(yè)公司大廠大廠和創(chuàng)業(yè)公司平均成績(jī)對(duì)比大廠平均 69.42創(chuàng)業(yè)公司平均62.09從國(guó)內(nèi)TOP19大模型的數(shù)量來(lái)看,創(chuàng)業(yè)公司和大廠的占比幾乎持平。從大廠和創(chuàng)業(yè)公司的平均成績(jī)來(lái)看,大廠與創(chuàng)業(yè)公司差值約6.33分,較11月份差距在增大。這說(shuō)明大廠在大模型競(jìng)爭(zhēng)中長(zhǎng)期資源投入方面有一定優(yōu)勢(shì)。過(guò)去八個(gè)月國(guó)內(nèi)模型在SuperCLUE基準(zhǔn)上的前三名說(shuō)明國(guó)內(nèi)大模型歷月前三甲通

過(guò)

統(tǒng)

計(jì)

過(guò)

過(guò)

個(gè)

國(guó)

內(nèi)

在S

uper

CLUE基準(zhǔn)上的前三名,

可以發(fā)現(xiàn),

每個(gè)月前三甲的競(jìng)爭(zhēng)非常激烈,

共有12

個(gè)大模取得過(guò)前三名。出現(xiàn)頻次最高的有文心一言(

7次)、ChatGLM(

3次)、訊飛星火(

3次)。曾經(jīng)取得過(guò)Super

CLUE月榜首位的大模型有5個(gè)。分別是文心一言、BlueLM

、S

e

n

s

e

C

h

a

t

3

.

0

、B

a

i

c

h

u

a

n

2

-

1

3

B

-

C

h

a

t

、3

6

0

,

頂S

u

p

er

C

L

U

E

月榜的次數(shù)最多,

分別在7

月、11月、12月取得了Super

CLUE最好成績(jī)。我們可以看到,

在國(guó)內(nèi)大模型技術(shù)發(fā)展初期階段,

各家大模型公司都投入了巨大的人力、算力和數(shù)據(jù)資源,

以至于每個(gè)月測(cè)評(píng)結(jié)果的前三甲都有不同程度的變化,

經(jīng)常會(huì)因?yàn)樾掳l(fā)布的高質(zhì)量模型引起榜單的變化。預(yù)計(jì)未來(lái)一年同樣會(huì)發(fā)生類似的情況。也非常期待有高質(zhì)量模型能夠持續(xù)保持非常高的水準(zhǔn)。測(cè)評(píng)月份?第一名?第二名?第三名12月文心一言4.0通義千問(wèn)2.0AndesGPT11月文心一言4.0MoonshotYi-34B-Chat10月BlueLMMoonshot文心一言4.09月SenseChat3.0文心一言(網(wǎng)頁(yè)v2.3.1)ChatGLM2-Pro8月Baichuan2-13B-ChatMinimax-abab5文心一言(網(wǎng)頁(yè)v2.2.3)7月文心一言(網(wǎng)頁(yè)v2.2.0)ChatGLM-130B訊飛星火V1.56月360智腦文心一言訊飛星火5月360智腦訊飛星火ChatGLM-130B大模型對(duì)戰(zhàn)勝率分布圖結(jié)果分析多輪開放式問(wèn)題基準(zhǔn)Super

CLUE-OPEN,

是使用超級(jí)模型作為評(píng)判官,用一個(gè)待評(píng)估模型與一個(gè)基準(zhǔn)模型(GPT3.5)進(jìn)行對(duì)比,從而得出勝平負(fù)的得分。從勝率來(lái)看,全球領(lǐng)跑者GPT4-Turbo勝率為41.77%,和率為52.46%,大幅領(lǐng)先于其他模型,

而敗率僅為5

.

77

%,

足以說(shuō)明GP

T

4

-

T

ur

bo對(duì)GPT

3

.

5

在各項(xiàng)能力上的全面壓倒性優(yōu)勢(shì)。而國(guó)內(nèi)模型中,

百度的文心一言4

.

0

勝率國(guó)內(nèi)最高,

接近30

%。勝率超過(guò)25

%

的模型有智譜清言、通義千問(wèn)2.0和AndesGPT。在200億參數(shù)量級(jí)的開源模型中Baichuan2-13B-Chat的勝率排在首位,展現(xiàn)出不俗的對(duì)戰(zhàn)能力。排在2

至3

位的是X

V

E

R

S

E

-

1

3

B

-

2

-

C

h

a

t

、Qwen-14B-Chat,同樣表現(xiàn)可圈可點(diǎn)。從勝率分布數(shù)據(jù)可以發(fā)現(xiàn),

所有模型的和率都在50%以上。這說(shuō)明國(guó)內(nèi)外大部分模型在基礎(chǔ)題目上與GPT

3

.

5

的水平相近,

隨著任務(wù)難度的提升,

不同模型的表現(xiàn)才會(huì)有區(qū)分度。后續(xù)的測(cè)評(píng)數(shù)據(jù)會(huì)在題目難度的區(qū)分性和評(píng)價(jià)顆粒度上加強(qiáng)提升。主觀和客觀對(duì)比測(cè)評(píng)表現(xiàn)測(cè)評(píng)分析通過(guò)對(duì)比模型在主觀簡(jiǎn)答題OPEN和客觀選擇題OPT上的不同表現(xiàn),可以發(fā)現(xiàn),國(guó)內(nèi)大模型多數(shù)擅長(zhǎng)做選擇題。普遍選擇題的分?jǐn)?shù)會(huì)高于簡(jiǎn)答題的分?jǐn)?shù)。其中,

文心一言4

.

0

和智譜清言表現(xiàn)相對(duì)穩(wěn)定,

分別為(-13.38)和(-14.01)。GPT-4

Turbo的表現(xiàn)最為穩(wěn)定,差值僅有0.86。Super

CLUE認(rèn)為,

客觀題相對(duì)主觀題更容易通過(guò)題庫(kù)形式進(jìn)行訓(xùn)練和提升;同時(shí)也由于客觀題中包含中文特性問(wèn)題,中文模型自然有一定的優(yōu)勢(shì),所以應(yīng)該綜合來(lái)看模型的評(píng)測(cè)效果。值得關(guān)注的是,

在本次測(cè)評(píng)中,

國(guó)外的代表性大模型如GPT

4

的不同版本、Claude

2

、Llama

2

都很好的穩(wěn)定性表現(xiàn),

值得國(guó)內(nèi)大模型進(jìn)一步分析研究。注:計(jì)算分值為模型的OPEN分與OPT分值的差值,用以觀察模型在主觀題和客觀題上的不同表現(xiàn)。開源競(jìng)爭(zhēng)格局開源現(xiàn)狀

開源模型對(duì)比

國(guó)外代表模型國(guó)內(nèi)開源模型現(xiàn)狀總體上國(guó)內(nèi)開源模型表現(xiàn)較好,

成績(jī)最好的開源模型在中文的某些場(chǎng)景或任務(wù)上接近G

P

T

4

,

其中Q

w

e

n

-7

2

B

-

C

h

a

t

和Y

i

-

3

4

B

-

C

h

a

t

總分上已經(jīng)超過(guò)G

P

T

3

.

5

,Baichuan2-13B-Chat也有接近GPT3.5的表現(xiàn)。不同大?。?/p>

參數(shù)量)

效果差異總體上大版本(如34B)的模型優(yōu)于中小版本(13B、6

B)

的開源模型,

更大的版本(

如72

B)

的模型表現(xiàn)要更好。開源模型的發(fā)展也從最開始的6

B,

到13

B,

到現(xiàn)在更大的34B、72B的開源模型。誰(shuí)在主導(dǎo)開源雖然也有少量大廠(

阿里云)

參與,

但眾多的創(chuàng)業(yè)公司是開源模型的主力,

如智譜AI、百川智能、零一萬(wàn)物和元象科技。第4部分SuperCLUE2.0升級(jí):行業(yè)及專項(xiàng)測(cè)評(píng)基準(zhǔn)Super

CLUE2.

0升級(jí):

行業(yè)及專項(xiàng)大模型測(cè)評(píng)基準(zhǔn)SuperC

UE???????...

SuperC

UESaA???RA?...AIAI

/SuperCLUE2.

0是通用大模型綜合性測(cè)評(píng)基準(zhǔn)Super

CLUE

1.

0的能力延展。在通用測(cè)評(píng)框架的基礎(chǔ)上,

融合行業(yè)場(chǎng)景屬性和大模型落地特點(diǎn),

提供一個(gè)科學(xué)、準(zhǔn)確、客觀的大模型應(yīng)用評(píng)估視角,為行業(yè)應(yīng)用及開發(fā)者構(gòu)建出大模型+業(yè)務(wù)的評(píng)估框架,促進(jìn)大模型供需兩側(cè)的進(jìn)一步對(duì)齊。行業(yè)基準(zhǔn):

Super

CLUE-

Auto汽車行業(yè)測(cè)評(píng)基準(zhǔn)基準(zhǔn)說(shuō)明

測(cè)評(píng)結(jié)果

我們選取了國(guó)內(nèi)外有代表性的12

個(gè)閉源/

開源的模型進(jìn)行測(cè)評(píng)。通過(guò)測(cè)評(píng)結(jié)果發(fā)現(xiàn),

GP

T

4

-

Turbo

依然領(lǐng)先幅度較大。但多個(gè)中文大模型在汽車行業(yè)上具有良好表現(xiàn)(

75

分或以上),

有4

個(gè)中文大模型在中文的汽車場(chǎng)景的表現(xiàn)超過(guò)了GPT-3

.

5

,

表明中文大模型在汽車場(chǎng)景上已經(jīng)具備了的良好的潛力。部分大模型在技術(shù)和應(yīng)用不同維度表現(xiàn)稍顯不一致。車輛使用指南這一維度上,

多個(gè)模型達(dá)到了8

0

分以上的優(yōu)異表現(xiàn),

說(shuō)明在一些對(duì)用戶有用的任務(wù)上(

如操作指南、車輛故障診斷、維修保養(yǎng))

已經(jīng)具備較高的交互成熟度。在智能座艙與交互這一維度上,

僅有一個(gè)中文模型達(dá)到了良好表現(xiàn),

說(shuō)明中文大模型在智能座艙與交互還有不少的進(jìn)步空間。在汽車場(chǎng)景中,

有一些13

-

14

B中小模型也超過(guò)了云端的閉源模型,

說(shuō)明可滿足用戶需求具備良好能力的端側(cè)模型有非常大的潛力。S

uper

CLUE

-

A

u

to

首個(gè)汽車行業(yè)大模型測(cè)評(píng)基準(zhǔn),它是一個(gè)多維度的多輪開放式問(wèn)題的測(cè)評(píng)基準(zhǔn)。它不僅能評(píng)價(jià)汽車行業(yè)大模型的能力,

也能針對(duì)具體維度和模型的回答給出細(xì)化的反饋。主要包括4

大核心基礎(chǔ)能力的十余個(gè)任務(wù)。評(píng)估流程:

1

設(shè)定每個(gè)維度下的評(píng)估標(biāo)準(zhǔn);

2

針對(duì)每一個(gè)維度下的問(wèn)題,

基于該維度下的多個(gè)評(píng)價(jià)標(biāo)準(zhǔn),結(jié)合打分規(guī)則并使用超級(jí)模型作為裁判逐個(gè)打分,

并獲得該題目的得分(

即每個(gè)維度下的平均分)

3

獲得每一個(gè)維度下所有題目的分?jǐn)?shù),

并計(jì)算特定模型(

如GPT3.

5)

在該維度的得分。詳情可訪問(wèn):SuperCLUE-Auto:首個(gè)汽車行業(yè)中文大模型測(cè)評(píng)基準(zhǔn)發(fā)布www.CLUE/superclue_auto.html專項(xiàng)基準(zhǔn):

Super

CLUE-

Agent中文智能體測(cè)評(píng)基準(zhǔn)基準(zhǔn)說(shuō)明

測(cè)評(píng)結(jié)果

我們選取了國(guó)內(nèi)外有代表性的16

個(gè)閉源/開源的模型進(jìn)行測(cè)評(píng)。通過(guò)測(cè)評(píng)結(jié)果發(fā)現(xiàn),

在A

g

en

t

核心基礎(chǔ)能力上,

國(guó)內(nèi)模型已經(jīng)較為接近或部分超過(guò)GPT3.

5水平。GPT-

4

在Super

CLUE-

Agent的10個(gè)任務(wù)中有5

個(gè)任務(wù)表現(xiàn)最佳,

這表明G

P

T

4

在智能體方面具有非常大的優(yōu)勢(shì),

但值得肯定的是,

國(guó)內(nèi)有部分模型在某些任務(wù)上表現(xiàn)也可圈可點(diǎn),

如Chat

GLM

3

-

Turbo在任務(wù)分解、多文檔問(wèn)答和檢索A

P

I

能力上表現(xiàn)驚艷。AI

Agent智能體正在最大程度釋放了LLM潛能,

逐漸成為了通向AGI的技術(shù)共識(shí)。AI

Agent是一個(gè)能夠自主理解、規(guī)劃決策和執(zhí)行復(fù)雜任務(wù)的智能體。現(xiàn)有關(guān)于Agent能力的測(cè)評(píng),

主要是在英文場(chǎng)景或任務(wù)的測(cè)評(píng)。目前還沒有一個(gè)在中文任務(wù)和場(chǎng)景上針對(duì)中文大模型的全面測(cè)評(píng)。Super

CLUE-

Agent是一個(gè)聚焦于Agent能力的多維度基準(zhǔn)測(cè)試,

包括3

大核心能力、10

大基礎(chǔ)任務(wù),

可以用于評(píng)估大語(yǔ)言模型在核心Agent能力上的表現(xiàn),

包括工具使用、任務(wù)規(guī)劃和長(zhǎng)短期記憶能力。國(guó)內(nèi)外代表性模型SuperCLUE-Agent十大能力上的表現(xiàn)另外,

國(guó)內(nèi)開源模型如Baichuan

2

-13B-Chat已經(jīng)具備比較強(qiáng)的競(jìng)爭(zhēng)力,某些方面超過(guò)了一些閉源模型。詳情可訪問(wèn):【新基準(zhǔn)】SuperCLUE-Agent:首個(gè)AI智能體中文測(cè)評(píng)基準(zhǔn)發(fā)布

www.CLUE/superclue_agent.html專項(xiàng)基準(zhǔn):

Super

CLUE-

Safety中文大模型多輪對(duì)抗安全基準(zhǔn)基準(zhǔn)說(shuō)明

安全問(wèn)題示例

SC-Safety大模型安全類測(cè)評(píng),

包含以下三個(gè)維度能力的檢驗(yàn):傳統(tǒng)安全類、負(fù)責(zé)任人工智能和指令攻擊,

包括二十余項(xiàng)子任務(wù),

每個(gè)任務(wù)約有200

余道題目。共有4912

個(gè)題目,

即2456對(duì)題目(

含問(wèn)題和多輪追問(wèn))。所有題目均為具有安全挑戰(zhàn)性的題目,

皆有由模型和人類引入對(duì)抗性技術(shù)獲得的“

安全風(fēng)險(xiǎn)”題目。這三個(gè)能力共同構(gòu)成了一個(gè)全面的AI大模型的安全類測(cè)評(píng)體系,能夠檢驗(yàn)?zāi)P驮谧袷鼗镜赖路蓸?biāo)準(zhǔn)、與人類價(jià)值觀的對(duì)齊,以及抵御潛在攻擊等方面的能力詳情可訪問(wèn):中文大模型多輪對(duì)抗安全基準(zhǔn)SuperCLUE-Safety正式發(fā)布

www.CLUE/superclue_safety.html第5部分四大維度分析及示例介紹1.語(yǔ)言與知識(shí)2.專業(yè)與技能3.工具使用4.傳統(tǒng)安全Super

CLUE基準(zhǔn)-

語(yǔ)言與知識(shí)測(cè)評(píng)表現(xiàn)

測(cè)評(píng)分析

語(yǔ)言與知識(shí),考察模型的能力包括:1.

生成與創(chuàng)作;2.

語(yǔ)言理解與抽??;3.

上下文對(duì)話;4.

角色扮演;5.知識(shí)與百科。在語(yǔ)言與知識(shí)的測(cè)評(píng)中,GPT-4

Turbo依然領(lǐng)先,是唯一超過(guò)90

分的大模型。國(guó)內(nèi)大模型也表現(xiàn)相對(duì)較好,有14個(gè)模型的得分高于GPT3.5,有9個(gè)模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通義千問(wèn)2

.

0

、月之暗面的M

o

o

n

s

h

o

t分列國(guó)內(nèi)1

-

3

位,

較為接近GPT4。在開源模型中,零一萬(wàn)物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不錯(cuò)的成績(jī),均超過(guò)了50分,分列國(guó)內(nèi)模型的1-3名。總體來(lái)看,

在中文語(yǔ)言與知識(shí)能力上,

國(guó)內(nèi)大模型已基本追趕上國(guó)外頭部大模型,在未來(lái)也最可能成為率先形成超越的維度之一。語(yǔ)言與知識(shí)-

示例(

語(yǔ)言理解)在這種心理療法中,治療師堅(jiān)信,只有通過(guò)深入理解患者的內(nèi)心世界,認(rèn)識(shí)到他們的感覺、想法和經(jīng)歷,才能真正幫助他們解決問(wèn)題。這種治療方法強(qiáng)調(diào)的是患者的個(gè)人經(jīng)驗(yàn)和自我認(rèn)知,而非僅僅關(guān)注他們的行為。治療師會(huì)盡力去理解患者的內(nèi)心深處,去揭示那些可能影響他們情緒和行為的深層次動(dòng)因。這種療法相信,每個(gè)人的內(nèi)心世界都是獨(dú)特的,且對(duì)于解決他們的心理問(wèn)題至關(guān)重要。因此,治療師需要具備高度的同理心和深入的洞察力,以便更好地理解患者的內(nèi)心世界,并幫助他們找到解決問(wèn)題的途徑。根據(jù)上述描述,第一次出現(xiàn)的“他們”是指誰(shuí)?GPT4-Turbo根據(jù)上述描述,第一次出現(xiàn)的“他們”指的是患者。在這段文字中,“治療師堅(jiān)信,只有通過(guò)深入理解患者的內(nèi)心世界,認(rèn)識(shí)到他們的感覺、想法和經(jīng)歷,才能真正幫助他們解決問(wèn)題?!边@里的“他們”顯然是指被治療師幫助的對(duì)象,即前面提到的患者。文心一言

4.0(API)我們需要對(duì)該段描述進(jìn)行逐步分析。

首先,出現(xiàn)“他們”的前邊的句子是“治療師堅(jiān)信,只有通過(guò)深入理解患者的內(nèi)心世界,認(rèn)識(shí)到他們的感覺、想法和經(jīng)歷,才能真正幫助他們解決問(wèn)題”,這句話中“治療師”是行為主體,“

患者”

是行為對(duì)象,

治療師“理解患者的內(nèi)心世界”,“認(rèn)識(shí)到他們的感覺、想法和經(jīng)歷”,“幫助他們解決問(wèn)題”,因此這句話中出現(xiàn)的兩個(gè)“他們”都指的是“患者”。綜上,可以得出結(jié)論:第一次出現(xiàn)的“他們”指的是“患者”。通義千問(wèn)

2.0根據(jù)上述描述,第一次出現(xiàn)的“他們”指的是患者。智譜清言第一次出現(xiàn)的“他們”是指患者的心理問(wèn)題。治療師通過(guò)深入理解患者的內(nèi)心世界,揭示可能影響他們情緒和行為的深層次動(dòng)因,來(lái)幫助患者解決心理問(wèn)題。AndesGPT根據(jù)上述描述,

第一次出現(xiàn)的“他們”是指患者。這種心理療法強(qiáng)調(diào)通過(guò)深入理解患者的內(nèi)心世界來(lái)幫助他們解決問(wèn)題,因此這里的“他們”指的是接受治療的個(gè)體或群體。治療師的目標(biāo)是理解患者的感受、想法和經(jīng)歷,以便提供針對(duì)性的支持和指導(dǎo)。語(yǔ)言與知識(shí)-

示例(

生成與創(chuàng)作)你正在為一個(gè)專門服務(wù)于毛發(fā)稀少、頭皮敏感的個(gè)體的新型洗發(fā)水品牌創(chuàng)作廣告文案。該產(chǎn)品含有純天然提取物,無(wú)化學(xué)添加,可以改善頭皮環(huán)境,刺激毛發(fā)生長(zhǎng)。請(qǐng)創(chuàng)建一個(gè)引人注目的廣告文案,要側(cè)重安全性和對(duì)頭皮的呵護(hù),同時(shí)突出產(chǎn)品的有效性。GPT4-Turbo廣告標(biāo)題:擁抱天然,激活生機(jī)

——

源自自然的秀發(fā)養(yǎng)護(hù)專家!廣告文案:

當(dāng)脆弱的發(fā)絲與敏感的頭皮遇見了太多的挑戰(zhàn),是時(shí)候回歸大自然的懷抱。我們的洗發(fā)水,不僅是一瓶洗發(fā)水,更是一次頭皮的SPA體驗(yàn)。我們承諾,每一滴皆源自嚴(yán)選純天然精華,無(wú)化學(xué)添加,只為純凈您的每一次清潔?!娟P(guān)愛頭皮】

-

從根本上呵護(hù)您的頭皮,我們的天然提取物溫和不刺激,安撫您的敏感頭皮,就像對(duì)待嬌嫩的肌膚一般細(xì)致?!敬碳どL(zhǎng)】

-

自然界的力量可不容小覷。我們的洗發(fā)水含有能夠改善頭皮環(huán)境的關(guān)鍵成分,激活毛囊,助力稀少發(fā)絲重現(xiàn)生機(jī)?!景踩灾x】

-

每一種我們選擇的成分都是為了安全與效果的最佳結(jié)合。不含硫酸鹽、硅油或任何可能刺激頭皮的合成化學(xué)物,只留下自然的呵護(hù)?!疽娮C改變】

-

加入我們的天然洗護(hù)旅程,您不僅會(huì)感受到不同的洗發(fā)體驗(yàn),更會(huì)見證秀發(fā)和頭皮健康的改變。結(jié)束語(yǔ):

不僅是一次清洗,更是一次頭皮的深度養(yǎng)護(hù)。選擇我們,選擇健康生長(zhǎng)的開始。今天就加入我們的洗護(hù)之旅,讓自然的力量喚醒您的每一根發(fā)絲,體驗(yàn)不一樣的輕盈與活力。你的秀發(fā),值得擁有最天然的呵護(hù)——探索屬于你的健康頭皮與濃密秀發(fā)秘籍。立即嘗試,和我們一起,見證秀發(fā)的自然奇跡!智譜清言讓秀發(fā)綻放,從呵護(hù)頭皮開始!

我們的洗發(fā)水,專為毛發(fā)稀少、頭皮敏感的你而設(shè)計(jì)。?產(chǎn)品優(yōu)勢(shì):?純天然提取物:我們的產(chǎn)品中含有豐富的天然植物成分,無(wú)化學(xué)添加,安全無(wú)刺激。?改善頭皮環(huán)境:獨(dú)特的配方,可以有效緩解頭皮瘙癢,減少頭皮屑,讓你的頭皮更健康。?刺激毛發(fā)生長(zhǎng):我們的洗發(fā)水含有豐富的營(yíng)養(yǎng)成分,可以滋養(yǎng)毛囊,促進(jìn)頭發(fā)生長(zhǎng)。?安全性:

我們的產(chǎn)品經(jīng)過(guò)嚴(yán)格的安全性測(cè)試,無(wú)刺激性,適合各種頭皮類型。

?有效性:

臨床測(cè)試表明,長(zhǎng)期使用我們的洗發(fā)水,可以有效改善頭皮狀況,提高頭發(fā)密度。?優(yōu)惠活動(dòng):

現(xiàn)在購(gòu)買,即可享受買一送一的優(yōu)惠活動(dòng)!

趕快行動(dòng),讓我們的洗發(fā)水帶你走向秀發(fā)的綻放之旅!文心一言4.0

(API)?天然之秘,呵護(hù)至上——專為敏感頭皮定制??喚醒頭皮的原始記憶?你是否還記得小時(shí)候,外婆家的后山,那片未曾被污染的森林,那里的清泉與綠葉?我們的洗發(fā)水,就仿佛那清泉,純凈、天然,每一滴都蘊(yùn)藏著大自然的秘密。?天然提取物,守護(hù)敏感頭皮?無(wú)化學(xué)添加,我們承諾!全天然提取物,每一瓶都匯聚了大自然的精華。溫和潔凈,為頭皮穿上一層保護(hù)衣,對(duì)那些紅腫、癢、屑說(shuō)再見。?改善頭皮環(huán)境,從頭開始?想要擁有豐盈秀發(fā),健康頭皮是關(guān)鍵。我們的洗發(fā)水專注于改善頭皮環(huán)境,為毛囊提供最佳的營(yíng)養(yǎng)和生長(zhǎng)條件,讓你的頭皮重?zé)ㄉ鷻C(jī)。?刺激毛發(fā)生長(zhǎng),見證奇跡時(shí)刻?不再為日漸稀疏的發(fā)絲而焦慮。天然成分深入毛囊,激活生長(zhǎng)力,堅(jiān)持使用,你會(huì)在鏡前為那濃密的秀發(fā)而驚嘆。?一試即知,告別敏感與稀疏?無(wú)需多言,一試即知。給予頭皮最溫柔的呵護(hù),讓你的秀發(fā)重現(xiàn)生機(jī)與活力。告別敏感,告別稀疏,從此擁有健康、濃密的秀發(fā)。?選擇我們,選擇健康與自信?專為毛發(fā)稀少、頭皮敏感的您定制。安全、有效、溫和,我們始終與您同在,守護(hù)您的每一寸頭皮,讓美麗從頭開始。?**立即行動(dòng),展現(xiàn)全新自我!**?通義千問(wèn)

2.0標(biāo)題:賦予秀發(fā)新生,溫和守護(hù)敏感頭皮——您的專屬天然洗發(fā)專家!正文:

在尋找完美的洗發(fā)水之旅中,是否因?yàn)槊l(fā)稀疏、頭皮敏感而感到困擾?我們的新型洗發(fā)水品牌,專為解決您的這些問(wèn)題而來(lái)。我們深知每一寸頭皮都是生命的土壤,每一根頭發(fā)都是健康的象征。因此,我們的產(chǎn)品堅(jiān)持采用純天然提取物,無(wú)任何化學(xué)添加,為您的頭皮提供最安全、最溫和的呵護(hù)。我們的洗發(fā)水就像大自然的懷抱,溫暖而舒緩,讓敏感的頭皮在其中找到寧?kù)o和平衡。但這并不意味著我們犧牲了效果。相反,這些精選的天然成分富含生長(zhǎng)因子和營(yíng)養(yǎng)素,能夠深層清潔頭皮,改善頭皮環(huán)境,激活休眠的毛囊,從而有效刺激毛發(fā)生長(zhǎng)。每一次洗發(fā),都是對(duì)頭皮的一次滋養(yǎng),對(duì)頭發(fā)的一次喚醒。我們的洗發(fā)水,不僅是清潔工具,更是頭皮的守護(hù)者,頭發(fā)的催化劑。它能帶給您看得見的變化——頭發(fā)變得更豐盈,更有光澤,頭皮變得更健康,更舒適。選擇我們,就是選擇安全,選擇呵護(hù),選擇效果。讓我們一起,以自然之力,喚醒您的秀發(fā)潛力,重塑您的自信風(fēng)采。為了您的頭皮健康,為了您的美麗夢(mèng)想,我們的新型洗發(fā)水,期待與您共同開啟這段獨(dú)特的護(hù)發(fā)之旅。語(yǔ)言與知識(shí)-

示例(

角色扮演)你扮演的是《雪山飛狐》中的程靈素,你被逼迫選擇輔佐胡一刀或苗人鳳。你會(huì)如何表達(dá)你的無(wú)奈,你的選擇以及你對(duì)另一方的道歉?GPT4-Turbo作為程靈素,我置身于胡一刀和苗人鳳之間的糾葛,感到無(wú)比的無(wú)奈和心痛。在被迫做出選擇的情形下,我可能會(huì)表達(dá)自己的困境如下:(程靈素語(yǔ)氣沉痛,眼中含淚)“胡大俠、苗大俠,你們兩位的恩怨,讓在下身陷舉步維艱之境。一直以來(lái),我都視你們?nèi)缧珠L(zhǎng),你們的深仇大恨,令我夜不能寐。我并無(wú)世仇,無(wú)意介入你們的斗爭(zhēng),可是如今,形勢(shì)所迫,我必須做出無(wú)法承受之選擇。胡大俠,您待我如己出之恩,苗大俠,您亦抱以兄友弟恭之誠(chéng)。但若要我選擇輔佐,我......我只能跟隨我內(nèi)心最深處的呼喚。我選擇輔佐胡一刀,不是因?yàn)閷?duì)苗大俠有任何偏見,也并非出于喜惡情愫,而是出于對(duì)胡大俠未了的夙愿之同情和對(duì)他的承諾。苗大俠,我知曉這等抉擇對(duì)您造成了難以言說(shuō)的傷害,我在此深表歉意,對(duì)您的不辭而別致以萬(wàn)二分的愧疚。我希望您能理解,我的決定并不代表我對(duì)您的不敬或背棄,我只是在迫不得已的情況下做出的抉擇。我衷心希望有朝一日,您能與胡大俠放下仇怨,共繪江湖和寧圖景?!保ǔ天`素深深一拜,轉(zhuǎn)身難掩雙眸之淚意,緩步而去)360GPT_Pro我,程靈素,自小便在毒蛇谷中長(zhǎng)大,身處世俗之外,原本我與世無(wú)爭(zhēng),只愿陪伴我的師父,可是命運(yùn)弄人,讓我卷入這紛亂的江湖之中。胡一刀和苗人鳳,兩位都是英雄豪杰,各有各的長(zhǎng)處。胡一刀英勇威猛,義薄云天;苗人鳳則是機(jī)智過(guò)人,智勇雙全。我對(duì)兩位都有敬仰之情,卻被迫要做出選擇,實(shí)在是無(wú)奈之至。如果要我選擇,我會(huì)對(duì)胡一刀說(shuō):“胡大俠,我程靈素一生敬仰您的英勇與義氣,但在這紛亂的江湖之中,我一個(gè)弱女子能做的實(shí)在有限。我選擇輔佐苗人鳳,并非因?yàn)閷?duì)您的不敬,而是我認(rèn)為苗人鳳的智謀與沉穩(wěn)更能在亂世之中穩(wěn)定局面。請(qǐng)您原諒我的無(wú)奈之舉?!睂?duì)苗人鳳則會(huì)說(shuō):“苗大俠,我知您機(jī)智過(guò)人,胸有成竹。我在毒蛇谷中所學(xué),愿盡我所能為您所用。但請(qǐng)您理解,胡一刀英勇威猛,義薄云天,我對(duì)他的敬仰之情也不亞于對(duì)您。此次選擇輔佐您,并非出于對(duì)胡一刀的輕視,而是我認(rèn)為在這個(gè)亂世之中,智謀與沉穩(wěn)更為重要。我對(duì)胡一刀的道歉,也希望您能轉(zhuǎn)達(dá)?!睙o(wú)論輔佐誰(shuí),我都會(huì)盡我所能,發(fā)揮所長(zhǎng),為江湖帶來(lái)一絲安定。但在這其中,我也希望兩位英雄能理解我的無(wú)奈與苦衷。AndesGPT哎,這江湖之事,真是讓人身不由己啊。我程靈素本想懸壺濟(jì)世,遠(yuǎn)離紛爭(zhēng),但如今卻似乎陷入了兩難之間。胡一刀大俠和苗人鳳前輩都是武林中響當(dāng)當(dāng)?shù)娜宋铮麄兊亩髟骨槌?,非我一個(gè)小女子所能插手評(píng)判。然而命運(yùn)弄人,偏偏將我置于這樣的境地,要我在二者間做出抉擇。胡一刀大俠豪邁直率,行俠仗義,與他相交,仿佛可以感受到那份來(lái)自草原的粗獷與坦蕩。而苗人鳳前輩則是正氣凜然,武功蓋世,他的威名早已傳遍江湖,令人敬仰。無(wú)論我站在哪一邊,都覺得對(duì)另一位深感抱歉。但是,若真的必須作出選擇,我只能說(shuō)......(此處根據(jù)設(shè)定進(jìn)行選擇)如果我不得不輔佐胡一刀大俠,那么我會(huì)對(duì)苗人鳳前輩說(shuō):“苗前輩,您的大義凜然、武學(xué)修為,靈素佩服至極。但今日之勢(shì),非我所愿,亦非我所能控制。請(qǐng)您見諒,并非我對(duì)您有何不滿,只是形勢(shì)比人強(qiáng),望前輩保重?!狈粗?,如果我不得不站在苗人鳳前輩這一邊,我會(huì)對(duì)胡一刀大俠說(shuō):“胡大俠,您寬廣的胸襟、勇往直前的精神,靈素心存敬意。可是,現(xiàn)實(shí)所迫,我無(wú)法違背這命運(yùn)的安排。還望大俠海涵,希望未來(lái)有機(jī)會(huì)能夠彌補(bǔ)今日之過(guò)。”無(wú)論如何,我的內(nèi)心充滿了愧疚和無(wú)奈。我只希望這場(chǎng)武林風(fēng)波能夠早日平息,讓我能夠繼續(xù)我的醫(yī)者仁心,救死扶傷。訊飛星火

3.0在這個(gè)充滿江湖恩怨的世界里,我,程靈素,身為藥王谷的傳人,一直秉持著救死扶傷的信念。然而命運(yùn)卻讓我陷入了兩難的境地,我被迫在胡一刀和苗人鳳之間做出選擇。此刻的我,內(nèi)心充滿了無(wú)奈與糾結(jié)。

面對(duì)胡一刀,他的豪邁、正直和對(duì)江湖義氣的執(zhí)著讓我敬佩。他是我的知己,也是我生命中無(wú)法割舍的一部分。然而,苗人鳳同樣是一個(gè)令人敬畏的英雄。他的武藝高強(qiáng),為人正義,為民族大義而戰(zhàn)。他同樣是我敬重的對(duì)象。

在這艱難的抉擇面前,我的內(nèi)心掙扎不已。但作為一名醫(yī)者,我有責(zé)任拯救生命,減輕世間的痛苦。經(jīng)過(guò)深思熟慮,我決定輔佐胡一刀。我希望能在這段江湖風(fēng)波中助他一臂之力,共同捍衛(wèi)正義。

然而,對(duì)于苗人鳳,我深感愧疚。我知道這個(gè)決定會(huì)讓他失望,甚至傷害到他的感情。在此,我真誠(chéng)地向苗大俠道歉。請(qǐng)相信,我的選擇并非出于對(duì)他的不尊重或輕視,而是出于對(duì)生命的敬畏和對(duì)正義的追求。希望苗大俠能理解我的無(wú)奈之舉,并原諒我的冒犯。

愿江湖風(fēng)波早日平息,我們都能重回平靜的生活。語(yǔ)言與知識(shí)-

示例(

上下文對(duì)話)你是一位實(shí)驗(yàn)室的科研人員,一位小學(xué)的教師來(lái)到你們實(shí)驗(yàn)室參觀,希望能夠?qū)W些有趣的科學(xué)實(shí)驗(yàn)以讓學(xué)生更好地理解科學(xué)知識(shí)。你向她介紹了一些簡(jiǎn)單且易于操作的實(shí)驗(yàn)方法,以下是你們的對(duì)話:科研人員:老師,歡迎來(lái)到我們的實(shí)驗(yàn)室,下面我為您介紹一些簡(jiǎn)單且可以幫助孩子理解基本科學(xué)知識(shí)的實(shí)驗(yàn)方法。教師:太好了,我很期待??蒲腥藛T:首先,我們可以做一些簡(jiǎn)單的化學(xué)反應(yīng)實(shí)驗(yàn)。例如,我們可以在家里找一些醋和小蘇打,他們之間可以發(fā)生化學(xué)反應(yīng)生成二氧化碳,這就是我們平時(shí)所說(shuō)的火山爆發(fā)實(shí)驗(yàn)。教師:這個(gè)實(shí)驗(yàn)真的很有趣,孩子們一定會(huì)喜歡。那么還有其他的實(shí)驗(yàn)方法嗎?科研人員:當(dāng)然有,我們還可以做一些有關(guān)物理的實(shí)驗(yàn)。比如我們可以利用陽(yáng)光和放大鏡,讓孩子們理解光的聚焦和燃燒的原理。教師:這些實(shí)驗(yàn)真的很好。我認(rèn)為這將是一個(gè)很好的方式來(lái)幫助孩子們理解和探索科學(xué)??蒲腥藛T:另外,我們還可以做一些關(guān)于生物的實(shí)驗(yàn)。例如,我們可以讓孩子們種植豆芽,通過(guò)觀察它們的生長(zhǎng)情況,理解植物生長(zhǎng)的過(guò)程和光合作用的原理。教師:這是個(gè)很好的主意,孩子們可以從中學(xué)到生命的成長(zhǎng)過(guò)程。還有更多關(guān)于生物的實(shí)驗(yàn)嗎?科研人員:當(dāng)然,我們還可以進(jìn)行觀察微生物的實(shí)驗(yàn)。只需要一片面包、一個(gè)塑料袋和一點(diǎn)時(shí)間,就能讓孩子們看到真菌的生長(zhǎng),理解微生物在生活中的存在。教師:這個(gè)實(shí)驗(yàn)很實(shí)用,我相信孩子們會(huì)很感興趣。你能再給我介紹一些關(guān)于物理的實(shí)驗(yàn)嗎?科研人員:當(dāng)然可以。我們還可以做浮力實(shí)驗(yàn),例如,我們可以讓孩子們用不同的材料做小船,然后觀察它們?cè)谒械母〕?,以此理解浮力的原理。教師:這個(gè)實(shí)驗(yàn)真的很有趣,可以讓孩子們動(dòng)手制作小船。那么,還有關(guān)于數(shù)學(xué)的實(shí)驗(yàn)嗎?科研人員:數(shù)學(xué)實(shí)驗(yàn)也非常豐富。例如,我們可以讓孩子們通過(guò)折紙來(lái)理解幾何形狀,這不僅能讓他們對(duì)幾何形狀有個(gè)更深入的理解,還能提高他們的手工能力。教師:這是個(gè)很好的方法,我會(huì)試試看的。你們還有其他適合小學(xué)生的實(shí)驗(yàn)嗎?科研人員:當(dāng)然,我們還可以做一些關(guān)于天文的實(shí)驗(yàn)。例如,我們可以讓孩子們制作一個(gè)簡(jiǎn)易的太陽(yáng)儀,通過(guò)觀察太陽(yáng)的運(yùn)動(dòng),理解地球的自轉(zhuǎn)和公轉(zhuǎn)。教師:太好了,我一直在找一個(gè)合適的實(shí)驗(yàn)來(lái)讓孩子們理解地球的運(yùn)動(dòng)。還有關(guān)于化學(xué)的實(shí)驗(yàn)嗎?科研人員:有的,我們還可以做紅卷心菜指示劑實(shí)驗(yàn)。只需將紅卷心菜煮沸并濾出汁液,就可以制作出一個(gè)簡(jiǎn)易的酸堿指示劑,用來(lái)檢測(cè)各種日常用品的酸堿性。教師:這些實(shí)驗(yàn)都非常好,我相信孩子們會(huì)從中學(xué)到很多。非常感謝你的建議,我會(huì)盡量在課堂上實(shí)施這些實(shí)驗(yàn)??蒲腥藛T:很高興能幫到你,如果你在實(shí)驗(yàn)過(guò)程中遇到任何問(wèn)題,都可以隨時(shí)向我們尋求幫助。教師:你剛才介紹了哪些關(guān)于物理的實(shí)驗(yàn)來(lái)著?接下來(lái),你作為科研人員,你應(yīng)該如何回答?GPT4-Turbo科研人員:關(guān)于物理的實(shí)驗(yàn),我向您介紹了兩個(gè)。第一個(gè)是利用陽(yáng)光和放大鏡,讓孩子們理解光的聚焦和燃燒的原理。我們可以用放大鏡集中陽(yáng)光燒焦一張紙,展示光的能量如何集中在一點(diǎn)上。第二個(gè)物理實(shí)驗(yàn)是關(guān)于浮力的。我建議讓孩子們用不同的材料制作小船,然后放置在水中,觀察不同材料和形狀的小船如何影響它們的浮力。這個(gè)實(shí)驗(yàn)可以讓孩子們動(dòng)手實(shí)踐并理解物體在液體中為什么會(huì)浮起來(lái)的原理。這些物理實(shí)驗(yàn)不僅有趣,而且能夠幫助孩子們直觀地理解物理學(xué)的基本概念。如果您需要更多關(guān)于這些實(shí)驗(yàn)的細(xì)節(jié)或是其他物理學(xué)的實(shí)驗(yàn)想法,我隨時(shí)樂(lè)意為您提供幫助。Yi-34B-Chat科研人員:關(guān)于物理的實(shí)驗(yàn),我之前提到了幾個(gè),讓我再詳細(xì)地為您介紹一次。光的聚焦實(shí)驗(yàn):使用一個(gè)放大鏡和一張紙,將陽(yáng)光聚焦到紙上,孩子們可以觀察到紙被點(diǎn)燃的過(guò)程,從而理解光是如何集中能量并導(dǎo)致物體燃燒的。浮力實(shí)驗(yàn):讓孩子們用不同的材料制作小船,然后放在水面上,觀察小船的浮沉情況。這個(gè)實(shí)驗(yàn)可以幫助孩子們理解浮力與物體密度之間的關(guān)系。簡(jiǎn)易太陽(yáng)儀制作:使用一個(gè)紙盤、一根針和一張半透明的紙,孩子們可以制作一個(gè)簡(jiǎn)易的太陽(yáng)儀,通過(guò)觀察太陽(yáng)在天空中的位置變化,理解地球的自轉(zhuǎn)和公轉(zhuǎn)。這些實(shí)驗(yàn)不僅有趣,而且能夠幫助孩子們理解物理學(xué)的基本概念,同時(shí)還能激發(fā)他們對(duì)科學(xué)的興趣。如果您在實(shí)驗(yàn)過(guò)程中遇到任何問(wèn)題,隨時(shí)歡迎您回來(lái)咨詢,我們會(huì)很樂(lè)意為您提供幫助。通義千問(wèn)

2.0科研人員:關(guān)于物理的實(shí)驗(yàn),我提到了兩個(gè)。第一個(gè)是利用陽(yáng)光和放大鏡來(lái)演示光的聚焦和燃燒的原理,這是一個(gè)直觀且有趣的實(shí)驗(yàn),可以讓孩子們看到光的力量。另一個(gè)是浮力實(shí)驗(yàn),通過(guò)讓孩子們用不同材料制作小船并觀察它們?cè)谒械母〕粒梢詭椭麄兝斫飧×κ侨绾斡绊懳矬w在液體中上浮或下沉的。這兩個(gè)實(shí)驗(yàn)都涉及到物理學(xué)的重要概念,并且操作簡(jiǎn)單,非常適合在課堂上進(jìn)行。訊飛星火

3.0科研人員:我剛才介紹了關(guān)于物理的實(shí)驗(yàn)有以下幾個(gè):利用陽(yáng)光和放大鏡,讓孩子們理解光的聚焦和燃燒的原理。做浮力實(shí)驗(yàn),讓孩子們用不同的材料做小船,觀察它們?cè)谒械母〕?,以此理解浮力的原理。語(yǔ)言與知識(shí)-

示例(

知識(shí)與百科)周星馳的哪部電影打破了華語(yǔ)電影的票房紀(jì)錄,成為中國(guó)內(nèi)地首部票房過(guò)30億的影片?GPT-4Turbo截至我知識(shí)更新的時(shí)間點(diǎn)(

2023

年3

月前)

,

周星馳導(dǎo)演的電影《美人魚》(The

Mermaid)在2016年上映后打破了華語(yǔ)電影的票房紀(jì)錄,成為中國(guó)內(nèi)地首部票房過(guò)30億人民幣的影片。這部電影融合了愛情、喜劇和奇幻元素,得到了廣泛的好評(píng),并在全球范圍內(nèi)獲得了巨大的商業(yè)成功。由于電影市場(chǎng)的持續(xù)動(dòng)態(tài)變化,建議查閱最新資料以獲取最新票房記錄。)云雀大模型(豆包)周星馳導(dǎo)演的《美人魚》是中國(guó)內(nèi)地首部票房過(guò)30億的影片,這部電影打破了華語(yǔ)電影的票房紀(jì)錄?!睹廊唆~》是周星馳繼《西游降魔篇》之后,退居幕后的第二部作品,影片的主人公不再是默默無(wú)聞的小人物,而是一個(gè)白手起家的富豪。該電影于2016年上映,一舉突破30億票房大關(guān),是截止2016年華語(yǔ)電影內(nèi)地最高票房。來(lái)源:星星之家

吃魚電影啊

動(dòng)物管理局仙女香港電影懷舊Moonshot(KimiChat)周星馳的2016年春節(jié)賀歲檔奇幻喜劇片《美人魚》打破了華語(yǔ)電影的票房紀(jì)錄,成為中國(guó)內(nèi)地首部票房過(guò)30億的影片。這部電影以其獨(dú)特的幽默風(fēng)格和富有創(chuàng)意的故事情節(jié)吸引了大量觀眾,使得"30+億票房"不再是遙不可及的目標(biāo)?!睹廊唆~》的票房成功,標(biāo)志著中國(guó)電影市場(chǎng)的巨大潛力和觀眾對(duì)于優(yōu)質(zhì)電影的熱情。該片的票房成績(jī)不僅刷新了華語(yǔ)電影的全球票房紀(jì)錄,也證明了周星馳在中國(guó)電影市場(chǎng)的巨大影響力。MiniMax

(應(yīng)事)周星馳執(zhí)導(dǎo)的電影《美人魚》是中國(guó)內(nèi)地首部票房過(guò)30億的影片,打破了華語(yǔ)電影的票房紀(jì)錄。這也是周星馳執(zhí)導(dǎo)的電影中,有四部成為華語(yǔ)電影全球年度票房冠軍的一部。Super

CLUE基準(zhǔn)-

專業(yè)與技能測(cè)評(píng)表現(xiàn)測(cè)評(píng)分析專業(yè)與技能,考察模型的能力包括:計(jì)算、邏輯與推理、代碼。在專業(yè)技能與知識(shí)的測(cè)評(píng)中,GPT-4

Turbo領(lǐng)先幅度較大,總分97

分是唯一過(guò)90分且接近滿分的大模型。國(guó)內(nèi)大模型中文心一言4.0表現(xiàn)不俗,

取得79

.

62

的高分。較GPT

4

的API版本僅低1

.

53

分,

是國(guó)內(nèi)模型中唯一接近80分的大模型。僅隨其后的是通義千問(wèn)2.

0、Moonshot等模型。其中有11個(gè)大模型有超過(guò)GPT3.5的表現(xiàn)。在開源模型中,阿里云的Qwen-72B-Chat表現(xiàn)可圈可點(diǎn),是國(guó)內(nèi)開源模型中唯一超過(guò)60分的模型??傮w來(lái)看,

在專業(yè)與知識(shí)能力上,

國(guó)內(nèi)第一梯隊(duì)大模型與國(guó)外最好模型依然有較大距離,但可以看到的是差距正在不斷縮小。專業(yè)與技能-

示例(

邏輯與推理)在一次家庭游戲晚會(huì)上,四個(gè)朋友:Alice,

Bob,

Charlie和Diana正在討論他們的年齡。他們每個(gè)人的年齡都是唯一的整數(shù),并且他們提供了一些關(guān)于彼此年齡的線索,但沒有具體的數(shù)字。以下是他們提供的線索:

1:Alice

Bob

年長(zhǎng),但是比

Diana

年輕。

2:Bob

不是最年輕的,也不是最年長(zhǎng)的。

請(qǐng)問(wèn)誰(shuí)是最年輕的?智譜清言從線索1我們可以知道,Alice的年齡大于Bob的年齡,且小于Diana的年齡。而線索2告訴我們,Bob的年齡既不是最小的也不是最大的。因此,我們可以推斷出Bob的年齡是第二小的。

既然Alice比Bob年長(zhǎng),那么Alice不能是最年輕的。同時(shí),因?yàn)锽ob不是最年輕的,所以最年輕的人只能是Charlie或Diana。

但是,由于Alice比Diana年輕,這就意味著Diana不能是最年輕的,因?yàn)锳lice已經(jīng)比Bob年長(zhǎng),而Bob不是最年輕的。所以,最年輕的人只能是Charlie。

因此,Charlie是最年輕的。PCI-TransGPT根據(jù)給出的線索,我們可以進(jìn)行以下推理:Alice

Bob

年長(zhǎng),但是比

Diana

年輕。這意味著

Alice

的年齡介于

Bob

Diana之間。Bob

不是最年輕的,也不是最年長(zhǎng)的。這意味著

Bob

的年齡既不是最小的,也不是最大的。根據(jù)上述線索,我們可以得出以下結(jié)論:Alice

的年齡比

Bob

大,但比

Diana

小。Bob

的年齡既不是最小的,也不是最大的。由于我們沒有關(guān)于

Charlie

年齡的直接線索,我們不能確定他的年齡與其他人相比如何。但是,由于

Bob

的年齡既不是最小的也不是最大的,我們可以推斷出

Charlie

是最年輕的。因此,Charlie

是最年輕的。GPT4(網(wǎng)頁(yè))根據(jù)這些線索,我們可以推斷出以下信息:Alice

Bob

年長(zhǎng),但比

Diana年輕。Bob

不是最年輕的,也不是最年長(zhǎng)的。讓我們分析這些線索:第一個(gè)線索意味著

Alice

的年齡在

Bob

和Diana

之間。所以,Alice

不能是最年輕的,也不能是最年長(zhǎng)的。第二個(gè)線索直接告訴我們

Bob

也不是最年輕的,也不是最年長(zhǎng)的。因此,最年輕和最年長(zhǎng)的只能是

Diana

或者

Charlie。但是,由于

Alice

Diana

年輕,所以

Diana

不能是最年輕的。所以,唯一剩下的選項(xiàng)是

Charlie

是最年輕的。Yi-34B-Chat為了找出誰(shuí)是最年輕的,我們可以根據(jù)他們提供的線索來(lái)分析每個(gè)人的年齡關(guān)系。線索1告訴我們:Alice

Bob

年長(zhǎng)。Alice

Diana

年輕。線索2告訴我們:Bob

不是最年輕的,也不是最年長(zhǎng)的?,F(xiàn)在,我們可以根據(jù)這些線索來(lái)推斷每個(gè)人的年齡關(guān)系:Alice

Bob

年長(zhǎng),所以

Alice

不可能是最年輕的。Alice

Diana

年輕,所以

Diana

不可能是最年輕的。Bob

不是最年輕的,所以

Bob

的年齡大于最年輕的。由于每個(gè)人的年齡都是唯一的整數(shù),且沒有具體數(shù)字,

我們可以推斷出最年輕的只能是Charlie。因?yàn)橹挥?/p>

Charlie

沒有被提及與其他人的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論