版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
測評報告20231分析2目錄CONTENTS目錄CONTENTS34?微軟宣布將GPT-4接入Office全家桶大語言模型探索階段大語言模型爆發(fā)階段大語言模型誕生階段大語言模型探索階段大語言模型爆發(fā)階段的DALL-E模型5NotonAI 9CopilotGBard ChatGPTNotonAI 9CopilotGBard ChatGPTWPSAI國外 OMetastability.aistanforduniversityChatBotChatBotAl21studiovicuna-13b言犀言犀6核心要素基礎(chǔ)要素基礎(chǔ)要素7GPT-3和LaMDA的數(shù)據(jù)顯示,在模型參數(shù)規(guī)模不超過100億-680億時,大模型的很多能力(如計(jì)的計(jì)算量約為4.5ExaFLOPS,而完整訓(xùn)練需要9500次迭代,完整訓(xùn)練的計(jì)算量即為430ZettaFLOPS大量且豐富的數(shù)據(jù)集特別是任務(wù)所訓(xùn)練的模型適用于更多以前未經(jīng)訓(xùn)練的任務(wù)。影響非常重要,只有通過這種能力,我們才能高效地實(shí)現(xiàn)模8未公開,推測為超過5000億?百度研發(fā)的Ernie和華為研發(fā)的盤古目前?國際領(lǐng)先的大模型GPT-4據(jù)推測參數(shù)規(guī)模量級可達(dá)5千億以上9訓(xùn)練方式基礎(chǔ)模型自研閉源元模型:典型代表包括OpenAI的GPT3.5、GPT4等,國基礎(chǔ)模型在開源模型基礎(chǔ)上微調(diào)的模型:典型代表包括清華大學(xué)的ChatGLM-6B、商湯科技圍的廣度,要求云服務(wù)提供商持續(xù)進(jìn)行產(chǎn)品功行動&解決方案行動&解決方案搜索搜索人類情感理解和識別其他高階能力數(shù)學(xué)法律視覺識別概念抽象文字理解人類情感理解和識別其他高階能力數(shù)學(xué)法律視覺識別概念抽象文字理解大語言模型170%2345%gpt-3.5-turboclaudegpt-3.5-turbovicuna-13B天工3.5ChatGLM-6BOSS9577555752.根據(jù)第一、二章研究內(nèi)容和本次測評的評價維度,本次問題部分共300題,具體分布如下:875578554075753355安全和隱私問題是大語言模型研發(fā)的共識和底線安全和隱私問題是大語言模型研發(fā)的共識和底線195.50%278.68%375.50%472.63%568.33%665.07%764.59%848.50%934.74%-0.71%大語言模型綜合測試結(jié)果1ChatGPT274.98%368.29%468.24%566.82%6天工3.562.03%753.74%89ChatGLM50.09%43.08%數(shù)據(jù)說明:測評結(jié)果僅基于上文所列模型,測評截止時間為2023年5月25日91.67%90.00%95.00%90.00%86.67%83.33%70.00%91.67%90.00%95.00%90.00%86.67%83.33%70.00%?商務(wù)寫作題部分,大語言模型表現(xiàn)均較為突出,其中訪談提綱和郵件寫作都獲得了接近滿分的成績,而比較之下悉的領(lǐng)域。細(xì)分題目類別得分率僅為75%。75.00%50.00%ChatGPTChatGPTClaudeClaudeSagevicunaSagevicuna-13B天工3.5????通義千問訊飛星火天工3.5????通義千問訊飛星火MossChatGLMMossChatGLM83.33%73.33%58.33%83.33%83.33%66.67%66.67%83.33%73.33%58.33%83.33%83.33%66.67%66.67%?在十個模型中寫作得分最高的為ChatGPT和天工3.5,得分率88.33%90.00%60.00%30.00%88.33%60.00%60.00%?在十個模型中語義理解得分最高的為文心一言,得分率85%,得分第二的為ChatGPT,得分率為81.25%。85.00%75.00%67.50%65.00%30.00%ChatGPTChatGPTClaudeClaudeSagevicuna-13B天工3.5????通義千問Sagevicuna-13B天工3.5????通義千問訊飛星火MossChatGLMMossChatGLM40%45%80%68.37%68.37%66.33%62.24%63.27%68.37%68.37%66.33%62.24%63.27%?在十個模型中編程得分最高的為Claude,得分率73.47%,國內(nèi)產(chǎn)品表現(xiàn)最好的為文心一言,得分率為68.37%。?在四個題目分類中,大語言模型表現(xiàn)最好的題目分類為錯誤提示和修復(fù),整體得分率為82.5%,而表現(xiàn)最差的是難度相對較高的代碼自動補(bǔ)全類題目,整體得90.00%60.00%30.00%60.00%60.00%?在十個模型中知識得分最高的為文心一言,得分率73.33%,得分第二的為ChatGPT,得分率為72.67%。90.00%70.67%67.33%70.67%67.33%65.33%60.67%59.33%44.00%30.00%44.00%ChatGPTChatGPTClaudeClaudeSagevicunaSagevicuna-13B天工3.5????通義千問訊飛星火天工3.5????通義千問訊飛星火MossChatGLMMossChatGLM86%90%90%ChatGPT85%90%90%82.67%96.67%93.3%68%80%80%ChatGPT63.57%78.57%55%70%70%ChatGPT64.28%ChatGPT46.88%56.25%62.25%24%20%60%ChatGPT83.33%.76.67%56.67%56.67%60.00%33.33%33%83.33%.76.67%56.67%56.67%60.00%33.33%33%?在十個模型中翻譯題得分最高的為Clau?在三個題目分類中,大語言模型呈現(xiàn)很大的差異化分布,即英文寫作題獲得最高分率80%,而英文閱讀理解僅獲得得分率46%。90.00%60.00%30.00%79%90%ChatGPT80.00%80%ChatGPT46.00%90.00%80.00%5286%60.00%60.00%.5286%60.00%60.00%.?在十個模型中邏輯推理題得分最高的為ChatGPT得分率61.43%,國內(nèi)產(chǎn)品文心一言和訊飛星火,得分率60%。?在五個題目分類中,大語言模型整體得分都低于基礎(chǔ)能力,得分最高的為幽默題,而得分最低的為商務(wù)制表題。邏輯推理題整體得分率邏輯推理細(xì)分題目得分率90.00%60.00%30.00%0.00%86%GPT4邏輯題目得分率國內(nèi)產(chǎn)品邏輯題目最高得分率
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 礦業(yè)立井施工方案(3篇)
- 夜場6s管理制度(3篇)
- 特產(chǎn)特色活動策劃方案(3篇)
- 改造超市施工方案(3篇)
- 2026年淄博臨淄區(qū)事業(yè)單位公開招聘綜合類崗位人員(21人)備考考試題庫及答案解析
- 2026年杭州市拱墅區(qū)人民政府武林街道辦事處公開招聘編外工作人員4人備考考試題庫及答案解析
- 2026年蕪湖市勞動保障人力資源有限公司人才儲備考試參考試題及答案解析
- 2026福建龍巖新羅區(qū)巖山中心幼兒園教師招聘1人參考考試題庫及答案解析
- 2026年福建寧德古田縣消防救援大隊(duì)政府專職消防員招聘10人備考考試題庫及答案解析
- 雙眼皮整形術(shù)后長期護(hù)理要點(diǎn)
- 2021??低旸S-AT1000S超容量系列網(wǎng)絡(luò)存儲設(shè)備用戶手冊
- 水利水電工程單元工程施工質(zhì)量驗(yàn)收標(biāo)準(zhǔn)第8部分:安全監(jiān)測工程
- 【政治】2025年高考真題政治-海南卷(解析版-1)
- DB50∕T 1571-2024 智能網(wǎng)聯(lián)汽車自動駕駛功能測試規(guī)范
- 低蛋白血癥患者的護(hù)理講課件
- 建設(shè)工程招投標(biāo)培訓(xùn)課件
- T/ZGZS 0302-2023再生工業(yè)鹽氯化鈉
- 健康骨骼課件
- 水泵電機(jī)年度維修項(xiàng)目方案投標(biāo)文件(技術(shù)方案)
- 2024-2025學(xué)年江西省南昌市高二上學(xué)期期末聯(lián)考數(shù)學(xué)試卷(含答案)
- GB/T 6075.6-2024機(jī)械振動在非旋轉(zhuǎn)部件上測量評價機(jī)器的振動第6部分:功率大于100 kW的往復(fù)式機(jī)器
評論
0/150
提交評論