版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
陳愷|上海人工智能實驗室青年科學(xué)家德州撲克德州撲克大模型成為發(fā)展通用人工智能的重要途徑圍棋比賽AlphaFoldImageNet競賽圍棋比賽AlphaFoldAlphaGo4:1李世乭AlphaGo4:1李世乭201620062012202120162006201220112014201920112014人臉識別人臉識別233大模型成為最熱門關(guān)鍵詞languagemodel成為最熱門關(guān)鍵詞,查詢數(shù)量激增GPT在openai的發(fā)展過程44語言模型的發(fā)展與演進大模型發(fā)展時間線5LLaMA模型家族6書生·浦語大模型開源歷程千億參數(shù)語言大模型發(fā)布多模態(tài)預(yù)訓(xùn)練語料庫開源發(fā)布參數(shù)量升級至123B1月17日InternLM2開源2024千億參數(shù)語言大模型發(fā)布多模態(tài)預(yù)訓(xùn)練語料庫開源發(fā)布參數(shù)量升級至123B1月17日InternLM2開源2024...7月6日8月7月6日8月千億參數(shù)大模型全面升級InternLM-Chat-7Bv1.1發(fā)布開源工具書生·浦語2.0(InternLM2)核心理念回歸語言建模的本質(zhì)致力于通過更高質(zhì)量的語料以及更高的信息密度,實現(xiàn)模型基座語言建模能力的質(zhì)的提升書生·浦語2.0(InternLM2)的體系在Base基礎(chǔ)上,在多個能力方向進行了強化,在評測中成績優(yōu)異,同時保持了很好的通用語言能力,是我們推薦的在大部分應(yīng)用中考慮選用的優(yōu)秀基座高質(zhì)量和具有很強可塑性的模型基座在Base基礎(chǔ)上,在多個能力方向進行了強化,在評測中成績優(yōu)異,同時保持了很好的通用語言能力,是我們推薦的在大部分應(yīng)用中考慮選用的優(yōu)秀基座高質(zhì)量和具有很強可塑性的模型基座,是模型進行深度領(lǐng)域適配的高質(zhì)量起在Base基礎(chǔ)上,經(jīng)過SFT和RLHF,面向?qū)υ捊换ミM行了優(yōu)化,具有很好的指令遵循、共情聊天和調(diào)用工具等的能力為輕量級的研究和應(yīng)用提供了一個輕便但性能不俗的模型模型的綜合性能更為強勁,可有效支持更加復(fù)雜的實用場景下游任務(wù)性能針對性補充語料,重點加強世界知識、數(shù)理、代碼等核心能力利用高質(zhì)量語料的特征從物理世界、互聯(lián)網(wǎng)下游任務(wù)性能針對性補充語料,重點加強世界知識、數(shù)理、代碼等核心能力利用高質(zhì)量語料的特征從物理世界、互聯(lián)網(wǎng)以及語料庫中進一步富集更多類似語料InternLMData-V1InternLMData-V2三代數(shù)據(jù)訓(xùn)練的7B模型在下游任務(wù)中的性能成長曲線訓(xùn)練數(shù)據(jù)(tokens)回歸語言建模的本質(zhì)新一代數(shù)據(jù)清洗過濾技術(shù)基于文本質(zhì)量基于文本質(zhì)量、信息質(zhì)量、信息密度等維度對數(shù)據(jù)價值進行綜合評估與提升00InternLM-7BInternLM2-Base-7B5初代InternLM和InternLM2在大規(guī)模高質(zhì)量的驗證語料上的loss分布書生·浦語2.0(InternLM2)的主要亮點精準指令跟隨,豐富的結(jié)構(gòu)化創(chuàng)作,在AlpacaEval2超越精準指令跟隨,豐富的結(jié)構(gòu)化創(chuàng)作,在AlpacaEval2超越GPT-3.5和模型在20萬token上下文中,幾乎完美實現(xiàn)“大海撈針”強大的內(nèi)生計算能力,加入代碼解釋后,在GSM8K和MATH達到和GPT-4相仿水平推理、數(shù)學(xué)、代碼提升顯著InternLM2-Chat-20B在重點評測上比肩ChatGPT可靠支持工具多輪調(diào)用,復(fù)雜智能體搭建模型在20萬字長輸入中幾乎完美地實現(xiàn)長文“大海撈針”InternLM-Chat-7BInternLM2-Chat-7BChatGLM3-6B-32KQwen-7B-Chat考試40300語言代碼數(shù)學(xué)知識推理InternLM2-考試40300語言代碼數(shù)學(xué)知識推理InternLM2-Chat-20BQwen-14B-ChatBaichuan2-13B-ChatMixtral-8x7B-Instruct-v0.1主要亮點2:性能全方位提升在各能力維度全面進步,在推理、數(shù)學(xué)、代碼等方面的能力提升尤為顯著,綜合性能達到同量級開源模型的領(lǐng)先水平,在重點能力評測上InternLM2-Chat-20B甚至可以達到比肩ChatGPT(GPT-3.5)的水平代碼代碼數(shù)學(xué)考試40300推理語言知識InternLM2-Chat-7BChatGLM3-6B-32KQwen-7B-ChatBaichuan2-7B-ChatMistral-7B-Instruct-v0.2MMLUCMMLUAGIEvalC-EvalTrivialQANaturalQuestionsC3CMRCWinoGrandeBBHGSM-8KMathHumanEvalMBPPMMLUCMMLUAGIEvalC-EvalTrivialQANaturalQuestionsC3CMRCWinoGrandeBBHGSM-8KMathHumanEvalMBPP0MMLUCMMLUAGIEvalC-EvalTrivialQANaturalQuestionsC3CMRCWinoGrandeBBHGSM-8KMathHumanEvalMBPPMMLUCMMLUAGIEvalC-EvalTrivialQANaturalQuestionsC3CMRCWinoGrandeBBHGSM-8KMathHumanEvalMBPP00主要亮點2:性能全方位提升7B67.753.050.372.1GSM8K79.631.967.165.8):主要亮點3:優(yōu)秀的對話和創(chuàng)作體驗貼心又可靠的AI助手充滿人文關(guān)懷的對話富有想像力的創(chuàng)作主要亮點4:工具調(diào)用能力升級工具調(diào)用能夠極大地拓展大語言模型的能力邊界,使得大語言模型能夠通過搜索、計算、代碼解釋器等獲取最新的知識并處理更加復(fù)雜的問題。InternLM2進一步升級了模型的工具調(diào)用能力,能夠更穩(wěn)定地進行工具篩選和多步驟規(guī)劃,完成復(fù)雜任務(wù)借助代碼解釋器,借助代碼解釋器,模型能夠編寫代碼進行更復(fù)雜的計算,或者對推理的結(jié)果進行形式化驗證,從而可以解決計算要求更高或者演算過程更加復(fù)雜的問題在預(yù)訓(xùn)練階段,在預(yù)訓(xùn)練階段,模型吸收了豐富的數(shù)學(xué)相關(guān)的語料,在微調(diào)階段,模型全面學(xué)習(xí)了覆蓋不同學(xué)段各類知識點的題目,使得模型內(nèi)生基于在計算及工具調(diào)用方面強大的基礎(chǔ)能力,InternLM2在語言模型中具備了數(shù)據(jù)分析和可視化實用能力,進一步貼近用戶使用場景強大的內(nèi)生計算能力InternLM2針對性提高了模型的計算能力,在不依靠計算器等外部工具的情況下,在100以內(nèi)的簡單數(shù)學(xué)運算上能夠做到接近100%的準確率,在1000以內(nèi)達到80%左右的運算準確率依賴模型優(yōu)秀的內(nèi)生能力,InternLM2不借助外部工具就能夠進行部分復(fù)雜數(shù)學(xué)題的運算和求解代碼解釋器:更上一層樓在典型的數(shù)學(xué)評測集GSM8K和MATH上,配合代碼解釋器,InternLM2都能夠在本身已經(jīng)較高的分數(shù)上,進一步獲得提升。其中對于難度更高的MATH數(shù)據(jù)集,借助代碼解釋器,精度從32.5大幅提升到51.2,甚至超過了GPT-4的表現(xiàn)GSM8KInternLM2單純依靠模型能力InternLM2配合代碼解釋器ChatGPT(GPT-3.5)GPT-4配合代碼解釋器,配合代碼解釋器,20B模型已經(jīng)能夠完成一些例如積分求解等大學(xué)級別的數(shù)學(xué)題目實用的數(shù)據(jù)分析功能從模型到應(yīng)用智能客服書生·浦語個人助手行業(yè)應(yīng)用從模型到應(yīng)用典型流程模型選型(評測)模型選型(評測)部分參數(shù)微調(diào)構(gòu)建智能體否部分參數(shù)微調(diào)構(gòu)建智能體否是是模型部署模型評測續(xù)訓(xùn)/全參數(shù)微調(diào)是是是模型部署模型評測續(xù)訓(xùn)/全參數(shù)微調(diào)是否否否否書生·浦語全鏈條開源開放體系部署LMDeploy評測OpenCompass數(shù)據(jù)書生·萬卷部署LMDeploy評測OpenCompass數(shù)據(jù)書生·萬卷預(yù)訓(xùn)練InternLM-Train微調(diào)XTunerLagentAgentLego全鏈條開源開放體系|數(shù)據(jù)飛速成長豐富多樣的開放數(shù)據(jù)飛速成長模態(tài)數(shù)據(jù)集模態(tài)數(shù)據(jù)集數(shù)據(jù)大小數(shù)據(jù)大小80TBtokens語料小時音頻··片段視頻服務(wù)與工具高效采集整體效率可提升40%智能標注高效采集整體效率可提升40%智能標注靈活檢索圖像-文本數(shù)據(jù)集視頻數(shù)據(jù)圖像-文本數(shù)據(jù)集視頻數(shù)據(jù)全鏈條開源開放體系|開放高質(zhì)量語料數(shù)據(jù)數(shù)據(jù)集獲?。?億份原始數(shù)據(jù)中“萃取”四重“萃取”HybridZero獨特技術(shù)——HybridZero獨特技術(shù)——浦語訓(xùn)練框架——Megatron-deepspeed等技術(shù)生態(tài),支持各類5-預(yù)訓(xùn)練微調(diào)全鏈條開源開放體系|微調(diào)大語言模型的下游應(yīng)用中,增量續(xù)訓(xùn)和有監(jiān)督微調(diào)是經(jīng)常會用到兩種方式。增量續(xù)訓(xùn)使用場景:讓基座模型學(xué)習(xí)到一些新知識,如某個垂類領(lǐng)域知識訓(xùn)練數(shù)據(jù):文章、書籍、代碼等部分參數(shù)微調(diào)部分參數(shù)微調(diào)全量參數(shù)微調(diào)有監(jiān)督微調(diào)使用場景:讓模型學(xué)會理解各種指令進行對話,或者注入少量領(lǐng)域知識訓(xùn)練數(shù)據(jù):高質(zhì)量的對話、問答數(shù)據(jù)適配多種生態(tài)適配多種生態(tài)適配多種硬件全鏈條開源開放體系|微調(diào)高效微調(diào)框架XTuner全鏈條開源開放體系|微調(diào)2.格式化問答對可訓(xùn)練語料全鏈條開源開放體系|微調(diào)極致的顯存優(yōu)化:消費級顯卡(8GB)玩轉(zhuǎn)微調(diào)0全鏈條開源開放體系|評測MMLUAlpacaOpenLLMLeaderboard機構(gòu)類型客觀評測客觀/主觀評測客觀評測主觀評測客觀/主觀評測客觀評測量級英文題目8W+中英雙語英文題目英文題目中文題目英文題目OpenCompass2.0司南大模型評測體系開源歷程完成Alpha版本開發(fā)OpenCompass數(shù)據(jù)和性能對比上線聯(lián)合南京大學(xué)推出大模型司法能力評測基準支持千億參數(shù)語言大模型高效評測支持100+開源模型的多維度性能對比構(gòu)建多層能力體系助力法律場景能力分析1月30日OpenCompass2.0司南大模型評測體系正式發(fā)布...完成Alpha版本開發(fā)OpenCompass數(shù)據(jù)和性能對比上線聯(lián)合南京大學(xué)推出大模型司法能力評測基準支持千億參數(shù)語言大模型高效評測支持100+開源模型的多維度性能對比構(gòu)建多層能力體系助力法律場景能力分析1月30日OpenCompass2.0司南大模型評測體系正式發(fā)布....學(xué)術(shù)評測支持最完善的評測工具之一發(fā)布穩(wěn)定可復(fù)現(xiàn)代碼評測鏡像發(fā)布多模支持5大能力維度,70個數(shù)據(jù)集,40萬評測題目提供多編程語言能力分析和對比支持包括Gemini學(xué)術(shù)評測支持最完善的評測工具之一發(fā)布穩(wěn)定可復(fù)現(xiàn)代碼評測鏡像發(fā)布多模支持5大能力維度,70個數(shù)據(jù)集,40萬評測題目提供多編程語言能力分析和對比支持包括GeminiOpenCompass助力大模型產(chǎn)業(yè)發(fā)展和學(xué)術(shù)研究gnuThesetypesofprojectsprovideaexamples.Someofthesepro如何通過能力評測促進模型發(fā)展?評測體系需增加新能力維度,如數(shù)學(xué)、復(fù)雜推理、評測體系需增加新能力維度,如數(shù)學(xué)、復(fù)雜推理、邏輯推理、代碼和智能體等,以全面評估模型性能。在醫(yī)療、金融、法律等專業(yè)領(lǐng)域,評測需結(jié)合行業(yè)知識和規(guī)范,以評估模型的行業(yè)適用性。針對中文場景,需要開發(fā)能準確評估其能力的中文評測基準,促進中文社區(qū)的大模型發(fā)展。通過深入分析評測性能,探索模型能力形成機制,發(fā)現(xiàn)模型不足,研究針對性提升策略。發(fā)布權(quán)威榜單洞悉行業(yè)趨勢CompassRankCompassHub提供高時效性發(fā)布權(quán)威榜單洞悉行業(yè)趨勢CompassRankCompassHub提供高時效性匯集社區(qū)力量:工具–基準–榜單三位一體支撐高效評測支持能力分析CompassKitCompassRank:中立全面的性能榜單CompassKit:大模型評測全棧工具鏈OpenCompass核心代碼庫功能全面升級CompassKit:大模型評測全棧工具鏈一站式多模態(tài)評測工具,支持主流多一站式多模態(tài)評測工具,支持主流多模態(tài)模型和數(shù)據(jù)集,助力社區(qū)比較不同多模態(tài)模型在各種任務(wù)上的性能。提供基于docker的統(tǒng)一編程語言評測環(huán)境,確保代碼能力評測的穩(wěn)定性和可復(fù)現(xiàn)性。為MoE模型初學(xué)者提供學(xué)習(xí)資料、模型架構(gòu)解析、推理與評測教程等入門工具。CompassHub:高質(zhì)量評測基準社區(qū)OpenCompass2.0能力維度全面升級考察大模型在如語言、知識、理解、數(shù)學(xué)、代碼、推理等維度上的基本功語言知識推理理解代碼數(shù)學(xué)語言知識推理理解代碼考察大模型綜合運用各類知識、理解與分析、多步推理、代碼工具等來完成復(fù)雜任務(wù)的能力水平長文本創(chuàng)作對話考試評價智能體長文本創(chuàng)作對話考試評價多維度的LLM反思能力評估基準多層次數(shù)學(xué)能力評測基準大模型細粒度工具能力評測基準多場景中文創(chuàng)作能力評測基準代碼解釋器能力評測基準大模型基礎(chǔ)能力評測基準多維度的LLM反思能力評估基準多層次數(shù)學(xué)能力評測基準大模型細粒度工具能力評測基準多場景中文創(chuàng)作能力評測基準代碼解釋器能力評測基準大模型基礎(chǔ)能力評測基準夯實基礎(chǔ):自研高質(zhì)量大模型評測基準洞見未來:年度榜單與能力分析 Nanbeige-16B-Chat-32K Vicuna-13B-v1.5-16k Nanbeige-16B-Chat-32K Vicuna-13B-v1.5-16k GPT-4-Turbo阿里巴巴Qwen-Max智譜清言GLM-4百度ERNIEBot-ProYi-34B-ChatInternLM2-Chat-20B百川智能Baichuan2-TurboQwen-72B-ChatInternLM2-Chat-7BDeepSeek-67B-ChatQwen-14B-ChatGPT-3.5-TurboOrionStar-Yi-34B-ChatMiniMax-abab5.5-chatBaichuan2-13B-ChatYi-6B-ChatMixtral-8x7B-Instruct-v0.1WizardLM-70B-V1.0ChatGLM3-6B-32KDeepSeek-7B-ChatBaichuan2-7B-ChatQwen-7B-ChatNanbeige-16B-Chat-32KMistral-7B-Instruct-v0.2Vicuna-13B-v1.5-16kLlamaGPT-4-Turbo阿里巴巴Qwen-Max智譜清言GLM-4百度ERNIEBot-ProYi-34B-ChatInternLM2-Chat-20B百川智能Baichuan2-TurboQwen-72B-ChatInternLM2-Chat-7BDeepSeek-67B-ChatQwen-14B-ChatGPT-3.5-TurboOrionStar-Yi-34B-ChatMiniMax-abab5.5-chatBaichuan2-13B-ChatYi-6B-ChatMixtral-8x7B-Instruct-v0.1WizardLM-70B-V1.0ChatGLM3-6B-32KDeepSeek-7B-ChatBaichuan2-7B-ChatQwen-7B-ChatNanbeige-16B-Chat-32KMistral-7B-Instruct-v0.2Vicuna-13B-v1.5-16kLlama2-70B-ChatLlama2-13B-ChatVicuna-7B-v1.5-16kZephyr-7B-βLlama2-7B-ChatWizardLM-13B-V1.2洞見未來:OpenCompass年度榜單(主觀評測-對戰(zhàn)勝率)400GPT-4-Turbo智譜清言GLM-4阿里巴巴Qwen-Max百度ERNIEBot-ProQwen-72B-ChatMiniMax-abab5.5-chatInternLM2-Chat-20BYi-34B-ChatGPT-3.5-Turbo百川智能Baichuan2-TurboOrionStar-Yi-34B-ChatInternLM2-Chat-7BQwen-14B-ChatDeepSeek-67B-ChatMixtral-8x7B-Instruct-v0.1Qwen-7B-ChatNanbeige-16B-Chat-32KChatGLM3-6B-32KBaichuanGPT-4-Turbo智譜清言GLM-4阿里巴巴Qwen-Max百度ERNIEBot-ProQwen-72B-ChatMiniMax-abab5.5-chatInternLM2-Chat-20BYi-34B-ChatGPT-3.5-Turbo百川智能Baichuan2-TurboOrionStar-Yi-34B-ChatInternLM2-Chat-7BQwen-14B-ChatDeepSeek-67B-ChatMixtral-8x7B-Instruct-v0.1Qwen-7B-ChatNanbeige-16B-Chat-32KChatGLM3-6B-32KBaichuan2-13B-ChatYi-6B-ChatWizardLM-70B-V1.0Llama2-70B-ChatBaichuan2-7B-ChatDeepSeek-7B-ChatMistral-7B-Instruct-v0.2WizardLM-13B-V1.2Vicuna-13B-v1.5-16kZephyr-7B-βLlama2-13B-ChatVicuna-7B-v1.5-16kLlama2-7B-Chat400洞見未來:OpenCompass年度榜單(綜合性客觀評測)70語言知識推理數(shù)學(xué)代碼智能體群策群力:攜手行業(yè)領(lǐng)先共建繁榮生態(tài)全鏈條開源開放體系|部署內(nèi)存開銷巨大?龐大的參數(shù)量:7B模型僅權(quán)重動態(tài)Shape模型結(jié)構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院餐廳衛(wèi)生間管理制度
- 衛(wèi)生院防盜防火制度
- 日料店衛(wèi)生規(guī)章制度
- 衛(wèi)生院財務(wù)內(nèi)控管理制度
- 學(xué)校衛(wèi)生考評制度
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院治安工作制度
- 衛(wèi)生院助產(chǎn)工作制度
- 幼兒園師生個人衛(wèi)生制度
- 基層衛(wèi)生院應(yīng)急管理制度
- 幼兒園教師衛(wèi)生管理制度
- 四年級下冊語文作文范文1-8單元
- DLT 721-2013 配電網(wǎng)自動化系統(tǒng)遠方終端
- 體外循環(huán)心臟手術(shù)配合
- 鋼管運輸方案
- 企業(yè)訴訟案件管理辦法
- 給醫(yī)生感謝信又短又好(5篇)
- 濕疹 (中醫(yī)院皮膚科)
- 實驗室儀器設(shè)備驗收單
- 智能照明系統(tǒng)調(diào)試記錄
- 關(guān)于若干歷史問題的決議(1945年)
- 畢業(yè)論文8000字【6篇】
評論
0/150
提交評論