版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人類(lèi)經(jīng)驗(yàn)與AI算法的鏡像之旅報(bào)告提綱語(yǔ)言的奧秘:人類(lèi)如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號(hào)到智能:AI的語(yǔ)言理解之路智能體時(shí)代:AI如何重塑教育未來(lái)DeepSeek-V3:大語(yǔ)言模型的構(gòu)建與進(jìn)化語(yǔ)言對(duì)我們有多重要語(yǔ)言造就了人類(lèi),人和動(dòng)物的根本區(qū)別就是人具有創(chuàng)造性地運(yùn)用語(yǔ)言的能力語(yǔ)言賦予人類(lèi)秩序語(yǔ)言是思維的工具語(yǔ)言是合作的紐帶如果想要實(shí)現(xiàn)通用的人工智能,理解人類(lèi)使用的不太精確、可能有歧義、混亂的語(yǔ)言是一個(gè)有效途徑。語(yǔ)言對(duì)我們有多重要,《光明日?qǐng)?bào)》,劉松青,2019-06-01維克多-D.O.-桑托斯的《是什么讓我們成為人類(lèi)》人類(lèi)是如何理解語(yǔ)言的?下雨了我要趕緊回家...“下雨”/“家”
/“收衣服”這些詞語(yǔ),基于我們的經(jīng)驗(yàn),在我們大腦中已經(jīng)建立了固定的神經(jīng)連接。人類(lèi)是如何理解語(yǔ)言的?下雨了我要趕緊回家收衣服。人類(lèi)大腦通過(guò)理解每個(gè)詞語(yǔ)的意思、進(jìn)行詞語(yǔ)組裝,從而得到句子的意思,甚至推斷出句子背后的含義。因此,理解語(yǔ)言的基礎(chǔ)是理解詞語(yǔ)及詞語(yǔ)間的關(guān)聯(lián)關(guān)系。人類(lèi)是如何理解語(yǔ)言的?人類(lèi)語(yǔ)言的精準(zhǔn)解譯與語(yǔ)義歧義的消解具有顯著的語(yǔ)境依賴性,需通過(guò)系統(tǒng)性整合上下文信息構(gòu)建語(yǔ)義解析模型。這個(gè)蘋(píng)果品質(zhì)真高,已通過(guò)歐盟有機(jī)認(rèn)證,每顆果實(shí)都帶有NFC溯源標(biāo)簽。報(bào)告提綱語(yǔ)言的奧秘:人類(lèi)如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號(hào)到智能:AI的語(yǔ)言理解之路智能體時(shí)代:AI如何重塑教育未來(lái)DeepSeek-V3:大語(yǔ)言模型的構(gòu)建與進(jìn)化計(jì)算機(jī)的數(shù)字化世界TowardsSeamlessCommunicationforSignLanguageSupport:Architecture,Algorithms,andOptimization計(jì)算機(jī)理解一切信息的基礎(chǔ)是將信息進(jìn)行數(shù)字化。在處理圖像時(shí),計(jì)算機(jī)會(huì)將圖像的每一個(gè)像素轉(zhuǎn)換為數(shù)字信號(hào),通常使用顏色的RGB值來(lái)表示每個(gè)像素。語(yǔ)言的數(shù)字化計(jì)算機(jī)無(wú)法直接理解離散的人類(lèi)語(yǔ)言詞向量(word
embedding)和詞與詞之間的位置關(guān)系詞向量及單詞之間的相似度歐式距離:兩個(gè)點(diǎn)(或向量)在空間中的“直線距離”。它反映了兩個(gè)向量的絕對(duì)差異。歐氏距離值越小,說(shuō)明兩個(gè)向量越接近;值越大,說(shuō)明差異越大。余弦相似度:兩個(gè)向量之間夾角的余弦值來(lái)衡量它們的相似度。它反映了兩個(gè)向量的方向是否相似,而不關(guān)心向量的大小。更適用于比較兩者相似性(如文本相似度)。dogcatman詞向量模型的缺陷https://jalammar.github.io/illustrated-transformer/在序列數(shù)據(jù)中,同一個(gè)元素處在不同的上下文中意思是不同的。如:(1) Theanimaldidn’tcrossthestreetbecauseitwastoo
tied.r(那只動(dòng)物沒(méi)有過(guò)馬路,因?yàn)樗哿恕?(2)Theanimaldidn’tcrossthestreetbecauseitwastoo
wde.i(那只動(dòng)物沒(méi)有過(guò)馬路,因?yàn)轳R路太寬了。)然而,傳統(tǒng)的詞向量模型中同一個(gè)詞只有一個(gè)向量,這對(duì)于一些詞語(yǔ)會(huì)造成歧義問(wèn)題,如何解決這個(gè)問(wèn)題呢?注意力機(jī)制與上下文建模大語(yǔ)言模型通過(guò)使用Transformer架構(gòu),可以為每個(gè)詞生成一個(gè)上下文相關(guān)的詞向量,這解決了傳統(tǒng)詞向量無(wú)法處理多義詞和上下文依賴的問(wèn)題。一個(gè)單詞的真實(shí)含義,不僅僅取決于它自身,還取決于句子中的其它上下文信息(來(lái)自其它單詞的信息)。一個(gè)單詞的向量值,需要融合從句子上下文中的其他單詞中的信息,在數(shù)學(xué)上可以表達(dá)為所有單詞的向量值的加權(quán)平均。這些權(quán)重值,我們可以稱之為注意力權(quán)重
(attentionweights)。https://jalammar.github.io/illustrated-transformer/it與其他單詞之間的注意力權(quán)重。藍(lán)色的深淺表達(dá)了權(quán)重的相對(duì)大小。報(bào)告提綱語(yǔ)言的奧秘:人類(lèi)如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號(hào)到智能:AI的語(yǔ)言理解之路智能體時(shí)代:AI如何重塑教育未來(lái)DeepSeek-V3:大語(yǔ)言模型的構(gòu)建與進(jìn)化文字接龍游戲大語(yǔ)言模型(LLM)最令人印象深刻的能力是它能夠通過(guò)對(duì)話的方式回答用戶的問(wèn)題。那么LLM回答問(wèn)題的原理是什么呢?不同于傳統(tǒng)問(wèn)答系統(tǒng)中答案來(lái)源于現(xiàn)成的網(wǎng)絡(luò)或者數(shù)據(jù)庫(kù),大語(yǔ)言模型的回答是隨著提問(wèn)的進(jìn)行自動(dòng)生成的。這一點(diǎn)很像文字接龍游戲,大語(yǔ)言模型會(huì)基于前面的話不斷地生成下一個(gè)合成的詞匯,直到覺(jué)得不必繼續(xù)生成為止。蘋(píng)果是一種水果嗎?王一博,ChatGPT發(fā)展史:從基礎(chǔ)神經(jīng)元到多模態(tài)智能體,科學(xué)雜志大模型是如何工作的數(shù)學(xué)家陶哲軒:大模型不是魔法,是基于概率的猜測(cè)機(jī)。那么大模型是如何不斷生成下一個(gè)詞的概率的呢?實(shí)際上,這一過(guò)程依賴于模型內(nèi)部的參數(shù),這些參數(shù)通過(guò)大量數(shù)據(jù)的訓(xùn)練來(lái)不斷調(diào)整,蘊(yùn)含了數(shù)據(jù)的分布規(guī)律,從而使模型能夠在特定上下文下預(yù)測(cè)出最合適的下一個(gè)詞。并且,當(dāng)這些參數(shù)單元的數(shù)量級(jí)提升時(shí),系統(tǒng)的認(rèn)知能力通常會(huì)呈現(xiàn)出顯著的進(jìn)化趨勢(shì)。-
0
.
0
12
.
3
41
.
0
9.
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
.?DeepSeek-V3
滿血版是67模型B:Billion
10億?(蘋(píng)果是一種水果嗎?)是的大模型的參數(shù)實(shí)際是什么東西?通俗解釋大模型是如何工作的Spreadsheets-are-all-you-need:在Excel
中完全實(shí)現(xiàn)了
GPT2
的前向推理過(guò)程。大模型的參數(shù)實(shí)際是什么東西?通俗解釋大模型參數(shù)是如何通過(guò)學(xué)習(xí)得到的?y=0.516x+0.8567(高爾頓)父親身高兒子身高(米)(米)1.651.691.721.751.781.801.831.791.901.83希望能夠得到一個(gè)模型:基于父親的身高預(yù)測(cè)兒子的未來(lái)身高。?=??+
?類(lèi)似地,大語(yǔ)言模型的參數(shù)也是通過(guò)大量數(shù)據(jù)的學(xué)習(xí),逐漸調(diào)整和優(yōu)化的,將數(shù)據(jù)的規(guī)律壓縮到參數(shù)中,以便對(duì)新的數(shù)據(jù)進(jìn)行更準(zhǔn)確地預(yù)測(cè)和生成合適的輸出。大模型訓(xùn)練流程數(shù)據(jù)集訓(xùn)練耗時(shí)模型算法預(yù)訓(xùn)練原始數(shù)據(jù)萬(wàn)億級(jí)別詞匯海量數(shù)據(jù)語(yǔ)言模型預(yù)訓(xùn)練預(yù)測(cè)下一個(gè)詞基座模型千級(jí)別GPU,數(shù)月示例:GPT、LLaMA、PaLM指令微調(diào)指令數(shù)據(jù)數(shù)萬(wàn)提示回復(fù)對(duì)<用戶指令,對(duì)應(yīng)回復(fù)>語(yǔ)言模型監(jiān)督微調(diào)預(yù)測(cè)下一個(gè)詞指令微調(diào)模型1-100個(gè)GPU,數(shù)天示例:Vicuna-13B獎(jiǎng)勵(lì)函數(shù)對(duì)比數(shù)據(jù)百萬(wàn)次比較二元分類(lèi)模型預(yù)測(cè)偏好一致的獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)模型1-100個(gè)GPU,數(shù)天強(qiáng)化學(xué)習(xí)指令數(shù)據(jù)十萬(wàn)次指令強(qiáng)化學(xué)習(xí)生成最大化獎(jiǎng)勵(lì)的詞強(qiáng)化學(xué)習(xí)模型1-100個(gè)GPU,數(shù)天示例:ChatGPT,ClaudeStateofGPT,MicrosoftBuild2023,Andrej
Karpathy預(yù)訓(xùn)練階段在模型預(yù)訓(xùn)練(Pretraining)環(huán)節(jié),系統(tǒng)通過(guò)整合多種來(lái)源的數(shù)據(jù)資源構(gòu)建訓(xùn)練集,這些數(shù)據(jù)涵蓋互聯(lián)網(wǎng)網(wǎng)頁(yè)、維基百科、書(shū)籍、GitHub代碼庫(kù)、學(xué)術(shù)文獻(xiàn)及社區(qū)問(wèn)答平臺(tái)等各類(lèi)數(shù)據(jù)源,形成總量達(dá)萬(wàn)億單詞級(jí)的多樣化語(yǔ)料庫(kù)?;诔?jí)計(jì)算集群(集成數(shù)千塊高性能GPU)和分布式訓(xùn)練算法,逐步優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的數(shù)千億參數(shù),最終形成具備通用語(yǔ)義理解能力的基座模型(BaseModel)。DeepSeek-V3模型的訓(xùn)練語(yǔ)料庫(kù)包含14.8萬(wàn)億詞元(Token)。若讓一個(gè)人每秒讀1個(gè)詞:需要
47萬(wàn)年才能讀完,相當(dāng)于從智人走出非洲開(kāi)始晝夜不停讀到今天。假設(shè)每個(gè)token是一顆沙粒,14.8萬(wàn)億顆沙可填滿4.5個(gè)北京水立方。預(yù)訓(xùn)練階段原話:
一輛
列車(chē)
緩慢 行駛
在
崎嶇
的
山路上移除單詞:
一輛
列車(chē)
行駛
在
崎嶇
的
山路上預(yù)測(cè)填空:
一輛
列車(chē)
緩慢
行駛
在
崎嶇
的
山路上預(yù)訓(xùn)練階段的訓(xùn)練方法:完形填空下的自監(jiān)督學(xué)習(xí)(Self-supervised
Leaning)在預(yù)訓(xùn)練階段,人工智能模型會(huì)不斷地在句子中‘挖去’一個(gè)單詞,根據(jù)剩下單詞的上下文來(lái)填空,即預(yù)測(cè)最合適的‘填空詞’出現(xiàn)的概率,這一過(guò)程為‘自監(jiān)督學(xué)習(xí)’。指令微調(diào)階段指令微調(diào)階段的訓(xùn)練方法:指令微調(diào)(Instruction
Tuning),亦稱有監(jiān)督微調(diào)(SupervisedFinetuning),是一種通過(guò)向模型提供明確任務(wù)指令來(lái)實(shí)現(xiàn)參數(shù)優(yōu)化的方法。在此過(guò)程中,模型不僅學(xué)習(xí)輸入與輸出的映射關(guān)系,更重要的是掌握如何理解并執(zhí)行各類(lèi)任務(wù)指令。該階段的訓(xùn)練數(shù)據(jù)通常由少量高質(zhì)量樣本構(gòu)成,這些樣本包含用戶輸入的提示詞(prompt)及其對(duì)應(yīng)的理想輸出(response)結(jié)果,從而確保模型能夠準(zhǔn)確理解和響應(yīng)特定任務(wù)需求。指令微調(diào)數(shù)據(jù)示例提示詞(Prompt):浙江大學(xué)的發(fā)展歷史?理想輸出(Response):浙江大學(xué)前身是創(chuàng)立于1897年的求是書(shū)院,1914年停辦。1928年于求是書(shū)院舊址新建國(guó)立浙江大學(xué)。1937年舉校西遷,在遵義、湄潭等地辦學(xué),1946年秋回遷杭州。1952年部分系科轉(zhuǎn)入中國(guó)科學(xué)院和其他高校,主體部分在杭州重組為若干所院校,后分別發(fā)展為原浙江大學(xué)、杭州大學(xué)、浙江農(nóng)業(yè)大學(xué)和浙江醫(yī)科大學(xué)。1998年,同根同源的四校實(shí)現(xiàn)合并,組建了新的浙江大學(xué)。獎(jiǎng)勵(lì)建模和強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)建模(Reward
Modeling):構(gòu)建一個(gè)能夠評(píng)估模型生成內(nèi)容質(zhì)量的獎(jiǎng)勵(lì)模型(Reward
Model)。在強(qiáng)化學(xué)習(xí)階段,模型通過(guò)與獎(jiǎng)勵(lì)模型的交互,優(yōu)化其生成策略以最大化獎(jiǎng)勵(lì)。主要采用基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF,
Reinforcement
Learning
from
Human
Feedback)方法。模型根據(jù)獎(jiǎng)勵(lì)模型的反饋調(diào)整參數(shù),從而生成更符合人類(lèi)偏好的文本。報(bào)告提綱語(yǔ)言的奧秘:人類(lèi)如何解碼世界DeepSeek-R1:推理模型的誕生與突破從符號(hào)到智能:AI的語(yǔ)言理解之路智能體時(shí)代:AI如何重塑教育未來(lái)DeepSeek-V3:大語(yǔ)言模型的構(gòu)建與進(jìn)化什么是推理模型問(wèn)題:Joy能在20分鐘內(nèi)讀8頁(yè)書(shū)。她需要多少小時(shí)才能讀完120頁(yè)書(shū)?Joy讀5個(gè)小時(shí)才能讀完120頁(yè)。簡(jiǎn)單回答Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒一個(gè)小時(shí)有60分鐘,20分鐘可以分成幾組呢?60÷20=3組。所以,Joy每小時(shí)可以讀8頁(yè)
×
3組=24頁(yè)。接著,Joy需要讀120頁(yè),計(jì)算她需要的時(shí)間:120÷24=5小時(shí)。因此,Joy需要5小時(shí)才能讀完120頁(yè)書(shū)。帶有中間推理步驟的回答推理模型:推理模型是指能夠進(jìn)行復(fù)雜推理任務(wù)的大型語(yǔ)言模型(LLMs)。這些模型能夠處理需要多步推導(dǎo)、計(jì)算或分析的問(wèn)題,通常涉及多個(gè)中間步驟。推理模型不僅能夠解決基本的推理問(wèn)題,還能應(yīng)對(duì)更復(fù)雜的任務(wù),如解謎、數(shù)學(xué)證明等。推理模型中的中間步驟可以通過(guò)兩種方式呈現(xiàn)。首先,它們可能會(huì)顯式地出現(xiàn)在回答中,如示例所示。其次,一些推理型LLM(如OpenAI的o1)會(huì)進(jìn)行多次迭代,而這些中間步驟則不會(huì)展示給用戶。推理模型是怎樣煉成的Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒推理模型R1-Zero是怎樣煉成的——純強(qiáng)化學(xué)習(xí)DeepSeek-R1-Zero的模板。在訓(xùn)練過(guò)程中,prompt將被替換為具體的推理問(wèn)題。激勵(lì)類(lèi)型準(zhǔn)確度激勵(lì):1+1=?
答對(duì)2得1分,否則0分格式激勵(lì):是否遵循<think></think><answer></answer>的格式,遵循得1分,否則0分沒(méi)有推理過(guò)程的激勵(lì)!Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒訓(xùn)練模版推理模型是怎樣煉成的DeepSeek-R1-Zero在RL過(guò)程中訓(xùn)練集上的平均響應(yīng)長(zhǎng)度。DeepSeek-R1-Zero自然地學(xué)會(huì)了通過(guò)更多的思考時(shí)間來(lái)解決推理任務(wù)。沒(méi)有用到中間的過(guò)程推理數(shù)據(jù)來(lái)監(jiān)督訓(xùn)練模型!Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒推理模型R1是怎樣煉成的——有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)DeepSeek-R1-Zero缺陷:可讀性差(poorreadability)和語(yǔ)言混淆(languagemixing)左腳踩右腳~Understanding
Reasoning
LLMs,
Sebastian
Raschka;DeepSeek-R1賞析,潛云思緒模型蒸餾——有監(jiān)督微調(diào)利用DeepSeek-R1和DeepSeek-V3產(chǎn)生的數(shù)據(jù)進(jìn)一步微調(diào)小規(guī)模LLM。超大規(guī)模的推理模型產(chǎn)生的數(shù)據(jù),可以大幅提升小規(guī)模模型的效果。Understanding
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026陜西長(zhǎng)嶺紡織機(jī)電科技有限公司招聘(13人)筆試備考題庫(kù)及答案解析
- 2026年征兵工作心理考試題庫(kù)及答案1套
- 2026福建廈門(mén)市工人文化宮合同制職工招聘1人筆試參考題庫(kù)及答案解析
- 2026年浙江省衢州市單招職業(yè)傾向性考試題庫(kù)及答案1套
- 2026年湖北職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試模擬測(cè)試卷及答案1套
- 2026河南鄭州大學(xué)物理學(xué)院人工微結(jié)構(gòu)課題組招聘科研助理1人筆試備考試題及答案解析
- 2026年桂林師范高等專(zhuān)科學(xué)校單招職業(yè)適應(yīng)性考試題庫(kù)附答案
- 2026年河南物流職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)附答案
- 2026福建泉州德化閩投抽水蓄能有限公司招聘筆試參考題庫(kù)及答案解析
- 2025廣西南寧市良慶區(qū)總工會(huì)招聘工作人員1人筆試備考題庫(kù)及答案解析
- 2026年共青團(tuán)中央所屬單位高校畢業(yè)生公開(kāi)招聘66人備考題庫(kù)及參考答案詳解
- 2026年6級(jí)英語(yǔ)模擬真題及答案
- 2025內(nèi)蒙古鄂爾多斯市委政法委所屬事業(yè)單位引進(jìn)高層次人才3人考試題庫(kù)含答案解析(奪冠)
- 2025年全國(guó)單獨(dú)招生考試綜合試卷(附答案) 完整版2025
- 2025-2026學(xué)年外研版八年級(jí)上冊(cè)英語(yǔ)期末模擬考試題(含答案)
- 洗衣液宣傳課件
- “五個(gè)帶頭”方面對(duì)照發(fā)言材料二
- TTAF 241.1-2024 支持衛(wèi)星通信的移動(dòng)智能終端技術(shù)要求和測(cè)試方法 第1部分:多模天通衛(wèi)星終端
- 奶茶品牌2026年新品研發(fā)上市流程
- 日常飲食營(yíng)養(yǎng)搭配
- 上海醫(yī)療收費(fèi)目錄
評(píng)論
0/150
提交評(píng)論