計(jì)算機(jī)行業(yè)專題研究:多模態(tài)加速燃燒算力_第1頁
計(jì)算機(jī)行業(yè)專題研究:多模態(tài)加速燃燒算力_第2頁
計(jì)算機(jī)行業(yè)專題研究:多模態(tài)加速燃燒算力_第3頁
計(jì)算機(jī)行業(yè)專題研究:多模態(tài)加速燃燒算力_第4頁
計(jì)算機(jī)行業(yè)專題研究:多模態(tài)加速燃燒算力_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)股票研究行業(yè)專題研究證券研究報(bào)告計(jì)算機(jī)股票研究行業(yè)專題研究證券研究報(bào)告多模態(tài)加速燃燒算力證書編號(hào)李博倫(分析師)libolun@本報(bào)告導(dǎo)讀:短期繼續(xù)看好算力板塊。細(xì)分行業(yè)評(píng)級(jí)計(jì)算機(jī)增持相關(guān)報(bào)告碼行業(yè)需求有望爆發(fā)》2023.10.31歌猛進(jìn)》2023.10.29計(jì)算機(jī)《增發(fā)國債有望扭轉(zhuǎn)政府信息化投資預(yù)期》2023.10.25度躍升》2023.10.18正當(dāng)時(shí)》2023.10.16和整合這些不同類型的數(shù)據(jù)源。這種模型可以捕獲跨模態(tài)的復(fù)雜關(guān)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款部分行業(yè)專題研究22of27 3 3 52.多模態(tài)技術(shù)逐步成熟,下游應(yīng)用場景逐步打開 52.1.多模態(tài)大模型歷經(jīng)迭代,成功落地 5 7 82.3.1.視覺-語言能力:掌握多領(lǐng)域的視覺語言識(shí)別和輸出 82.3.2.視覺標(biāo)記提示:具備視覺和時(shí)間維度的理解能力 2.3.3.時(shí)間和視頻理解:圖像和視頻方面的解析推理能力強(qiáng)大.152.3.4.抽象視覺推理:善于處理和解讀抽象視覺刺激 2.3.5.情商測試:提供情感洞察、審美判斷功能 2.4.GPT-4V新增多樣化需求,未 3.多模態(tài)大模型算力需求仍在持續(xù)增長 3.1.模型數(shù)據(jù)量顯著增加,訓(xùn)練算力需求激增445倍 3.2.多場景應(yīng)用持續(xù)落地,推理階段算力需求提升 4.投資建議 行業(yè)專題研究33of271.1.多模態(tài)大模型性能全面領(lǐng)先這種模型可以捕獲跨模態(tài)的復(fù)雜關(guān)系,使機(jī)器能夠更全面地理解和分析行業(yè)專題研究44of27圖2:GPT-4V可以處理文字、圖像以及圖像+文本交錯(cuò)的輸入GPT-4在可靠性、創(chuàng)造力和處理復(fù)雜任務(wù)的能力上都超越了GPT-4在眾多專業(yè)和學(xué)術(shù)基準(zhǔn)上展現(xiàn)出了人類水平的表現(xiàn)。它在模擬的GPT-4不僅在文本處理上更為出色,還具有接受文本和態(tài)功能,這使得用戶可以為其指定任何視覺或語言任務(wù)。在可控制性行業(yè)專題研究55of271.2.多模態(tài)模型主要經(jīng)歷三個(gè)時(shí)代推動(dòng)力,多模態(tài)模型已經(jīng)達(dá)到了前所未有的準(zhǔn)確性和復(fù)雜性。特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理方面,和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在機(jī)對(duì)于人類認(rèn)知世界方式的高度效仿。人類具備視覺,聽覺,觸覺,味覺和嗅覺五種模態(tài),單模態(tài)交互顯然是一個(gè)局限的、并不完整的模型。2.1.多模態(tài)大模型歷經(jīng)迭代,成功落地這些模型在大型語料庫上進(jìn)行自監(jiān)督預(yù)訓(xùn)練,然后微調(diào)到具體任務(wù)上,行業(yè)專題研究66of27圖6:Transformer使用Self-模型成功的啟發(fā),研究者試圖將其應(yīng)用于計(jì)算機(jī)視覺任務(wù)。但是,直接行業(yè)專題研究77of27OpenAI推出CLIP模型,實(shí)現(xiàn)多模態(tài)者進(jìn)一步考慮如何結(jié)合圖像和文本數(shù)據(jù),從而推出了多模態(tài)模型。圖像,而是在同一個(gè)模型中同時(shí)處理圖像和文本,讓模型學(xué)習(xí)圖像和文圖像的內(nèi)容并將其與文本描述相關(guān)聯(lián),實(shí)現(xiàn)真正意義上的多模態(tài)學(xué)習(xí)。圖8:CLIP模型包括文本和圖片編碼器和百度文心一言等,模型路線框架正在被產(chǎn)業(yè)驗(yàn)證,全面多模態(tài)時(shí)代已2.2.多模態(tài)VS單模態(tài)大模型,差異顯著單模態(tài)和多模態(tài)模型在數(shù)據(jù)輸入、設(shè)計(jì)結(jié)構(gòu)和數(shù)據(jù)相關(guān)性方面有明顯的特定數(shù)據(jù)類型的特征提取而優(yōu)化。因其專一性,它們?cè)谔幚硐鄳?yīng)數(shù)據(jù)時(shí)表現(xiàn)出色,但可能錯(cuò)過多種數(shù)據(jù)間的交互關(guān)系。相反,多模態(tài)模型處理多種數(shù)據(jù)輸入,結(jié)構(gòu)上更復(fù)雜,可能涉及使用多個(gè)子網(wǎng)絡(luò),然后將其輸出合并。它們可以捕獲不同數(shù)據(jù)源之間的交互和相關(guān)性,為任務(wù)提供更表1:單模態(tài)大模型與多模態(tài)大模型技術(shù)對(duì)比單模態(tài)模型多模態(tài)模型數(shù)據(jù)輸入數(shù)據(jù)處理模型架構(gòu)據(jù)源的信息的架構(gòu)。這通常涉及使用多個(gè)子模學(xué)習(xí)策略行業(yè)專題研究優(yōu)化與微調(diào)優(yōu)化更為復(fù)雜,因?yàn)槟P托枰诙鄠€(gè)任務(wù)和數(shù)應(yīng)用領(lǐng)域2.3.1.視覺-語言能力:GPT-4V具備在描述名人、地標(biāo)、食物和醫(yī)學(xué)圖像等不同領(lǐng)域的圖像的能夠準(zhǔn)確地描述各種地標(biāo),并提供有關(guān)它們歷史和重要性的詳細(xì)信息。行業(yè)專題研究99of27物理、生物學(xué)等科學(xué)領(lǐng)域的推理能力。模型能圖11:GPT-4V能夠理解表情包的笑點(diǎn)GPT-4V在多個(gè)領(lǐng)域展現(xiàn)了出色的圖像和文本理解能力,包括場景文本對(duì)于視覺數(shù)學(xué)推理,該模型能夠從圖像中提取關(guān)鍵信息,例如直角三角圖13:GPT-4V可以識(shí)別復(fù)雜場景中的文本圖14:GPT-4V可識(shí)別三種不同類型的文檔圖15:GPT-4V能夠用不同語言描述圖像圖16:GPT-然它處理復(fù)雜的方程式時(shí)可能遇到困難,但通過將這些方程式分解成簡圖17:GPT-4V能夠根據(jù)手寫輸入生成LaTex代碼圖14V也可以處理數(shù)字格式的區(qū)域坐標(biāo)。盡管它在處理這些坐標(biāo)時(shí)可能不行業(yè)專題研究如,模型可以將圖像上的箭頭與給定的對(duì)象關(guān)聯(lián),或理解圖像上的問題出可能不總是完美的,但這些指向輸出不僅幫助用戶理解模型的思路,行業(yè)專題研究2.3.3.時(shí)間和視頻理解:圖像和視頻方面的解析推理能力強(qiáng)大運(yùn)動(dòng)方向、速度和他們的身體語言。這意味著,它不僅僅是看到靜態(tài)的模型能夠準(zhǔn)確地指出哪一步是先,哪一步是后。這種能力證明了模型不來可能事件的預(yù)測。給定一組圖像序列,例如一個(gè)人正要踢足球,模型能夠預(yù)測出下一步可能是球飛向門還是被守門員撲救。這種預(yù)測能力展果推理。例如,模型可以分析守門員是否能夠擋住足球,這不僅基于他們的位置,還基于他們之前的動(dòng)作和速度。這一能力體現(xiàn)了模型的高級(jí)行業(yè)專題研究抽象視覺刺激:從不同的抽象視覺刺激中提取語義是人類的一個(gè)獨(dú)特能現(xiàn)。這種拼圖由七個(gè)平面圖形組成,可拼成各種不重疊的圖形。例如,模型能夠解讀一圖并推斷它最像一只飛翔的鵝。它還可以從其他格式的特定算法分割的物體部件,并成功地將它們組合成一個(gè)完整的圖像,如雷文進(jìn)階矩陣是一個(gè)知名的非語言智商測試。這個(gè)測試試圖消除語言、解讀面部的情感信息:GPT-4V在查看面部表情時(shí),不僅能準(zhǔn)確地識(shí)別出情感,還能為其提供背后的視覺線索。這證明了GPT-4V能夠深入理夠根據(jù)情感調(diào)整輸出內(nèi)容。當(dāng)被展示一個(gè)恐怖的圖像并被要求進(jìn)行描述時(shí),模型能夠按照給定的指示來增強(qiáng)或減輕其描述中的恐怖元素,確保圖27:GPT-4V可以從人的面部表情讀取情緒多或請(qǐng)求量大會(huì)增加對(duì)計(jì)算資源的需求,導(dǎo)致計(jì)算集群規(guī)模的擴(kuò)大,算學(xué)報(bào)告生成中,它可以根據(jù)各種醫(yī)學(xué)圖像生成完整的放射學(xué)報(bào)于評(píng)估生成報(bào)告的準(zhǔn)確性需要領(lǐng)域知識(shí),因此需要醫(yī)學(xué)專家進(jìn)行評(píng)估。2020of27圖29:GPT-4V可以識(shí)別出不同產(chǎn)品的缺陷圖30:GPT-4V可以可以為顯示在照片中的每個(gè)家庭成員生成姓名。這種個(gè)性化的方法有助2121of27圖31:GPT-4V可以生成汽車損壞評(píng)估圖32:GPT-4V可閱讀菜單來操作家用電器(例如咖啡機(jī))并在房子里進(jìn)行任務(wù)導(dǎo)向的導(dǎo)2222of27圖33:GPT-4V可以讀取咖啡機(jī)按鈕的完整菜單圖34:GPT-4V可通過用戶界面截圖瀏覽網(wǎng)頁3.多模態(tài)大模型算力需求仍在持續(xù)增長多模態(tài)大模型訓(xùn)練階段在數(shù)據(jù)源、模型結(jié)構(gòu)、計(jì)算操作方面更加復(fù)雜。交互和融合層的引入可能涉及復(fù)雜的計(jì)算操作,如注意力機(jī)制,會(huì)進(jìn)一和大模型的訓(xùn)練需求增加,訓(xùn)練算力的增長率大幅度提升,對(duì)訓(xùn)練算力超過300,000倍。我們認(rèn)為當(dāng)前多模態(tài)大模型仍在不斷迭代,訓(xùn)練階段行業(yè)專題研究2323of27圖35:訓(xùn)練算力在步入深度學(xué)習(xí)時(shí)代后開始快速增長C=τT≈6PDGPT-3GPT-4模型參數(shù)量(FLOPs)訓(xùn)練數(shù)據(jù)規(guī)模(Tokens)計(jì)算量(FLOPs)訓(xùn)練時(shí)長(s)吞吐量(FLOPs)單GPU混合計(jì)算算力(FLOPs/s)3.12E行業(yè)專題研究2424of27GPU利用率(%)單GPU實(shí)際混合計(jì)算算力(FLOPs/s)所需GPU數(shù)(片)而GPT-4的投資成本高達(dá)27.28億美元。如果選擇算力租賃,按照GPT-3GPT-4GPU單片購買價(jià)格(美元/片)GPU投資成本(萬美元)GPU單片租賃價(jià)格(美元/小時(shí))GPU租賃成本(萬美元)推理成本受到計(jì)算集群的規(guī)模、能力、使用效率、批次大小以及集群的度和效率,高性能的計(jì)算節(jié)點(diǎn)可以更快地完成任務(wù),從而降低單位任務(wù)從而最大化了每單位時(shí)間的計(jì)算輸出,減少了推理成本。此外,大批次戶會(huì)開始使用服務(wù),這需要更多的計(jì)算資源,模型的推理次數(shù)會(huì)繼續(xù)增行業(yè)專題研究2525of27多模態(tài)應(yīng)用前景廣泛。該平臺(tái)不僅推出了用于生成視頻腳本、文案及社圖38:Filmora可以根據(jù)文字生成圖像圖39:Runway可以根據(jù)文字及圖片生成視頻出方式中的應(yīng)用,內(nèi)容創(chuàng)作領(lǐng)域可能會(huì)經(jīng)歷前所未有的變革。這種廣泛的數(shù)據(jù)交互方式和豐富的應(yīng)用場景為提升用戶體驗(yàn)提供了巨大的可能4.投資建議啟,無論在訓(xùn)練階段還是在推理階段,對(duì)于算力的需求都相較于單模浪潮信息、拓維信息、恒潤股份、淳中科技,受益標(biāo)的紫光股份、中科曙光、四川長虹、真視通、中國長城、蓮花健康、鴻博股份、潤建行業(yè)專題研究2626of27表4:推薦標(biāo)的估值表公司名稱股票代碼收盤價(jià)(元)評(píng)級(jí)5.風(fēng)險(xiǎn)提示應(yīng)用端發(fā)展進(jìn)度低于預(yù)期。雖然模型短期在技術(shù)上有一定突破,但最終行業(yè)繁榮有賴于AI原生爆款應(yīng)用誕生,應(yīng)用端場景相關(guān),管理毫無關(guān)聯(lián)的業(yè)務(wù)板塊可能對(duì)企業(yè)管理層產(chǎn)生壓力,進(jìn)而出行業(yè)專題研究2727of271.投資建議的比較標(biāo)準(zhǔn)1.投資建議的比較標(biāo)準(zhǔn)2.投資建議的評(píng)級(jí)標(biāo)準(zhǔn)報(bào)告發(fā)布日后的12個(gè)月內(nèi)的公司股價(jià)分析師聲明作者具有中國證券業(yè)協(xié)會(huì)授予的證券投資咨詢執(zhí)業(yè)資格或相當(dāng)?shù)膶I(yè)勝任能力,保證報(bào)告所采用的數(shù)據(jù)均邏輯基于作者的職業(yè)理解,本報(bào)告清晰準(zhǔn)確地反映了作者的研究觀點(diǎn),力求獨(dú)立、客觀和公正,結(jié)論不受任免責(zé)聲明本報(bào)告僅供國泰君安證券股份有限公司(以下簡稱“本公司”)的客戶本公司利用信息隔離墻控制內(nèi)部一個(gè)或多個(gè)領(lǐng)域、部門或關(guān)聯(lián)機(jī)構(gòu)之間的信息流動(dòng)。因此,投資者應(yīng)注況下,本公司及其所屬關(guān)聯(lián)機(jī)構(gòu)可能會(huì)持有報(bào)告中提到的公司所發(fā)行的證券或期權(quán)并進(jìn)行證券或期權(quán)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論