全球人工智能AI行業(yè)產(chǎn)業(yè)研究手冊(cè):從算法演進(jìn)到產(chǎn)業(yè)邏輯構(gòu)建_第1頁(yè)
全球人工智能AI行業(yè)產(chǎn)業(yè)研究手冊(cè):從算法演進(jìn)到產(chǎn)業(yè)邏輯構(gòu)建_第2頁(yè)
全球人工智能AI行業(yè)產(chǎn)業(yè)研究手冊(cè):從算法演進(jìn)到產(chǎn)業(yè)邏輯構(gòu)建_第3頁(yè)
全球人工智能AI行業(yè)產(chǎn)業(yè)研究手冊(cè):從算法演進(jìn)到產(chǎn)業(yè)邏輯構(gòu)建_第4頁(yè)
全球人工智能AI行業(yè)產(chǎn)業(yè)研究手冊(cè):從算法演進(jìn)到產(chǎn)業(yè)邏輯構(gòu)建_第5頁(yè)
已閱讀5頁(yè),還剩250頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

核心要點(diǎn)2人工智能:ChatGPT推動(dòng)產(chǎn)業(yè)迎來(lái)iPhone時(shí)刻,并從“小作坊”走向工業(yè)化時(shí)代。ChatGPT在全球市場(chǎng)的爆發(fā),正將AI產(chǎn)業(yè)推到過(guò)去70年以來(lái)前所未有的高度,科技巨頭紛紛入局,繼微軟、谷歌之后,國(guó)內(nèi)企業(yè)百度、阿里巴巴等先后發(fā)布大模型,并進(jìn)行用戶測(cè)試和企業(yè)應(yīng)用接入。全球一線科技巨頭在AI領(lǐng)域的軍備競(jìng)賽,以及在大模型方向的持續(xù)下注,必將極大加速全球AI產(chǎn)業(yè)的發(fā)展進(jìn)程,并推動(dòng)產(chǎn)業(yè)從過(guò)去的“小作坊”式發(fā)展快速進(jìn)入“工業(yè)化”時(shí)代。算法模型:AI發(fā)展的靈魂,技術(shù)路線料將快速向GPT方向收斂,并有望在中期形成少數(shù)大模型(底層)+若干垂類模型(應(yīng)用層)的格局。ChatGPT的成功證明了高質(zhì)量數(shù)據(jù)+反饋激勵(lì)(大模型預(yù)訓(xùn)練+小數(shù)據(jù)微調(diào))的有效性。GPT在自然語(yǔ)言理解、生成方面的整體優(yōu)勢(shì),有望驅(qū)動(dòng)AI大模型技術(shù)路線快速向GPT方向收斂,同時(shí)少數(shù)科技巨頭&機(jī)構(gòu)專注于基礎(chǔ)大模型的研發(fā),更多企業(yè)則發(fā)揮各自在垂類數(shù)據(jù)、場(chǎng)景理解等層面優(yōu)勢(shì),并最終構(gòu)建少數(shù)大模型+若干應(yīng)用模型的生態(tài)格局。芯片&算力:算法快速迭代,以及對(duì)算力的巨大需求,料推動(dòng)通用AI芯片(GPU)、云廠商早期高確定性受益。目前AI大模型領(lǐng)域的創(chuàng)新正在以月、周為單位快速向前推進(jìn),短期維度,預(yù)計(jì)通用AI芯片仍將是底層算法快速迭代的核心受益者。同時(shí)當(dāng)前大模型在訓(xùn)練、推理環(huán)節(jié)仍需要巨大的算力承載,云廠商在算力基礎(chǔ)設(shè)施、基礎(chǔ)軟件框架等層面綜合優(yōu)勢(shì)明顯,AI帶來(lái)的算力增量料將主要向云計(jì)算平臺(tái)轉(zhuǎn)移,云廠商有望充分受益。但若后續(xù)算法迭代速度放緩,以及針對(duì)部分應(yīng)用場(chǎng)景的專門(mén)優(yōu)化,ASIC芯片需求料將快速展開(kāi),AI單位算力成本有望快速下降,但亦同時(shí)帶來(lái)應(yīng)用需求的進(jìn)一步增長(zhǎng)。數(shù)據(jù):AI的糧食和血液。當(dāng)前AI算法的發(fā)展正轉(zhuǎn)向以大模型為主的數(shù)據(jù)依賴,豐富、高質(zhì)量數(shù)據(jù)集是AI產(chǎn)業(yè)持續(xù)向前的核心基礎(chǔ)。伴隨公開(kāi)數(shù)據(jù)集的逐步耗盡,借助算法實(shí)現(xiàn)數(shù)據(jù)合成,以及垂類領(lǐng)域?qū)S袛?shù)據(jù)集將是企業(yè)后續(xù)差異化優(yōu)勢(shì)主要來(lái)源,同時(shí)數(shù)據(jù)使用合規(guī)、用戶隱私保護(hù)等亦將成為持續(xù)監(jiān)管領(lǐng)域。核心要點(diǎn)3算法模型:技術(shù)路線:以大語(yǔ)言模型為主導(dǎo),向GPT方案靠攏:ChatGPT的成功證明了GPT模型的Prompting道路的正確性,同時(shí)也強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量的重要性。ChatGPT最重要的成功是在產(chǎn)品化上更進(jìn)一步:ChatGPT在模型精度上并沒(méi)有飛躍性的突破,但從Few

Shot

prompt(需要輸入范例示范)轉(zhuǎn)換到Instruct(用人類語(yǔ)言描述想做什么)更加貼合用戶的習(xí)慣。5)展望未來(lái)3-5年的人工智能模型技術(shù)路線,我們認(rèn)為人工智能將繼續(xù)沿著大語(yǔ)言模型的道路前景發(fā)展,并快速向GPT路線收斂。GPT路線已經(jīng)表現(xiàn)出了其不可替代的產(chǎn)品化能力,這也將推動(dòng)更多廠商想這個(gè)方向投入資源。隨著多模態(tài)的不斷成熟以及新模態(tài)的持續(xù)加入,我們預(yù)計(jì)將會(huì)看到通用求解能力更強(qiáng)的GPT類基礎(chǔ)模型。競(jìng)爭(zhēng)壁壘:數(shù)據(jù)質(zhì)量、資本投入、核心人才、工程實(shí)踐能力等。1)從Bert開(kāi)始到GPT-3再到谷歌的PALM,網(wǎng)絡(luò)中的公開(kāi)語(yǔ)言數(shù)據(jù)源已經(jīng)在被盡可能地利用(論壇、新聞、維基百科等),而模型的進(jìn)一步優(yōu)化對(duì)數(shù)據(jù)質(zhì)量要求也越來(lái)越高。我們認(rèn)為優(yōu)質(zhì)的私有數(shù)據(jù)源將在未來(lái)3-5年里人工智能模型的精度優(yōu)化上發(fā)揮更重要的作用。2)隨著模型體量仍然在成倍數(shù)增加,大量的前期資本投入是阻礙新入者的重要因素。在過(guò)去五年內(nèi),我們看到人工智能模型的獨(dú)角獸都在尋找互聯(lián)網(wǎng)科技大廠作為其背后的依靠,主要因?yàn)槟軌虻玫匠渥愣虝r(shí)間內(nèi)不求產(chǎn)出的資金支持并獲取互聯(lián)網(wǎng)大廠長(zhǎng)期以來(lái)所積累的優(yōu)質(zhì)數(shù)據(jù)源。這也是我們看到為什么在過(guò)去五年內(nèi)人工智能頭部廠商逐漸從開(kāi)源走向閉源,利用其資源優(yōu)勢(shì)來(lái)打造差異化的AI模型,而落后者更希望通過(guò)開(kāi)源的模式以求縮小與頭部廠商的距離。3)研發(fā)團(tuán)隊(duì)的工程能力是決定公司在大語(yǔ)言模型競(jìng)爭(zhēng)力的另一個(gè)重要因素。隨著語(yǔ)言模型的體積不斷增加,在研究方法上現(xiàn)今千億量級(jí)的模型與之前幾十億量級(jí)的小模型發(fā)生了本質(zhì)變化,個(gè)體工程師沒(méi)有能力通過(guò)自有資源積累對(duì)大模型的學(xué)習(xí)經(jīng)驗(yàn)。一個(gè)合格的大模型研發(fā)團(tuán)隊(duì)需要依靠大公司的資源支持才能積累對(duì)模型調(diào)試、優(yōu)化、實(shí)際部署等各個(gè)環(huán)節(jié)足夠的經(jīng)驗(yàn)。大廠商對(duì)大語(yǔ)言模型的底層研究構(gòu)建了極高競(jìng)爭(zhēng)壁壘,因此底層架構(gòu)的研發(fā)與實(shí)踐應(yīng)用的分離將是必然趨勢(shì),前者由少部分大型企業(yè)機(jī)構(gòu)主導(dǎo),而中小型企業(yè)專注于后者。4核心要點(diǎn)數(shù)據(jù):數(shù)據(jù):AI的血液與糧食。按照當(dāng)前LLM的技術(shù)范式,數(shù)據(jù)集主要應(yīng)用于預(yù)訓(xùn)練、模型調(diào)優(yōu)階段。預(yù)訓(xùn)練階段需要大規(guī)模、多類別、高質(zhì)量的訓(xùn)練數(shù)據(jù),在模型調(diào)優(yōu)階段,垂類小數(shù)據(jù)集、提示詞工程同樣重要。近年來(lái)全球數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長(zhǎng),據(jù)IDC統(tǒng)計(jì),2019年全球產(chǎn)生的數(shù)據(jù)量為41ZB,過(guò)去十年的CAGR接近50%,預(yù)計(jì)到2025年全球數(shù)據(jù)量或高達(dá)175ZB,2019-2025年仍將維持近30%的復(fù)合增速,其中超過(guò)80%的數(shù)據(jù)都將是處理難度較大的文本、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù)。從Bert開(kāi)始到GPT-3再到谷歌的PALM,網(wǎng)絡(luò)中的公開(kāi)語(yǔ)言數(shù)據(jù)源已經(jīng)在被盡可能地利用(論壇、新聞、維基百科等),但模型優(yōu)化仍需更多數(shù)據(jù),這要求模型開(kāi)發(fā)商有能力接觸到優(yōu)質(zhì)私有數(shù)據(jù)來(lái)源,從而才能在模型的數(shù)據(jù)底層取得差異性的優(yōu)勢(shì)。數(shù)據(jù)篩選:為AI提供高質(zhì)量數(shù)據(jù)。ChatGPT以GPT

3.5(生成式預(yù)訓(xùn)練)模型進(jìn)行調(diào)優(yōu),注重?cái)?shù)據(jù)質(zhì)量,以及人類反饋強(qiáng)化學(xué)習(xí),讓模型在早期開(kāi)放給大眾測(cè)試并收集人類反饋數(shù)據(jù),從而顯著增強(qiáng)了模型在海量歷史數(shù)據(jù)中挖掘知識(shí)的能力,并最終在人機(jī)對(duì)話領(lǐng)域獲得理想效果。由于不同的行業(yè)、不同的業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)標(biāo)注的需求存在一定的差異性,高質(zhì)量的數(shù)據(jù)集成為提高數(shù)據(jù)標(biāo)注質(zhì)量的關(guān)鍵。公開(kāi)數(shù)據(jù)集可以幫助數(shù)據(jù)標(biāo)注團(tuán)隊(duì)減少?gòu)牧汩_(kāi)始創(chuàng)建和標(biāo)注大量數(shù)據(jù)所需的時(shí)間和成本,且通常由專業(yè)團(tuán)隊(duì)或機(jī)構(gòu)創(chuàng)建,其數(shù)據(jù)質(zhì)量往往較高。同時(shí),這些通常由專業(yè)團(tuán)隊(duì)或機(jī)構(gòu)創(chuàng)建,其數(shù)據(jù)質(zhì)量往往較高。這有助于提高數(shù)據(jù)標(biāo)注項(xiàng)目的準(zhǔn)確性和可靠性,從而提高整體項(xiàng)目的質(zhì)量。根據(jù)IDC發(fā)布的《2021年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)研究報(bào)告》,預(yù)計(jì)中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)近5年復(fù)合年增長(zhǎng)率將達(dá)到47%,預(yù)期2025年將突破120億元。數(shù)據(jù)管理:AI產(chǎn)業(yè)趨勢(shì)的核心受益者之一。數(shù)據(jù)庫(kù)管理系統(tǒng)是大數(shù)據(jù)時(shí)代的底層軟件和核心支撐。AI時(shí)代數(shù)據(jù)量爆發(fā)、數(shù)據(jù)結(jié)構(gòu)復(fù)雜度攀升,驅(qū)動(dòng)全球數(shù)據(jù)庫(kù)市場(chǎng)長(zhǎng)期穩(wěn)定增長(zhǎng),云化趨勢(shì)明確。

2020年,

IDC預(yù)計(jì)全球DBMS市場(chǎng)規(guī)模受疫情沖擊小幅降至487億美元,但云數(shù)據(jù)庫(kù)仍然保持11.6%增速。IDC預(yù)測(cè)2024年全球數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模將穩(wěn)步增長(zhǎng)至739億美元,其中云數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模將達(dá)404億美元,4年CAGR

27.3%。Gartner預(yù)測(cè)2024年云數(shù)據(jù)庫(kù)占比將提升至75%。我們預(yù)計(jì)2024年中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模達(dá)200億元,同比增長(zhǎng)22%且近年來(lái)增速不斷加快。隨著國(guó)產(chǎn)化替代的推進(jìn),傳統(tǒng)海外巨頭份額不斷縮小。核心要點(diǎn)算力:算力與算法相互促進(jìn)、相互影響。大模型正在成為人工智能的中短期主流技術(shù)路線,隨著模型參數(shù)日益增多,神經(jīng)網(wǎng)絡(luò)算法愈加復(fù)雜,相應(yīng)帶來(lái)底層算力消耗的持續(xù)、顯著增長(zhǎng)。同時(shí),算力的增長(zhǎng)亦為模型參數(shù)的增長(zhǎng)與復(fù)雜性的提高提供基礎(chǔ),算力與算法相互促進(jìn),相互影響。算力需求:ChatGPT在工程實(shí)踐層面的創(chuàng)新推動(dòng)全球AI領(lǐng)域軍備競(jìng)賽,并在內(nèi)容生成領(lǐng)域推動(dòng)AIGC時(shí)代全面到來(lái)。1)成本測(cè)算方面,我們以英偉達(dá)HGX服務(wù)器(含8張A100卡)為算力載體并假定服務(wù)器成本為8美元/小時(shí),我們測(cè)算ChatGPT算力成本約14.6億美元(其中14.3億美元為推理成本),生成式AI算力成本約189.6億美元(訓(xùn)練環(huán)節(jié)15.4億美元,推理環(huán)節(jié)174.2億美元)。2)AI芯片方面,AI算力的需求增速顯著高于摩爾定律的芯片性能增速,芯片設(shè)計(jì)端需要系統(tǒng)級(jí)創(chuàng)新,主要包括制程升級(jí)、計(jì)算單元數(shù)量提升、架構(gòu)優(yōu)化、Transformer計(jì)算單元的引入、采用混合計(jì)算精度等。算力供給:AI芯片的需求增長(zhǎng),吸引全球科技巨頭與創(chuàng)業(yè)公司加入賽道,硬件設(shè)備亦迎來(lái)新的需求增量。1)AI芯片:按應(yīng)用分,AI芯片主要分為AI訓(xùn)練芯片與推理芯片。按技術(shù)架構(gòu)分,AI芯片包括CPU、GPU、FPGA與ASIC,AI服務(wù)器正向“CPU+XPU”發(fā)展。而盡管異構(gòu)計(jì)算正在成為主流,在訓(xùn)練端,GPU仍為主要角色。隨著AI產(chǎn)業(yè)快速發(fā)展,多家公司積極入局,其中不僅包括英偉達(dá)、谷歌、亞馬遜、華為海思、阿里巴巴、百度等公司在內(nèi)的科技巨頭,還包括Graphcore、Habana(被Intel收購(gòu))、寒武紀(jì)、地平線等公司在內(nèi)的初創(chuàng)公司。2)硬件設(shè)備:除芯片外,硬件設(shè)備亦是算力供應(yīng)的主要制程,主要包括:①AI服務(wù)器:為滿足人工智能需求,搭載的XPU數(shù)量大幅上升,對(duì)AI服務(wù)器的散熱性與穩(wěn)定性亦提出更高要求;②交換機(jī)&光模塊:隨著數(shù)據(jù)量的快速提升,市場(chǎng)對(duì)高速、低延時(shí)的數(shù)據(jù)交換需求日益增長(zhǎng),并以此帶動(dòng)交換機(jī)與光模塊需求,其中800G光模塊正在成為行業(yè)主流;③算力承載:考慮到AI產(chǎn)業(yè)所需的巨大算力,云計(jì)算平臺(tái)為更合理的承載對(duì)象。就目前行業(yè)情況看,云計(jì)算單位成本下降,總算力擴(kuò)張是大概率事件。56核心要點(diǎn)應(yīng)用場(chǎng)景:AIGC

產(chǎn)業(yè)化方向眾多、前景廣闊。AIGC

在需要高效處理大量客戶需求、創(chuàng)意性內(nèi)容行業(yè)以及標(biāo)準(zhǔn)化生產(chǎn)行業(yè)均有較大的應(yīng)用空間,在諸如歸納性文字工作、代碼開(kāi)發(fā)相關(guān)工作、圖象生成領(lǐng)域等領(lǐng)域均有廣闊的產(chǎn)業(yè)化前景。海內(nèi)外基于AIGC涌現(xiàn)出諸多應(yīng)用,如作圖領(lǐng)域的Midjourney、文字編輯領(lǐng)域的Notion

AI、視頻領(lǐng)域的Make-A-Video等。我們認(rèn)為AIGC的應(yīng)用方向可分為2C和2B兩類:1)ToC

端應(yīng)用主要包括各類內(nèi)容生產(chǎn)服務(wù),比如圖像生成、語(yǔ)音生成、視頻生成、代碼生成、文字生成等;2)ToB

端應(yīng)用主要包括各類融合業(yè)務(wù)、輔助工作效率類產(chǎn)品,比如:微軟使用大模型能力賦能Office、Teams、Dynamics等多種應(yīng)用場(chǎng)景,Salesforce使用Einstein

GPT賦能銷售、營(yíng)銷、客服等全場(chǎng)景。實(shí)現(xiàn)方式:基于第三方模型進(jìn)行微調(diào)為主流方式,部分廠商通過(guò)自研模型構(gòu)筑壁壘。大語(yǔ)言模型方面,目前主流廠商均選擇和OpenAI進(jìn)行合作,基于自身數(shù)據(jù)、業(yè)務(wù)流程等對(duì)GPT模型進(jìn)行微調(diào),在部署上線后亦結(jié)合用戶數(shù)據(jù)對(duì)Prompting(提示)進(jìn)行個(gè)性化精調(diào),將人類語(yǔ)言的表述根據(jù)實(shí)際的數(shù)據(jù)情況更換成更符合大語(yǔ)言模型理解的Prompting,然后以此完成多模態(tài)之間的轉(zhuǎn)換并提升指令的準(zhǔn)確性。Adobe基于自身在創(chuàng)意領(lǐng)域長(zhǎng)年的積累推出了創(chuàng)意生成式人工智能模型Firefly,可以生成圖像和文本。一方面,Adobe專注于將其與現(xiàn)有創(chuàng)意流程整合;另一方面,訓(xùn)練數(shù)據(jù)來(lái)自于AdobeStock的授權(quán)內(nèi)容、公開(kāi)許可的內(nèi)容以及版權(quán)過(guò)期的公共領(lǐng)域內(nèi)容,以平衡創(chuàng)意生成的需求和內(nèi)容商業(yè)化的可行性。隱私&合規(guī):控制數(shù)據(jù)及功能訪問(wèn)權(quán)限,規(guī)避版權(quán)等合規(guī)風(fēng)險(xiǎn)。數(shù)據(jù)安全、權(quán)限控制、隱私保護(hù)、版權(quán)合規(guī)是大模型在實(shí)際應(yīng)用過(guò)程中的核心因素。目前微軟在提供copilot相關(guān)服務(wù)時(shí),在協(xié)議中明確表示使用的是公開(kāi)數(shù)據(jù)+無(wú)版權(quán)數(shù)據(jù)以及微軟的自有數(shù)據(jù),一定程度降低了數(shù)據(jù)隱私性的風(fēng)險(xiǎn)。Copilot

LLM不會(huì)根據(jù)用戶的自有數(shù)據(jù)以及用戶的提示上進(jìn)行訓(xùn)練。在企業(yè)用戶組內(nèi)部,微軟應(yīng)用了相應(yīng)的權(quán)限模型確保數(shù)據(jù)不會(huì)在用戶組之間泄露。而對(duì)于Adobe,亦通過(guò)規(guī)范數(shù)據(jù)來(lái)源,較好地避免了

Stable

Diffusion、Midjourney、Dall-E等其他圖像生成模型存在的版權(quán)合規(guī)問(wèn)題。與此同時(shí),創(chuàng)意者可以選擇其作品不進(jìn)入訓(xùn)練數(shù)據(jù)集,而Adobe也計(jì)劃向貢獻(xiàn)訓(xùn)練數(shù)據(jù)的藝術(shù)家支付一定報(bào)酬。7核心要點(diǎn)投資建議:ChatGPT在全球AI產(chǎn)業(yè)、技術(shù)領(lǐng)域帶來(lái)的良好示范效應(yīng),有望推動(dòng)AI算法模型結(jié)束當(dāng)前的技術(shù)路線分叉,并不斷向以GPT為主導(dǎo)的大語(yǔ)言模型(LLM)靠攏,加速全球AI產(chǎn)業(yè)“工業(yè)化”時(shí)代到來(lái)。中期維度,大語(yǔ)言模型領(lǐng)域“暴力美學(xué)”預(yù)計(jì)仍將是我們不斷逼近通用人工智能的最可能路線,基于此基準(zhǔn)假設(shè),預(yù)計(jì)模型算法架構(gòu)將遵從漸進(jìn)的學(xué)術(shù)研究步伐,高質(zhì)量數(shù)據(jù)集、工程實(shí)踐能力、核心人才、資本將成為大模型研發(fā)領(lǐng)域的核心競(jìng)爭(zhēng)壁壘。數(shù)據(jù)產(chǎn)業(yè)鏈(數(shù)據(jù)源、數(shù)據(jù)管理等)、算力設(shè)施(大算力芯片、云計(jì)算平臺(tái)、Aiops等)、應(yīng)用場(chǎng)景(內(nèi)容生成、人機(jī)交互范式、信息檢索等)等環(huán)節(jié)投資邏輯亦面臨持續(xù)重構(gòu)。作為中期最具確定性的產(chǎn)業(yè)方向之一,我們持續(xù)看好全球AI領(lǐng)域的投資機(jī)會(huì),并建議持續(xù)聚焦芯片、算力設(shè)施、模型架構(gòu)&工程實(shí)踐、應(yīng)用場(chǎng)景等核心環(huán)節(jié)。在美股市場(chǎng),我們建議持續(xù)關(guān)注:英偉達(dá)、臺(tái)積電、微軟、谷歌、AMD、Arista、博通、Marvell、百度、Adobe、Snowflake等。風(fēng)險(xiǎn)因素:AI核心技術(shù)發(fā)展不及預(yù)期風(fēng)險(xiǎn);科技領(lǐng)域政策監(jiān)管持續(xù)收緊風(fēng)險(xiǎn);全球宏觀經(jīng)濟(jì)復(fù)蘇不及預(yù)期風(fēng)險(xiǎn);宏觀經(jīng)濟(jì)波動(dòng)導(dǎo)致歐美企業(yè)IT支出不及預(yù)期風(fēng)險(xiǎn);AI潛在倫理、道德、用戶隱私風(fēng)險(xiǎn);企業(yè)數(shù)據(jù)泄露、信息安全風(fēng)險(xiǎn);行業(yè)競(jìng)爭(zhēng)持續(xù)加劇風(fēng)險(xiǎn)等。8關(guān)鍵圖表a16z,中信證券研究部大模型推動(dòng)AI產(chǎn)業(yè)工業(yè)化時(shí)代到來(lái)End-to-End

Apps具有專有模型的面向最終用戶的應(yīng)用程序如:Midjourney,

RunwayApps沒(méi)有專有模型的面向最終用戶的B2B和B2C應(yīng)用程序如:

Jasper,

Github

Copilot閉源基礎(chǔ)模型通過(guò)API公開(kāi)的大規(guī)模預(yù)訓(xùn)練模型如:

GPT-3

(OpenAl)模型中心共享與托管模型如:

Hugging

Face,

Replicate開(kāi)源基礎(chǔ)模型如:Stable

Diffusion

(Stability)云計(jì)算平臺(tái)在云部署模型中向開(kāi)發(fā)人員公開(kāi)的計(jì)算硬件如:

AWS,

GCP,Azure,

Coreweave芯片&硬件針對(duì)模型訓(xùn)練和推理工作負(fù)載優(yōu)化的加速器芯片如:

GPUs(Nvidia),

TPUs

(Google)下游應(yīng)用算法模型算力基礎(chǔ)算法模型算力基礎(chǔ)下游應(yīng)用9LLM發(fā)展路線圖關(guān)鍵圖表《Attention

is

All

You

Need》(AshishVaswani,

Noam

Shazeer,

Niki

Parmar等),OpenAITransformer發(fā)展歷程各公司官網(wǎng),中信證券研究部10關(guān)鍵圖表資料來(lái)源:艾瑞咨詢AI驅(qū)動(dòng)的數(shù)據(jù)產(chǎn)業(yè)鏈11關(guān)鍵圖表承載AI算法的加速芯片、硬件設(shè)備等中信證券研究部繪制算力需求AI訓(xùn)練芯片GPU為主AI推理芯片CPU+GPU/ASIC/FPGA硬件設(shè)備AI云端推理芯片邊緣推理芯片終端推理芯片服務(wù)器…交 光換 模機(jī) 塊12關(guān)鍵圖表Microsoft

Copilot發(fā)布會(huì)LLM帶來(lái)全新的人機(jī)交互范式13重點(diǎn)個(gè)股美股AI產(chǎn)業(yè)鏈部分公司列表資料來(lái)源:Bloomberg(含一致預(yù)期),中信證券研究部注:市值日期為2023年4月27日類別公司代碼市值(億美元)估值方法2022A2025E算力英偉達(dá)NVDA6725PE80.435.3AMDAMD1409PE25.617.0臺(tái)積電TSMC4339PE12.711.3AristaANET480PE33.221.7博通AVGO2578PE15.612.9MarvellMRVL331PE18.213.7算法模型微軟MSFT22666P/FCF35.327.4谷歌GOOG13661PE22.815.2百度BIDU414PE13.89.9應(yīng)用場(chǎng)景AdobeADBE1704P/FCF23.717.6SalesforceCRM1959P/FCF31.016.4Service

NowNOW922P/FCF42.722.7產(chǎn)業(yè)配套SnowflakeSNOW484P/S23.49.1ConfluentCFLT67P/S11.45.4MongoDBMDB169P/S13.17.1Palo

AltoPANW560P/FCF32.9估值(自然年)2023E 2024E60.4 45.428.7 20.416.1 13.026.3 23.614.4 13.725.9 16.939.2 31.821.0 17.812.6 10.921.4 18.726.6 20.035.9 28.416.8 12.28.8 6.911.2 9.328.6 23.319.9一.AI產(chǎn)業(yè):GPT驅(qū)動(dòng),進(jìn)入工業(yè)化時(shí)代二.算法模型:AI產(chǎn)業(yè)靈魂,技術(shù)路線持續(xù)向GPT方向收斂三.?dāng)?shù)據(jù):AI糧食和血液,關(guān)注數(shù)據(jù)合成、專有數(shù)據(jù)集四.算力設(shè)施:AI產(chǎn)業(yè)的賣(mài)水者,短期最具確定性五.應(yīng)用場(chǎng)景:從分析型AI到生成式AI,不斷逼近AGI14一、AI產(chǎn)業(yè):GPT驅(qū)動(dòng),進(jìn)入工業(yè)化時(shí)代15Chat-GPT相比于前代回答更加靈活,更接近人類反應(yīng)ChatGPT:全球用戶增長(zhǎng)最快的消費(fèi)者應(yīng)用面對(duì)有違人類倫理的問(wèn)題,Chat-GPT會(huì)進(jìn)行拒絕ChatGPT16ChatGPT17SimilarWebChatGPT在上線僅兩個(gè)月后預(yù)估DAU突破1000萬(wàn)ChatGPT:全球用戶增長(zhǎng)最快的消費(fèi)者應(yīng)用010203040506070TwitterFacebookInstagram微信TikTokChatGPT月活破億所花時(shí)間(月)ChatGPT:全球用戶增長(zhǎng)最快的消費(fèi)者應(yīng)用SimilarWeb,Sensor

Tower18OpenAIChatGPT發(fā)展歷程ChatGPT發(fā)展歷程2019.12018.6

2020.5

2022.1

2022.11

2023.3GPT-1 GPT-2GPT-3InstructGPTChatGPTGPT-4參數(shù)量1.17億 15億1750億13億未公布未知模型更新在大規(guī)模數(shù)據(jù)上對(duì)Transformer

模型進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,再在小規(guī)模有監(jiān)督數(shù)據(jù)集

解決零次學(xué)習(xí)問(wèn)題上精細(xì)調(diào)節(jié)。

(zero-shot),使得該模型在測(cè)試常識(shí)推 模型更具通用性。理和閱讀理解的數(shù)據(jù)集上獲得了最先進(jìn)的結(jié)果數(shù)據(jù)量指數(shù)級(jí)增加,可利用少量樣本學(xué)習(xí),引入RLHF,微調(diào)后能更好地遵循用戶意圖,泛化能力極大提升。在數(shù)據(jù)收集設(shè)置上優(yōu)化連接大量真實(shí)語(yǔ)料庫(kù),能夠支持多輪對(duì)話、結(jié)果修正,人機(jī)交互效果更好、更快、更高效。可以解決更加復(fù)雜的任務(wù),安全性進(jìn)一步強(qiáng)化,更加“擬人化”。并且引入多模態(tài)能力,覆蓋圖片的識(shí)別。貼近人腦學(xué)習(xí)模式。此外,基于GPT-3模型微調(diào)在其他領(lǐng)域包括代碼生成、圖像生成、數(shù)學(xué)算數(shù)等產(chǎn)生了應(yīng)用。19GPT-4:面對(duì)復(fù)雜問(wèn)題能力時(shí)大幅提升GPT-4相比于3.5在大多數(shù)AP考試科目上都取得了顯著進(jìn)步GPT-4面對(duì)復(fù)雜問(wèn)題能力時(shí)大幅提升,對(duì)AP考試、GRE考試等表現(xiàn)優(yōu)異。OpenAI在官網(wǎng)表示,GPT-4雖然在大多數(shù)現(xiàn)實(shí)場(chǎng)景中的能力不如人類,但在一些專業(yè)問(wèn)題和學(xué)術(shù)基準(zhǔn)上表現(xiàn)已經(jīng)和人類持平。根據(jù)OpenAI在其技術(shù)文檔所公布的數(shù)據(jù),GPT-4在60%的AP考試科目中取得了5分(滿分)的成績(jī),并較前一代GPT-3.5取得了30%以上的提升。而對(duì)于國(guó)外研究生入門(mén)考試的GRE,GPT-4取得了339+4的成績(jī),超越95%的應(yīng)試者。OpenAI官網(wǎng)2020ChatGPT的回答胡編亂造的情況非常嚴(yán)重GPT-4的回答有所改善,但仍有胡編亂造的情況GPT-4:答案的準(zhǔn)確度逐步提升大量GPT-3.5模型針對(duì)事實(shí)類問(wèn)題回答胡編亂造的情況以及通過(guò)種種語(yǔ)言誘導(dǎo)可以繞開(kāi)GPT模型的安全限制。GPT-4通過(guò)加入額外的獎(jiǎng)勵(lì)模型以及更多的對(duì)齊(簡(jiǎn)單理解,模型參考人類的思考方式進(jìn)行調(diào)整)工作將準(zhǔn)確率提升了約10%ChatGPTChatGPT21GPT-4:引入了圖片的輸入識(shí)別能力對(duì)于梗圖,GPT-4可以精準(zhǔn)回答幽默的點(diǎn)在哪里;微軟在Kosmos-1模型中引入多模態(tài)能力多模態(tài)能力成為GPT-4加入的新亮點(diǎn)。GPT-4在模型能力方面最大的提升在于引入了多模態(tài)的處理能力。除了此前ChatGPT就支持的文字外,GPT-4還可以接受圖片輸入,根據(jù)OpenAI在技術(shù)文檔內(nèi)給出的實(shí)例來(lái)看,GPT-4可以理解圖中的各類含義甚至包括人類的幽默能力。不過(guò)在當(dāng)前階段,圖片輸入的功能暫時(shí)還沒(méi)有開(kāi)放給用戶使用。OpenAI技術(shù)博客,微軟技術(shù)博客22技術(shù)概覽:通過(guò)預(yù)訓(xùn)練模型+微調(diào),實(shí)現(xiàn)問(wèn)答與對(duì)話1、2、3、4、Hung-yi

Lee個(gè)人頻道(YouTube)23ChatGPT的技術(shù)邏輯:RLHF的主要改變?cè)谟谌斯けO(jiān)督數(shù)據(jù)與調(diào)整后的獎(jiǎng)勵(lì)模型核心技術(shù):驗(yàn)證了大模型預(yù)訓(xùn)練+小數(shù)據(jù)fine-tuning的有效性O(shè)penAI24技術(shù)趨勢(shì):GPT將逐步成為生成式任務(wù)的優(yōu)選Bert與GPT技術(shù)路線對(duì)比(雙向+需要對(duì)下游任務(wù)微調(diào)vs自回歸+zero/few

shot

prompting)盡管都是Transformer模型,Bert模型采用雙向使用Mask的方法進(jìn)行訓(xùn)練;而GPT則是采用了自回歸+prompting的方式。這兩者的區(qū)別根據(jù)谷歌資深A(yù)I科學(xué)家Jeff

Dean在2020年的文章回答,Bert路線在NLU(自然語(yǔ)言理解)的能力以及準(zhǔn)確度會(huì)更好,而GPT路線在NLG(自然語(yǔ)言生成)的表現(xiàn)會(huì)更突出。通俗來(lái)說(shuō),BERT是完形填空,GPT為命題作文。資料來(lái)源:量子學(xué)派微信公眾號(hào)25iPhone:技術(shù)驅(qū)動(dòng)+聚合式創(chuàng)新,“連點(diǎn)成線”的經(jīng)典案例Apple公司官網(wǎng),雷科技,中信證券研究部攝像頭技術(shù)多點(diǎn)觸控屏幕大容量電池IOS系統(tǒng)iPhone的誕生融合了多個(gè)技術(shù)創(chuàng)新iPhone的技術(shù)迭代不斷推進(jìn)Apple公司官網(wǎng),雷科技,中信證券研究部26資料來(lái)源:斯坦福大學(xué)AI年度報(bào)告,中信證券研究部人工智能軟件:計(jì)算機(jī)視覺(jué)準(zhǔn)確率顯著提升,正處于產(chǎn)業(yè)化階段ICEAA,

中信證券研究部人工智能硬件:算力規(guī)模不斷增加IDC(含預(yù)測(cè)),中信證券研究部數(shù)字化轉(zhuǎn)型,帶動(dòng)全球數(shù)據(jù)量呈現(xiàn)井噴式爆發(fā)(ZB)多種因素驅(qū)動(dòng),人工智能行業(yè)蓬勃發(fā)展1354290%20%40%60%020040060020162017201820192020我國(guó)算力規(guī)模(EFlops) 全球算力規(guī)模(EFlops) 全球算力增速100%80%60%40%20%0%0501001502002005200620072008200920102011201220132014201520162017201820192020E2021E2022E2023E2024E2025E全球數(shù)據(jù)量(ZB) 同比增速97.9%98.8%100%95%90%85%80%2012年10月2013年3月2013年8月2014年1月2014年6月2014年11月2015年4月2015年9月2016年2月2016年7月2016年12月2017年5月2017年10月2018年3月2018年8月2019年1月2019年6月2019年11月2020年4月2020年9月2021年2月不含額外的訓(xùn)練數(shù)據(jù) 含有額外的訓(xùn)練數(shù)據(jù) 人類水平94.9%人工智能發(fā)展驅(qū)動(dòng)因素硬件軟件數(shù)據(jù)資料來(lái)源:中信證券研究部產(chǎn)業(yè)現(xiàn)狀:千億量級(jí)參數(shù)是目前行業(yè)主流的體積大小隱藏層層數(shù)GPU數(shù)量批量大小AchievedteraFlOP/sper

GPU比1.724230424113251213744%4.43.632307230216451213844%8.87.5324096364112851214246%18.218.44861444081256102413543%34.639.11636481924882512153613844%70.876.1801024060841024179214045%143.8145.6961228880881536230414847%227.1310.112816384968161920216015550%297.4529.6128204801058352520252016352%410.21008.0160256001288643072307216352%50227張量模型--并行大小管道模型-并行大小理論峰值FLOP/s的百分實(shí)現(xiàn)聚合petaFLOP/sNLP大模型時(shí)間線以及訓(xùn)練成本測(cè)算我們認(rèn)為,當(dāng)前千億量級(jí)的參數(shù),一方面能夠體現(xiàn)出大模型在泛化、涌現(xiàn)等領(lǐng)域的額外能力,同時(shí)也兼顧了對(duì)算力的需求。資料來(lái)源:中信證券研究部測(cè)算資料來(lái)源:各公司官網(wǎng),中信證券研究部參數(shù)數(shù)量 注意頭28產(chǎn)業(yè)影響:雖然不是顛覆式創(chuàng)新,但探索產(chǎn)業(yè)化可能性增加資料來(lái)源:紅衫投資官網(wǎng)各時(shí)間節(jié)點(diǎn)所對(duì)應(yīng)的AI能力以及所能產(chǎn)生的應(yīng)用產(chǎn)品Chat-GPT的強(qiáng)勢(shì)“出圈”成為了對(duì)人工智能中短期內(nèi)的產(chǎn)業(yè)化方向一系列探索的催化劑。從對(duì)Chat-GPT的測(cè)試結(jié)果來(lái)看,Chat-GPT

開(kāi)始能在大范圍、細(xì)粒度問(wèn)題上給出普遍穩(wěn)妥的答案,并根據(jù)上下文形成有一定的具備邏輯性的創(chuàng)造性回答,在文字領(lǐng)域表現(xiàn)突出。通過(guò)調(diào)整數(shù)據(jù)集、獎(jiǎng)勵(lì)函數(shù)調(diào)整的方式,能夠依靠chatGPT的思路向其他垂直領(lǐng)域邁進(jìn),文字、圖片、視頻等的生成同樣可以值得期待,AIGC相對(duì)更為靠近。但由于chatGTP在訓(xùn)練初的數(shù)據(jù)限制,不能輸出超過(guò)自身“學(xué)會(huì)”的內(nèi)容,而搜索引擎所用的是發(fā)散和關(guān)聯(lián),所以不會(huì)顛覆搜索引擎。29技術(shù)層基礎(chǔ)層智能醫(yī)療智慧金融智慧教育智慧交通智能家居智慧零售智能制造醫(yī)療影像貸款評(píng)估作業(yè)批改自動(dòng)駕駛智能照明智能收銀工業(yè)機(jī)器人應(yīng)用層遠(yuǎn)程診斷智能投影智能問(wèn)答交通控制智能門(mén)鎖無(wú)人商店智能供應(yīng)鏈藥物挖掘金融監(jiān)管遠(yuǎn)程輔導(dǎo)車(chē)輛識(shí)別家居機(jī)器人智能配貨智能運(yùn)維疾病預(yù)測(cè)智能客服虛擬課堂車(chē)輛檢測(cè)智能物聯(lián)智能物流產(chǎn)品檢測(cè)機(jī)器學(xué)習(xí)算法類腦算法算法理論基礎(chǔ)開(kāi)源框架技術(shù)開(kāi)放平臺(tái)開(kāi)放平臺(tái)計(jì)算機(jī)視覺(jué)自然語(yǔ)言處理應(yīng)用技術(shù)智能語(yǔ)音計(jì)算硬件計(jì)算系統(tǒng)技術(shù)數(shù)據(jù)AI芯片云計(jì)算大數(shù)據(jù)5G通信數(shù)據(jù)采集標(biāo)注分析產(chǎn)業(yè)影響:產(chǎn)業(yè)鏈有望迎來(lái)重構(gòu)資料來(lái)源:艾瑞咨詢,中信證券研究部30人工智能發(fā)展趨勢(shì)資料來(lái)源:“數(shù)據(jù)與智能”微信公眾號(hào),中信證券研究部產(chǎn)業(yè)影響:AI的快速發(fā)展將對(duì)社會(huì)和人類產(chǎn)生更大的影響數(shù)據(jù)量級(jí)相對(duì)少特定領(lǐng)域的分析任務(wù)應(yīng)用表現(xiàn)與人類相差較遠(yuǎn)數(shù)據(jù)量級(jí)相對(duì)大通用問(wèn)題求解能力提升可以勝任人類工作數(shù)據(jù)量級(jí)相對(duì)大,同時(shí)關(guān)注數(shù)據(jù)質(zhì)量具備通用問(wèn)題求解能力應(yīng)用表現(xiàn)超越人類水平強(qiáng)人工智能弱人工智能超人工智能必要的監(jiān)管以確保AI技術(shù)發(fā)展的安全性31AI重塑人機(jī)交互方式產(chǎn)業(yè)影響:信息交互的方式有望被重構(gòu)AI交互提示詞AI入口AI

1.0AI

2.0AIGCLogo摘自各公司官網(wǎng),中信證券研究部繪制產(chǎn)業(yè)影響:全球主要國(guó)家將持續(xù)布局1990200020102020PC互聯(lián)網(wǎng):copy

toChina移動(dòng)互聯(lián)網(wǎng):copy

from

ChinaAI:?ReelsChatGPT32人工智能:中美科技競(jìng)速的下一個(gè)十年資料來(lái)源:各公司官網(wǎng),Pixabay,中信證券研究部33資料來(lái)源:各公司官網(wǎng),中信證券研究部產(chǎn)業(yè)影響:有望加快AI產(chǎn)業(yè)商業(yè)化落地進(jìn)程頭部科技企業(yè)加快AI領(lǐng)域布局公司時(shí)間事件2015開(kāi)源第二代深度學(xué)習(xí)系統(tǒng)

Tensorflow,用于各種感知和語(yǔ)言理解任務(wù)的機(jī)器學(xué)習(xí)。2016由Deepmind研發(fā)AlphaGo

以4:1嘉績(jī)擊敗世界圍棋冠軍李世石。2020谷歌最新人工智能

AlphaFold

2成功基于氨基酸序列預(yù)測(cè)了生命基本分子,蛋白質(zhì)的三維結(jié)構(gòu)。谷歌2023.1.28發(fā)布生成式AI音樂(lè)模型MusicLM2023.1.30向人工智能初創(chuàng)公司Anthropic

AI投資約3億美元2023.2.3“未來(lái)幾周或幾個(gè)月”推出類似ChatGPT的基于人工智能的大型語(yǔ)言模型2023.2.6谷歌宣布將推出一款聊天機(jī)器人—Bard。2019投資OpenAI

10億美元微軟2021再次投資OpenAI2023.1.23開(kāi)啟對(duì)OpenAI的第三輪投資2023.2.2宣布將OpenAI相關(guān)產(chǎn)品導(dǎo)入旗下云計(jì)算、Office、Bing、Viva

Sales等產(chǎn)品中34產(chǎn)業(yè)影響:有望加快AI產(chǎn)業(yè)商業(yè)化落地進(jìn)程頭部科技企業(yè)加快AI領(lǐng)域布局公司時(shí)間事件2013成立深度學(xué)習(xí)實(shí)驗(yàn)室(IDL)2014成立硅谷人工智能實(shí)驗(yàn)室(SVAIL)百度2016發(fā)布百度大腦AI平臺(tái)2017成立深度學(xué)習(xí)技術(shù)實(shí)驗(yàn)室、增強(qiáng)現(xiàn)實(shí)實(shí)驗(yàn)室;推出全球第一個(gè)自動(dòng)駕駛開(kāi)放平臺(tái)百度Apollo。2021百度發(fā)布“文心”系列產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型2023.2.7百度官宣中國(guó)版的類ChatGPT項(xiàng)目文心一言(英文名ERNIE

Bot),預(yù)計(jì)三月份完成內(nèi)測(cè),面向公眾開(kāi)放阿里巴巴2023.2.8阿里達(dá)摩院類ChatGPT機(jī)器人已進(jìn)入內(nèi)測(cè)階段騰訊2023.2.3騰訊科技(深圳)有限公司申請(qǐng)的“人機(jī)對(duì)話方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”專利獲授權(quán),能夠?qū)崿F(xiàn)機(jī)器與用戶之間自然且順暢的溝通。小米2023.2.9此前小米在AI大模型上已有多路并行嘗試,未來(lái)將加大相關(guān)領(lǐng)域人力和資源投入。小愛(ài)擁有龐大數(shù)據(jù)支撐會(huì)讓小米在大模型方面進(jìn)展更迅速??焓?023.2.9快手正在開(kāi)展大規(guī)模語(yǔ)言模型(LLM

Large

Language

Model)相關(guān)研究,并啟動(dòng)了相應(yīng)專項(xiàng),覆蓋LLM模型訓(xùn)練、文案自動(dòng)創(chuàng)作與生成、對(duì)話系統(tǒng)開(kāi)發(fā)等領(lǐng)域。京東 2023.2.10資料來(lái)源:各公司官網(wǎng),中信證券研究部京東正式推出產(chǎn)業(yè)版ChatGPT,命名“ChatJD”。35產(chǎn)業(yè)影響:有望引發(fā)新一輪AI創(chuàng)業(yè)與投資熱潮2011201320142015201620182019202020212005 20102016年,AlphaGo引發(fā)全球AI創(chuàng)業(yè)及投資熱潮資料來(lái)源:各公司官網(wǎng),

Pixabay,中信證券研究部362016年,AlphaGo引發(fā)全球AI創(chuàng)業(yè)及投資熱潮產(chǎn)業(yè)影響:有望引發(fā)新一輪AI創(chuàng)業(yè)與投資熱潮CB

insights,IT桔子,億歐智庫(kù),中信證券研究部00.511.522.533.540500100015002000250030003500400045002010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021中國(guó)AI歷年金額趨勢(shì)(億元) 中國(guó)AI歷年單筆融資平均金額(億元)0200400600800100012002010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021中國(guó)歷年人工智能公司成立數(shù)量14%13%11%10%10%42%中國(guó)人工智能融資熱門(mén)前10的領(lǐng)域(2020)企業(yè)服務(wù) 金融 大健康 機(jī)器人 汽車(chē) 其他37ChatGPT產(chǎn)業(yè)結(jié)構(gòu):從小作坊式發(fā)展走向工業(yè)化道路a16z,中信證券研究部ChatGPT產(chǎn)業(yè)結(jié)構(gòu)End-to-End

Apps具有專有模型的面向最終用戶的應(yīng)用程序如:Midjourney,

RunwayApps沒(méi)有專有模型的面向最終用戶的B2B和B2C應(yīng)用程序如:

Jasper,

Github

Copilot閉源基礎(chǔ)模型通過(guò)API公開(kāi)的大規(guī)模預(yù)訓(xùn)練模型如:

GPT-3

(OpenAl)模型中心共享與托管模型如:

Hugging

Face,

Replicate開(kāi)源基礎(chǔ)模型如:Stable

Diffusion

(Stability)云計(jì)算平臺(tái)在云部署模型中向開(kāi)發(fā)人員公開(kāi)的計(jì)算硬件如:

AWS,

GCP,Azure,

Coreweave計(jì)算硬件針對(duì)模型訓(xùn)練和推理工作負(fù)載優(yōu)化的加速器芯片如:

GPUs(Nvidia),

TPUs

(Google)下游應(yīng)用算法模型算力基礎(chǔ)算法模型算力基礎(chǔ)下游應(yīng)用83關(guān)系型數(shù)據(jù)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)的擴(kuò)展方式數(shù)據(jù)能力:數(shù)據(jù)庫(kù)重要性將持續(xù)提升全球Nosql數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模及增速(百萬(wàn)美元,%)70%60%50%40%30%20%10%0%050001000015000200002015201620172018201920202021E2022E2023E2024E2025E公有云部署收入 本地/其他部署收入 總收入增長(zhǎng)率IDC(含預(yù)測(cè)),中信證券研究部IDC3920%15%10%5%0%050,000100,000150,0002015201620172018201920202021E2022E2023E2024E2025EPubliccloud On

premises/other YoY全球數(shù)據(jù)管理軟件市場(chǎng)規(guī)模及增速(百萬(wàn)美元,%)數(shù)據(jù)能力:管理等需求將持續(xù)增加云數(shù)據(jù)庫(kù)架構(gòu)的主要優(yōu)勢(shì)IDC(含預(yù)測(cè)),中信證券研究部IDC,華為云,中信證券研究部繪制40算法模型:此前模型以堆疊參數(shù)和數(shù)據(jù)為主StanfordAI

Index2020小模型(2015年前)AI擅長(zhǎng)特定領(lǐng)域的分析任務(wù),但通用型任務(wù)的完成情況很差。硬件算力不夠?qū)е轮匦掠?xùn)練成本過(guò)高;數(shù)據(jù)來(lái)源過(guò)于稀少難以提升到更高精確度,整體表達(dá)能力與人類相差較遠(yuǎn)。大模型(2015-2022年)Transformer模型的出現(xiàn)使得文字、圖像識(shí)別等領(lǐng)域達(dá)到了超越人類的水平,但同時(shí)也極大增加了模型的體積,只有擁有強(qiáng)大算力支撐的科技巨頭才有能力訓(xùn)練Transformer模型。2015-2022年間深度學(xué)習(xí)模型體積不斷擴(kuò)大41算法模型:Transformer有望擴(kuò)展至多元領(lǐng)域2022TeslaAI

DayTesla在自動(dòng)駕駛中引入Transformer模塊英偉達(dá)Hopper架構(gòu)追加一層用以處理Transformer算法NVIDIA官網(wǎng)ChatGPT的成功展現(xiàn)出Transformer模型的潛力尚未被完全發(fā)掘,而其本身所提供的通用問(wèn)題解決能力有望隨著算力成本的優(yōu)化、算力的進(jìn)一步提升,比如:特斯拉:公司在自動(dòng)駕駛原有的視覺(jué)模型基礎(chǔ)上引入Transformer模塊以融合多個(gè)攝像頭模組間的信息英偉達(dá):在其芯片中引入Transformer引擎,實(shí)現(xiàn)計(jì)算能力的大幅提升未來(lái)隨著數(shù)據(jù)質(zhì)量級(jí)算法能力的進(jìn)步,我們認(rèn)為T(mén)ransformer模型有望朝著小算力終端更加友好的方向發(fā)展。42算法模型:使AI算法模型邁向新階段資料來(lái)源:中信證券研究部預(yù)測(cè)、繪制AI算法模型發(fā)展歷史及對(duì)應(yīng)表現(xiàn)ChatGPT的成功一改往日大模型依靠堆積數(shù)據(jù)量的訓(xùn)練方式,RLHF(人類反饋強(qiáng)化學(xué)習(xí))和Reward

model(獎(jiǎng)勵(lì)模型)是其核心訓(xùn)練邏輯。ChatGPT的成功推動(dòng)AI算法模型展現(xiàn)出更加明晰的發(fā)展脈絡(luò),使行業(yè)邁向了兼顧經(jīng)濟(jì)性與可使用性的新發(fā)展階段,展望未來(lái),模型開(kāi)放+快速優(yōu)化迭代或?qū)⒊蔀锳I實(shí)現(xiàn)大規(guī)模應(yīng)用落地的終極發(fā)展形態(tài)。43應(yīng)用場(chǎng)景:成本下降+高質(zhì)量數(shù)據(jù)加速AIGC落地資料來(lái)源:紅杉投資官網(wǎng)模型開(kāi)放、快速迭代(2024以后)得益于AIGC基礎(chǔ)設(shè)施可獲得性的逐步提高,平臺(tái)層變得更加穩(wěn)固,算力成本持續(xù)下探,模型逐漸趨于開(kāi)源與免費(fèi),應(yīng)用層爆發(fā)式發(fā)展的節(jié)點(diǎn)正在靠近。正如GPS技術(shù)的普及打開(kāi)了導(dǎo)航市場(chǎng),我們認(rèn)為AIGC整體產(chǎn)業(yè)鏈從底層硬件到中層技術(shù)再到產(chǎn)品思維的成熟正在催生新的殺手級(jí)應(yīng)用。未來(lái)可能出現(xiàn)的殺手級(jí)應(yīng)用及其對(duì)應(yīng)的當(dāng)前模型44應(yīng)用場(chǎng)景:實(shí)現(xiàn)UGC到AIGC的助推器資料來(lái)源:虎嗅網(wǎng)Chat-GPT的出現(xiàn)所帶來(lái)的內(nèi)容生成能力將會(huì)為當(dāng)今從用戶創(chuàng)作(UGC)到AI創(chuàng)作(AIGC)的轉(zhuǎn)型提供關(guān)鍵的輔助支持。目前我們正經(jīng)歷從Web2.0開(kāi)始向Web3.0轉(zhuǎn)型的啟航階段,在過(guò)去五年我們已經(jīng)看到內(nèi)容創(chuàng)造從專業(yè)創(chuàng)作(PFC)轉(zhuǎn)型為了用戶創(chuàng)作(UGC)。而在不遠(yuǎn)的將來(lái),AI協(xié)助內(nèi)容生成(AIUGC)與AI創(chuàng)作(AIGC)將為我們提供更低的創(chuàng)作門(mén)檻以及更豐富的創(chuàng)作思路。在這兩個(gè)階段中。內(nèi)容生產(chǎn)主體從人類本身開(kāi)始向人工智能遷移,主要區(qū)別體現(xiàn)在內(nèi)容的生產(chǎn)效率、知識(shí)圖譜的多樣性以及提供更加動(dòng)態(tài)且可交互的內(nèi)容上。人腦只能基于自己的知識(shí)圖譜進(jìn)行少數(shù)方向的信息處理,而AI能從更龐大的知識(shí)體系中進(jìn)行多個(gè)方向的處理,進(jìn)而提供更多的創(chuàng)作思路。Gartner預(yù)計(jì),到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。內(nèi)容生成的四個(gè)階段45二、算法模型:AI產(chǎn)業(yè)靈魂,技術(shù)路線持續(xù)向GPT方向收斂46資料來(lái)源:Vertex人工智能發(fā)展史就是技術(shù)不斷向通用人工智能靠近的歷史AI技術(shù)發(fā)展的核心主線:通用人工智能(AGI)底層算法與模型是貫穿人工智能技術(shù)發(fā)展的核心,從上世紀(jì)50年代第一次提出人工智能概念開(kāi)始,底層算法經(jīng)歷了多次迭代。而貫穿多次迭代的主線是研發(fā)出真正的通用人工智能(AGI),即用一個(gè)模型解決大多數(shù)的問(wèn)題,通過(guò)這一方式才能真正做到降低人工智能的成本并取代人類。47資料來(lái)源:Medium“三起兩落”的關(guān)注熱潮歷史上對(duì)人工智能的關(guān)注經(jīng)歷了“三起兩落”1950S~1970S:受制于算力性能、數(shù)據(jù)量等,更多停留在理論層面。1980S~1990S:專家系統(tǒng)是人工智能的第一次商業(yè)化嘗試,高昂的硬件成本、有限的適用場(chǎng)景限制了市場(chǎng)的進(jìn)一步向前發(fā)展。2015年至今:逐步形成完整的產(chǎn)業(yè)鏈分工、協(xié)作體系。48資料來(lái)源:虎嗅網(wǎng)1956年的達(dá)特茅斯會(huì)議第一次提出“人工智能”這個(gè)單詞早期人工智能模型發(fā)展:對(duì)人工智能的最初探索1956-1960s:停留在理論層面的人工智能暢想達(dá)特茅斯會(huì)議:第一次提出AI概念,符號(hào)主義&連接主義的雛形可以進(jìn)行跳棋對(duì)戰(zhàn),實(shí)際硬件能力不足以支撐對(duì)人工智能的更復(fù)雜的理論假想49資料來(lái)源:David

C.

England

(Jun1990).

An

Expert

System

fortheManagementofHazardous

Materials標(biāo)志性的專家系統(tǒng)流程圖早期人工智能模型發(fā)展:失敗的專家系統(tǒng)嘗試1970-1980s:專家系統(tǒng)是人工智能“第二次浪潮”中的一次代表性嘗試專家系統(tǒng)是一個(gè)以人工智能取代人類專家解決專業(yè)問(wèn)題的嘗試由大量復(fù)雜的規(guī)則組合而構(gòu)成,80年左右的PC硬件進(jìn)步讓50年代時(shí)對(duì)于人工智能的理論暢想得以實(shí)踐復(fù)雜規(guī)則堆砌后導(dǎo)致總成本過(guò)高&系統(tǒng)難以維護(hù),頻繁對(duì)規(guī)則以及底層知識(shí)的更新讓其無(wú)法取代人類勞動(dòng)力50資料來(lái)源:Data

Science

centerLeNet讓神經(jīng)網(wǎng)絡(luò)這一概念重新被計(jì)算機(jī)界關(guān)注早期人工智能模型發(fā)展:神經(jīng)網(wǎng)絡(luò)讓人工智能第三次煥發(fā)生機(jī)1990-2010:神經(jīng)網(wǎng)絡(luò)算法的提出及其在21世紀(jì)初的深度學(xué)習(xí)緩步推動(dòng)人工智能前行1989年,Lecun提出了一種用反向傳導(dǎo)進(jìn)行更新的卷積神經(jīng)網(wǎng)絡(luò),稱為L(zhǎng)eNet2006年,Hinton提出了深度學(xué)習(xí)大大提高了模型的泛化效果在圖像領(lǐng)域取得了大幅提升,CNN&DNN算法成為了這一階段的絕對(duì)主流深度學(xué)習(xí)推動(dòng)了人工智能21世紀(jì)前15年的發(fā)展資料來(lái)源:英偉達(dá)官網(wǎng)51資料來(lái)源:《Stanford

AI

Index

2020》Human-centered

Artificial

Intelligence

(HAI)以LSTM模型為代表,主要思路是疊加模型層深度近10年內(nèi)的人工智能模型發(fā)展:深度學(xué)習(xí)為核心的小模型2013-2017年:以深度學(xué)習(xí)為核心的小模型以LSTM及CNN模型作為典型的特征抽取器根據(jù)特定領(lǐng)域標(biāo)注數(shù)據(jù)訓(xùn)練,在一些任務(wù)上可以達(dá)到接近人類的水準(zhǔn)通用型任務(wù)的完成情況很差,硬件算力不夠?qū)е箩槍?duì)其他領(lǐng)域重新訓(xùn)練成本過(guò)高;數(shù)據(jù)來(lái)源稀少難以超越人類水平模型精度難以超越人類水平(藍(lán)色為人類)資料來(lái)源:《Stanford

AI

Index

2020》Human-centered

Artificial

Intelligence

(HAI)52資料來(lái)源:Deepmind,MediumAlphaGo是以深度學(xué)習(xí)與蒙特卡洛樹(shù)搜索為核心的模型2015年

AlphaGo:將多年積攢的研究成果展現(xiàn)給大眾AlphaGo

是由

DeepMind(后被谷歌收購(gòu))開(kāi)發(fā)的人工智能程序,代表了從上世紀(jì)90年代開(kāi)始深度學(xué)習(xí)、蒙特卡洛樹(shù)搜索等先進(jìn)技術(shù)的集大成者,實(shí)現(xiàn)了人工智能在圍棋領(lǐng)域的重大突破2015年,AlphaGo

首次與歐洲圍棋冠軍樊麾對(duì)弈,并以5-0的成績(jī)?nèi)〉脛倮?016年,AlphaGo

在一場(chǎng)備受矚目的比賽中戰(zhàn)勝了韓國(guó)圍棋世界冠軍李世石,向世人展示了其在圍棋領(lǐng)域的強(qiáng)大實(shí)力AlphaGo

的成功引發(fā)了全球范圍內(nèi)對(duì)人工智能和深度學(xué)習(xí)的關(guān)注,展示了機(jī)器在復(fù)雜問(wèn)題解決和策略制定方面的巨大潛力2016年AlphaGo戰(zhàn)勝李世石將其的關(guān)注度推到最高峰資料來(lái)源:Deepmind,Medium53資料來(lái)源:research

gate這一階段面對(duì)多種問(wèn)題需要依靠不同的模型,研究資源大量分散AlphaGo成功的背后:人工智能研究種類繁多且雜亂雖然AlphaGo在圍棋領(lǐng)域取得了巨大成功,但仍無(wú)法解決通用人工智能問(wèn)題,其方法在其他領(lǐng)域的應(yīng)用受到局限這一人工智能研究方向眾多且缺乏統(tǒng)一,導(dǎo)致學(xué)術(shù)界和產(chǎn)業(yè)界的資源分散,影響整體發(fā)展圖像檢索:深度學(xué)習(xí)為主的方法;圖像生成:對(duì)抗神經(jīng)網(wǎng)絡(luò)為主的方法;推薦系統(tǒng):蒙特卡洛樹(shù)等方法等54資料來(lái)源:nexocodeNLP是計(jì)算機(jī)技術(shù)、AI、人類知識(shí)三者的交匯點(diǎn)后AlphaGo時(shí)代:NLP成為通用人工智能(AGI)的可能解盡管AlphaGo及其背后的深度學(xué)習(xí)無(wú)法解決通用人工智能問(wèn)題,但其給人工智能這一領(lǐng)域重新帶來(lái)了關(guān)注度在這一階段,NLP(自然語(yǔ)言處理)開(kāi)始展現(xiàn)其對(duì)通用人工智能(AGI)的潛力。語(yǔ)言是人類歷史上最具表述力的工具,人類的所有知識(shí)都可以通過(guò)語(yǔ)言進(jìn)行表述,因此以語(yǔ)言為基礎(chǔ)的NLP任務(wù)開(kāi)始被人們寄予厚望研究者們開(kāi)始嘗試將NLP模型從特定任務(wù)的優(yōu)化擴(kuò)展到多任務(wù)學(xué)習(xí),以便在各種任務(wù)上取得更好的表現(xiàn)。這也反映了通用人工智能的目標(biāo),即讓AI系統(tǒng)具備廣泛的知識(shí)和技能,以應(yīng)對(duì)不同領(lǐng)域的問(wèn)題NLP任務(wù)中我們看到了將多類任務(wù)通過(guò)單一模型解決的可能性資料來(lái)源:nexocode55資料來(lái)源:《Attention

is

all

you

need》(Ashish

Vaswani,

Noam

Shazeer,

Niki

Parmar等)Transformer結(jié)束了過(guò)去對(duì)CNN、RNN、LSTM等誰(shuí)更好的爭(zhēng)論近10年內(nèi)的人工智能模型發(fā)展:從小模型走向大語(yǔ)言模型2017年-2020年:以谷歌Bert為代表的雙向預(yù)訓(xùn)練+Fine

Tuning(微調(diào))的NLP

Transformer模型谷歌的《Attention

isallyou

need》論文開(kāi)創(chuàng)了Transformer模型,重新統(tǒng)一了自然語(yǔ)言模型(NLP)的研究范式以預(yù)訓(xùn)練的方式學(xué)習(xí)語(yǔ)言學(xué)特征,大幅簡(jiǎn)化了過(guò)去NLP繁瑣的研究種類Transformer作為特征提取器效果好于CNN、LSTM模型等,讓AI首次能在語(yǔ)言任務(wù)的部分場(chǎng)景中追平人類國(guó)內(nèi)互聯(lián)網(wǎng)大廠在這一階段仍有出色表現(xiàn),如百度在Bert的基礎(chǔ)上改良了Mask訓(xùn)練方法發(fā)布了ERNIE2.0在語(yǔ)言任務(wù)上,AI第一次能在部分場(chǎng)景追平人類資料來(lái)源:《Attention

is

all

you

need》(Ashish

Vaswani,Noam

Shazeer,

Niki

Parmar等)56GPT:堅(jiān)持自回歸+Zero/Few

Shot

Prompt

//

谷歌:從雙向預(yù)訓(xùn)練+Fine

Tune開(kāi)始向GPT模式靠攏OpenAI與谷歌的Transformer道路之爭(zhēng)2018年6月OpenAI發(fā)布基于TransformerDeconder的GPT-1,1.1億參數(shù)2019年2月 2020年5月OpenAI發(fā)布GPT-

OpenAI發(fā)布GPT-2,15億參數(shù) 3,1750億參數(shù)2022年3月OpenAI發(fā)布InstructGPT,用到Instruction

Tuning和RLHF2022年12月OpenAI發(fā)布ChatGPT2017年6月Google發(fā)布2018年10月Google發(fā)布編碼器的2019年10月Google發(fā)布基于2021年10月Google發(fā)布2021年11月DeepMind發(fā)表2022年1月Google再發(fā)LaMDA2022年4月Google發(fā)布PaLM2022年9月DeepMind發(fā)布Transformer,成為后 BERT(最大3.5億參 Transformer FLAN,轉(zhuǎn)向 Gopher(2800億

(1370億參數(shù)),稱

(5400億參數(shù), Sparrow,加入來(lái)所有LLM的基礎(chǔ)架數(shù)),用于微調(diào)下游任Decoder的T5,兼decoder-參數(shù)),加LLM其具有“意識(shí)”decoder-only),RLHF和Retrival構(gòu);務(wù)容BERT和GPT的only,提出大戰(zhàn)提出神奇的思維鏈(GoogleDeepMind提出RLHF方下游任務(wù)InstructionSearch)法TuningGoogle,OpenAI57Stanford

AIIndex2020,NVIDIA官網(wǎng)從2018年到2022年,模型參數(shù)量增加了5000倍近10年內(nèi)的人工智能模型發(fā)展:GPT-3證明生成式模型是更好的產(chǎn)品2020年-2022年:以1750億參數(shù)的GPT-3為代表,各大互聯(lián)網(wǎng)巨頭不斷嘗試增加模型體積以獲得更好的效果通過(guò)預(yù)訓(xùn)練無(wú)監(jiān)督學(xué)習(xí)的方法不斷增加模型大小成為了這一時(shí)段的主流GPT-3為代表的自回歸+Prompting的方法開(kāi)始展現(xiàn)產(chǎn)品化能力的優(yōu)越性,與Fine-tuning方法的Bert模型成為兩條道路Fine-tuning對(duì)于小公司更難部署,從產(chǎn)品化的角度上更加困難Prompting的方法更符合我們對(duì)以人類的方式使用AI的愿望,正如開(kāi)頭所描述的ChatGPT與Siri的區(qū)別谷歌等巨頭在這一階段也意識(shí)到了Prompting方法的重要性,逐漸開(kāi)始轉(zhuǎn)向。國(guó)內(nèi)AI研究在這一段時(shí)間內(nèi)出現(xiàn)了明顯落后,仍然沿著B(niǎo)ert模型的方向繼續(xù)前進(jìn),對(duì)GPT-3的研究很少;同時(shí)受制于中文優(yōu)質(zhì)語(yǔ)料的稀缺,模型大小也較難提升Prompt簡(jiǎn)化了使用端接口,是更好的產(chǎn)品思維Stanford

AIIndex2020,

NVIDIA官網(wǎng)58資料來(lái)源:蘋(píng)果公司,中信證券研究部自回歸生成模型vs雙向+微調(diào)模型GPT-3發(fā)布后被學(xué)術(shù)圈開(kāi)始重視自回歸模型+Zero/Few

Shot

Prompt的大語(yǔ)言模型此前接觸的人工智能如·Siri、小愛(ài)、小度音箱等,底層技術(shù)是Bert類的雙向+微調(diào)模型。通過(guò)以任務(wù)分類的形式運(yùn)行,準(zhǔn)備不同任務(wù)的標(biāo)注數(shù)據(jù)分別進(jìn)行訓(xùn)練。簡(jiǎn)單來(lái)說(shuō),將預(yù)先設(shè)置好的任務(wù)類型放于模型背后,使用者通過(guò)描述任務(wù)類型系統(tǒng)來(lái)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論