多模態(tài)AI產(chǎn)業(yè)鏈全景梳理_第1頁
多模態(tài)AI產(chǎn)業(yè)鏈全景梳理_第2頁
多模態(tài)AI產(chǎn)業(yè)鏈全景梳理_第3頁
多模態(tài)AI產(chǎn)業(yè)鏈全景梳理_第4頁
多模態(tài)AI產(chǎn)業(yè)鏈全景梳理_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多模態(tài)AI產(chǎn)業(yè)鏈全景梳理

當(dāng)前AT模型從單模態(tài)向多模態(tài)演進,有望實現(xiàn)認知智能,是AT未來發(fā)展

的明確趨勢。近期AI多模態(tài)模型不斷取得突破性進展。OpenAI于11月

發(fā)布了GPT-4Turbo且開放了GPTs再次顛覆行業(yè),GPTs短期上線數(shù)量已

超3萬,揭開AIGC應(yīng)用生態(tài)序幕。

GPT-4Turt

海外初創(chuàng)公司PikaLabs正式推出的AI視頻生成工具Pikal.0火爆全球,

Pikal.O包括一個能生成和編輯3D動畫、動漫、卡通、電影等各種風(fēng)格視

頻的全新AI模型。12月,谷歌緊隨其后發(fā)布了其認為規(guī)模最大、功能最

強大的人工智能模型Gemini,聲稱性能超越CPT-4和人類專家。作為多模

態(tài)大模型,Gemini可以同時識別和理解文本、圖像、音頻、視頻和代碼

五種信息,且對信息的理解非常精準(zhǔn)。有別于傳統(tǒng)大模型對英偉達硬件及

生態(tài)的依賴,Gemini的訓(xùn)練來自于谷歌的TPUv4和v5e的硬件支持。

當(dāng)前以Pika1.0和Gemini為代表的AI多模態(tài)模型不斷突

破,或推動大模型應(yīng)用領(lǐng)域加快落地并打開商業(yè)化空間。以上兩家也代表

著挑戰(zhàn)者對OpcnAI和英偉達的強力反擊,AI領(lǐng)域的高水平競爭正式進入了

全新的階段。當(dāng)前海外科技巨頭之間多模態(tài)大模型的競爭日益激烈,同時

驅(qū)動著底層多模態(tài)大模型的能力不斷突破,垂域應(yīng)用遍地開花,AI應(yīng)用

有望迎來快速爆發(fā)。據(jù)市場分析機構(gòu)IDC最新報告顯示,2022年全球A1應(yīng)

用軟件市場規(guī)模為640億美元,預(yù)計到2027年將增加到2790億美元,復(fù)

合年增長率(CAGR)為31.4%。

O1

多模態(tài)AI行業(yè)概覽

人工智能領(lǐng)域研究一直致力于以技術(shù)實現(xiàn)計算機對于人類認知世界方式的

高度效仿。單模態(tài)交互是一個局限的、并不完整的模型,因此“多模態(tài)”

研究大勢所趨己十分明朗。多模態(tài)學(xué)習(xí)(對應(yīng)單模態(tài))以多模態(tài)大規(guī)模數(shù)

據(jù)為基礎(chǔ),同時利用多種感官進行學(xué)習(xí),提供更豐富信息。除傳統(tǒng)的語言

以及圖像間的交互作用,其結(jié)合聲音、觸覺以及動作等多維度信息進行深

度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。相比于單模態(tài),多

模態(tài)模型處理多種數(shù)據(jù)輸入,結(jié)構(gòu)上更復(fù)雜,可能涉及使用多個子網(wǎng)絡(luò),

然后將其輸出合并。多模態(tài)模型的核心是處理和整合這些不同類型的數(shù)據(jù)

源。這種模型可以捕獲跨模態(tài)的復(fù)雜關(guān)系,使機器能夠更全面地理解和分

析信息,從而在各種任務(wù)中表現(xiàn)得更好。AI模型走向多模態(tài)必然性的三大

因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認知能力的模擬。

JinaAl光譜

單模態(tài)

Single-modalAl

Before2021-~-r

CreativeAl

2022多模態(tài)

Al實現(xiàn)

模態(tài)融合

多模態(tài)AI以模態(tài)融合為核心技術(shù)

環(huán)節(jié),圍繞“表征-翻譯-對齊-融合-聯(lián)合學(xué)習(xí)”五大技術(shù)環(huán)節(jié),解決實際

場景下復(fù)雜問題的多模態(tài)解任務(wù)。多模態(tài)應(yīng)用場景按架構(gòu)可分為視頻分類、

事件檢測、情緒分析、視覺問答、情感分析、語音識別、跨模態(tài)搜索、圖

像標(biāo)注、跨模態(tài)嵌入、轉(zhuǎn)移學(xué)習(xí)、視頻解碼、圖像合成等。多模態(tài)AI實現(xiàn)

跨模態(tài)任務(wù),應(yīng)用場景豐富。能夠?qū)崿F(xiàn)基于文本、語音、圖片、視頻等多

模態(tài)數(shù)據(jù)的綜合處理應(yīng)用,完成跨模態(tài)領(lǐng)域任務(wù),應(yīng)用于各種場景。據(jù)布

谷實驗室統(tǒng)計,當(dāng)前多模態(tài)內(nèi)容主要應(yīng)用于商業(yè)定制、游戲領(lǐng)域、影視領(lǐng)

域、教育領(lǐng)域以及醫(yī)療領(lǐng)域五大行業(yè)。多模態(tài)八I圖示:

Feedback

INPUTS:CORTICALLEARNINGENGIN

Anytypeof?"SequenceMemories,fori

spatial-temporal?Detectandpredictpatterr

datastream?Basedon^HierarchicalTe

根據(jù)技術(shù)迭代,多模態(tài)模型可以分為三個主要發(fā)展階段。2010年至今,深

度學(xué)習(xí)為多模態(tài)研究帶來了巨大的推動力,多模態(tài)模型已經(jīng)達到了前所未

有的準(zhǔn)確性和復(fù)雜性,這一階段受益于四個關(guān)鍵因素的推動:1)大規(guī)模的

多模態(tài)數(shù)據(jù)集;2)更強大的計算能力;3)研究者也開始掌握更為先進的

視覺特征提取技術(shù);4)出現(xiàn)了強大的語言特征抽取模型,包括Transformer

架構(gòu)。多模態(tài)模型主要經(jīng)歷三個時代:

交互時代

1980-20002000-2010

主要技術(shù)與應(yīng)用:主要技術(shù)與應(yīng)用:

?視頻音頻語音識別(AVSR),在?IDIAP實驗室的AMI項目:記錄

聲音的低信噪比下,引入視覺會議錄音、同步音頻視頻、轉(zhuǎn)

信號能夠極大提升識別準(zhǔn)確率錄與注釋;

?情感計算:與情感或其他情感?AlexWaibcl的CHIL項目:將計

現(xiàn)象有關(guān)、源于情感或有意影算機置于人類交互圈中,多傳

響情感的計算感器多模態(tài)信號處理,面對面

交互

?多媒體計算:信息媒體數(shù)字視

頻庫項目?SRI的學(xué)習(xí)和組織認知助手

數(shù)據(jù)來源:卡內(nèi)基梅隆大學(xué)

02

多模態(tài)AI市場格局梳理

在OpenAI宣布ChatGPT實現(xiàn)聯(lián)網(wǎng)及支持圖片、語音交流及與文字互轉(zhuǎn)

等多模態(tài)更新后,國內(nèi)外大廠持續(xù)布局跨文本、圖像、音視頻等模態(tài)的AI

模型,行業(yè)應(yīng)用亦不斷升級。Open。多模態(tài)應(yīng)用:

[

Text

ImageImageInput

Projection

AudioInput

Audio

Projection/

VideoInput

Video

Projection占

Moremodalities???

MultimodalInputLLM-ccntricLLM-basedSemantic

EncodingAlignmentUnderstanding

目前,國內(nèi)外各家廠商仍把目光放在多模態(tài)大模型上,對

標(biāo)GPT-4開發(fā)競品。AI初創(chuàng)企業(yè)Anthropic開發(fā)了對標(biāo)的AI聊天機器人

Claudeo谷歌一方面對Anthropic進行投資,一方面也在開發(fā)自己的語言

模型PaLM2和聊天機器人Bardo谷歌擁有多個跨模態(tài)AI模型,并提供多項

功能服務(wù)模塊。Meta走上了另一條道路,開源了自己的大模型LLaMA,后

來也有越來越多的公司將自己的大模型進行開源,包括Vicuna、WizardLM、

Guanac。等模型;微軟K0SM0S-1模型擁有16億參數(shù),解鎖多模態(tài)功能,海

外大模型加速迭代,多模態(tài)是主要方向:

發(fā)布

Meta

出AI

a推

開Met

eta

器人M

微軟

a和

Met

言模

大語

型:

大模

開源

源其他

生成橫

ma2

出Lla

作推

A

LLaM

ley)

erke

CB

a(I

大Vicun

軟)

(微

idLM

模Wiza

7.19

9.2S

)

gtou

asbin

(LAV

aco

型Guan

Air

憶力大

de記

Clau

發(fā)布

opic

Anthr

Clai

ken

級.to

幅升

器人程

聊天機

10萬

數(shù)提到

ude

序Cla

發(fā)布

正式

很軟

GP

T

atGP

引ACh

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論