版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
多模態(tài)AI產(chǎn)業(yè)鏈全景梳理
當(dāng)前AT模型從單模態(tài)向多模態(tài)演進,有望實現(xiàn)認知智能,是AT未來發(fā)展
的明確趨勢。近期AI多模態(tài)模型不斷取得突破性進展。OpenAI于11月
發(fā)布了GPT-4Turbo且開放了GPTs再次顛覆行業(yè),GPTs短期上線數(shù)量已
超3萬,揭開AIGC應(yīng)用生態(tài)序幕。
GPT-4Turt
海外初創(chuàng)公司PikaLabs正式推出的AI視頻生成工具Pikal.0火爆全球,
Pikal.O包括一個能生成和編輯3D動畫、動漫、卡通、電影等各種風(fēng)格視
頻的全新AI模型。12月,谷歌緊隨其后發(fā)布了其認為規(guī)模最大、功能最
強大的人工智能模型Gemini,聲稱性能超越CPT-4和人類專家。作為多模
態(tài)大模型,Gemini可以同時識別和理解文本、圖像、音頻、視頻和代碼
五種信息,且對信息的理解非常精準(zhǔn)。有別于傳統(tǒng)大模型對英偉達硬件及
生態(tài)的依賴,Gemini的訓(xùn)練來自于谷歌的TPUv4和v5e的硬件支持。
當(dāng)前以Pika1.0和Gemini為代表的AI多模態(tài)模型不斷突
破,或推動大模型應(yīng)用領(lǐng)域加快落地并打開商業(yè)化空間。以上兩家也代表
著挑戰(zhàn)者對OpcnAI和英偉達的強力反擊,AI領(lǐng)域的高水平競爭正式進入了
全新的階段。當(dāng)前海外科技巨頭之間多模態(tài)大模型的競爭日益激烈,同時
驅(qū)動著底層多模態(tài)大模型的能力不斷突破,垂域應(yīng)用遍地開花,AI應(yīng)用
有望迎來快速爆發(fā)。據(jù)市場分析機構(gòu)IDC最新報告顯示,2022年全球A1應(yīng)
用軟件市場規(guī)模為640億美元,預(yù)計到2027年將增加到2790億美元,復(fù)
合年增長率(CAGR)為31.4%。
O1
多模態(tài)AI行業(yè)概覽
人工智能領(lǐng)域研究一直致力于以技術(shù)實現(xiàn)計算機對于人類認知世界方式的
高度效仿。單模態(tài)交互是一個局限的、并不完整的模型,因此“多模態(tài)”
研究大勢所趨己十分明朗。多模態(tài)學(xué)習(xí)(對應(yīng)單模態(tài))以多模態(tài)大規(guī)模數(shù)
據(jù)為基礎(chǔ),同時利用多種感官進行學(xué)習(xí),提供更豐富信息。除傳統(tǒng)的語言
以及圖像間的交互作用,其結(jié)合聲音、觸覺以及動作等多維度信息進行深
度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。相比于單模態(tài),多
模態(tài)模型處理多種數(shù)據(jù)輸入,結(jié)構(gòu)上更復(fù)雜,可能涉及使用多個子網(wǎng)絡(luò),
然后將其輸出合并。多模態(tài)模型的核心是處理和整合這些不同類型的數(shù)據(jù)
源。這種模型可以捕獲跨模態(tài)的復(fù)雜關(guān)系,使機器能夠更全面地理解和分
析信息,從而在各種任務(wù)中表現(xiàn)得更好。AI模型走向多模態(tài)必然性的三大
因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認知能力的模擬。
JinaAl光譜
單模態(tài)
Single-modalAl
Before2021-~-r
CreativeAl
2022多模態(tài)
Al實現(xiàn)
模態(tài)融合
多模態(tài)AI以模態(tài)融合為核心技術(shù)
環(huán)節(jié),圍繞“表征-翻譯-對齊-融合-聯(lián)合學(xué)習(xí)”五大技術(shù)環(huán)節(jié),解決實際
場景下復(fù)雜問題的多模態(tài)解任務(wù)。多模態(tài)應(yīng)用場景按架構(gòu)可分為視頻分類、
事件檢測、情緒分析、視覺問答、情感分析、語音識別、跨模態(tài)搜索、圖
像標(biāo)注、跨模態(tài)嵌入、轉(zhuǎn)移學(xué)習(xí)、視頻解碼、圖像合成等。多模態(tài)AI實現(xiàn)
跨模態(tài)任務(wù),應(yīng)用場景豐富。能夠?qū)崿F(xiàn)基于文本、語音、圖片、視頻等多
模態(tài)數(shù)據(jù)的綜合處理應(yīng)用,完成跨模態(tài)領(lǐng)域任務(wù),應(yīng)用于各種場景。據(jù)布
谷實驗室統(tǒng)計,當(dāng)前多模態(tài)內(nèi)容主要應(yīng)用于商業(yè)定制、游戲領(lǐng)域、影視領(lǐng)
域、教育領(lǐng)域以及醫(yī)療領(lǐng)域五大行業(yè)。多模態(tài)八I圖示:
Feedback
INPUTS:CORTICALLEARNINGENGIN
Anytypeof?"SequenceMemories,fori
spatial-temporal?Detectandpredictpatterr
datastream?Basedon^HierarchicalTe
根據(jù)技術(shù)迭代,多模態(tài)模型可以分為三個主要發(fā)展階段。2010年至今,深
度學(xué)習(xí)為多模態(tài)研究帶來了巨大的推動力,多模態(tài)模型已經(jīng)達到了前所未
有的準(zhǔn)確性和復(fù)雜性,這一階段受益于四個關(guān)鍵因素的推動:1)大規(guī)模的
多模態(tài)數(shù)據(jù)集;2)更強大的計算能力;3)研究者也開始掌握更為先進的
視覺特征提取技術(shù);4)出現(xiàn)了強大的語言特征抽取模型,包括Transformer
架構(gòu)。多模態(tài)模型主要經(jīng)歷三個時代:
交互時代
1980-20002000-2010
主要技術(shù)與應(yīng)用:主要技術(shù)與應(yīng)用:
?視頻音頻語音識別(AVSR),在?IDIAP實驗室的AMI項目:記錄
聲音的低信噪比下,引入視覺會議錄音、同步音頻視頻、轉(zhuǎn)
信號能夠極大提升識別準(zhǔn)確率錄與注釋;
?情感計算:與情感或其他情感?AlexWaibcl的CHIL項目:將計
現(xiàn)象有關(guān)、源于情感或有意影算機置于人類交互圈中,多傳
響情感的計算感器多模態(tài)信號處理,面對面
交互
?多媒體計算:信息媒體數(shù)字視
頻庫項目?SRI的學(xué)習(xí)和組織認知助手
數(shù)據(jù)來源:卡內(nèi)基梅隆大學(xué)
02
多模態(tài)AI市場格局梳理
在OpenAI宣布ChatGPT實現(xiàn)聯(lián)網(wǎng)及支持圖片、語音交流及與文字互轉(zhuǎn)
等多模態(tài)更新后,國內(nèi)外大廠持續(xù)布局跨文本、圖像、音視頻等模態(tài)的AI
模型,行業(yè)應(yīng)用亦不斷升級。Open。多模態(tài)應(yīng)用:
[
Text
ImageImageInput
Projection
AudioInput
Audio
Projection/
VideoInput
Video
Projection占
Moremodalities???
MultimodalInputLLM-ccntricLLM-basedSemantic
EncodingAlignmentUnderstanding
目前,國內(nèi)外各家廠商仍把目光放在多模態(tài)大模型上,對
標(biāo)GPT-4開發(fā)競品。AI初創(chuàng)企業(yè)Anthropic開發(fā)了對標(biāo)的AI聊天機器人
Claudeo谷歌一方面對Anthropic進行投資,一方面也在開發(fā)自己的語言
模型PaLM2和聊天機器人Bardo谷歌擁有多個跨模態(tài)AI模型,并提供多項
功能服務(wù)模塊。Meta走上了另一條道路,開源了自己的大模型LLaMA,后
來也有越來越多的公司將自己的大模型進行開源,包括Vicuna、WizardLM、
Guanac。等模型;微軟K0SM0S-1模型擁有16億參數(shù),解鎖多模態(tài)功能,海
外大模型加速迭代,多模態(tài)是主要方向:
發(fā)布
Meta
出AI
a推
開Met
eta
器人M
合
微軟
a和
Met
型
言模
大語
型:
大模
開源
源其他
生成橫
像
ma2
出Lla
作推
A
LLaM
ley)
erke
CB
a(I
大Vicun
軟)
(微
idLM
模Wiza
7.19
9.2S
)
gtou
asbin
(LAV
aco
型Guan
Air
憶力大
de記
Clau
發(fā)布
opic
Anthr
Clai
ken
級.to
幅升
器人程
聊天機
10萬
數(shù)提到
ude
序Cla
發(fā)布
正式
很軟
GP
T
atGP
引ACh
式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中職第二學(xué)年(畜牧獸醫(yī))畜禽養(yǎng)殖技術(shù)2026年綜合測試題及答案
- 2025年中職口腔護理(口腔清潔技術(shù))試題及答案
- 2025年高職航空物流管理(航空貨運)試題及答案
- 大學(xué)(護理學(xué))外科護理規(guī)范2026年階段測試題
- 2026年注冊公用設(shè)備工程師(暖通空調(diào)專業(yè)案例上)試題及答案
- 2026年中職第三學(xué)年(中醫(yī)康復(fù)保?。┩颇冒茨夹g(shù)試題及答案
- 深度解析(2026)GBT 18290.3-2000無焊連接 第3部分可接觸無焊絕緣位移連接 一般要求、試驗方法和使用導(dǎo)則
- 深度解析(2026)《GBT 18187-2000釀造食醋》
- 深度解析(2026)《GBT 17980.66-2004農(nóng)藥 田間藥效試驗準(zhǔn)則(二) 第66部分殺蟲劑防治蔬菜潛葉蠅》
- 深度解析(2026)《GBT 17857-1999醫(yī)用放射學(xué)術(shù)語(放射治療、核醫(yī)學(xué)和輻射劑量學(xué)設(shè)備)》
- 2025年問卷星護理題庫及答案
- 中風(fēng)腦梗死恢復(fù)期護理方案
- 《嵌入式實驗與實踐教程-基于STM32與Proteus》課件-第一章
- 康復(fù)醫(yī)學(xué)重點專科建設(shè)匯報
- 上海旅館業(yè)從業(yè)考試答卷及答案解析
- 西餐點餐基礎(chǔ)知識培訓(xùn)
- 雜交瘤細胞的制備過程
- 2025年福建省綜合性評標(biāo)專家?guī)煸u標(biāo)專家考試練習(xí)題及答案一
- 嬰兒急性支氣管肺炎業(yè)務(wù)查房
- 團隊意識的培訓(xùn)課件
- 智能門鎖安裝與維護手冊及常見問題處理
評論
0/150
提交評論