版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Ch3.多模態(tài)大語(yǔ)言模型教學(xué)目標(biāo)2教學(xué)目標(biāo)知識(shí)目標(biāo)了解多模態(tài)大語(yǔ)言模型的基本架構(gòu)及其關(guān)鍵技術(shù)理解常見(jiàn)的多模態(tài)大語(yǔ)言模型的特點(diǎn)及其原理能力目標(biāo)掌握微調(diào)多模態(tài)大語(yǔ)言模型的方法素養(yǎng)目標(biāo)面對(duì)快速變化的技術(shù)環(huán)境,掌握國(guó)產(chǎn)多模態(tài)大語(yǔ)言模型,以適應(yīng)未來(lái)科技發(fā)展的需求。【重點(diǎn)難點(diǎn)】理解目前常用的多模態(tài)語(yǔ)言模型的結(jié)構(gòu)和原理,掌握微調(diào)多模態(tài)大語(yǔ)言模型的方法。多模態(tài)大模型概述3.13.1多模態(tài)大模型概述
4多模態(tài)大語(yǔ)言模型(MultimodalLargeLanguageModels,MMLMs)是人工智能領(lǐng)域的一個(gè)重要且新興研究方向。這些模型結(jié)合了文本、圖像、音頻等多種模態(tài)的數(shù)據(jù)進(jìn)行學(xué)習(xí)和推理,這些模型通過(guò)深度學(xué)習(xí)技術(shù),能夠處理和理解多種類型的數(shù)據(jù),如文本、圖像、音頻和視頻,并能將它們?nèi)诤掀饋?lái)進(jìn)行復(fù)雜的任務(wù)處理,從而實(shí)現(xiàn)更全面的信息理解和生成。本章首先簡(jiǎn)要介紹了多模態(tài)大語(yǔ)言模型的基本架構(gòu),隨后深入探討了該領(lǐng)域的幾種主要的關(guān)鍵技術(shù)及其未來(lái)的發(fā)展方向,最后介紹多模態(tài)大模型微調(diào)實(shí)踐案例。3.1.1多模態(tài)大語(yǔ)言模型基本架構(gòu)5大語(yǔ)言模型作為智能控制器大語(yǔ)言模型作為智能控制器在此架構(gòu)中,主要負(fù)責(zé)任務(wù)的調(diào)度和控制。這意味著模型中的其他組件,比如用于處理圖像或音頻的特定模塊,會(huì)根據(jù)大語(yǔ)言模型的指示來(lái)執(zhí)行特定的任務(wù)。如圖所示,大語(yǔ)言模型在這個(gè)過(guò)程中充當(dāng)了一個(gè)智能控制器的角色,它可以根據(jù)輸入的數(shù)據(jù)類型和任務(wù)需求來(lái)決定如何分配資源以及哪些模塊應(yīng)該被激活。這種方式的優(yōu)點(diǎn)在于可以根據(jù)不同的任務(wù)需求靈活地調(diào)整任務(wù)流程,容易添加新的模態(tài)處理模塊。但缺點(diǎn)在于需要設(shè)計(jì)一個(gè)高效的調(diào)度機(jī)制來(lái)確保不同模態(tài)之間的平滑交互。而且隨著模態(tài)數(shù)量的增加,大語(yǔ)言模型需要處理的決策復(fù)雜度也會(huì)相應(yīng)增加。3.1.1多模態(tài)大語(yǔ)言模型基本架構(gòu)6大語(yǔ)言模型作為核心系統(tǒng)在此架構(gòu)中,大語(yǔ)言模型不再是獨(dú)立的智能控制器,而是整個(gè)系統(tǒng)的核心部分,通常采用編碼器-解碼器的形式,如圖3-2所示。編碼器負(fù)責(zé)將來(lái)自不同模態(tài)的信息編碼成統(tǒng)一的表示形式,然后這些信息會(huì)被傳遞給大語(yǔ)言模型進(jìn)行深度處理和理解,最后由解碼器將處理結(jié)果轉(zhuǎn)換為所需的輸出格式。這種方式使得能夠直接參與到數(shù)據(jù)的處理過(guò)程中,從而實(shí)現(xiàn)更加緊密的多模態(tài)信息融合。相比于前一種架構(gòu),這種模型架構(gòu)的訓(xùn)練過(guò)程可能更為復(fù)雜,需要更多的計(jì)算資源。但是由于大語(yǔ)言模型直接參與到信息處理過(guò)程中,因此可以更好地理解和整合來(lái)自不同模態(tài)的信息。理論上這種架構(gòu)能夠達(dá)到更高的性能水平,因?yàn)樗试S模型更深入地學(xué)習(xí)跨模態(tài)的數(shù)據(jù)特征。目前絕大部分多模態(tài)大語(yǔ)言模型都采用這種模型架構(gòu)。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)7多模態(tài)大語(yǔ)言模型的核心在于深度學(xué)習(xí)算法,深度學(xué)習(xí)算法能夠同時(shí)處理多種模態(tài)的數(shù)據(jù)。通過(guò)海量數(shù)據(jù)的訓(xùn)練,模型可以學(xué)習(xí)到不同模態(tài)之間的關(guān)聯(lián)和互補(bǔ)性,實(shí)現(xiàn)信息的全面理解和高效整合。多模態(tài)大語(yǔ)言模型的基本原理主要圍繞著如何有效地處理和整合來(lái)自多個(gè)不同來(lái)源或類型的數(shù)據(jù),以達(dá)到對(duì)復(fù)雜任務(wù)的更好理解與執(zhí)行。以下是多模態(tài)大語(yǔ)言模型的幾個(gè)核心學(xué)習(xí)方法。模態(tài)編碼器損失函數(shù)設(shè)計(jì)跨模態(tài)表示學(xué)習(xí)模型預(yù)訓(xùn)練多模態(tài)指令微調(diào)多模態(tài)上下文學(xué)習(xí)多模態(tài)思維鏈3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)8模態(tài)編碼器在多模態(tài)大模型中,模態(tài)編碼器扮演著至關(guān)重要的角色,它負(fù)責(zé)將不同類型的輸入數(shù)據(jù)即不同的模態(tài),如文本、圖像、音頻等逐一轉(zhuǎn)換為統(tǒng)一的特征表示。每個(gè)模態(tài)都有其獨(dú)特的屬性和結(jié)構(gòu),因此需要專門設(shè)計(jì)的編碼器來(lái)捕捉這些特性,并將其轉(zhuǎn)化為可以跨模態(tài)比較和處理的形式。模態(tài)編碼器的主要任務(wù)是將原始的高維、非結(jié)構(gòu)化或多結(jié)構(gòu)化的模態(tài)數(shù)據(jù)映射到一個(gè)低維的、具有語(yǔ)義信息的向量空間,這個(gè)過(guò)程也稱為嵌入。在處理文本時(shí),編碼器可能會(huì)基于深度學(xué)習(xí)架構(gòu),如BERT或RoBERTa這樣的預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)Transformer機(jī)制捕捉句子內(nèi)部的上下文關(guān)系,生成文本的語(yǔ)義表示。對(duì)于圖像,編碼器可能采用ResNet或視覺(jué)Transformer模型等網(wǎng)絡(luò),用于提取圖像的空間特征,識(shí)別物體、場(chǎng)景以及理解圖像內(nèi)容。而在處理音頻信號(hào)時(shí),編碼器則會(huì)利用Wav2Vec或HuBERT等模型,從聲音中提取語(yǔ)音特征,支持語(yǔ)音識(shí)別、情感分析等功能。視頻編碼器則結(jié)合了時(shí)空信息的處理,可能包括卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)或Transformer架構(gòu),以處理連續(xù)幀之間的動(dòng)態(tài)變化。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)9損失函數(shù)設(shè)計(jì)多模態(tài)大模型的損失函數(shù)設(shè)計(jì)是模型訓(xùn)練中的關(guān)鍵環(huán)節(jié),它直接影響著模型的性能和效果,以下是一些常見(jiàn)的多模態(tài)大模型損失函數(shù)設(shè)計(jì)方法:對(duì)比學(xué)習(xí)損失方面,像CLIP(ContrastiveLanguage-ImagePre-training)模型采用Info-NCE(NoiseContrastiveEstimationLoss)損失來(lái)進(jìn)行文本和圖像的特征對(duì)齊,Info-NCE損失是噪聲對(duì)比估計(jì)(NCE)的簡(jiǎn)單變體,把噪聲樣本從按一個(gè)類別看待變?yōu)榘炊鄠€(gè)類別看待,計(jì)算時(shí)在1個(gè)正樣本和k個(gè)負(fù)樣本上做求和,相當(dāng)于做k+1類分類任務(wù),目的是將查詢圖片準(zhǔn)確分到正確類別中。另外,部分對(duì)比學(xué)習(xí)方法會(huì)用margin損失優(yōu)化模型,它旨在拉大正樣本對(duì)和負(fù)樣本對(duì)之間的距離,定義為正樣本對(duì)之間的相似度減去負(fù)樣本對(duì)之間的相似度再加上一個(gè)margin值,若差值小于margin就會(huì)產(chǎn)生損失,促使模型學(xué)到更具判別性的特征,使正樣本對(duì)相似度更高、負(fù)樣本對(duì)相似度更低。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)10損失函數(shù)設(shè)計(jì)在語(yǔ)言建模損失這塊,多模態(tài)大模型涉及文本生成任務(wù),比如根據(jù)圖像生成相應(yīng)文本描述時(shí),通常用交叉熵?fù)p失優(yōu)化語(yǔ)言模型部分。按自回歸方式,模型預(yù)測(cè)下一個(gè)單詞或字符的概率分布,與真實(shí)文本標(biāo)簽計(jì)算交叉熵?fù)p失,通過(guò)最小化該損失最大化對(duì)應(yīng)文本概率,讓生成的文本更符合語(yǔ)法和語(yǔ)義規(guī)則,更連貫合理。生成對(duì)抗損失方面,生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GANs)的思想應(yīng)用到多模態(tài)大模型中,模型由生成器和判別器組成,生成器根據(jù)輸入的圖像或其他模態(tài)信息生成文本,判別器判斷生成的文本是否真實(shí),生成器要生成逼真文本騙判別器,判別器要準(zhǔn)確區(qū)分真實(shí)文本和生成文本,通過(guò)對(duì)抗訓(xùn)練優(yōu)化生成器和判別器參數(shù),使生成器生成高質(zhì)量、符合真實(shí)分布的文本。重建損失里,在一些多模態(tài)任務(wù),像圖像字幕生成或視覺(jué)問(wèn)答中,模型需根據(jù)文本信息重建或預(yù)測(cè)圖像內(nèi)容。像素級(jí)損失可計(jì)算生成圖像與真實(shí)圖像在像素級(jí)別差異,常用均方誤差(MeanSquaredError,MSE)或平均絕對(duì)誤差(MeanAbsoluteError,MAE)等指標(biāo)衡量,通過(guò)最小化像素級(jí)重建損失,促使模型學(xué)習(xí)文本與圖像間的映射關(guān)系,更好地根據(jù)文本生成準(zhǔn)確圖像內(nèi)容或回答圖像相關(guān)問(wèn)題。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)11跨模態(tài)表示學(xué)習(xí)在多模態(tài)數(shù)據(jù)中,不同模態(tài)(如文本、圖像、音頻)的數(shù)據(jù)有著不同的結(jié)構(gòu)和語(yǔ)義表示方式??缒B(tài)表示學(xué)習(xí)的目的是構(gòu)建一個(gè)統(tǒng)一的語(yǔ)義空間,使得不同模態(tài)的數(shù)據(jù)能夠在這個(gè)空間中有對(duì)應(yīng)的表示,從而實(shí)現(xiàn)模態(tài)間的交互和融合。它首先要解決特征提取的問(wèn)題。對(duì)于每種模態(tài),都需要使用合適的方法來(lái)提取最具代表性的特征。例如,對(duì)于圖像模態(tài),可以利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖像的紋理、形狀、顏色等特征;對(duì)于文本模態(tài),詞向量模型或者Transformer模型以將文本轉(zhuǎn)換為語(yǔ)義向量;對(duì)于音頻模態(tài),通過(guò)頻譜分析等手段來(lái)提取音頻的頻率、節(jié)奏等特征。在提取特征之后,重點(diǎn)在于如何將這些不同模態(tài)的特征映射到同一語(yǔ)義空間。一種常見(jiàn)的方法是通過(guò)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)學(xué)習(xí)這種映射關(guān)系。以雙模態(tài)(如文本和圖像)為例,模型會(huì)同時(shí)處理兩種模態(tài)的特征,利用共享權(quán)重或者聯(lián)合訓(xùn)練的方式,使得文本特征和圖像特征在這個(gè)過(guò)程中逐漸靠近,最終在共同的語(yǔ)義空間中有相似的表示。例如,在一個(gè)圖像和文本跨模態(tài)表示學(xué)習(xí)任務(wù)中,模型會(huì)學(xué)習(xí)到當(dāng)看到一張“狗在草地上奔跑”的圖像時(shí),與之對(duì)應(yīng)的文本特征和圖像特征在語(yǔ)義空間中的距離很近,從而建立起跨模態(tài)的關(guān)聯(lián)。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)12跨模態(tài)表示學(xué)習(xí)注意力機(jī)制在跨模態(tài)表示學(xué)習(xí)中也發(fā)揮著關(guān)鍵作用。它可以幫助模型聚焦于不同模態(tài)之間最相關(guān)的部分。比如在一個(gè)視頻和音頻的跨模態(tài)場(chǎng)景中,當(dāng)視頻中有一個(gè)人物在說(shuō)話,注意力機(jī)制能夠讓模型重點(diǎn)關(guān)注視頻中人物的口型和音頻中的語(yǔ)音內(nèi)容,從而更好地對(duì)齊和融合這兩種模態(tài)的信息??缒B(tài)表示學(xué)習(xí)還需要考慮語(yǔ)義的一致性。即不同模態(tài)表示出來(lái)的語(yǔ)義應(yīng)該是相符的。例如,一幅表現(xiàn)歡快場(chǎng)景的圖像(如孩子們?cè)谟螛?lè)場(chǎng)歡笑)和一段描述歡樂(lè)氛圍的文字在語(yǔ)義空間中的表示應(yīng)該是一致的。為了達(dá)到語(yǔ)義一致性,模型通常會(huì)在大規(guī)模的標(biāo)注數(shù)據(jù)或者通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方式,學(xué)習(xí)到不同模態(tài)之間的語(yǔ)義對(duì)齊規(guī)則。而且,這種技術(shù)還涉及到對(duì)模態(tài)間關(guān)系的動(dòng)態(tài)建模。因?yàn)椴煌B(tài)之間的關(guān)系不是固定不變的,在不同的場(chǎng)景或者任務(wù)中可能會(huì)有所不同。比如在一個(gè)多模態(tài)的故事生成任務(wù)中,隨著故事情節(jié)的發(fā)展,圖像和文字之間的關(guān)聯(lián)會(huì)不斷變化,跨模態(tài)表示學(xué)習(xí)要能夠適應(yīng)這種動(dòng)態(tài)變化,不斷調(diào)整模態(tài)間的表示和關(guān)聯(lián)方式。通過(guò)跨模態(tài)表示學(xué)習(xí),多模態(tài)大模型能夠有效地整合不同模態(tài)的信息,打破模態(tài)之間的壁壘,為更高級(jí)的多模態(tài)任務(wù)(如跨模態(tài)檢索、多模態(tài)生成等)提供堅(jiān)實(shí)的基礎(chǔ)。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)13模型預(yù)訓(xùn)練多模態(tài)大語(yǔ)言模型的預(yù)訓(xùn)練方式是其發(fā)展中的關(guān)鍵環(huán)節(jié),它不僅影響模型的最終性能,也決定了模型能否有效地從不同類型的模態(tài)數(shù)據(jù)中學(xué)習(xí)到有用的表征。目前,多模態(tài)大語(yǔ)言模型的預(yù)訓(xùn)練方式大致可以分為以下幾種。1.聯(lián)合預(yù)訓(xùn)練(JointPre-training):同時(shí)接收多模態(tài)數(shù)據(jù),基于共同目標(biāo)優(yōu)化,預(yù)測(cè)缺失模態(tài),促進(jìn)信息融合。在圖文場(chǎng)景中,模型同時(shí)學(xué)習(xí)圖像與文本特征,實(shí)現(xiàn)圖文互推。2.交替預(yù)訓(xùn)練(AlternatingPre-training):按序預(yù)訓(xùn)練不同模態(tài),先專注單模態(tài),再引入其他模態(tài)。如處理語(yǔ)音-文本任務(wù)時(shí),先學(xué)語(yǔ)音特征,再學(xué)兩者映射關(guān)系。3.遷移預(yù)訓(xùn)練(TransferPre-training):以單模態(tài)預(yù)訓(xùn)練模型為基礎(chǔ),微調(diào)適應(yīng)多模態(tài)任務(wù),適合單模態(tài)數(shù)據(jù)多場(chǎng)景。在醫(yī)療領(lǐng)域,可遷移單模態(tài)圖像特征處理多模態(tài)任務(wù)。3.自監(jiān)督預(yù)訓(xùn)練(Self-supervisedPre-training):通過(guò)設(shè)計(jì)任務(wù)讓模型自尋規(guī)律,無(wú)需大量標(biāo)注。在視頻與字幕場(chǎng)景下,遮蓋內(nèi)容讓模型預(yù)測(cè),提升多模態(tài)理解能力。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)14多模態(tài)指令微調(diào)多模態(tài)指令微調(diào)是一種關(guān)鍵技術(shù),旨在通過(guò)特定任務(wù)的自然語(yǔ)言指令對(duì)預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型進(jìn)行進(jìn)一步優(yōu)化,使其能夠更準(zhǔn)確地理解和執(zhí)行特定的多模態(tài)任務(wù)。這一過(guò)程通常基于已經(jīng)通過(guò)大規(guī)模多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練的模型,這些模型已經(jīng)具備了從多種模態(tài)中提取和整合信息的基礎(chǔ)能力。在多模態(tài)指令微調(diào)中,首先需要準(zhǔn)備特定任務(wù)的多模態(tài)數(shù)據(jù)集,包括文本、圖像、音頻等多種模態(tài)的數(shù)據(jù),并為每條數(shù)據(jù)準(zhǔn)備相應(yīng)的指令。這些指令是自然語(yǔ)言形式的命令,明確地描述了任務(wù)要求。接下來(lái),將預(yù)訓(xùn)練的多模態(tài)模型加載到微調(diào)框架中,使用準(zhǔn)備好的數(shù)據(jù)集和指令對(duì)模型進(jìn)行微調(diào)。這個(gè)過(guò)程通常采用監(jiān)督學(xué)習(xí)的方式,即提供輸入數(shù)據(jù)和對(duì)應(yīng)的標(biāo)簽或期望輸出,并選擇合適的損失函數(shù)及其優(yōu)化算法(如交叉熵?fù)p失和Adam優(yōu)化器)來(lái)訓(xùn)練模型。微調(diào)完成后,需要在驗(yàn)證集上評(píng)估模型的性能,使用適當(dāng)?shù)闹笜?biāo)(如準(zhǔn)確率、F1分?jǐn)?shù)等)來(lái)衡量模型的效果。根據(jù)評(píng)估結(jié)果,可以進(jìn)一步調(diào)整模型參數(shù)或指令設(shè)計(jì),以優(yōu)化模型的性能。然而,多模態(tài)指令微調(diào)也面臨一些挑戰(zhàn),例如指令的多樣性和復(fù)雜性、數(shù)據(jù)標(biāo)注的成本以及模型的泛化能力。為了應(yīng)對(duì)這些挑戰(zhàn),研究者們采用了多種策略,如數(shù)據(jù)增強(qiáng)、多任務(wù)學(xué)習(xí)和持續(xù)學(xué)習(xí)等,以提高模型的魯棒性和泛化能力。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)15多模態(tài)上下文學(xué)習(xí)多模態(tài)上下文學(xué)習(xí)是多模態(tài)大語(yǔ)言模型中的一個(gè)重要技術(shù),旨在使模型能夠在處理新的多模態(tài)任務(wù)時(shí),利用已有的上下文信息來(lái)做出更合理的判斷和決策。這一技術(shù)的核心在于如何有效地整合和利用來(lái)自不同模態(tài)的歷史信息,以增強(qiáng)模型的理解和生成能力。在多模態(tài)上下文學(xué)習(xí)中,模型不僅需要處理當(dāng)前的輸入數(shù)據(jù),還需要考慮之前處理過(guò)的數(shù)據(jù)及其對(duì)應(yīng)的模型輸出。這些歷史信息可以包括文本、圖像、音頻等多種模態(tài)的數(shù)據(jù),以及模型在處理這些數(shù)據(jù)時(shí)的中間狀態(tài)和其他相關(guān)背景知識(shí)。通過(guò)將這些歷史信息表示成一種可以被有效利用的形式,模型能夠更好地理解當(dāng)前任務(wù)的背景,從而做出更準(zhǔn)確的預(yù)測(cè)或生成更符合上下文的輸出。具體來(lái)說(shuō),模型會(huì)將當(dāng)前的輸入數(shù)據(jù)與歷史上下文信息結(jié)合起來(lái),形成更全面的輸入表示。為了實(shí)現(xiàn)這一點(diǎn),通常會(huì)使用多模態(tài)特征提取和融合技術(shù),例如使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用Transformer提取文本特征,然后通過(guò)拼接、加權(quán)求和等方式將這些特征融合在一起。在訓(xùn)練過(guò)程中,模型不僅需要學(xué)習(xí)如何處理當(dāng)前的輸入數(shù)據(jù),還需要學(xué)習(xí)如何有效地利用歷史上下文信息。這通常通過(guò)端到端的訓(xùn)練方式來(lái)實(shí)現(xiàn),即在訓(xùn)練數(shù)據(jù)中包含上下文信息,并使用適當(dāng)?shù)膿p失函數(shù)來(lái)優(yōu)化模型的性能。通過(guò)這種方式,模型才能逐漸學(xué)會(huì)如何在不同的上下文背景下做出更合理和準(zhǔn)確的決策。3.1.2多模態(tài)大語(yǔ)言模型關(guān)鍵技術(shù)16多模態(tài)思維鏈多模態(tài)思維鏈技術(shù)是一種旨在增強(qiáng)多模態(tài)大語(yǔ)言模型理解和生成能力的技術(shù),它通過(guò)模擬人類在處理多模態(tài)信息時(shí)的思考過(guò)程,使得模型能夠在解決復(fù)雜任務(wù)時(shí)展現(xiàn)出更加高級(jí)的認(rèn)知能力。這一技術(shù)的核心在于構(gòu)建一個(gè)能夠有效整合和處理來(lái)自不同模態(tài)(如文本、圖像、音頻等)信息的框架,從而使模型不僅能夠識(shí)別和理解各個(gè)模態(tài)的內(nèi)容,還能在這些內(nèi)容之間建立深層次的聯(lián)系,實(shí)現(xiàn)跨模態(tài)的推理與生成。在多模態(tài)思維鏈技術(shù)中,模型首先需要具備強(qiáng)大的基礎(chǔ)感知能力,即能夠準(zhǔn)確地識(shí)別和解析各種模態(tài)的數(shù)據(jù)。例如,在處理一張圖片和一段描述圖片的文字時(shí),模型需要能夠理解圖片中的物體、場(chǎng)景及其屬性,并且能夠解析文本中的語(yǔ)義信息。接下來(lái),模型通過(guò)構(gòu)建內(nèi)部的“思維鏈”來(lái)整合這些信息,這個(gè)過(guò)程類似于人類在解決問(wèn)題時(shí)的思考步驟,即從已知信息出發(fā),逐步推導(dǎo)出未知信息,直至找到解決問(wèn)題的方法。如何實(shí)現(xiàn):模型通常會(huì)采用一種遞進(jìn)式的處理方式,即先基于一種模態(tài)的信息做出初步判斷或假設(shè),然后結(jié)合另一種模態(tài)的信息進(jìn)行驗(yàn)證或修正,不斷迭代這個(gè)過(guò)程直到得出最終結(jié)論??傊嗄B(tài)思維鏈技術(shù)不僅僅是為了提升模型的性能,更重要的是希望通過(guò)模仿人類的思考方式,使機(jī)器能夠更加自然地處理復(fù)雜的多模態(tài)任務(wù),最終實(shí)現(xiàn)人機(jī)之間的高效溝通與協(xié)作。這些關(guān)鍵技術(shù)的發(fā)展和應(yīng)用,極大地推動(dòng)了多模態(tài)大語(yǔ)言模型的進(jìn)步,使其在多媒體內(nèi)容理解、人機(jī)交互、醫(yī)療健康等多個(gè)領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。3.1.3多模態(tài)大模型的發(fā)展方向
17性能提升:當(dāng)下多模態(tài)大語(yǔ)言模型雖能識(shí)別基礎(chǔ)圖像、視頻信息,但相較于人類精細(xì)入微的視覺(jué)感知還存在較大差距。未來(lái)會(huì)融入更先進(jìn)的視覺(jué)算法與架構(gòu),全力攻克復(fù)雜視覺(jué)場(chǎng)景難題。應(yīng)用領(lǐng)域拓展:多模態(tài)大語(yǔ)言模型可擴(kuò)展更多應(yīng)用領(lǐng)域。比如在教育領(lǐng)域,可為學(xué)生定制專屬學(xué)習(xí)路徑,結(jié)合趣味視頻講解知識(shí)點(diǎn)、智能批改口語(yǔ)作業(yè),還能依據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、錯(cuò)題情況,動(dòng)態(tài)調(diào)整教學(xué)方案。面向人機(jī)交互革新:多模態(tài)交互未來(lái)會(huì)成為常態(tài)。人們無(wú)需再局限于打字輸入,憑借語(yǔ)音、手勢(shì)、眼神等多種方式下達(dá)指令,模型精準(zhǔn)捕捉意圖并即時(shí)回應(yīng)。隱私安全與倫理規(guī)范:隨著多模態(tài)大語(yǔ)言模型應(yīng)用愈發(fā)廣泛,更多的安全技術(shù)來(lái)保障多模態(tài)大語(yǔ)言模型的隱私安全。同時(shí),倫理審查機(jī)制也同步發(fā)展,從而防止模型生成各種有害或歧視性內(nèi)容,保障多模態(tài)大語(yǔ)言模型健康、穩(wěn)健地融入社會(huì)發(fā)展進(jìn)程。圖片多模態(tài)大模型3.23.2圖片多模態(tài)大語(yǔ)言模型
19多模態(tài)大語(yǔ)言模型(MultimodalLargeLanguageModels,MMLMs)是人工智能領(lǐng)域的一個(gè)重要且新興研究方向。這些模型結(jié)合了文本、圖像、音頻等多種模態(tài)的數(shù)據(jù)進(jìn)行學(xué)習(xí)和推理,這些模型通過(guò)深度學(xué)習(xí)技術(shù),能夠處理和理解多種類型的數(shù)據(jù),如文本、圖像、音頻和視頻,并能將它們?nèi)诤掀饋?lái)進(jìn)行復(fù)雜的任務(wù)處理,從而實(shí)現(xiàn)更全面的信息理解和生成。本章首先簡(jiǎn)要介紹了多模態(tài)大語(yǔ)言模型的基本架構(gòu),隨后深入探討了該領(lǐng)域的幾種主要的關(guān)鍵技術(shù)及其未來(lái)的發(fā)展方向,最后介紹多模態(tài)大模型微調(diào)實(shí)踐案例。3.2.1VisionTransformer
20VisionTransformer是2020年Google團(tuán)隊(duì)提出的將Transformer應(yīng)用在圖像分類的模型,其模型較為簡(jiǎn)單且效果好,可擴(kuò)展性強(qiáng),后續(xù)很多圖片多模態(tài)大語(yǔ)言模型使用該模型,該模型簡(jiǎn)稱為ViT。Transformer類的模型的訓(xùn)練方法一般是在大型文本語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,然后在較小而特定于任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)。VisionTransformer嘗試將標(biāo)準(zhǔn)Transformer直接應(yīng)用于圖像,并盡可能減少修改。為此,VisionTransformer將圖像拆分為塊(patch),將一張圖片分成多個(gè)patches。將patches組織成序列的形式,添加線性層將patches序列線性映射到更低維的空間并對(duì)其添加位置embedding編碼信息。最后將圖像序列數(shù)據(jù)送入標(biāo)準(zhǔn)Transformerencoder中去,并在較大的數(shù)據(jù)集上預(yù)訓(xùn)練,在下游數(shù)據(jù)集上微調(diào)用于圖像分類等任務(wù)。3.2.2CLIP
21CLIP(ContrastiveLanguage-ImagePre-training)模型是由OpenAI在2021年發(fā)布的一種多模態(tài)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。它通過(guò)對(duì)比學(xué)習(xí)的方式,將自然語(yǔ)言處理和圖像任務(wù)理解進(jìn)行聯(lián)合預(yù)訓(xùn)練,從而實(shí)現(xiàn)圖像與文本的深度關(guān)聯(lián)。CLIP模型的核心思想是使用大量圖像和文本的配對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)圖像和文本之間的對(duì)齊關(guān)系。這種模型特別適用于零樣本學(xué)習(xí)任務(wù),即模型不需要看到新的圖像或文本的訓(xùn)練示例就能進(jìn)行預(yù)測(cè)。CLIP模型的架構(gòu)主要由兩部分組成:圖像編碼器和文本編碼器。圖像編碼器負(fù)責(zé)將圖像轉(zhuǎn)換為特征向量,它可以是卷積神經(jīng)網(wǎng)絡(luò)或Transformer模型。文本編碼器采用Bert則負(fù)責(zé)將文本轉(zhuǎn)換為特征向量,或者是一個(gè)其他的Transformer文本模型。這兩個(gè)編碼器通過(guò)共享一個(gè)向量空間來(lái)實(shí)現(xiàn)跨模態(tài)的信息交互與融合。該損失函數(shù)的目標(biāo)使得匹配的圖像-文本對(duì)的特征向量盡可能接近,而不匹配的圖像-文本對(duì)的特征向量盡可能遠(yuǎn)離。3.2.3BLIP
22BLIP(BootstrappingLanguage-ImagePre-training)是由新加坡的SalesforceResearch提出的一種用于視覺(jué)語(yǔ)言理解和生成的預(yù)訓(xùn)練模型。BLIP模型的核心在于其多模態(tài)混合編碼器-解碼器架構(gòu),以及創(chuàng)新性的CaptioningandFiltering(CapFilt)數(shù)據(jù)增強(qiáng)策略。模態(tài)混合編碼器-解碼器架構(gòu)包含四個(gè)主要部分:圖像編碼器、文本編碼器、基于圖像的文本編碼器和基于圖像的文本解碼器。圖像編碼器通常采用VisionTransformer(ViT)架構(gòu),將輸入圖像分割成多個(gè)小塊,并將它們編碼成圖像嵌入。文本編碼器基于BERT架構(gòu),處理輸入文本并生成文本嵌入?;趫D像的文本編碼器在文本編碼器的基礎(chǔ)上增加了交叉注意力層,以注入視覺(jué)信息,使其能夠編碼圖像和文本的聯(lián)合表示。最后,基于圖像的文本解碼器用于生成與圖像內(nèi)容相關(guān)的文本,例如圖像描述。BLIP的預(yù)訓(xùn)練包括三個(gè)目標(biāo):圖像-文本對(duì)比學(xué)習(xí)、圖像-文本匹配和圖像條件語(yǔ)言建模。圖像-文本對(duì)比學(xué)習(xí)通過(guò)對(duì)比學(xué)習(xí)對(duì)齊圖像和文本的特征空間,圖像-文本匹配則通過(guò)匹配圖像和文本對(duì)來(lái)學(xué)習(xí)它們的聯(lián)合表征,而圖像條件語(yǔ)言建模任務(wù)則訓(xùn)練模型生成圖像的文本描述。3.2.4BLIP-2
23BLIP-2是由新加坡的SalesforceResearch提出的一種新型的視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型.BLIP-2通過(guò)一個(gè)輕量級(jí)的查詢轉(zhuǎn)換器(QueryingTransformer,Q-Former)來(lái)彌合模態(tài)之間的差距,該轉(zhuǎn)換器通過(guò)兩個(gè)階段的預(yù)訓(xùn)練來(lái)實(shí)現(xiàn):第一階段從凍結(jié)的圖像編碼器中引導(dǎo)視覺(jué)語(yǔ)言表示學(xué)習(xí),第二階段從凍結(jié)的語(yǔ)言模型中引導(dǎo)視覺(jué)到語(yǔ)言的生成學(xué)習(xí)。Former是一個(gè)輕量級(jí)的Transformer,它使用一組可學(xué)習(xí)的查詢向量從凍結(jié)的圖像編碼器中提取視覺(jué)特征,并充當(dāng)圖像編碼器和大語(yǔ)言模型之間的信息瓶頸,將最有用的視覺(jué)特征輸入大語(yǔ)言模型以生成所需的文本。在第一階段的預(yù)訓(xùn)練中,Q-Former被訓(xùn)練以學(xué)習(xí)與文本最相關(guān)的視覺(jué)表示。在第二階段的預(yù)訓(xùn)練中,通過(guò)將Q-Former的輸出連接到凍結(jié)的大語(yǔ)言模型來(lái)執(zhí)行視覺(jué)到語(yǔ)言的生成學(xué)習(xí),并訓(xùn)練Q-Former,使其輸出的視覺(jué)表示可以被大語(yǔ)言模型解釋。3.2.5LLaVA
24LLaVA是一個(gè)端到端訓(xùn)練的大型多模態(tài)模型,結(jié)合了視覺(jué)編碼器和語(yǔ)言模型,用于通用的視覺(jué)和語(yǔ)言理解。LLaVA的輸出基于文本,并且可以根據(jù)任務(wù)而變化。例如,如果任務(wù)是描述視覺(jué)內(nèi)容,LLaVA可以輸出圖像的詳細(xì)描述,識(shí)別對(duì)象、動(dòng)作和場(chǎng)景。對(duì)于問(wèn)答任務(wù),LLaVA會(huì)生成有關(guān)視覺(jué)輸入問(wèn)題的答案,這可能涉及基于圖像內(nèi)容的推理和推斷。LLaVA的訓(xùn)練過(guò)程分為兩個(gè)階段。第一階段是特征對(duì)齊的預(yù)訓(xùn)練,模型專注于將圖像中的視覺(jué)特征與語(yǔ)言模型中的相應(yīng)文本特征對(duì)齊。第二階段是端到端微調(diào),此階段允許模型聯(lián)合微調(diào)投影矩陣和語(yǔ)言模型的權(quán)重,以最大化目標(biāo)答案的可能性。這一階段對(duì)于將LLaVA適應(yīng)特定用例場(chǎng)景(例如多模式聊天、科學(xué)問(wèn)答等)至關(guān)重要,確保模型不僅能在一般描述背景下理解圖像,還能在被提示與圖像相關(guān)的特定問(wèn)題時(shí)進(jìn)行復(fù)雜的對(duì)話、提供詳細(xì)的解釋和推理問(wèn)題。3.2.6
InstructBLIP
25InstructBLIP的模型架構(gòu)沿用了BLIP-2的設(shè)計(jì)。在指令微調(diào)過(guò)程中,研究團(tuán)隊(duì)主要對(duì)Q-Former進(jìn)行了優(yōu)化,使其能夠感知并理解指令文本,從而更加精確地提取與任務(wù)相關(guān)的視覺(jué)特征。模型結(jié)構(gòu)基本與BLIP2一致,Q-Former和大語(yǔ)言模型的輸入多了Instruction。這樣的設(shè)計(jì)允許模型根據(jù)不同的指令提取出與任務(wù)更相關(guān)的圖像特征,從而提高了模型在多模態(tài)任務(wù)上的性能和適應(yīng)性。InstructBLIP的優(yōu)點(diǎn)在于它對(duì)視覺(jué)語(yǔ)言指令調(diào)優(yōu)進(jìn)行了全面而系統(tǒng)的研究,提出了指令感知的視覺(jué)特征提取,這是一種新的機(jī)制,可以根據(jù)給定的指令靈活地提取信息。此外,InstructBLIP引入了指令感知的查詢轉(zhuǎn)換器(Instruction-awareQueryTransformer),它不僅接收?qǐng)D像的特征,還接收指令文本作為輸入,使得模型能夠根據(jù)指令提取出更加相關(guān)的圖像特征。這種設(shè)計(jì)提高了模型在處理多模態(tài)任務(wù)時(shí)的靈活性和準(zhǔn)確性。InstructBLIP通過(guò)指令微調(diào)技術(shù),實(shí)現(xiàn)了從“專才”到“通才”的轉(zhuǎn)變,使得模型不僅在特定的視覺(jué)語(yǔ)言任務(wù)上表現(xiàn)出色,還在多個(gè)零樣本數(shù)據(jù)集上展現(xiàn)出了強(qiáng)大的泛化能力。3.2.7
Qwen-VL
26Qwen-VL是由阿里云研發(fā)的大規(guī)模視覺(jué)語(yǔ)言模型。Qwen-VL的核心架構(gòu)包括一個(gè)大型語(yǔ)言模型Qwen-7B、一個(gè)視覺(jué)編碼器,以及一個(gè)位置感知的視覺(jué)語(yǔ)言適配器。這個(gè)適配器通過(guò)單層cross-attention模塊壓縮圖像特征序列,以提高效率。Qwen-VL在訓(xùn)練階段支持任意交錯(cuò)的圖像-文本數(shù)據(jù)作為輸入,使其在細(xì)粒度的圖像理解上有更好的表現(xiàn),如文本閱讀、面向文本的問(wèn)答、細(xì)粒度的對(duì)話等能力。Qwen2-VL的關(guān)鍵架構(gòu)改進(jìn)包括動(dòng)態(tài)分辨率支持和MultimodalRotaryPositionEmbedding(M-ROPE)的創(chuàng)新,使其能夠處理任意分辨率的圖像,并同時(shí)捕獲和集成1D文本、2D視覺(jué)和3D視頻位置信息。Qwen2-VL系列模型在各類多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色,特別是Qwen2-VL-72B模型,其性能與當(dāng)下效果最好的模型如GPT-4o和Claude3.5-Sonnet相當(dāng),超越了其他通用模型。3.2.8
CogVLM
27CogVLM是由清華大學(xué)與智譜AI聯(lián)合開(kāi)發(fā)的一款先進(jìn)的開(kāi)源視覺(jué)語(yǔ)言模型,它通過(guò)深度融合視覺(jué)和語(yǔ)言特征,在多模態(tài)領(lǐng)域展現(xiàn)出卓越的性能。CogVLM模型的核心特點(diǎn)在于它采用了視覺(jué)專家模塊,這些模塊被嵌入到模型的各個(gè)層中,包括QKV矩陣和多層感知機(jī)層,從而實(shí)現(xiàn)了圖像特征與文本特征的深度融合。這種設(shè)計(jì)不僅保留了原始語(yǔ)言模型的自然語(yǔ)言處理能力,且在多個(gè)視覺(jué)語(yǔ)言任務(wù)中達(dá)到了最優(yōu)的性能,包括圖像字幕、視覺(jué)問(wèn)答、視覺(jué)定位等。CogVLM在實(shí)際應(yīng)用中展現(xiàn)出顯著的優(yōu)勢(shì),支持多種多模態(tài)場(chǎng)景,并適用于廣泛的應(yīng)用領(lǐng)域,如智能客服、圖像搜索、自動(dòng)駕駛等。音頻多模態(tài)大模型3.33.3.1
SALMONN
29清華大學(xué)電子工程系與火山語(yǔ)音團(tuán)隊(duì)攜手合作,推出認(rèn)知導(dǎo)向的開(kāi)源聽(tīng)覺(jué)大語(yǔ)言模型SALMONN。SALMONN是一個(gè)開(kāi)創(chuàng)性的通用聽(tīng)覺(jué)大語(yǔ)言模型。它的構(gòu)建方式是將大語(yǔ)言模型直接與音頻和語(yǔ)音編碼器相連接。這種連接方式使得模型能夠?qū)Χ喾N聽(tīng)覺(jué)元素進(jìn)行處理,涵蓋了語(yǔ)音、音頻事件、音樂(lè)以及聲源方位等諸多方面。通過(guò)這樣的架構(gòu),SALMONN能夠?qū)崿F(xiàn)對(duì)聽(tīng)覺(jué)信息的通用感知與理解。在功能上,它具備高級(jí)的語(yǔ)音指令處理能力。無(wú)論是何種語(yǔ)言的語(yǔ)音指令,它都能夠很好地理解并做出合適的反應(yīng),體現(xiàn)出優(yōu)秀的多語(yǔ)言處理特性。并且,它還能夠進(jìn)行跨模態(tài)推理,例如將音頻信息與其他相關(guān)模態(tài)信息(如文字描述等)進(jìn)行關(guān)聯(lián)和推理,這極大地拓展了模型的應(yīng)用場(chǎng)景和實(shí)用價(jià)值。另外,IXC-2.5的主要功能包括實(shí)現(xiàn)了認(rèn)知導(dǎo)向的音視頻感知。這意味著它是第一個(gè)能夠有效“看”短視頻的多模態(tài)大模型,這種對(duì)音視頻信息的綜合處理能力,使其在多媒體內(nèi)容理解等眾多領(lǐng)域展現(xiàn)出巨大的潛力。例如在視頻內(nèi)容理解任務(wù)中,它可以同時(shí)分析視頻中的音頻線索和視覺(jué)線索,為用戶提供更準(zhǔn)確的視頻內(nèi)容解讀。3.3.2
MACAW-LLM
30MACAW-LLM是由騰訊AILab、都柏林大學(xué)、莫納什大學(xué)等共同提出的一種多模態(tài)語(yǔ)言模型,開(kāi)創(chuàng)性地將圖像、視頻、音頻和文本數(shù)據(jù)進(jìn)行無(wú)縫結(jié)合,為多模態(tài)語(yǔ)言建模帶來(lái)了新的思路和方法。MACAW-LLM具有以下獨(dú)特的功能和優(yōu)勢(shì)。一是簡(jiǎn)單快速對(duì)齊,通過(guò)與大語(yǔ)言模型嵌入的簡(jiǎn)單快速對(duì)齊實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的無(wú)縫集成,可確保快速適應(yīng)不同的數(shù)據(jù)類型;二是單階段指令微調(diào),該模型通過(guò)單階段指令微調(diào)簡(jiǎn)化適應(yīng)過(guò)程,促進(jìn)更高效的學(xué)習(xí)體驗(yàn)。在應(yīng)用場(chǎng)景方面,MACAW-LLM能夠執(zhí)行復(fù)雜任務(wù),如生成詳細(xì)的圖像描述、根據(jù)視頻編寫故事,以及回答與音頻相關(guān)的問(wèn)題。3.3.3
Qwen-Audio
31Qwen-Audio是阿里云推出的音頻大語(yǔ)言模型。此模型建立在Qwen-7B語(yǔ)言模型之上,通過(guò)引入一個(gè)高性能的音頻編碼器,能夠處理包括人類語(yǔ)音、自然聲音、音樂(lè)和歌曲在內(nèi)的多種音頻類型。Qwen-Audio不僅能夠處理特定類型的音頻或任務(wù),同時(shí)模型通過(guò)廣泛的多任務(wù)訓(xùn)練,可以支持超過(guò)30個(gè)音頻相關(guān)任務(wù)、八種語(yǔ)言和多種音頻類型,從而大大提升了其通用音頻理解能力。為應(yīng)對(duì)多任務(wù)和多數(shù)據(jù)集訓(xùn)練過(guò)程中出現(xiàn)的文本標(biāo)簽不一致的問(wèn)題,Qwen-Audio設(shè)計(jì)了一個(gè)多任務(wù)訓(xùn)練框架。該框架通過(guò)在解碼器上引入一系列層級(jí)標(biāo)簽,實(shí)現(xiàn)了知識(shí)共享,并通過(guò)共享和指定的標(biāo)簽來(lái)減少不同任務(wù)之間的干擾。此外,Qwen-Audio還特別引入了語(yǔ)音識(shí)別與單詞級(jí)時(shí)間戳預(yù)測(cè)任務(wù)的訓(xùn)練,這對(duì)于提高模型在基于語(yǔ)音問(wèn)題的回答任務(wù)(如聲音和音樂(lè))方面的性能至關(guān)重要,同時(shí)也改善了語(yǔ)音識(shí)別的效果。3.3.4
AnyGPT
32AnyGPT模型是由復(fù)旦大學(xué)、多模態(tài)藝術(shù)投影研究社區(qū)和上海人工智能實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)多模態(tài)語(yǔ)言模型。通過(guò)在大量互聯(lián)網(wǎng)文本、圖像和音頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,AnyGPT學(xué)會(huì)了捕捉不同模態(tài)間的關(guān)系,使得它不僅能夠生成高質(zhì)量的文本內(nèi)容,還能根據(jù)文本描述生成對(duì)應(yīng)的圖像,或者將文本轉(zhuǎn)換成自然流暢的語(yǔ)音輸出。在技術(shù)實(shí)現(xiàn)上,AnyGPT采用了先進(jìn)的自監(jiān)督學(xué)習(xí)方法,這允許模型在沒(méi)有大量標(biāo)注數(shù)據(jù)的情況下也能有效學(xué)習(xí)到數(shù)據(jù)中的結(jié)構(gòu)化信息。為了更好地適應(yīng)多模態(tài)任務(wù),AnyGPT在其架構(gòu)中引入了跨模態(tài)注意力機(jī)制,這種機(jī)制能夠讓模型在處理某一模態(tài)的信息時(shí),同時(shí)考慮到其他模態(tài)的相關(guān)性,從而提高生成內(nèi)容的連貫性和準(zhǔn)確性。在語(yǔ)音合成任務(wù)中,則可以根據(jù)輸入的文字生成相應(yīng)的聲音文件。為了確保模型的通用性和可擴(kuò)展性,AnyGPT的設(shè)計(jì)充分考慮了模塊化和可插拔性。這意味著開(kāi)發(fā)者可以根據(jù)具體應(yīng)用場(chǎng)景的需求,選擇性地加載或替換模型的部分組件,比如使用不同的編碼器或解碼器來(lái)優(yōu)化特定任務(wù)的性能。3.3.4
AnyGPT
33AnyGPT模型是由復(fù)旦大學(xué)、多模態(tài)藝術(shù)投影研究社區(qū)和上海人工智能實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)多模態(tài)語(yǔ)言模型。通過(guò)在大量互聯(lián)網(wǎng)文本、圖像和音頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,AnyGPT學(xué)會(huì)了捕捉不同模態(tài)間的關(guān)系,使得它不僅能夠生成高質(zhì)量的文本內(nèi)容,還能根據(jù)文本描述生成對(duì)應(yīng)的圖像,或者將文本轉(zhuǎn)換成自然流暢的語(yǔ)音輸出。在技術(shù)實(shí)現(xiàn)上,AnyGPT采用了先進(jìn)的自監(jiān)督學(xué)習(xí)方法,這允許模型在沒(méi)有大量標(biāo)注數(shù)據(jù)的情況下也能有效學(xué)習(xí)到數(shù)據(jù)中的結(jié)構(gòu)化信息。為了更好地適應(yīng)多模態(tài)任務(wù),AnyGPT在其架構(gòu)中引入了跨模態(tài)注意力機(jī)制,這種機(jī)制能夠讓模型在處理某一模態(tài)的信息時(shí),同時(shí)考慮到其他模態(tài)的相關(guān)性,從而提高生成內(nèi)容的連貫性和準(zhǔn)確性。在語(yǔ)音合成任務(wù)中,則可以根據(jù)輸入的文字生成相應(yīng)的聲音文件。為了確保模型的通用性和可擴(kuò)展性,AnyGPT的設(shè)計(jì)充分考慮了模塊化和可插拔性。這意味著開(kāi)發(fā)者可以根據(jù)具體應(yīng)用場(chǎng)景的需求,選擇性地加載或替換模型的部分組件,比如使用不同的編碼器或解碼器來(lái)優(yōu)化特定任務(wù)的性能。視頻多模態(tài)大模型3.43.4.1
Video-ChatGPT
35Video-Chatgpt是由穆罕默德·本·扎耶德人工智能大學(xué)提出的視頻多模態(tài)大語(yǔ)言模型。視頻理解相關(guān)的應(yīng)用激增導(dǎo)致了深度學(xué)習(xí)在視頻相關(guān)任務(wù)的重大進(jìn)步。然而,當(dāng)前的視頻理解模型仍然無(wú)法以連貫的方式就視頻內(nèi)容進(jìn)行開(kāi)放式對(duì)話?;谝曨l的對(duì)話模型可以徹底改變傳統(tǒng)的視頻搜索、監(jiān)控操作,并幫助總結(jié)關(guān)鍵事件和異常事件檢測(cè)。最重要的是,它可以為視頻相關(guān)任務(wù)(例如動(dòng)作識(shí)別、定位、檢測(cè)、分割、檢索和跟蹤)提供統(tǒng)一的模型接口。Video-ChatGPT是一種新穎的多模態(tài)大語(yǔ)言模型,它融合了預(yù)訓(xùn)練視覺(jué)編碼器的表示能力和大語(yǔ)言模型的生成能力,能夠?qū)σ曨l進(jìn)行理解和對(duì)話。它利用了一個(gè)包含100,000個(gè)視頻指令對(duì)的新數(shù)據(jù)集進(jìn)行訓(xùn)練,這個(gè)數(shù)據(jù)集是通過(guò)人工輔助和半自動(dòng)的數(shù)據(jù)收集程序獲取的,易于擴(kuò)展且對(duì)標(biāo)簽噪聲具有魯棒性。此外,Video-Chatgpt引入了第一個(gè)用于基準(zhǔn)測(cè)試的視頻對(duì)話評(píng)估框架,可以更準(zhǔn)確地評(píng)估視頻對(duì)話模型的性能。該框架評(píng)估模型的各種功能,例如信息的正確性、細(xì)節(jié)導(dǎo)向、上下文理解、時(shí)間理解和一致性。3.4.2
VideoChat
36VideoChat是一個(gè)由上海人工智能實(shí)驗(yàn)室推出的視頻多模態(tài)大語(yǔ)言模型,能夠?qū)⒁曨l中的視覺(jué)信息轉(zhuǎn)化為自然語(yǔ)言,允許用戶通過(guò)提問(wèn)和接收回答的方式與視頻內(nèi)容進(jìn)行互動(dòng)。VideoChat包括兩個(gè)主要的實(shí)現(xiàn)方式:VideoChat-Text和VideoChat-Embed。VideoChat-Text通過(guò)多種感知模型將視頻內(nèi)容轉(zhuǎn)換為詳細(xì)的文本描述,而VideoChat-Embed則采用一個(gè)單一的視頻模型將視頻內(nèi)容編碼為與文本空間對(duì)齊的特征表示。這樣的設(shè)計(jì)讓VideoChat不僅能夠處理視頻的基本視覺(jué)信息,還能夠理解視頻中更深層次的語(yǔ)義內(nèi)容,包括情感、主題和故事線等。VideoChat的技術(shù)核心在于其能夠?qū)⒁曨l信息編碼成適合大語(yǔ)言模型處理的格式,無(wú)論是通過(guò)顯式的文本描述還是隱式的特征嵌入。它使用了視頻基礎(chǔ)模型來(lái)提供對(duì)視頻內(nèi)容的詳細(xì)理解,并利用大語(yǔ)言模型的能力來(lái)生成和理解自然語(yǔ)言文本。3.4.3
Chat-Univi
37Chat-Univi,該模型認(rèn)為現(xiàn)有的多模態(tài)語(yǔ)言模型通常只專注于圖片或視頻輸入。其中,專注于圖片理解的方法通常使用大量的視覺(jué)token來(lái)獲得更精細(xì)的空間分辨率。而專注于視頻理解的方法往往會(huì)犧牲每幀的空間分辨率,以輸入更多幀構(gòu)建更精細(xì)的時(shí)間理解能力。對(duì)此,研究人員提出使用一組動(dòng)態(tài)視覺(jué)token統(tǒng)一表示圖片和視頻。具體的圖片可以通過(guò)不同大小的視覺(jué)token來(lái)建模。Chat-UniVi框架具有兩個(gè)優(yōu)點(diǎn):首先,其統(tǒng)一的圖片和視頻建模方法允許在圖片和視頻混合數(shù)據(jù)集上進(jìn)行訓(xùn)練,而無(wú)需任何修改即可直接應(yīng)用于圖片和視頻任務(wù)。其次,多尺度表征有助于對(duì)圖片和視頻的全面理解,使Chat-UniVi能夠適應(yīng)各種任務(wù),包括使用高層次特征進(jìn)行語(yǔ)義理解,使用低層次特征生成詳細(xì)描述。通過(guò)在混合數(shù)據(jù)集上的聯(lián)合訓(xùn)練,Chat-UniVi實(shí)現(xiàn)了對(duì)大量指令的卓越理解,并產(chǎn)生了更自然、更可靠的輸出。Chat-UniVi通過(guò)實(shí)驗(yàn)驗(yàn)證了其模型的有效性。3.4.4
InternLM-XCompose
38IXC(InternLM-XComposer)是由上海人工智能實(shí)驗(yàn)室研發(fā)的一款多模態(tài)大語(yǔ)言模型,它在圖像-文本理解和生成方面展現(xiàn)出卓越的能力。該模型支持高分辨率圖像理解、多輪多圖像對(duì)話、細(xì)粒度視頻理解、網(wǎng)頁(yè)制作和高質(zhì)量文本-圖像文章創(chuàng)作等功能。IXC-2.5的主要功能包括。(1)超高分辨率理
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)安全管理制度文檔庫(kù)安全風(fēng)險(xiǎn)與隱患排查標(biāo)準(zhǔn)
- 2026年江西應(yīng)用科技學(xué)院?jiǎn)握新殬I(yè)傾向性考試模擬測(cè)試卷附答案解析
- 2026年福州工商學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)附答案解析
- 輸油管保護(hù)方案
- 軟件技術(shù)C語(yǔ)言基礎(chǔ)知識(shí)練習(xí)題及答案(必刷)
- 河北社工考試試題及答案
- 北京2025年北京小湯山醫(yī)院招聘16人筆試歷年參考題庫(kù)附帶答案詳解
- 廣東會(huì)計(jì)考試試題及答案
- 保山云南省保山市隆陽(yáng)區(qū)蘭城街道辦事處招聘公益性崗位工作人員筆試歷年參考題庫(kù)附帶答案詳解
- 樂(lè)山2025年四川樂(lè)山師范學(xué)院招聘35人筆試歷年參考題庫(kù)附帶答案詳解
- 2026國(guó)家國(guó)防科技工業(yè)局所屬事業(yè)單位第一批招聘62人筆試參考題庫(kù)及答案解析
- 北京2025年北京教育科學(xué)研究院公開(kāi)招聘筆試歷年參考題庫(kù)附帶答案詳解
- 2025至2030中國(guó)谷氨酸和味精行業(yè)深度研究及發(fā)展前景投資評(píng)估分析
- 人教版高二化學(xué)上冊(cè)期末真題試題題庫(kù)試題附答案完整版
- 生產(chǎn)樣品合同范本
- 2025職業(yè)技能培訓(xùn)學(xué)校自查報(bào)告范文(3篇)
- 春節(jié)期間的安全注意事項(xiàng)課件
- 2026-2031年中國(guó)通信電子對(duì)抗設(shè)備行業(yè)深度分析與投資前景預(yù)測(cè)報(bào)告
- 北京市海淀區(qū)2025-2026學(xué)年高三上學(xué)期期中考試地理試題(含答案)
- 2024水電工程陸生野生動(dòng)物生境保護(hù)設(shè)計(jì)規(guī)范
- 風(fēng)電場(chǎng)安全警示教育培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論