垂直領(lǐng)域大模型的定制化-理論基礎(chǔ)與關(guān)鍵技術(shù)_第1頁(yè)
垂直領(lǐng)域大模型的定制化-理論基礎(chǔ)與關(guān)鍵技術(shù)_第2頁(yè)
垂直領(lǐng)域大模型的定制化-理論基礎(chǔ)與關(guān)鍵技術(shù)_第3頁(yè)
垂直領(lǐng)域大模型的定制化-理論基礎(chǔ)與關(guān)鍵技術(shù)_第4頁(yè)
垂直領(lǐng)域大模型的定制化-理論基礎(chǔ)與關(guān)鍵技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ISSN1004?9037,CODENSCYCE4JournalofDataAcquisitionandProcessingVol.39,No.3,May2024,pp.524-546DOI:10.16337/j.1004?9037.2024.03.003?2024byJournalofDataAcquisitionandProcessi Tel/Fax:+86?025?84892742垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)3院,北京100191;4.中國(guó)移動(dòng)通信集團(tuán)終端有限公司,北京100033)摘要:隨著ChatGPT等基于大模型的產(chǎn)品展現(xiàn)出強(qiáng)大的通用性能,學(xué)術(shù)界和工業(yè)界正積極探索如何將這些模型適配到特定行業(yè)和應(yīng)用場(chǎng)景中,即進(jìn)行垂直領(lǐng)域大模型的定制化。然而,現(xiàn)有的通用大模型可能無(wú)法完全適配特定領(lǐng)域數(shù)據(jù)的格式,或不足以捕捉該領(lǐng)域的獨(dú)特需求。因此,本文旨在探討垂直領(lǐng)域大模型定制化的方法論,包括大模型的定義和類別、通用架構(gòu)的描述、大模型有效性背后的理論基礎(chǔ),以及幾種可行的垂直領(lǐng)域大模型構(gòu)建方法,期望通過(guò)這些內(nèi)容為相關(guān)領(lǐng)域的研究者和從業(yè)者在垂直領(lǐng)域大模型定制化方面提供指導(dǎo)和參考。關(guān)鍵詞:人工智能;垂直領(lǐng)域大模型;多模態(tài)大模型;預(yù)訓(xùn)練大模型;大模型微調(diào)中圖分類號(hào):TP183文獻(xiàn)標(biāo)志碼:ADomain?SpecificFoundation?ModelCustomization:TheoreticalFoundationandKeyTechnologyCHENHaolong1,2,CHENHanzhi1,HANKaifeng3,ZHUGuangxu1,2,ZHAOYichen4,DUYing3(1.ShenzhenResearchInstituteofBigData,Shenzhen518172,ChofHongKong(Shenzhen),Shenzhen518172,China;3.ChinaAcademyofInformationandCommunicationsTechnology,Beijing100191,China;4.ChinaMobileGroupDeviceCo.Ltd.,Beijing100033,China)Abstract:AsChatGPTandotherfoundation-model-basedproductsdemonstratepowerfulgeneral基金項(xiàng)目:廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究重大項(xiàng)目(2023B0303000001國(guó)家自然科學(xué)基金面上項(xiàng)目(62371313廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金面上項(xiàng)目(2022A1515010109)。收稿日期:2024?04?09;修訂日期:2024?04?30陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)525ChatGPT以其卓越的通用性能重塑了人們對(duì)人工智能的理解。作為ChatGPT的核心,大語(yǔ)言模型(Largelanguagemodel)已經(jīng)成為眾多領(lǐng)域研究人員和專業(yè)人士改進(jìn)工作流程的重要工具。通用大模型通常在廣泛的公開數(shù)據(jù)集上進(jìn)行訓(xùn)練,這使得它們能夠?qū)W習(xí)并解決各種常見(jiàn)問(wèn)題,但這些數(shù)據(jù)集無(wú)法完全覆蓋某些特定領(lǐng)域的所有專業(yè)知識(shí)和技術(shù)細(xì)節(jié),這導(dǎo)致盡管通用大模型具備廣泛的通用知識(shí),卻缺乏足夠的知識(shí)深度來(lái)滿足某些特定領(lǐng)域的復(fù)雜需求。因此,針對(duì)特定行業(yè)的需求來(lái)構(gòu)建垂直領(lǐng)域大模型變得尤為重要。垂直領(lǐng)域大模型,或稱垂類大模型、行業(yè)大模型,是針對(duì)特定領(lǐng)域的數(shù)據(jù)和應(yīng)用而開發(fā)的大模型[1]。與通用大模型相比,它們?cè)谟?xùn)練過(guò)程中會(huì)使用大量特定領(lǐng)域的數(shù)據(jù),從而能夠更準(zhǔn)確地理解和生成與該領(lǐng)域相關(guān)的專業(yè)內(nèi)容。隨著類ChatGPT的產(chǎn)品和神經(jīng)網(wǎng)絡(luò)模型的接連推出,“大模型”概念的范圍也在逐步擴(kuò)張[2?4]。鑒于相關(guān)概念繁雜,為了確定本文的研究共識(shí),需要對(duì)“大模型”概念進(jìn)行定義并闡述其特點(diǎn),從而奠定后文對(duì)垂直領(lǐng)域大模型定制化的敘述基礎(chǔ)。本文所提及的大模型(Foundationmodel是在多模態(tài)大模型(Multimodallargemodel)五模塊框架(下文將詳細(xì)介紹該框架)中,包含了能夠?qū)崿F(xiàn)其中一個(gè)或多個(gè)模塊功能的神經(jīng)網(wǎng)絡(luò)模型,且該模型符合以下特點(diǎn):(1)大數(shù)據(jù)。使用覆蓋了多種場(chǎng)景的大量數(shù)據(jù)進(jìn)行模型的訓(xùn)練,為模型提供充足的知識(shí)。(2)大參數(shù)。模型的參數(shù)量達(dá)到一定規(guī)模,足以將大量數(shù)據(jù)中隱含的知識(shí)固化到模型參數(shù)中。(3)通用性。模型的輸入數(shù)據(jù)格式和數(shù)據(jù)處理流程能夠適配多種任務(wù)場(chǎng)景下的輸入格式和需求。(4)泛化性。模型擁有一定的泛化性,使其在未知數(shù)據(jù)域中依然具有良好性能。根據(jù)大模型可處理的模態(tài)數(shù)量,可將大模型分為單模態(tài)大模型和多模態(tài)大模型:(1)單模態(tài)大模型。VGG[5ResNet[6GPT?1[7GPT?2[8GPT?3[9GPT?3.5turbo[10BERT[11GLM[12?13LLaMA[14LLaMA?2[15iGPT[16LVM[17BART[18]和T5[19]。(2)多模態(tài)大模型。CoDi[20]CoDi?2[21]Claude?3[22]GPT?4[23]LLaVA[24]BriVL[25]Image?Bind和NExT?GPT[27]。在構(gòu)建垂直領(lǐng)域大模型的過(guò)程中將面臨一系列挑戰(zhàn),尤其是在數(shù)據(jù)獲取和預(yù)處理階段。比如,其需要處理的垂直領(lǐng)域數(shù)據(jù)并不開源或難以獲取,具有私密性;或是數(shù)據(jù)模態(tài)與通用大模型使用的中心模態(tài)不同,導(dǎo)致無(wú)法遷移現(xiàn)成的大模型處理該數(shù)據(jù);又或是垂直領(lǐng)域數(shù)據(jù)與預(yù)訓(xùn)練模型的數(shù)據(jù)域有所不同,需要向預(yù)訓(xùn)練模型輸入專業(yè)領(lǐng)域知識(shí)。垂直領(lǐng)域大模型應(yīng)用方式靈活,涉及的應(yīng)用領(lǐng)域繁雜,構(gòu)建難度大、開銷大,涉及的技術(shù)安全問(wèn)題至關(guān)重要,期望產(chǎn)生的經(jīng)濟(jì)效益高[28?30因此有必要對(duì)其構(gòu)建方法論進(jìn)行深入探索和全面梳理,并總結(jié)出相應(yīng)的方法論。以往的綜述文獻(xiàn)都更多地關(guān)注大模型本身的發(fā)展[2?4,31?36但對(duì)于垂直領(lǐng)域大模型的定制化方法論方面缺乏詳細(xì)的討論。本文通過(guò)介紹垂直領(lǐng)域大模型定制的理論基礎(chǔ)、垂直領(lǐng)域大模型的定制方法、垂直領(lǐng)域大模型的應(yīng)用實(shí)例,以及垂直領(lǐng)域大模型定制化的未來(lái)發(fā)展方向,為有意構(gòu)建垂直領(lǐng)域大模型應(yīng)用的研究者及工作者提供模型定制方法論層面的參考。1垂直領(lǐng)域大模型定制的理論基礎(chǔ)首先從大模型的架構(gòu)入手,介紹構(gòu)建大模型可能涉及的所有功能模塊,然后從特征提取、模態(tài)對(duì)齊、規(guī)模冪律和涌現(xiàn)現(xiàn)象4個(gè)角度,解釋大模型的各模塊能夠提供良好性能的理論基礎(chǔ)。1.1大模型的架構(gòu)參考目前的大模型相關(guān)研究,認(rèn)為多模態(tài)大模型在理論上能夠包含所有單模態(tài)大模型的功能和結(jié)構(gòu),即單模態(tài)大模型就是實(shí)現(xiàn)了多模態(tài)大模型部分功能的大模型。526數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024文獻(xiàn)[34]對(duì)于多模態(tài)大語(yǔ)言模型提出的五模塊框架能夠很好地囊括以語(yǔ)言作為中心模態(tài)的多模態(tài)大模型架構(gòu)。但近期像視覺(jué)大模型[17]、圖模態(tài)大模型[37]這樣的非語(yǔ)言模態(tài)大模型主干(Backbone)的誕生,預(yù)示著大模型的主干部分將不再拘泥于語(yǔ)言模態(tài)。于是認(rèn)為,多模態(tài)大模型的結(jié)構(gòu)可以分為以下5個(gè)模塊:模態(tài)編碼器、輸入投影器、主干運(yùn)算器、輸出投影器和模態(tài)解碼器。圖1展示了以語(yǔ)言作為中心模態(tài)的多模態(tài)大模型的框架。圖1多模態(tài)大模型的框架Fig.1Frameworkofmultimodalfoundationmodels對(duì)于多模態(tài)大模型而言,定義所有輸入模態(tài)的集合為M。一般而言,多模態(tài)大模型具有一個(gè)中心模態(tài)C。通過(guò)模態(tài)對(duì)齊技術(shù),多模態(tài)大模型將其能夠處理的所有模態(tài)都投影到該中心模態(tài)上。下文將給出多模態(tài)大模型的5個(gè)模塊及各模塊的輸入、輸出數(shù)據(jù)的形式定義,作為本文闡述大模型架構(gòu)的理論框架。模態(tài)編碼器(Modalityencoder,ME)負(fù)責(zé)將某一輸入模態(tài)X的數(shù)據(jù)DX編碼成該模態(tài)域下的特征向量FXFX=MEX(DX)X∈M(1)向量FCFC=IPXC(FX)X,C∈M(2)主干運(yùn)算器(Backbonecalculator,BC)負(fù)責(zé)對(duì)中心模態(tài)C的特征向量FC進(jìn)行運(yùn)算,得到例如推理、生成等運(yùn)算的結(jié)果CC=BCC(FC)C∈M(3)向量X模態(tài)解碼器(Modalitydecoder,MD)負(fù)責(zé)將輸出模態(tài)X的特征向量X解碼至模態(tài)X的原始數(shù)據(jù)域,解碼后的數(shù)據(jù)結(jié)果為XX=MDX(X)X∈M(5)垂直領(lǐng)域大模型的定制過(guò)程即根據(jù)業(yè)務(wù)需求選取所需要的模塊(未必包括所有模塊)組成業(yè)務(wù)模型,然后訓(xùn)練整個(gè)模型。其中個(gè)別模塊可通過(guò)遷移和微調(diào)開源模型的方式部署實(shí)現(xiàn)。陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)5271.2特征提取特征提取是從原始數(shù)據(jù)中提煉出具有代表性的特征,以助于完成特定任務(wù)的過(guò)程。在機(jī)器學(xué)習(xí)領(lǐng)域,特別是深度學(xué)習(xí)領(lǐng)域中,特征提取是至關(guān)重要的環(huán)節(jié)。由于原始數(shù)據(jù)往往包含大量冗余和噪聲信息,通過(guò)特征提取能將數(shù)據(jù)轉(zhuǎn)換至信息更為密集的特征空間,從而助力模型更有效地理解數(shù)據(jù)結(jié)構(gòu)和模式。在深度學(xué)習(xí)中,可以利用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征。神經(jīng)網(wǎng)絡(luò)模型能夠端到端地從原始數(shù)據(jù)中學(xué)習(xí)特征,無(wú)需人工干預(yù)。這種特征提取方法易受泛化性問(wèn)題影響,通常需要大量數(shù)據(jù)和計(jì)算資源以確保良好的性能。神經(jīng)網(wǎng)絡(luò)的每一層都將上一層的輸入數(shù)據(jù)進(jìn)行計(jì)算并轉(zhuǎn)換到一個(gè)新的向量空間,這種設(shè)計(jì)允許靈活地定義每一層的輸出維度,而無(wú)需詳細(xì)說(shuō)明這些轉(zhuǎn)換過(guò)程。自編碼器(Autoencoder)利用了這些優(yōu)良特性,其目標(biāo)是通過(guò)最小化原向量與重構(gòu)向量之間的重構(gòu)誤差,學(xué)習(xí)數(shù)據(jù)的有效表示。自編碼器通過(guò)將輸入數(shù)據(jù)壓縮成低維特征向量,再通過(guò)解碼器將這些低維表示投影回原始數(shù)據(jù)空間,其結(jié)圖2自編碼器架構(gòu)編碼器和模態(tài)解碼器的一種重要的構(gòu)建思路,就是將二者分別對(duì)應(yīng)自編碼器的編碼和解碼部分,配對(duì)成自編碼器來(lái)進(jìn)行訓(xùn)練。自編碼器中的一種變種除了最小化重建誤差外,還包括最大化輸入數(shù)據(jù)的似然概率,從而學(xué)習(xí)到壓縮向量的分布。例如圖像模態(tài)的VQGAN圖2自編碼器架構(gòu)1.3模態(tài)對(duì)齊在單模態(tài)大模型的工作流程中,由于不涉及跨模態(tài)數(shù)據(jù)處理,因此其架構(gòu)不包含輸入投影器和輸出投影器,而多模態(tài)大模型需要處理包括中心模態(tài)和非中心模態(tài)在內(nèi)的多種模態(tài)數(shù)據(jù)。為了通過(guò)輸入投影器和輸出投影器實(shí)現(xiàn)模態(tài)間的數(shù)據(jù)轉(zhuǎn)換,關(guān)鍵在于運(yùn)用模態(tài)對(duì)齊(Modalityalignment)技術(shù)。模態(tài)對(duì)齊的目標(biāo)是將不同模態(tài)的原始數(shù)據(jù)或特征向量處理成具有相同維度的特征表示,然后通過(guò)設(shè)計(jì)損失函數(shù)來(lái)表征特征向量間的相關(guān)性,進(jìn)而將各模態(tài)的特征向量投影到一個(gè)共享的特征空間中。在理想情況下,模態(tài)對(duì)齊應(yīng)確保攜帶相同語(yǔ)義信息的不同模態(tài)原始數(shù)據(jù)在目標(biāo)特征空間中被表示為同一點(diǎn),從而便于實(shí)現(xiàn)跨模態(tài)信息轉(zhuǎn)換。模態(tài)對(duì)齊主要有兩種架構(gòu)實(shí)現(xiàn)方式:融合編碼器架構(gòu)和雙編碼器架構(gòu)[31(1)融合編碼器架構(gòu)。融合編碼器(Fusionencoder)架構(gòu)采用Transformer模型[41]的自注意力機(jī)制為Q和K的維數(shù)?;谧宰⒁饬C(jī)制的方法需要拼接主副模態(tài)的特征向量輸入Transformer中產(chǎn)生Q、K和V,讓模型自動(dòng)關(guān)注不同模態(tài)的特征,并實(shí)現(xiàn)跨模態(tài)信息融合。例如,VL?BERT[42]模型將文本和圖像的特征向量拼接,利用Transformer的自注意力機(jī)制實(shí)現(xiàn)語(yǔ)言?視覺(jué)特征的聚合和對(duì)齊。而基于交叉注意力機(jī)制的方法則將兩個(gè)模態(tài)的特征向量分別計(jì)算Q、K和V,進(jìn)而實(shí)現(xiàn)跨模態(tài)信息融合。例如,DiT模型[43]采用交叉注意力機(jī)制捕捉文本與圖像間的相關(guān)性,實(shí)現(xiàn)了文本控制的圖像生成。圖3展示了這兩種融合編碼器架構(gòu)。528數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024圖3融合編碼器架構(gòu)(2)雙編碼器架構(gòu)。雙編碼器(Dualencoder)架構(gòu)是一種多模態(tài)學(xué)習(xí)策略,它為每種模態(tài)獨(dú)立訓(xùn)練一個(gè)專門的編碼器。該架構(gòu)的核心理念在于利用對(duì)比學(xué)習(xí)的方法,通過(guò)語(yǔ)義相似度指標(biāo)同步引導(dǎo)兩個(gè)圖4雙編碼器架構(gòu)編碼器的學(xué)習(xí)過(guò)程,以將不同編碼器的輸出特征向量投影到同一個(gè)向量空間中。具體而言,該模型基于一個(gè)假設(shè):如果兩個(gè)編碼器輸出的特征向量屬于同一特征空間,那么具有配對(duì)標(biāo)簽的特征向量在向量空間中的距離應(yīng)該較為接近,反之則相距較遠(yuǎn)。通過(guò)這種對(duì)齊方法,可以預(yù)期,描述相似對(duì)象或場(chǎng)景的不同模態(tài)編碼器的輸出結(jié)果將會(huì)足夠接近,甚至在理想狀態(tài)下,它們?cè)谔卣骺臻g中會(huì)匯聚于同一點(diǎn)。實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵在于構(gòu)建合理的模型架構(gòu)圖4雙編碼器架構(gòu)然而,一一對(duì)齊每對(duì)模態(tài)的成本將會(huì)非常高,要想獲取每對(duì)模態(tài)都對(duì)齊的數(shù)據(jù)集也是一項(xiàng)挑戰(zhàn)。這些方法通常通過(guò)將所有其他模態(tài)與一個(gè)中心模態(tài)進(jìn)行匹配,進(jìn)而在語(yǔ)義空間中實(shí)現(xiàn)所有模態(tài)的對(duì)齊。例如,ImageBind[26]將圖像作為中心模態(tài),而CoDi[20]則將文本作為中心模態(tài),通過(guò)這種方式,它們有效地簡(jiǎn)化了多模態(tài)對(duì)齊的訓(xùn)練過(guò)程,并提高了模型的實(shí)用性和效率。1.4規(guī)模冪律規(guī)模冪律(Scalinglaw也稱為規(guī)模定律或冪律定律,是指系統(tǒng)的某些性能隨著規(guī)模擴(kuò)大而變化的過(guò)程遵循一定的數(shù)學(xué)規(guī)律。在人工智能領(lǐng)域,特別是大模型的研究與應(yīng)用中,規(guī)模冪律描述了模型性能如何隨著模型規(guī)模(例如參數(shù)量、數(shù)據(jù)集規(guī)模、計(jì)算資源等)的擴(kuò)展而變化的一系列規(guī)律和現(xiàn)象。它使用定量分析的方法揭示了大模型性能提升的內(nèi)在機(jī)制。在文獻(xiàn)[44]中,作者探討了不同模型的歸納偏置如何影響模型規(guī)模擴(kuò)展與性能之間的關(guān)系。研究發(fā)現(xiàn),模型架構(gòu)確實(shí)是影響模型擴(kuò)展收益的關(guān)鍵因素之一。該研究還指出,盡管普通Transformer架構(gòu)可能并非始終能夠取得最佳性能,但它卻展現(xiàn)出了最佳的擴(kuò)展能力。在計(jì)算機(jī)視覺(jué)領(lǐng)域[45]和自然語(yǔ)言關(guān)系。陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)529另一項(xiàng)研究[47]則考察了下游任務(wù)數(shù)量與模型規(guī)模對(duì)指令微調(diào)(Instruction?finetune)性能的影響。研究者采用了多任務(wù)聯(lián)合訓(xùn)練的方法,在眾多不同的任務(wù)上進(jìn)行微調(diào),使語(yǔ)言模型能夠?qū)W習(xí)到更廣泛的語(yǔ)言表示和知識(shí),從而增強(qiáng)其在未見(jiàn)任務(wù)上的泛化能力。在聯(lián)合訓(xùn)練過(guò)程中,通過(guò)參數(shù)共享促進(jìn)了不同任務(wù)間的知識(shí)和技能遷移,顯著提升了模型的泛化能力和性能。此外,聯(lián)合訓(xùn)練還減少了單獨(dú)訓(xùn)練每個(gè)任務(wù)所需的時(shí)間和資源,提高了訓(xùn)練效率。這種模型性能隨任務(wù)多樣性的增加而提高的現(xiàn)象便是一種規(guī)模冪律的體現(xiàn)。文獻(xiàn)[48]的作者在其構(gòu)建的大型基準(zhǔn)測(cè)試集OPT?IMLBench上驗(yàn)證了模型性能隨任務(wù)數(shù)量而增加的現(xiàn)象。另外,還有研究人員分別給出了自然語(yǔ)言模型[49]和各種模態(tài)的自回歸生成式模型[50]在不同規(guī)模下的模型性能。盡管規(guī)模冪律的定量表示沒(méi)有一個(gè)統(tǒng)一的形式,但總體來(lái)說(shuō)都可以表示為模型損失函數(shù)、模型可訓(xùn)練參數(shù)量、數(shù)據(jù)集大小,以及有計(jì)算資源等條件之間的指數(shù)關(guān)系。用模型訓(xùn)練的損失函數(shù)L(·)表征模型性能,損失函數(shù)越小代表模型性能越好。式(7)描述了給定參數(shù)量的模型在足夠大的數(shù)據(jù)集上訓(xùn)練至收斂時(shí)的性能,其中L(N)為損失函數(shù),N為模型的可訓(xùn)練參數(shù)量,Nc為一個(gè)常數(shù),αN為冪律指數(shù);式(8)給出了給定計(jì)算資源限制下,一個(gè)大小適當(dāng)?shù)哪P驮谝粋€(gè)足夠大的數(shù)據(jù)集上訓(xùn)練后的性能,其中L(C)為損失函數(shù),C為給定的計(jì)算資源,Cc為一個(gè)常數(shù),αC為冪律指數(shù);式(9)描述了大模型使用給定大小的數(shù)據(jù)集進(jìn)行早停訓(xùn)練時(shí)的性能,其中L(D)為損失函數(shù),D為數(shù)據(jù)集的大?。ㄒ詔oken計(jì)Dc為一個(gè)常數(shù),αD為冪律指數(shù)。從式(79)可以發(fā)現(xiàn),在其他條件給定的情況下從式(79)可以發(fā)現(xiàn),在其他條件給定的情況下,模型的損失函數(shù)隨著參數(shù)量、計(jì)算資源和訓(xùn)練數(shù)據(jù)量的增加成指數(shù)級(jí)下降。這意味著通過(guò)增加模型參數(shù)量、加大計(jì)算資源投入和增加訓(xùn)練數(shù)據(jù)量,模型的性能也可以有指數(shù)級(jí)的提升。1.5涌現(xiàn)現(xiàn)象規(guī)模冪律揭示了模型規(guī)模擴(kuò)展可以帶來(lái)模型性能的量變提升,而涌現(xiàn)現(xiàn)象是指隨著模型的規(guī)模擴(kuò)展達(dá)到臨界點(diǎn)后,模型展現(xiàn)出新性質(zhì)的現(xiàn)象,其中一種表現(xiàn)就是模型性能大幅提升[51]。涌現(xiàn)現(xiàn)象從質(zhì)的維度揭示了大模型卓越性能的根源。在深度學(xué)習(xí)領(lǐng)域,尤其是在大語(yǔ)言模型領(lǐng)域,涌現(xiàn)現(xiàn)象被廣泛觀察到。例如,LLaMA等模型在多種語(yǔ)言任務(wù)中展現(xiàn)出了卓越的理解和生成能力,甚至在一定程度上具備了邏輯推理能力,但模型規(guī)模較小的語(yǔ)言模型卻做不到這點(diǎn),這就是一種模型的能力涌現(xiàn)現(xiàn)象。隨著模型規(guī)模的增加,模型得以擁有更多的參數(shù)和更為復(fù)雜的結(jié)構(gòu),從而使得它能夠捕捉數(shù)據(jù)中的復(fù)雜特征和模式。大模型通常展現(xiàn)出強(qiáng)大的泛化能力,即在訓(xùn)練集之外的數(shù)據(jù)上也能夠有良好的表現(xiàn),便是由于模型的大量參數(shù)能存儲(chǔ)豐富的知識(shí),使得它們能夠在未見(jiàn)過(guò)的數(shù)據(jù)上也能進(jìn)行精確的推斷和預(yù)測(cè),進(jìn)而提供對(duì)不同任務(wù)的適應(yīng)性和通用性,甚至使模型真正學(xué)習(xí)到隱藏在數(shù)據(jù)背后的原理和推理方式。在文獻(xiàn)[51]中,作者指出不同任務(wù)和不同提示方式會(huì)影響大語(yǔ)言模型涌現(xiàn)現(xiàn)象的出現(xiàn)點(diǎn)。其中,采用思維鏈(Chain?of?thought)的提示方式能顯著提升大語(yǔ)言模型處理復(fù)雜推理任務(wù)的能力[52]進(jìn)而讓涌現(xiàn)現(xiàn)象的出現(xiàn)點(diǎn)提前。綜上所述,在構(gòu)建垂直領(lǐng)域大模型時(shí),模型構(gòu)建者需要根據(jù)可能遇到的下游任務(wù)需求和用戶的提530數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024示習(xí)慣來(lái)合理選擇模型的參數(shù)規(guī)模。同時(shí),隨著模型參數(shù)量的增加,對(duì)計(jì)算資源的需求和過(guò)擬合風(fēng)險(xiǎn)也隨之上升,因此不能無(wú)限制增加參數(shù)量。涌現(xiàn)現(xiàn)象不僅展示了大模型的優(yōu)勢(shì),也揭示了部署模型時(shí)需要權(quán)衡的重點(diǎn),對(duì)于模型設(shè)計(jì)和應(yīng)用具有重要的指導(dǎo)意義。2垂直領(lǐng)域大模型的定制方法將詳細(xì)闡述如何從模態(tài)編碼器、輸入投影器、主干運(yùn)算器、輸出投影器以及模態(tài)解碼器這5個(gè)關(guān)鍵模塊中,根據(jù)垂直領(lǐng)域中的實(shí)際需求靈活選擇并組合相應(yīng)的模塊來(lái)構(gòu)建垂直領(lǐng)域大模型。此外還將分析具體案例,以便讓讀者更好地理解和應(yīng)用所述的方法論??筛鶕?jù)垂直領(lǐng)域大模型的定制化程度由低到高(換言之,借用通用大模型的程度由高到低)分為3類:基于全架構(gòu)通用大模型的垂直領(lǐng)域增強(qiáng)、基于預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型改造,以及無(wú)預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型全架構(gòu)構(gòu)建。表1中對(duì)3種垂直領(lǐng)域大模型定制方法的特點(diǎn)進(jìn)行了概括。表1垂直領(lǐng)域大模型的定制方法Table1Customizationmethodsofdomain?specificfoundationmodel定制方法定制化程度定制難度靈活性算力需求基于全架構(gòu)通用大模型的垂直領(lǐng)域增強(qiáng)低,僅定制了模型的領(lǐng)域知識(shí)輸入方式低低低基于預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型改造中,部分模塊自行構(gòu)建,部分模塊由遷移得來(lái)中中中無(wú)預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型全架構(gòu)構(gòu)建高,每個(gè)模塊都可自定義構(gòu)建高高高2.1基于全架構(gòu)通用大模型的垂直領(lǐng)域增強(qiáng)通用大模型功能全面,適用于多種任務(wù)場(chǎng)景。若某通用大模型能夠完全處理所需的數(shù)據(jù)模態(tài),模型部署者就不必修改其架構(gòu),而只需對(duì)其進(jìn)行垂直領(lǐng)域增強(qiáng),從而實(shí)現(xiàn)垂直領(lǐng)域大模型的定制化。根據(jù)垂直領(lǐng)域增強(qiáng)是否需要改變大模型參數(shù),又可將其分為即插即用的垂直領(lǐng)域增強(qiáng)和基于微調(diào)的垂直領(lǐng)域增強(qiáng)兩類。在表2中對(duì)基于全架構(gòu)通用大模型的垂直領(lǐng)域增強(qiáng)方法進(jìn)行了分類和概括。表2基于全架構(gòu)通用大模型的垂直領(lǐng)域增強(qiáng)Table2Specific?domainenhancementwiththeentiregeneral?purposefoundationmodels定制方法是否修改大模型參數(shù)是否加入新模塊領(lǐng)域知識(shí)提供方具體技術(shù)即插即用調(diào)用硬提示否否部署者PET已有知識(shí)軟提示否是部署者輸入提示詞否否用戶LongRoPE,Transformer?XL新增知識(shí)外掛知識(shí)庫(kù)否是部署者RAG基于微調(diào)基于適配器是是部署者Adapter,AdapterFusion,IA3基于低秩矩陣分解是是部署者LoRA,LoHa,LoKr全參數(shù)微調(diào)是否部署者PEFT2.1.1即插即用的垂直領(lǐng)域增強(qiáng)預(yù)訓(xùn)練大模型的通用性、泛化性和推理能力使其能夠作為垂直領(lǐng)域大模型的主體。要想在不修改陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)531大模型參數(shù)的條件下實(shí)現(xiàn)即插即用的垂直領(lǐng)域增強(qiáng),可以通過(guò)調(diào)用已有知識(shí)或輸入新增知識(shí)兩種方式進(jìn)行處理。調(diào)用已有知識(shí)的垂直領(lǐng)域增強(qiáng)旨在盡可能調(diào)用通用大模型中已經(jīng)存儲(chǔ)的垂直領(lǐng)域知識(shí),在圖5(a)展示了這種方式。而輸入新增知識(shí)的垂直領(lǐng)域增強(qiáng)是指通過(guò)輸入領(lǐng)域知識(shí)的方式賦予大模型對(duì)垂直領(lǐng)域任務(wù)的處理能力,這其中還可再分為通過(guò)提示詞輸入知識(shí)和通過(guò)外掛知識(shí)庫(kù)輸入知識(shí)兩種圖5即插即用的垂直領(lǐng)域增強(qiáng)Fig.5Plug-and-playdomain-specificenhancement(1)調(diào)用已有知識(shí)的垂直領(lǐng)域增強(qiáng)。通用大模型在訓(xùn)練過(guò)程中,有可能已經(jīng)接觸過(guò)垂直領(lǐng)域的知識(shí)。提示詞微調(diào)(Prompttuning)能夠通過(guò)改進(jìn)提示詞的方式,針對(duì)任務(wù)目標(biāo)來(lái)更好地調(diào)用模型本身具有的垂直領(lǐng)域知識(shí),其名字中“微調(diào)”二字的含義指的是對(duì)提示詞的改進(jìn)操作。具體而言,是將一段精心設(shè)置的提示詞插入到輸入數(shù)據(jù)前面作為模型上下文來(lái)影響生成的輸出結(jié)果。這些精心設(shè)置的提示詞可以是自然語(yǔ)言描述、示例、規(guī)則或者其他能夠指導(dǎo)模型理解任務(wù)要求的文本或嵌入向量。模型在生成輸出時(shí)會(huì)考慮這些精心設(shè)置的提示詞,從而生成與任務(wù)相關(guān)的結(jié)果。提示詞微調(diào)主要分為硬提示和軟提示。(a)硬提示。硬提示(Hardprompt)方法在自然語(yǔ)言處理(NLP)中是一種常見(jiàn)的技術(shù),它通過(guò)使用可解釋和可重用的手工制作的單詞和標(biāo)記來(lái)指導(dǎo)語(yǔ)言模型的輸出。硬提示通常是由人工設(shè)計(jì)并針對(duì)特定任務(wù)定制的,因此它們具有不易更改的特性。PET(Patternexploitingtraining53]是一種經(jīng)典的硬提示學(xué)習(xí)方法,它將問(wèn)題建模成一個(gè)完形填空問(wèn)題,然后優(yōu)化最終的輸出詞。這種方法通過(guò)在少量監(jiān)督數(shù)據(jù)上訓(xùn)練模型,并對(duì)無(wú)監(jiān)督數(shù)據(jù)進(jìn)行集成預(yù)測(cè),從而實(shí)現(xiàn)對(duì)模型的指導(dǎo)。(b)軟提示。硬提示在設(shè)計(jì)提示詞時(shí)需要一定的實(shí)驗(yàn)探索和專業(yè)知識(shí),并且人為設(shè)計(jì)的提示詞不一定適合大模型的數(shù)據(jù)處理方式。為了簡(jiǎn)化這一過(guò)程并提高提示詞微調(diào)的靈活性,研究者們提出了基于軟提示的微調(diào)方法。前綴微調(diào)(Prefixtuning54]是軟提示微調(diào)的一種形式,通過(guò)添加可學(xué)習(xí)的前綴向量(軟提示詞)到輸入序列的開始部分來(lái)適應(yīng)特定下游任務(wù)。這些前綴向量作為輸入的一部分,引導(dǎo)模型的輸出以符合任務(wù)要求。前綴微調(diào)的優(yōu)勢(shì)在于它只更新這些前綴向量,而不是模型的參數(shù),從而大幅減少了計(jì)算資源和存儲(chǔ)資源的需求,同時(shí)保留了預(yù)訓(xùn)練模型學(xué)習(xí)到的豐富知識(shí)。在前綴微調(diào)的基礎(chǔ)上,研究者們又提出了P?tuning方法[55]。P?tuning使用可學(xué)習(xí)的軟提示來(lái)替代固定或人工設(shè)計(jì)的單詞532數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024和標(biāo)記,其核心思想是將提示詞也視為模型可以學(xué)習(xí)的一部分,讓模型不僅學(xué)習(xí)如何響應(yīng)給定的任務(wù),還學(xué)習(xí)如何生成最佳的提示詞。這些軟提示通常是一系列嵌入向量,它們?cè)谀P偷妮斎攵伺c實(shí)際的文本輸入一起被處理。通過(guò)端到端的訓(xùn)練,模型自動(dòng)學(xué)習(xí)到如何調(diào)整這些嵌入向量,以便更好地完成特定任務(wù)。P?tuning的優(yōu)勢(shì)在于它結(jié)合了前綴微調(diào)的參數(shù)效率和傳統(tǒng)硬提示詞微調(diào)的靈活性。軟提示會(huì)給予模型更大的自由度來(lái)生成答案,一方面有機(jī)會(huì)產(chǎn)生更多樣化的輸出,但另一方面增加了生成不準(zhǔn)確或不相關(guān)回答的風(fēng)險(xiǎn)。(2)輸入新增知識(shí)的垂直領(lǐng)域增強(qiáng)。當(dāng)通用大模型已有的知識(shí)不足以解決垂直領(lǐng)域任務(wù)時(shí),便可以通過(guò)輸入新增知識(shí)的方式引入問(wèn)題背景信息,從而獲得更高質(zhì)量的輸出結(jié)果。這種方法被稱為輸入新增知識(shí)的垂直領(lǐng)域增強(qiáng)。(a)通過(guò)提示詞輸入知識(shí)。提示詞作為用戶和大語(yǔ)言模型的直接接觸途徑,可以用來(lái)融入垂直領(lǐng)域的知識(shí)。然而通過(guò)提示詞輸入知識(shí)的做法存在一個(gè)明顯的局限性:輸入的領(lǐng)域知識(shí)量受到模型能夠處理的最大提示詞長(zhǎng)度的限制。限制了大語(yǔ)言模型長(zhǎng)文本輸入能力的是Transformer本身的3個(gè)核心問(wèn)題:位置編碼的局限性。Transformer模型通常通過(guò)正弦和余弦函數(shù)生成固定長(zhǎng)度位置編碼,這些編碼對(duì)于序列中的每個(gè)位置都是唯一的。然而,當(dāng)序列長(zhǎng)度超過(guò)訓(xùn)練使用的最大長(zhǎng)度時(shí),模型將無(wú)法正確處理額外的文本,因?yàn)樗鼰o(wú)法為新位置生成有效的編碼。注意力機(jī)制的資源消耗。注意力機(jī)制是Transformer模型的核心,它允許模型計(jì)算序列中每個(gè)元素的注意力權(quán)重。但隨著序列長(zhǎng)度的增加,這種機(jī)制的計(jì)算復(fù)雜度和內(nèi)存需求呈平方級(jí)增長(zhǎng),導(dǎo)致資源消耗巨大。長(zhǎng)距離依賴問(wèn)題。Transformer在處理長(zhǎng)序列時(shí)需要跨過(guò)大量的輸入token,往往會(huì)遇到梯度消失或爆炸的問(wèn)題,使得模型難以捕捉序列中相隔較遠(yuǎn)的元素之間的依賴關(guān)系。針對(duì)上述問(wèn)題,無(wú)損長(zhǎng)文本(Losslesslongtext)技術(shù)應(yīng)運(yùn)而生。它旨在增強(qiáng)模型處理超出其標(biāo)準(zhǔn)輸入長(zhǎng)度限制的長(zhǎng)文本的能力,能夠支持用戶將大量領(lǐng)域知識(shí)直接通過(guò)提示詞輸入到大語(yǔ)言模型中,作為上下文信息來(lái)實(shí)現(xiàn)垂直領(lǐng)域增強(qiáng)。無(wú)損長(zhǎng)文本技術(shù)通過(guò)外推和內(nèi)插兩個(gè)方向拓展了大語(yǔ)言模型的長(zhǎng)文本輸入能力:外推。外推(Extrapolation)是指通過(guò)擴(kuò)展模型的上下文窗口,使其能夠處理超出訓(xùn)練數(shù)據(jù)長(zhǎng)度的新文本。這通常涉及到改進(jìn)位置編碼機(jī)制,以便模型能夠理解和處理更長(zhǎng)的序列。Longformer[66]通過(guò)結(jié)合局部注意力機(jī)制和全局注意力機(jī)制,有效地對(duì)外推長(zhǎng)文本處理能力進(jìn)行了擴(kuò)展;BigBird[67]采用稀疏注意力機(jī)制和可逆層來(lái)外推模型的長(zhǎng)序列數(shù)據(jù)處理能力;LongRoPE[56]則通過(guò)在自注意力中引入旋轉(zhuǎn)變換來(lái)改進(jìn)位置編碼,使模型能處理長(zhǎng)距離依賴,支持長(zhǎng)達(dá)兩百萬(wàn)tokens的輸入而不影響計(jì)算效率。內(nèi)插。內(nèi)插(Interpolation)是指在模型的現(xiàn)有序列長(zhǎng)度能力范圍內(nèi),通過(guò)調(diào)整和優(yōu)化機(jī)制來(lái)提升對(duì)長(zhǎng)文本的處理能力。這通常涉及對(duì)注意力機(jī)制的改進(jìn),以便模型能夠更有效地處理長(zhǎng)距離的信息。BERT模型[11]通過(guò)雙向Transformer的預(yù)訓(xùn)練,增強(qiáng)了模型對(duì)文本的理解能力。XL?Net[68]通過(guò)置換語(yǔ)言模型和廣義自回歸預(yù)訓(xùn)練來(lái)增強(qiáng)模型的內(nèi)部表示,改進(jìn)了模型對(duì)長(zhǎng)文本的處理能力。Transformer?XL[57]是一種改進(jìn)后的Transformer模型,它通過(guò)引入循環(huán)機(jī)制來(lái)解決長(zhǎng)文本處理中的梯度消失問(wèn)題,從而允許模型在處理當(dāng)前序列的同時(shí),保留之前序列的信息,從而更好地理解和生成長(zhǎng)文本內(nèi)容。(b)通過(guò)外掛知識(shí)庫(kù)輸入知識(shí)。在實(shí)際應(yīng)用場(chǎng)景中,用戶可能無(wú)法提供足夠的垂直領(lǐng)域知識(shí)來(lái)增強(qiáng)通用大模型。為解決這一問(wèn)題,模型部署者可以外掛一個(gè)專門的垂直領(lǐng)域知識(shí)庫(kù)來(lái)實(shí)現(xiàn)對(duì)通用大模型的垂直領(lǐng)域增強(qiáng)。這種方式能夠讓通用大模型在生成回答或執(zhí)行任務(wù)時(shí)參照這個(gè)外掛的知識(shí)庫(kù),從而獲得必要的領(lǐng)域信息和上下文,提供更加精準(zhǔn)和有針對(duì)性的回答或解決方案。檢索增強(qiáng)生成(Re?陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)533trieval?augmentedgeneration58]技術(shù)正是為實(shí)現(xiàn)這一目的而被開發(fā)的。檢索增強(qiáng)生成技術(shù)旨在利用外掛文檔庫(kù)來(lái)增強(qiáng)語(yǔ)言模型的生成能力,而不需要對(duì)模型進(jìn)行重新訓(xùn)練,特別適用于需要自定義動(dòng)態(tài)知識(shí)庫(kù)的任務(wù)中,如問(wèn)答、文本摘要、事實(shí)核查等。檢索增強(qiáng)生成技術(shù)的核心是在生成過(guò)程中引入一個(gè)能夠在大型文檔數(shù)據(jù)庫(kù)中快速找到當(dāng)前任務(wù)相關(guān)信息的檢索組件。這個(gè)檢索組件可以將模型的當(dāng)前狀態(tài)(例如問(wèn)題的編碼表示)投影到一個(gè)高維空間,并在這個(gè)空間中基于最近鄰搜索算法搜索最近似的向量,從而找到最相似的文檔。一旦檢索到相關(guān)的文檔,這些信息會(huì)被作為額外的上下文信息來(lái)輔助生成過(guò)程。檢索增強(qiáng)生成技術(shù)的優(yōu)勢(shì)在于能夠結(jié)合大語(yǔ)言模型的生成能力和外部檢索系統(tǒng)所提供的知識(shí),還避免了讓用戶自行提供領(lǐng)域知識(shí)。此外,由于外部知識(shí)庫(kù)可以根據(jù)需要隨時(shí)更換,檢索增強(qiáng)生成技術(shù)還具有極高的靈活性和適應(yīng)性。雖然上述技術(shù)最初是為了實(shí)現(xiàn)大語(yǔ)言模型在垂直領(lǐng)域的增強(qiáng)而提出的,但它們的應(yīng)用并不局限于語(yǔ)言模型。隨著大模型領(lǐng)域的發(fā)展,這些技術(shù)有望被擴(kuò)展到其他模態(tài)的大模型中。2.1.2基于微調(diào)的垂直領(lǐng)域增強(qiáng)當(dāng)即插即用的垂直領(lǐng)域增強(qiáng)技術(shù)難以實(shí)現(xiàn),或是需要向通用大模型輸入過(guò)多領(lǐng)域知識(shí),必須對(duì)通用大模型進(jìn)行深度改造時(shí),可以轉(zhuǎn)而采用基于微調(diào)的垂直領(lǐng)域增強(qiáng)策略。該策略在盡可能保留通用大模型預(yù)訓(xùn)練知識(shí)的同時(shí),對(duì)其進(jìn)行針對(duì)性的垂直領(lǐng)域增強(qiáng),定制出所需的垂直領(lǐng)域大模型。微調(diào)技術(shù)分為3種主要類型:基于適配器的微調(diào)、基于低秩矩陣分解的微調(diào)和全參數(shù)微調(diào)。圖6分別描述了這3種技術(shù)路線。接下來(lái),本文將按照微調(diào)所需的資源和復(fù)雜度從低到高進(jìn)行排序,并對(duì)這3類技術(shù)進(jìn)行詳細(xì)闡述。圖6基于微調(diào)的垂直領(lǐng)域增強(qiáng)Fig.6Fine-tuning-baseddomain-specificenhancement(1)基于適配器的微調(diào)。適配器微調(diào)(Adapter?basedtuning59]是一種在預(yù)訓(xùn)練模型中插入小型可訓(xùn)練適配器模塊的方法,旨在高效地使模型適應(yīng)特定的下游任務(wù)。微調(diào)過(guò)程中,只有適配器模塊的參數(shù)會(huì)被更新,而預(yù)訓(xùn)練模型的原有參數(shù)保持不變,從而減少計(jì)算資源和存儲(chǔ)需求,并保留了模型在預(yù)訓(xùn)練階段學(xué)習(xí)到的豐富知識(shí)。AdapterFusion[60]是一種適配器微調(diào)的擴(kuò)展方法,它通過(guò)融合多個(gè)適配器模塊,允許模型同時(shí)學(xué)習(xí)多個(gè)任務(wù)或適應(yīng)多種不同的數(shù)據(jù)分布,而每個(gè)適配器模塊可以專注于捕捉任務(wù)相關(guān)的特定特征?;谧⑷脒m配器的微調(diào)(IA361]則通過(guò)在Transformer架構(gòu)的注意力和前饋模塊中注入學(xué)習(xí)向量來(lái)對(duì)激活層進(jìn)行加權(quán)縮放。由于這些學(xué)習(xí)向量是微調(diào)過(guò)程中唯一可訓(xùn)練的參數(shù),與傳統(tǒng)的適配器微調(diào)相比,IA3顯著減少了可訓(xùn)練參數(shù)的數(shù)量,從而降低了訓(xùn)練成本并提高了訓(xùn)練效率。此外,IA3不會(huì)增加推理延遲,因?yàn)槠溥m配器權(quán)重可以與基礎(chǔ)模型合并,同時(shí)保持了模型的靈活性和適用性,能夠針對(duì)不同的任務(wù)和數(shù)據(jù)集進(jìn)行定制化的微調(diào)。(2)基于低秩矩陣分解的微調(diào)?;诘椭染仃嚪纸獾奈⒄{(diào)通過(guò)將預(yù)訓(xùn)練模型中的權(quán)重矩陣分解為低秩矩陣的乘積來(lái)減少需要更新的參數(shù)量。低秩矩陣分解能夠捕捉權(quán)重矩陣中最重要的信息,在微調(diào)時(shí)保持原有預(yù)訓(xùn)練參數(shù)不變,只更新低秩分解矩陣,從而降低了微調(diào)過(guò)程中的計(jì)算和存儲(chǔ)需求。這種534數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024方法在提高微調(diào)效率的同時(shí),還能保持或接近全參數(shù)微調(diào)的性能。(a)低秩適配。低秩適配(Low?rankadaptation,LoRA62]通過(guò)奇異值分解將模型參數(shù)分解為低秩矩陣的乘積,從而取得良好的微調(diào)性能。LoRA的原理可以用公式表示為Wnew=Wold+ΔW(10)式中:Wold為原始權(quán)重矩陣,ΔW為低秩更新矩陣,它可以通過(guò)選取Wold較小的奇異值對(duì)應(yīng)的奇異向量來(lái)構(gòu)造。對(duì)Wold的奇異值分解則有ΔW=UΣVT(11)式中:U和V為從Wold的SVD中得到的矩陣,而Σ為一個(gè)對(duì)角矩陣,包含了Wold的重要奇異值。通過(guò)只更新U、Σ和V中的參數(shù),LoRA實(shí)現(xiàn)了對(duì)模型的高效微調(diào)。LoRA的局限性在于其通常對(duì)所有層應(yīng)用相同的低秩結(jié)構(gòu),這便忽略了不同層、不同參數(shù)對(duì)下游任務(wù)的重要程度。自適應(yīng)低秩適配(Adaptivelow?rankadaptation,AdaLoRA69]是在LoRA基礎(chǔ)上的一種改進(jìn)方法,它可以自適應(yīng)地決定哪些層的參數(shù)需要更新,通過(guò)自適應(yīng)學(xué)習(xí)率和任務(wù)特定的參數(shù)調(diào)整策略,使得模型能夠根據(jù)任務(wù)的特定需求自動(dòng)調(diào)整微調(diào)的強(qiáng)度和范圍。有研究者還發(fā)現(xiàn)LoRA在某些大規(guī)模數(shù)據(jù)集上的持續(xù)預(yù)訓(xùn)練效果不佳,于是提出了分層重要性采樣微調(diào)(LayerwiseimportancesampledAdamW,LISA70]策略,即不同層的權(quán)重范數(shù)分布呈現(xiàn)出不常見(jiàn)的偏斜性,LISA采用了重要性采樣的策略,通過(guò)隨機(jī)激活大模型中的不同層來(lái)進(jìn)行優(yōu)化。具體來(lái)說(shuō),LISA始終更新底層的embedding和頂層的linearhead,同時(shí)隨機(jī)更新少數(shù)中間的自注意力層。這種方法在內(nèi)存消耗與LoRA相當(dāng)?shù)那闆r下,能夠在多種下游微調(diào)任務(wù)中超越LoRA甚至全參數(shù)微調(diào)的性能。(b)低秩Hadamard積微調(diào)。低秩Hadamard積微調(diào)(Low?rankHadamardproduct,LoHa63]通過(guò)引入低秩矩陣的Hadamard積來(lái)更新模型的權(quán)重。LoHa的原理可以用公式為Wnew=Wold⊙ΔW(12)式中更新矩陣ΔW可以進(jìn)一步分解為兩個(gè)低秩矩陣的Hadamard乘積,即ΔW=L1⊙L2(13)式中:L1和L2為兩個(gè)低秩矩陣,它們通過(guò)學(xué)習(xí)從輸入數(shù)據(jù)中提取的關(guān)鍵信息來(lái)調(diào)整原始權(quán)重矩陣的元應(yīng)性。(c)低秩Kronecker積微調(diào)。繼LoHa之后出現(xiàn)的低秩Kronecker積微調(diào)(Low?rankKroneckerprod?uct,LoKr64]是另一種參數(shù)高效的微調(diào)方法。LoKr利用Kronecker積的特性來(lái)擴(kuò)展權(quán)重矩陣的維度,同時(shí)保持參數(shù)數(shù)量的增加在可控范圍內(nèi)。Kronecker積允許模型在不同維度上學(xué)習(xí)復(fù)雜的交互,這對(duì)于捕捉輸入數(shù)據(jù)中的高階關(guān)系特別有用。LoKr的更新過(guò)程可以表示為Wnew=Wold+ΔW(14)式中:ΔW為兩個(gè)低秩矩陣L1和L2的Kronecker積,即ΔW=L1?L2(15)式中:L1和L2通過(guò)Kronecker積計(jì)算出一個(gè)在微調(diào)過(guò)程中被更新的大矩陣。LoKr特別適合于那些需要增加模型維度以捕捉更復(fù)雜關(guān)系的任務(wù),同時(shí)它還保持了與LoHa相似的參數(shù)效率。然而,LoKr可能需要更復(fù)雜的數(shù)學(xué)操作來(lái)處理Kronecker積,并且在某些情況下,它的計(jì)算成本可能會(huì)高于LoHa。(3)全參數(shù)微調(diào)。全參數(shù)微調(diào)(Fullfine?tuning)不受限于預(yù)訓(xùn)練任務(wù)或數(shù)據(jù)分布,可以靈活適應(yīng)各種不同的下游任務(wù)。讓模型能夠直接在最終任務(wù)的數(shù)據(jù)上進(jìn)行端到端優(yōu)化,而不需要額外的適配模塊。但由于需要更新模型中的所有參數(shù),全參數(shù)微調(diào)需要大量的計(jì)算資源和較長(zhǎng)的訓(xùn)練時(shí)間。而大模型的參數(shù)量巨大,如果微調(diào)數(shù)據(jù)不足,可能出現(xiàn)過(guò)擬合的現(xiàn)象。此外,全參數(shù)微調(diào)過(guò)程中產(chǎn)生的中間變陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)535量會(huì)占用大量顯存空間。于是研究者們提出了上文所提到的許多參數(shù)高效的微調(diào)方法(Parameter?e?icientfine?tuning65這些方法在保持性能的同時(shí),可以減少資源消耗和訓(xùn)練時(shí)間。2.2基于預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型改造大模型可能包含數(shù)百萬(wàn)甚至數(shù)十億的參數(shù),通過(guò)遷移學(xué)習(xí)(Transferlearning)可以減少需要訓(xùn)練的模型部分,從而顯著降低訓(xùn)練開銷。這種方法被稱為基于預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型改造。遷移學(xué)習(xí)的本質(zhì)是在構(gòu)建新模型時(shí),利用預(yù)訓(xùn)練模型在學(xué)習(xí)過(guò)程中被固化在模型參數(shù)中的知識(shí)。如前所述,在大模型的架構(gòu)中,通常包含5個(gè)主要模塊:模態(tài)編碼器、主干運(yùn)算器、模態(tài)解碼器、輸入投影器和輸出投影器。其中,模態(tài)編碼器、主干運(yùn)算器和模態(tài)解碼器3個(gè)模塊承載了大量的知識(shí),因?yàn)樗鼈冎苯訁⑴c到數(shù)據(jù)的編碼、運(yùn)算和解碼過(guò)程中。相比之下,輸入投影器和輸出投影器本身承載的模型知識(shí)較少,在某些情況下,它們甚至都可能沒(méi)有顯式的模型負(fù)責(zé)這部分功能,或者在構(gòu)建新的大模型時(shí)才訓(xùn)練這些模塊。因此,在進(jìn)行垂直領(lǐng)域大模型改造時(shí),一般不會(huì)選擇遷移輸入投影器和輸出投影器這兩個(gè)模塊。接下來(lái),本文將詳細(xì)介紹如何基于預(yù)訓(xùn)練的模態(tài)編碼器、主干運(yùn)算器和模態(tài)解碼器實(shí)現(xiàn)垂直領(lǐng)域大模型的改造。通過(guò)這種方式,可以有效地利用預(yù)訓(xùn)練模型的知識(shí),同時(shí)減少計(jì)算資源的需求,使模型更加適合特定任務(wù)和環(huán)境。2.2.1基于預(yù)訓(xùn)練的模態(tài)編碼器的遷移學(xué)習(xí)預(yù)訓(xùn)練大模型往往在訓(xùn)練過(guò)程中適應(yīng)了大量數(shù)據(jù)集的分布特征,其模型參數(shù)中已經(jīng)內(nèi)化了充足的領(lǐng)域知識(shí),非常適合作為垂直領(lǐng)域大模型的特征提取模塊。將預(yù)訓(xùn)練模型的前置特征提取模塊作為領(lǐng)域數(shù)據(jù)的模態(tài)編碼器,再在該模塊后對(duì)接下游任務(wù)模塊即可實(shí)現(xiàn)任務(wù)需求。模態(tài)編碼器存儲(chǔ)了關(guān)于數(shù)據(jù)關(guān)鍵特征的知識(shí)。有以下兩種方式遷移得到模態(tài)編碼器的方式:(1)同一模態(tài)遷移不同數(shù)據(jù)域。這種方式將模態(tài)編碼器在源數(shù)據(jù)域上預(yù)訓(xùn)練得到的知識(shí)遷移到目標(biāo)數(shù)據(jù)域。這通常涉及對(duì)源域和目標(biāo)域數(shù)據(jù)的特征分布進(jìn)行對(duì)齊。通過(guò)對(duì)源域的預(yù)訓(xùn)練模態(tài)編碼器在目標(biāo)域上進(jìn)行微調(diào),能夠使其適應(yīng)新數(shù)據(jù)的特性。具體而言,可以通過(guò)調(diào)整或添加編碼器的最后幾層來(lái)實(shí)現(xiàn)模型的遷移。此外,可以使用領(lǐng)域自適應(yīng)技術(shù),如領(lǐng)域?qū)褂?xùn)練技術(shù)或領(lǐng)域不變特征提取技術(shù),來(lái)減少源域和目標(biāo)域之間的分布差異。(2)遷移到不同模態(tài)。在多模態(tài)大模型的研究中,經(jīng)常會(huì)遇到某些模態(tài)缺乏對(duì)應(yīng)預(yù)訓(xùn)練編碼器的情況,此時(shí)可以采用跨模態(tài)遷移的策略,即借用其他模態(tài)的編碼器來(lái)處理新的數(shù)據(jù)類型。例如,Image?Bind的作者們將深度和熱成像數(shù)據(jù)視為單通道圖像的一種,從而利用圖像編碼器來(lái)提取這些數(shù)據(jù)的特征。在模型初始化時(shí)利用在圖像數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重,相較于隨機(jī)初始化可以更快收斂,并且在一定程度上提升泛化性。2.2.2基于預(yù)訓(xùn)練的主干運(yùn)算器的遷移學(xué)習(xí)在多模態(tài)大模型中,主干運(yùn)算器是核心的計(jì)算組件,負(fù)責(zé)處理經(jīng)過(guò)編碼的特征向量,并執(zhí)行分類、生成等任務(wù)。垂直領(lǐng)域大模型的主干運(yùn)算器可以從預(yù)訓(xùn)練模型中遷移而來(lái),以利用預(yù)訓(xùn)練模型在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)到的復(fù)雜特征處理和任務(wù)執(zhí)行能力。這種方法避免了從頭開始訓(xùn)練主干運(yùn)算器,但仍需要構(gòu)建相應(yīng)的前置模塊來(lái)將數(shù)據(jù)編碼成主干運(yùn)算器能夠處理的特征向量。例如,NExT?GPT[27]就將各種模態(tài)的原始數(shù)據(jù)都轉(zhuǎn)化為語(yǔ)言模態(tài)的特征向量后才能輸入預(yù)訓(xùn)練的大語(yǔ)言模型,讓大語(yǔ)言模型根據(jù)任務(wù)需求對(duì)輸入token進(jìn)行處理。有以下兩種方式遷移預(yù)訓(xùn)練主干運(yùn)算器:(1)遷移單一的預(yù)訓(xùn)練主干運(yùn)算器。利用預(yù)訓(xùn)練的大模型(如LLaMA)作為主干運(yùn)算器,處理中心模態(tài)的數(shù)據(jù)。遷移預(yù)訓(xùn)練的主干運(yùn)算器到垂直領(lǐng)域應(yīng)用時(shí),通常需要對(duì)其進(jìn)行微調(diào),以適應(yīng)特定領(lǐng)域的數(shù)據(jù)特征和任務(wù)需求。這一步可以在有限的領(lǐng)域數(shù)據(jù)集上進(jìn)行,通過(guò)微調(diào)模型的參數(shù)來(lái)針對(duì)化地優(yōu)化模型對(duì)領(lǐng)域數(shù)據(jù)的處理能力。536數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024(2)模塊化組合多個(gè)預(yù)訓(xùn)練主干運(yùn)算器。模塊化組合是一種靈活的深度學(xué)習(xí)架構(gòu)設(shè)計(jì)方法,它允perts,MoE)模型[71]可以作為一種有效的機(jī)制來(lái)進(jìn)一步優(yōu)化模塊化組合。MoE模型通過(guò)引入多個(gè)專家網(wǎng)絡(luò),并使用門控機(jī)制(Gatingmechanism)和混合策略(Mixingstrategy)來(lái)動(dòng)態(tài)地選擇和組合這些專家的輸出,從而實(shí)現(xiàn)對(duì)不同任務(wù)或數(shù)據(jù)子集的專業(yè)化處理。門控機(jī)制的主要作用是決定輸入數(shù)據(jù)應(yīng)該如何在不同的專家之間分配。它根據(jù)輸入數(shù)據(jù)的特征來(lái)為每個(gè)專家生成一個(gè)權(quán)重或者分?jǐn)?shù),這些權(quán)重或分?jǐn)?shù)反映了每個(gè)專家處理當(dāng)前輸入數(shù)據(jù)的能力或適應(yīng)性。門控機(jī)制的輸出通常用于指導(dǎo)混合策略,告訴它每個(gè)專家對(duì)于當(dāng)前輸入的重要性;而混合策略的作用是將多個(gè)專家的輸出按照一定的規(guī)則結(jié)合起來(lái),生成最終的模型輸出?;旌喜呗钥梢允呛?jiǎn)單的,如平均或加權(quán)平均,也可以是復(fù)雜的,如基于模型輸出的概率分布或其他高級(jí)方法。例如,在需要同時(shí)進(jìn)行圖像識(shí)別和語(yǔ)言理解的復(fù)雜任務(wù)中,若一個(gè)專家網(wǎng)絡(luò)擅長(zhǎng)識(shí)別圖像中的物體邊緣,而另一個(gè)專家網(wǎng)絡(luò)擅長(zhǎng)理解自然語(yǔ)言中的語(yǔ)義關(guān)系,則MoE模型的門控機(jī)制可以根據(jù)輸入數(shù)據(jù)的特點(diǎn)和任務(wù)需求,自動(dòng)調(diào)整每個(gè)專家網(wǎng)絡(luò)的參與程度。這使得模型在處理視覺(jué)和語(yǔ)言的混合輸入時(shí),能夠靈活地調(diào)用最合適的專家網(wǎng)絡(luò),以實(shí)現(xiàn)最佳性能。此外,MoE模型具有良好的擴(kuò)展性,能夠通過(guò)添加新的專家網(wǎng)絡(luò)和更新門控機(jī)制來(lái)適應(yīng)新的任務(wù)需求或數(shù)據(jù)類型,為構(gòu)建靈活的垂直領(lǐng)域大模型提供了可能。2.2.3基于預(yù)訓(xùn)練的模態(tài)解碼器的遷移學(xué)習(xí)模態(tài)解碼器在多模態(tài)大型預(yù)訓(xùn)練模型中起著至關(guān)重要的作用,它負(fù)責(zé)將經(jīng)過(guò)處理的特征向量轉(zhuǎn)換回原始數(shù)據(jù)的形式。在生成型任務(wù)中,例如將文本轉(zhuǎn)換為圖像或?qū)⒁纛l轉(zhuǎn)換為文本,模態(tài)解碼器不僅需要精確地解碼特征向量以重建可理解的原始數(shù)據(jù),還需要展現(xiàn)出一定的創(chuàng)造性。一些預(yù)訓(xùn)練的模態(tài)解碼器還能夠理解和處理多模態(tài)特征輸入,例如,CoDi?2能夠利用文本和音頻共同作為條件來(lái)控制圖像的生成。通過(guò)遷移這類預(yù)訓(xùn)練的解碼器,便無(wú)需從頭開始訓(xùn)練復(fù)雜的解碼器結(jié)構(gòu),能夠直接將其應(yīng)用于圖像生成任務(wù)。以下是有效利用預(yù)訓(xùn)練模態(tài)解碼器進(jìn)行遷移學(xué)習(xí)的方法:(1)微調(diào)預(yù)訓(xùn)練的模態(tài)解碼器。與模態(tài)編碼器類似,模態(tài)解碼器也可以通過(guò)在特定任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)來(lái)適應(yīng)新的任務(wù)需求。這個(gè)過(guò)程通常包括對(duì)解碼器的最后幾層進(jìn)行調(diào)整,或者增加新的層來(lái)更好地捕捉特定領(lǐng)域的數(shù)據(jù)特征。(2)遷移跨模態(tài)生成式的模態(tài)解碼器。在跨模態(tài)生成任務(wù)中,預(yù)訓(xùn)練的模態(tài)解碼器可以直接用于生成目標(biāo)模態(tài)的數(shù)據(jù)。首先通過(guò)條件編碼器將條件信息編碼為特征向量,然后與原始數(shù)據(jù)的特征向量結(jié)合,即可實(shí)現(xiàn)條件生成。實(shí)現(xiàn)此功能的前提在于確保輸入的特征向量能夠被解碼器正確理解,而這可能涉及到對(duì)主干運(yùn)算器和輸出投影器的調(diào)整。2.3無(wú)預(yù)訓(xùn)練模塊的垂直領(lǐng)域大模型全架構(gòu)構(gòu)建當(dāng)模型部署者無(wú)法通過(guò)遷移預(yù)訓(xùn)練模型的方法構(gòu)建垂直領(lǐng)域大模型的模塊時(shí),就需要設(shè)計(jì)和訓(xùn)練對(duì)應(yīng)模塊了。首先從整體視角分析單模態(tài)和多模態(tài)大模型的架構(gòu),為后續(xù)構(gòu)建大模型的各個(gè)模塊奠定基礎(chǔ)。單模態(tài)大模型由模態(tài)編碼器、主干運(yùn)算器和模態(tài)解碼器3個(gè)核心模塊組成。以大語(yǔ)言模型LLaMA2[15]為例,模態(tài)編碼器和模態(tài)解碼器專門針對(duì)語(yǔ)言模態(tài),采用字節(jié)對(duì)編碼(BPE)算法實(shí)現(xiàn)編解碼功能。主干運(yùn)算器則是一個(gè)龐大的自回歸Transformer模型。該模型通過(guò)這3個(gè)模塊實(shí)現(xiàn)了“輸入原始文本?輸入文本特征向量?輸出文本特征向量?輸出原始文本”的完整處理流程。此外,文獻(xiàn)[17]引入了視覺(jué)句子的概念,并提出了能夠通過(guò)視覺(jué)句子來(lái)自回歸生成所需圖像輸出的大視覺(jué)模型LVM。該文獻(xiàn)實(shí)現(xiàn)了在純視覺(jué)模態(tài)下的上下文學(xué)習(xí)(In?contextlearning使模型能夠直接從圖像模態(tài)的提示中推斷任務(wù)陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)537并生成相應(yīng)結(jié)果。這項(xiàng)工作不僅探索了純視覺(jué)輸入的潛力,也為構(gòu)建特定領(lǐng)域大模型提供了新視角:中心模態(tài)的選擇不必局限于語(yǔ)言,任何在特定領(lǐng)域廣泛使用的模態(tài)都可成為中心模態(tài)。多模態(tài)大模型則需要額外引入輸入投影器和輸出投影器來(lái)實(shí)現(xiàn)模態(tài)對(duì)齊。例如,CoDi?2[21]遷移使用了ImageBind[26]中提出的對(duì)齊到圖像模態(tài)的多個(gè)模態(tài)編碼器處理相應(yīng)模態(tài)的輸入數(shù)據(jù),然后通過(guò)一個(gè)多層感知機(jī)(MLP將圖像模態(tài)的特征向量轉(zhuǎn)換到語(yǔ)言模態(tài)的特征空間。它以大語(yǔ)言模型LLaMA?2?7b?chat?hf的預(yù)訓(xùn)練自回歸Transformer作為主干運(yùn)算器的基礎(chǔ),然后將主干運(yùn)算器處理后的圖像和音頻特征經(jīng)過(guò)MLP轉(zhuǎn)換回圖像域,作為控制向量輸入到基于Diffusion架構(gòu)的生成模型中,得到最終的圖像和文本結(jié)果。訓(xùn)練過(guò)程結(jié)合了文本生成損失、模態(tài)轉(zhuǎn)化損失和數(shù)據(jù)生成損失,端到端地訓(xùn)練主干運(yùn)算器的多模態(tài)特征處理能力以及兩個(gè)MLP的模態(tài)轉(zhuǎn)換能力。此模型的模態(tài)對(duì)齊體現(xiàn)在兩方面,一方面是通過(guò)ImageBind的預(yù)訓(xùn)練模態(tài)編碼器將多個(gè)模態(tài)的特征向量統(tǒng)一對(duì)齊到了圖像模態(tài),另一方面是通過(guò)MLP實(shí)現(xiàn)的圖像特征向量與文本特征向量間的轉(zhuǎn)換。綜上所述,構(gòu)建大模型首先要確定數(shù)據(jù)模態(tài),并從中選擇中心模態(tài)。接著,構(gòu)建相應(yīng)的模塊以實(shí)現(xiàn)模態(tài)編碼器和輸入投影器的功能,將不同模態(tài)的原始數(shù)據(jù)轉(zhuǎn)換為主干運(yùn)算器能夠處理的中心模態(tài)特征向量。隨后,設(shè)計(jì)輸出投影器和模態(tài)解碼器模塊,將主干運(yùn)算器處理后的特征向量轉(zhuǎn)換為各模態(tài)的原始數(shù)據(jù)形式。完成模型結(jié)構(gòu)設(shè)計(jì)后,便可開始訓(xùn)練過(guò)程。后續(xù)內(nèi)容將詳細(xì)介紹各模塊的實(shí)現(xiàn)原理以及構(gòu)建方法。2.3.1構(gòu)建模態(tài)編碼器構(gòu)建特定模態(tài)的編碼器就是設(shè)計(jì)一個(gè)能夠從數(shù)據(jù)中提取特征向量的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。以下是構(gòu)建模態(tài)編碼器的一般步驟:(1)預(yù)處理為合適的數(shù)據(jù)結(jié)構(gòu)。根據(jù)數(shù)據(jù)模態(tài)的特性選擇合適的數(shù)據(jù)結(jié)構(gòu)供后續(xù)模型使用。例如,在音頻處理中,常見(jiàn)的做法是將時(shí)域信號(hào)轉(zhuǎn)換為頻譜圖,然后利用適用于圖像的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取。但音頻信號(hào)既可以被表征成時(shí)序向量,又可以被表征成波形圖像,具體選擇哪一種數(shù)據(jù)結(jié)構(gòu)實(shí)際上取決于任務(wù)需求和處理難度。對(duì)于推薦系統(tǒng)的輸入而言,常建立圖結(jié)構(gòu)來(lái)表征用戶和物品之間的關(guān)系。在選擇目標(biāo)數(shù)據(jù)結(jié)構(gòu)時(shí),研究者需要在任務(wù)需求和處理難度之間做出權(quán)衡,確保數(shù)據(jù)結(jié)構(gòu)既能充分表征領(lǐng)域知識(shí),又適合下游模型處理。另外,由于垂直領(lǐng)域大模型需要具有功能上的通用性,選擇目標(biāo)數(shù)據(jù)結(jié)構(gòu)時(shí)還需要額外考慮多種任務(wù)輸入之間的適配性。Transformer架構(gòu)來(lái)捕捉長(zhǎng)距離依賴關(guān)系,而圖像數(shù)據(jù)則可以采用基于CNN或ViT架構(gòu)的模型來(lái)提取特征。(3)訓(xùn)練模態(tài)編碼器。使用樣本數(shù)量和種類都充足的數(shù)據(jù)集對(duì)模態(tài)編碼器進(jìn)行預(yù)訓(xùn)練,使其學(xué)習(xí)到模態(tài)數(shù)據(jù)的一般特征和分布。預(yù)訓(xùn)練是向模型灌輸知識(shí)的過(guò)程,如果數(shù)據(jù)集的大小或多樣性不足,模型都可能無(wú)法學(xué)習(xí)到完整的模態(tài)數(shù)據(jù)表示。一種訓(xùn)練模態(tài)編碼器的方法是,將模態(tài)編碼器和模態(tài)解碼器組合成自編碼器,以最小化重構(gòu)誤差為目標(biāo)進(jìn)行無(wú)監(jiān)督訓(xùn)練。另一種訓(xùn)練方法是,針對(duì)特定任務(wù)設(shè)計(jì)模型,使用該任務(wù)的損失函數(shù)進(jìn)行有監(jiān)督訓(xùn)練,訓(xùn)練完成后將模型的上游部分遷移作為模態(tài)編碼器。然而,這種訓(xùn)練方式無(wú)法得到與之配套的模態(tài)解碼器,這可能影響后續(xù)模塊的設(shè)計(jì)和功能。因此,在設(shè)計(jì)模態(tài)編碼器時(shí)還需要考慮到整個(gè)大模型架構(gòu)的一致性。2.3.2構(gòu)建輸入投影器輸入投影器的作用是將來(lái)自不同模態(tài)的數(shù)據(jù)投影到一個(gè)共同的特征空間中。正如1.3節(jié)中所討論的,模態(tài)對(duì)齊可以通過(guò)融合編碼器或雙編碼器兩種架構(gòu)實(shí)現(xiàn)。構(gòu)建輸入投影器時(shí),關(guān)鍵在于選擇是采用橋接器策略來(lái)整合不同模態(tài)的輸入向量,還是通過(guò)微調(diào)方法使不同模態(tài)的投影器相互靠近,這兩種538數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024策略分別對(duì)應(yīng)融合編碼器和雙編碼器的理念。在訓(xùn)練過(guò)程中使用多模態(tài)理解任務(wù)的損失函數(shù),如多模態(tài)分類或生成任務(wù)的損失,來(lái)訓(xùn)練模型的跨模態(tài)投影能力。此外,也可以采用端到端的訓(xùn)練方式,在優(yōu)化大模型整體的性能的同時(shí)學(xué)習(xí)跨模態(tài)投影。如前文所述,CoDi?2模型[21]利用了ImageBind[26]中通過(guò)CLIP對(duì)齊的編碼器作為圖像、音頻模態(tài)編碼器和部分輸入投影器,在其后結(jié)合了一個(gè)MLP作為另一部分的輸入投影器,在端到端訓(xùn)練大模型的過(guò)程中優(yōu)化了MLP,從而實(shí)現(xiàn)了從圖像、音頻對(duì)齊到文本的效果。2.3.3構(gòu)建主干運(yùn)算器主干運(yùn)算器負(fù)責(zé)對(duì)中心模態(tài)的特征向量進(jìn)行理解和生成。要想構(gòu)建一個(gè)針對(duì)垂直領(lǐng)域的主干運(yùn)算器,首先需要選定該領(lǐng)域中最普遍和最能承載領(lǐng)域信息的數(shù)據(jù)模態(tài),以此作為主干運(yùn)算器處理的模態(tài),并基于此設(shè)計(jì)模型架構(gòu)。目前主流的模型架構(gòu)都基于Transformer,而完整的Transformer模型由編碼器和解碼器兩部分組成,其中編碼器負(fù)責(zé)分析輸入數(shù)據(jù),提取出緊湊的特征表示,解碼器利用這些特征表示來(lái)得到輸出內(nèi)容。由于二者結(jié)構(gòu)不同,一般而言,編碼器的理解能力更為強(qiáng)大,而解碼器則擁有更強(qiáng)的生成能力?;赥ransformer的大模型主干運(yùn)算器可以采用不同的架構(gòu)形式,包括編碼器(en?架構(gòu)的特點(diǎn)進(jìn)行了概括。表3編碼器架構(gòu)、解碼器架構(gòu)和編解碼器架構(gòu)的對(duì)比Table3Comparisonamongencoder?only,decoder?onlyandencoder?decoderstructures模型架構(gòu)生成能力理解能力計(jì)算量模型示例編碼器架構(gòu)弱強(qiáng)低BERT解碼器架構(gòu)強(qiáng)弱低GPT系列LLaMA系列編解碼器架構(gòu)強(qiáng)強(qiáng)高BARTT5(1)基于編碼器架構(gòu)的主干運(yùn)算器。編碼器架構(gòu)只包含Transformer的編碼器部分,通常用于需要理解輸入文本,而不是生成新的文本序列的任務(wù),如文本分類、情感分析等。由于只包含編碼器部分,編碼器模型結(jié)構(gòu)相對(duì)簡(jiǎn)單,但也只能產(chǎn)生固定長(zhǎng)度的輸出,生成能力較弱。在生成任務(wù)方面,基于編碼器架構(gòu)的主干運(yùn)算器僅能處理缺失序列補(bǔ)全這種廣義上的生成任務(wù)。BERT[11]就是一個(gè)著名的編碼器架構(gòu)的例子。(2)基于解碼器架構(gòu)的主干運(yùn)算器。在解碼器架構(gòu)中,解碼器直接處理輸入序列并生成輸出序列,而沒(méi)有專門的編碼器來(lái)將輸入序列加工成緊湊的特征表示。這一方面減少了參數(shù)量和計(jì)算開銷,但另一方面也導(dǎo)致其對(duì)輸入序列的理解難度會(huì)更大,從而限制了模型的長(zhǎng)序列處理能力。這種架構(gòu)在生成輸出序列時(shí)不需要顯式的上下文表示,而是通過(guò)自注意力機(jī)制在序列內(nèi)部自動(dòng)捕捉信息?;诮獯a器架構(gòu)的主干運(yùn)算器通常通過(guò)自回歸生成的方式,即根據(jù)先前的生成內(nèi)容逐個(gè)生成詞或字符,來(lái)完成序列文本生成任務(wù)。像GPT系列[7?10,23]和LLaMA系列[14?15]的大語(yǔ)言模型都屬于解碼器架構(gòu)。(3)基于編解碼器架構(gòu)的主干運(yùn)算器。編解碼器架構(gòu)能夠同時(shí)擁有編碼器的理解能力和解碼器的生成能力,但這也導(dǎo)致模型的參數(shù)量和計(jì)算成本較高。如Meta的BART[18]Google的T5[19]模型都采用了這種架構(gòu)。2.3.4構(gòu)建輸出投影器及模態(tài)解碼器模態(tài)解碼器有生成式和判決式兩種類型。生成式模態(tài)解碼器能夠在滿足條件信息(Conditioning)陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)539的前提下,生成高質(zhì)量的數(shù)據(jù)樣本。判決式模態(tài)解碼器則擁有更精確的恢復(fù)能力,其側(cè)重點(diǎn)在于根據(jù)輸入向量準(zhǔn)確地重建數(shù)據(jù)樣本。當(dāng)模態(tài)解碼器使用基于生成式模型或判決式模型的構(gòu)建方式時(shí),也會(huì)影響輸出投影器的設(shè)計(jì),因此需要聯(lián)合考慮這兩個(gè)模塊。圖7(a)和圖7(b)分別展示了生成式模態(tài)解碼器和判決式模態(tài)解碼器的運(yùn)行過(guò)程。圖7輸出投影器及模態(tài)解碼器的運(yùn)行過(guò)程(1)生成式模態(tài)解碼器。生成式模態(tài)解碼器采用生成式模型作為神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),能夠利用條件信息控制生成過(guò)程。當(dāng)將其他模態(tài)的特征向量作為條件信息,將生成的數(shù)據(jù)作為解碼輸出時(shí),就可以稱這樣的生成式模型為生成式模態(tài)解碼器。此類模態(tài)解碼器不強(qiáng)制要求構(gòu)建顯式的輸出投影器。如基于擴(kuò)散模型的圖像生成模型——DiT[40]能夠根據(jù)前一步的結(jié)果和條件向量逐步生成圖像。在該模型中,交叉注意力機(jī)制實(shí)現(xiàn)了輸出投影器的功能。另一個(gè)用自注意機(jī)制實(shí)現(xiàn)輸出投影器功能的例子是VAR[72]模型。通過(guò)在上下文輸入中加入模態(tài)標(biāo)簽,使用自回歸生成機(jī)制的VAR就知道了需要將哪些內(nèi)容作為生成的控制向量,剩余的部分就是之前生成的內(nèi)容,從而實(shí)現(xiàn)了自回歸式圖像生成。生成式模態(tài)解碼器通常采用端到端的訓(xùn)練策略。在訓(xùn)練過(guò)程中,模型的生成部分和模態(tài)交互部分同時(shí)進(jìn)行優(yōu)化。訓(xùn)練目標(biāo)通常是最小化生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的差異,并確保生成數(shù)據(jù)滿足給定的條件。例如,如果模型的目標(biāo)是根據(jù)文本描述生成圖像,訓(xùn)練時(shí)會(huì)使用大量的文本?圖像對(duì),并通過(guò)比較生成圖像和真實(shí)圖像的相似度來(lái)優(yōu)化模型參數(shù)。這種相似度可以通過(guò)像素級(jí)的損失函數(shù)(如均方誤差)或更高級(jí)的感知損失(如VGG損失)來(lái)衡量。此外,還可以使用對(duì)抗性訓(xùn)練來(lái)提高生成質(zhì)量。(2)判決式模態(tài)解碼器。判決式模態(tài)解碼器只負(fù)責(zé)直接將特征向量恢復(fù)成原始數(shù)據(jù)的形式,因此需要配合顯式的輸出投影器將其他模態(tài)域上的特征向量轉(zhuǎn)換到目標(biāo)模態(tài)來(lái)使用。例如,將VQGAN[38]中的解碼器部分作為多模態(tài)大模型的判決式模態(tài)解碼器時(shí),就需要先顯式地構(gòu)建一個(gè)輸出投影器將其他模態(tài)域上的特征向量轉(zhuǎn)到圖像模態(tài)上,再通過(guò)解碼器部分將特征向量解碼為原始數(shù)據(jù)形式。此顯式輸出投影器通常采用監(jiān)督學(xué)習(xí)的訓(xùn)練方式,即模型接收來(lái)自其他模態(tài)的特征向量作為輸入,并學(xué)習(xí)將這些特征投影為目標(biāo)模態(tài)的特征向量,通過(guò)最小化兩個(gè)特征向量之間的誤差來(lái)提升投影準(zhǔn)確度。模態(tài)解碼器則與模態(tài)編碼器一起作為自編碼器進(jìn)行訓(xùn)練,通過(guò)最小化重構(gòu)誤差來(lái)提升重建性能。3垂直領(lǐng)域大模型的應(yīng)用實(shí)例隨著人工智能技術(shù)的迅速發(fā)展,大模型作為一種強(qiáng)大的工具,已經(jīng)在各種垂直領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用前景。大模型不僅具備處理海量數(shù)據(jù)和復(fù)雜任務(wù)的能力,還能夠通過(guò)深度學(xué)習(xí)和模式識(shí)別技術(shù),為各行各業(yè)帶來(lái)新的突破和創(chuàng)新。在通信、自動(dòng)駕駛、數(shù)學(xué)、醫(yī)療、法律、藝術(shù)、金融等各個(gè)領(lǐng)域,大模型正逐漸成為推動(dòng)行業(yè)進(jìn)步和創(chuàng)新的重要引擎,為人類社會(huì)的發(fā)展注入了新的活力。540數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024(1)在通信領(lǐng)域,大模型有望被廣泛應(yīng)用于網(wǎng)絡(luò)規(guī)劃、網(wǎng)絡(luò)性能優(yōu)化、故障檢測(cè)和預(yù)測(cè)、資源調(diào)度等方面[73]。例如,可以使用針對(duì)通信領(lǐng)域微調(diào)后的大語(yǔ)言模型來(lái)處理網(wǎng)絡(luò)日志數(shù)據(jù),對(duì)特定的網(wǎng)絡(luò)問(wèn)題進(jìn)行建模和解決。此外,通信網(wǎng)絡(luò)大模型通過(guò)利用時(shí)空關(guān)聯(lián)和知識(shí)推理,有望識(shí)別并預(yù)防導(dǎo)致服務(wù)質(zhì)量下降的體驗(yàn)問(wèn)題,從而提升服務(wù)水平和縮短故障響應(yīng)時(shí)間,為精細(xì)化的智能化實(shí)時(shí)網(wǎng)絡(luò)優(yōu)化奠定基礎(chǔ)。在工業(yè)場(chǎng)景中,大模型的業(yè)務(wù)理解能力也有望助力優(yōu)化信號(hào)傳輸和調(diào)度策略,提高業(yè)務(wù)效率[74]。在網(wǎng)絡(luò)大模型的研究中,文獻(xiàn)[75]提出的NetGPT架構(gòu)有望成為實(shí)現(xiàn)通信網(wǎng)絡(luò)內(nèi)生智能的有效途徑,而文獻(xiàn)[76]則探討了在構(gòu)建通信大模型過(guò)程中可能遇到的挑戰(zhàn)和問(wèn)題。(2)在自動(dòng)駕駛領(lǐng)域,大模型能在車輛的感知、決策和規(guī)劃等多個(gè)關(guān)鍵環(huán)節(jié)中發(fā)揮著核心作用[77]。具體來(lái)說(shuō),自動(dòng)駕駛中的感知任務(wù)涉及到對(duì)車輛周圍環(huán)境的實(shí)時(shí)監(jiān)測(cè),包括其他車輛、行人、交通標(biāo)志和道路狀況等。大模型通過(guò)分析攝像頭、雷達(dá)和激光雷達(dá)(LiDAR)等傳感器收集的數(shù)據(jù),能夠識(shí)別和分類各種物體,并構(gòu)建車輛周圍的詳細(xì)地圖。這種高級(jí)的感知能力是實(shí)現(xiàn)安全自動(dòng)駕駛的基礎(chǔ)。在決策層面,大模型需要根據(jù)感知到的信息做出快速而準(zhǔn)確的判斷,如何避讓障礙物、選擇合適的行駛路徑、以及在復(fù)雜的交通情況下做出最優(yōu)的駕駛策略。例如,DriveGPT[78]這樣的多模態(tài)大模型不僅能夠處理視覺(jué)數(shù)據(jù),還能夠理解和回答語(yǔ)言模態(tài)的指令,如根據(jù)語(yǔ)音輸入的目的地進(jìn)行路徑規(guī)劃。另外,文獻(xiàn)[79]提出的pFedLVM能夠利用預(yù)訓(xùn)練大視覺(jué)模型的強(qiáng)大性能進(jìn)行圖像特征提取,作為后續(xù)任務(wù)的基礎(chǔ)。(3)在數(shù)學(xué)推理領(lǐng)域,大模型可以被用于解決數(shù)學(xué)問(wèn)題、證明定理和發(fā)現(xiàn)模式等任務(wù)。例如,可以利用預(yù)訓(xùn)練的語(yǔ)言模型來(lái)理解和解釋數(shù)學(xué)公式,并利用微調(diào)技術(shù)對(duì)特定的數(shù)學(xué)推理問(wèn)題進(jìn)行求解。文MAmmoTH充分發(fā)揮了大語(yǔ)言模型的理解能力和編程語(yǔ)言的計(jì)算能力,實(shí)現(xiàn)了良好的數(shù)學(xué)推理表現(xiàn)。(4)在醫(yī)療領(lǐng)域,大模型在醫(yī)療領(lǐng)域的應(yīng)用涵蓋了疾病診斷與預(yù)測(cè)、個(gè)性化治療、藥物研發(fā)、醫(yī)療資源管理以及健康監(jiān)測(cè)與預(yù)警等多個(gè)方面[81]。例如,通過(guò)分析醫(yī)療數(shù)據(jù)和模式,提高診斷準(zhǔn)確性、優(yōu)化治療方案、加速藥物研發(fā)過(guò)程,并且?guī)椭t(yī)療機(jī)構(gòu)合理規(guī)劃資源、提高服務(wù)效率,同時(shí)實(shí)現(xiàn)了患者健康狀態(tài)的實(shí)時(shí)監(jiān)測(cè)與預(yù)警。文獻(xiàn)[82]中提到的華佗GPT模型,能夠通過(guò)模擬醫(yī)生的診療過(guò)程,為患者提供初步的醫(yī)療咨詢和建議。該模型不僅可以減輕醫(yī)生的工作負(fù)擔(dān),還能讓患者在偏遠(yuǎn)地區(qū)或資源匱乏的環(huán)境中獲得及時(shí)的醫(yī)療服務(wù)。(5)在法律領(lǐng)域,大模型能夠?qū)Ψ晌臅M(jìn)行深入分析,識(shí)別出文本中的關(guān)鍵信息和法律概念,從而輔助律師和法律顧問(wèn)進(jìn)行更為精確的案件分析和法律咨詢。例如,大模型可以自動(dòng)識(shí)別合同中的條款,提取重要的法律元素,如義務(wù)、權(quán)利、條件和期限等,幫助律師快速理解文檔內(nèi)容并識(shí)別潛在的法律風(fēng)險(xiǎn)。此外,大模型還可以用于案件預(yù)測(cè),通過(guò)分析歷史案例和相關(guān)法律條文,預(yù)測(cè)案件的可能結(jié)果,為律師制定辯護(hù)策略提供數(shù)據(jù)支持。文獻(xiàn)[83]提出的ChatLaw大模型則可以提供實(shí)時(shí)的法律咨詢和解答服務(wù),幫助非專業(yè)人士理解復(fù)雜的法律問(wèn)題,甚至可以自動(dòng)生成法律文書草稿,減輕律師的工作負(fù)擔(dān)。此外,大模型還可以輔助進(jìn)行法律研究,快速檢索相關(guān)法律文獻(xiàn)和判例,為法律論證提供堅(jiān)實(shí)的依據(jù)。(6)在藝術(shù)領(lǐng)域,大模型的應(yīng)用正在探索和改變著創(chuàng)意表達(dá)的方式和藝術(shù)生產(chǎn)的過(guò)程。大模型可以通過(guò)學(xué)習(xí)大量的藝術(shù)作品和創(chuàng)意概念,生成新穎的藝術(shù)作品、音樂(lè)、文學(xué)作品等,為藝術(shù)家提供創(chuàng)作靈感和創(chuàng)意支持。例如,可以使用生成式模型來(lái)生成藝術(shù)作品,并利用微調(diào)技術(shù)對(duì)生成的作品進(jìn)行風(fēng)格和內(nèi)容的調(diào)整[84?85]。目前,視頻生成領(lǐng)域的Sora[86]已經(jīng)能夠讓用戶使用文本控制生成的內(nèi)容,生成栩栩如生的視頻作品。陳浩瀧等:垂直領(lǐng)域大模型的定制化:理論基礎(chǔ)與關(guān)鍵技術(shù)541(7)在金融領(lǐng)域,大模型能夠涵蓋風(fēng)險(xiǎn)管理、投資策略、市場(chǎng)預(yù)測(cè)、欺詐檢測(cè)等多種任務(wù),為金融機(jī)構(gòu)和投資者提供了強(qiáng)大的工具來(lái)優(yōu)化決策、降低風(fēng)險(xiǎn)和提高效率[87?88]。例如,使用大模型構(gòu)建信用評(píng)分系統(tǒng),來(lái)評(píng)估借款人的信用風(fēng)險(xiǎn)。這些模型通過(guò)分析借款人的歷史信用記錄、財(cái)務(wù)狀況、債務(wù)水平等因素,預(yù)測(cè)借款人未來(lái)償還貸款的能力,并據(jù)此決定是否批準(zhǔn)貸款申請(qǐng)以及貸款利率?;蛘?,使用大模型來(lái)考慮各種資產(chǎn)類別的歷史表現(xiàn)、相關(guān)性、風(fēng)險(xiǎn)和預(yù)期收益率,以及歷史市場(chǎng)數(shù)據(jù)、宏觀經(jīng)濟(jì)指標(biāo)、政治事件等因素,為投資者做出最佳的決策。綜上所述,大模型作為一種強(qiáng)大的人工智能工具,已經(jīng)在各種垂直領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷擴(kuò)展,大模型將繼續(xù)發(fā)揮重要作用,推動(dòng)各行業(yè)的數(shù)字化轉(zhuǎn)型和智能化發(fā)展。這些應(yīng)用實(shí)例展示了大模型在不同領(lǐng)域的廣泛應(yīng)用,也強(qiáng)調(diào)了為實(shí)際需求選擇合適的垂直領(lǐng)域大模型定制方法的重要性。4垂直領(lǐng)域大模型定制化的未來(lái)發(fā)展方向大模型技術(shù)的發(fā)展已經(jīng)取得了顯著的成就,但隨著技術(shù)的不斷進(jìn)步,新的挑戰(zhàn)和問(wèn)題也逐漸浮現(xiàn)。4.1數(shù)據(jù)方面的挑戰(zhàn)首先,垂直領(lǐng)域數(shù)據(jù)的獲取和數(shù)據(jù)結(jié)構(gòu)的建模是一個(gè)重要的挑戰(zhàn)。大模型通常需要大量的高質(zhì)量數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,而在特定領(lǐng)域獲取這些數(shù)據(jù)可能既昂貴又耗時(shí)。此外,隱私保護(hù)法規(guī)的加強(qiáng)使得數(shù)據(jù)的收集和使用受到更多限制。為了解決這一問(wèn)題,未來(lái)的研究可以集中在開發(fā)新的數(shù)據(jù)采集和標(biāo)注技術(shù),以及利用合成數(shù)據(jù)和弱監(jiān)督學(xué)習(xí)方法來(lái)減少對(duì)大量標(biāo)注數(shù)據(jù)的依賴。這不僅能夠降低成本,還能在保護(hù)隱私的前提下,有效地利用數(shù)據(jù)資源。另一方面,要想做好垂直領(lǐng)域的數(shù)據(jù)結(jié)構(gòu)建模,則需要研究者和工作者們深入理解垂直領(lǐng)域的業(yè)務(wù)流程,提取關(guān)鍵業(yè)務(wù)數(shù)據(jù),構(gòu)建完善的數(shù)據(jù)預(yù)處理流程。其次,多模態(tài)數(shù)據(jù)理解是另一個(gè)關(guān)鍵挑戰(zhàn)。盡管現(xiàn)有的大模型在處理文本數(shù)據(jù)方面表現(xiàn)出色,但對(duì)圖像、聲音等其他模態(tài)的理解能力仍有待提高,更遑論垂直領(lǐng)域中可能出現(xiàn)的各種新數(shù)據(jù)模態(tài)。構(gòu)建能夠綜合處理多種模態(tài)數(shù)據(jù)的統(tǒng)一模型,對(duì)于提高模型在多模態(tài)任務(wù)上的性能和泛化能力至關(guān)重要。這要求研究者和工作者不僅要深入理解不同模態(tài)數(shù)據(jù)的特點(diǎn),還要探索有效的多模態(tài)融合和交互理解機(jī)制。4.2模型架構(gòu)方面的挑戰(zhàn)在垂直領(lǐng)域大模型的架構(gòu)設(shè)計(jì)方面,一個(gè)核心的挑戰(zhàn)是如何構(gòu)建能夠有效捕捉和表達(dá)垂直領(lǐng)域深層語(yǔ)義的模型。這要求模型不僅要具備廣泛的知識(shí)基礎(chǔ),還要能夠理解和適應(yīng)特定領(lǐng)域的知識(shí)和輸入模態(tài)。針對(duì)垂直領(lǐng)域的大模型需要在架構(gòu)上實(shí)現(xiàn)高度的模塊化和可定制性,能根據(jù)特定應(yīng)用場(chǎng)景進(jìn)行調(diào)整和優(yōu)化,以適應(yīng)不同領(lǐng)域的數(shù)據(jù)特性和任務(wù)需求。另外,模型的可解釋性在垂直領(lǐng)域也尤為重要。在設(shè)計(jì)架構(gòu)時(shí),研究者需要考慮如何構(gòu)建模型以便使其決策過(guò)程和輸出結(jié)果能夠被領(lǐng)域?qū)<液妥罱K用戶所理解和信任。這可能涉及開發(fā)新的模型機(jī)制、引入可解釋的模型中間表示,或者設(shè)計(jì)可視化工具來(lái)展示模型的內(nèi)部工作機(jī)制。4.3算力方面的挑戰(zhàn)算力資源也是大模型技術(shù)面臨的一個(gè)重要挑戰(zhàn)。訓(xùn)練和運(yùn)行大模型需要巨大的計(jì)算資源,這不僅增加了經(jīng)濟(jì)成本,還可能對(duì)環(huán)境造成影響。因此,研究如何提高模型訓(xùn)練和推理的效率,以及如何減少能源消耗,成為了一個(gè)迫切需要解決的問(wèn)題。未來(lái)的研究方向可能包括開發(fā)更高效的模型壓縮和加速技術(shù),如知識(shí)蒸餾、模型剪枝、量化等,以及探索更高效的訓(xùn)練算法和專用硬件設(shè)計(jì)。輕量化部署是大模型技術(shù)的另一個(gè)重要方向。大模型的體積和計(jì)算需求往往使得它們難以在移542數(shù)據(jù)采集與處理JournalofDataAcquisitionandProcessingVol.39,No.3,2024動(dòng)設(shè)備和邊緣計(jì)算場(chǎng)景中部署。為了使大模型能夠在資源受限的場(chǎng)景中運(yùn)行,需要開發(fā)輕量級(jí)的模型架構(gòu)和部署策略。這可能涉及到模型的簡(jiǎn)化、蒸餾和優(yōu)化,以減少模型的大小和計(jì)算需求,同時(shí)保持或提高其性能?;蛘卟捎迷七叾藚f(xié)同的方法,將大模型的訓(xùn)練和推理過(guò)程拆分到不同層級(jí)的服務(wù)器上進(jìn)行協(xié)同部署。4.4安全方面的挑戰(zhàn)最后,安全問(wèn)題也是大模型技術(shù)必須面對(duì)的挑戰(zhàn)。大模型可能被用于生成虛假信息、侵犯隱私或被惡意利用,同時(shí)模型本身也可能受到對(duì)抗性攻擊。要想確保模型的安全性和可靠性,相關(guān)的工作包括但不限于以下幾個(gè)關(guān)鍵點(diǎn):首先,加強(qiáng)模型的魯棒性,以抵御潛在的對(duì)抗性攻擊,這可能涉及開發(fā)先進(jìn)的對(duì)抗性訓(xùn)練技術(shù),以及實(shí)施更為嚴(yán)格的數(shù)據(jù)清洗和預(yù)處理步驟;其次,開發(fā)和部署高效的惡意輸入檢測(cè)機(jī)制,利用異常檢測(cè)算法和實(shí)時(shí)監(jiān)控系統(tǒng)來(lái)識(shí)別和阻止惡意行為;再者,注重隱私保護(hù),采用如差分隱私等技術(shù)減少模型對(duì)敏感數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論