版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
注意力算法下的Transformer模型分析案例目錄TOC\o"1-3"\h\u16903注意力算法下的Transformer模型分析案例 1305281.1傳統(tǒng)的Transformer模型 16641.1.1位置編碼層 211401.1.2自注意力層 2257051.1.3多頭注意力層 3246721.2VisionTransformer模型 4296061.3注意力算法下的InsuranceTransformer模型 5215701.4模型實(shí)驗(yàn)及其結(jié)果分析 61.1傳統(tǒng)的Transformer模型Transformer模型于2017年被提出,該模型一經(jīng)提出就引起了極大的轟動(dòng)。與只關(guān)注局部特征的CNN模型相比,Transformer模型能夠捕捉到長(zhǎng)距離特征,這意味著Transformer模型可以很容易地獲得全局信息。與RNN模型的隱藏層狀態(tài)計(jì)算順序相比較,Transformer模型的自注意層和全連接層的輸出可并行計(jì)算且速度快。因此,Transformer模型在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域具有巨大發(fā)展?jié)摿?。Transformer模型的提出是為了解決自然語(yǔ)言處理問(wèn)題。如圖4-1所示,Transformer模型實(shí)際為編碼器-解碼器模型的變種,它包含一個(gè)編碼器模塊和一個(gè)解碼器模塊,編碼器模塊由幾個(gè)具有相同架構(gòu)的編碼器構(gòu)成,解碼器模塊由幾個(gè)具有相同架構(gòu)的解碼器構(gòu)成。每個(gè)編碼器和解碼器由一個(gè)自注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)層(FeedForwardNetwork)組成,而每個(gè)解碼器還額外包含一個(gè)編碼器-解碼器注意力層。在使用Transformer模型進(jìn)行機(jī)器翻譯任務(wù)之前,需要將句子中的每個(gè)單詞嵌入到維的向量中,其中為模型預(yù)設(shè)參數(shù)。圖4-1Transformer模型的模塊示意圖1.1.1位置編碼層Transformer模型缺乏捕獲句子中單詞位置信息的能力。為了解決這個(gè)問(wèn)題,并獲取單詞的最終輸入向量,將維度為的編碼將添加到原始輸入向量中。具體來(lái)說(shuō),該位置使用下式進(jìn)行編碼:其中表示單詞在句子中的位置,表示位置編碼的當(dāng)前維度。1.1.2自注意力層在自注意力層中,首先將輸入序列利用線性變換轉(zhuǎn)換為三個(gè)不同的序列:查詢序列,鍵序列和值序列,其中。之后,利用查詢序列,鍵序列和值序列計(jì)算注意力函數(shù)如下:第一步:計(jì)算不同序列之間的對(duì)齊函數(shù)(采用的是縮放點(diǎn)積對(duì)齊函數(shù))其中。第二步:使用softmax函數(shù)將對(duì)齊函數(shù)值轉(zhuǎn)換為概率(歸一化處理)第三步:利用加權(quán)平均得到注意力函數(shù)值直觀來(lái)看,步驟一計(jì)算兩個(gè)不同向量之間的對(duì)齊函數(shù)值,計(jì)算結(jié)果確定了在當(dāng)前位置對(duì)單詞進(jìn)行編碼時(shí)我們給予其他單詞的關(guān)注程度。步驟二標(biāo)準(zhǔn)化得分,利用softmax函數(shù)進(jìn)行歸一化處理。最后,將每個(gè)值向量乘以相應(yīng)注意力權(quán)重進(jìn)行求和,概率越大的向量將會(huì)被下面幾層更多地關(guān)注。解碼器模塊中的編碼器-解碼器注意力層與編碼器模塊中的自注意力層類似,但不同之處在于:鍵矩陣和值矩陣是從編碼器模塊繼承來(lái)的,查詢矩陣是從上一層繼承來(lái)的。1.1.3多頭注意力層多頭注意力是一種可用于提高自注意力層性能的機(jī)制。對(duì)于給定的詞,我們?cè)诒闅v句子時(shí)通常希望專注于其他幾個(gè)詞。單頭自注意力層限制了我們專注于一個(gè)或多個(gè)特定位置的能力。多頭注意力是通過(guò)為注意力層提供不同的子空間來(lái)實(shí)現(xiàn)的。具體來(lái)說(shuō),將不同的查詢序列,鍵序列和值序列用于不同的頭,并且這些矩陣可以在訓(xùn)練后將輸入序列投影到不同的子空間中,如圖4-2所示。圖4-2多頭自注意力計(jì)算流程具體來(lái)說(shuō)就是,在給定輸入序列和注意力的頭數(shù)的情況下,首先將輸入序列轉(zhuǎn)換為組不同的序列:查詢序列,鍵序列和值序列。其中,每個(gè)組的維度為。多頭注意過(guò)程如下所示:其中,,是的串聯(lián),是的串聯(lián),是的串聯(lián),是線性變換矩陣。1.1.4Transformer模型其他結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)層在每個(gè)編碼器和解碼器中的自注意力層之后應(yīng)用。它由兩個(gè)線性變換層和一個(gè)非線性激活函數(shù)組成,可以表示為以下公式:其中,和分別是兩個(gè)線性變換層的參數(shù)矩陣,而表示非線性激活函數(shù)。編碼器和解碼器中的殘差網(wǎng)絡(luò)層被添加到編碼器和解碼器中的每個(gè)子層。這樣設(shè)計(jì)的目的是增強(qiáng)信息流,以實(shí)現(xiàn)更高的性能。殘差連接之后進(jìn)行層歸一化操作(layer-normalization),該操作的輸出為:其中,表示自注意力層的輸入序列,為查詢序列,為鍵序列和為值序列,它們都從來(lái)自相同的輸入序列。解碼器中的最終層用于將輸出序列變回一個(gè)單詞。它是通過(guò)一個(gè)線性層,然后是一個(gè)softmax層來(lái)實(shí)現(xiàn)的。線性層將每個(gè)輸出向量投影到具有維度的向量中,其中是詞匯表中的單詞數(shù)。然后,經(jīng)過(guò)softmax層將向量轉(zhuǎn)換為概率。1.2VisionTransformer模型VisionTransformer模型的設(shè)計(jì)靈感來(lái)源于傳統(tǒng)的Transformer模型,該模型的設(shè)計(jì)目的更多是為了解決計(jì)算機(jī)視覺(jué)領(lǐng)域的相關(guān)問(wèn)題,該模型的概述如圖4-3所示。圖4-3VisionTransformer模型結(jié)構(gòu)(圖片來(lái)源于[])首先將圖像數(shù)據(jù)切分為固定大小的圖像塊,也就是將圖像數(shù)據(jù)轉(zhuǎn)化為為一組圖像塊序列,其中是原始圖像的分辨率,是通道數(shù),是每個(gè)圖像塊的分辨率,是所得的圖像塊數(shù)量即輸入序列長(zhǎng)度。接著,線性嵌入每個(gè)圖像塊,由于Transformer模型要求輸入的數(shù)據(jù)維度為,因此VisionTransformer模型對(duì)每一個(gè)圖像塊用一個(gè)可訓(xùn)練的線性映射模塊來(lái)將展平的圖像塊映射為一個(gè)向量,該過(guò)程我們稱其為圖像嵌入(patchesembedding)。在圖像嵌入后,由于圖像本身在進(jìn)行分塊之后是不包含位置信息的,所以添加一個(gè)位置編碼層得到,該層與Transformer模型的位置嵌入層類似。但與傳統(tǒng)的Transformer模型不同的是,為了執(zhí)行分類操作,VisionTransformer模型在序列的起始位置設(shè)計(jì)了一個(gè)可學(xué)習(xí)的“分類向量”。然后將所得的嵌入序列提供給傳統(tǒng)的Transformer編碼器。該序列經(jīng)過(guò)傳統(tǒng)的Transformer編碼器后輸出處圖像的表征。1.3注意力算法下的InsuranceTransformer模型在保險(xiǎn)領(lǐng)域,面對(duì)申請(qǐng)投保人的風(fēng)險(xiǎn)等級(jí)評(píng)估問(wèn)題,傳統(tǒng)的評(píng)估方法已經(jīng)不能夠滿足我們對(duì)風(fēng)險(xiǎn)等級(jí)評(píng)估的需求。傳統(tǒng)的風(fēng)險(xiǎn)等級(jí)評(píng)估在分析隨訪資料時(shí)存在著極大的困難,不能確定所有的隨訪資料都具有真實(shí)性和可靠性。以往申請(qǐng)投保人的風(fēng)險(xiǎn)等級(jí)評(píng)估問(wèn)題的處理方式大多是采用人工進(jìn)行識(shí)別,無(wú)論是人力成本還是時(shí)間成本,代價(jià)都是高昂的。隨著科技發(fā)展,使用精準(zhǔn)且龐大的數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)估無(wú)疑會(huì)極大地提升保險(xiǎn)公司的工作效率、降低保險(xiǎn)公司的人力成本。利用注意力算法在該問(wèn)題上的研究尚且稀缺,故本節(jié)希望對(duì)此研究領(lǐng)域的空缺進(jìn)行補(bǔ)足。由于保險(xiǎn)數(shù)據(jù)具有獨(dú)特的結(jié)構(gòu)與性質(zhì),所以本節(jié)建立注意力算法下專屬于保險(xiǎn)數(shù)據(jù)的模型,并將其命名為InsuranceTransformer模型。首先,模型的輸入信息不再是圖像或文本,而是一組與申請(qǐng)投保人信息有關(guān)的數(shù)據(jù)。故在將這些數(shù)據(jù)進(jìn)行分塊時(shí),分塊的結(jié)果代表單個(gè)的子信息;其次,保險(xiǎn)數(shù)據(jù)的子信息之間的位置信息并不沒(méi)有很強(qiáng)的關(guān)聯(lián)性,即使顛倒其子信息位置后進(jìn)行訓(xùn)練也不會(huì)影響其輸出結(jié)果,故本模型沒(méi)有VisionTransformer模型的位置嵌入層。注意力算法下的InsuranceTransformer模型的結(jié)構(gòu)如圖4-4所示:圖4-4注意力算法下的InsuranceTransformer模型結(jié)構(gòu)針對(duì)每組申請(qǐng)人的投保數(shù)據(jù),我們將數(shù)據(jù)切分為一組子數(shù)據(jù)序列,其中是數(shù)據(jù)的位置,表示子數(shù)據(jù)數(shù)量即輸入序列長(zhǎng)度。由于Transformer的編碼器要求輸入的數(shù)據(jù)維度為,因此本模型用一個(gè)可學(xué)習(xí)的線性映射模塊來(lái)將每一個(gè)子數(shù)據(jù)映射為一個(gè)向量,最終生成的結(jié)果,我們稱這一過(guò)程為數(shù)據(jù)嵌入。除了所有的數(shù)據(jù)嵌入外,我們還在序列的起始位置設(shè)計(jì)了一個(gè)“分類向量”即下式中的(并記),則數(shù)據(jù)嵌入序列可表示為:然后,我們將所得的向量序列提供給Transformer編碼器(如圖4-5所示)。這個(gè)“分類向量”在Transformer編碼器輸出處的狀態(tài)實(shí)際上就是表示數(shù)據(jù)的表征。圖4-5Transformer編碼器結(jié)構(gòu)其中,代表Transformer中的多頭自注意力層,代表多層感知器即前饋神經(jīng)網(wǎng)絡(luò)層,代表殘差網(wǎng)絡(luò)層。表征再經(jīng)過(guò)一個(gè)全連接層是我們求得的分類器結(jié)果,代表著申請(qǐng)投保人風(fēng)險(xiǎn)等級(jí)(風(fēng)險(xiǎn)等級(jí)總共有個(gè)等級(jí))。當(dāng)向量中最大值為第個(gè)數(shù)時(shí),風(fēng)險(xiǎn)等級(jí)便為()。1.4模型實(shí)驗(yàn)及其結(jié)果分析如圖4-6所示,注意力算法下的InsuranceTransformer模型實(shí)驗(yàn)設(shè)計(jì)目的在于:利用含有注意力算法的模型對(duì)保險(xiǎn)數(shù)據(jù)集進(jìn)行分類。換句話說(shuō),本實(shí)驗(yàn)?zāi)康氖菫榱擞?xùn)練一個(gè)分類器。圖4-6模型實(shí)驗(yàn)設(shè)計(jì)目的示意圖本實(shí)驗(yàn)仍采用申請(qǐng)投保人的保險(xiǎn)數(shù)據(jù)作為數(shù)據(jù)集。其中訓(xùn)練集和測(cè)試集均包含59381組投保人信息,每組投保人信息包含132列子信息。1.1.1模型參數(shù)設(shè)置1.3節(jié)中注意力算法下的InsuranceTransformer模型均使用符號(hào)進(jìn)行表示,故本節(jié)中將對(duì)每部分內(nèi)容的具體參數(shù)設(shè)定進(jìn)行詳細(xì)說(shuō)明,如表4-1所示。表4-1InsuranceTransformer模型具體參數(shù)含義及其數(shù)值參數(shù)參數(shù)含義數(shù)值大小num_patches輸入數(shù)據(jù)維度132emb_dim數(shù)據(jù)嵌入層維度28mlp_dim多層感知器維度32num_heads編碼層的每個(gè)子隱藏層使用的注意力頭數(shù)4num_layers編碼層的隱藏模塊數(shù)目4num_classes分類的總數(shù)目8attn_dropout_rate注意力層的隨機(jī)丟棄數(shù)據(jù)比例(防止模型過(guò)擬合參數(shù))0dropout_rate其他層的隨機(jī)丟棄數(shù)據(jù)比例0.1In_dim全連接層輸入向量維數(shù)768feat_heads全連接層的神經(jīng)元數(shù)目12feat_dim全連接層每個(gè)神經(jīng)元維度641.1.2實(shí)驗(yàn)結(jié)果分析將注意力算法下的InsuranceTransformer模型進(jìn)行訓(xùn)練后,該模型對(duì)于測(cè)試集的風(fēng)險(xiǎn)等級(jí)評(píng)估準(zhǔn)確率達(dá)到了99.2%。圖4-7為隨測(cè)試進(jìn)程而變化的模型損失函數(shù)值以及風(fēng)險(xiǎn)等級(jí)評(píng)估準(zhǔn)確率:圖4-7InsuranceTransformer模型的損失函數(shù)值(上)和風(fēng)險(xiǎn)等級(jí)評(píng)估準(zhǔn)確率(下)由此可知,InsuranceTransformer模型在最初時(shí)間段(),模型的預(yù)測(cè)準(zhǔn)確率快速上升至94%,并且模型的損失函數(shù)也從原始的0.14快速下降至0.005。隨后,模型的預(yù)測(cè)準(zhǔn)確率緩慢上升至99.2%,模型的損失函數(shù)也下降至量級(jí)。對(duì)于申請(qǐng)投保人的風(fēng)險(xiǎn)等級(jí)評(píng)估問(wèn)題,我們?cè)陉P(guān)注模型總體正確率的同時(shí)也非常關(guān)注各風(fēng)險(xiǎn)等級(jí)的分類正確率,各風(fēng)險(xiǎn)等級(jí)的分類正確率代表著該模型下對(duì)于不同群體的分類精度。故本實(shí)驗(yàn)也分別求得了低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)的風(fēng)險(xiǎn)等級(jí)評(píng)估準(zhǔn)確率,它們分別是99.0%,99.1%和99.3%(如圖4-8所示)。圖4-8InsuranceTransformer模型的低、中、高風(fēng)險(xiǎn)等級(jí)評(píng)估準(zhǔn)確率(從左至右)除了InsuranceTransformer模型(簡(jiǎn)記為INT模型)的實(shí)驗(yàn)外,本章也對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、支持向量機(jī)(SVM)模型在保險(xiǎn)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。再結(jié)合第三章中傳統(tǒng)的GRU模型和注意力算法下的GRU模型,各模型在保險(xiǎn)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果如表4-2所示。表4-2各模型在保險(xiǎn)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果比對(duì)模型名稱總體預(yù)測(cè)準(zhǔn)確率低風(fēng)險(xiǎn)準(zhǔn)確率中風(fēng)險(xiǎn)準(zhǔn)確率高風(fēng)險(xiǎn)準(zhǔn)確率SVM95.7%95.3%95.5%95.8%CNN96.4%96.4%96.0%96.5%RNN97.8%98.0%97.5%97.9%GRU97.9%98.1%97.5%98.0%注意力算法下的GRU98.8%99.1%98.5%98.9%INT99.2%99.0%99.1%99.3%由表4-2可知,各類模型在申請(qǐng)投保人的風(fēng)險(xiǎn)等級(jí)評(píng)估任務(wù)中的總體預(yù)測(cè)準(zhǔn)確率從低至高的排序?yàn)椋篠VM模型、CNN模型、RNN模型、GRU模型、注意算法下的GRU模型、InsuranceTransformer模型。在保險(xiǎn)數(shù)據(jù)集低風(fēng)險(xiǎn)類別中,模型預(yù)測(cè)準(zhǔn)確率最低的是SVM模型,最高的是注意力算法下的GRU模型;在保險(xiǎn)數(shù)據(jù)集中風(fēng)險(xiǎn)類別中,模型預(yù)測(cè)準(zhǔn)確率最低的是SVM模型,最高的是InsuranceTransformer模型;在保險(xiǎn)數(shù)據(jù)集高風(fēng)險(xiǎn)類別中,模型預(yù)測(cè)準(zhǔn)確率最低的是SVM模型,最高的是InsuranceTransformer模型。綜上所述,本實(shí)驗(yàn)結(jié)果表明InsuranceTransformer模型的訓(xùn)練效果優(yōu)于其他模型,注意力算法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年智能車載駕駛員監(jiān)控系統(tǒng)項(xiàng)目公司成立分析報(bào)告
- 2026年智能顯微鏡項(xiàng)目可行性研究報(bào)告
- 《GAT 2044-2023法庭科學(xué) 疑似止咳水中可待因檢驗(yàn) 液相色譜和液相色譜-質(zhì)譜法》專題研究報(bào)告
- 《GAT 2000.168-2018公安信息代碼 第168部分:公安機(jī)關(guān)工作崗位類別代碼》專題研究報(bào)告
- 文明安全班會(huì)課課件
- 社會(huì)安全防范課件
- 代碼質(zhì)量自動(dòng)化監(jiān)控方法
- 人工智能基礎(chǔ)技術(shù)解析與應(yīng)用
- 幼兒院幼兒教育與家長(zhǎng)溝通合作制度
- DDoS防御方案課程設(shè)計(jì)
- 廣東省深圳市龍崗區(qū)2024-2025學(xué)年二年級(jí)上學(xué)期學(xué)科素養(yǎng)期末綜合數(shù)學(xué)試卷(含答案)
- 晝夜明暗圖課件
- 臨床成人吞咽障礙患者口服給藥護(hù)理
- 兒童呼吸道合胞病毒感染診斷治療和預(yù)防專家共識(shí) 4
- 雨課堂在線學(xué)堂《大數(shù)據(jù)技術(shù)與應(yīng)用》作業(yè)單元考核答案
- 全國(guó)計(jì)算機(jī)等級(jí)考試一級(jí)WPS Office真題題庫(kù)及答案
- 養(yǎng)牛場(chǎng)消防知識(shí)培訓(xùn)
- 義警法律知識(shí)培訓(xùn)總結(jié)課件
- 實(shí)施指南(2025)《DZT 0462.5-2023 礦產(chǎn)資源“三率”指標(biāo)要求 第 5 部分:金、銀、鈮、鉭、鋰、鋯、鍶、稀土、鍺》解讀
- 棉塵安全培訓(xùn)課件
- 梯子作業(yè)安全培訓(xùn)效果課件
評(píng)論
0/150
提交評(píng)論