版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(12)發(fā)明專利地址223003江蘇省淮安市經(jīng)濟(jì)技術(shù)開發(fā)(72)發(fā)明人高尚兵張駿強(qiáng)蘇睿王媛媛張海艷馬甲林張正偉朱全銀蔡利榮陳曉兵審查員何誠(普通合伙)32204基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工本發(fā)明公開一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)對(duì)圖神經(jīng)網(wǎng)絡(luò)教師模型以及Transformer學(xué)生模過指標(biāo)函數(shù)與門控單元對(duì)教師模型輸出進(jìn)行篩圖神經(jīng)網(wǎng)絡(luò)MixupDrop21.一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法,其特征在于,包括以下步驟:(1)輸入原始化工產(chǎn)品語料集,對(duì)語料集中的化工產(chǎn)品文本樣本進(jìn)行數(shù)據(jù)清洗以及預(yù)處理;(2)基于從原始化工產(chǎn)品語料集中按照預(yù)設(shè)比例隨機(jī)抽取的各化工產(chǎn)品樣本文本,以及各化工產(chǎn)品樣本文本分別對(duì)應(yīng)預(yù)設(shè)分類下的相應(yīng)真實(shí)類別,以化工產(chǎn)品樣本文本為輸入,化工產(chǎn)品樣本文本所對(duì)應(yīng)預(yù)設(shè)分類下相應(yīng)類別為輸出,同時(shí)對(duì)圖神經(jīng)網(wǎng)絡(luò)教師模型以及Transformer學(xué)生模型進(jìn)行初始訓(xùn)練,獲得可以加載訓(xùn)練得到的初始權(quán)重的教師模型與學(xué)生模型;(3)基于原始化工產(chǎn)品語料集中的化工產(chǎn)品樣本文本,進(jìn)行一階段相互學(xué)習(xí)蒸餾知識(shí)訓(xùn)練,將樣本文本按照預(yù)設(shè)批次數(shù)量輸入加載了初始權(quán)重的教師模型,教師模型輸出對(duì)應(yīng)文本表示R。將文本表示R輸入教師分類器中輸出獲得文本樣本的預(yù)測結(jié)果P;(4)通過預(yù)設(shè)指標(biāo)函數(shù)對(duì)預(yù)測結(jié)果P進(jìn)行指標(biāo)評(píng)分,將獲得的分?jǐn)?shù)f?輸入門控單元中,根據(jù)門控單元的預(yù)設(shè)閾值函數(shù)進(jìn)行篩選,若閾值函數(shù)輸出非零,則將教師模型輸出的該文本表示R!作為教師模型logits的有效輸出,通過第一蒸餾損失函數(shù)對(duì)學(xué)生模型進(jìn)行蒸餾訓(xùn)練指導(dǎo);否則對(duì)教師模型輸出的文本表示RT進(jìn)行數(shù)據(jù)增強(qiáng),將文本表示R與根據(jù)預(yù)設(shè)的dropout參數(shù)進(jìn)行dropout操作后得到的教師模型輸出的文本表示R進(jìn)行Mixup操作,獲得數(shù)據(jù)增強(qiáng)后的文本表示RBA;(5)將文本表示RBA與原始文本表示R!進(jìn)行殘差疊加作為教師模型輸出的logits,通過預(yù)設(shè)第一蒸餾損失函數(shù)對(duì)學(xué)生模型進(jìn)行蒸餾訓(xùn)練指導(dǎo);(6)基于原始化工產(chǎn)品語料集中的化工產(chǎn)品樣本文本,進(jìn)行二階段相互學(xué)習(xí)知識(shí)蒸餾訓(xùn)練,將樣本文本按照預(yù)設(shè)批次數(shù)量輸入加載了初始權(quán)重的學(xué)生模型,學(xué)生模型輸出對(duì)應(yīng)文本表示R,將文本表示R輸入學(xué)生分類器中輸出獲得文本樣本的預(yù)測結(jié)果P;(7)通過預(yù)設(shè)指標(biāo)函數(shù)對(duì)預(yù)測結(jié)果P進(jìn)行指標(biāo)評(píng)分,將獲得的分?jǐn)?shù)f?輸入門控單元中,根據(jù)門控單元的預(yù)設(shè)閾值函數(shù)進(jìn)行篩選,若閾值函數(shù)輸出非零,則將學(xué)生模型輸出的該文本表示R作為學(xué)生模型logits的有效輸出,通過第二蒸餾損失函數(shù)對(duì)教師模型進(jìn)行蒸餾訓(xùn)練指導(dǎo),否則對(duì)學(xué)生模型輸出的文本表示R進(jìn)行數(shù)據(jù)增強(qiáng),將文本表示與根據(jù)預(yù)設(shè)的dropout參數(shù)進(jìn)行dropout操作后得到的學(xué)生模型輸出的文本表示R進(jìn)行Mixup操作,獲得數(shù)據(jù)增強(qiáng)后的文本表示RSA;(8)將文本表示RSA與原始文本表示R。進(jìn)行殘差疊加作為學(xué)生模型輸出的logits,通過預(yù)設(shè)第二蒸餾損失函數(shù)對(duì)教師模型進(jìn)行蒸餾訓(xùn)練指導(dǎo);(9)循環(huán)執(zhí)行上述一階段和二階段相互學(xué)習(xí)知識(shí)蒸餾訓(xùn)練,直到達(dá)到預(yù)設(shè)的訓(xùn)練輪數(shù),輸出知識(shí)蒸餾訓(xùn)練好的學(xué)生模型;將化工產(chǎn)品文本樣本輸入學(xué)生模型,獲得預(yù)測輸出文本類別。2.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法,其特征在于,步驟(4)和步驟(7)所述預(yù)設(shè)指標(biāo)函數(shù)為F1-score生成函數(shù)。3.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方3法,其特征在于,步驟(4)和步驟(7)所述門控單元的預(yù)設(shè)閾值函數(shù)具體公式如下:其中,f表示通過預(yù)設(shè)指標(biāo)函數(shù)生成的指標(biāo)評(píng)分,δ表示預(yù)設(shè)閾值上下浮動(dòng)超參數(shù),ε表示基礎(chǔ)評(píng)判評(píng)分,F(xiàn)?和F?分別表示初始權(quán)重加載到對(duì)應(yīng)模型上預(yù)測生成的宏平均F1-score指標(biāo)和微平均F1-score指標(biāo),λ表示調(diào)整兩個(gè)指標(biāo)之間權(quán)重的超參數(shù)。4.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方5.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法,其特征在于,步驟(4)和步驟(7)所述根據(jù)預(yù)設(shè)的dropout參數(shù)進(jìn)行dropout操作,具體公式如下:其中,dropout操作使得神經(jīng)網(wǎng)絡(luò)隨機(jī)失活比例取值初始化范圍為Dinit,表示失活神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)占全部神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的比重,初始化后每一組文本表示的dropout操作參數(shù)為D,t表示歸一化縮放超參數(shù),tanh表示歸一化函數(shù)。6.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方7.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法,其特征在于,步驟(5)指導(dǎo)學(xué)生模型訓(xùn)練的預(yù)設(shè)第一蒸餾損失函數(shù)L公式為:其中,LSB表示學(xué)生模型訓(xùn)練過程中根據(jù)化工產(chǎn)品樣本文本訓(xùn)練輸出的預(yù)測類別與真實(shí)類別label之間的交叉熵?fù)p失函數(shù);LSM表示用于相互學(xué)習(xí)損失計(jì)算的KL散度函數(shù),γ代表控制不同損失之間權(quán)重的超參數(shù),Z表示門控單元的預(yù)設(shè)閾值函數(shù)輸出結(jié)果。8.根據(jù)權(quán)利要求1所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法與裝置,其特征在于,步驟(8)指導(dǎo)教師模型訓(xùn)練的預(yù)設(shè)第二蒸餾損失函數(shù)L公式為:4其中,Le表示教師模型訓(xùn)練過程中根據(jù)化工產(chǎn)品樣本文本訓(xùn)練輸出的預(yù)測類別與真實(shí)類別label之間的交叉熵?fù)p失函數(shù);LM表示用于相互學(xué)習(xí)損失計(jì)算的KL散度函數(shù),a代表控制不同損失之間權(quán)重的超參數(shù),Z表示門控單元的預(yù)設(shè)閾值函數(shù)輸出結(jié)果。9.一種采用如權(quán)利要求1-8任一所述方法的基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被加載至處理器時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-8任一項(xiàng)所述的一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法。5技術(shù)領(lǐng)域[0001]本發(fā)明屬于自然語言文本處理技術(shù)領(lǐng)域,具體涉及一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法及裝置。背景技術(shù)[0002]隨著深度學(xué)習(xí)模型訓(xùn)練技術(shù)的發(fā)展,模型參數(shù)量以億為單位驟增,然而受限于實(shí)際使用環(huán)境的軟硬件以及經(jīng)濟(jì)成本限制,很多大型模型難以被真正應(yīng)用在現(xiàn)實(shí)生活中,知識(shí)蒸餾技術(shù)的出現(xiàn)很好地緩解了這個(gè)問題。[0003]知識(shí)蒸餾技術(shù)可以將大型模型的優(yōu)越性能傳遞給輕量級(jí)模型,但是由于化工領(lǐng)域的特殊背景很多文本無法被有效挖掘并制作成數(shù)據(jù)集,因此使得模型無法被有效訓(xùn)練,最終也很難獲得可以應(yīng)用在化工領(lǐng)域的模型。[0004]面對(duì)這個(gè)問題,通常可以采取數(shù)據(jù)增強(qiáng)來擴(kuò)充數(shù)據(jù)集,如今主流的數(shù)據(jù)增強(qiáng)方法且這些方法通常都不針對(duì)具體的自然語言處理任務(wù),通用性很強(qiáng),但是并沒有針對(duì)知識(shí)蒸餾任務(wù)進(jìn)行專門構(gòu)建。[0005]因此,針對(duì)應(yīng)用在化工文本領(lǐng)域的大參數(shù)量文本分類模型知識(shí)蒸餾任務(wù),亟需一種與知識(shí)蒸餾過程結(jié)合更為緊密的數(shù)據(jù)增強(qiáng)方法來提升學(xué)生模型文本分類性能。發(fā)明內(nèi)容[0006]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是提供一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方法及裝置,有效考慮到化工領(lǐng)域文本數(shù)據(jù)挖掘困難進(jìn)而導(dǎo)致模型訓(xùn)練樣本少,知識(shí)蒸餾得到的學(xué)生模型性能提升較小的問題,有效提升學(xué)生模型分類精度。[0007]技術(shù)方案:本發(fā)明提出一種基于Gate-Mixup數(shù)據(jù)增強(qiáng)的知識(shí)蒸餾化工文本分類方[0008](1)輸入原始化工產(chǎn)品語料集,對(duì)語料集中的化工產(chǎn)品文本樣本進(jìn)行數(shù)據(jù)清洗以[0009](2)基于從原始化工產(chǎn)品語料集中按照預(yù)設(shè)比例隨機(jī)抽取的各化工產(chǎn)品樣本文本,以及各化工產(chǎn)品樣本文本分別對(duì)應(yīng)預(yù)設(shè)分類下的相應(yīng)真實(shí)類別,以化工產(chǎn)品樣本文本為輸入,化工產(chǎn)品樣本文本所對(duì)應(yīng)預(yù)設(shè)分類下相應(yīng)類別為輸出,同時(shí)對(duì)圖神經(jīng)網(wǎng)絡(luò)教師模型以及Transformer學(xué)生模型進(jìn)行初始訓(xùn)練,獲得可以加載訓(xùn)練得到的初始權(quán)重的教師模型與學(xué)生模型;[0010](3)基于原始化工產(chǎn)品語料集中的化工產(chǎn)品樣本文本,進(jìn)行一階段相互學(xué)習(xí)蒸餾知識(shí)訓(xùn)練,將樣本文本按照預(yù)設(shè)批次數(shù)量輸入加載了初始權(quán)重的教師模型,教師模型輸出對(duì)應(yīng)文本表示R!,將文本表示R。輸入教師分類器中輸出獲得文本樣本的預(yù)測結(jié)果P。;[0011](4)通過預(yù)設(shè)指標(biāo)函數(shù)對(duì)預(yù)測結(jié)果P進(jìn)行指標(biāo)評(píng)分,將獲得的分?jǐn)?shù)f?輸入門控單6的dropout參數(shù)進(jìn)行dropout操作后得到的教師模型輸蒸餾訓(xùn)練,將樣本文本按照預(yù)設(shè)批次數(shù)量輸入加載了初始權(quán)重的學(xué)生模型,學(xué)生對(duì)應(yīng)文本表示Rδ,將文本表示R輸入學(xué)生分類器中輸出獲得文本樣本的預(yù)測結(jié)果P;訓(xùn)練指導(dǎo),否則對(duì)學(xué)生模型輸出的文本表示R進(jìn)行數(shù)據(jù)增強(qiáng),將文本表示與根據(jù)預(yù)設(shè)的ε表示基礎(chǔ)評(píng)判評(píng)分,F(xiàn)?和F?分別表示初始權(quán)重加載到對(duì)應(yīng)模型上預(yù)測生成的宏平均F1-7神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)占全部神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的比重,初始化后每一組文本表示的dropout操作[0035]其中,L表示學(xué)生模型訓(xùn)練過程中根據(jù)化工產(chǎn)品樣本文本訓(xùn)練輸出的預(yù)測類別[0038]其中,L表示教師模型訓(xùn)練過程中根據(jù)化工產(chǎn)品樣本文本訓(xùn)練輸出的預(yù)測類別[0042]3、本發(fā)明考慮傳統(tǒng)知識(shí)蒸餾方法簡單的單一教師學(xué)生模型無法充分利用到模型8經(jīng)網(wǎng)絡(luò)教師模型和Transformer學(xué)生模型可以充分學(xué)習(xí)彼此模型結(jié)構(gòu)差異,同時(shí)本發(fā)明構(gòu)建的學(xué)生模型僅為單層Transformer模型,相比較于傳統(tǒng)知識(shí)蒸餾方法中的多層附圖說明[0047]步驟2:基于從原始化工產(chǎn)品語料集中按照預(yù)設(shè)比例隨機(jī)抽取的各化工產(chǎn)品樣本模型以及Transformer學(xué)生模型進(jìn)行初始訓(xùn)練,獲得可以加載訓(xùn)練得到的初始權(quán)重的教師score生成函數(shù);將獲得的分?jǐn)?shù)f?輸入門控單元中,根據(jù)門控單元的預(yù)設(shè)閾值函數(shù)進(jìn)行篩表示R!進(jìn)行數(shù)據(jù)增強(qiáng),將文本表示R與根據(jù)預(yù)設(shè)的dropout參數(shù)進(jìn)行dropout操作后得到ε表示基礎(chǔ)評(píng)判評(píng)分,F(xiàn)?和F?分別表示初始權(quán)重加載到對(duì)應(yīng)模型上預(yù)測生成的宏平均F1-9[0057]其中,μ表示從β分布獲得的Mixup插值混合超參數(shù),x代表輸入對(duì)應(yīng)經(jīng)過dropout操作后的教師模型Modeldropo的化工產(chǎn)品文本樣本。[0058]實(shí)際應(yīng)用當(dāng)中,根據(jù)預(yù)設(shè)的dropout參數(shù)進(jìn)行dropout操作,其中dropout操作具體公式如下:[0061]其中,dropout操作使得神經(jīng)網(wǎng)絡(luò)隨機(jī)失活比例取值初始化范圍為Dinit,表示失活神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)占全部神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的比重,初始化后每一組文本表示的dropout操作參數(shù)為D,t表示歸一化縮放超參數(shù),tanh表示歸一化函數(shù)。logits,通過預(yù)設(shè)第一蒸餾損失函數(shù)對(duì)學(xué)生模型進(jìn)行蒸餾訓(xùn)練指導(dǎo)。[0063]殘差疊加公式為:[0065]其中,R?表示教師模型1ogits的有效輸出。[0066]實(shí)際應(yīng)用當(dāng)中,指導(dǎo)學(xué)生模型訓(xùn)練的預(yù)設(shè)第一蒸餾損失函數(shù)L公式為:[0068]其中,L表示學(xué)生模型訓(xùn)練過程中根據(jù)化工產(chǎn)品樣本文本訓(xùn)練輸出的預(yù)測類別與真實(shí)類別labels之間的交叉熵?fù)p失函數(shù);LM表示用于相互學(xué)習(xí)損失計(jì)算的KL散度函數(shù),γ代表控制不同損失之間權(quán)重的超參數(shù),Z表示門控單元的預(yù)設(shè)閾值函數(shù)輸出結(jié)果。[0069]步驟6:基于原始化工產(chǎn)品語料集中的化工產(chǎn)品樣本文本,進(jìn)行二階段相互學(xué)習(xí)知識(shí)蒸餾訓(xùn)練,將樣本文本按照預(yù)設(shè)批次數(shù)量輸入加載了初始權(quán)重的學(xué)生模型,學(xué)生模型輸出對(duì)應(yīng)文本表示R。,將文本表示R輸入學(xué)生分類器中輸出獲得文本樣本的預(yù)測結(jié)果P。[0070]步驟7:通過預(yù)設(shè)指標(biāo)函數(shù)對(duì)預(yù)測結(jié)果P進(jìn)行指標(biāo)評(píng)分,將獲得的分?jǐn)?shù)f?輸入門控單元中,根據(jù)門控單元的預(yù)設(shè)閾值函數(shù)進(jìn)行篩選,若閾值函數(shù)輸出非零,則將學(xué)生模型輸出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒科護(hù)理護(hù)理技術(shù)操作要領(lǐng)
- 皮膚病診療規(guī)范解讀
- 2026年呼倫貝爾職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試備考試題帶答案解析
- 2026年廣西國際商務(wù)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試參考題庫有答案解析
- 2026年廣東茂名幼兒師范??茖W(xué)校高職單招職業(yè)適應(yīng)性考試備考題庫有答案解析
- 醫(yī)院呼吸科診療服務(wù)禮儀
- 2026年保定理工學(xué)院單招綜合素質(zhì)筆試模擬試題帶答案解析
- 2026年哈爾濱電力職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試備考試題帶答案解析
- 2026年河南信息統(tǒng)計(jì)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試參考題庫帶答案解析
- 心臟病診斷與治療新進(jìn)展
- 三年級(jí)上勞動(dòng)試卷及答案
- 2025年中國不干膠標(biāo)簽項(xiàng)目投資可行性研究報(bào)告
- 北京市西城區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末考試數(shù)學(xué)試題【含答案】
- (一模)新疆維吾爾自治區(qū)2025年普通高考第一次適應(yīng)性檢測 英語試卷(含答案)
- 磷化基礎(chǔ)知識(shí)
- 《結(jié)直腸癌教學(xué)》課件
- 三兄弟分田地宅基地協(xié)議書范文
- 地磅施工合同協(xié)議書
- 華萊士加盟合同范本
- LYT 2085-2013 森林火災(zāi)損失評(píng)估技術(shù)規(guī)范
- 材料樣品確認(rèn)單
評(píng)論
0/150
提交評(píng)論