CN114529351B 一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)(上海微盟企業(yè)發(fā)展有限公司)_第1頁
CN114529351B 一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)(上海微盟企業(yè)發(fā)展有限公司)_第2頁
CN114529351B 一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)(上海微盟企業(yè)發(fā)展有限公司)_第3頁
CN114529351B 一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)(上海微盟企業(yè)發(fā)展有限公司)_第4頁
CN114529351B 一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)(上海微盟企業(yè)發(fā)展有限公司)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(72)發(fā)明人薛睿蓉王成陳承澤公司11227審查員劉新雨介質(zhì)本申請公開了一種商品類目預(yù)測方法、裝與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測2將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測;所述將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理之前,還包括:獲取第三方商品信息及對應(yīng)商品類目;通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,以利用清洗后的數(shù)據(jù)對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào);所述通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,包括:分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)利用訓(xùn)練后的分類器對對應(yīng)的第三方商品信息的商品類目進(jìn)行預(yù)測,并將置信度小于第一預(yù)設(shè)閾值的第三方商品信息進(jìn)行刪除。2.根據(jù)權(quán)利要求1所述的商品類目預(yù)測方法,其特征在于,所述分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練之前,還包括:將第三方商品信息及對應(yīng)商品類目劃分為訓(xùn)練集、測試集和驗證集,并從所述訓(xùn)練集中篩選第三方商品信息以對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練。3.根據(jù)權(quán)利要求1所述的商品類目預(yù)測方法,其特征在于,還包括:通過五折交叉驗證的方式對每種商品類目的訓(xùn)練后的分類器進(jìn)行模型效果驗證。4.根據(jù)權(quán)利要求1所述的商品類目預(yù)測方法,其特征在于,所述通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,包括:利用查詢函數(shù)對第三方商品信息按照商品類目種類進(jìn)行樣本劃分,分別得到與每種商品類目對應(yīng)的正樣本和負(fù)樣本;其中,所述正樣本中包含商品類目一致且為對應(yīng)種類的第三方商品信息,所述負(fù)樣本包含商品類目為其他種類的第三方商品信息;分別利用所述正樣本和所述負(fù)樣本對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練,并將訓(xùn)練過程中所述負(fù)樣本中置信度大于第二預(yù)設(shè)閾值的第三方商品信息移入所述正樣本繼續(xù)訓(xùn)練直至分類器收斂。5.根據(jù)權(quán)利要求1至4任一項所述的商品類目預(yù)測方法,其特征在于,所述對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計,包括:從所述預(yù)設(shè)商品信息中確定出采樣商品信息,并對所述采樣商品信息的商品類目進(jìn)行校驗,以對校驗后的所述采樣商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計。預(yù)處理模塊,用于將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;分布對齊模塊,用于對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)3的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;第一微調(diào)模塊,用于利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)其中,所述將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理之前,還包括:獲取第三方商品信息及對應(yīng)商品類目;通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,以利用清洗后的數(shù)據(jù)對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào);所述通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,包括:分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)利用訓(xùn)練后的分類器對對應(yīng)的第三方商品信息的商品類目進(jìn)行預(yù)測,并將置信度小于第一預(yù)設(shè)閾值的第三方商品信息進(jìn)行刪除。7.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括處理器和存儲器;其中所述存儲器用于存儲計算機(jī)程序,所述計算機(jī)程序由所述處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1至5任一項所述的商品類目預(yù)測方法。8.一種計算機(jī)可讀存儲介質(zhì),其特征在于,用于存儲計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令被處理器加載并執(zhí)行時,實現(xiàn)如權(quán)利要求1至5任一項所述的商品類目預(yù)測方法。4技術(shù)領(lǐng)域[0001]本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別涉及一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)。背景技術(shù)[0002]大數(shù)據(jù)無處不在,特別是在迅速發(fā)展的電商平臺,數(shù)據(jù)維護(hù)顯得尤為重要。其中,大量的商品類目是治理的重中之重,由于每個電商平臺都設(shè)置有自己獨特的商品類目,如何根據(jù)不同平臺自適應(yīng)的對所有商品進(jìn)行類目整理和多級類目梳理是提高平臺競爭力和在一起,然而商品的類目標(biāo)注較為復(fù)雜,人工標(biāo)注成本較高且效率較低,同時也無法保證正[0003]因此,如何提供一種高效且準(zhǔn)確的商品類目預(yù)測方法是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。發(fā)明內(nèi)容[0004]有鑒于此,本發(fā)明的目的在于提供一種商品類目預(yù)測方法、裝置、設(shè)備及存儲介質(zhì),能夠避免大量人工標(biāo)注過程,提高商品類目預(yù)[0005]本申請的第一方面提供了一種商品類目預(yù)測方法,包括:[0006]將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;[0007]對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;[0008]利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測。[0010]獲取第三方商品信息及對應(yīng)商品類目;[0011]通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,以利用清洗后的數(shù)據(jù)對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)。[0012]可選的,所述通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清[0013]分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練;[0014]利用訓(xùn)練后的分類器對對應(yīng)的第三方商品信息的商品類目進(jìn)行預(yù)測,并將置信度小于第一預(yù)設(shè)閾值的第三方商品信息進(jìn)行刪除。[0015]可選的,所述分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目5[0016]將第三方商品信息及對應(yīng)商品類目劃分為訓(xùn)練集、測試集和驗證集,并從所述訓(xùn)練集中篩選第三方商品信息以對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練。[0018]通過五折交叉驗證的方式對每種商品類目的訓(xùn)練后的分類器進(jìn)行模型效果驗證。[0019]可選的,所述通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清[0020]利用查詢函數(shù)對第三方商品信息按照商品類目種類進(jìn)行樣本劃分,分別得到與每種商品類目對應(yīng)的正樣本和負(fù)樣本;其中,所述正樣本中包含商品類目一致且為對應(yīng)種類的第三方商品信息,所述負(fù)樣本包含商品類目為其他種類的第三方商品信息;[0021]分別利用所述正樣本和所述負(fù)樣本對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練,并將訓(xùn)練過程中所述負(fù)樣本中置信度大于第二預(yù)設(shè)閾值的第三方商品信息移入所述正樣本繼續(xù)訓(xùn)練直至分類器收斂。[0023]從所述預(yù)設(shè)商品信息中確定出采樣商品信息,并對所述采樣商品信息的商品類目進(jìn)行校驗,以對校驗后的所述采樣商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計。[0024]本申請的第二方面提供了一種商品類目預(yù)測裝置,包括:[0025]預(yù)處理模塊,用于將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;[0026]分布對齊模塊,用于對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;[0027]第一微調(diào)模塊,用于利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行[0028]本申請的第三方面提供了一種電子設(shè)備,所述電子設(shè)備包括處理器和存儲器;其中所述存儲器用于存儲計算機(jī)程序,所述計算機(jī)程序由所述處理器加載并執(zhí)行以實現(xiàn)前述商品類目預(yù)測方法。[0029]本申請的第四方面提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令被處理器加載并執(zhí)行時,實現(xiàn)前述商品類目預(yù)測方法。[0030]本申請中,先將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;然后對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;最后利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測??梢?,本申請將大規(guī)模的語料訓(xùn)練出來的預(yù)訓(xùn)練模型遷移至目標(biāo)預(yù)測模型,也即商品類目信息遷移至所述目標(biāo)預(yù)測模型中,避免大量人工標(biāo)注過程,提高商品類目預(yù)測效率和準(zhǔn)確率。6附圖說明[0031]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。[0032]圖1為本申請?zhí)峁┑囊环N商品類目預(yù)測方法流程圖;[0033]圖2為本申請?zhí)峁┑囊环N具體的商品類目預(yù)測方法示意圖;[0034]圖3為本申請?zhí)峁┑囊环N具體的數(shù)據(jù)清洗過程圖;[0035]圖4為本申請?zhí)峁┑囊环N商品類目預(yù)測裝置結(jié)構(gòu)示意圖;[0036]圖5為本申請?zhí)峁┑囊环N商品類目預(yù)測電子設(shè)備結(jié)構(gòu)圖。具體實施方式[0037]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他商品的類目標(biāo)注較為復(fù)雜,人工標(biāo)注成本較高且效率較低,同時也無法保證正確率。針對上述技術(shù)缺陷,本申請?zhí)峁┮环N商品類目預(yù)測方案,能夠避免大量人工標(biāo)注過程,提高商品類目預(yù)測效率和準(zhǔn)確率。[0039]圖1為本申請實施例提供的一種商品類目預(yù)測方法流程圖。參見圖1所示,該商品類目預(yù)測方法包括:[0040]S11:將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型。[0041]本實施例中,將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目。所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型。具體的,所述預(yù)訓(xùn)練模型(PTM)指的是利用大量在人們生活中出現(xiàn)過的文本來訓(xùn)練,使模型在這些文本中學(xué)習(xí)到每一個詞或字出現(xiàn)的概率分布,以此來建模出符合這些文本分布的模型。語言模型的語料的標(biāo)簽就是它的上下文,這就決定了幾乎可以無限制地利用大規(guī)模的語料來訓(xùn)練語言模型,這些大規(guī)模的預(yù)料,使所述預(yù)訓(xùn)練模型得以獲得強(qiáng)大的能力,通過所述預(yù)訓(xùn)練模型也即利用大規(guī)模的語料訓(xùn)練出來的語言模型,讓下游的類目治理任務(wù)展現(xiàn)出[0042]進(jìn)一步的,為了保證遷移效果,利用現(xiàn)有開源的、在大規(guī)模公開語料上訓(xùn)練出來的所述預(yù)訓(xùn)練模型外,還需要在第三方公開商品類目數(shù)據(jù)上對所述預(yù)訓(xùn)練模型進(jìn)行微調(diào)(finetune)。微調(diào)就是指將預(yù)訓(xùn)練過的模型作用于自己的數(shù)據(jù)集,并使參數(shù)適應(yīng)自己數(shù)據(jù)集的過程。具體的,本實施例先獲取第三方商品信息及對應(yīng)商品類目,然后通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)清洗,以利用清洗后的數(shù)據(jù)對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)。由于公開語料存在標(biāo)注不一致、商品名稱歧義等常見NLP問題。上述過程在獲取到第三方數(shù)據(jù)后先利用主動學(xué)習(xí)的思想對標(biāo)注語料進(jìn)行清理。7[0043]本實施例中的數(shù)據(jù)清洗有兩種方案。在一種實施例中,先將第三方商品信息及對應(yīng)商品類目劃分為訓(xùn)練集、測試集和驗證集,也即拆分?jǐn)?shù)據(jù)集為train、test、valid,其中valid固定不變,train、test根據(jù)方案圈選。并從所述訓(xùn)練集中篩選第三方商品信息以對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練。然后分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練;最后利用訓(xùn)練后的分類器對對應(yīng)的第三方商品信息的商品類目進(jìn)行預(yù)測,并將置信度小于第一預(yù)設(shè)閾值的第三方商品信息進(jìn)行刪除。通過主動學(xué)習(xí),將模型訓(xùn)練中的不置信樣本剔除,對模型打標(biāo)后的商品類目進(jìn)行不斷迭代,從而提升商品類目預(yù)測準(zhǔn)確率。[0044]另外,為了保證清洗效果,還可以通過五折交叉驗證的方式對每種商品類目的訓(xùn)練后的分類器進(jìn)行模型效果驗證。五折交叉驗證也即將有標(biāo)注的數(shù)據(jù)拆分成五份,每一份輪流作為驗證集,剩余四份作為訓(xùn)練集。用訓(xùn)練集訓(xùn)練模型、驗證集觀測模型預(yù)測效果。觀測五份驗證集的效果,往往會比一份結(jié)果更能充分說明模型的真實效果。[0045]在另一種實施例中,先利用查詢函數(shù)對第三方商品信息按照商品類目種類進(jìn)行樣Function)為主動學(xué)習(xí)中的查詢函數(shù)。機(jī)器學(xué)習(xí)模型的更新的過程為:通過增量學(xué)習(xí)或者重新學(xué)習(xí)的方式更新模型,從而將人工標(biāo)注的數(shù)據(jù)融入機(jī)器學(xué)習(xí)模型中,提升模型效果。其中,所述正樣本中包含商品類目一致且為對應(yīng)種類的第三方商品信息,所述負(fù)樣本包含商品類目為其他種類的第三方商品信息。然后分別利用所述正樣本和所述負(fù)樣本對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練,并將訓(xùn)練過程中所述負(fù)樣本中置信度大于第二預(yù)設(shè)閾值的第三方商品信息移入所述正樣本繼續(xù)訓(xùn)練直至分類器收斂。也即,首先隨機(jī)挑選正樣本P(Positive),然后從剩余數(shù)據(jù)中挑選少量數(shù)據(jù)U(Unlabelled),作為負(fù)樣本。接著訓(xùn)練分類器預(yù)測沒有被選中的U,將置信度較高的加入P,剩余的數(shù)據(jù)繼續(xù)放入U中。重復(fù)上述過程多[0046]S12:對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理。[0047]本實施例中,對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理。為了提高處理效率,只需對小部分商品信息及類目進(jìn)行分布統(tǒng)計,因此,在此之前,對所有商品類目數(shù)據(jù)隨機(jī)采樣一小部分,并對這部分?jǐn)?shù)據(jù)進(jìn)行人工校驗,僅統(tǒng)計經(jīng)人工校驗后的類目分布。根據(jù)該分布,對所有商品數(shù)據(jù)進(jìn)行分布對齊。具體來說,從所述預(yù)設(shè)商品信息中確定出采樣商品信息,并對所述采樣商品信息的商品類目進(jìn)行校驗,以對校驗后的所述采樣商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計??梢岳斫?,采樣也即抽取一部分?jǐn)?shù)據(jù)。往往是因為全局?jǐn)?shù)據(jù)量太大超出人工或者機(jī)器計算能力,需要抽取一部分?jǐn)?shù)據(jù)出來用于人工標(biāo)記或者模型據(jù)量往往根據(jù)類目數(shù)量和人工量確定,本實施例對此不進(jìn)行限定。[0048]需要說明的是,分布對齊指的是將待對齊的數(shù)據(jù)每個類目縮減后類目分布和期望分布近似。但在實際操作中,由于商品類目分布具有長尾性,而數(shù)據(jù)量過少的類目不利于模[0049]S13:利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到8目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測。[0050]本實施例中,利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測。該過程也即用對齊后的數(shù)據(jù)重新微調(diào)預(yù)訓(xùn)練語言模型,重復(fù)以上步驟,直至收斂。至此,遷移學(xué)習(xí)完成,將人工成本降到最低,不需要大量人工直接對本方數(shù)據(jù)進(jìn)行標(biāo)注,且能將模型效果較好的遷移到本方數(shù)據(jù)中??梢粤呀猓w移學(xué)習(xí)就是把已學(xué)訓(xùn)練好的模型參數(shù)遷移到新的模型來幫助新模型訓(xùn)練??紤]到大部分?jǐn)?shù)據(jù)或任務(wù)是存在相關(guān)性的,所以通過遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型參數(shù)(也可理解為模型學(xué)到的知識)通過某種方式來分享給新模型從而加快并優(yōu)化模型的學(xué)習(xí)效率不用像大多數(shù)網(wǎng)絡(luò)那樣從零學(xué)習(xí)。[0051]可見,本申請實施例先將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;然后對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;最后利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測。本申請實施例將大規(guī)模的語料訓(xùn)練出來的預(yù)訓(xùn)練模型遷移至目標(biāo)預(yù)測模型,也即商品類目信息遷移至所述目標(biāo)預(yù)測模型中,避免大量人工標(biāo)注過程,提高商品類目預(yù)測效率和準(zhǔn)確率。[0052]參見圖4所示,本申請實施例還相應(yīng)公開了一種商品類目預(yù)測裝置,包括:[0053]預(yù)處理模塊11,用于將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;[0054]分布對齊模塊12,用于對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處[0055]第一微調(diào)模塊13,用于利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測。[0056]可見,本申請實施例先將預(yù)設(shè)商品信息輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到與所述預(yù)設(shè)商品信息對應(yīng)的商品類目;其中,所述預(yù)訓(xùn)練模型為已有的用于對商品類目進(jìn)行預(yù)測的訓(xùn)練后模型;然后對與所述預(yù)設(shè)商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計以得到相應(yīng)的類目分布結(jié)果,并根據(jù)所述類目分布結(jié)果對所述預(yù)設(shè)商品信息進(jìn)行分布對齊處理;最后利用分布對齊后的所述預(yù)設(shè)商品信息對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)得到目標(biāo)預(yù)測模型,以利用所述目標(biāo)預(yù)測模型對待預(yù)測商品信息的商品類目進(jìn)行預(yù)測。本申請實施例將大規(guī)模的語料訓(xùn)練出來的預(yù)訓(xùn)練模型遷移至目標(biāo)預(yù)測模型,也即商品類目信息遷移至所述目標(biāo)預(yù)測模型中,避免大量人工標(biāo)注過程,提高商品類目預(yù)測效率和準(zhǔn)確率。[0057]在一些具體實施例中,所述商品類目預(yù)測裝置還包括:[0058]獲取模塊,用于獲取第三方商品信息及對應(yīng)商品[0059]清洗模塊,用于通過主動學(xué)習(xí)的方式對第三方商品信息及對應(yīng)商品類目進(jìn)行數(shù)據(jù)9[0060]第二微調(diào)模塊,用于利用清洗后的數(shù)據(jù)對所述預(yù)訓(xùn)練模型進(jìn)行模型微調(diào)。[0061]在一些具體實施例中,所述清洗模塊,具體包括第一清洗子模塊和第二清洗子模[0062]第一數(shù)據(jù)劃分單元,用于將第三方商品信息及對應(yīng)商品類目劃分為訓(xùn)練集、測試集和驗證集,并從所述訓(xùn)練集中篩選第三方商品信息以對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練;[0063]第一訓(xùn)練單元,用于分別利用每種商品類目中的第三方商品信息對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練;[0064]預(yù)測單元,用于利用訓(xùn)練后的分類器對對應(yīng)的第三方商品信息的商品類目進(jìn)行預(yù)[0065]刪除單元,用于并將置信度小于第一預(yù)設(shè)閾值的第三方商品信息進(jìn)行刪除;[0066]驗證單元,用于通過五折交叉驗證的方式對每種商品類目的訓(xùn)練后的分類器進(jìn)行模型效果驗證;[0067]所述第二清洗子模塊包括:[0068]第二數(shù)據(jù)劃分單元,用于利用查詢函數(shù)對第三方商品信息按照商品類目種類進(jìn)行樣本劃分,分別得到與每種商品類目對應(yīng)的正樣本和負(fù)樣本;其中,所述正樣本中包含商品類目一致且為對應(yīng)種類的第三方商品信息,所述負(fù)樣本包含商品類目為其他種類的第三方[0069]第二訓(xùn)練單元,用于分別利用所述正樣本和所述負(fù)樣本對對應(yīng)種類的商品類目的分類器進(jìn)行訓(xùn)練,并將訓(xùn)練過程中所述負(fù)樣本中置信度大于第二預(yù)設(shè)閾值的第三方商品信息移入所述正樣本繼續(xù)訓(xùn)練直至分類器收斂。[0070]在一些具體實施例中,所述分布對齊模塊,具體還用于從所述預(yù)設(shè)商品信息中確定出采樣商品信息,并對所述采樣商品信息的商品類目進(jìn)行校驗,以對校驗后的所述采樣商品信息對應(yīng)的商品類目進(jìn)行分布統(tǒng)計。[0071]進(jìn)一步的,本申請實施例還提供了一種電子設(shè)備。圖5是根據(jù)一示例性實施例示出的電子設(shè)備20結(jié)構(gòu)圖,圖中的內(nèi)容不能認(rèn)為是對本申請的使用范圍的任何限制。[0072]圖5為本申請實施例提供的一種電子設(shè)備20的結(jié)構(gòu)示意圖。該電子設(shè)備20,具體可信總線26.其中,所述存儲器22用于存儲計算機(jī)程序,所述計算機(jī)程序由所述處理器21加載并執(zhí)行,以實現(xiàn)前述任一實施例公開的商品類目預(yù)測方法中的相關(guān)步驟。[0073]本實施例中,電源23用于為電子設(shè)備20上的各硬件設(shè)備提供工作電壓;通信接口24能夠為電子設(shè)備20創(chuàng)建與外界設(shè)備之間的數(shù)據(jù)傳輸通道,其所遵循的通信協(xié)議是能夠適用于本申請技術(shù)方案的任意通信協(xié)議,在此不對其進(jìn)行具體限定;輸入輸出接口25,用于獲取外界輸入數(shù)據(jù)或向外界輸出數(shù)據(jù),其具體的接口類型可以根據(jù)具體應(yīng)用需要進(jìn)行選取,在此不進(jìn)行具體限定。[0074]另外,存儲器22作為資源存儲的載體,可以是只讀存儲器、隨機(jī)存儲器、磁盤或者光盤等,其上所存儲的資源可以包括操作系統(tǒng)221、計算機(jī)程序222及數(shù)據(jù)223等,存儲方式可以是短暫存儲或者永久存儲。[0075]其中,操作系統(tǒng)221用于管理與控制電子設(shè)備20上的各硬件設(shè)備以及計算機(jī)程序222,以實現(xiàn)處理器21對存儲器22中海量數(shù)據(jù)223的運(yùn)算與處理,其可以是Windo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論