CN112100332B 詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置 (騰訊科技(深圳)有限公司)_第1頁
CN112100332B 詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置 (騰訊科技(深圳)有限公司)_第2頁
CN112100332B 詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置 (騰訊科技(深圳)有限公司)_第3頁
CN112100332B 詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置 (騰訊科技(深圳)有限公司)_第4頁
CN112100332B 詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置 (騰訊科技(深圳)有限公司)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利地址518057廣東省深圳市南山區(qū)高新區(qū)(72)發(fā)明人張雨春翁澤峰翟彬旭張東于范云霓限公司44232權(quán)利要求書3頁說明書15頁附圖6頁(57)摘要本公開提供了一種詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置,涉及人工智能領(lǐng)域。對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找詞形學(xué)接近的詞語在詞嵌入空間中具有相近的題,提高了召回效率和召回質(zhì)量,進而提升了用2獲取文本語料,對所述文本語料進行分詞處理;所述文本語料為中文文本,發(fā)音信息為所述中文文本經(jīng)分詞處理所得到的各分詞中每個字對應(yīng)的拼音;以與所述中文文本對應(yīng)的分詞和所述拼音為節(jié)點,以所述分詞、所述分詞中的單字以及所述單字對應(yīng)的拼音之間的關(guān)系為邊,根據(jù)所述節(jié)點和所述邊構(gòu)建無向無環(huán)圖;按照各個節(jié)點對應(yīng)的邊的數(shù)量,將所述無向無環(huán)圖中各個節(jié)點劃分為高度節(jié)點和低度采用對邊切分方式對所述無向無環(huán)圖中的低度節(jié)點進行切分,并采用點切分方式對所述無向無環(huán)圖中的高度節(jié)點進行切分,得到所述無向無環(huán)圖的為多個子圖,并對所述多個子圖進行分別存儲;以所述無向無環(huán)圖中的各節(jié)點為初始節(jié)點,隨機游走獲取與所述初始節(jié)點對應(yīng)的節(jié)點根據(jù)所述節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表;在詞嵌入表示模型的每輪訓(xùn)練中,所述文本語料中的高頻詞語的處理結(jié)果是對多個子任務(wù)的處理結(jié)果進行整合得到的,所述多個子任務(wù)是對所述高頻詞語的處理任務(wù)進行劃分得到的,每個子任務(wù)交由不同的機器同時執(zhí)行;獲取基于所述無向無環(huán)圖構(gòu)建的詞表,并根據(jù)所述詞表獲取所述文本語料中的分詞所對應(yīng)的編碼;根據(jù)所述編碼在所述詞嵌入查找表中確定與所述分詞對應(yīng)的詞嵌入;根據(jù)所有所述分詞對應(yīng)的詞嵌入確定與所述文本語料對應(yīng)的詞嵌入表示。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包在構(gòu)建所述無向無環(huán)圖時,根據(jù)預(yù)設(shè)規(guī)則對各所述邊設(shè)置權(quán)重。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述邊包括在拼音相同字不同以及拼音相近字相同的節(jié)點關(guān)系上建立的邊。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述以所述圖結(jié)構(gòu)中的各節(jié)點為初始節(jié)獲取預(yù)設(shè)的第一參數(shù)和第二參數(shù),根據(jù)當(dāng)前節(jié)點、與所述當(dāng)前節(jié)點相鄰的歷史節(jié)點和未來節(jié)點、所述第一參數(shù)和所述第二參數(shù)確定所述當(dāng)前節(jié)點跳到所述歷史節(jié)點以及所述當(dāng)前節(jié)點跳到所述未來節(jié)點的游走概率;根據(jù)所述游走概率確定游走方向,并基于所述游走方向確定所述節(jié)點序列。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述節(jié)點序列對詞嵌入表示模型將所述節(jié)點序列輸入至所述詞嵌入表示模型,以獲取預(yù)測信息;根據(jù)所述預(yù)測信息和所述節(jié)點序列對應(yīng)的標(biāo)記信息確定損失函數(shù);基于所述損失函數(shù)對所述詞嵌入表示模型的參數(shù)進行優(yōu)化,以使所述損失函數(shù)的值達到最小,并將訓(xùn)練后的所述詞嵌入表示模型中隱藏層所對應(yīng)的嵌入矩陣作為所述詞嵌入查獲取搜索字符串,對所述搜索字符串進行分詞處理,以獲取搜索分詞;3根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入,所述詞嵌入查找表是根據(jù)權(quán)利要求1-5中任意一項所述的詞嵌入表示學(xué)習(xí)方法所獲取的詞嵌入查找表;根據(jù)所有所述搜索分詞對應(yīng)的詞嵌入獲取與所述搜索字符串對應(yīng)的搜索向量,并根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入,包括:確定所述搜索字符串對應(yīng)的業(yè)務(wù)場景,根據(jù)所述業(yè)務(wù)場景確定目標(biāo)詞嵌入查找表;根據(jù)所述搜索分詞在所述目標(biāo)詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述候選文本的數(shù)量為多個;所述根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本,包括:獲取所述搜索向量與各所述候選文本對應(yīng)的文本向量之間的第一相似度,根據(jù)所述第一相似度確定所述召回文本。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述搜索字符串和所述候選文本包括多個不同屬性的字段;所述獲取所述搜索向量與各所述候選文本對應(yīng)的文本向量之間的第一相似度,根據(jù)所述第一相似度確定所述召回文本,包括:根據(jù)所述候選文本及所述文本向量進行倒排索引,并確定所述搜索向量與各所述文本向量之間的第二相似度,根據(jù)所述第二相似度進行初始召回;獲取所述搜索字符串與所述初始召回得到的候選文本中具有相同屬性的字段所對應(yīng)的向量之間的第三相似度,根據(jù)所述第三相似度在所述初始召回得到的候選文本中進行再召回,以獲取所述召回文本。10.一種詞嵌入表示學(xué)習(xí)裝置,其特征在于,包括:圖構(gòu)建模塊,用于獲取文本語料,對所述文本語料進行分詞處理,并基于得到的分詞和所述分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu);所述文本語料為中文文本,發(fā)音信息為所述中文文本經(jīng)分詞處理所得到的各分詞中每個字對應(yīng)的拼音;以與所述中文文本對應(yīng)的分詞和所述拼音為節(jié)點,以所述分詞、所述分詞中的單字以及所述單字對應(yīng)的拼音之間的關(guān)系為邊,根據(jù)所述節(jié)點和所述邊構(gòu)建無向無環(huán)圖;按照各個節(jié)點對應(yīng)的邊的數(shù)量,將所述無向無環(huán)圖中各個節(jié)點劃分為高度節(jié)點和低度節(jié)點;采用對邊切分方式對所述無向無環(huán)圖中的低度節(jié)點進行切分,并采用點切分方式對所述無向無環(huán)圖中的高度節(jié)點進行切分,得到所述無向無環(huán)圖的為多個子圖,并對所述多個子圖進行分別存儲;采樣模塊,用于以所述無向無環(huán)圖中的各節(jié)點為初始節(jié)點,隨機游走獲取與所述初始節(jié)點對應(yīng)的節(jié)點序列;詞嵌入獲取模塊,用于根據(jù)所述節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表;在詞嵌入表示模型的每輪訓(xùn)練中,所述文本語料中的高頻詞語的處理結(jié)果是對多個子任務(wù)的處理結(jié)果進行整合得到的,所述多個子任務(wù)是對所述高頻詞語的處理任務(wù)進行劃4分得到的,每個子任務(wù)交由不同的機器同時執(zhí)行;獲取基于所述無向無環(huán)圖構(gòu)建的詞表,并根據(jù)所述詞表獲取所述文本語料中的分詞所對應(yīng)的編碼;根據(jù)所述編碼在所述詞嵌入查找表中確定與所述分詞對應(yīng)的詞嵌入;根據(jù)所有所述分詞對應(yīng)的詞嵌入確定與所述文本語料對應(yīng)的詞嵌入表示。分詞模塊,用于獲取搜索字符串,對所述搜索字符詞嵌入獲取模塊,用于根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入,所述詞嵌入查找表是根據(jù)權(quán)利要求1-5中任意一項所述的詞嵌入表示學(xué)習(xí)方法所獲取的詞嵌入查找表;召回模塊,用于根據(jù)所有所述搜索分詞對應(yīng)的詞嵌入獲取與所述搜索字符串對應(yīng)的搜索向量,并根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本。12.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5中任意一項所述的詞嵌入表示學(xué)習(xí)方法和權(quán)利要求6至9中任意一項所述的文本召回方法。一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)如權(quán)利要求1至5中任意一項所述的詞嵌入表示學(xué)習(xí)方法和權(quán)利要求6至9中任意一項所述的文本召回方法。14.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機指令,所述計算機指令適于被處理器加載并執(zhí)行如權(quán)利要求1至5中任意一項所述的詞嵌入表示學(xué)習(xí)方法和權(quán)利要求6至9中任意一項所述的文本召回方法。5詞嵌入表示學(xué)習(xí)方法及裝置、文本召回方法及裝置技術(shù)領(lǐng)域[0001]本公開涉及自然語言處理技術(shù)領(lǐng)域,具體而言,涉及一種詞嵌入表示學(xué)習(xí)方法、詞嵌入表示學(xué)習(xí)裝置、文本召回方法、文本召回裝置背景技術(shù)[0002]詞嵌入(wordembedding)又稱詞向量,詞表征、文本表征等,是自然語言處理(NLP)中語言模型與表征學(xué)習(xí)技術(shù)的統(tǒng)稱,它是指把一個維數(shù)為所有詞的數(shù)量的高維空間嵌入到一個維數(shù)低得多的連續(xù)向量空間中,每個單詞或詞組被映射為實數(shù)域上的向量。[0003]在根據(jù)搜索字符串進行信息召回時,用戶可能會由于疏忽使得搜索字符串中存在錯別字符,例如用戶想要輸入的搜索字符串是“新冠肺炎”,但是實際輸入的搜索字符串是“新官肺炎”,如果嚴(yán)格按照包含錯別字符的搜索字符串進行召回時,就會出現(xiàn)召回結(jié)果錯誤或者召回結(jié)果不完整的情況,缺少與正確的搜索字符串對應(yīng)的召回結(jié)果,降低了用戶體驗。[0004]需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。發(fā)明內(nèi)容[0005]本公開的實施例提供了一種詞嵌入表示學(xué)習(xí)方法、詞嵌入表示學(xué)習(xí)裝置、文本召回方法、文本召回裝置、計算機可讀存儲介質(zhì)及電子設(shè)備,進而至少在一定程度上可以使詞形學(xué)相近的詞語在向量空間擁有相近的距離,進而提高召回的精準(zhǔn)度和完整性。[0006]本公開的其他特性和優(yōu)點將通過下面的詳細(xì)描述變得顯然,或部分地通過本公開的實踐而習(xí)得。[0007]根據(jù)本公開實施例的一個方面,提供了一種詞嵌入表示學(xué)習(xí)方法,包括:獲取文本語料,對所述文本語料進行分詞處理,并基于得到的分詞和所述分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu);以所述圖結(jié)構(gòu)中的各節(jié)點為初始節(jié)點,隨機游走獲取與所述初始節(jié)點對應(yīng)的節(jié)點序列;根據(jù)所述節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表,并基于所述詞嵌入查找表確定與所述文本語料對應(yīng)的詞嵌入表示。[0008]根據(jù)本公開實施例的一個方面,提供了一種詞嵌入表示學(xué)習(xí)裝置,包括:圖構(gòu)建模塊,用于獲取文本語料,對所述文本語料進行分詞處理,并基于得到的分詞和所述分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu);采樣模塊,用于以所述圖結(jié)構(gòu)中的各節(jié)點為初始節(jié)點,隨機游走獲取與所述初始節(jié)點對應(yīng)的節(jié)點序列;詞嵌入獲取模塊,用于根據(jù)所述節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表,并基于所述詞嵌入查找表確定與所述文本語料對應(yīng)的詞嵌入表示。[0009]根據(jù)本公開實施例的一個方面,提供了一種文本召回方法,包括:獲取搜索字符串,對所述搜索字符串進行分詞處理,以獲取搜索分詞;根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入,所述詞嵌入查找表是根據(jù)上述實施例6中的詞嵌入表示學(xué)習(xí)方法所獲取的詞嵌入查找表;根據(jù)所有所述搜索分詞對應(yīng)的詞嵌入獲取與所述搜索字符串對應(yīng)的搜索向量,并根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本。[0010]根據(jù)本公開實施例的一個方面,提供了一種文本召回裝置,包括:分詞模塊,用于獲取搜索字符串,對所述搜索字符串進行分詞處理,以獲取搜索分詞;詞嵌入獲取模塊,用于根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入,所述詞嵌入查找表是根據(jù)上述實施例中的詞嵌入表示學(xué)習(xí)方法所獲取的詞嵌入查找表;召回模塊,用于根據(jù)所有所述搜索分詞對應(yīng)的詞嵌入獲取與所述搜索字符串對應(yīng)的搜索向量,并根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本。[0011]根據(jù)本公開實施例的一個方面,提供了一種計算機程序產(chǎn)品或計算機程序,該計算機程序產(chǎn)品或計算機程序包括計算機指令,該計算機指令存儲在計算機可讀存儲介質(zhì)中。計算機設(shè)備的處理器從計算機可讀存儲介質(zhì)讀取該計算機指令,處理器執(zhí)行該計算機指令,使得該計算機設(shè)備執(zhí)行上述的各種可選實現(xiàn)方式中提供的方法。[0012]根據(jù)本公開實施例的一個方面,提供了一種電子設(shè)備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)上述的各種可選實現(xiàn)方式中提供的方法。[0013]在本公開的一些實施例所提供的技術(shù)方案中,通過對文本語料進行分詞處理并根據(jù)得到的分詞和分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu),然后基于圖結(jié)構(gòu)中的節(jié)點隨機游走以獲取多個節(jié)點序列,最后根據(jù)多個節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表,并基于詞嵌入查找表確定與文本語料對應(yīng)的詞嵌入表示。本公開的技術(shù)方案一方面能夠基于圖結(jié)構(gòu)訓(xùn)練詞嵌入表示模型,并在圖結(jié)構(gòu)中引入了發(fā)音信息,提高了詞嵌入表示模型的性能,使得詞形上接近的字符在詞嵌入空間中具有相近的向量表示,緩解了超出詞表(OutofVocabulary,00V)問題;另一方面能夠準(zhǔn)確獲取文本對應(yīng)的詞嵌入表示,并提高召回文本的質(zhì)量。[0014]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。附圖說明[0015]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。顯而易見地,下面描述中的附圖僅僅是本公開的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)[0016]圖1示出了可以應(yīng)用本公開實施例的技術(shù)方案的示例性系統(tǒng)架構(gòu)的示意圖;[0017]圖2示意性示出了根據(jù)本公開的一個實施例的詞嵌入表示學(xué)習(xí)方法的流程圖;[0018]圖3示意性示出了根據(jù)本公開的一個實施例的圖結(jié)構(gòu)的結(jié)構(gòu)示意圖;[0019]圖4示意性示出了根據(jù)本公開的一個隨機游走采樣的結(jié)構(gòu)示意圖;[0020]圖5示意性示出了根據(jù)本公開的一個實施例的文本召回方法的流程示意圖;[0021]圖6示意性示出了根據(jù)本公開的一個實施例的獲取召回文本的流程示意圖;[0022]圖7A-7B示意性示出了根據(jù)本公開的一個實施例的企業(yè)搜索的界面示意圖;7[0023]圖8示意性示出了根據(jù)本公開的一個實施例的詞嵌入表示學(xué)習(xí)裝置的框圖;[0024]圖9示意性示出了根據(jù)本公開的一個實施例的文本召回裝置的框圖;[0025]圖10示出了適于用來實現(xiàn)本公開實施例的詞嵌入表示學(xué)習(xí)裝置和文本召回裝置的計算機系統(tǒng)的結(jié)構(gòu)示意圖。具體實施方式[0026]現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實施方式使得本公開將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達給本領(lǐng)域的技術(shù)人員。[0027]此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施例中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對本公開的實施例的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本公開的技術(shù)方案而沒有特定細(xì)節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細(xì)示出或描述公知方[0028]附圖中所示的方框圖僅僅是功能實體,不一定必須與物理上獨立的實體相對應(yīng)。即,可以采用軟件形式來實現(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。[0029]附圖中所示的流程圖僅是示例性說明,不是必須包括所有的內(nèi)容和操作/步驟,也不是必須按所描述的順序執(zhí)行。例如,有的操作/步驟還可以分解,而有的操作/步驟可以合并或部分合并,因此實際執(zhí)行的順序有可能根據(jù)實際情況改變。[0030]圖1示出了可以應(yīng)用本公開實施例的技術(shù)方案的示例性系統(tǒng)架構(gòu)的示意圖。述終端設(shè)備101可以是手機、便攜式計算機、平板電腦、臺式機等具有顯示屏幕的終端設(shè)備;網(wǎng)絡(luò)102為用以在終端設(shè)備101和服務(wù)器103之間提供通信鏈路的介質(zhì),網(wǎng)絡(luò)102可以包括各種連接類型,例如有線通信鏈路、無線通信鏈路等等,在本公開實施例中務(wù)器103之間的網(wǎng)絡(luò)102可以是無線通信鏈路,具體地可以是移動網(wǎng)絡(luò)。[0032]應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端、網(wǎng)絡(luò)和服務(wù)器。比如服務(wù)器103可以是多個服務(wù)器組成的服務(wù)器集群等,可用于存儲與搜索串處理相關(guān)的信息。[0033]在本公開的一個實施例中,用戶通過終端設(shè)備101中內(nèi)置或外設(shè)的輸入裝置輸入搜索字符串,通過網(wǎng)絡(luò)102可以將用戶輸入的搜索字符串發(fā)送至服務(wù)器103,服務(wù)器103接收到搜索字符串后,首先可以對其進行分詞處理,以獲取搜索分詞,然后根據(jù)搜索分詞在預(yù)先通過訓(xùn)練詞嵌入表示模型所得到的詞嵌入查找表中進行查找,以獲取與搜索字符串對應(yīng)的搜索向量,最后根據(jù)搜索字符串對應(yīng)的搜索向量與候選文本的文本向量計算相似度,并根據(jù)相似度進行文本召回,以獲取與搜索字符串對應(yīng)的召回文本。在獲取詞嵌入查找表時,首先可以獲取文本語料,通過對文本語料進行分詞處理以獲取分詞,在獲取分詞后,可以根據(jù)分詞和分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu),例如文本語料為中文文本時,發(fā)音信息為組成分詞的各個字的拼音,該拼音包括字的標(biāo)準(zhǔn)拼音以及與標(biāo)準(zhǔn)拼音相近的拼音;然后將圖結(jié)構(gòu)中的各個節(jié)點作為初始節(jié)點,通過隨機游走的方式獲取與各個初始節(jié)點對應(yīng)的節(jié)點序列;8最后根據(jù)節(jié)點序列對詞嵌入表示模型進行訓(xùn)練,在訓(xùn)練結(jié)束后可以獲取詞嵌入表示模型中隱藏層對應(yīng)的嵌入矩陣作為詞嵌入查找表,并基于詞嵌入查找表確定與文本語料對應(yīng)的詞嵌入表示,以及與搜索分詞對應(yīng)的詞嵌入表示。進一步地,為了提高詞嵌入的準(zhǔn)確率和緩解超出詞表(00V)問題,可以根據(jù)常用字符及業(yè)務(wù)場景下的詞庫構(gòu)建圖結(jié)構(gòu),并根據(jù)基于圖結(jié)構(gòu)確定的節(jié)點序列訓(xùn)練詞嵌入表示模型,以獲取詞嵌入查找表,進而在獲取搜索字符串后,可以根據(jù)搜索字符串對應(yīng)的業(yè)務(wù)場景選擇對應(yīng)該業(yè)務(wù)場景的詞嵌入查找表,并獲取與搜索字符串對應(yīng)的詞嵌入表示。[0034]需要說明的是,本公開實施例所提供的詞嵌入表示學(xué)習(xí)方法和文本召回方法一般由服務(wù)器執(zhí)行,相應(yīng)地,詞嵌入表示學(xué)習(xí)裝置和文本召回方法裝置一般設(shè)置于服務(wù)器中。但是,在本公開的其它實施例中,也可以由終端設(shè)備執(zhí)行本公開實施例所提供的詞嵌入表示學(xué)習(xí)方法和文本召回方法。[0035]在自然語言處理的高級任務(wù)中,使用機器學(xué)習(xí)的方法需要將詞轉(zhuǎn)化為數(shù)學(xué)表示,然后用數(shù)學(xué)表示進行計算,完成語義層面的任務(wù)。在統(tǒng)計學(xué)習(xí)模型中,使用詞嵌入完成自然語言處理任務(wù),是自然語言處理任務(wù)的一個關(guān)鍵技術(shù)。相關(guān)技術(shù)中,常見的詞嵌入訓(xùn)練方法主要分為靜態(tài)表征和動態(tài)表征兩大類,靜態(tài)表征包括通過詞袋模型、主題模型、經(jīng)典語言模型和優(yōu)化語言模型進行詞嵌入,動態(tài)表征包括通過ELMo(EmbeddingsfromLanguage于詞袋模型忽略了文檔的語法和語序等要素,將文檔僅僅看成是若干無序單詞的集合,并且每個詞都是獨立的,因此存在維數(shù)災(zāi)難問題,且詞向量之間不存在關(guān)聯(lián)關(guān)系,有語義鴻價大,工程實現(xiàn)難的問題。優(yōu)化語言模型主要包括word2vec、FastText等針對性的優(yōu)化模型,但是存在無法解決一詞多義的問題。ELMo是基于雙層雙向LSTM進行雙向語義特征提取的語言模型,存在的問題主要是LSTM特征提取能力有限,雙向拼接的特征融合能力較弱。GPT為基于轉(zhuǎn)換解碼(Transformerdecoder)結(jié)果的單向語言模型,存在單向語義的問題。BERT為基于轉(zhuǎn)換編碼(Transformerencoder)結(jié)構(gòu)的雙向語言模型,存在訓(xùn)練代價大,樣本量要求高的問題。[0036]鑒于相關(guān)技術(shù)中存在的問題,本公開實施例提供了一種詞嵌入表示學(xué)習(xí)方法和文本召回方法,該詞嵌入表示學(xué)習(xí)方法和文本召回方法是基于機器學(xué)習(xí)實現(xiàn)的,機器學(xué)習(xí)屬于人工智能的一種,人工智能(ArtificialIntelligence,AI)是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器。人工智能也就是研究各種智能機器的設(shè)計原理與實現(xiàn)方法,使機器具有感知、推理與決策的[0037]人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層大數(shù)據(jù)處理技術(shù)、操作/交互系統(tǒng)、機電一體化等技術(shù)。人工智能軟件技術(shù)主要包括計算機9視覺技術(shù)、語音處理技術(shù)、自然語言處理技術(shù)以及機器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。[0038]計算機視覺技術(shù)(ComputerVision,CV)計算機視覺是一門研究如何使機器“看”的科學(xué),更進一步的說,就是指用攝影機和電腦代替人眼對目標(biāo)進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學(xué)學(xué)科,計算機視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。計算機視覺技術(shù)通常包括圖像處理、圖像識別、圖像語義理虛擬現(xiàn)實、增強現(xiàn)實、同步定位與地圖構(gòu)建等技術(shù),還包括常見的人臉識別、指紋識別等生物特征識別技術(shù)。[0039]機器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學(xué)習(xí)是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域。教學(xué)習(xí)等技術(shù)。[0040]隨著人工智能技術(shù)研究和進步,人工智能技術(shù)在多個領(lǐng)域展開研究和應(yīng)用,例如[0041]本公開實施例提供的方案涉及人工智能的自然語言處理技術(shù),可以應(yīng)用于信息搜索領(lǐng)域,具體通過如下實施例進行說明:[0042]圖2示意性示出了根據(jù)本公開的一個實施例的詞嵌入表示學(xué)習(xí)方法的流程圖,該詞嵌入表示學(xué)習(xí)方法可以由服務(wù)器來執(zhí)行,該服務(wù)器可以是圖1中所示的服務(wù)器103。參照圖2所示,該詞嵌入表示學(xué)習(xí)方法至少包括步驟S210至步驟S230,詳細(xì)介紹如下:[0043]在步驟S210中,獲取文本語料,對所述文本語料進行分詞處理,并基于得到的分詞和所述分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu)。[0044]在本公開的一個實施例中,不同的國家和地區(qū)存在不同的語言,例如中文、英文、法語、德語等等,雖然語言種類不同但是將各種語言轉(zhuǎn)化為詞向量的思路是基本相同的。在本公開實施例中,首先可以獲取大量的文本語料,該些文本語料可以是涉及某一具體業(yè)務(wù)場景的語料,例如文本語料可以是涉及企業(yè)工商信息的語料,具體為各個企業(yè)的工商注冊名稱,等等;也可以是涵蓋多個相關(guān)業(yè)務(wù)場景的語料,例如可以是涉及保險及體檢報告的語料,等等;當(dāng)然還可以是其它的一些語料,根據(jù)[0045]在獲取文本語料后,可以對文本語料進行預(yù)處理,具體地,可以對文本語料進詞處理。對于不同語言種類的文本語料,分詞處理的方法稍有差別,例如當(dāng)文本語料為中文文本時可以采用基于詞典的分詞方法、基于統(tǒng)計的分詞方法或基于深度學(xué)習(xí)的分詞方法進行分詞處理,具體地,基于詞典的分詞方法可以包括正向最大匹配法、逆向最大匹配法及雙向最大匹配法,基于統(tǒng)計的分詞方法是在給定大量已經(jīng)分詞的文本的前提下,利用統(tǒng)計機器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),從而實現(xiàn)對未知文本的切分,主要的統(tǒng)計模型有:N元文法模型(N-gram),隱馬爾可夫模型(HiddenMarkovModel,HMM),最大熵模型(ME),條件隨機場模型(ConditionalRandomFields,CRF)等,基于統(tǒng)計的分詞方法包括:N-最短路徑方法、基于詞的n元語法模型的分詞方法、由字構(gòu)詞的漢語分詞方法、基于詞感知機算法的漢語分詞方法、基于字的生成式模型和區(qū)分式模型相結(jié)合的漢語分詞方法。當(dāng)文本語料為非中文文本時可以采用n-gram切分和子詞切分,通過n-gram切分獲取非中文文本中詞語的詞干,通過子詞切分獲取詞語的子詞。[0046]在本公開的一個實施例中,以信息的搜索召回為例,用戶在輸入搜索字符串的時候會由于疏忽出現(xiàn)拼寫錯誤或者出現(xiàn)錯別字的情況,或者在對文本進行光學(xué)字符識別(OCR)時出現(xiàn)識別錯誤的情況,如果搜索召回系統(tǒng)嚴(yán)格按照獲取的搜索字符串進行檢索召回時,則可能無法獲取召回信息或者出現(xiàn)召回信息存在錯誤、缺失的情況,因此為了提高信息召回質(zhì)量,進一步提高用戶體驗,可以通過讓詞形學(xué)上相近的詞語在向量空間中擁有相近的距離,以保證根據(jù)搜索字符串在大量候選信息中進行搜索召回時,不僅能夠召回包含搜索字符串的信息,還能夠?qū)Πc搜索字符串在詞形學(xué)上相近的詞語的信息進行召回。詞形學(xué)泛指詞語的書寫形式,是書面語言的主要元素之一。詞形學(xué)上相近的詞語通常具有信息都是xun,即使是非中文字符也會存在詞形學(xué)上相近的詞語,例如angel和angle,affect和effect,quite和quiet,等等,并且該些詞形學(xué)上相近的詞語在發(fā)音信息上也存在相近或相同的情況。為了便于對詞形學(xué)相近的詞語進行關(guān)聯(lián),進而使詞形學(xué)相近的詞語具有相近的詞嵌入表示,可以根據(jù)詞形學(xué)上相近的詞語構(gòu)建圖,并基于圖進行向量轉(zhuǎn)化,以獲取詞語的詞嵌入。[0047]在本公開的一個實施例中,在構(gòu)建圖結(jié)構(gòu)時,可以以對文本語料進行分詞處理得到的分詞和分詞對應(yīng)的發(fā)音信息進行構(gòu)建,具體地,將分詞和發(fā)音信息作為節(jié)點,分詞之間以及分詞與發(fā)音信息之間的關(guān)系作為邊,進而根據(jù)節(jié)點和邊形成圖結(jié)構(gòu)。分詞對應(yīng)的發(fā)音信息與文本語料的種類相關(guān),當(dāng)文本語料為中文文本時,發(fā)音信息可以是拼音;當(dāng)文本語料為非中文文本時,發(fā)音信息可以是音標(biāo)。[0048]為了使本公開的技術(shù)方案更清晰,接下來以中文文本語料為例進行具體說明。[0049]在本公開的一個實施例中,可以根據(jù)中文文本語料經(jīng)分詞處理得到的分詞和分詞中各個字對應(yīng)的拼音構(gòu)建圖結(jié)構(gòu),具體地,以與中文文本對應(yīng)的分詞和拼音為節(jié)點,以分詞、分詞中的單字以及單字對應(yīng)的拼音之間的關(guān)系為邊,根據(jù)節(jié)點和邊構(gòu)建無向無環(huán)圖。值得注意的是,單字對應(yīng)的拼音包括與該單字對應(yīng)的標(biāo)準(zhǔn)拼音以及非標(biāo)準(zhǔn)拼音,該非標(biāo)準(zhǔn)拼音與標(biāo)準(zhǔn)拼音相近,主要是由于生活區(qū)域不同,口音不同而產(chǎn)生的,比如1和n的混淆,牛奶的標(biāo)準(zhǔn)拼音應(yīng)該為niunai,但是由于發(fā)音不標(biāo)準(zhǔn),有的人會拼成liulai等,在圖結(jié)構(gòu)中引入拼音相同字不同的節(jié)點和邊、字相同拼音相近的節(jié)點和邊,擴大了圖結(jié)構(gòu)中的信息量,最大程度地保證了將詞形學(xué)相近的詞語關(guān)聯(lián)起來,并使其在向量空間具有相近的距離。[0050]圖3示出了圖結(jié)構(gòu)的結(jié)構(gòu)示意圖,如圖3所示,對文本語料進行分詞處理獲取分詞相近的字,根據(jù)分詞、分詞中的單字、單字的拼音可以形成圖3所示的圖結(jié)構(gòu)。在圖3中雖然未示出拼音相近字相同的連接關(guān)系,但是應(yīng)當(dāng)理解的是,圖結(jié)構(gòu)所包含的數(shù)據(jù)量是相當(dāng)大的,其中包含的節(jié)點和邊的數(shù)量均可能是千萬級別乃至億級別的,因此在圖結(jié)構(gòu)中應(yīng)當(dāng)是包含了所有的連接關(guān)系,比如在重點關(guān)注的拼音相同字不同、拼音相近字相同的節(jié)點關(guān)系11上建立的邊。[0051]在本公開的一個實施例中,在構(gòu)建圖結(jié)構(gòu)的過程中,可以根據(jù)預(yù)設(shè)規(guī)則對各個節(jié)點之間的邊賦予權(quán)重,該預(yù)設(shè)規(guī)則可以根據(jù)具體業(yè)務(wù)需求進行設(shè)置,例如在分詞與分詞中單字之間的邊設(shè)置較高的第一權(quán)重,在單字和標(biāo)準(zhǔn)拼音之間設(shè)置低于第一權(quán)重的第二權(quán)重,在單字和非標(biāo)準(zhǔn)拼音之間設(shè)置低于第二權(quán)重的第三權(quán)重,或者根據(jù)字詞在拼音或構(gòu)成上的編輯距離確定權(quán)重,比如將編輯距離的倒數(shù)作為邊的權(quán)重,當(dāng)然還可以單獨訓(xùn)練權(quán)重模型為邊賦予權(quán)重,本公開實施例對預(yù)設(shè)規(guī)則的具體形式不作具體限定。[0052]通過根據(jù)分詞和分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu),并基于圖結(jié)構(gòu)學(xué)習(xí)得到各節(jié)點的詞嵌入作為字符的分布式表征,能夠獲得高質(zhì)量的詞嵌入,使得詞形學(xué)接近的詞語在詞嵌入空間擁有較高的相似性,并且由于拼音節(jié)點的加入,大大緩解了00V的問題,這是由于圖結(jié)構(gòu)中覆蓋了大量相關(guān)的字詞,使得搜索字符串中的字符基本都落在了圖結(jié)構(gòu)中,不會出現(xiàn)超出詞表的情況。[0053]在步驟S220中,以所述圖結(jié)構(gòu)中的各節(jié)點為初始節(jié)點,隨機游走獲取與所述初始節(jié)點對應(yīng)的節(jié)點序列。[0054]在本公開的一個實施例中,在完成圖結(jié)構(gòu)的構(gòu)建后,可以基于圖結(jié)構(gòu)通過機器學(xué)習(xí)模型學(xué)習(xí)得到圖結(jié)構(gòu)中各節(jié)點的詞嵌入。在學(xué)習(xí)得到各節(jié)點的詞嵌入時,首先可以將圖結(jié)構(gòu)中的各個節(jié)點作為初始節(jié)點,通過隨機游走的方式獲取與初始節(jié)點對應(yīng)的節(jié)點序列,然后再根據(jù)大量的節(jié)點序列訓(xùn)練詞嵌入。[0055]在隨機游走獲取節(jié)點序列時,首先可以設(shè)定兩個參數(shù):第一參數(shù)p和第二參數(shù)q,p和q用于在廣度優(yōu)先搜索(Breadth-firstSearch,簡稱BFS)和深度優(yōu)先搜索(Depth-firstSearch,簡稱DFS)中達到一個平衡,并考慮到局部和宏觀的信息;然后根據(jù)第一參數(shù)p和第二參數(shù)q確定當(dāng)前節(jié)點跳到與當(dāng)前節(jié)點相鄰的歷史節(jié)點和未來節(jié)點的游走概率;最后根據(jù)游走概率確定游走方向,并基于游走方向確定節(jié)點序列。和x3,以及與各節(jié)點相連的邊,當(dāng)前節(jié)點為v,從邊(t,v)過來,從圖中分析可知,下一步采樣時可以從當(dāng)前節(jié)點v跳至節(jié)點t、x1、×2和x3,對應(yīng)每個邊的游走概率記為α(t,x),根據(jù)邊連[0058]其中,d表示節(jié)點t到節(jié)點x直接的最短路徑;d=0表示回到節(jié)點t;d=1表示節(jié)點t與節(jié)點x直接相連,但是在上一步卻選擇了節(jié)點v;d=2表示節(jié)點t不與節(jié)點x直接相連,但節(jié)點v與節(jié)點x直接相連。[0059]在確定參數(shù)p、q后,即可確定每條邊對應(yīng)的游走概率,在采樣時通常不會返回至已經(jīng)采集過的節(jié)點,因此第一參數(shù)p通常設(shè)置的較大,也就是沿著邊(v,t)游走的概率很小。進一步地,在設(shè)置第一參數(shù)p和第二參數(shù)q的值時,可以根據(jù)采樣需求進行設(shè)置,例如主要想在廣度方向上搜索,那么可以將q設(shè)置為大于1的值,將p設(shè)置為大于q的值,這樣采樣時就沿著邊(v,x?)進行采樣;若想在深度方向上搜索,那么可以將q設(shè)置為大于零小于1的值,將p設(shè)置為大于1的值,這樣采樣時就沿著邊(v,x?)、邊(v,x?)進行采樣。[0060]在本公開的一個實施例中,在采樣時,可以設(shè)置采樣長度L,以獲取多個以各個節(jié)點為初始節(jié)點且具有采樣長度的節(jié)點序列,該采用長度L例如可以設(shè)置為2≤L≤5,當(dāng)然還可以根據(jù)實際需要設(shè)置為其它的數(shù)值范圍。[0061]在步驟S230中,根據(jù)所述節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表,并基于所述詞嵌入查找表確定與所述文本語料對應(yīng)的詞嵌入表示。[0062]在本公開的一個實施例中,在獲取以圖結(jié)構(gòu)中各個節(jié)點為初始節(jié)點的節(jié)點序列后,可以根據(jù)節(jié)點序列對詞嵌入表示模型進行訓(xùn)練,以獲取穩(wěn)定的詞嵌入表示模型以及詞嵌入查找表。本公開中所采用的詞嵌入表示模型具體可以為Node2vec模型等等,Node2vec模型是用來產(chǎn)生圖結(jié)構(gòu)中節(jié)點向量的模型,輸入的是步驟S220中生成的圖結(jié)構(gòu),輸出是每個節(jié)點的向量,即每個節(jié)點對應(yīng)的詞語的詞嵌入。Node2vec模型的結(jié)構(gòu)中包含有Skip-gram對各個節(jié)點序列進行處理,得到預(yù)測結(jié)果。在根據(jù)節(jié)點序列對詞嵌入表示模型進行訓(xùn)練時,具體地可以將節(jié)點序列輸入至詞嵌入表示模型中以獲取詞嵌入表示模型輸出的預(yù)測信息,然后根據(jù)預(yù)測信息和節(jié)點序列對應(yīng)的標(biāo)記信息確定損失函數(shù),最后基于損失函數(shù)對詞嵌入表示模型的參數(shù)進行優(yōu)化,當(dāng)損失函數(shù)的值達到最小或者完成預(yù)設(shè)次數(shù)的訓(xùn)練后即可認(rèn)為訓(xùn)練完成。Skip-gram模型是通過輸入目標(biāo)詞預(yù)測其上下文的詞,最大化詞出現(xiàn)的概率,也就是節(jié)點共現(xiàn)的概率,其中目標(biāo)詞為節(jié)點序列中任意一個節(jié)點對應(yīng)的詞語。[0063]Skip-gram模型包括輸入層、隱藏層和輸出層,通過輸入層將節(jié)點序列中的每個詞語輸入至模型中,輸入層到隱藏層之間有一個權(quán)重矩陣,隱藏層得到的值是由權(quán)重矩陣對輸入的詞語作用得到的,同時隱藏層到輸出層也有權(quán)重矩陣,輸出層向量的每一個值就是隱藏層的向量點乘權(quán)重矩陣的每一列所得到的結(jié)果,最后對輸出層向量進行歸一化處理,即可得到每個詞的預(yù)測概率,即詞表中每個詞成為目標(biāo)詞的上下文的概率,其中具有最大概率的詞即為預(yù)測的詞,也就是說預(yù)測的詞是與輸入的目標(biāo)詞共現(xiàn)概率最大、最有可能成[0064]從上述流程分析可知,獲取詞嵌入的關(guān)鍵在于獲取輸入層到隱藏層的權(quán)重矩陣,通過該權(quán)重矩陣作用即可得到詞嵌入。訓(xùn)練完成后得到的該權(quán)重矩陣的大小為N×M,其中N為詞表規(guī)模,M為詞嵌入長度,由于在根據(jù)圖結(jié)構(gòu)中的分詞節(jié)點構(gòu)建詞表時,對各個詞語均賦予了唯一的編號,比如從0到N對詞語依次編號,那么在獲取權(quán)重矩陣后,可以根據(jù)詞語在詞表中的編號在權(quán)重矩陣中查找對應(yīng)行的向量即可獲取與該詞語對應(yīng)的詞嵌入,即權(quán)重矩陣中的第i行向量即為詞表中第i個詞語的詞嵌入。相應(yīng)地,在獲取權(quán)重矩陣也就是詞嵌入查找表后,可以根據(jù)文本語料對應(yīng)的分詞和詞表確定分詞的編號,并根據(jù)編號在詞嵌入查找表中獲取與各個分詞對應(yīng)的詞嵌入,進而根據(jù)文本語料中所有分詞的詞嵌入即可得到與文本語料對應(yīng)的詞嵌入。[0065]值得注意的是,本公開實施例中的圖結(jié)構(gòu)包含詞形學(xué)相近的詞語,因此基于圖結(jié)構(gòu)進行詞嵌入表示學(xué)習(xí),能夠使得詞形學(xué)相近的詞語所對應(yīng)的詞嵌入在向量空間也具有相近的距離,使得同音字的相似性度量成為可能,進而在進行信息召回時,不僅可以召回包含搜索字符串的信息,還可以召回包含與搜索字符串在詞形學(xué)上相近的詞語的信息,避免因輸入錯誤導(dǎo)致的召回錯誤。[0066]在本公開的一個實施例中,在步驟S210構(gòu)建圖結(jié)構(gòu)時,相連節(jié)點之間的邊有賦予的權(quán)重,該權(quán)重在訓(xùn)練模型時可以作用于損失函數(shù),以提高模型性能,損失函數(shù)表征了預(yù)測信息與標(biāo)記信息之間的差異程度,當(dāng)差異程度越低時,損失函數(shù)越小,模型性能越好。在計算損失函數(shù)的時候引入邊的權(quán)重能夠提高模型對存在較大差異的兩節(jié)點的關(guān)注度,進而在反向調(diào)參的時候可以重點關(guān)注存在差異的節(jié)點,使得優(yōu)化后的模型輸出的預(yù)測信息與標(biāo)注信息相近或相同。該損失函數(shù)具體可以是交叉熵?fù)p失函數(shù),當(dāng)然也可以是其它的損失函數(shù),本公開對此不做具體限定。[0067]在本公開的一個實施例中,在訓(xùn)練詞嵌入的過程中,由于文本語料以及圖結(jié)構(gòu)的數(shù)據(jù)量特別大,因此在工程上通常采用分布式計算spark方式進行數(shù)據(jù)處理,但是在算法運行過程中還是會存在以下三個問題:(1)圖存儲與機器節(jié)點I/0高;(2)數(shù)據(jù)傾斜;(3)多輪迭代數(shù)據(jù)依賴鏈過長。對于問題(1),圖結(jié)構(gòu)在存儲的時候需要存儲節(jié)點和邊,如果在多臺機器上進行存儲就需要把圖結(jié)構(gòu)切分為多個子圖進行存儲,那么在切分的時候需要注意節(jié)點和邊的數(shù)量,如果某臺機器存儲了大量的節(jié)點而裁剪了邊,若該機器是對邊進行處理時就需要去其它的機器拉取邊的信息,這就使得數(shù)據(jù)處理效率很低。為了解決該問題,可以采用混合切分方法進行優(yōu)化,該混合切分方法主要是根據(jù)圖結(jié)構(gòu)中的節(jié)點度數(shù)的高低采用不同的切分策略,具體地低度節(jié)點用邊切分來保持局部性,高度節(jié)點用點切分來降低節(jié)點備份,使整個圖結(jié)構(gòu)在并行性和存儲上達到平衡。對于問題(2),在文本語料中可能存在部分詞語出現(xiàn)頻率高,部分詞語出現(xiàn)頻率低,那么對出現(xiàn)頻率高的詞語進行處理的機器就需要耗費大量的時間,而對出現(xiàn)頻率低的詞語進行處理的機器則會很快完成數(shù)據(jù)處理,但是數(shù)據(jù)處理邏輯是必須等所有的機器都完成自身的任務(wù)才能進行下一輪處理,這樣就使得數(shù)據(jù)處理效率很低,為了解決該問題,可以通過多階段聚合操作和mapjoin的方式進行緩解,也就是將對出現(xiàn)頻率高的詞語進行處理的任務(wù)劃分為多個子任務(wù),由多個機器同時執(zhí)行子任務(wù),然后將多個機器的處理結(jié)果整合到一起作為一個任務(wù)進行處理。對于問題(3),由于模型訓(xùn)練過程是多輪迭代的過程,通過不斷正向傳播反向調(diào)參的過程使得模型性能達到最優(yōu),也就是說會使用同一文本語料進行多次重復(fù)的模型訓(xùn)練,這就可能導(dǎo)致隨著訓(xùn)練次數(shù)的增加,用于執(zhí)行模型訓(xùn)練算法的機器掛掉,導(dǎo)致訓(xùn)練過程失敗,因此可以采用合理的中間變量緩存或?qū)⒅匾臄?shù)據(jù)結(jié)構(gòu)持久化以緩解該問題,使整個運行更順暢,具體地可以直接斬斷數(shù)據(jù)的依賴鏈,將中間結(jié)果緩存起來,在進行下一次數(shù)據(jù)處理時直接從中間結(jié)果這里開始,而不重復(fù)執(zhí)行之前的流程。[0068]通過詞嵌入表示學(xué)習(xí)方法能夠從圖計算的角度解決詞嵌入表示問題,特別是使得詞形學(xué)相近的詞語的詞嵌入在向量空間也擁有相近的距離,使得中文中同音字的相似性度量成為可能,并且本公開實施例中的詞嵌入表示學(xué)習(xí)方法在千萬節(jié)點、億級邊上學(xué)習(xí)大規(guī)模詞嵌入只需要較少計算資源,且可在分鐘級完成,性能高效。[0069]本公開基于詞嵌入表示學(xué)習(xí)方法還提供了一種文本召回方法,圖5示出了文本召回方法的流程示意圖,如圖5所述,該方法至少包括步驟S510-S530,具體為:[0070]在步驟S510中,獲取搜索字符串,對所述搜索字符串進行分詞處理,以獲取搜索分[0071]在本公開的一個實施例中,用戶通過輸入設(shè)備在終端界面中輸入搜索字符串,該搜索字符串可以是中文的,也可以是英文的,也可以是其它類型的字符串。在本公開實施例中,仍以中文搜索字符串為例進行說明,該搜索字符串例如可以是人名,根據(jù)搜索字符串獲取與其匹配的人名的信息;例如可以是企業(yè)名稱,根據(jù)搜索字符串在工商企業(yè)注冊平臺查[0072]在本公開的一個實施例中,在根據(jù)搜索字符串進行搜索召回之前,需要對搜索字符串進行預(yù)處理,即對搜索字符串進行分詞處理,以獲取搜索分詞,例如搜索字符串為企業(yè)名稱“XX科技有限責(zé)任公司”,通過分詞可以獲取搜索分詞為“XX科技有限責(zé)任公司”。在獲取搜索分詞后,可以基于詞嵌入查找表確定與搜索分詞對應(yīng)的詞嵌入。[0073]在步驟S520中,根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入表示,所述詞嵌入查找表是根據(jù)上述實施例中的詞嵌入表示學(xué)習(xí)方法所獲取的詞嵌入查找表。[0074]在本公開的一個實施例中,當(dāng)詞嵌入查找表中包含數(shù)量足夠的詞語的嵌入向量時,可以根據(jù)搜索分詞從詞嵌入查找表中獲取其所對應(yīng)的詞嵌入,具體地,首先根據(jù)詞表確定搜索分詞的編碼,然后以搜索分詞的編碼為索引,在詞嵌入查找表中查找對應(yīng)的嵌入向量,該嵌入向量即為搜索分詞的詞嵌入表示。[0075]想要詞嵌入查找表包含數(shù)量足夠的詞語的嵌入向量,一方面需要搜集近乎可以覆蓋所有業(yè)務(wù)場景的語料,另一方面需要根據(jù)語料構(gòu)建龐大的圖結(jié)構(gòu),這對機器的存儲及處理效率都是很大的挑戰(zhàn),因此為了進一步提高數(shù)據(jù)處理效率,避免00V問題,可以根據(jù)不同業(yè)務(wù)場景的文本語料構(gòu)建圖結(jié)構(gòu)并進行詞嵌入訓(xùn)練,以獲取對應(yīng)不同業(yè)務(wù)場景的詞嵌入查找表,當(dāng)獲取搜索字符串后,可以確定搜索字符串對應(yīng)的業(yè)務(wù)場景,并根據(jù)該業(yè)務(wù)場景在對應(yīng)不同業(yè)務(wù)場景的詞嵌入查找表中確定對應(yīng)的目標(biāo)詞嵌入查找表,然后可以根據(jù)搜索分詞在目標(biāo)詞嵌入查找表中查詢獲取與搜索分詞對應(yīng)的詞嵌入,這樣既可以提高模型訓(xùn)練效率和質(zhì)量,又可以提高將搜索字符串轉(zhuǎn)化為向量的效率。[0076]在步驟S530中,根據(jù)所有所述搜索分詞對應(yīng)的詞嵌入獲取與所述搜索字符串對應(yīng)的搜索向量,并根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本。[0077]在本公開的一個實施例中,在獲取與搜索字符串中各搜索分詞對應(yīng)的詞嵌入后,可以將所有搜索分詞對應(yīng)的詞嵌入按序拼接得到搜索字符串對應(yīng)的搜索向量,進而根據(jù)該搜索向量與候選文本對應(yīng)的文本向量進行匹配,以獲取召回文本。[0078]在本公開的一個實施例中,文本召回時,候選文本的數(shù)量通常為多個,那么在根據(jù)搜索向量與候選文本對應(yīng)的文本向量確定召回文本時,可以計算搜索向量與各候選文本的文本向量的第一相似度,并根據(jù)第一相似度確定召回文本,當(dāng)?shù)谝幌嗨贫却笥诨虻扔陬A(yù)設(shè)相似度閾值時則將該候選文本作為召回文本進行召回,當(dāng)?shù)谝幌嗨贫刃∮陬A(yù)設(shè)相似度閾值時則過濾掉該候選文本。第一相似度可以通過計算搜索向量與文本向量之間的余弦距離、歐式距離、漢明距離等距離確定,第一相似度越高表明對應(yīng)的候選文本與搜索字符串越匹配。由于在詞嵌入表示學(xué)習(xí)過程中,詞形學(xué)相近的詞語對應(yīng)的詞嵌入在向量空間具有相近的距離,因此根據(jù)第一相似度確定召回文本時,不僅能夠召回包含搜索字符串的文本,還能召回包含與搜索字符串在詞形學(xué)上相近的詞語的文本,避免了因搜索字符串中存在錯別字等原因?qū)е碌恼倩匚谋惧e誤或召回文本缺失的情況,進而提高了用戶體驗。[0079]在本公開的一個實施例中,當(dāng)搜索字符串及候選文本中僅包含詞形學(xué)相近的詞語時,可以通過上述實施例中的方式進行召回,例如人名召回、產(chǎn)品召回等,通過根據(jù)本公開實施例中的方法得到搜索人名及候選人名的詞嵌入、搜索產(chǎn)品名及候選產(chǎn)品名的詞嵌入,然后通過計算搜索人名的詞嵌入與候選人名的詞嵌入之間的相似度進行人名召回,或者通過計算搜索產(chǎn)品名的詞嵌入與候選產(chǎn)品名的詞嵌入之間的相似度進行產(chǎn)品召回。但是當(dāng)搜索字符串及候選文本中包含多個不同屬性的字段時,就需要根據(jù)不同屬性的字段分別進行召回,例如搜索字符串除了包含詞形學(xué)相近的詞語,還包含語義相近的詞語,那么就不能僅僅通過本公開實施例中的方法獲取詞嵌入然后計算相似度以進行召回。圖6示出了獲取召回文本的流程示意圖,如圖6所示,在步驟S601中,對候選文本及候選文本對應(yīng)的文本向量進行倒排索引,并確定搜索向量與各文本向量之間的第二相似度,根據(jù)第二相似度進行初始召回;在步驟S602中,獲取搜索字符串與初始召回得到的候選文本中具有相同屬性的字段所對應(yīng)的向量之間的第三相似度,根據(jù)第三相似度在初始召回得到的候選文本中進行再召回,以獲取召回文本。其中,第二相似度和第三相似度與第一相似度的計算方式可以相[0080]以企業(yè)搜索為例,圖7A-7B示出了企業(yè)搜索的界面示意圖,如圖7A所示,用戶在終端的顯示界面中輸入所要查詢的搜索企業(yè)名稱,例如用戶輸入“騰迅科技(北京)有限公司”。在接收到該搜索企業(yè)名稱后,首先可以通過序列標(biāo)注模型將該企業(yè)名稱分為四段:騰理位置屬性,有限公司為企業(yè)的基本屬性,那么在查詢與該企業(yè)名稱對應(yīng)的企業(yè)信息時,就需要從這四個屬性出發(fā)進行查詢召回,而在這四個字段中只有企業(yè)字號涉及到詞形學(xué)相近科技(北京)有限公司”,至于行業(yè)屬性、基本屬性則主要涉及語義問題,例如科技和技術(shù)在語義上是相近的,有限公司和有限責(zé)任公司在語義上是相近的。接著可以通過不同的向量轉(zhuǎn)化方式對企業(yè)名稱中不同屬性的字段進行編碼,其中對企業(yè)字號進行詞嵌入轉(zhuǎn)換可以采用本公開實施例中的詞嵌入表示學(xué)習(xí)方法獲取與企業(yè)搜索業(yè)務(wù)場景相關(guān)的詞嵌入查找表,然后根據(jù)企業(yè)字號在詞表中的編碼在詞嵌入查找表中確定其對應(yīng)的詞嵌入。在確定各個字段對應(yīng)的向量后,即可獲得搜索企業(yè)名稱對應(yīng)的搜索向量。在企業(yè)信息查詢平臺中進行查詢時,可以根據(jù)搜索企業(yè)名稱對應(yīng)的搜索向量和數(shù)據(jù)庫中存儲的候選企業(yè)名稱對應(yīng)的文本向量進行匹配,并將匹配得到的候選企業(yè)名稱返回至終端,供用戶點擊查看企業(yè)詳情。[0081]其中,獲取候選企業(yè)名稱對應(yīng)的文本向量的方法與搜索向量的方法相同,在此不再贅述。在將搜索向量和候選企業(yè)名稱對應(yīng)的文本向量進行匹配時,先在全量空間進行匹配,具體地先將候選企業(yè)名稱以及對應(yīng)的文本向量進行倒排索引,然后確定搜索企業(yè)名稱對應(yīng)的搜索向量與各個候選企業(yè)名稱對應(yīng)的文本向量的相似度,并將相似度大于預(yù)設(shè)閾值的候選企業(yè)名稱召回,實現(xiàn)初始召回。初始召回后,可以確定搜索企業(yè)名稱和初始召回的候選企業(yè)名稱中具有相同屬性的字段所對應(yīng)的向量之間的相似度,然后將對應(yīng)各個屬性的相似度排序,根據(jù)預(yù)設(shè)的相似度閾值獲取對應(yīng)各個屬性的候選企業(yè)名稱,并將其中共有的候[0082]基于本公開中的詞嵌入表示學(xué)習(xí)方法和文本召回方法能夠召回包含搜索字符串的文本,還能召回包含與搜索字符串在詞形學(xué)上相近的字符的文本,提高了召回數(shù)量和召回質(zhì)量,避免了搜索字符串輸入錯誤或識別錯誤導(dǎo)致的召回信息不準(zhǔn)確、不完整的情況,進一步提高了用戶體驗。[0083]以下介紹本公開的裝置實施例,可以用于執(zhí)行本公開上述實施例中的詞嵌入表示學(xué)習(xí)方法和文本召回方法。對于本公開裝置實施例中未披露的細(xì)節(jié),請參照本公開上述的詞嵌入表示學(xué)習(xí)方法和文本召回方法的實施例。[0084]圖8示意性示出了根據(jù)本公開的一個實施例的詞嵌入表示學(xué)習(xí)裝置的框圖。[0085]參照圖8所示,根據(jù)本公開的一個實施例的詞嵌入表示學(xué)習(xí)裝置800,包括:圖構(gòu)建模塊801、采樣模塊802和詞嵌入獲取模塊803。[0086]其中,圖構(gòu)建模塊801,用于獲取文本語料,對所述文本語料進行分詞處理,并基于得到的分詞和所述分詞對應(yīng)的發(fā)音信息構(gòu)建圖結(jié)構(gòu);采樣模塊802,用于以所述圖結(jié)構(gòu)中的各節(jié)點為初始節(jié)點,隨機游走獲取與所述初始節(jié)點對應(yīng)的節(jié)點序列;詞嵌入獲取模塊803,用于根據(jù)所述節(jié)點序列對詞嵌入表示模型進行訓(xùn)練以獲取詞嵌入查找表,并基于所述詞嵌入查找表確定與所述文本語料對應(yīng)的詞嵌入表示。[0087]在本公開的一個實施例中,所述文本語料為中文文本,所述發(fā)音信息為所述中文文本經(jīng)分詞處理所得到的各分詞中每個字對應(yīng)的拼音;所述圖構(gòu)建模塊801配置為:以與所述中文文本對應(yīng)的分詞和所述拼音為節(jié)點,以所述分詞、所述分詞中的單字以及所述單字對應(yīng)的拼音之間的關(guān)系為邊,根據(jù)所述節(jié)點和所述邊構(gòu)建無向無環(huán)圖。[0088]在本公開的一個實施例中,所述圖構(gòu)建模塊801還配置為:在構(gòu)建所述無向無環(huán)圖時,根據(jù)預(yù)設(shè)規(guī)則對各所述邊設(shè)置權(quán)重。[0089]在本公開的一個實施例中,所述邊包括在拼音相同字不同以及拼音相近字相同的節(jié)點關(guān)系上建立的邊。[0090]在本公開的一個實施例中,所述采樣模塊802配置為:獲取預(yù)設(shè)的第一參數(shù)和第二參數(shù),根據(jù)當(dāng)前節(jié)點、與所述當(dāng)前節(jié)點相鄰的歷史節(jié)點和未來節(jié)點、所述第一參數(shù)和所述第二參數(shù)確定所述當(dāng)前節(jié)點跳到所述歷史節(jié)點以及所述當(dāng)前節(jié)點跳到所述未來節(jié)點的游走概率;根據(jù)所述游走概率確定游走方向,并基于所述游走方向確定所述節(jié)點序列。[0091]在本公開的一個實施例中,所述詞嵌入獲取模塊803包括:預(yù)測信息獲取單元,用于將所述節(jié)點序列輸入至所述詞嵌入表示模型,以獲取預(yù)測信息;損失函數(shù)確定單元,用于根據(jù)所述預(yù)測信息和所述節(jié)點序列對應(yīng)的標(biāo)記信息確定損失函數(shù);參數(shù)優(yōu)化單元,用于基于所述損失函數(shù)對所述詞嵌入表示模型的參數(shù)進行優(yōu)化,以使所述損失函數(shù)的值達到最小,并將訓(xùn)練后的所述詞嵌入表示模型中隱藏層所對應(yīng)的嵌入矩陣作為所述詞嵌入查找表。[0092]在本公開的一個實施例中,所述詞嵌入獲取模塊803配置為:獲取基于所述圖結(jié)構(gòu)構(gòu)建的詞表,并根據(jù)所述詞表獲取所述文本語料中的分詞所對應(yīng)的編碼;根據(jù)所述編碼在所述詞嵌入查找表中確定與所述分詞對應(yīng)的詞嵌入;根據(jù)所有所述分詞對應(yīng)的詞嵌入確定與所述文本語料對應(yīng)的詞嵌入表示。[0093]圖9示意性示出了根據(jù)本公開的一個實施例的文本召回裝置的框圖。[0094]參照圖9所示,根據(jù)本公開的一個實施例的文本召回裝置900,包括:分詞模塊901、詞嵌入獲取模塊902和召回模塊903。[0095]其中,分詞模塊901,用于獲取搜索字符串,對所述搜索字符串進行分詞處理,以獲取搜索分詞;詞嵌入獲取模塊902,用于根據(jù)所述搜索分詞在詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入,所述詞嵌入查找表是根據(jù)上述實施例中的詞嵌入表示學(xué)習(xí)方法所獲取的詞嵌入查找表;召回模塊903,用于根據(jù)所有所述搜索分詞對應(yīng)的詞嵌入獲取與所述搜索字符串對應(yīng)的搜索向量,并根據(jù)所述搜索向量和候選文本對應(yīng)的文本向量確定召回文本。[0096]在本公開的一個實施例中,所述詞嵌入獲取模塊902配置為:確定所述搜索字符串對應(yīng)的業(yè)務(wù)場景,根據(jù)所述業(yè)務(wù)場景確定目標(biāo)詞嵌入查找表;根據(jù)所述搜索分詞在所述目標(biāo)詞嵌入查找表中進行查詢,以獲取與所述搜索分詞對應(yīng)的詞嵌入。[0097]在本公開的一個實施例中,所述候選文本的數(shù)量為多個;所述召回模塊903包括:召回單元,用于獲取所述搜索向量與各所述候選文本對應(yīng)的文本向量之間的第一相似度,根據(jù)所述第一相似度確定所述召回文本。[0098]在本公開的一個實施例中,所述搜索字符串和所述候選文本包括多個不同屬性的字段;所述召回單元配置為:根據(jù)所述候選文本及所述文本向量進行倒排索引,并確定所述搜索向量與各所述文本向量之間的第二相似度,根據(jù)所述第二相似度進行初始召回;獲取所述搜索字符串與所述初始召回得到的候選文本中具有相同屬性的字段所對應(yīng)的向量之間的第三相似度,根據(jù)所述第三相似度在所述初始召回的結(jié)果中進行再召回,以獲取所述[0099]圖10示出了適于用來實現(xiàn)本公開實施例的電子設(shè)備的計算機系統(tǒng)的結(jié)構(gòu)示意圖。[0100]需要說明的是,圖10示出的電子設(shè)備的計算機系統(tǒng)1000僅是一個示例,不應(yīng)對本公開實施例的功能和使用范圍帶來任何限制。[0101]如圖10所示,計算機系統(tǒng)1000包括中央處理單元(CentralProcessingUnit,CPU)1001,其可以根據(jù)存儲在只讀存儲器(Read-OnlyMemory,ROM)1002中的程序或者從存儲部分1008加載到隨機訪問存儲器(RandomAccessMemory,RAM)1003中的程序而執(zhí)行各系統(tǒng)操作所需的各種程序和數(shù)據(jù)。CPU1001、ROM1002以及RAM1003通過總線1004彼此相連。輸入/輸出(Input/Output,I/O)接口1005也連接至總線1004。[0102]以下部件連接至I/0接口1005:包括鍵盤、鼠標(biāo)等的輸入部分1006;包括諸如陰極器等的輸出部分1007;包括硬盤等的存儲部分1008;以及包括諸如LAN(LocalAreaNetwork,局域網(wǎng))卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分1009。通信部分1009經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器1010也根據(jù)需要連接至I/0接口1005??刹鹦督橘|(zhì)從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分1008。[0103]特別地,根據(jù)本公開的實施例,下文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分1009從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)1011被安裝。在該計算機程序被中央處理單元(CPU)1001執(zhí)行時,執(zhí)行本公開的系統(tǒng)中限定的各種功能。[0104]需要說明的是,本公開實施例所示的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論