CN112528654B 自然語言處理方法、裝置及電子設備 (作業(yè)幫教育科技(北京)有限公司)_第1頁
CN112528654B 自然語言處理方法、裝置及電子設備 (作業(yè)幫教育科技(北京)有限公司)_第2頁
CN112528654B 自然語言處理方法、裝置及電子設備 (作業(yè)幫教育科技(北京)有限公司)_第3頁
CN112528654B 自然語言處理方法、裝置及電子設備 (作業(yè)幫教育科技(北京)有限公司)_第4頁
CN112528654B 自然語言處理方法、裝置及電子設備 (作業(yè)幫教育科技(北京)有限公司)_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

(19)國家知識產權局(12)發(fā)明專利(10)授權公告號CN112528654B(65)同一申請的已公布的文獻號(73)專利權人作業(yè)幫教育科技(北京)有限公司基地開拓路1號4層4002(74)專利代理機構北京清誠知識產權代理有限公司11691專利代理師宋紅艷審查員王艷臣自然語言處理方法、裝置及電子設備本發(fā)明屬于計算機信息處理技術領域,提供一種自然語言處理方法、裝置、電子設備及計算機可讀介質,該方法包括:對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理2獲取分詞字典;基于所述分詞字典對實時文本數(shù)據(jù)進行分詞,生成詞匯網(wǎng)絡,所述詞匯網(wǎng)絡為有向無基于動態(tài)規(guī)劃算法確定所述詞匯網(wǎng)絡中的最大概率路徑;包括:先通過詞匯網(wǎng)絡將所有的分詞路徑都搜索出來,然后分詞的路徑就是概率最大的路徑,每個路徑的概率=該路徑所有詞的概率乘積;基于所述最大概率路徑確定文字和詞匯;基于所述文本數(shù)據(jù)的內容確定所述文本數(shù)據(jù)的領域屬性;和/或基于所述文本數(shù)據(jù)的標簽確定所述文本數(shù)據(jù)的領域屬性;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和所述詞匯對應的第二權重;根據(jù)所述第一權重和所述字向量生成第一句向量;根據(jù)所述第二權重將和所述詞向量生成第二句向量;將第一句向量和第二句向量進行拼接以生成句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理。2.根據(jù)權利要求1所述的自然語言處理方法,其特征在于,還包括:提取數(shù)據(jù)庫中多個預設文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量將所述文本數(shù)據(jù)和所述多個預設文本數(shù)據(jù)進行相似度比較;根據(jù)相似度比較結果由所述多個預設文本數(shù)據(jù)中確定目標文本數(shù)據(jù)。3.根據(jù)權利要求1所述的自然語言處理方法,其特征在于,還包括:4.根據(jù)權利要求1所述的自然語言處理方法,其特征在于,將所述文本數(shù)據(jù)和其對應的將所述文本數(shù)據(jù)和其對應的領域屬性輸入訓練完畢的BERT模型中以生成字向量;可選地,將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量,包將所述文本數(shù)據(jù)和其對應的領域屬性輸入訓練完畢的Word2vec模型中以生成詞向量。5.根據(jù)權利要求1所述的自然語言處理方法,其特征在于,基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和所述詞匯對應的第二權重,包括:基于所述文本數(shù)據(jù)中所述文字和所述詞匯對應的逆文檔頻率確定所述第一權重和所述第二權重。6.一種自然語言處理裝置,其特征在于,采用權利要分詞模塊,用于獲取分詞字典;基于所述分詞字典對文本數(shù)據(jù)進行分詞,生成詞匯網(wǎng)絡,所述詞匯網(wǎng)絡為有向無環(huán)圖;基于動態(tài)規(guī)劃算法確定所述詞匯網(wǎng)絡中的最大概率路徑;基于所述最大概率路徑確定文字和詞匯;基于所述文本數(shù)據(jù)的內容確定所述文本數(shù)據(jù)的領3域屬性;和/或基于所述文本數(shù)據(jù)的標簽確定所述文本數(shù)據(jù)的領域屬性;文字模塊,用于將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向詞匯模塊,用于將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向權重模塊,用于基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和所述詞匯對應的第二權重;向量模塊,用于根據(jù)所述第一權重和所述字向量生成第一句向量;根據(jù)所述第二權重將和所述詞向量生成第二句向量;將第一句向量和第二句向量進行拼接以生成句子語義向語義模塊,用于基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理。7.一種電子設備,包括處理器和存儲器,所述存儲器用于存儲計算機可執(zhí)行程序,其特征在于:當所述計算機可執(zhí)行程序被所述處理器執(zhí)行時,所述處理器執(zhí)行如權利要求1-5中任一項所述的方法。8.一種計算機可讀介質,存儲有計算機可執(zhí)行程序,其特征在于,所述計算機可執(zhí)行程序被執(zhí)行時,實現(xiàn)如權利要求1-5中任一項所述的方法。4自然語言處理方法、裝置及電子設備技術領域[0001]本發(fā)明屬于計算機信息處理領域技術領域,特別適用于機器的語義識別領域,更具體的是涉及一種自然語言處理方法、裝置、電子設備及計算機可讀介質。背景技術[0002]自然語言處理(NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。實際上,自然語言處理,即實現(xiàn)人機間自然語言通信,或實現(xiàn)自然語言理解和自然語言生成是十分困難的。一個中文文本或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多個中文文本或多個漢字串來表示。[0003]現(xiàn)代NLP算法是基于機器學習,特別是統(tǒng)計機器學習。機器學習范式是不同于一般之前的嘗試語言處理。語言處理任務的實現(xiàn),通常涉及直接用手的大套規(guī)則編碼。通常做法是,基于常用語料庫對機器學習模型進行訓練,對一段含有自然語言的文本數(shù)據(jù)進行分詞處理,將分詞處理后的結果輸入到訓練好的機器學習模型中,然后基于詞向量進行語義識[0004]在所述背景技術部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現(xiàn)有技術的信息。發(fā)明內容[0005]本發(fā)明旨在解決現(xiàn)有技術的自然語言處理中存在的困境,因為現(xiàn)有技術中的自然語言處理過程,均為基于分詞的方式進行的,而在實際的中文中,單字也能表達很多含義;而且,現(xiàn)有技術中的自然語言處理模型均是基于寬泛的語料庫進行訓練,力求得到一個適用于所有場景的自然語言處理模型。以上兩個缺點使得現(xiàn)有技術中的自然語言處理模型計算較慢,而且在某些場景中給出的分析結果不夠準確。[0006]為解決上述技術問題,本發(fā)明的一方面提出一種自然語言處理方法,該方法包括:對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處[0007]根據(jù)本發(fā)明的優(yōu)選實施方式,還包括:提取數(shù)據(jù)庫中多個預設文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量將所述文本數(shù)據(jù)和所述多個預設文本數(shù)據(jù)進行相似度比5較;根據(jù)相似度比較結果由所述多個預設文本數(shù)據(jù)中確定目標文本數(shù)據(jù)。[0008]根據(jù)本發(fā)明的優(yōu)選實施方式,還包括:基于多個帶有領域屬性的語料對深度神經(jīng)網(wǎng)絡模型進行訓練,生成所述文字向量模型;基于多個帶有領域屬性的語料對淺層神經(jīng)網(wǎng)絡模型進行訓練,生成所述詞匯向量模型。[0009]根據(jù)本發(fā)明的優(yōu)選實施方式,對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/所述詞匯網(wǎng)絡為有向無環(huán)圖;基于所述詞匯網(wǎng)絡確定所述詞匯。[0010]根據(jù)本發(fā)明的優(yōu)選實施方式,基于所述詞匯網(wǎng)絡確定所述詞匯,包括:基于動態(tài)規(guī)劃算法確定所述詞匯網(wǎng)絡中的最大概率路徑;基于所述最大概率路徑確定所述詞匯。[0011]根據(jù)本發(fā)明的優(yōu)選實施方式,對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯后,還包括:基于所述文本數(shù)據(jù)的內容確定所述文本數(shù)據(jù)的領域屬性;和/或基于所述文本數(shù)據(jù)的標簽確定所述文本數(shù)據(jù)的領域屬性。[0012]根據(jù)本發(fā)明的優(yōu)選實施方式,將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量中以生成字向量。[0013]根據(jù)本發(fā)明的優(yōu)選實施方式,將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量,包括:將所述文本數(shù)據(jù)和其對應的領域屬性輸入訓練完畢的Word2vec模型中以生成詞向量。[0014]根據(jù)本發(fā)明的優(yōu)選實施方式,基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重,包括:基于所述文本數(shù)據(jù)中所述文字和/或所述詞匯對應的逆文檔頻率確定所述第一權重和/或所述第二權重。[0015]根據(jù)本發(fā)明的優(yōu)選實施方式,通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量,包括:根據(jù)所述第一權重和/或所述第二權重將所述字向量和/或所述詞向量進行拼接以生成所述句子語義向量。[0016]本發(fā)明第二方面提出一種自然語言處理裝置,該裝置包括:分詞模塊,用于對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;文字模塊,用于將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;詞匯模塊,用于將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;權重模塊,用于基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;向量模塊,用于通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;語義模塊,用于基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理。[0017]本發(fā)明第三方面提出一種電子設備,包括處理器和存儲器,所述存儲器用于存儲計算機可執(zhí)行程序,當所述計算機程序被所述處理器執(zhí)行時,所述處理器執(zhí)行所述的方法。[0018]本發(fā)明第四方面還提出一種計算機可讀介質,存儲有計算機可執(zhí)行程序,所述計算機可執(zhí)行程序被執(zhí)行時,實現(xiàn)所述的方法。[0019]根據(jù)本公開的自然語言處理方法、裝置、電子設備及計算機可讀介質,通過對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的6第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理的方式,能夠有效提升句子的語義表達能力,對句子級別的自然語言處理任務在保證其簡便高效性的前提下大大的增強了其語義表達能力,達到對下游任務產生積極正向作用的目的。[0020]應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性的,并不能限制本公開。附圖說明[0021]圖1是本發(fā)明的一個實施例的自然語言處理方法及裝置的系統(tǒng)框圖。[0022]圖2是本發(fā)明的一個實施例的自然語言處理方法的流程圖。[0023]圖3是本發(fā)明的一個實施例的自然語言處理方法的流程圖。[0024]圖4是本發(fā)明的一個實施例的自然語言處理方法的流程圖。[0025]圖5是本發(fā)明的一個實施例的自然語言處理裝置的框圖。[0026]圖6是本發(fā)明的一個實施例的電子設備的結構示意圖;[0027]圖7是本發(fā)明的一個實施例的計算機可讀記錄介質的示意圖。具體實施方式[0028]在對于具體實施例的介紹過程中,對結構、性能、效果或者其他特征的細節(jié)描述是為了使本領域的技術人員對實施例能夠充分理解。但是,并不排除本領域技術人員可以在特定情況下,以不含有上述結構、性能、效果或者其他特征的技術方案[0029]附圖中的流程圖僅是一種示例性的流程演示,不代表本發(fā)明的方案中必須包括流程圖中的所有的內容、操作和步驟,也不代表必須按照圖中所顯示的的順序執(zhí)行。例如,流程圖中有的操作/步驟可以分解,有的操作/步驟可以合并或部分合并,等等,在不脫離本發(fā)明的發(fā)明主旨的情況下,流程圖中顯示的執(zhí)行順序可以根據(jù)實際情況改變。[0030]附圖中的框圖一般表示的是功能實體,并不一定必然與物理上獨立的實體相對應。即,可以采用軟件形式來實現(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡和/或處理單元裝置和/或微控制器裝置中實現(xiàn)這些功能實[0031]各附圖中相同的附圖標記表示相同或類似的元件、組件或部分,因而下文中可能省略了對相同或類似的元件、組件或部分的重復描述。還應理解,雖然文本中可能使用第組件或部分不應受這些定語的限制。也就是說,這些定語僅是用來將一者與另一者區(qū)分。例如,第一器件亦可稱為第二器件,但不偏離本發(fā)明實質的技術方案。此外,術語“和/或”、“及/或”是指包括所列出項目中的任一個或多個的所有組合。[0032]為解決上述技術問題,本發(fā)明提出一種自然語言處理方法、裝置、電子設備及計算機可讀介質,對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二7權重確定所述文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理的方式,能夠有效提升句子的語義表達能力,對句子級別的自然語言處理任務在保證其簡便高效性的前提下大大的增強了其語義表達能力,達到對下游任務產生積極正向作用的目的。[0033]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明作進一步的詳細說明。[0034]在對于具體實施例的介紹過程中,對結構、性能、效果或者其他特征的細節(jié)描述是為了使本領域的技術人員對實施例能夠充分理解。但是,并不排除本領域技術人員可以在特定情況下,以不含有上述結構、性能、效果或者其他特征的技術方案[0035]附圖中的流程圖僅是一種示例性的流程演示,不代表本發(fā)明的方案中必須包括流程圖中的所有的內容、操作和步驟,也不代表必須按照圖中所顯示的的順序執(zhí)行。例如,流程圖中有的操作/步驟可以分解,有的操作/步驟可以合并或部分合并,等等,在不脫離本發(fā)明的發(fā)明主旨的情況下,流程圖中顯示的執(zhí)行順序可以根據(jù)實際情況改變。[0036]附圖中的框圖一般表示的是功能實體,并不一定必然與物理上獨立的實體相對應。即,可以采用軟件形式來實現(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡和/或處理單元裝置和/或微控制器裝置中實現(xiàn)這些功能實[0037]各附圖中相同的附圖標記表示相同或類似的元件、組件或部分,因而下文中可能省略了對相同或類似的元件、組件或部分的重復描述。還應理解,雖然文本中可能使用第組件或部分不應受這些定語的限制。也就是說,這些定語僅是用來將一者與另一者區(qū)分。例如,第一器件亦可稱為第二器件,但不偏離本發(fā)明實質的技術方案。此外,術語“和/或”、“及/或”是指包括所列出項目中的任一個或多個的所有組合。[0038]圖1是根據(jù)一示例性實施例示出的一種自然語言處理方法及裝置的系統(tǒng)框圖。絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網(wǎng)絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。[0040]用戶可以使用終端設備101、102、103通過網(wǎng)絡104與服務器105交互,以接收或發(fā)送消息等。終端設備101、102、103上可以安裝有各種通訊客戶端應用,例如輔助學習類應[0041]終端設備101、102、103可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設備,包括但不限于智能手機、平板電腦、膝上型便攜計算機和臺式計算機等等。[0042]在一個實施例中,終端設備101、102、103可例如對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;終端設備101、102、103可例如將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;終端設備101、102、103應的領域屬性輸入詞匯向量模型中,獲取詞向量;終端設備101、102、1本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;終端設備101、102、103可例如通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;終端設備101、102、103可例如基于所述句子語義向量對所述實時文8本數(shù)據(jù)進行自然語言處理。其中,文字向量模型和詞匯向量模型可位于終端設備101、102、103的本地或服務器105端。[0043]服務器105可以是提供各種服務的服務器,例如對用戶利用終端設備101、102、103所瀏覽的視頻學習類網(wǎng)站提供支持的后臺管理服務器。后臺管理服務器可以對接收到的文[0044]在一個實施例中,服務器105可例如由終端設備101、102、103獲取文本數(shù)據(jù),然后對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;服務器105可例如將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;服務器105可例如將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;服務器105可例如基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;服務器105可例如通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;服務器105可例如基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理。[0045]服務器105還可例如提取數(shù)據(jù)庫中多個預設文本數(shù)據(jù)的句子語義向量;服務器105還可例如基于所述句子語義向量將所述文本數(shù)據(jù)和所述多個預設文本數(shù)據(jù)進行相似度比較;服務器105還可例如根據(jù)相似度比較結果由所述多個預設文本數(shù)據(jù)中確定目標文本數(shù)[0046]服務器105還可例如基于多個帶有領域屬性的語料對深度神經(jīng)網(wǎng)絡模型進行訓練,生成所述文字向量模型;服務器105還可例如基于多個帶有領域屬性的語料對淺層神經(jīng)網(wǎng)絡模型進行訓練,生成所述詞匯向量模型。[0047]服務器105可以是一個實體的服務器,還可例如為多個服務器組成,服務器105中的一部分可例如進行機器學習模型的訓練,生成文字向量模型和詞匯向量模型;以及服務器105中的一部分還可例如對文本數(shù)據(jù)進行自然語言處理。[0048]需要說明的是,本公開實施例所提供的自然語言處理方法可以由服務器105或終端設備101、102、103執(zhí)行,相應地,自然語言處理裝置可以設置于服務器105或終端設備[0049]圖2是根據(jù)一示例性實施例示出的一種自然語言處理方法的流程圖。自然語言處理方法20至少包括步驟S202至S212。[0050]如圖2所示,在S202中,對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯。其中,文本數(shù)據(jù)可為來自于人機交互過程中,用戶的文字數(shù)據(jù),或者是用戶的語音數(shù)據(jù)轉換而成的文字數(shù)據(jù),文本數(shù)據(jù)中可包括一句或者多句由自然語言組成的語句。[0051]在本公開中,分詞處理可為中文分詞處理,分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程?,F(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。在本發(fā)明中,可利用上述一種或多種方法對文本數(shù)據(jù)進行分詞處理,以生成多個中文的字和詞匯。[0052]在一個實施例中,還包括:基于所述文本數(shù)據(jù)的內容確定所述文本數(shù)據(jù)的領域屬性;和/或基于所述文本數(shù)據(jù)的標簽確定所述文本數(shù)據(jù)的領域屬性??捎扇藱C對話的對話請求中獲取文本數(shù)據(jù)的領域屬性,還可由所述文本數(shù)據(jù)切詞之后的文字中,確定領域屬性,本公開不以此為限。9[0053]在S204中,將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量。可例如,將所述文本數(shù)據(jù)和其對應的領域屬性輸入訓練完畢的BERT模型中以生成字向[0054]在一個實施例中,還包括:基于多個帶有領域屬性的語料對深度神經(jīng)網(wǎng)絡模型進行訓練,生成所述文字向量模型;其中,深度神經(jīng)網(wǎng)絡模型可為BERT系列的深度神經(jīng)網(wǎng)絡模語料(維基百科)上訓練了一個通用的“語言理解”模型,然后用這個模型去執(zhí)行想做的NLP要用純文本語料來訓練,因為海量的文本語料可以在各種語言的網(wǎng)絡的公開得到。預訓練表示可以是上下文無關的,也可以是上下文相關的,而且,上下文相關的表示可以是單向的或雙向的。[0055]在本發(fā)明的實施例中,進行BERT模型訓練的時候,語料數(shù)據(jù)的BERT模型進行訓練,生成針對不同領域屬性的文字向量模型。[0056]在S206中,將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量。可例如,將所述文本數(shù)據(jù)和其對應的領域屬性輸入訓練完畢的Word2vec模型中以生成[0057]在一個實施例中,還包括:基于多個帶有領域屬性的語料對淺層神經(jīng)網(wǎng)絡模型進行訓練,生成所述詞匯向量模型。淺層神經(jīng)網(wǎng)絡模型可為Word2vec模型,Word2vec是一群用來產生詞向量的相關模型。這些模型為淺而雙層的神經(jīng)網(wǎng)絡,用來訓練以重新建構語言學之詞文本。網(wǎng)絡以詞表現(xiàn),并且需猜測相鄰位置的輸入詞,在word2vec中詞袋模型假設下,詞的順序是不重要的。訓練完成之后,word2vec模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關系,該向量為神經(jīng)網(wǎng)絡之隱藏層。[0058]在本發(fā)明的實施例中,進行word2vec模型訓練的時候,語料數(shù)據(jù)輸入的時候,也是對不同的word2vec模型進行訓練,生成針對不同領域屬性的詞匯向量模型。[0059]在S208中,基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重。可基于所述文本數(shù)據(jù)中所述文字和/或所述詞匯對應的逆文檔頻率確定所述第一權重和/或所述第二權重。[0060]其中,逆文檔頻率(TF-IDF)是一種統(tǒng)計方法,用以評估一個字或一個詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權的各種形式作為本發(fā)明中字或詞的重要度評級。[0061]在S210中,通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量??衫?,根據(jù)所述第一權重和/或所述第二權重將所述字向量和/或所述詞向量進行拼接以生成所述句子語義向量。[0064]2)獲取各詞向量:今天:[0.1,0.2,0.3];是:[0.4,0.5,0.6];陰天:[0.7,0.8,[0065]3)該句的詞向量切分方式對應的第二句向量:(idf(今天)*[0.1,0.2,0.3]+idf(是)*[0.4,0.5,0.6]+idf(陰天)*[0.7,0.8,0.9])/3,結果也一個三維向量(也可為更多維度的向量,本申請不以此為限);陰:[0.7,0.8,0.9];(另注:字向量和上述2)詞向量長度沒有相等的限制,優(yōu)選的,字和量之間的長度最好差別也不要太大。[0068]6)該句的字向量切分方式對應的第一句向量:(idf(今)*[0.1,0.2,0.3]+idf(天)*[0.12,0.82,0.92]+idf(是)*[0.4,0.5,0.6]+idf(陰)*[0.7,0.8,0.9]+idf(天)*[0.12,0.82,0.92])/5,結果是一個三維向量(也可為更多維度的向量,本申請不以此為限);[0069]7)各粒度句向量拼接:(句向量1,句向量2…),最后維度為各句向量長度的加和.[0070]在S212中,基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理。[0071]在一個實施例中,還包括:提取數(shù)據(jù)庫中多個預設文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量將所述文本數(shù)據(jù)和所述多個預設文本數(shù)據(jù)進行相似度比較;根據(jù)相似度比較結果由所述多個預設文本數(shù)據(jù)中確定目標文本數(shù)據(jù)。可例如,用戶輸入一個文本數(shù)據(jù),文本數(shù)據(jù)中可數(shù)學應用題,根據(jù)用戶輸入的數(shù)據(jù)在試題庫中進行搜索,可以根據(jù)文本數(shù)據(jù)的句子語義向量和試題庫中所有的試題做cosine(余弦)距離計算,以作為兩個句子的相似度,然后在試題庫中確定和文本數(shù)據(jù)中最相似的試題和對應的解答方法,并將結果返回用[0072]根據(jù)本公開的自然語言處理方法,對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理的方式,能夠有效提升句子的語義表達能力,對句子級別的自然語言處理任務在保證其簡便高效性的前提下大大的增強了其語義表達能力,達到對下游任務產生積極正向作用的目的。[0073]應清楚地理解,本公開描述了如何形成和使用特定示例,但本公開的原理不限于這些示例的任何細節(jié)。相反,基于本公開公開的內容的教導,這些原理能夠應用于許多其它[0074]圖3是根據(jù)另一示例性實施例示出的一種自然語言處理方法的流程圖。圖3所示的流程30是對圖2所示的流程中S202“文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞[0076]在S304中,基于所述分詞字典對所述文本數(shù)據(jù)進行分詞,生成詞匯網(wǎng)絡,所述詞匯網(wǎng)絡為有向無環(huán)圖。有向無環(huán)圖指的是一個無回路的有向圖。如果有一個非有向無環(huán)圖,且A點出發(fā)向B經(jīng)C可回到A,形成一個環(huán)。將從C到A的邊方向改為從A到C,則變成有向無環(huán)圖。11有向無環(huán)圖的生成樹個數(shù)等于入度非零的節(jié)點的入度積。[0077]在S306中,基于動態(tài)規(guī)劃算法確定所述詞匯網(wǎng)絡中的最大概率路徑。動態(tài)規(guī)劃算法通常用于求解具有某種最優(yōu)性質的問題。在這類問題中,可能會有許多可行解。每一個解都對應于一個值,我們希望找到具有最優(yōu)值的解。動態(tài)規(guī)劃算法與分治法類似,其基本思想也是將待求解問題分解成若干個子問題,先求解子問題,然后從這些子問題的解得到原問題的解。[0078]在詞匯網(wǎng)絡中,一個階段的狀態(tài)給定以后,從該狀態(tài)演變到下一階段某個狀態(tài)的一種選擇(行動)稱為決策。由每個階段的決策組成的序列稱為策略。對于每一個實際的多階段決策過程,可供選取的策略有一定的范圍限制,這個范圍稱為允許策略集合。允許策略集合中達到最優(yōu)效果的策略稱為最優(yōu)策略,在本發(fā)明中,將最優(yōu)策略定位所有分詞詞匯的最大概率路徑。[0079]更具體的,在本發(fā)明中,先通過詞匯網(wǎng)絡將所有的分詞路徑都搜索出來。然后分詞的路徑就是概率最大的路徑,每個路徑的概率=該路徑所有詞的概率乘積。[0080]在S308中,基于所述最大概率路徑確定所述詞匯。[0081]圖4是根據(jù)另一示例性實施例示出的一種自然語言處理方法的流程圖。圖4所示的流程40是對本發(fā)明的自然語言處理方法全過程的詳細描述。[0082]如圖4所示,在S402中,收集語料數(shù)據(jù),生成多個語料數(shù)據(jù)集合。收集公開領域語料。[0083]在S404中,各個語料數(shù)據(jù)集合中的數(shù)據(jù)是否處理完畢。[0085]在S408中,字/詞分詞處理,分別統(tǒng)計其IDF。對文本句子分別按字和詞粒度進行切[0086]在S410中,分別對字/詞分詞后的句子,訓練字/詞向量。采用神經(jīng)網(wǎng)絡分別對字和獲取相應的字詞向量,各自進行tf-idf加權后拼接,從而生成句子語義向量,將其做為該句的表征。[0089]本領域技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟被實現(xiàn)為由CPU執(zhí)行的計算機程序。在該計算機程序被CPU執(zhí)行時,執(zhí)行本公開提供的上述方法所限定的上述功能。所述的程序可以存儲于一種計算機可讀存儲介質中,該存儲介質可以是只讀存儲器,磁盤或光盤等。[0090]此外,需要注意的是,上述附圖僅是根據(jù)本公開示例性實施例的方法所包括的處理的示意性說明,而不是限制目的。易于理解,上述附圖所示的處理并不表明或限制這些處理的時間順序。另外,也易于理解,這些處理可以是例如在多個模塊中同步或異步執(zhí)行的。[0091]下述為本公開裝置實施例,可以用于執(zhí)行本公開方法實施例。對于本公開裝置實施例中未披露的細節(jié),請參照本公開方法實施例。[0092]圖5是根據(jù)一示例性實施例示出的一種自然語言處理裝置的框圖。如圖5所示,自然語言處理裝置50包括:分詞模塊502,文字模塊504,詞匯模塊506,權重模塊508,向量模塊510,語義模塊512。[0093]分詞模塊502用于對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;[0094]文字模塊504用于將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;[0095]詞匯模塊506用于將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;[0096]權重模塊508用于基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;[0097]向量模塊510用于通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;[0098]語義模塊512用于基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處[0099]根據(jù)本公開的自然語言處理裝置,對文本數(shù)據(jù)中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數(shù)據(jù)和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數(shù)據(jù)和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數(shù)據(jù)確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數(shù)據(jù)的句子語義向量;基于所述句子語義向量對所述實時文本數(shù)據(jù)進行自然語言處理的方式,能夠有效提升句子的語義表達能力,對句子級別的自然語言處理任務在保證其簡便高效性的前提下大大的增強了其語義表達能力,達到對下游任務產生積極正向作用的目的。[0100]圖6是本發(fā)明的一個實施例的電子設備的結構示意圖,該電子設備包括處理器和存儲器,所述存儲器用于存儲計算機可執(zhí)行程序,當所述計算機程序被所述處理器執(zhí)行時,所述處理器執(zhí)行基于旋轉角監(jiān)測的車輛智能助力推行方法。[0101]如圖6所示,電子設備以通用計算設備的形式表現(xiàn)。其中處理器可以是一個,也可以是多個并且協(xié)同工作。本發(fā)明也不排除進行分布式處理,即處理器可以分散在不同的實體設備中。本發(fā)明的電子設備并不限于單一實體,也可以是多個實體設備的總和。[0102]所述存儲器存儲有計算機可執(zhí)行程序,通常是機器可讀的代碼。所述計算機可讀程序可以被所述處理器執(zhí)行,以使得電子設備能夠執(zhí)行本發(fā)明的方法,或者方法中的至少部分步驟。[0103]所述存儲器包括易失性存儲器,例如隨機存取存儲單元(RAM)和/或高速緩存存儲[0104]可選的,該實施例中,電子設備還包括有I/0接口,其用于電子設備與外部的設備進行數(shù)據(jù)交換。I/0接口可以為表示幾類總線結構中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結構中的任意總線結構的局域總線。[0105]應當理解,圖6顯示的電子設備僅僅是本發(fā)明的一個示例,本發(fā)明的電子設備中還可以包括上述示例中未示出的元件或組件。例如,有些電子設備中還包括有顯示屏等顯示單元,有些電子設備還包括人機交互元件,例如按扭、鍵盤等。只要該電子設備能夠執(zhí)行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論