CN114064894B 文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)(中國(guó)平安人壽保險(xiǎn)股份有限公司)_第1頁(yè)
CN114064894B 文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)(中國(guó)平安人壽保險(xiǎn)股份有限公司)_第2頁(yè)
CN114064894B 文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)(中國(guó)平安人壽保險(xiǎn)股份有限公司)_第3頁(yè)
CN114064894B 文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)(中國(guó)平安人壽保險(xiǎn)股份有限公司)_第4頁(yè)
CN114064894B 文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)(中國(guó)平安人壽保險(xiǎn)股份有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN114064894B(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(73)專利權(quán)人中國(guó)平安人壽保險(xiǎn)股份有限公司地址518000廣東省深圳市福田區(qū)福田街道益田路5033號(hào)平安金融中心14、15、(72)發(fā)明人袁夢(mèng)菲(74)專利代理機(jī)構(gòu)廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司44205專利代理師廖慧賢GO6F40/30(2020.0本申請(qǐng)實(shí)施例提供了一種文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),屬于人工智能技術(shù)領(lǐng)文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;對(duì)文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;該方法還包括:通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含文本類別標(biāo)簽的目標(biāo)分類文本;或者,通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)量量2獲取待處理的原始文本;對(duì)所述原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;所述方法還包括:通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含所述文本類別標(biāo)簽的目標(biāo)分類文本;通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集;所述對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量,包括:基于預(yù)先訓(xùn)練的文本處理模型的編碼模塊將所述目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空根據(jù)自下而上的編碼順序和編碼維度,對(duì)目標(biāo)文本特征進(jìn)行初次編碼,得到最底層的文本隱向量,并逐層向上進(jìn)行下采樣處理,根據(jù)每一預(yù)設(shè)的特征維度對(duì)應(yīng)的關(guān)鍵詞,識(shí)別出每一特征維度對(duì)應(yīng)的文本隱向量;根據(jù)預(yù)設(shè)的權(quán)重比例,對(duì)多個(gè)特征維度的文本隱向量進(jìn)行加權(quán)處理,得到文本隱性特征向量,所述權(quán)重比例是根據(jù)聚類需求確定的;所述對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量,包括:按照固定的間隔采集文本隱性特征向量的灰度數(shù)值,對(duì)采集到的灰度值進(jìn)行分析;當(dāng)采集到的灰度值不在采樣點(diǎn)上的原始函數(shù)的數(shù)值集合范圍內(nèi)時(shí),則采用最鄰近內(nèi)插法、雙線性內(nèi)插法或者三次卷積法內(nèi)插法對(duì)已采樣點(diǎn)進(jìn)行內(nèi)插處理,得到中間文本向量;基于所述文本處理模型的解碼模塊對(duì)所述中間文本向量進(jìn)行解碼處理,得到目標(biāo)文本2.根據(jù)權(quán)利要求1所述的文本處理方法,其特征在于,所述對(duì)所述原始文本進(jìn)行特征提識(shí)別所述原始文本中的文本實(shí)體特征;利用預(yù)先訓(xùn)練的序列分類器對(duì)所述文本實(shí)體特征進(jìn)行特征分類處理,得到第一文本特對(duì)所述第一文本特征進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的文本處理方法,其特征在于,所述對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編將所述目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空間,得到目標(biāo)文本特征;根據(jù)預(yù)設(shè)的編碼順序和編碼維度,對(duì)所述目標(biāo)文本特征進(jìn)行編碼處理,得到文本隱性特征向量。4.根據(jù)權(quán)利要求1所述的文本處理方法,其特征在于,所述通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含所述文本類別標(biāo)簽的目標(biāo)3根據(jù)預(yù)設(shè)的分類函數(shù)和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到標(biāo)簽文本向量;對(duì)標(biāo)簽文本向量進(jìn)行語(yǔ)義分析處理,得到目標(biāo)分類文本。5.根據(jù)權(quán)利要求4所述的文本處理方法,其特征在于,所述對(duì)標(biāo)簽文本向量進(jìn)行語(yǔ)義分計(jì)算所述標(biāo)簽文本向量和參考文本向量的相似度;根據(jù)所述相似度,對(duì)預(yù)設(shè)的文本詞庫(kù)內(nèi)的文本詞段進(jìn)行篩選處理,得到標(biāo)準(zhǔn)文本詞段;對(duì)所述標(biāo)準(zhǔn)文本詞段進(jìn)行拼接處理,得到目標(biāo)分類文本。6.根據(jù)權(quán)利要求1所述的文本處理方法,其特征在于,所述通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集的步驟,包括:根據(jù)預(yù)設(shè)的聚類算法和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到包含文本聚類標(biāo)簽的目標(biāo)聚類文本;將包含相同文本聚類標(biāo)簽的所述目標(biāo)聚類文本納入同一集合,得到目標(biāo)聚類文本集。原始文本獲取模塊,用于獲取待處理的原始文本;特征提取模塊,用于對(duì)所述原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);編碼處理模塊,用于對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;解碼處理模塊,用于對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;文本處理模塊,用于通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含所述文本類別標(biāo)簽的目標(biāo)分類文本;或者用于通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集;所述對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量,包括:基于預(yù)先訓(xùn)練的文本處理模型的編碼模塊將所述目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空根據(jù)自下而上的編碼順序和編碼維度,對(duì)目標(biāo)文本特征進(jìn)行初次編碼,得到最底層的文本隱向量,并逐層向上進(jìn)行下采樣處理,根據(jù)每一預(yù)設(shè)的特征維度對(duì)應(yīng)的關(guān)鍵詞,識(shí)別出每一特征維度對(duì)應(yīng)的文本隱向量;根據(jù)預(yù)設(shè)的權(quán)重比例,對(duì)多個(gè)特征維度的文本隱向量進(jìn)行加權(quán)處理,得到文本隱性特征向量,所述權(quán)重比例是根據(jù)聚類需求確定的;所述對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量,包括:按照固定的間隔采集文本隱性特征向量的灰度數(shù)值,對(duì)采集到的灰度值進(jìn)行分析;當(dāng)采集到的灰度值不在采樣點(diǎn)上的原始函數(shù)的數(shù)值集合范圍內(nèi)時(shí),則采用最鄰近內(nèi)插法、雙線性內(nèi)插法或者三次卷積法內(nèi)插法對(duì)已采樣點(diǎn)進(jìn)行內(nèi)插處理,得到中間文本向量;基于所述文本處理模型的解碼模塊對(duì)所述中間文本向量進(jìn)行解碼處理,得到目標(biāo)文本8.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲(chǔ)器、處理器、存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序以及用于實(shí)現(xiàn)所述處理器和所述存儲(chǔ)器之間的連接通信的數(shù)據(jù)總線,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的文本處理方法的步驟。49.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于計(jì)算機(jī)可讀存儲(chǔ),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)計(jì)算機(jī)程序,所述一個(gè)或者多個(gè)計(jì)算機(jī)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的文本處理方法的步驟。5文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)技術(shù)領(lǐng)域[0001]本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。背景技術(shù)[0002]目前,在對(duì)文本處理時(shí),常常是將多標(biāo)簽文本分類/聚類任務(wù)分為多個(gè)單標(biāo)簽的二元分類/聚類任務(wù),使用待處理文本和類別標(biāo)簽的關(guān)系來(lái)進(jìn)行分類/聚類,這種方法雖然能夠捕獲到待處理文本與類別標(biāo)簽間的關(guān)系,但是忽略了類別標(biāo)簽與類別標(biāo)簽之間的關(guān)系,從而導(dǎo)致文本處理的準(zhǔn)確性差。因此,如何提供一種文本處理方法,能夠提高文本分類或者文本聚類的準(zhǔn)確性,成為了亟待解決的技術(shù)問(wèn)題。發(fā)明內(nèi)容[0003]本申請(qǐng)實(shí)施例的主要目的在于提出一種文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),旨在提高文本分類或者文本聚類的準(zhǔn)確性。[0004]為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第一方面提出了一種文本處理方法,所述方法包括:[0005]獲取待處理的原始文本;[0006]對(duì)所述原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);[0007]對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;[0008]對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;[0009]所述方法還包括:[0010]通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含所述文本類別標(biāo)簽的目標(biāo)分類文本;[0011]或者,[0012]通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集。[0013]在一些實(shí)施例,所述對(duì)所述原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù)的步驟,包[0014]識(shí)別所述原始文本中的文本實(shí)體特征;[0015]利用預(yù)先訓(xùn)練的序列分類器對(duì)所述文本實(shí)體特征進(jìn)行特征分類處理,得到第一文本特征;[0016]對(duì)所述第一文本特征進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù)。[0017]在一些實(shí)施例,所述對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量[0018]對(duì)所述文本隱性特征向量進(jìn)行數(shù)據(jù)重采樣處理,得到中間文本向量;[0019]對(duì)所述中間文本向量進(jìn)行解碼處理,得到目標(biāo)文本向量。6[0020]在一些實(shí)施例,所述對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量[0021]將所述目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空間,得到目標(biāo)文本特征;[0022]根據(jù)預(yù)設(shè)的編碼順序和編碼維度,對(duì)所述目標(biāo)文本特征進(jìn)行編碼處理,得到文本隱性特征向量。[0023]在一些實(shí)施例,所述通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含所述文本類別標(biāo)簽的目標(biāo)分類文本的步驟,包括:[0024]根據(jù)預(yù)設(shè)的分類函數(shù)和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到標(biāo)簽文本向量;[0025]對(duì)標(biāo)簽文本向量進(jìn)行語(yǔ)義分析處理,得到目標(biāo)分類文本。[0026]在一些實(shí)施例,所述對(duì)標(biāo)簽文本向量進(jìn)行語(yǔ)義分析處理,得到目標(biāo)分類文本的步[0027]計(jì)算所述標(biāo)簽文本向量和參考文本向量的相似度;[0028]根據(jù)所述相似度,對(duì)預(yù)設(shè)的文本詞庫(kù)內(nèi)的文本詞段進(jìn)行篩選處理,得到標(biāo)準(zhǔn)文本詞段;[0029]對(duì)所述標(biāo)準(zhǔn)文本詞段進(jìn)行拼接處理,得到目標(biāo)分類文本。[0030]在一些實(shí)施例,所述對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量[0031]將所述目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空間,得到目標(biāo)文本特征;[0032]根據(jù)預(yù)設(shè)的編碼順序和編碼維度,對(duì)所述目標(biāo)文本特征進(jìn)行編碼處理,得到預(yù)設(shè)特征維度的文本隱向量;[0033]根據(jù)預(yù)設(shè)的權(quán)重比例,對(duì)所述文本隱向量進(jìn)行加權(quán)處理,得到文本隱性特征向量。[0034]在一些實(shí)施例,所述通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集的步驟,包括:[0035]根據(jù)預(yù)設(shè)的聚類算法和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到包含文本聚類標(biāo)簽的目標(biāo)聚類文本;[0036]將包含相同文本聚類標(biāo)簽的所述目標(biāo)聚類文本納入同一集合,得到目標(biāo)聚類文本[0037]為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第二方面提出了一種文本處理裝置,所述裝置包括:[0038]原始文本獲取模塊,用于獲取待處理的原始文本;[0039]特征提取模塊,用于對(duì)所述原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);[0040]編碼處理模塊,用于對(duì)所述目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;[0041]解碼處理模塊,用于對(duì)所述文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;[0042]文本處理模塊,用于通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含所述文本類別標(biāo)簽的目標(biāo)分類文本;或者用于通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)所述目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集。[0043]為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器、處理器、存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序以及用7于實(shí)現(xiàn)所述處理器和所述存儲(chǔ)器之間的連接通信的數(shù)據(jù)總線,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。[0044]為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于計(jì)算機(jī)可讀存儲(chǔ),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)計(jì)算機(jī)程序,所述一個(gè)或者多個(gè)計(jì)算機(jī)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)上述第一方面所述的方法。[0045]本申請(qǐng)?zhí)岢龅奈谋咎幚矸椒?、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其通過(guò)獲取待處理的原始文本;對(duì)原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù),能夠有效地剔除原始文本中相關(guān)性不高的數(shù)據(jù),縮小數(shù)據(jù)總量。進(jìn)而,對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;對(duì)文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;最后,既可以通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含文本類別標(biāo)簽的目標(biāo)分類文本,能夠根據(jù)文本類別對(duì)目標(biāo)文本進(jìn)行分類,提高每一文本類別中的目標(biāo)分類文本的相關(guān)性,從而提高文本分類的準(zhǔn)確性;也可以通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集,通過(guò)對(duì)目標(biāo)文本進(jìn)行聚類處理,可以根據(jù)預(yù)設(shè)的文本聚類標(biāo)簽將相關(guān)性較高的目標(biāo)文本歸為一個(gè)類別,得到目標(biāo)聚類文本集,從而提高文本聚類的準(zhǔn)確性。附圖說(shuō)明[0046]圖1是本申請(qǐng)實(shí)施例提供的文本處理方法的流程圖;[0047]圖2是圖1中的步驟S102的流程圖;[0048]圖3是圖1中的步驟S103的流程圖;[0049]圖4是圖1中的步驟S104的流程圖;[0050]圖5是圖1中的步驟S105的流程圖;[0051]圖6是圖5中的步驟S502的流程圖;[0052]圖7是圖1中的步驟S103的另一流程圖;[0053]圖8是圖1中的步驟S105的另一流程圖;[0054]圖9是本申請(qǐng)實(shí)施例提供的文本處理裝置的結(jié)構(gòu)示意圖;[0055]圖10是本申請(qǐng)實(shí)施例提供的電子設(shè)備的硬件結(jié)構(gòu)示意圖。具體實(shí)施方式[0056]為了使本申請(qǐng)的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本申請(qǐng)進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本申請(qǐng),并不用于限定本申請(qǐng)。[0057]需要說(shuō)明的是,雖然在裝置示意圖中進(jìn)行了功能模塊劃分,在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于裝置中的模塊劃分,或流程圖中的順序執(zhí)行所示出或描述的步驟。說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。[0058]除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語(yǔ)與屬于本申請(qǐng)的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。本文中所使用的術(shù)語(yǔ)只是為了描述本申請(qǐng)實(shí)施例的目的,不是旨在限制本申請(qǐng)。8的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué);人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,人工智能企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。人工智能可以對(duì)人的意識(shí)、思維的信息過(guò)程的模擬。人工智能還是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最[0061]自然語(yǔ)言處理(naturallanguageprocessing,NLP):NLP用計(jì)算機(jī)來(lái)處理、理解以及運(yùn)用人類語(yǔ)言(如中文、英文等),NLP屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科,又常被稱為計(jì)算語(yǔ)言學(xué)。自然語(yǔ)言處理包括語(yǔ)法分析、語(yǔ)義分析、篇章理解等。自然語(yǔ)言處理常用于機(jī)器翻譯、手寫體和印刷體字符識(shí)別、語(yǔ)音識(shí)別及文語(yǔ)轉(zhuǎn)換、信息檢索、信息抽取與過(guò)濾、文本分類與聚類、輿情分析和觀點(diǎn)挖掘等技術(shù)領(lǐng)域,它涉及與語(yǔ)言處理相關(guān)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識(shí)獲取、知識(shí)工程、人工智能研究和與語(yǔ)言計(jì)算相關(guān)的語(yǔ)言學(xué)研究等。[0062]信息抽取(InformationExtraction,NER):從自然語(yǔ)言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。信息抽取是從文本數(shù)據(jù)中抽取特定信息的一種技術(shù)。文本數(shù)據(jù)是由一些具體的單位構(gòu)成的,例如句子、段落、篇信息抽取技術(shù)所抽取的信息可以是各種類型的信息。[0063]變分自解碼器(Variationalauto-encoder,VAE):變分自解碼器是一類重要的生成模型(generativemodel)。變分自解碼器在訓(xùn)練時(shí)加入正則化防止過(guò)擬合,保證隱層空間具有足夠的能力進(jìn)行生成過(guò)程的自編碼器。編碼器生成的分布被選為正態(tài)分布,編碼器就可以訓(xùn)練返回描述這些正太分布的均值和協(xié)方差矩陣這些統(tǒng)計(jì)量。一個(gè)輸入被編碼成分布是因?yàn)樗梢院茏匀坏乇磉_(dá)潛在空間的全局正則化和局部正則化,局部是因?yàn)榉讲畹目刂疲质且驗(yàn)榫档目刂?。變分自編碼器的損失函數(shù)由重構(gòu)項(xiàng)(最后層)和正則項(xiàng)(隱層)組成。正則項(xiàng)為生成的分布和正太分布之間的KL散度來(lái)表示。其中,正則化的作用是使隱層空間可以進(jìn)行生成過(guò)程,所以需滿足以下兩個(gè)特點(diǎn):連續(xù)性和完整性。連續(xù)性可以理解為隱層中兩個(gè)相近的點(diǎn)解碼后應(yīng)該近似是一樣的;完整性理解為分布中采樣得到的點(diǎn)解碼后的內(nèi)容應(yīng)該是有具體意義的。如果單單是將隱層中的點(diǎn)變成分布是不足以滿足上面兩個(gè)特點(diǎn)。所以需要定義一個(gè)好的正則項(xiàng),即編碼器生成的分布接近標(biāo)準(zhǔn)正太分布,協(xié)方差矩陣接近單位陣,均值為0。這個(gè)正則化項(xiàng),可以防止模型在潛在空間中對(duì)數(shù)據(jù)進(jìn)行遙遠(yuǎn)的編碼,并鼓勵(lì)盡可能多的返回分布“重疊”,從而滿足預(yù)期的連續(xù)性和完整性條件。正則項(xiàng)會(huì)提高重構(gòu)損失,所以訓(xùn)練時(shí)需要權(quán)衡這兩個(gè)損失。[0064]batch(批量):Batch大小(即批量大小)是一個(gè)超參數(shù),用于定義在更新內(nèi)部模型參數(shù)之前要處理的樣本數(shù),也就是在模型的內(nèi)部參數(shù)更新之前控制訓(xùn)練樣本的數(shù)量。訓(xùn)練數(shù)據(jù)集可以分為一個(gè)或多個(gè)Batch,其中,當(dāng)所有訓(xùn)練樣本用于創(chuàng)建一個(gè)Batch時(shí),學(xué)習(xí)算法稱為批量梯度下降;當(dāng)批量是一個(gè)樣本的大小時(shí),學(xué)習(xí)算法稱為隨機(jī)梯度下降;當(dāng)批量大小9超過(guò)一個(gè)樣本且小于訓(xùn)練數(shù)據(jù)集的大小時(shí),學(xué)習(xí)算法稱為小批量梯度下降。Batch大小是在更新模型之前處理的多個(gè)樣本。[0065]編碼(encoder):就是將輸入序列轉(zhuǎn)化成一個(gè)固定長(zhǎng)度的向量;[0066]解碼(decoder):就是將之前生成的固定向量再轉(zhuǎn)化成輸出序列;其中,輸入序列[0067]隱變量:隱變量是不可觀測(cè)的隨機(jī)變量,通常通過(guò)可觀測(cè)變量的樣本對(duì)隱變量作出推斷。舉個(gè)高斯混合模型的例子,GMM中隱變量指的是每個(gè)observation對(duì)應(yīng)的高斯component,由于產(chǎn)生過(guò)程是不可觀測(cè)的(或者說(shuō)隱藏的),故得名隱變量。我們可以通過(guò)收集樣本對(duì)隱變量。[0068]上采樣(upsampling):上采樣是指放大圖像,也稱圖像插值(interpolating),其主要目的在于放大原圖像,從而使圖像可以顯示在更高分辨率的顯示設(shè)備上。上采樣原理:圖像放大幾乎都是采用內(nèi)插值方法,即在原有圖像像素的基礎(chǔ)上在像素點(diǎn)之間采用合適的插值算法插入新的元素。插值算法主要包括基于邊緣的圖像插值算法和基于區(qū)域的圖像插值算法。[0069]下采樣(subsampled):下采樣是指縮小圖像,也稱降采樣(downsampled),其主要目的在于使得圖像符合顯示區(qū)域的大小,以及生成對(duì)應(yīng)圖像的縮略圖。下采樣原理:對(duì)于一幅圖像I尺寸為M*N,對(duì)其進(jìn)行s倍下采樣,即得到(M/s)*(N/s)尺寸的得分辨率圖像,當(dāng)然s應(yīng)該是M和N的公約數(shù)才行,如果考慮的是矩陣形式的圖像,就是把原始圖像s*s窗口內(nèi)的圖像變成一個(gè)像素,這個(gè)像素點(diǎn)的值就是窗口內(nèi)所有像素的均值。[0070]batch(批量):Batch大小(即批量大小)是一個(gè)超參數(shù),用于定義在更新內(nèi)部模型參數(shù)之前要處理的樣本數(shù),也就是在模型的內(nèi)部參數(shù)更新之前控制訓(xùn)練樣本的數(shù)量。訓(xùn)練數(shù)據(jù)集可以分為一個(gè)或多個(gè)Batch,其中,當(dāng)所有訓(xùn)練樣本用于創(chuàng)建一個(gè)Batch時(shí),學(xué)習(xí)算法稱為批量梯度下降;當(dāng)批量是一個(gè)樣本的大小時(shí),學(xué)習(xí)算法稱為隨機(jī)梯度下降;當(dāng)批量大小超過(guò)一個(gè)樣本且小于訓(xùn)練數(shù)據(jù)集的大小時(shí),學(xué)習(xí)算法稱為小批量梯度下降。Batch大小是在更新模型之前處理的多個(gè)樣本。[0071]反向傳播:反向傳播的大致原理為:將訓(xùn)練集數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)的隱藏層,最后達(dá)到神經(jīng)網(wǎng)絡(luò)的輸出層并輸出結(jié)果;由于神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果與實(shí)際結(jié)果有誤差,則計(jì)算估計(jì)值與實(shí)際值之間的誤差,并將該誤差從輸出層向隱藏層反向傳播,直至傳播到輸入層;在反向傳播的過(guò)程中,根據(jù)誤差調(diào)整各種參數(shù)的值;不斷迭代上[0072]協(xié)同過(guò)濾算法:是一種較為著名和常用的推薦算法,它基于對(duì)用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的喜好偏向,并預(yù)測(cè)用戶可能喜好的產(chǎn)品進(jìn)行推薦,或者找到相似的用戶(基于用戶)或物品(基于物品)?;谟脩舻膮f(xié)同過(guò)濾算法的實(shí)現(xiàn)主要需要解決兩個(gè)問(wèn)題,一是如何找到和你有相似愛好的人,也就是要計(jì)算數(shù)據(jù)的相似度。[0073]文本分類(textcategorization):給定分類體系,將文本集中的每個(gè)文本分到某個(gè)或者某幾個(gè)類別中,這個(gè)過(guò)程稱為文本分類。文本分類是一種有指導(dǎo)的學(xué)習(xí)(supervisedlearning)過(guò)程。文本分類過(guò)程可以分為手工分類和自動(dòng)分類。前者最著名的實(shí)例是yahoo的網(wǎng)頁(yè)分類體系,是由專家定義了分類體系,然后人工將網(wǎng)頁(yè)分類。這種方法需要大量人力,現(xiàn)實(shí)中已經(jīng)采用的很少了。自動(dòng)文本分類(automatictextcategorization)算法大致可以分為兩類:知識(shí)工程(knowledgeengineering)方法和機(jī)器學(xué)習(xí)(machinelearning)方法。知識(shí)工程方法指的是由專家為每個(gè)類別定義一些規(guī)則,這些規(guī)則代表了這個(gè)類別的特征,自動(dòng)把符合規(guī)則的文檔劃分到相應(yīng)的類別中。這方面最著名的系統(tǒng)是CONSTRUE。上個(gè)世紀(jì)90年代之后,機(jī)器學(xué)習(xí)方法成為主導(dǎo)。機(jī)器學(xué)習(xí)方法與知識(shí)工程方法相比,能夠達(dá)到相似的精確度,但是減少了大量的人工參與。[0074]文本聚類(textclustering):將文本集合分組成多個(gè)類或簇,使得在同一個(gè)簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大,這個(gè)過(guò)程稱為文本聚類。文本聚類是一種無(wú)指導(dǎo)的學(xué)習(xí)(unsupervisedlearning)過(guò)程。文本聚類有很多應(yīng)用,比如提高IR系統(tǒng)的查全率,導(dǎo)航/組織電子資源,等等。根據(jù)聚層次聚類(hierarchicalclustering)和劃分聚類(partitionalclustering)。前者比較典型的例子是凝聚層次聚類算法,后者的典型例子是k-means算法。近年來(lái)出現(xiàn)了一些新的聚類算法,它們基于不同的理論或技術(shù),比如圖論,模糊集理論,神經(jīng)網(wǎng)絡(luò)以及核技術(shù)(kerneltechniques)等等。[0075]相關(guān)技術(shù)中,將可能同時(shí)屬于多個(gè)類別的文本稱之為多標(biāo)簽文本,隨著人工智能技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)的多標(biāo)簽文本分類和文本聚類方法被廣泛應(yīng)用。目前,在對(duì)文本處理時(shí),常常是將多標(biāo)簽文本分類/聚類任務(wù)分為多個(gè)單標(biāo)簽的二元分類/聚類任務(wù),使用待處理文本和類別標(biāo)簽的關(guān)系來(lái)進(jìn)行分類/聚類,這種方法雖然能夠捕獲到待處理文本與類別標(biāo)簽間的關(guān)系,但是忽略了類別標(biāo)簽與類別標(biāo)簽之間的關(guān)系,從而導(dǎo)致文本處理的準(zhǔn)確性差。因此,如何提供一種文本處理方法,能夠提高文本分類以及文本聚類的準(zhǔn)確性,成為了亟待解決的技術(shù)問(wèn)題。[0076]基于此,本申請(qǐng)實(shí)施例提供了一種文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠提高文本分類以及文本聚類的準(zhǔn)確性。[0077]本申請(qǐng)實(shí)施例提供的文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),具體通過(guò)如下實(shí)施例進(jìn)行說(shuō)明,首先描述本申請(qǐng)實(shí)施例中的文本處理方法。[0078]本申請(qǐng)實(shí)施例可以基于人工智能技術(shù)對(duì)相關(guān)的數(shù)據(jù)進(jìn)行獲取和處理。其中,人工智能(ArtificialIntelligence,AI)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。[0079]人工智能基礎(chǔ)技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺技術(shù)、機(jī)器人技術(shù)、生物識(shí)別技術(shù)、語(yǔ)音處理技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。[0080]本申請(qǐng)實(shí)施例提供的文本處理方法,涉及人工智能技術(shù)領(lǐng)域。本申請(qǐng)實(shí)施例提供的文本處理方法可應(yīng)用于終端中,也可應(yīng)用于服務(wù)器端中,還可以是運(yùn)行于終端或服務(wù)器端中的軟件。在一些實(shí)施例中,終端可以是智能手機(jī)、平板電腦、筆記本電腦、臺(tái)式計(jì)算機(jī)等;服務(wù)器端可以配置成獨(dú)立的物理服務(wù)器,也可以配置成多個(gè)物理服務(wù)器構(gòu)成的服務(wù)器計(jì)算服務(wù)的云服務(wù)器;軟件可以是實(shí)現(xiàn)文本處理方法的應(yīng)用等,但并不局限于以上形式。11[0081]本申請(qǐng)可用于眾多通用或?qū)S玫挠?jì)算機(jī)系統(tǒng)環(huán)境或配置中。例如:個(gè)人計(jì)算機(jī)、服的分布式計(jì)算環(huán)境等等。本申請(qǐng)可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。[0082]圖1是本申請(qǐng)實(shí)施例提供的文本處理方法的一個(gè)可選的流程圖,圖1中的方法可以包括但不限于包括步驟S101至步驟S105:[0083]步驟S101,獲取待處理的原始文本;[0084]步驟S102,對(duì)原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);[0085]步驟S103,對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;[0086]步驟S104,對(duì)文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;[0087]步驟S105,通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含文本類別標(biāo)簽的目標(biāo)分類文本;或者,通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集。[0088]在一些實(shí)施例的步驟S101中,可以通過(guò)編寫網(wǎng)絡(luò)爬蟲,設(shè)置好數(shù)據(jù)源之后進(jìn)行有目標(biāo)性的爬取數(shù)據(jù),得到待處理的原始文本。需要說(shuō)明[0089]請(qǐng)參閱圖2,在一些實(shí)施例中,步驟S102可以包括但不限于包括步驟S201至步驟[0090]步驟S201,識(shí)別原始文本中的文本實(shí)體特征;[0091]步驟S202,利用預(yù)先訓(xùn)練的序列分類器對(duì)文本實(shí)體特征進(jìn)行特征分類處理,得到第一文本特征;[0092]步驟S203,對(duì)第一文本特征進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù)。[0093]具體地,在步驟S201中,利用預(yù)設(shè)的詞法分析模型識(shí)別原始文本中的文本實(shí)體特征。例如,預(yù)先構(gòu)建文本數(shù)據(jù)詞庫(kù),該文本數(shù)據(jù)詞庫(kù)可以包括各種文本類型相關(guān)的專有名詞、術(shù)語(yǔ)、非專有名稱等等。通過(guò)這一文本數(shù)據(jù)詞庫(kù),預(yù)設(shè)的詞法分析模型可以根據(jù)文本數(shù)據(jù)詞庫(kù)里包含的特定文本語(yǔ)料以及預(yù)設(shè)的詞性類別,對(duì)原始文本中的文本實(shí)體特征進(jìn)行識(shí)時(shí)間信息等多個(gè)維度的實(shí)體詞匯。[0094]為了更準(zhǔn)確地提取文本實(shí)體特征,在步驟S202中,還可以利用預(yù)先訓(xùn)練的序列分類器對(duì)文本實(shí)體特征進(jìn)行標(biāo)記,使得這些文本實(shí)體特征都能夠帶上預(yù)設(shè)的標(biāo)簽,以便提高分類效率。具體地,預(yù)先訓(xùn)練的序列分類器可以是最大熵馬爾科夫模型(MEMM模型)或者基于條件隨機(jī)場(chǎng)算法(CRF)的模型或者是基于雙向長(zhǎng)短時(shí)記憶算法(bi-LSTM)的模型。例如,可以基于bi-LSTM算法構(gòu)建序列分類器,在基于bi-LSTM算法的模型中,輸入單詞wi和字符嵌入,通過(guò)左到右的長(zhǎng)短記憶和右向左的長(zhǎng)短時(shí)記憶,使得在輸出被連接的位置生成單一的輸出層。序列分類器通過(guò)這一輸出層可以將輸入的文本實(shí)體特征直接傳遞到softmax分類器上,通過(guò)softmax分類器在預(yù)設(shè)的詞性類別標(biāo)簽上創(chuàng)建一個(gè)概率分布,從而根據(jù)概率分歸一化矩陣;本處理模型。寬度。公式(1)公式(2)公式(3)[0110]在執(zhí)行步驟e時(shí),根據(jù)預(yù)設(shè)的權(quán)重向量,對(duì)批歸一化矩陣和通道歸一化矩陣進(jìn)行矩[0111]最后,執(zhí)行步驟f,根據(jù)歸一化值以及預(yù)設(shè)的損失函數(shù)計(jì)算初始模型的模型損失,即loss值,再利用梯度下降法對(duì)loss值進(jìn)行反向傳播,將loss值反饋回初始模型,修改初始模型的模型參數(shù),重復(fù)上述過(guò)程,直至loss值滿足預(yù)設(shè)的迭代條件,其中,預(yù)設(shè)的迭代條件是可以迭代次數(shù)達(dá)到預(yù)設(shè)值,或者是損失函數(shù)的變化方差小于預(yù)設(shè)閾值。當(dāng)loss值滿足預(yù)設(shè)的迭代條件時(shí)可以停止反向傳播,將最后的模型參數(shù)作為最終的模型參數(shù),完成對(duì)初始[0112]需要說(shuō)明的是,在本申請(qǐng)實(shí)施例中,上述模型損失可以包括重構(gòu)損失、KL散度損失以及正則化損失,即通過(guò)重構(gòu)損失來(lái)定義原始文本與重構(gòu)文本之間的絕對(duì)差異;通過(guò)KL散度損失來(lái)定義隱變量維度中先驗(yàn)分布與后驗(yàn)分布的差別;通過(guò)正則化損失可以更好地控制KL發(fā)散的問(wèn)題,使得整個(gè)模型的更加的光滑,通過(guò)上述模型損失的計(jì)算及優(yōu)化能夠有利于模型訓(xùn)練的穩(wěn)定性。[0113]請(qǐng)參閱圖3,在一些實(shí)施例中,步驟S103可以包括但不限于包括步驟S301至步驟[0114]步驟S301,將目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空間,得到目標(biāo)文本特征;[0115]步驟S302,根據(jù)預(yù)設(shè)的編碼順序和編碼維度,對(duì)目標(biāo)文本特征進(jìn)行編碼處理,得到文本隱性特征向量。[0116]具體地,在步驟S301中,可以采用MLP網(wǎng)絡(luò)對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行語(yǔ)義空間到向量空間上的多次映射處理,將目標(biāo)文本數(shù)據(jù)映射到預(yù)先設(shè)定的向量空間中,得到目標(biāo)文本特征,該目標(biāo)文本特征可以是文本特征,也可以是圖像特征。[0117]進(jìn)而,可以執(zhí)行步驟S302,通過(guò)上述文本處理模型的編碼模塊可以根據(jù)自下而上的編碼順序和編碼維度,對(duì)目標(biāo)文本特征進(jìn)行編碼處理。例如,對(duì)目標(biāo)文本特征進(jìn)行初次編碼,得到最底層的文本隱性特征向量z1,然后逐層向上進(jìn)行下采樣處理,得到每一層對(duì)應(yīng)的文本隱性特征向量[z2,z3…,zk]。[0118]進(jìn)一步地,為了提高編碼質(zhì)量,編碼模塊包括編碼器和下采樣單元,編碼器的卷積層的步長(zhǎng)為1,且編碼器的卷積層的輸入特征和輸出特征尺寸相同;下采樣單元的卷積層的步長(zhǎng)為2,下采樣單元的輸出特征尺寸是輸入特征尺寸的一半,其中,輸入特征可以為圖像特征或者文本特征。[0119]通過(guò)上述預(yù)先訓(xùn)練的文本處理模型的編碼模塊對(duì)目標(biāo)文本數(shù)據(jù)的編碼處理,得到的文本隱性特征向量z不再是一個(gè)分布,而是在不同維度上的多個(gè)分布[z1,z2,…,zk]。該方式相較于傳統(tǒng)技術(shù)中的將高維度的文本信息映射到低維的隱變量層z的方法,能夠有效地避免目標(biāo)文本數(shù)據(jù)的丟失,能夠有效地提高重構(gòu)文本的文本質(zhì)量。[0120]請(qǐng)參閱圖4,在一些實(shí)施例中,步驟S104可以包括但不限于包括步驟S401至步驟[0121]步驟S401,對(duì)文本隱性特征向量進(jìn)行數(shù)據(jù)重采樣處理,得到中間文本向量;[0122]步驟S402,對(duì)中間文本向量進(jìn)行解碼處理,得到目標(biāo)文本向量。[0123]具體地,在步驟S401中,可以采用最鄰近內(nèi)插法、雙線性內(nèi)插法和三次卷積法內(nèi)插法中的至少一種對(duì)每個(gè)文本隱性特征向量進(jìn)行數(shù)據(jù)重采樣處理,即按照一定的間隔采集文本隱性特征向量的灰度數(shù)值,對(duì)采集到的灰度值進(jìn)行分析。當(dāng)采集到的灰度值不在采樣點(diǎn)上的原始函數(shù)的數(shù)值集合范圍內(nèi)時(shí),則利用采用最鄰近內(nèi)插法、雙線性內(nèi)插法或者三次卷積法內(nèi)插法對(duì)已采樣點(diǎn)進(jìn)行內(nèi)插處理,得到目標(biāo)文本數(shù)據(jù)在不同維度上的多個(gè)分布[Y1,Y2,…,Yk],即多個(gè)中間文本向量。[0124]進(jìn)而,可以執(zhí)行步驟S402,通過(guò)上述文本處理模型的解碼模塊對(duì)中間文本向量進(jìn)行解碼處理和上采樣處理,該解碼過(guò)程與前述的編碼過(guò)程相對(duì)稱。例如,對(duì)不同維度上的中間文本向量進(jìn)行解碼處理,然后逐層向上進(jìn)行上采樣處理,以實(shí)現(xiàn)所有維度的中間文本向量的解碼處理和上采樣處理,從而得到目標(biāo)文本向量。[0125]進(jìn)一步地,為了提高解碼質(zhì)量,解碼模塊包括解碼器和上采樣單元,解碼器的卷積層的步長(zhǎng)為1,且解碼器的輸入特征和輸出特征尺寸相同;上采樣單元的卷積層的步長(zhǎng)為2,上采樣單元的輸出特征尺寸是輸入特征尺寸的兩倍,其中,輸入特征可以為圖像特征或者文本特征。[0126]通過(guò)上述預(yù)先訓(xùn)練的文本處理模型的解碼模塊對(duì)目標(biāo)文本數(shù)據(jù)的解碼處理,得到的目標(biāo)文本向量也是在不同維度上的多個(gè)分布。該方式相較于傳統(tǒng)技術(shù)中的文本處理方法能夠有效地避免目標(biāo)文本數(shù)據(jù)的丟失,從而提高重構(gòu)文本的文本質(zhì)量。[0127]請(qǐng)參閱圖5,在一些實(shí)施例中,為了實(shí)現(xiàn)文本分類,步驟S105還可以包括但不限于包括步驟S501至步驟S502:[0128]步驟S501,根據(jù)預(yù)設(shè)的分類函數(shù)和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處[0129]步驟S502,對(duì)標(biāo)簽文本向量進(jìn)行語(yǔ)義分析處理,得到目標(biāo)分類文本。[0130]需要說(shuō)明的是,該文本分類模型可以為textCNN模型。該文本分類模型包括Embedding層,卷積層,池化層和輸出層。通常經(jīng)過(guò)文本分類模型的Embedding層可以采用ELMO,GLOVE,Word2Vector,Bert等算法將輸入的文本生成一個(gè)稠密向量。進(jìn)而通過(guò)文本分類模型的卷積層和池化層對(duì)該稠密向量進(jìn)行卷積處理和池化處理,得到目標(biāo)特征向量,進(jìn)而將特征向量輸入至輸出層,通過(guò)輸出層中的預(yù)設(shè)函數(shù)即可對(duì)目標(biāo)特征向量進(jìn)行分類操據(jù)預(yù)設(shè)的文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,在每一文本類別上創(chuàng)建一個(gè)概率分布,根據(jù)每一文本類別的概率分布情況對(duì)目標(biāo)文本向量進(jìn)行標(biāo)記,使得每一目標(biāo)文本向量帶熵對(duì)應(yīng)的文本類別標(biāo)簽,從而得到標(biāo)簽文本向量。[0132]進(jìn)而,執(zhí)行步驟S502,通過(guò)對(duì)標(biāo)簽文本向量與參考文本向量進(jìn)行對(duì)比,得到對(duì)比結(jié)果。根據(jù)對(duì)比結(jié)果以及文本詞段的字符數(shù)量、詞性類別等等對(duì)預(yù)設(shè)的文本詞庫(kù)內(nèi)的文本詞段進(jìn)行篩選,得到標(biāo)準(zhǔn)文本詞段。最后對(duì)標(biāo)準(zhǔn)文本詞段進(jìn)行拼接處理,得到目標(biāo)分類文本。該方式能夠?qū)?biāo)簽文本向量進(jìn)行過(guò)濾,剔除掉相關(guān)性較低或者詞性不符合需求的文本詞[0133]請(qǐng)參閱圖6,在一些實(shí)施例,步驟S502還可以包括但不限于包括步驟S601至步驟[0134]步驟S601,計(jì)算標(biāo)簽文本向量和參考文本向量的相似度;[0135]步驟S602,根據(jù)相似度,對(duì)預(yù)設(shè)的文本詞庫(kù)內(nèi)的文本詞段進(jìn)行篩選處理,得到標(biāo)準(zhǔn)文本詞段;[0136]步驟S603,對(duì)標(biāo)準(zhǔn)文本詞段進(jìn)行拼接處理,得到目標(biāo)分類文本。[0137]具體地,在步驟S601中,可以通過(guò)余弦相似度算法等協(xié)同過(guò)濾算法來(lái)計(jì)算每一標(biāo)簽文本向量與參考文本向量之間的相似度。例如,假設(shè)標(biāo)簽文本向量為u,參考文本向量為v,則根據(jù)余弦相似度算法(如公式(4)所示),計(jì)算標(biāo)簽文本向量和參考文本向量的相似度,[0139]進(jìn)而,可以執(zhí)行步驟S602,進(jìn)而,根據(jù)相似度與預(yù)設(shè)的相似度閾值的大小關(guān)系,從預(yù)設(shè)的文本詞庫(kù)內(nèi)篩選出需要的文本字段。例如,從預(yù)設(shè)的文本詞庫(kù)內(nèi)篩選出相似度大于或者等于相似度閾值的文本詞段,將這些文本詞段作為標(biāo)準(zhǔn)文本詞段。[0140]最后,執(zhí)行步驟S603,將這些標(biāo)準(zhǔn)文本詞段轉(zhuǎn)化為SQL語(yǔ)句,通過(guò)數(shù)據(jù)庫(kù)平臺(tái)對(duì)這些SQL語(yǔ)句進(jìn)行拼接融合,得到符合要求的目標(biāo)分類文本。[0141]通過(guò)上述步驟S101至步驟S105,能夠根據(jù)文本類別對(duì)目標(biāo)文本進(jìn)行分類,提高每一文本類別中的目標(biāo)分類文本的相關(guān)性,從而提高文本分類的準(zhǔn)確性。[0142]請(qǐng)參閱圖7,在另一些實(shí)施例,步驟S103可以包括但不限于包括步驟S701至步驟[0143]步驟S701,將目標(biāo)文本數(shù)據(jù)映射到預(yù)設(shè)的向量空間,得到目標(biāo)文本特征;[0144]步驟S702,根據(jù)預(yù)設(shè)的編碼順序和編碼維度,對(duì)目標(biāo)文本特征進(jìn)行編碼處理,得到預(yù)設(shè)特征維度的文本隱向量;[0145]步驟S703,根據(jù)預(yù)設(shè)的權(quán)重比例,對(duì)文本隱向量進(jìn)行加權(quán)處理,得到文本隱性特征[0146]具體地,在步驟S701中,可以采用MLP網(wǎng)絡(luò)對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行語(yǔ)義空間到向量空間上的多次映射處理,將目標(biāo)文本數(shù)據(jù)映射到預(yù)先設(shè)定的向量空間中,得到目標(biāo)文本特征,該目標(biāo)文本特征可以是文本特征,也可以是圖像特征。[0147]進(jìn)而,執(zhí)行步驟S702,通過(guò)上述文本處理模型的編碼模塊可以根據(jù)自下而上的編碼順序和編碼維度,對(duì)目標(biāo)文本特征進(jìn)行編碼處理和下采樣處理。例如,對(duì)目標(biāo)文本特征進(jìn)行初次編碼,得到最底層的文本隱向量,然后逐層向上進(jìn)行下采樣處理,得到每一層對(duì)應(yīng)的文本隱向量。根據(jù)預(yù)設(shè)的特征維度對(duì)每一層對(duì)應(yīng)的文本隱向量進(jìn)行識(shí)別,可以較為方便地獲取到每一特征維度的文本隱向量。需要說(shuō)明的是,預(yù)設(shè)的特征維度可以包括情感維度、文本語(yǔ)義維度、文本主題維度等等。每一預(yù)設(shè)的特征維度對(duì)應(yīng)的關(guān)鍵詞,識(shí)別出每一特征維度對(duì)應(yīng)的文本隱向量。[0148]最后,執(zhí)行步驟S703,根據(jù)不同的聚類需求,對(duì)每一特征維度設(shè)置不同的權(quán)重比例,通過(guò)這一權(quán)重比例對(duì)每一特征維度的文本隱向量進(jìn)行加權(quán)處理、掩碼處理等等,來(lái)改變每一層上的每一特征維度的占比,從而改變文本聚類的角度。例如,假定特征維度為3,即隱變量層的維度為3,可以通過(guò)對(duì)每一隱變量層進(jìn)行均勻采樣來(lái)得到每一特征維度代表的含義。若第一特征維度為情感維度,第二特征維度為文本語(yǔ)義維度,第三特征維度為文本主題維度。若當(dāng)前的聚類任務(wù)是針對(duì)情感方面的,則可以將第一特征維度的權(quán)重比例調(diào)高,設(shè)置權(quán)重比例為8:1:1。使得獲取到的文本隱性特征向量包括更多情感維度的文本特征。[0149]進(jìn)一步地,為了提高編碼質(zhì)量,編碼模塊包括編碼器和下采樣單元,編碼器的卷積層的步長(zhǎng)為1,且編碼器的卷積層的輸入特征和輸出特征尺寸相同;下采樣單元的卷積層的步長(zhǎng)為2,下采樣單元的輸出特征尺寸是輸入特征尺寸的一半,其中,輸入特征可以為圖像特征或者文本特征。[0150]通過(guò)上述預(yù)先訓(xùn)練的文本處理模型的編碼模塊對(duì)目標(biāo)文本數(shù)據(jù)的編碼處理,得到的文本隱性特征向量z不再是一個(gè)分布,而是在不同維度上的多個(gè)分布[z1,z2,…,zk]。通過(guò)該文本處理模型,可以根據(jù)隱變量的分布觀測(cè)出不同隱變量層的各個(gè)特征維度表征的不同含義,從而根據(jù)實(shí)際的聚類任務(wù)設(shè)置不同的權(quán)要比例,以改變聚類角度,提高文本聚類的準(zhǔn)確性。[0151]進(jìn)一步地,執(zhí)行步驟S104,其中,步驟S104可以包括但不限于包括上述步驟S401至步驟S402,在此不再贅述。[0152]最后,執(zhí)行步驟S105,以通過(guò)對(duì)目標(biāo)文本進(jìn)行聚類處理,將相關(guān)性較高的目標(biāo)文本[0153]需要說(shuō)明的是,本申請(qǐng)的文本聚類模型可以包括基于劃分的聚類算法,通過(guò)給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,K<N。而且這K個(gè)分組滿足下列條件:(1)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;(2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組;對(duì)于給定的K,基于劃分的聚類算法首先給出一個(gè)初始的分組方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次更好,即同一分組中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。請(qǐng)參閱圖8,在另一些實(shí)施例,為了實(shí)現(xiàn)文本聚類,步驟S105還可以包括但不限于包括步驟S801至步驟S802:[0154]步驟S801,根據(jù)預(yù)設(shè)的聚類算法和文本聚類標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行聚類處理,得到包含文本聚類標(biāo)簽的目標(biāo)聚類文本;[0155]步驟S802,將包含相同文本聚類標(biāo)簽的目標(biāo)聚類文本納入同一集合,得到目標(biāo)聚類文本集。[0156]具體地,執(zhí)行步驟S801,預(yù)設(shè)的聚類算法可以包括kmeans算法、TF-IDF加權(quán)算法等等。例如,通過(guò)TF-IDF加權(quán)算法計(jì)算每一目標(biāo)文本向量與每一文本聚類標(biāo)簽對(duì)應(yīng)的參考向量之間的差異性,該差異性可以用相似度進(jìn)行表征,也可以是其他。通過(guò)TF-IDF加權(quán)算法來(lái)評(píng)估每一個(gè)待處理文本對(duì)預(yù)設(shè)的文本集合的重要程度。根據(jù)每一目標(biāo)文本向量與參考向量的差異性,來(lái)確定該目標(biāo)文本向量所屬的文本聚類集合,從而根據(jù)每一目標(biāo)文本向量所屬的文本聚類集合,對(duì)待處理文本進(jìn)行標(biāo)注,得到包含文本聚類標(biāo)簽的目標(biāo)聚類文本。[0157]進(jìn)而,執(zhí)行步驟S802,對(duì)目標(biāo)文本的文本聚類標(biāo)簽進(jìn)行識(shí)別,將包含相同文本聚類標(biāo)簽的目標(biāo)聚類文本納入同一集合,根據(jù)不同的文本聚類標(biāo)簽,能夠得到多個(gè)不同的文本聚類集,從而達(dá)到文本聚類的目的。[0158]通過(guò)上述步驟S101至步驟S105,能夠通過(guò)對(duì)目標(biāo)文本進(jìn)行聚類處理,根據(jù)預(yù)設(shè)的文本聚類標(biāo)簽將相關(guān)性較高的目標(biāo)文本歸為一個(gè)類別,從而提高文本聚類的準(zhǔn)確性。[0159]本申請(qǐng)實(shí)施例通過(guò)獲取待處理的原始文本;對(duì)原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù),能夠有效地剔除原始文本中相關(guān)性不高的數(shù)據(jù),縮小數(shù)據(jù)總量。進(jìn)而,對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;對(duì)文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;最后,既可以根據(jù)預(yù)設(shè)的文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含文本類別標(biāo)簽的目標(biāo)分類文本,能夠根據(jù)文本類別對(duì)目標(biāo)文本進(jìn)行分類,提高每一文本類別中的目標(biāo)分類文本的相關(guān)性,從而提高文本分類的準(zhǔn)確性;也可以根據(jù)預(yù)設(shè)的文本聚類標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集,通過(guò)對(duì)目標(biāo)文本進(jìn)行聚類處理,可以根據(jù)預(yù)設(shè)的文本聚類標(biāo)簽將相關(guān)性較高的目標(biāo)文本歸為一個(gè)類別,得到目標(biāo)聚類文本集,從而提高文本聚類的準(zhǔn)確性。[0160]請(qǐng)參閱圖9,本申請(qǐng)實(shí)施例還提供一種文本處理裝置,可以實(shí)現(xiàn)上述文本處理方[0161]原始文本獲取模塊901,用于獲取待處理的原始文本;[0162]特征提取模塊902,用于對(duì)原始文本進(jìn)行特征提取,得到目標(biāo)文本數(shù)據(jù);[0163]編碼處理模塊903,用于對(duì)目標(biāo)文本數(shù)據(jù)進(jìn)行編碼處理,得到文本隱性特征向量;[0164]解碼處理模塊904,用于對(duì)文本隱性特征向量進(jìn)行解碼處理,得到目標(biāo)文本向量;[0165]文本處理模塊905,用于通過(guò)預(yù)設(shè)的文本分類模型和文本類別標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行標(biāo)簽分類處理,得到包含文本類別標(biāo)簽的目標(biāo)分類文本;或者用于通過(guò)預(yù)設(shè)的文本聚類模型和文本聚類標(biāo)簽對(duì)目標(biāo)文本向量進(jìn)行聚類處理,得到目標(biāo)聚類文本集。[0166]該文本處理裝置的具體實(shí)施方式與上述文本處理方法的具體實(shí)施例基本相同,在此不再贅述。[0167]本申請(qǐng)實(shí)施例還提供了一種電子設(shè)備,電子設(shè)備包括:存儲(chǔ)器、處理器、存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序以及用于實(shí)現(xiàn)處理器和存儲(chǔ)器之間的連接通信的數(shù)據(jù)總線,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述文本處理方法。該電子設(shè)備可以為包括平板電腦、車載電腦等任意智能終端。[0168]請(qǐng)參閱圖10,圖10示意了另一實(shí)施例的電子設(shè)備的硬件結(jié)構(gòu),電子設(shè)備包括:[0169]處理器1001,可以采用通用的CPU(CentralProcessingUnit,中央處理器)、微處理器、應(yīng)用專用集成電路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一個(gè)或多個(gè)集成電路等方式實(shí)現(xiàn),用于執(zhí)行相關(guān)程序,以實(shí)現(xiàn)本申請(qǐng)實(shí)施例所提供的技術(shù)方案;[0170]存儲(chǔ)器1002,可以采用只讀存儲(chǔ)器(Read0nlyMemory,ROM)、靜態(tài)存儲(chǔ)設(shè)備、動(dòng)態(tài)存儲(chǔ)設(shè)備或者隨機(jī)存取存儲(chǔ)器(RandomAccessMemory,RAM)等形式實(shí)現(xiàn)。存儲(chǔ)器1002可以存儲(chǔ)操作系統(tǒng)和其他應(yīng)用程序,在通過(guò)軟件或者固件來(lái)實(shí)現(xiàn)本說(shuō)明書實(shí)施例所提供的技術(shù)方案時(shí),相關(guān)的程序代碼保存在存儲(chǔ)器1002中,并由處理器1001來(lái)調(diào)用執(zhí)行本申請(qǐng)實(shí)施例的文本處理方法;[0171]輸入/輸出接口1003,用于實(shí)現(xiàn)信息輸入及輸出;[0172]通信接口1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論