CN113822047B 一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì)(騰訊科技(深圳)有限公司)_第1頁
CN113822047B 一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì)(騰訊科技(深圳)有限公司)_第2頁
CN113822047B 一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì)(騰訊科技(深圳)有限公司)_第3頁
CN113822047B 一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì)(騰訊科技(深圳)有限公司)_第4頁
CN113822047B 一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì)(騰訊科技(深圳)有限公司)_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利科技中一路騰訊大廈35層所(普通合伙)44300專利代理師李漢亮GO6N3/0442(20介質(zhì)選文本單元中選取所述目標(biāo)文本單元的相似文本單元;基于各個目標(biāo)文本單元的相似文本單文本2識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述目標(biāo)文本的文本單元中選取至對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù);基于所述重要性參數(shù),從所述目標(biāo)文本的各文本單元中選取至少一個待替換的目標(biāo)文本單元。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù),包括:針對所述目標(biāo)文本中各個文本單元,對所述文本單元在所述目標(biāo)文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元在所述目標(biāo)文本中的權(quán)重;對所述文本單元在樣本文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元的參考權(quán)重;根據(jù)所述文本單元的參考權(quán)重以及在所述目標(biāo)文本中的權(quán)重,確定所述文本單元的重要性參數(shù)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元,將字符數(shù)量大于預(yù)設(shè)數(shù)量,且語言類型為目標(biāo)語言的目標(biāo)文本單元添加到第一文本序根據(jù)預(yù)設(shè)替換比例,從所述第一文本序列中選取目標(biāo)替換文本單元;基于所述目標(biāo)替換文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元將字符數(shù)量不大于預(yù)設(shè)數(shù)量,或語言類型為非目標(biāo)語言的目標(biāo)文本單元添加到第二文3本序列中;基于預(yù)設(shè)替換比例,從所述第二文本序列中選取目標(biāo)替換文本單元;根據(jù)所述目標(biāo)替換文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元,包括:分別對所述目標(biāo)文本單元和候選文本單元進行特征提取,得到所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息;基于所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度;根據(jù)所述相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本獲取所述目標(biāo)文本中參考文本單元的特征信息,所述參考文本單元為所述目標(biāo)文本中除所述目標(biāo)文本單元以外的其他文本單元;獲取各個參考文本單元對應(yīng)的權(quán)重;根據(jù)所述權(quán)重,對各個參考文本單元的特征信息進行融合,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息;根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元之前,還包括:通過分詞模型,對所述目標(biāo)文本進行劃分,得到所述目標(biāo)文本中的各個文本單元,所述分詞模型是基于樣本文本以及所述樣本文本中文本單元對應(yīng)的位置標(biāo)簽序列訓(xùn)練得到的。獲取單元,用于獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;識別單元,用于識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;第一選取單元,用于當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;第二選取單元,用于當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;替換單元,用于基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。10.一種電子設(shè)備,其特征在于,包括存儲器和處理器;所述存儲器存儲有應(yīng)用程序,所述處理器用于運行所述存儲器內(nèi)的應(yīng)用程序,以執(zhí)行權(quán)利要求1至8任一項所述的文本增強4方法中的操作。11.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行權(quán)利要求1至8任一項所述的文本增強方法中的步驟。5技術(shù)領(lǐng)域[0001]本申請涉及計算機技術(shù)領(lǐng)域,具體涉及一種文本增強方法、裝置、電子設(shè)備和存儲背景技術(shù)[0002]自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。文本增強作為自然語言處理中一種重要應(yīng)用,被廣泛應(yīng)用于擴充訓(xùn)練樣本中。文本增強是一種數(shù)據(jù)擴充技術(shù),其核心思想是在不改變句子整體情感的前提下,通過對已有文本數(shù)據(jù)的副本稍加修改,或從現(xiàn)有文本數(shù)據(jù)中創(chuàng)建新的合成文本來增加樣本數(shù)量。[0003]在目前的相關(guān)技術(shù)中,一般采用回譯來進行文本增強,即基于機器翻譯技術(shù),將原始文本翻譯為另一種或多種語言,而后再反向翻譯回來得到新的樣本,例如,將原始中文文本翻譯為對應(yīng)的英文文本,再將英文文本翻譯為對應(yīng)的日文文本,然后從日文文本翻譯為中文文本,以此來獲取與原始中文文本的整體情感相同的新的中文文本。但是這樣容易導(dǎo)致生成的文本質(zhì)量較低,語句不通暢的問題。發(fā)明內(nèi)容[0004]本申請實施例提供一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì),有利于兼顧生成文本的多樣性和語句的通順性。[0006]獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本[0007]識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;[0008]當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;[0009]當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;[0010]基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。[0012]獲取單元,用于獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;[0013]識別單元,用于識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;[0014]第一選取單元,用于當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似6度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;[0015]第二選取單元,用于當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;[0016]替換單元,用于基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。[0017]可選的,在本申請的一些實施例中,所述獲取單元可以包括頻次分析子單元和第[0018]所述頻次分析子單元,用于對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù);[0019]第一選取子單元,用于基于所述重要性參數(shù),從所述目標(biāo)文本的各文本單元中選取至少一個待替換的目標(biāo)文本單元。[0020]可選的,在本申請的一些實施例中,所述頻次分析子單元具體可以用于針對所述目標(biāo)文本中各個文本單元,對所述文本單元在所述目標(biāo)文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元在所述目標(biāo)文本中的權(quán)重;對所述文本單元在樣本文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元的參考權(quán)重;根據(jù)所述文本單元的參考權(quán)重以及在所述目標(biāo)文本中的權(quán)重,確定所述文本單元的重要性參數(shù)。[0021]可選的,在本申請的一些實施例中,所述第一選取單元可以包括第一添加子單元、第二選取子單元和第三選取子單元,如下:[0022]所述第一添加子單元,用于將字符數(shù)量大于預(yù)設(shè)數(shù)量,且語言類型為目標(biāo)語言的目標(biāo)文本單元添加到第一文本序列中;[0023]第二選取子單元,用于根據(jù)預(yù)設(shè)替換比例,從所述第一文本序列中選取目標(biāo)替換文本單元;[0024]第三選取子單元,用于基于所述目標(biāo)替換文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0025]可選的,在本申請的一些實施例中,所述第二選取單元可以包括第二添加子單元、第四選取子單元和第五選取子單元,如下:[0026]所述第二添加子單元,用于將字符數(shù)量不大于預(yù)設(shè)數(shù)量,或語言類型為非目標(biāo)語言的目標(biāo)文本單元添加到第二文本序列中;[0027]第四選取子單元,用于基于預(yù)設(shè)替換比例,從所述第二文本序列中選取目標(biāo)替換文本單元;[0028]第五選取子單元,用于根據(jù)所述目標(biāo)替換文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0029]可選的,在本申請的一些實施例中,所述第一選取單元可以包括提取子單元、計算[0030]所述提取子單元,用于分別對所述目標(biāo)文本單元和候選文本單元進行特征提取,得到所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息;[0031]計算子單元,用于基于所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度;7[0032]第六選取子單元,用于根據(jù)所述相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0033]可選的,在本申請的一些實施例中,所述第二選取單元可以包括獲取子單元、上下文提取子單元和第七選取子單元,如下:[0034]所述獲取子單元,用于獲取所述目標(biāo)文本中參考文本單元的特征信息,所述參考文本單元為所述目標(biāo)文本中除所述目標(biāo)文本單元以外的其他文本單元;[0035]上下文提取子單元,用于根據(jù)所述參考文本單元的特征信息,對所述目標(biāo)文本單元進行特征提取,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息;[0036]第七選取子單元,用于根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0037]可選的,在本申請的一些實施例中,所述上下文提取子單元具體可以用于獲取各個參考文本單元對應(yīng)的權(quán)重;根據(jù)所述權(quán)重,對各個參考文本單元的特征信息進行融合,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息。[0039]所述劃分單元,用于通過分詞模型,對所述目標(biāo)文本進行劃分,得到所述目標(biāo)文本中的各個文本單元,所述分詞模型是基于樣本文本以及所述樣本文本中文本單元對應(yīng)的位置標(biāo)簽序列訓(xùn)練得到的。[0040]本申請實施例提供的一種電子設(shè)備,包括處理器和存儲器,所述存儲器存儲有多條指令,所述處理器加載所述指令,以執(zhí)行本申請實施例提供的文本增強方法中的步驟。[0041]此外,本申請實施例還提供一種存儲介質(zhì),其上存儲有計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請實施例提供的文本增強方法中的步驟。[0042]本申請實施例提供了一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì),可以獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。本申請可以基于文本單元的字符數(shù)量和語言類型,采取不同的方式獲取目標(biāo)文本單元的相似文本單元,進而對目標(biāo)文本單元進行替換,有利于兼顧生成文本的多樣性和語句的通順性。附圖說明[0043]為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附[0044]圖1a是本申請實施例提供的文本增強方法的場景示意圖;8[0045]圖1b是本申請實施例提供的文本增強方法的流程圖;[0046]圖1c是本申請實施例提供的文本增強方法的模型結(jié)構(gòu)圖;[0047]圖1d是本申請實施例提供的文本增強方法的另一模型結(jié)構(gòu)圖;[0048]圖1e是本申請實施例提供的文本增強方法的另一模型結(jié)構(gòu)圖;[0049]圖1f是本申請實施例提供的文本增強方法的實驗說明圖;[0050]圖1g是本申請實施例提供的文本增強方法的另一實驗說明圖;[0051]圖2是本申請實施例提供的文本增強方法的另一流程圖;[0052]圖3是本申請實施例提供的文本增強裝置的結(jié)構(gòu)示意圖;[0053]圖4是本申請實施例提供的電子設(shè)備的結(jié)構(gòu)示意圖。具體實施方式[0054]下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施[0055]本申請實施例提供一種文本增強方法、裝置、電子設(shè)備和存儲介質(zhì)。該文本增強裝置具體可以集成在電子設(shè)備中,該電子設(shè)備可以是終端或服務(wù)器等設(shè)備。[0056]可以理解的是,本實施例的文本增強方法可以是在終端上執(zhí)行的,也可以是在服務(wù)器上執(zhí)行,還可以由終端和服務(wù)器共同執(zhí)行的。以上舉例不應(yīng)理解為對本申請的限制。[0057]如圖1a所示,以終端和服務(wù)器共同執(zhí)行文本增強方法為例。本申請實施例提供的文本增強系統(tǒng)包括終端10和服務(wù)器11等;終端10與服務(wù)器11之間通過網(wǎng)絡(luò)連接,比如,通過有線或無線網(wǎng)絡(luò)連接等,其中,文本增強裝置可以集成在服務(wù)器中。[0058]其中,服務(wù)器11,可以用于:獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本;并將相似文本發(fā)送給終端10。其中,服務(wù)器11可以是單臺服務(wù)器,也可以是由多個服務(wù)器組成的服務(wù)器集群或云服務(wù)器。[0059]其中,終端10可以接收服務(wù)器11發(fā)送的相似文本,為自然語言處理中的下游任務(wù)計算機(PC,PersonalCo端,該客戶端可以是應(yīng)用程序客戶端或者瀏覽器客戶端等等。[0060]上述服務(wù)器11進行文本增強的步驟,也可以由終端10執(zhí)行。[0061]本申請實施例提供的文本增強方法涉及人工智能領(lǐng)域中的自然語言處理。本申請實施例有利于兼顧生成文本的多樣性和語句的通順性。9[0062]其中,人工智能(AI,ArtificialIntelligence)是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器。人工智能也就是研究各種智能機器的設(shè)計原理與實現(xiàn)方法,使機器具有感知、推理與決策的功能。人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。其中,人工智能軟件技術(shù)主要包括計算機視覺技術(shù)、語音處理技術(shù)、自然語言處理技術(shù)以及[0063]其中,自然語言處理(NatureLanguageprocessing,NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切等技術(shù)。[0064]以下分別進行詳細(xì)說明。需說明的是,以下實施例的描述順序不作為對實施例優(yōu)選順序的限定。[0065]本實施例將從文本增強裝置的角度進行描述,該文本增強裝置具體可以集成在電子設(shè)備中,該電子設(shè)備可以是服務(wù)器或終端等設(shè)備。[0066]本申請實施例的文本增強方法可以應(yīng)用于各種需要生成相似文本的場景中。例如,NLP模型訓(xùn)練只有少量的訓(xùn)練樣本,需要多樣化的訓(xùn)練樣本,可以通過本實施例提供的文本增強方法,由少量文本為NLP模型訓(xùn)練提供多樣性的訓(xùn)練樣本,從而緩解訓(xùn)練樣本缺乏[0067]如圖1b所示,該文本增強方法的具體流程可以如下:[0068]101、獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元。[0069]其中,目標(biāo)文本為待數(shù)據(jù)增強的文本,它包括至少一個文本單元,文本單元可以是[0070]其中,目標(biāo)文本可以包括至少一種語言類型,本實施例對語言類型不作[0071]其中,數(shù)據(jù)增強(DataAugmentation)是一種數(shù)據(jù)分析中的數(shù)據(jù)擴充技術(shù),它具體是通過對已有數(shù)據(jù)的副本稍加修改,或從現(xiàn)有數(shù)據(jù)中創(chuàng)建新的合成數(shù)據(jù)來增加樣本數(shù)量。在機器學(xué)習(xí)的模型訓(xùn)練過程中,這一技術(shù)可以起到正則化的作用,有助于減少過擬合及增強模型泛化性能。[0072]本實施例中,可以從目標(biāo)文本的文本單元中選取部分文本單元作為待替換的目標(biāo)文本單元,再從候選文本單元中選取與目標(biāo)文本單元相似的相似文本單元,以基于該相似文本單元,對目標(biāo)文本中對應(yīng)的目標(biāo)文本單元進行替換,得到替換后的目標(biāo)文本,替換后的目標(biāo)文本也即對目標(biāo)文本進行數(shù)據(jù)增強(具體為文本增強)后的文本。[0073]通過對目標(biāo)文本進行文本增強,可以在不改變目標(biāo)文本原始情感的情況下生成新的樣本,為NLP中的下游任務(wù)有效地擴充訓(xùn)練數(shù)據(jù),提供了多樣性的訓(xùn)練樣本,從而緩解訓(xùn)練樣本缺乏的問題,同時提升模型泛化能力。所訓(xùn)練的NLP模型可以用在視頻彈幕分類、公眾號留言識別、公眾號垃圾文本攔截等多個下游業(yè)務(wù)。[0074]可選地,本實施例中,步驟“從所述目標(biāo)文本的文本單元中選取至少一個待替換的[0075]通過分詞模型,對所述目標(biāo)文本進行劃分,得到所述目標(biāo)文本中的各個文本單元,所述分詞模型是基于樣本文本以及所述樣本文本中文本單元對應(yīng)的位置標(biāo)簽序列訓(xùn)練得到的。[0076]其中,分詞模型可以是神經(jīng)網(wǎng)絡(luò),具體可以是雙向編碼器表示模型(Bert,BidirectionalEncoderRepresentationsfromTransformers),也可以是長短期記憶網(wǎng)絡(luò)(LSTM,LongShort-Term分詞模型并不僅限于上述列舉的幾種類型。[0077]其中,分詞模型可以是基于樣本文本以及所述樣本文本中文本單元對應(yīng)的位置標(biāo)簽序列訓(xùn)練得到的,文本單元的位置標(biāo)簽序列可以采用BIES范式,其中,BIES表示的是某個字在詞語中的位置,B(begin)表示該字是詞語中的起始字,I表示該字是詞語中的中間字,E(end)表示該字是詞語中的結(jié)束字,S(single)可以表示單字成詞。[0078]一些實施例中,目標(biāo)文本中包括中文文本,中文文本的分詞相對詞在NLP中屬于序列標(biāo)注任務(wù),指為輸入序列分配對應(yīng)的標(biāo)簽,如位置標(biāo)簽序列。中文分詞是將一個連續(xù)的漢字序列按照一定的規(guī)范進行切分、重新組合成一個個單獨的詞序列的過程。具體地,可以通過上述分詞模型對中文文本進行中文分詞,得到該中文文本分詞后的各個文本單元,每個文本單元可以記為token。[0079]在具體場景中,可以使用上述分詞模型(具體可以是Bert模型)對中文文本(如一個中文單句)進行分詞,將中文分詞轉(zhuǎn)換為對漢字的序列標(biāo)注問題,為防止Bert模型輸出的序列標(biāo)注結(jié)果存在不合理的跳轉(zhuǎn)情況,可以在Bert模型之后接了一層CRF模型,如圖1c所元進行特征提取,生成一組特征向量T?、T?…T,并通過一層全連接層進行微調(diào),該全連接層可以是CRF模型。CRF,全稱為ConditionalRandomFields,即條件隨機場。CRF模型可以視為Bert模型的任務(wù)相關(guān)層。[0081]在分詞模型的訓(xùn)練過程中,可以為每個樣本文本進行位置標(biāo)簽序列的標(biāo)注,并通過分詞模型對樣本文本進行分詞,基于分詞結(jié)果和位置標(biāo)簽序列之間的損失值,來對分詞模型(包括Bert模型和CRF模型)中的參數(shù)進行調(diào)整,得到訓(xùn)練后的分詞模型。[0082]可選地,本實施例中,步驟“從所述目標(biāo)文本的文本單元中選取至少一個待替換的[0083]對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù);[0084]基于所述重要性參數(shù),從所述目標(biāo)文本的各文本單元中選取至少一個待替換的目標(biāo)文本單元。[0085]可選地,本實施例中,可以將重要性參數(shù)大于預(yù)設(shè)值的文本單元選取為待替換的目標(biāo)文本單元,該預(yù)設(shè)值可以根據(jù)實際情況進行設(shè)置;也可以基于重要性參數(shù),對目標(biāo)文本[0090]對所述文本單元在樣本文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元的參考權(quán)[0092]其中,文本單元在目標(biāo)文本中出現(xiàn)的頻次具體即該文本單元在目標(biāo)文本中的詞[0094]其中,n,是該詞在文件d,中的出現(xiàn)次數(shù),而分母則是在文件d,中所有字詞的出現(xiàn)文件d具體可以是目標(biāo)文本,可以將文本單元在目標(biāo)文本中的詞頻tf,直接作為文本單元[0099]對所述文本單元的參考權(quán)重以及所述文本單元在所述目標(biāo)文本中的權(quán)重進行融乘積得到,該重要性參數(shù)可以用TF-IDF表示。[0101]TF-IDF的全稱為TermFrequency-InverseDocumentFrequency,即詞頻-逆文本頻率,它是一種用于信息檢索與文本挖掘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。[0102]在實際應(yīng)用中,由于短文本場景下詞頻通常都是1,所以可以直接用IDF作為文本從其他場景遷移而來。[0103]102、識別所述目標(biāo)文本單元的字符數(shù)量和語言類型。[0104]其中,目標(biāo)文本單元可以是一個字符,也可以是兩個或多個字符。本實施例中,可以根據(jù)目標(biāo)文本單元的字符數(shù)量,對其采用不同的方式來獲取目標(biāo)文本單元的相似文本單行特征提取,得到該目標(biāo)文本單元的特征信息,基于目標(biāo)文本單元的特征信息和候選文本單元的特征信息,從候選文本單元中選取目標(biāo)文本單元的相似文本單元。的上下文信息,根據(jù)上下文信息和候選文本單元的相似度,從候選文本單元中選取目標(biāo)文本單元的相似文本單元。[0107]另外,目標(biāo)文本可以只包含一種語言類型,也可以包含兩種或兩種以上的語言類型。例如,目標(biāo)文本可以是混合中文的短文本數(shù)據(jù)。因此,從目標(biāo)文本中劃分得到的目標(biāo)文本單元可能屬于語言類型1,也可能屬于語言類型2。[0108]103、當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0109]其中,該預(yù)設(shè)數(shù)量和目標(biāo)語言可以根據(jù)實際情況進行設(shè)置,本實施例對此不作限制,比如該預(yù)設(shè)數(shù)量可以是1,該目標(biāo)語言可以是中文。[0110]可選地,本實施例中,步驟“基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元”,可以包括:[0111]分別對所述目標(biāo)文本單元和候選文本單元進行特征提取,得到所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息;[0112]基于所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度;[0113]根據(jù)所述相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單[0114]其中,具體可以通過語義模型對目標(biāo)文本單元和候選文本單元進行特征提取,該特征提取可以包括卷積處理和池化處理??蛇x地,該語義模型可以是Word2vec(wordtovector,單詞轉(zhuǎn)換成向量)模型、fastText(詞嵌入工具。[0115]其中,Word2vec是一類神經(jīng)網(wǎng)絡(luò)模型,其主要包括輸入層(inputlayer),投影層個重要模型—CBOW模型(ContinuousBag-of-WordsModel,連續(xù)詞袋模型)和Skip-gram模型(ContinuousSkip-gramModel,連續(xù)性跳字模型),兩個模型都包含三層:輸入層、投影層和輸出層;具體地,前者是在已知待語義識別的文本單元W(當(dāng)前詞)的上下文Wt-2,Wt-1,Wt+1,W+2的前提下(假設(shè)窗口為2),預(yù)測當(dāng)前詞W的語義,而后者恰恰相反,是在已知當(dāng)前詞口詞,即中心詞前的第一個文本單元,以此類推。其中,中心詞具體可以是待語義識別的文本單元。[0117]本實施例中,目標(biāo)文本單元和候選文本單元的特征信息都可以通過Word2vec模型來提取得到的。在一具體實施例中,在對目標(biāo)文本進行文本增強之前,可以通過訓(xùn)練好的Word2vec模型提取預(yù)設(shè)文本單元的特征向量,并將其存儲在預(yù)設(shè)詞向量表中,預(yù)設(shè)詞向量表中包括預(yù)設(shè)文本單元和其對應(yīng)的特征向量(具體為詞向量)之間的映射關(guān)系。當(dāng)需要對目標(biāo)文本的單元和候選文本單元進行相似度計算時,可以直接從預(yù)設(shè)詞向量表中獲取目標(biāo)文本單元的特征信息和各候選文本單元的特征信息,以進行相似度計算。處理(NLP)中語言模型與表征學(xué)習(xí)技術(shù)的統(tǒng)稱。概念上而言,它是指把一個維數(shù)為所有詞的數(shù)量的高維空間嵌入到一個維數(shù)低得多的連續(xù)向量空間中,每個單詞或詞組被映射為實數(shù)域上的向量。[0119]其中,步驟“基于所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度”,可以包括:[0120]計算目標(biāo)文本單元的特征向量和所述候選文本單元的特征向量之間的向量距離;[0121]根據(jù)所述向量距離,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度。[0122]其中,向量距離可以表征目標(biāo)文本單元和所述候選文本單元之間的相似度。向量距離越大,相似度越?。环粗?,向量距離越小,相似度越大。該向量距離具體可以是余弦距[0123]在一具體實施例中,可以將目標(biāo)文本單元的特征向量和候選文本單元的特征向量進行相乘,所得乘積即為余弦相似度。[0124]本實施例中,在得到目標(biāo)文本單元和各個候選文本單元的相似度后,可以將相似度大于預(yù)設(shè)相似度閾值的候選文本單元作為該目標(biāo)文本單元的相似文本單元,也可以基于相似度,對各候選文本單元進行排序,如從大到小進行排序,得到排序后的候選文本單元,再將排序后的候選文本單元中的前n個候選文本單元作為該目標(biāo)文本單元的相似文本單元,其中n可以根據(jù)實際情況進行設(shè)置。[0125]可選地,本實施例中,步驟“當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元”,可以包括:[0126]將字符數(shù)量大于預(yù)設(shè)數(shù)量,且語言類型為目標(biāo)語言的目標(biāo)文本單元添加到第一文本序列中;[0127]根據(jù)預(yù)設(shè)替換比例,從所述第一文本序列中選取目標(biāo)替換文本單元;[0128]基于所述目標(biāo)替換文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0129]其中,對于符合條件:字符數(shù)量大于預(yù)設(shè)數(shù)量、且語言類型為目標(biāo)語言的目標(biāo)文本單元,可以對其進行再次篩選,具體可以是篩選預(yù)設(shè)替換比例的目標(biāo)文本單元,將篩選到的目標(biāo)文本單元作為目標(biāo)替換文本單元,并對目標(biāo)替換文本單元和候選文本單元進行相似度計算,以從候選文本單元中選取目標(biāo)替換文本單元的相似文本單元。[0130]其中,該預(yù)設(shè)替換比例可以根據(jù)實際情況進行設(shè)置,本實施例對此不作[0131]104、當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0132]其中,若目標(biāo)語言為漢語,則非目標(biāo)語言可以是除了漢語外的其他語言[0133]可選地,本實施例中,步驟“當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單[0134]將字符數(shù)量不大于預(yù)設(shè)數(shù)量,或語言類型為非目標(biāo)語言的目標(biāo)文本單元添加到第二文本序列中;[0135]基于預(yù)設(shè)替換比例,從所述第二文本序列中選取目標(biāo)替換文本單元;[0136]根據(jù)所述目標(biāo)替換文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0137]其中,該預(yù)設(shè)替換比例可以根據(jù)實際情況進行設(shè)置,本實施例對此不作[0138]其中,對于符合條件:字符數(shù)量不大于預(yù)設(shè)數(shù)量、且語言類型為非目標(biāo)語言的目標(biāo)文本單元,可以對其進行再次篩選,具體可以是篩選預(yù)設(shè)替換比例的目標(biāo)文本單元,將篩選到的目標(biāo)文本單元作為目標(biāo)替換文本單元,并對目標(biāo)替換文本單元和候選文本單元進行相似度計算,以從候選文本單元中選取目標(biāo)替換文本單元的相似文本單元。[0139]可選地,另一些實施例中,步驟“當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文[0140]將語言類型為非目標(biāo)語言的目標(biāo)文本單元添加到第三文本序列中;[0141]將字符數(shù)量不大于預(yù)設(shè)數(shù)量、且語言類型為目標(biāo)語言的目標(biāo)文本單元添加到第四文本序列中;[0142]基于預(yù)設(shè)替換比例,分別從所述第三文本序列和所述第四文本序列中選取目標(biāo)替換文本單元;[0143]根據(jù)所述目標(biāo)替換文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0144]可以理解的是,第三文本序列和第四文本序列可以視為第二文本序列的子序列。[0145]在一具體實施例中,目標(biāo)文本中包含英文和中文,在對其進行分詞、過濾處理后,可以獲取目標(biāo)文本中的文本單元對應(yīng)的TF-IDF值,根據(jù)以下規(guī)則生成掩碼序列:[0146]若文本單元為單個漢字,將其掩碼設(shè)置為1;若文本單元為漢語詞語(包含兩個或?qū)?dāng)前文本單元的ID(Identitydocument,身份標(biāo)識信息)加入序列s1(具體可以是上述實施例中的第四文本序列);用WordPiece算法進行切分后長度大于1,則將當(dāng)前文本單元的ID加入序列s3(具體可以是度。SUBcnT=randint(low=SUBTYPEcNT,high=SUBcNT),比如可以設(shè)置SUBRATIo=0.4,開啟隨機替換。目標(biāo)替換文本單元的數(shù)量;SUBCNTs為序列s3中的目標(biāo)替換文本單元的數(shù)量。[0162]本實施例中,對于序列s2中的目標(biāo)替換文本單元,可以采用基于詞向量的替換進行文本增強。對于序列s1和s3中的目標(biāo)替換文本單元,可以采用基于上下文信息的替換來進行文本增強。[0163]需要說明的是,本實施例中,對于序列s3中的文本單元,選取到的該文本單元的相似文本單元不能包含該文本單元的n-gram子詞,gram為每一個字節(jié)片段。[0164]可選地,本實施例中,步驟“根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元”,可以包[0165]獲取所述目標(biāo)文本中參考文本單元的特征信息,所述參考文本單元為所述目標(biāo)文本中除所述目標(biāo)文本單元以外的其他文本單元;[0166]根據(jù)所述參考文本單元的特征信息,對所述目標(biāo)文本單元進行特征提取,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息;[0167]根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0168]其中,可以通過語義模型來獲取目標(biāo)文本的上下文信息對應(yīng)的上下文特征信息,進而根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。該語義模型可以是MLM模型。具體地,該語義模型可以是BERT(雙向編碼器表示,BidirectionalEncoderRepresentationsfromTransformers)、ALBERT(ALiteBERT,一個精簡的BERanEncoderthatClassifiesTokenReplacementsAccurately,有效的學(xué)習(xí)類被替代Token的編碼器)等,本實施例對此不作限制。[0169]其中,Bert是基于變壓器(Transformer)結(jié)構(gòu)的開源的時序模型,它的模型結(jié)構(gòu)如示的是詞與詞之間的依賴關(guān)系,Bert中的依賴關(guān)系既有前文又有后文。Bert可以是通過預(yù)訓(xùn)練加微調(diào)得到的,Bert的訓(xùn)練數(shù)據(jù)為語料信息,Bert在訓(xùn)練時主要包含兩個任務(wù),第一個是隨機扣掉訓(xùn)練語料中的詞,并用掩碼(mask)來代替,讓模型去預(yù)測被扣掉的詞;第二個任務(wù)是每個訓(xùn)練數(shù)據(jù)是一個上下句,其中,部分訓(xùn)練數(shù)據(jù)的下句和上句是真實關(guān)聯(lián)的,而部分訓(xùn)練數(shù)據(jù)的下句和上句是無關(guān)的,需要讓模型去判斷訓(xùn)練數(shù)據(jù)中上下句的關(guān)系?;趦蓚€任務(wù)的損失值來對模型進行優(yōu)化。Bert的訓(xùn)練過程可以充分利用上下文的信息,使模型具有更強的表達(dá)能力。在完成對模型的預(yù)訓(xùn)練后,還可以針對特定的任務(wù)對模型進行微調(diào)。微調(diào)(fine-tune)是深度學(xué)習(xí)領(lǐng)域中常用的遷移學(xué)習(xí)技術(shù),通過微調(diào)可以使模型更好地適用于特定場景下的語言知識。[0170]其中,由于BERT中的selfattention(自注意力)機制在預(yù)測時考慮了上下文信息,所以用這種方法在基于詞向量的替換后進行文本生成在語法上會更加通順。[0171]其中,MLM(MaskedLanguageModel,遮擋語言模型)是一種雙向語言模型。該模型在訓(xùn)練時隨機從輸入中遮擋了一些文本,目的是讓模型根據(jù)其上下文,預(yù)測被遮擋單詞的原始詞匯。與傳統(tǒng)的從左到右的單向語言模型預(yù)訓(xùn)練不同,MLM可以融合左右兩側(cè)的上下文進行雙向的深度預(yù)訓(xùn)練。[0172]可選地,本實施例中,步驟“根據(jù)所述參考文本單元的特征信息,對所述目標(biāo)文本單元進行特征提取,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息”,可以包[0173]獲取各個參考文本單元對應(yīng)的權(quán)重;[0174]根據(jù)所述權(quán)重,對各個參考文本單元的特征信息進行融合,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息。[0175]其中,該融合方式有多種,本實施例對此不作限制,比如可以是加權(quán)融合,也可以是特征拼接等。[0176]其中,步驟“根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元”,可以包括:[0177]將與上下文特征信息的相似度大于預(yù)設(shè)相似度閾值的候選文本單元選取為所述目標(biāo)文本單元的相似文本單元。[0178]可選地,一些實施例中,也可以根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,對候選文本單元進行排序,如從大到小的排序,得到排序后的候選文本單元,將排序后候選文本單元的前k個文本單元作為所述目標(biāo)文本單元的相似文本單元。[0179]其中,在對上下文特征信息和候選文本單元的特征信息進行相似度計算之前,還可以對上下文特征信息和候選文本單元的特征信息采用softmax歸一化,softmax為邏輯回歸算法。[0180]可選地,本實施例中,目標(biāo)文本可以包括多個滿足條件——字符數(shù)量不大于預(yù)設(shè)數(shù)量,或語言類型為非目標(biāo)語言的目標(biāo)文本單元,也就是說,目標(biāo)文本中存在多個需要基于上下文信息獲取相似文本單元的目標(biāo)文本單元,此時,可以按照這些目標(biāo)文本單元在目標(biāo)文本中出現(xiàn)的順序依次進行其相似文本單元的獲取。[0181]比如,目標(biāo)文本中存在三個需要基于上下文信息獲取相似文本單元的目標(biāo)文本單元,基于其在目標(biāo)文本中出現(xiàn)的順序,將這三個目標(biāo)文本單元分別記為a、b、c,可以先對a進行相似文本單元的獲取,具體可以獲取目標(biāo)文本單元a的上下文特征信息,再根據(jù)該上下文特征信息從候選文本單元中選取a的相似文本單元;然后,再進行目標(biāo)文本單元b的相似文本單元的獲取,具體地,可以根據(jù)目標(biāo)文本單元a的相似文本單元,對目標(biāo)文本中的目標(biāo)文本單元a進行替換,得到更新后的目標(biāo)文本,再獲取目標(biāo)文本單元在更新后的目標(biāo)文本中的上下文信息,基于該上下文信息從候選文本單元中選取b的相似文本單元,以此類推進行目標(biāo)文本單元c的相似文本單元的獲取。[0182]在一具體實施例中,若預(yù)設(shè)數(shù)量為1,目標(biāo)語言為中文,則對于單個漢字或不屬于中文的目標(biāo)文本單元(如英文單詞),可以根據(jù)其上下文信息與候選文本單元的相似度,從候選文本單元中選取相似文本單元;對于漢語詞語(2個或2個以上字符數(shù)量)的目標(biāo)文本單元,可以根據(jù)該目標(biāo)文本單元本身的特征信息和候選文本單元的特征信息,從候選文本單元中選取相似文本單元。這樣根據(jù)目標(biāo)文本單元的字符數(shù)量和語言種類,對其采取不同的方式來獲取相似文本單元,可以使得生成的相似文本的語句更加通暢,文本質(zhì)量更高。這是因為漢語詞語的含義較為豐富,對于相同的一個字,與不同的字組合得到的詞語可能具有不同的含義,因此需要將其作為一個整體,且由于漢語語句結(jié)構(gòu)較為復(fù)雜,若直接將所有的目標(biāo)文本單元都通過一種方式來生成相似文本單元,進而對目標(biāo)文本中對應(yīng)的目標(biāo)文本單元進行替換,容易導(dǎo)致生成的相似文本出現(xiàn)語病,句子結(jié)構(gòu)矛盾等問題。[0183]需要說明的是,目標(biāo)文本單元的相似文本單元不可以是該目標(biāo)文本單元自身。[0184]105、基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。[0185]其中,相似文本即對目標(biāo)文本進行文本增強后得到的文本。[0186]可選地,本實施例中,針對每個目標(biāo)文本單元,其相似文本單元可以有至少一個。若某目標(biāo)文本單元的相似文本單元有多個,可以從這多個相似文本單元中選取一個目標(biāo)相似文本單元,以基于目標(biāo)相似文本單元對目標(biāo)文本中該目標(biāo)文本單元進行替換。其中,目標(biāo)相似文本單元的選取方式可以是隨機的,也可以是將與目標(biāo)文本單元的相似度最大的相似文本單元作為目標(biāo)相似文本單元,本實施例對此不作限制。[0187]具體場景中,在一些短文本分類模型開發(fā)過程中,如對分類識別效果較差的文本類別采用本實施例的方案進行文本增強,則可以在測試集中有約3%的效果提升。實驗指標(biāo)對比如圖1f和圖1g所示,圖1f為文本增強前測試集分類效果指標(biāo),圖1g為文本增強后測試集分類效果指標(biāo)。[0189]通過對比可知,文本增強后原來識別準(zhǔn)確率較低的vulgar(粗俗)類,準(zhǔn)確率得到了大幅提升,其他類的分類性能也得到了不同程度的提高。[0190]本申請?zhí)峁┑奈谋驹鰪姺椒梢栽诓桓淖兙渥诱w情感的前提下對輸入句子中的用詞進行替換,從而生成新的樣本數(shù)據(jù)。在數(shù)據(jù)預(yù)處理階段,可以對文本數(shù)據(jù)進行過濾,去掉無效的空格、分隔符等,然后進行中文分詞,并計算分詞后各文本單元的TF-IDF值,根據(jù)TF-IDF和文本單元的類型生成三種待替換序列(具體可以是上述實施例中的序列s1、s2以及s3)。對于序列s1和s3中的文本單元,可以采用中文預(yù)訓(xùn)練的MaskedLanguageModel進行相似文本單元的預(yù)測和替換,對于序列s2中的文本單元,采用中文預(yù)訓(xùn)練的Word2vec模型進行相似文本單元的搜索和替換。本申請創(chuàng)造性地融合了傳統(tǒng)語言模型和深度雙向語言模型,提出了一種新的文本增強方法和系統(tǒng),可以由少量樣本為NLP任務(wù)有效地擴充高質(zhì)量的訓(xùn)練樣本,從而提高下游任務(wù)模型的泛化性能。[0191]具體地,本實施例的文本增強方法對中文場景的適應(yīng)性較強。針對中文場景下的詞匯級文本增強問題,結(jié)合中文分詞和TF-IDF來選擇待替換詞(即相似文本單元),融合傳統(tǒng)統(tǒng)計語言模型和深度雙向語言模型進行詞匯替換,兼顧生成文本的多樣性和語句的通順性,在不改變文本原始情感的情況下生成新的樣本,能夠為NLP中的下游任務(wù)有效地擴充訓(xùn)練數(shù)據(jù)。[0192]由上可知,本實施例可以獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。本申請可以基于文本單元的字符數(shù)量和語言類型,采取不同的方式獲取目標(biāo)文本單元的相似文本單元,進而對目標(biāo)文本單元進行替換,有利于兼顧生成文本的多樣性和語句的通順性。[0193]根據(jù)前面實施例所描述的方法,以下將以該文本增強裝置具體集成在服務(wù)器舉例作進一步詳細(xì)說明。[0194]本申請實施例提供一種文本增強方法,如圖2所示,該文本增強方法的具體流程可[0196]其中,目標(biāo)文本為待數(shù)據(jù)增強的文本,它包括至少一個文本單元,文本單元可以是[0197]其中,目標(biāo)文本可以包括至少一種語言類型,本實施例對語言類型不作限制。[0198]202、服務(wù)器對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù)。[0199]可選地,本實施例中,步驟“對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù)”,可以包括:[0200]針對所述目標(biāo)文本中各個文本單元,對所述文本單元在所述目標(biāo)文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元在所述目標(biāo)文本中的權(quán)重;[0201]對所述文本單元在樣本文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元的參考權(quán)[0202]根據(jù)所述文本單元的參考權(quán)重以及在所述目標(biāo)文本中的權(quán)重,確定所述文本單元的重要性參數(shù)。[0203]可選地,步驟“根據(jù)所述文本單元的參考權(quán)重以及在所述目標(biāo)文本中的權(quán)重,確定所述文本單元的重要性參數(shù)”,可以包括:[0204]對所述文本單元的參考權(quán)重以及所述文本單元在所述目標(biāo)文本中的權(quán)重進行融合,得到所述文本單元的重要性參數(shù)。[0205]其中,融合方式可以有很多種,比如,該融合方式可以是相乘等,本實施例對此不作限制。具體地,文本單元的重要性參數(shù)可以由該文本單元的詞頻TF和逆文本頻率IDF二者乘積得到,該重要性參數(shù)可以用TF-IDF表示。[0206]203、服務(wù)器基于所述重要性參數(shù),從所述目標(biāo)文本的各文本單元中選取至少一個待替換的目標(biāo)文本單元。[0207]可選地,本實施例中,可以將重要性參數(shù)大于預(yù)設(shè)值的文本單元選取為待替換的目標(biāo)文本單元,該預(yù)設(shè)值可以根據(jù)實際情況進行設(shè)置;也可以基于重要性參數(shù),對目標(biāo)文本的各文本單元進行排序,如對其從大到小進行排序,得到排序后的各文本單元,將排序后的各文本單元的前n個文本單元作為待替換的目標(biāo)文本單元。[0208]204、服務(wù)器識別所述目標(biāo)文本單元的字符數(shù)量和語言類型。[0209]其中,目標(biāo)文本單元可以是一個字符,也可以是兩個或多個字符。本實施例中,可以根據(jù)目標(biāo)文本單元的字符數(shù)量,對其采用不同的方式來獲取目標(biāo)文本單元的相似文本單行特征提取,得到該目標(biāo)文本單元的特征信息,基于目標(biāo)文本單元的特征信息和候選文本單元的特征信息,從候選文本單元中選取目標(biāo)文本單元的相似文本單元。的上下文信息,根據(jù)上下文信息和候選文本單元的相似度,從候選文本單元中選取目標(biāo)文本單元的相似文本單元。[0212]另外,目標(biāo)文本可以只包含一種語言類型,也可以包含兩種或兩種以上的語言類型。例如,目標(biāo)文本可以是混合中文的短文本數(shù)據(jù)。因此,從目標(biāo)文本中劃分得到的目標(biāo)文本單元可能屬于語言類型1,也可能屬于語言類型2。[0213]205、當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,服務(wù)器基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0214]可選地,本實施例中,步驟“基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元”,可以包括:[0215]分別對所述目標(biāo)文本單元和候選文本單元進行特征提取,得到所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息;[0216]基于所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度;[0217]根據(jù)所述相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單[0218]其中,具體可以通過語義模型對目標(biāo)文本單元和候選文本單元進行特征提取,該特征提取可以包括卷積處理和池化處理??蛇x地,該語義模型可以是Word2vec(wordtovector,單詞轉(zhuǎn)換成向量)模型、fastText(快速文本)模型以及Glove模型等。Glove是一種詞嵌入工具。[0219]206、當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,服務(wù)器根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0220]可選地,本實施例中,步驟“根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元”,可以包[0221]獲取所述目標(biāo)文本中參考文本單元的特征信息,所述參考文本單元為所述目標(biāo)文本中除所述目標(biāo)文本單元以外的其他文本單元;[0222]根據(jù)所述參考文本單元的特征信息,對所述目標(biāo)文本單元進行特征提取,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息;[0223]根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0224]其中,可以通過語義模型來獲取目標(biāo)文本的上下文信息對應(yīng)的上下文特征信息,進而根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。該語義模型可以是MLM模型。具體地,該語義模型可以是BERT(雙向編碼器表示,BidirectionalEncoderRepresentationsfromTransformers)、ALBERT(ALiteBERT,一個精簡的BERanEncoderthatClassifiesTokenReplacementsAccurately,有效的學(xué)習(xí)類被替代Token的編碼器)等,本實施例對此不作限制。[0225]可選地,本實施例中,步驟“根據(jù)所述參考文本單元的特征信息,對所述目標(biāo)文本單元進行特征提取,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息”,可以包[0226]獲取各個參考文本單元對應(yīng)的權(quán)重;[0227]根據(jù)所述權(quán)重,對各個參考文本單元的特征信息進行融合,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息。[0228]其中,該融合方式有多種,本實施例對此不作限制,比如可以是加權(quán)融合,也可以是特征拼接等。[0229]207、服務(wù)器基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。[0230]其中,相似文本即對目標(biāo)文本進行文本增強后得到的文本。[0231]由上可知,本實施例可以通過服務(wù)器獲取目標(biāo)文本;對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù);基于所述重要性參數(shù),從所述目標(biāo)文本的各文本單元中選取至少一個待替換的目標(biāo)文本單元;識別所述目標(biāo)文本單元的字符數(shù)量和語言類型。當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,服務(wù)器基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,服務(wù)器根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。服務(wù)器基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。本申請可以基于文本單元的字符數(shù)量和語言類型,采取不同的方式獲取目標(biāo)文本單元的相似文本單元,進而對目標(biāo)文本單元進行替換,有利于兼顧生成文本的多樣性和語句的通順性。[0232]為了更好地實施以上方法,本申請實施例還提供一種文本增強裝置,如圖3所示,該文本增強裝置可以包括獲取單元301、識別單元302、第一選取單元303、第二選取單元304和替換單元305,如下:[0233](1)獲取單元301;[0234]獲取單元301,用于獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元。[0235]可選的,在本申請的一些實施例中,所述獲取單元可以包括頻次分析子單元和第[0236]所述頻次分析子單元,用于對所述目標(biāo)文本中各個文本單元進行頻次分析,確定所述目標(biāo)文本中各個文本單元的重要性參數(shù);[0237]第一選取子單元,用于基于所述重要性參數(shù),從所述目標(biāo)文本的各文本單元中選取至少一個待替換的目標(biāo)文本單元。[0238]可選的,在本申請的一些實施例中,所述頻次分析子單元具體可以用于針對所述目標(biāo)文本中各個文本單元,對所述文本單元在所述目標(biāo)文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元在所述目標(biāo)文本中的權(quán)重;對所述文本單元在樣本文本中出現(xiàn)的頻次進行統(tǒng)計,得到所述文本單元的參考權(quán)重;根據(jù)所述文本單元的參考權(quán)重以及在所述目標(biāo)文本中的權(quán)重,確定所述文本單元的重要性參數(shù)。[0240]所述劃分單元,用于通過分詞模型,對所述目標(biāo)文本進行劃分,得到所述目標(biāo)文本中的各個文本單元,所述分詞模型是基于樣本文本以及所述樣本文本中文本單元對應(yīng)的位置標(biāo)簽序列訓(xùn)練得到的。[0242]識別單元302,用于識別所述目標(biāo)文本單元的字符數(shù)量和語言類型。[0244]第一選取單元303,用于當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0245]可選的,在本申請的一些實施例中,所述第一選取單元可以包括第一添加子單元、第二選取子單元和第三選取子單元,如下:[0246]所述第一添加子單元,用于將字符數(shù)量大于預(yù)設(shè)數(shù)量,且語言類型為目標(biāo)語言的目標(biāo)文本單元添加到第一文本序列中;[0247]第二選取子單元,用于根據(jù)預(yù)設(shè)替換比例,從所述第一文本序列中選取目標(biāo)替換文本單元;[0248]第三選取子單元,用于基于所述目標(biāo)替換文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0249]可選的,在本申請的一些實施例中,所述第一選取單元可以包括提取子單元、計算[0250]所述提取子單元,用于分別對所述目標(biāo)文本單元和候選文本單元進行特征提取,得到所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息;[0251]計算子單元,用于基于所述目標(biāo)文本單元的特征信息和所述候選文本單元的特征信息,計算所述目標(biāo)文本單元和所述候選文本單元之間的相似度;[0252]第六選取子單元,用于根據(jù)所述相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0254]第二選取單元304,用于當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0255]可選的,在本申請的一些實施例中,所述第二選取單元可以包括第二添加子單元、第四選取子單元和第五選取子單元,如下:[0256]所述第二添加子單元,用于將字符數(shù)量不大于預(yù)設(shè)數(shù)量,或語言類型為非目標(biāo)語言的目標(biāo)文本單元添加到第二文本序列中;[0257]第四選取子單元,用于基于預(yù)設(shè)替換比例,從所述第二文本序列中選取目標(biāo)替換文本單元;[0258]第五選取子單元,用于根據(jù)所述目標(biāo)替換文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)替換文本單元的相似文本單元。[0259]可選的,在本申請的一些實施例中,所述第二選取單元可以包括獲取子單元、上下文提取子單元和第七選取子單元,如下:[0260]所述獲取子單元,用于獲取所述目標(biāo)文本中參考文本單元的特征信息,所述參考文本單元為所述目標(biāo)文本中除所述目標(biāo)文本單元以外的其他文本單元;[0261]上下文提取子單元,用于根據(jù)所述參考文本單元的特征信息,對所述目標(biāo)文本單元進行特征提取,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息;[0262]第七選取子單元,用于根據(jù)所述上下文特征信息和候選文本單元的特征信息之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元。[0263]可選的,在本申請的一些實施例中,所述上下文提取子單元具體可以用于獲取各個參考文本單元對應(yīng)的權(quán)重;根據(jù)所述權(quán)重,對各個參考文本單元的特征信息進行融合,得到所述目標(biāo)文本單元的上下文信息對應(yīng)的上下文特征信息。[0265]替換單元305,用于基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。[0266]由上可知,本實施例可以由獲取單元301獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;通過識別單元302識別所述目標(biāo)文本單元的字符數(shù)量和語言類型;當(dāng)所述目標(biāo)文本單元的字符數(shù)量大于預(yù)設(shè)數(shù)量,且所述目標(biāo)文本單元的語言類型為目標(biāo)語言時,通過第一選取單元303基于所述目標(biāo)文本單元與候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;當(dāng)所述目標(biāo)文本單元的字符數(shù)量不大于預(yù)設(shè)數(shù)量,或所述目標(biāo)文本單元的語言類型為非目標(biāo)語言時,通過第二選取單元304根據(jù)所述目標(biāo)文本單元的上下文信息和候選文本單元之間的相似度,從所述候選文本單元中選取所述目標(biāo)文本單元的相似文本單元;由替換單元305基于各個目標(biāo)文本單元的相似文本單元,對所述目標(biāo)文本中的目標(biāo)文本單元進行替換,生成與所述目標(biāo)文本匹配的相似文本。本申請可以基于文本單元的字符數(shù)量和語言類型,采取不同的方式獲取目標(biāo)文本單元的相似文本單元,進而對目標(biāo)文本單元進行替換,有利于兼顧生成文本的多樣性和語句的通順性。[0267]本申請實施例還提供一種電子設(shè)備,如圖4所示,其示出了本申請實施例所涉及的[0268]該電子設(shè)備可以包括一個或者一個以上處理核心的處理器401、一個或一個以上計算機可讀存儲介質(zhì)的存儲器402、電源403和輸入單元404等部件。本領(lǐng)域技術(shù)人員可以理解,圖4中示出的電子設(shè)備結(jié)構(gòu)并不構(gòu)成對電子設(shè)備的限定,可以包括比圖示更多或更少的[0269]處理器401是該電子設(shè)備的控制中心,利用各種接口和線路連接整個電子設(shè)備的各個部分,通過運行或執(zhí)行存儲在存儲器402內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器402內(nèi)的數(shù)據(jù),執(zhí)行電子設(shè)備的各種功能和處理數(shù)據(jù)??蛇x的,處理器401可包括一個或多個處理核心;優(yōu)選的,處理器401可集成應(yīng)主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖牵鲜稣{(diào)制解調(diào)處理器也可以不集成到處理器401中。[0270]存儲器402可用于存儲軟件程序以及模塊,處理器401通過運行存儲在存儲器402的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器402可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)電子設(shè)備的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲器402可以包括高速隨機存取存儲器,還可以包括非少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應(yīng)地括存儲器控制器,以提供處理器401對存儲器402的訪問。[0271]電子設(shè)備還包括給各個部件供電的電源403,優(yōu)選的,電源403可以通過電源管理系統(tǒng)與處理器401邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源403還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。[0272]該電子設(shè)備還可包括輸入單元404,該輸入單元404可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號輸入。[0273]盡管未示出,該電子設(shè)備還可以包括顯示單元等,在此不再贅述。具體在本實施例中,電子設(shè)備中的處理器401會按照如下的指令,將一個或一個以上的應(yīng)用程序的進程對應(yīng)的可執(zhí)行文件加載到存儲器402中,并由處理器401來運行存儲在存儲器402中的應(yīng)用程序,[0274]獲取目標(biāo)文本,并從所述目標(biāo)文本的文本單元中選取至少一個待替換的目標(biāo)文本單元;識別所述目標(biāo)文本單元

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論