CN111753029B 實體關(guān)系抽取方法、裝置(騰訊科技(深圳)有限公司)_第1頁
CN111753029B 實體關(guān)系抽取方法、裝置(騰訊科技(深圳)有限公司)_第2頁
CN111753029B 實體關(guān)系抽取方法、裝置(騰訊科技(深圳)有限公司)_第3頁
CN111753029B 實體關(guān)系抽取方法、裝置(騰訊科技(深圳)有限公司)_第4頁
CN111753029B 實體關(guān)系抽取方法、裝置(騰訊科技(深圳)有限公司)_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利地址518057廣東省深圳市南山區(qū)高新區(qū)限公司44232GO6F16/28(20GO6F16/26(2GO6F40/216(2020.01)GO6F40/30(2020本申請的實施例提供了一種實體關(guān)系抽取中已標注分詞的標簽映射到所述每個文本對應(yīng)詞性序列中選擇至少一個第二詞性序列作為標2獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素;將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,生成頻繁序列模式,根據(jù)所述頻繁序列模式從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,所述至少一個目標詞性序列包含有所述頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在所述頻繁序列模式中的位置順序一致;獲取所述每個目標詞性序列中的標簽在所述每個目標詞性序列中對應(yīng)的位置序號,對所述至少一個目標詞性序列中不同位置序號的標簽的個數(shù)進行求和,得到所述至少一個目標詞性序列中的標簽數(shù)量之和;計算每個目標詞性序列中的標簽數(shù)量與所述至少一個目標詞性序列中的標簽數(shù)量之和的比值,得到所述每個目標詞性序列對應(yīng)的置信度,將所述置信度大于第二閾值的目標詞性序列作為標簽序列模式;根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述多個文本分別對應(yīng)的第一詞性序從所述多個文本分別對應(yīng)的第一詞性序列中選擇在所述多個文本中的第一支持度大于第一閾值的詞性元素,得到所述多個文本分別對應(yīng)的第三詞性序列;對所述多個文本分別對應(yīng)的第三詞性序列進行序列模式挖掘,生成所述頻繁序列模3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包根據(jù)所述多個文本分別對應(yīng)的第一詞性序列中的詞性元素,在所述多個文本中統(tǒng)計包含各個詞性元素的文本數(shù)量;計算包含所述各個詞性元素的文本數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述多個文本中的第一支持度。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,對所述多個文本分別對應(yīng)的第三詞性序列從所述多個文本分別對應(yīng)的第三詞性序列中選擇詞性元素作為前綴,并確定與所述前綴對應(yīng)的至少一個后綴,所述至少一個后綴包含有所述第三詞性序列中位于所述前綴之后的詞性元素,且包含的詞性元素的位置順序與在所述第三詞性序列中的位置順序一致;從所述至少一個后綴中選擇在所述至少一個后綴中的第二支持度大于所述第一閾值的一個詞性元素添加至所述前綴中,得到新的前綴,并繼續(xù)確定與所述新的前綴對應(yīng)的新的后綴,直至從確定出的新的后綴中無法選擇出第二支持度大于所述閾值的詞性元素為根據(jù)得到的多個前綴,生成所述頻繁序列模式。35.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)得到的多個前綴,生成所述頻繁序列若所述多個前綴中存在包含有其他前綴中的詞性元素,且包含的詞性元素的位置順序與在所述其他前綴中的位置順序一致的目標前綴,則將所述目標前綴作為所述頻繁序列模根據(jù)所述至少一個后綴中的詞性元素,在所述至少一個后綴中統(tǒng)計包含各個詞性元素的后綴數(shù)量;計算包含所述各個詞性元素的后綴數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述至少一個后綴中的第二支持度。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述標簽序列模式確定目標文本中未根據(jù)所述目標文本對應(yīng)的第一詞性序列,從所述標簽序列模式中選擇至少一個目標標簽序列模式,其中,所述至少一個目標標簽序列模式包含有所述目標文本對應(yīng)的第一詞性序列中的詞性元素,且包含的詞性元素的位置順序與在所述目標文本對應(yīng)的第一詞性序列中的位置順序一致;根據(jù)所述至少一個目標標簽序列模式,確定目標文本中未標注分詞的標簽。獲取單元,配置為獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素;生成單元,配置為將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標簽;選擇單元,配置為根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,生成頻繁序列模式,根據(jù)所述頻繁序列模式從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,所述至少一個目標詞性序列包含有所述頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在所述頻繁序列模式中的位置順序一致;獲取所述每個目標詞性序列中的標簽在所述每個目標詞性序列中對應(yīng)的位置序號,對所述至少一個目標詞性序列中不同位置序號的標簽的個數(shù)進行求和,得到所述至少一個目標詞性序列中的標簽數(shù)量之和;計算每個目標詞性序列中的標簽數(shù)量與所述至少一個目標詞性序列中的標簽數(shù)量之和的比值,得到所述每個目標詞性序列對應(yīng)的置信度,將所述置信度大于第二閾值的目標詞性序列作為標簽序列模式;確定單元,配置為根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法。4存儲器,用于存儲所述處理器的可執(zhí)行指令;其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行權(quán)利要求1至7中任一項所述的方法。11.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序存儲在計算機可讀存儲介質(zhì)中,計算機設(shè)備的處理器從所述計算機可讀存儲介質(zhì)讀取并執(zhí)行所述計算機程序,使得所述計算機設(shè)備執(zhí)行權(quán)利要求1至7中任一項所述的方5實體關(guān)系抽取方法、裝置技術(shù)領(lǐng)域[0001]本申請涉及文本處理與信息抽取領(lǐng)域,具體而言,涉及一種實體關(guān)系抽取方法、裝背景技術(shù)[0002]實體關(guān)系抽取對于畫像構(gòu)建和圖譜建設(shè)等都具有非常重要的意義,例如,通過挖掘和抽取金融類資訊、論壇觀點等語料的實體關(guān)系,能夠基于實體關(guān)系抽取構(gòu)建企業(yè)畫像、商戶畫像或行業(yè)畫像,從而為行業(yè)分析、戰(zhàn)略分析等應(yīng)用創(chuàng)造價值;在社交畫像挖掘和關(guān)系鏈構(gòu)建上,通過抽取人名之間的實體關(guān)系,能夠構(gòu)建社交關(guān)系鏈和人物關(guān)系圖譜,從而進行社交推薦、關(guān)系網(wǎng)營銷等應(yīng)用。然而,在現(xiàn)有的實體關(guān)系抽取方法中仍然存在著抽取結(jié)果準發(fā)明內(nèi)容[0003]本申請的實施例提供了一種實體關(guān)系抽取方法、裝置,進而至少在一定程度上能夠?qū)崿F(xiàn)高效且準確地抽取實體關(guān)系。[0004]本申請的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本申請的實踐而習(xí)得。[0005]根據(jù)本申請實施例的一個方面,提供了一種實體關(guān)系抽取方法,包括:獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素;將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標簽;根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式;根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。[0006]根據(jù)本申請實施例的一個方面,提供了一種實體關(guān)系抽取裝置,包括:獲取單元,配置為獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素;生成單元,配置為將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標簽;選擇單元,配置為根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式;確定單元,配置為根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。[0007]在本申請的一些實施例中,基于前述方案,所述選擇單元包括:第一選擇子單元,配置為從所述多個文本分別對應(yīng)的第一詞性序列中選擇在所述多個文本中的第一支持度6大于第一閾值的詞性元素,得到所述多個文本分別對應(yīng)的第三詞性序列;挖掘子單元,配置為對所述多個文本分別對應(yīng)的第三詞性序列進行序列模式挖掘,生成頻繁序列模式;第二選擇子單元,配置為根據(jù)所述頻繁序列模式,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為所述標簽序列模式。[0008]在本申請的一些實施例中,基于前述方案,所述第一選擇子單元還配置為:根據(jù)所述多個文本分別對應(yīng)的第一詞性序列中的詞性元素,在所述多個文本中統(tǒng)計包含各個詞性元素的文本數(shù)量;計算包含所述各個詞性元素的文本數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述多個文本中的第一支持度。[0009]在本申請的一些實施例中,基于前述方案,所述挖掘子單元還配置為:從所述多個文本分別對應(yīng)的第三詞性序列中選擇詞性元素作為前綴,并確定與所述前綴對應(yīng)的至少一個后綴,所述至少一個后綴包含有所述第三詞性序列中位于所述前綴之后的詞性元素,且包含的詞性元素的位置順序與在所述第三詞性序列中的位置順序一致;從所述至少一個后綴中選擇在所述至少一個后綴中的第二支持度大于所述第一閾值的一個詞性元素添加至所述前綴中,得到新的前綴,并繼續(xù)確定與所述新的前綴對應(yīng)的新的后綴,直至從確定出的新的后綴中無法選擇出第二支持度大于所述閾值的詞性元素為止;根據(jù)得到的多個前綴,生成所述頻繁序列模式。[0010]在本申請的一些實施例中,基于前述方案,所述挖掘子單元還配置為:若所述多個前綴中存在包含有其他前綴中的詞性元素,且包含的詞性元素的位置順序與在所述其他前綴中的位置順序一致的目標前綴,則將所述目標前綴作為所述頻繁序列模式。[0011]在本申請的一些實施例中,基于前述方案,所述挖掘子單元還配置為:根據(jù)所述至少一個后綴中的詞性元素,在所述至少一個后綴中統(tǒng)計包含各個詞性元素的后綴數(shù)量;計算包含所述各個詞性元素的后綴數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述至少一個后綴中的第二支持度。[0012]在本申請的一些實施例中,基于前述方案,所述第二選擇子單元還配置為:根據(jù)所述頻繁序列模式從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,所述至少一個目標詞性序列包含有所述頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在所述頻繁序列模式中的位置順序一致;計算每個目標詞性序列中的標簽數(shù)量與所述至少一個目標詞性序列中的標簽數(shù)量之和的比值,得到所述每個目標詞性序列對應(yīng)的置信度;將所述置信度大于第二閾值的目標詞性序列作為所述標簽序列模式。[0013]在本申請的一些實施例中,基于前述方案,所述第二選擇子單元還配置為:獲取所述每個目標詞性序列中的標簽在所述每個目標詞性序列中對應(yīng)的位置序號;對所述至少一個目標詞性序列中不同位置序號的標簽的個數(shù)進行求和,得到所述至少一個目標詞性序列中的標簽數(shù)量之和。[0014]在本申請的一些實施例中,基于前述方案,所述確定單元還配置為:根據(jù)所述目標文本對應(yīng)的第一詞性序列,從所述標簽序列模式中選擇至少一個目標標簽序列模式,其中,所述至少一個目標標簽序列模式包含有所述目標文本對應(yīng)的第一詞性序列中的詞性元素,且包含的詞性元素的位置順序與在所述目標文本對應(yīng)的第一詞性序列中的位置順序一致;根據(jù)所述至少一個目標標簽序列模式,確定目標文本中未標注分詞的標簽。[0015]在本申請的一些實施例所提供的技術(shù)方案中,通過對多個文本進行分詞和詞性標7注處理,得到多個文本分別對應(yīng)的第一詞性序列,并將每個文本中已標注分詞的標簽映射到第一詞性序列的詞性元素上,生成每個文本對應(yīng)的第二詞性序列,根據(jù)第一詞性序列中的詞性元素,從每個文本對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式,最終根據(jù)標簽序列模式確定目標文本中未標注分詞的標簽,結(jié)合目標文本中已標注分詞的標簽,生成目標文本的實體關(guān)系抽取結(jié)果。與現(xiàn)有技術(shù)相比,本申請實施例的技術(shù)方案基于文本中詞性元素以及文本中已標注分詞的標簽,生成標簽序列模式,隨著文本的更新,生成的標簽序列模式也會變化,使得實體關(guān)系的抽取不依賴固定抽取規(guī)則,減少了人力維護規(guī)則的成本,同時,標簽序列模式隨著文本的變化而變化,考慮了文本的實際情況,保證了生成的標簽序列模式的準確性,進而提高了實體關(guān)系抽取的準確性,并且本申請實施例的技術(shù)方案不需要神經(jīng)網(wǎng)絡(luò)模型等復(fù)雜網(wǎng)絡(luò)訓(xùn)練,從而使得實體關(guān)系抽取的效率能夠得以提高,實現(xiàn)了高效且靈活地抽取實體關(guān)系。[0016]應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本申請。附圖說明[0017]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本申請的實施例,并與說明書一起用于解釋本申請的原理。顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:[0018]圖1示出了可以應(yīng)用本申請實施例的技術(shù)方案的一個示例性系統(tǒng)架構(gòu)的示意圖;[0019]圖2示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0020]圖3示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0021]圖4示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0022]圖5示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0023]圖6示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0024]圖7示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0025]圖8示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0026]圖9示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖;[0027]圖10示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取裝置的框圖;[0028]圖11示出了適于用來實現(xiàn)本申請實施例的電子設(shè)備的計算機系統(tǒng)的結(jié)構(gòu)示意圖。具體實施方式[0029]現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實施方式使得本申請將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達給本領(lǐng)域的技術(shù)人員。[0030]此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施例中。在下面的描述中,提供許多具體細節(jié)從而給出對本申請的實施例的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本申請的技術(shù)方案而沒有特定細節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細示出或描述公知方8[0031]附圖中所示的方框圖僅僅是功能實體,不一定必須與物理上獨立的實體相對應(yīng)。即,可以采用軟件形式來實現(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。[0032]附圖中所示的流程圖僅是示例性說明,不是必須包括所有的內(nèi)容和操作/步驟,也不是必須按所描述的順序執(zhí)行。例如,有的操作/步驟還可以分解,而有的操作/步驟可以合并或部分合并,因此實際執(zhí)行的順序有可能根據(jù)實際情況改變??梢员硎荆褐淮嬖贏,只存在B以及同時存在A和B三種情況,其中A,B可以是單數(shù)或者復(fù)數(shù)。[0034]對本申請實施例進行進一步詳細說明之前,對本申請實施例中涉及的名詞和術(shù)語進行說明,本申請實施例中涉及的名詞和術(shù)語適用于如下的解釋。名稱等。[0036]2)關(guān)系抽?。宏P(guān)系定義為兩個或多個實體之間的聯(lián)系,關(guān)系抽取就是通過學(xué)習(xí)文本中多實體之間的語義聯(lián)系,來識別其關(guān)系。關(guān)系抽取的輸入是一段或者一句文本,輸出通[0037]圖1示出了可以應(yīng)用本申請實施例的技術(shù)方案的示例性系統(tǒng)架構(gòu)的示意圖。[0038]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103中的一個或多個,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。終端設(shè)備101、102、103可以是具有顯示屏的各種電子設(shè)備,包括但不機、智能手機和平板電腦等等。應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和意性的,根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、是多個服務(wù)器組成的服務(wù)器集群等。[0039]本申請實施例所提供的實體關(guān)系抽取方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,實體關(guān)系抽取裝置一般設(shè)置于服務(wù)器105中。但本領(lǐng)域技術(shù)人員容易理解的是,本申請實施例所提供的實體關(guān)系抽取方法也可以由終端設(shè)備101、102、103執(zhí)行,相應(yīng)地可以設(shè)置于終端設(shè)備101、102、103中,本示例性實施例中對此不一種示例性實施例中,可以是用戶通過終端設(shè)備101、102、103將文本上傳至服務(wù)器105,服務(wù)器105通過本申請實施例所提供的實體關(guān)系抽取方法對該文本進行處理,并將得到的實[0040]以下對本申請實施例的技術(shù)方案進行詳細闡述:[0041]在信息抽取技術(shù)中,實體關(guān)系抽取是畫像構(gòu)建和圖譜建設(shè)的必要環(huán)節(jié),目前,實體關(guān)系抽取的方法主要包括基于詞匯-語義的實體關(guān)系抽取方法、基于標注語料機器學(xué)習(xí)的實體關(guān)系抽取和基于模式挖掘和匹配的實體關(guān)系抽取方法。[0042]其中,基于詞匯-語義的實體關(guān)系抽取方法先采用詞向量方法從語料中提取概念同義詞來構(gòu)建概念詞典,然后標注詞匯信息、句法信息和語義信息,基于有限狀態(tài)機理論設(shè)9計詞匯-語義規(guī)則標注算法來進行自動化標注,從而識別句子中哪些成分構(gòu)成實體關(guān)系的重要元素,然而,基于詞匯-語義的關(guān)系抽取方法依賴于詞向量模型的效果,在擴展同義詞時往往會引入一些噪音詞,而影響抽取結(jié)果的準確性。[0043]基于機器學(xué)習(xí)的實體關(guān)系抽取方法需要首先給出候選事件元素,將關(guān)系抽取作為分類問題來處理,通過支持向量機(SupportVectorMachine,SVM)等分類器來確定該候選關(guān)系元素是否為該關(guān)系的關(guān)系元素,該方法利用依存句法進行實體詞句法關(guān)系抽取取決于句法分析的準確度,也依賴于分詞結(jié)果的準確性,分詞和句法分析兩個子任務(wù)的錯誤累積會導(dǎo)致父任務(wù)關(guān)系抽取的錯誤疊加,在實際應(yīng)用中往往很難提升。[0044]基于模式匹配和挖掘的實體關(guān)系抽取方法首先需要將句子中的關(guān)系元素和觸發(fā)詞進行標注,然后構(gòu)建關(guān)系元素和觸發(fā)詞在句法樹中的關(guān)系,依照句法關(guān)系存在的規(guī)律進行模式挖掘和構(gòu)建,從而抽取得到關(guān)系元素信息,基于模式匹配和挖掘的關(guān)系元素的方法[0045]對此,本申請實施例提供一種實體關(guān)系抽取方法,可以高效且準確地抽取實體關(guān)[0046]參見圖2,圖2示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取方法的流程圖,該實體關(guān)系抽取方法可以由服務(wù)器來執(zhí)行,該服務(wù)器可以是圖1中所示的服務(wù)器105,當然該實體關(guān)系抽取方法也可以由終端設(shè)備來執(zhí)行,比如可以由圖1中所示的終端101、102、103來[0047]步驟S210、獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素;[0048]步驟S220、將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標簽;[0049]步驟S230、根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式;[0050]步驟S240、根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。[0051]下面對這些步驟進行詳細描述。[0052]在步驟S210中,獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素。[0053]服務(wù)器獲取到多個文本后,可以先對多個文本分別進行預(yù)處理,預(yù)處理包括分詞處理和去停用詞處理,得到多個文本分別對應(yīng)的分詞序列,去停用詞,例如,可以過濾掉標點符號;進而,針對分詞序列中的每個分詞進行詞性標注處理,得到多個文本分別對應(yīng)的第一詞性序列,第一詞性序列包含每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素,且每個詞性元素是按順序進行有序排列的。例如,對于文本“歌曲a的作曲是歌手A”,通過分詞處理可以得到分詞序列“歌曲a/的/作曲/是/歌手A”,通過詞性標注處理可以得到的第一詞性序列“/n/u/n/v/nr”,第一詞性序列中詞性元素是按照順序進行有序排列的,第一位置的[0054]需要說明的是,相關(guān)技術(shù)中已有較為成熟的分詞處理方法和詞性標注方法,此處可以直接采用相關(guān)技術(shù)中的分詞處理方法對目標文本進行分詞處理,以及采用相關(guān)技術(shù)中的詞性標注方法對分詞處理得到的分詞序列進行詞性標注處理,本申請在此不對具體采用的分詞處理方法以及詞性標注方法做任何限定。[0055]步驟S220、將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標簽。[0057]本申請實施例中,多個文本中存在部分分詞標注有標簽,其中,屬于實體的分詞對應(yīng)實體標簽,屬于實體關(guān)系的分詞對應(yīng)實體關(guān)系標簽,在對多個文本分別進行分詞處理和詞性標注處理得到第一詞性序列后,可以將已標注分詞的標簽映射到每個文本對應(yīng)的第一詞性序列的詞性元素上,從而得到第二詞性序列。[0058]步驟S230、根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式。[0059]本申請實施例中,標簽序列模式可以通過從第二詞性序列中進行選擇得到,具體地,可以根據(jù)第一詞性序列,從多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式。[0060]示例性地,可以將第一詞性序列作為挖掘?qū)ο?,基于算法挖掘第一詞性序列的頻繁序列模式,然后根據(jù)頻繁序列模式在第二詞性序列中選擇滿足頻繁序列模式的第二詞性序列作為標簽序列模式。[0061]步驟S240、根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。[0062]目標文本是待抽取實體關(guān)系的文本,目標文本可以是多個文本中的任意一個文本或任意多個文本,在對多個文本進行處理得到標簽序列模式后,可以利用標簽序列模式確定目標文本中未標注分詞的標簽。[0063]示例性地,可以通過獲取目標文本對應(yīng)的標簽序列模式,將目標文本對應(yīng)的標簽序列模式中的標簽全部召回,例如,假設(shè)目標文本對應(yīng)的標簽序列模式包括標簽序列模式A和標簽序列模式B,則可以召回標簽序列模式A中的標簽和標簽序列模式B中的標簽,從而得到目標文本的標簽,通過召回的標簽對目標文本中未標注分詞進行標注,得到目標文本中的新標簽,同時結(jié)合目標文本已標注分詞的標簽,生成目標文本的實體關(guān)系抽取結(jié)果。[0064]本申請實施例的實體關(guān)系抽取方法,通過對多個文本進行分詞和詞性標注處理,得到多個文本分別對應(yīng)的第一詞性序列,并將每個文本中已標注分詞的標簽映射到第一詞性序列的詞性元素上,生成每個文本對應(yīng)的第二詞性序列,根據(jù)第一詞性序列中的詞性元素,從每個文本對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式,最終根據(jù)標簽序列模式確定目標文本中未標注分詞的標簽,結(jié)合目標文本中已標注分詞的標簽,生成目標文本的實體關(guān)系抽取結(jié)果,可以實現(xiàn)高效且準確地抽取實體關(guān)系,靈活性好,可操作性好。11[0065]在本申請的一個實施例中,可以基于序列模式挖掘方法對多個文本分別對應(yīng)的第一詞性序列進行挖掘,獲取頻繁序列模式,然后,根據(jù)頻繁序列模式從多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式,參見圖3,步驟S230可以具體包括步驟S2301-步驟S2303,現(xiàn)詳細說明如下:[0066]步驟S2301、從所述多個文本分別對應(yīng)的第一詞性序列中選擇在所述多個文本中的第一支持度大于第一閾值的詞性元素,得到所述多個文本分別對應(yīng)的第三詞性序列。[0067]序列模式挖掘是在給定序列數(shù)據(jù)庫和用戶給定的最小支持度閾值的情況下,挖掘序列數(shù)據(jù)庫中支持度大于最小支持度閾值的所有頻繁序列,旨在發(fā)現(xiàn)序列數(shù)據(jù)庫中頻繁序列模式。[0068]其中,序列的支持度是指序列α在序列數(shù)據(jù)庫S中的支持度,是指序列數(shù)據(jù)庫S中包含序列α的序列個數(shù)與序列數(shù)據(jù)庫S中序列的總數(shù)之比,記為support(a),若序列s的支持度大于或等于最小支持度閾值min_sup,則稱序列s是一個序列模式(頻繁序列),例如,最小支持度閾值為2,則序列超過兩次即認為是頻繁的,是需要挖掘出來的序列。[0069]具體到本步驟中,為了對多個文本分別對應(yīng)的第一詞性序列進行序列模式挖掘,生成頻繁序列模式,首先,可以從多個文本分別對應(yīng)的第一詞性序列中選擇在多個文本中的第一支持度大于第一閾值的詞性元素,得到多個文本分別對應(yīng)的第三詞性序列,第三詞性序列中不包括不滿足第一閾值的詞性元素,這樣一來,對多個第一詞性序列進行序列模式挖掘,不僅可以挖掘多個第一詞性序列中支持度大于第一閾值的頻繁序列,而且頻繁序列中的詞性元素的支持度也滿足了第一閾值的要求。[0070]在本申請的一個實施例中,多個文本分別對應(yīng)的第一詞性序列中的詞性元素在多個文本中的支持度可以通過文本數(shù)量占比進行計算得到,在該實施例中,如圖4所示,所述方法還包括步驟S410-步驟S420,現(xiàn)詳細說明如下:[0071]步驟S410、根據(jù)所述多個文本分別對應(yīng)的第一詞性序列中的詞性元素,在所述多個文本中統(tǒng)計包含各個詞性元素的文本數(shù)量;[0072]步驟S420、計算包含所述各個詞性元素的文本數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述多個文本中的第一支持度。[0073]在該實施例中,對于各個詞性元素,可以在多個文本中統(tǒng)計包含各個詞性元素的文本數(shù)量,然后,計算包含各個詞性元素的文本數(shù)量與多個文本的總數(shù)量之間的比值,得到各個詞性元素在多個文本中的第一支持度。[0074]舉例說明,假設(shè)存在四個文本,四個文本分別對應(yīng)的第一詞性序列為“/n/u/n/v/以統(tǒng)計得到包含詞性元素n的文本數(shù)量為4,包含詞性元素u的文本數(shù)量為4,包含詞性元素v的文本數(shù)量為4,包含詞性元素nr的文本數(shù)量為2,包含詞性元素ns的文本數(shù)量為2,包含詞性元素p的文本數(shù)量為2,包含詞性元素f的文本數(shù)量為1,包含詞性元素a的文本數(shù)量為1,包含詞性元素d的文本數(shù)量為1,包含詞性元素r的文本數(shù)量為1。[0075]在統(tǒng)計得到包含各個詞性元素的文本數(shù)量后,可以計算得到詞性元素n的第一支持度為1,詞性元素u的第一支持度為1,詞性元素v的第一支持度為1,詞性元素nr的第一支持度為1/2,詞性元素ns的第一支持度為1/2,詞性元素p的第一支持度為1/2,詞性元素f的第一支持度為1/4,詞性元素a的第一支持度為1/4,詞性元素d的第一支持度為1/4,詞性元素r的第一支持度為1/4。[0076]繼續(xù)參見圖3,在步驟S2302中,對所述多個文本分別對應(yīng)的第三詞性序列進行序[0077]序列模式挖掘可以挖掘序列數(shù)據(jù)庫中支持度大于最小支持度閾值的所有頻繁序列,經(jīng)過序列模式挖掘之后會產(chǎn)生數(shù)以萬計的序列模式,因此,需要對每一個頻繁序列進行分析,以發(fā)現(xiàn)序列數(shù)據(jù)庫中頻繁序列模式。[0078]在本實施例中,可以基于序列模式挖掘算法對多個文本分別對應(yīng)的第三詞性序列進行序列模式挖掘,對于序列模式挖掘算法本申請實施例在此不做具體限定。[0079]在本申請的一個實施例中,可以基于PrefixSpan算法對多個文本分別對應(yīng)的第三詞性序列進行序列模式挖掘,生成頻繁序列模式,PrefixSpan算法是序列模式挖掘算法的一種,以下對PrefixSpan算法流程進行介紹:[0081]輸出:所有滿足支持度要求的頻繁序列集[0082](1)找出所有長度為1的前綴和對應(yīng)的投影數(shù)據(jù)庫;[0083](2)對長度為1的前綴進行計數(shù),將支持度低于閾值α的前綴對應(yīng)的項從數(shù)據(jù)集S刪[0084](3)對于每個長度為i滿足支持度要求的前綴進行遞歸挖掘:[0086]b)統(tǒng)計對應(yīng)投影數(shù)據(jù)庫中各項的支持度計數(shù)。如果所有項的支持度計數(shù)都低于閾[0087]c)將滿足支持度計數(shù)的各個單項和當前的前綴進行合并,得到若干新的前綴;[0088]d)令i=i+1,前綴為合并單項后的各個前綴,分別遞歸執(zhí)行第c)步。[0089]具體到本實施例中,參見圖5,步驟S2302可以具體包括步驟S23021-步驟S23023,現(xiàn)詳細說明如下:[0090]步驟S23021、從所述多個文本分別對應(yīng)的第三詞性序列中選擇詞性元素作為前綴,并確定與所述前綴對應(yīng)的至少一個后綴,所述至少一個后綴包含有所述第三詞性序列中位于所述前綴之后的詞性元素,且包含的詞性元素的位置順序與在所述第三詞性序列中的位置順序一致;[0091]步驟S23022、從所述至少一個后綴中選擇在所述至少一個后綴中的第二支持度大于所述第一閾值的一個詞性元素添加至所述前綴中,得到新的前綴,并繼續(xù)確定與所述新的前綴對應(yīng)的新的后綴,直至從確定出的新的后綴中無法選擇出第二支持度大于所述閾值的詞性元素為止;[0092]步驟S23023、根據(jù)得到的多個前綴,生成所述頻繁序列模式。[0093]下面舉例說明該實施例中的步驟S23021-步驟S23022:[0094]假設(shè)給定三個文本分別對應(yīng)的第三詞性序列為下表1所示:[0095]三個文本分別對應(yīng)的第三詞性序列三項前綴對應(yīng)后綴[0108]對于表4中的前綴“/n/u/v”,其對應(yīng)的后綴中不存在第二支持度大于第一閾值的[0109]在本申請的一個實施例中,詞性元素在至少一個后綴中的第二支持度可以通過后綴數(shù)量與文本總數(shù)量計算得到,如圖6所示,包括步驟S610-步驟S620,現(xiàn)詳細說明如下:[0110]步驟S610、根據(jù)所述至少一個后綴中的詞性元素,在所述至少一個后綴中統(tǒng)計包含各個詞性元素的后綴數(shù)量;[0111]步驟S620、計算包含所述各個詞性元素的后綴數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述至少一個后綴中的第二支持度。[0112]在該實施例中,對于后綴中的各個詞性元素,可以在至少一個后綴中統(tǒng)計包含各個詞性元素的后綴數(shù)量,并計算包含各個詞性元素的后綴數(shù)量與多個文本的總數(shù)量之間的比值,得到各個詞性元素在至少一個后綴中的第二支持度。綴中的詞性元素有“u”、“n”、“v”和“nr”,其中,包含詞性元素“u”的后綴數(shù)量為2,包含詞性為1,在統(tǒng)計包含各個詞性元素的后綴數(shù)量后,可以計算得到詞性元素“u”的第二支持度為2/4,詞性元素“n”的第二支持度為1/4,詞性元素“√”的第二支持度為2/4,詞性元素“nr”的第二支持度為1/4,若第一閾值為0.4,則可以得到第二支持度大于所述第一閾值的詞性元[0114]繼續(xù)參見圖5,在步驟S23023中,根據(jù)得到的多個前綴,生成所述頻繁序列模式。[0115]經(jīng)過序列模式挖掘之后會產(chǎn)生數(shù)以萬計的前綴,需要對每一個前綴進行分析。在得到的多個前綴中,大量的前綴是冗余的,因此,可以去掉冗余的前綴,將保留下來的前綴作為頻繁序列模式。[0116]在一個實施例中,步驟S23023可以具體包括:[0117]若所述多個前綴中存在包含有其他前綴中的詞性元素,且包含的詞性元素的位置順序與在所述其他前綴中的位置順序一致的目標前綴,則將所述目標前綴作為所述頻繁序列模式。[0118]如果某個序列A所有的項集在序列B中的項集都可以找到,則A就是B的子序列。根據(jù)該定義,對于序列A={a?,a?,...a}和序列B={b?,b?,...b},n≤m,如果存在數(shù)字序列1[0119]具體到本實施例中,對于挖掘得到的前綴,如果多個前綴中存在包含其他有其他前綴中的詞性元素,且包含的詞性元素的位置順序與在其他前綴中的位置順序一致的目標前綴,則將目標前綴作為頻繁序列模式。[0120]繼續(xù)參見圖3,在步驟S2303中,根據(jù)所述頻繁序列模式,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為所述標簽序列模式。[0121]頻繁序列模式是通過對多個文本分別對應(yīng)的第一詞性序列進行序列模式挖掘得到的,在得到頻繁序列模式后,可以進一步根據(jù)頻繁序列模式從多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為所述標簽序列模式。[0122]在本申請的一個實施例中,如圖7所示,步驟S2303可以具體包括步驟S23031-步驟S23033,現(xiàn)詳細說明如下:[0123]步驟S23031、根據(jù)所述頻繁序列模式從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,所述至少一個目標詞性序列包含有所述頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在所述頻繁序列模式中的位置順序一致。[0124]具體的,從多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,所選擇的目標詞性序列包含有頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在頻繁序列模式中的位置順序一致。[0125]步驟S23032、計算每個目標詞性序列中的標簽數(shù)量與所述至少一個目標詞性序列中的標簽數(shù)量之和的比值,得到所述每個目標詞性序列對應(yīng)的置信度。[0126]在從多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列后,可以計算每個目標詞性序列中的標簽數(shù)量與至少一個目標詞性序列中的標簽數(shù)量之和的比值,將計算得到的比值作為每個目標詞性序列對應(yīng)的置信度。[0127]步驟S23033、將所述置信度大于第二閾值的目標詞性序列作為所述標簽序列模[0128]在該步驟中,選擇置信度大于第二閾值的目標詞性序列作為所述標簽序列模式。[0129]以上實施例中的技術(shù)方案,在對多個文本分別對應(yīng)的第一詞性序列進行序列模式挖掘過程中,利用“滾雪球”的思路在多輪迭代進行序列模式挖掘,并設(shè)定詞性元素在多個文本中的第一支持度,最終確保了挖掘得到頻繁序列模式的準確率,在得到頻繁序列模式后,可以根據(jù)頻繁序列模式,從多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,并結(jié)合目標詞性序列的置信度,最終生成標簽序列模式,保證了生成的標簽序列模式的可靠性。[0130]在本申請的一個實施例中,如圖8所示,計算至少一個目標詞性序列中的標簽數(shù)量之和是通過不同位置序號的標簽的個數(shù)獲得,在該實施例中,具體包括步驟S810-步驟[0131]步驟S810、獲取所述每個目標詞性序列中的標簽在所述每個目標詞性序列中對應(yīng)的位置序號;[0132]步驟S820、對所述至少一個目標詞性序列中不同位置序號的標簽的個數(shù)進行求和,得到所述至少一個目標詞性序列中的標簽數(shù)量之和。[0134]假設(shè)目標詞性序列包括兩個,分別為“#/其中,目標詞性序列“#/n/u/n/v#/nr”u*/n/n/n/v/nr”中標簽“#”的位置序號為1,標簽“*”的位置序號為3,則可以得到目標詞性序列“#/n/u/n/v#/nr”和目標詞性序列“#/n/u*/n/n/n[0135]在本申請的一個實施例中,如圖9所示,根據(jù)標簽序列模式確定目標文本中未標注分詞的標簽可以具體包括步驟S2401-步驟S2402,現(xiàn)詳細說明如下:[0136]步驟S2401、根據(jù)所述目標文本對應(yīng)的第一詞性序列,從所述標簽序列模式中選擇至少一個目標標簽序列模式,其中,所述至少一個目標標簽序列模式包含有所述目標文本對應(yīng)的第一詞性序列中的詞性元素,且包含的詞性元素的位置順序與在所述目標文本對應(yīng)的第一詞性序列中的位置順序一致。[0137]目標文本是待抽取實體關(guān)系的文本,目標文本可以是多個文本中的任意一個文本或任意多個文本,在對多個文本進行處理得到標簽序列模式后,可以利用標簽序列模式確定目標文本中未標注分詞的標簽。[0138]具體的,根據(jù)目標文本對應(yīng)的第一詞性序列,從標簽序列模式中選擇至少一個目標標簽序列模式,選擇的至少一個目標標簽序列模式包含有目標文本對應(yīng)的第一詞性序列中的詞性元素,且包含的詞性元素的位置順序與在目標文本對應(yīng)的第一詞性序列中的位置順序一致。[0139]步驟S2402、根據(jù)所述至少一個目標標簽序列模式,確定目標文本中未標注分詞的標簽。[0140]具體而言,可以根據(jù)至少一個目標標簽序列模式中的標簽,確定出目標文本中未n/n/n/v/nr”,目標標簽序列模式“#/n/u/n/v#/nr”在第一位置簽為“*”,而目標文本中第一位置的分詞和第五位置的分詞都已標注標簽,因此,可以確定[0141]下面以四句具體文本為例對本申請實施例的技術(shù)方案的實現(xiàn)細節(jié)進行詳細說明:[0142]第一,服務(wù)器獲取到如下表5所示的四個文本,通過對四個文本分別進行分詞處理和去停用詞處理,可以得到如下表6所示的分詞序列,進而,針對分詞序列中的每個分詞進行詞性標注處理,可以得到如下表7所示的多個文本分別對應(yīng)的第一詞性序列。四個文本除了公司a的股東公司b外,其他公司也紛紛入股四個文本分別對應(yīng)的分詞序列除了/公司a/的/股東/公司b/外/其他/公司/也/紛紛/入股四個文本分別對應(yīng)的第一詞性序列[0148]表7曲a、歌手A、公司b和公司c的實體標簽映射到對應(yīng)的第一詞性序列的詞性元素上,將作詞和股東的實體關(guān)系標簽映射到對應(yīng)的第一詞性序列的詞性元素上,實體標簽用“#”進行表示,實體關(guān)系標簽用“*”進行表示,那么可以得到如下表8所示的第二詞性序列。四個文本分別對應(yīng)的第二詞性序列[0152]第三,統(tǒng)計包含第一詞性序列中的詞性元素的文本數(shù)量與四個文本的總數(shù)量之間的比值,得到各個詞性元素在四個文本中的第一支持度,如表9所示,并選擇第一支持度大于第一閾值的詞性元素,第一閾值為0.4,得到四個文本分別對應(yīng)的第三詞性序列,如表10所示。詞性元素第一支持度四個文本分別對應(yīng)的第三詞性序列表10對四個文本分別對應(yīng)的第三詞性序列進行序列模式挖掘,具體為:首先,可以將第三詞性序列中的詞性元素構(gòu)造一項前綴與其對應(yīng)的后綴,得到的結(jié)果如表11所示。[0160]表11[0161]以表11中的一項前綴為“/n”和“/p”為例,從“/n”和“/p”對應(yīng)后綴中選擇在后綴中的第二支持度大于第一閾值的一個詞性元素添加到“/n”和“/p”中,可以得到如表12所示的結(jié)果。[0163]表12[0164]以表12中的二項前綴為“/n/u”和“/p/ns”為例,從“/n/u”和“/p/ns”中選擇在后綴中的第二支持度大于第一閾值的一個詞性元素添加到“/n/u”和“/p/ns”中,可以得到如表13所示的結(jié)果。[0166]表13擇在后綴中的第二支持度大于第一閾值的一個詞性元素添加到“/n/u/n”和“/p/ns/u”中,可以得到如表14所示的結(jié)果。[0169]表14[0170]以表14中的四項前綴為“/n/u/n/v”ns/u/ns”中選擇在后綴中的第二支持度大于第一閾值的一個詞性元素添加到“/n/u/n/v”和“/p/ns/u/ns”中,可以得到如表15所示的結(jié)果。[0172]表15[0173]從表15可知,只有“/p/ns/u/n/ns”對應(yīng)后綴中第二支持度大于第一閾值的詞性元素,因此進一步可以得到如表16所示的結(jié)果。[0175]表16[0176]根據(jù)一項前綴、二項前綴、三項前綴、四項前綴、五項前綴以及六項前綴,可以最終得到如表17所示的頻繁序列模式。頻繁序列模式[0178]表17[0179]第四,在得到頻繁序列模式后,從表4所示的四個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,目標詞性序列包含有頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在頻繁序列模式中的位置順序一致,例如,對于頻繁序列模式“/n/u/n/v/nr”,可以確定目標詞性序列為“#/n/u/n/v#/nr”和“#/n/u*/n/n/n/v/nr”。[0180]進一步,可以計算得到目標詞性序列對應(yīng)的置信度,若置信度大于第二閾值,則可以將目標詞性序列作為標簽序列模式,例如,對于頻繁序列模式“/n/u/n/v/nr”,選擇的目標詞性序列“#/n/u/n/v#/nr”的置信度為2/3,選擇的目標詞性序列“#/n/u*/n/n/n/v/nr”的置信度為2/3,若第二閾值為1/3,則可以將目標詞性序列“#/n/u/n/v#/nr”和目標詞性序列“#/n/u*/n/n/n/v/nr”作為標簽序列模式。[0181]通過上述方法,最終得到標簽序列模式如表18所示。標簽序列模式[0183]表18[0184]第五,根據(jù)標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。[0185]目標文本可以為表1所示的四個文本,從標簽序列模式中選擇至少一個目標標簽序列模式,至少一個目標標簽序列模式包含有目標文本對應(yīng)的第一詞性序列中的詞性元素,且包含的詞性元素的位置順序與在目標文本對應(yīng)的第一詞性序列中的位置順序一致。[0186]根據(jù)至少一個目標標簽序列模式的標簽,獲取目標文本未標注分詞的標簽,以生成目標文本的實體關(guān)系抽取結(jié)果。[0187]例如,對于目標文本“歌曲a的作曲是歌手A”,該目標文本對應(yīng)的第一詞性序列為“/n/u/n/v/nr”,而根據(jù)該第一詞性序列選擇得到的目標標簽序列模式為“#/n/u/n/v#/nr”和“#/n/u*/n/n/n/v/nr”,由于該目標文本第一位置上的分詞和第五位置上的分詞已標注標簽,而根據(jù)目標標簽序列模式還可以對該目標文本未標注標簽的第三位置的分詞進行標[0188]通過上述過程,可以實現(xiàn)對四個文本中未標注分詞標注標簽,對“作曲”標注實體簽,對“公司d”標注實體標簽,結(jié)合已標注分詞的標簽,最終可以得到四個文本的實體關(guān)系抽取結(jié)果如下[0189]表19所示。關(guān)系實體關(guān)系關(guān)系實體作曲作詞歌手B公司a股東公司b公司c投資方公司d[0192]以下介紹本申請的裝置實施例,可以用于執(zhí)行本申請上述實施例中的實體關(guān)系抽取方法。對于本申請裝置實施例中未披露的細節(jié),請參照本申請上述的實體關(guān)系抽取方法的實施例。[0193]圖10示出了根據(jù)本申請的一個實施例的實體關(guān)系抽取裝置的框圖,參照圖10所示,根據(jù)本申請的一個實施例的實體關(guān)系抽取裝置1000,包括:獲取單元1002、生成單元1004、選擇單元1006和確定單元1008。[0194]其中,獲取單元1002,配置為獲取多個文本分別對應(yīng)的第一詞性序列,每個文本對應(yīng)的第一詞性序列包含所述每個文本的分詞結(jié)果中的各個分詞所對應(yīng)的詞性元素;生成單元1004,配置為將所述每個文本中已標注分詞的標簽映射到所述每個文本對應(yīng)的第一詞性序列的詞性元素上,生成所述每個文本對應(yīng)的第二詞性序列,所述標簽包含實體標簽和實體關(guān)系標簽;選擇單元1006,配置為根據(jù)所述多個文本分別對應(yīng)的第一詞性序列,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為標簽序列模式;確定單元1008,配置為根據(jù)所述標簽序列模式確定目標文本中未標注分詞的標簽,以根據(jù)所述目標文本中的標簽生成所述目標文本的實體關(guān)系抽取結(jié)果。[0195]在本申請的一些實施例中,所述選擇單元1006包括:第一選擇子單元,配置為從所述多個文本分別對應(yīng)的第一詞性序列中選擇在所述多個文本中的第一支持度大于第一閾值的詞性元素,得到所述多個文本分別對應(yīng)的第三詞性序列;挖掘子單元,配置為對所述多個文本分別對應(yīng)的第三詞性序列進行序列模式挖掘,生成頻繁序列模式;第二選擇子單元,配置為根據(jù)所述頻繁序列模式,從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個第二詞性序列作為所述標簽序列模式。[0196]在本申請的一些實施例中,所述第一選擇子單元還配置為:根據(jù)所述多個文本分別對應(yīng)的第一詞性序列中的詞性元素,在所述多個文本中統(tǒng)計包含各個詞性元素的文本數(shù)量;計算包含所述各個詞性元素的文本數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述多個文本中的第一支持度。[0197]在本申請的一些實施例中,所述挖掘子單元還配置為:從所述多個文本分別對應(yīng)的第三詞性序列中選擇詞性元素作為前綴,并確定與所述前綴對應(yīng)的至少一個后綴,所述至少一個后綴包含有所述第三詞性序列中位于所述前綴之后的詞性元素,且包含的詞性元素的位置順序與在所述第三詞性序列中的位置順序一致;從所述至少一個后綴中選擇在所述至少一個后綴中的第二支持度大于所述第一閾值的一個詞性元素添加至所述前綴中,得到新的前綴,并繼續(xù)確定與所述新的前綴對應(yīng)的新的后綴,直至從確定出的新的后綴中無法選擇出第二支持度大于所述閾值的詞性元素為止;根據(jù)得到的多個前綴,生成所述頻繁序列模式。[0198]在本申請的一些實施例中,所述挖掘子單元還配置為:若所述多個前綴中存在包含有其他前綴中的詞性元素,且包含的詞性元素的位置順序與在所述其他前綴中的位置順序一致的目標前綴,則將所述目標前綴作為所述頻繁序列模式。[0199]在本申請的一些實施例中,所述挖掘子單元還配置為:根據(jù)所述至少一個后綴中的詞性元素,在所述至少一個后綴中統(tǒng)計包含各個詞性元素的后綴數(shù)量;計算包含所述各個詞性元素的后綴數(shù)量與所述多個文本的總數(shù)量之間的比值,得到所述各個詞性元素在所述至少一個后綴中的第二支持度。[0200]在本申請的一些實施例中,所述第二選擇子單元還配置為:根據(jù)所述頻繁序列模式從所述多個文本分別對應(yīng)的第二詞性序列中選擇至少一個目標詞性序列,所述至少一個目標詞性序列包含有所述頻繁序列模式中的詞性元素,且包含的詞性元素的位置順序與在所述頻繁序列模式中的位置順序一致;計算每個目標詞性序列中的標簽數(shù)量與所述至少一個目標詞性序列中的標簽數(shù)量之和的比值,得到所述每個目標詞性序列對應(yīng)的置信度;將所述置信度大于第二閾值的目標詞性序列作為所述標簽序列模式。[0201]在本申請的一些實施例中,所述第二選擇子單元還配置為:獲取所述每個目標詞性序列中的標簽在所述每個目標詞性序列中對應(yīng)的位置序號;對所述至少一個目標詞性序列中不同位置序號的標簽的個數(shù)進行求和,得到所述至少一個目標詞性序列中的標簽數(shù)量之和。[0202]在本申請的一些實施例中,所述確定單元1008還配置為:根據(jù)所述目標文本對應(yīng)的第一詞性序列,從所述標簽序列模式中選擇至少一個目標標簽序列模式,其中,所述至少一個目標標簽序列模式包含有所述目標文本對應(yīng)的第一詞性序列中的詞性元素,且包含的詞性元素的位置順序與在所述目標文本對應(yīng)的第一詞性序列中的位置順序一致;根據(jù)所述至少一個目標標簽序列模式,確定目標文本中未標注分詞的標簽。[0203]圖11示出了適于用來實現(xiàn)本申請實施例的電子設(shè)備的計算機系統(tǒng)的結(jié)構(gòu)示意圖。[0204]需要說明的是,圖11示出的電子設(shè)備的計算機系統(tǒng)1100僅是一個示例,不應(yīng)對本申請實施例的功能和使用范圍帶來任何限制。[0205]如圖11所示,計算機系統(tǒng)1100包括中央處理單元(CentralProcessingUnit,CPU)1101,其可以根據(jù)存儲在只讀存儲器(Read-OnlyMemory,ROM)1102中的程序或者從儲存部分1108加載到隨機訪問存儲器(RandomAccessMemory,RAM)1103中的程序而執(zhí)行各作所需的各種程序和數(shù)據(jù)。CPU1101、ROM1102以及RAM1103通過總線1104彼此相連。輸入/輸出(Input/Output,I/0)接口1105也連接至總線1104。[0206]以下部件連接至I/0接口1105:包括鍵盤、鼠標等的輸入部分1106;包括諸如陰極器等的輸出部分1107;包括硬盤等的儲存部分1108;以及包括諸如LAN(LocalAreaNetwork,局域網(wǎng))卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分1109。通信部分1109經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器1110也根據(jù)需要連接至I/0接口1105。可拆卸介質(zhì)從其上讀出的計算機程序根據(jù)需要被安裝入儲存部分1108。[0207]特別地,根據(jù)本申請的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本申請的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行流程圖所示的方法的計算機程序。在這樣的實施例中,該計算機程序可以通過通信部分1109從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)1111被安裝。在該計算機程序被中央處理單元(CPU)1101執(zhí)行時,執(zhí)行本申請的系統(tǒng)中限定的各種功能。[0208]需要說明的是,本申請實施例所示的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的計算機程序。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的計算機程序可以用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于:無線、有線等等,或者上述的任意合適的組合。[0209]附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。其中,流程圖或框圖中的每個方框可以代表一實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論