CN114417118B 一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)(北京百度網(wǎng)訊科技有限公司)_第1頁(yè)
CN114417118B 一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)(北京百度網(wǎng)訊科技有限公司)_第2頁(yè)
CN114417118B 一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)(北京百度網(wǎng)訊科技有限公司)_第3頁(yè)
CN114417118B 一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)(北京百度網(wǎng)訊科技有限公司)_第4頁(yè)
CN114417118B 一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)(北京百度網(wǎng)訊科技有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN114417118B(21)申請(qǐng)?zhí)?02111668094.6(22)申請(qǐng)日2021.12.31(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)申請(qǐng)公布號(hào)CN114417118A(43)申請(qǐng)公布日2022.04.29(73)專利權(quán)人北京百度網(wǎng)訊科技有限公司百度大廈2層(74)專利代理機(jī)構(gòu)北京品源專利代理有限公司專利代理師高艷紅(56)對(duì)比文件權(quán)利要求書3頁(yè)說明書16頁(yè)附圖8頁(yè)(54)發(fā)明名稱一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)(57)摘要本公開提供了一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及大數(shù)據(jù)、信息流和人工智能技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為:獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,其中,所述待識(shí)別搜索信息包括搜索詞信息和/或所述搜索詞信息觸發(fā)的網(wǎng)址信息;根據(jù)所述訪問行為,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征;根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù)。能夠提高異常數(shù)據(jù)識(shí)別的精準(zhǔn)性,為2獲取至少兩個(gè)交互平臺(tái)的搜索詞和所述搜索詞觸發(fā)的訪問網(wǎng)址;從所述搜索詞中提取異常觸發(fā)詞,并將所述搜索詞和所述異常觸發(fā)詞作為待識(shí)別搜索信息的搜索詞信息;從所述訪問網(wǎng)址中提取子網(wǎng)址,并將所述訪問網(wǎng)址和所述子網(wǎng)址作為所述待識(shí)別搜索信息的網(wǎng)址信息;以及獲取所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,其中,所述待識(shí)別搜索信息包括搜索詞信息和/或所述搜索詞信息觸發(fā)的網(wǎng)址信息;根據(jù)所述訪問行為,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征;根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù);根據(jù)所述訪問行為,確定所述待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及所述待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量;根據(jù)所述待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及所述待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征。2.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述訪問行為,確定所述待識(shí)別搜索信根據(jù)所述訪問行為,確定各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量;根據(jù)各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征。3.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,還包括:根據(jù)所述待識(shí)別搜索信息的信息內(nèi)容,確定所述待識(shí)別搜索信息的演變特征,并將所述演變特征添加到所述待識(shí)別搜索信息的目標(biāo)訪問特征中。4.根據(jù)權(quán)利要求3所述的方法,其中,所述根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜通過異常數(shù)據(jù)識(shí)別模型,根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常根據(jù)所述目標(biāo)訪問特征和特征閾值,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù)。5.根據(jù)權(quán)利要求4所述的方法,還包括:獲取樣本搜索信息,并確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息;基于所述樣本搜索信息和所述監(jiān)督標(biāo)簽信息,對(duì)所述異常數(shù)據(jù)識(shí)別模型進(jìn)行有監(jiān)督訓(xùn)6.根據(jù)權(quán)利要求5所述的方法,其中,所述確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信根據(jù)所述至少兩個(gè)交互平臺(tái)對(duì)所述樣本搜索信息的反饋信息,確定初始標(biāo)簽信息;根據(jù)所述樣本搜索信息的信息內(nèi)容和所述初始標(biāo)簽信息的信息內(nèi)容之間的相似度,更新所述初始標(biāo)簽信息;根據(jù)所述樣本搜索信息的樣本訪問特征和更新后的初始標(biāo)簽信息的樣本訪問特征之間的相似度,確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。37.根據(jù)權(quán)利要求1所述的方法,還包括:若檢測(cè)到黑名單更新事件,則根據(jù)線上黑名單和所述異常數(shù)據(jù)的共現(xiàn)情況,更新所述線上黑名單。檢測(cè)到所述異常數(shù)據(jù)的目標(biāo)訪問特征達(dá)到預(yù)設(shè)要求;或者,檢測(cè)到當(dāng)前時(shí)刻達(dá)到所述黑名單更新周期。9.根據(jù)權(quán)利要求7所述的方法,還包括:基于所述線上黑名單,對(duì)所述至少兩個(gè)交互平臺(tái)的線上搜索信息進(jìn)行異常數(shù)據(jù)監(jiān)控。信息獲取模塊,用于獲取至少兩個(gè)交互平臺(tái)的搜索詞和所述搜索詞觸發(fā)的訪問網(wǎng)址;從所述搜索詞中提取異常觸發(fā)詞,并將所述搜索詞和所述異常觸發(fā)詞作為待識(shí)別搜索信息的搜索詞信息;從所述訪問網(wǎng)址中提取子網(wǎng)址,并將所述訪問網(wǎng)址和所述子網(wǎng)址作為所述待識(shí)別搜索信息的網(wǎng)址信息;以及獲取所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,其中,所述待識(shí)別搜索信息包括搜索詞信息和/或所述搜索詞信息觸發(fā)的網(wǎng)址信息;訪問特征確定模塊,用于根據(jù)所述訪問行為,確定所述待識(shí)別搜索信息的目標(biāo)訪問特異常數(shù)據(jù)識(shí)別模塊,用于根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常根據(jù)所述訪問行為,確定所述待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及所述待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量;根據(jù)所述待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及所述待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征。根據(jù)所述訪問行為,確定各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量;根據(jù)各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征。12.根據(jù)權(quán)利要求10-11中任一項(xiàng)所述的裝置,還包括:演變特征確定模塊,用于根據(jù)所述待識(shí)別搜索信息的信息內(nèi)容,確定所述待識(shí)別搜索信息的演變特征,并將所述演變特征添加到所述待識(shí)別搜索信息的目標(biāo)訪問特征中。第一識(shí)別單元,用于通過異常數(shù)據(jù)識(shí)別模型,根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別第二識(shí)別單元,用于根據(jù)所述目標(biāo)訪問特征和特征閾值,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù)。14.根據(jù)權(quán)利要求13所述的裝置,還包括:樣本信息獲取模塊,用于獲取樣本搜索信息;4監(jiān)督標(biāo)簽確定模塊,用于確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息;模型訓(xùn)練模塊,用于基于所述樣本搜索信息和所述監(jiān)督標(biāo)簽信息,對(duì)所述異常數(shù)據(jù)識(shí)別模型進(jìn)行有監(jiān)督訓(xùn)練。根據(jù)所述至少兩個(gè)交互平臺(tái)對(duì)所述樣本搜索信息的反饋信息,確定初始標(biāo)簽信息;根據(jù)所述樣本搜索信息的信息內(nèi)容和所述初始標(biāo)簽信息的信息內(nèi)容之間的相似度,更新所述初始標(biāo)簽信息;根據(jù)所述樣本搜索信息的樣本訪問特征和更新后的初始標(biāo)簽信息的樣本訪問特征之間的相似度,確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。16.根據(jù)權(quán)利要求10所述的裝置,還包括:黑名單更新模塊,用于若檢測(cè)到黑名單更新事件,則根據(jù)線上黑名單和所述異常數(shù)據(jù)17.根據(jù)權(quán)利要求16所述的裝置,還包括更新事件檢測(cè)模塊,具體用于:檢測(cè)到所述異常數(shù)據(jù)的目標(biāo)訪問特征達(dá)到預(yù)設(shè)要求;或者,檢測(cè)到當(dāng)前時(shí)刻達(dá)到所述黑名單更新周期。18.根據(jù)權(quán)利要求16所述的裝置,還包括:異常監(jiān)控模塊,基于所述線上黑名單,對(duì)所述至少兩個(gè)交互平臺(tái)的線上搜索信息進(jìn)行異常數(shù)據(jù)監(jiān)控。與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行權(quán)利要求1-9中任一項(xiàng)所述的異常數(shù)據(jù)處理方法。20.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-9中任一項(xiàng)所述的異常數(shù)據(jù)處理方法。21.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-9中任一項(xiàng)所述的異常數(shù)據(jù)處理方法。5技術(shù)領(lǐng)域[0001]本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及大數(shù)據(jù)、信息流和人工智能技術(shù)領(lǐng)域,具體涉及一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以背景技術(shù)[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的互聯(lián)網(wǎng)交互平臺(tái)順勢(shì)而生。然而一些不法分子將互聯(lián)網(wǎng)交互平臺(tái)作為其異常數(shù)據(jù)的曝光平臺(tái),嚴(yán)重影響交互平臺(tái)的正常運(yùn)營(yíng)。因此,如何精準(zhǔn)識(shí)別出交互平臺(tái)中的異常數(shù)據(jù)至關(guān)重要。發(fā)明內(nèi)容[0003]本公開提供了一種異常數(shù)據(jù)處理方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)。[0004]根據(jù)本公開的一方面,提供了一種異常數(shù)據(jù)處理方[0005]獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,其中,所述待識(shí)別搜索信息包括搜索詞信息和/或所述搜索詞信息觸發(fā)的網(wǎng)址信息;[0006]根據(jù)所述訪問行為,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征;[0007]根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù)。[0008]根據(jù)本公開的另一方面,提供[0010]與至少一個(gè)處理器通信連接的存儲(chǔ)[0011]存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行本公開任一實(shí)施例的異常數(shù)據(jù)處理方法。[0012]根據(jù)本公開的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開任一實(shí)施例的異常數(shù)據(jù)處理方法。[0013]本公開實(shí)施例的方案,能夠從搜索信息的整個(gè)訪問流程出發(fā),來識(shí)別其中的異常數(shù)據(jù),提高了異常數(shù)據(jù)識(shí)別的精準(zhǔn)性,為精準(zhǔn)識(shí)別出交互平臺(tái)中的異常數(shù)據(jù)提供了新的解決方案。[0014]應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。附圖說明[0015]附圖用于更好地理解本方案,不構(gòu)成對(duì)本公開的限定。其中:[0016]圖1是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖;[0017]圖2是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖;[0018]圖3是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖;[0019]圖4是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖;6[0020]圖5是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖;[0021]圖6是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖;[0022]圖7是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理的系統(tǒng)架構(gòu)圖;[0023]圖8是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;[0024]圖9是用來實(shí)現(xiàn)本公開實(shí)施例的一種異常數(shù)據(jù)處理方法的電子設(shè)備的框圖。具體實(shí)施方式[0025]以下結(jié)合附圖對(duì)本公開的示范性實(shí)施例做出說明,其中包括本公開實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,可以對(duì)這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本公開的范圍和精神。同樣,為了清楚和簡(jiǎn)明,以下的描述中省略了對(duì)公知功能和結(jié)構(gòu)的描述。[0026]圖1是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖。本公開實(shí)施例適用于識(shí)別異常數(shù)據(jù)的情況。尤其適用于為企業(yè)端(Business,B端)用戶提供異常數(shù)據(jù)識(shí)別的情況。例如,可以是對(duì)多個(gè)B端交互平臺(tái)的海量搜索信息進(jìn)行解析,識(shí)別其中的異常數(shù)據(jù)。該方法可以由異常數(shù)據(jù)處理裝置來執(zhí)行,該裝置可以采用軟件和/或硬件的方式實(shí)現(xiàn)。具體可以集成于電子設(shè)備中。例如,該電子設(shè)備可以是為多個(gè)B端交互平臺(tái)提供數(shù)據(jù)分析服務(wù)的計(jì)算設(shè)備。如圖1所示,本實(shí)施例提供的異常數(shù)據(jù)處理方法可以包括:[0027]S101,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0028]其中,所謂交互平臺(tái)為能夠與用戶進(jìn)行交互,向用戶提供搜索服務(wù)的平臺(tái),該交互[0029]所謂待識(shí)別搜索信息為需要進(jìn)行異常數(shù)據(jù)識(shí)別的搜索信息,該搜索信息可以是交互平臺(tái)為用戶提供搜索服務(wù)的過程中所產(chǎn)生的數(shù)據(jù)信息,具體可以包括搜索詞信息和/或搜索詞信息觸發(fā)的網(wǎng)址信息。其中,搜索詞信息可以是用戶在交互平臺(tái)的搜索引擎中輸入的搜索詞的相關(guān)信息。例如,可以是搜索詞本身,也可以是對(duì)搜索詞解析得到的信息。網(wǎng)址信息可以是搜索詞信息在交互平臺(tái)上觸發(fā)的訪問頁(yè)面網(wǎng)址(即訪問網(wǎng)址)的相關(guān)信息,即交互平臺(tái)響應(yīng)于用戶輸入的搜索詞信息,所反饋的訪問網(wǎng)址的相關(guān)信息。例如,可以是訪問網(wǎng)址本身,也可以是對(duì)訪問網(wǎng)址解析得到的信息。需要說明的是,本實(shí)施例中待識(shí)別搜索信息的數(shù)量?jī)?yōu)選為多個(gè)。[0030]所謂搜索信息在交互平臺(tái)中關(guān)聯(lián)的訪問行為可以是該搜索信息開始訪問交互平臺(tái)到訪問完成的整個(gè)訪問過程所產(chǎn)生的行為。可以包括但不限于:搜索信息已訪問的交互平臺(tái)、在交互平臺(tái)訪問的具體頁(yè)面,以及其所訪問頁(yè)面的頁(yè)面瀏覽量等。[0031]可選的,在本實(shí)施例中,為多個(gè)交互平臺(tái)提供數(shù)據(jù)分析服務(wù)的計(jì)算設(shè)備可以與各個(gè)交互平臺(tái)交互,來獲取各個(gè)交互平臺(tái)的待識(shí)別搜索信息。具體的,一種可實(shí)施方式為:計(jì)算設(shè)備可以實(shí)時(shí)監(jiān)控各交互平臺(tái)的運(yùn)營(yíng)情況,從而獲取各交互平臺(tái)所產(chǎn)生的線上搜索詞,和/或該線上搜索詞所觸發(fā)的頁(yè)面網(wǎng)址,并根據(jù)一段時(shí)間內(nèi)(如一天內(nèi))獲取的線上搜索詞和/或頁(yè)面網(wǎng)址,生成一組待識(shí)別搜索信息。[0032]另一種可實(shí)施方式為:計(jì)算設(shè)備可以每隔預(yù)設(shè)周期(如一天),向各交互平臺(tái)發(fā)送一次數(shù)據(jù)獲取請(qǐng)求,并接收各交互平臺(tái)響應(yīng)該數(shù)據(jù)獲取請(qǐng)求所反饋的該預(yù)設(shè)周期內(nèi)所產(chǎn)生7的所有線上搜索詞,和/或該線上搜索詞所觸發(fā)的訪問網(wǎng)址,并根據(jù)接收的所有線上搜索詞和/或訪問網(wǎng)址,生成一組待識(shí)別搜索信息。[0033]其中,根據(jù)獲取的線上搜索詞和/或訪問網(wǎng)址,生成一組待識(shí)別搜索信息時(shí),可以直接將獲取的線上搜索詞和/或訪問網(wǎng)址作為一組待識(shí)別搜索信息;還可以是對(duì)線上搜索詞和/或訪問網(wǎng)址進(jìn)行信息解析,并將解析結(jié)果作為待識(shí)別搜索信息;還可以是將線上搜索詞及其解析結(jié)果,和/或訪問網(wǎng)址及其解析結(jié)果一并作為待識(shí)別搜索信息等。對(duì)此本實(shí)施例不進(jìn)行限定。[0034]可選的,該計(jì)算設(shè)備獲取待識(shí)別搜索信息的同時(shí),還需要進(jìn)一步獲取待識(shí)別搜索信息在各個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。具體的獲取方式可以與獲取待識(shí)別搜索信息的方式類似,例如,一種可實(shí)施方式為:計(jì)算設(shè)備實(shí)時(shí)監(jiān)控各交互平臺(tái)的運(yùn)營(yíng)情況,從而獲取每個(gè)待識(shí)別搜索信息在各交互平臺(tái)中關(guān)聯(lián)的訪問行為。另一種可實(shí)施方式為:各交互平臺(tái)響應(yīng)數(shù)據(jù)獲取請(qǐng)求反饋線上搜索詞,和/或該線上搜索詞所觸發(fā)的訪問網(wǎng)址的同時(shí),一并反饋該線上搜索詞和訪問網(wǎng)址在該交互平臺(tái)中關(guān)聯(lián)的訪問行為,此時(shí)計(jì)算設(shè)備可以對(duì)各個(gè)交互平臺(tái)反饋的訪問行為進(jìn)行匯總,得到待識(shí)別搜索信息在各個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0035]S102,根據(jù)訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0036]其中,待識(shí)別搜索信息的目標(biāo)訪問特征可以是刻畫待識(shí)別搜索信息在各個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為的特征??梢园ǖ幌抻冢罕碚鞲魉阉餍畔⒃诟鹘换テ脚_(tái)的訪問范圍和訪問分布的特征等。具體可以從每個(gè)搜索信息的角度來刻畫目標(biāo)訪問特征;還可以從交互平臺(tái)的角度來刻畫目標(biāo)訪問特征。[0037]可選的,在本實(shí)施例中,可以根據(jù)每個(gè)待識(shí)別搜索信息,基于其在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,確定該待識(shí)別搜索信息的目標(biāo)訪問特征。也就是說,基于每個(gè)待識(shí)別搜索信息,從其開始訪問各個(gè)交互平臺(tái),到訪問結(jié)束的全部訪問行為出發(fā),著眼于全流程的訪問細(xì)節(jié)來構(gòu)建該待識(shí)別搜索信息的目標(biāo)訪問特征。該目標(biāo)訪問特征可以表征待識(shí)別搜索信息訪問交互平臺(tái)的訪問框架。[0038]其中,根據(jù)訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征的一種可實(shí)施方式為:將各個(gè)待識(shí)別搜索信息在各個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為輸入到預(yù)先訓(xùn)練好的特征提取模型中,該特征提取模型即可基于輸入的訪問行為,解析得到待識(shí)別搜索信息的目標(biāo)訪問[0039]另一種可實(shí)施方式為:按照預(yù)設(shè)的目標(biāo)訪問特征統(tǒng)計(jì)規(guī)則,對(duì)各個(gè)待識(shí)別搜索信息在各個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為進(jìn)行統(tǒng)計(jì),并根據(jù)統(tǒng)計(jì)結(jié)果,抽象出待識(shí)別搜索信息的目標(biāo)訪問特征。[0040]S103,根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。[0041]其中,異常數(shù)據(jù)可以是指非正常行為(如網(wǎng)絡(luò)犯罪行為或爭(zhēng)議行為)所關(guān)聯(lián)的黑灰產(chǎn)數(shù)據(jù)。例如,可以是交互平臺(tái)中存在的流量廣告攻擊行為所關(guān)聯(lián)的廣告數(shù)據(jù)。[0042]可選的,在本實(shí)施例中,可以預(yù)先統(tǒng)計(jì)出各類型的異常數(shù)據(jù)關(guān)聯(lián)的共性訪問特征,此時(shí)可以將每個(gè)待識(shí)別搜索信息的目標(biāo)訪問特征與各類型的異常數(shù)據(jù)關(guān)聯(lián)的共性訪問特征進(jìn)行比較,若特征相似度滿足要求,則將該待識(shí)別搜索信息作為異常數(shù)據(jù)。還可以是基于預(yù)先訓(xùn)練好的異常數(shù)據(jù)識(shí)別模型來對(duì)各待識(shí)別搜索信息的目標(biāo)訪問特征進(jìn)行分析,來確定該待識(shí)別搜索信息是否為異常數(shù)據(jù)等。8[0043]本公開實(shí)施例的方案,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息及其在各交互平臺(tái)關(guān)聯(lián)的訪問行為,基于該訪問行為確定待識(shí)別搜索信息的目標(biāo)訪問特征,并基于該目標(biāo)訪問特征來判定待識(shí)別搜索信息是否為異常數(shù)據(jù)。本實(shí)施例基于搜索信息在交互平臺(tái)的整個(gè)訪問流程的行為特征出發(fā),來識(shí)別其中的異常數(shù)據(jù),無(wú)需依賴人工操作,提高了異常數(shù)據(jù)識(shí)別的精準(zhǔn)性和高效性,為精準(zhǔn)識(shí)別出交互平臺(tái)中的異常數(shù)據(jù)提供了新的解決方案。[0044]圖2是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖。本公開實(shí)施例在上述實(shí)施例的基礎(chǔ)上,進(jìn)一步對(duì)如何根據(jù)待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征進(jìn)行詳細(xì)解釋說明,如圖2所示,本實(shí)施例提供的異常數(shù)據(jù)處理方法可以包括:[0045]S201,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0046]其中,待識(shí)別搜索信息包括搜索詞信息和/或搜索詞信息觸發(fā)的網(wǎng)址信息。[0047]S202,根據(jù)訪問行為,確定待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量。[0048]其中,頁(yè)面瀏覽量(PageView,PV)可以是衡量交互平臺(tái)的平臺(tái)流量的重要指標(biāo)。具體的,來自交互平臺(tái)的一次網(wǎng)頁(yè)界面請(qǐng)求會(huì)被看成一個(gè)頁(yè)面瀏覽量,通過一段時(shí)間的累積,即可得到這段之間的總的頁(yè)面瀏覽量。[0049]可選的,本實(shí)施例可以是針對(duì)每一待識(shí)別搜索信息,基于其在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,統(tǒng)計(jì)該待識(shí)別搜索信息具體訪問的交互平臺(tái)有哪些,即統(tǒng)計(jì)待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái)。另外還需要統(tǒng)計(jì)該待識(shí)別搜索信息在每一交互平臺(tái)中觸發(fā)了幾次網(wǎng)頁(yè)界面請(qǐng)求,即可得到該待識(shí)別搜索信息在每一交互平臺(tái)所關(guān)聯(lián)的頁(yè)面瀏覽量。[0050]S203,根據(jù)待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0051]可選的,本實(shí)施例根據(jù)待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),及其在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,確定待識(shí)別搜索信息的目標(biāo)訪問特征的方式有很多,對(duì)此不進(jìn)行限定。[0052]一種可實(shí)施方式為:根據(jù)待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),統(tǒng)計(jì)待識(shí)別搜索信息所關(guān)聯(lián)的交互平臺(tái)總數(shù),基于待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,統(tǒng)計(jì)待識(shí)別搜索信息關(guān)聯(lián)的頁(yè)面瀏覽量總數(shù),并將該交互平臺(tái)總數(shù)和頁(yè)面瀏覽量總數(shù)作為衡量待識(shí)別搜索信息的目標(biāo)訪問特征中的訪問范圍特征。[0053]另一種可實(shí)施方式為:根據(jù)待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,刻畫待識(shí)別搜索信息關(guān)聯(lián)的各交互平臺(tái)的分布類型,作為目標(biāo)訪問特征中的訪問數(shù)據(jù)分布特征。具體的,統(tǒng)計(jì)待識(shí)別搜索信息在各交互平臺(tái)的頁(yè)面瀏覽量的均值、方差和變異系數(shù)等,并通過均值、方差和變異系數(shù)等來刻畫待識(shí)別搜索信息的目標(biāo)訪問特征中的訪問數(shù)據(jù)分布特征。[0054]又一種可實(shí)施方式為:根據(jù)待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,統(tǒng)計(jì)待識(shí)別搜索信息關(guān)聯(lián)的頁(yè)面瀏覽量總數(shù),這些頁(yè)面瀏覽量分布在多少個(gè)交互平臺(tái),平均到各交互平臺(tái)下,每個(gè)交互平臺(tái)平均受訪的頁(yè)面瀏覽量等,作為衡量待識(shí)別搜索信息的目標(biāo)訪問特征中的訪問方量級(jí)特征。即從訪問方的角度來衡量訪問方給被訪問方(即交互平臺(tái)方)所帶來的影響??蛇x的,還可以基于待識(shí)別搜9索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,按照頁(yè)面瀏覽量從高到底的順序,對(duì)各交互平臺(tái)進(jìn)行排序,并計(jì)算排序后相鄰量交互平臺(tái)的頁(yè)面瀏覽量變化斜率,作為衡量待識(shí)別搜索信息的目標(biāo)訪問特征中的訪問方量級(jí)特征。即基于頁(yè)面瀏覽量變化斜率來刻畫待識(shí)別搜索數(shù)據(jù)給各交互平臺(tái)帶來的影響。[0055]需要說明的是,本實(shí)施例可基于上述至少一種可實(shí)施方式來確定待識(shí)別搜索信息的目標(biāo)訪問特征。優(yōu)選同時(shí)基于上述三種方式來確定待識(shí)別搜索信息的多維度的目標(biāo)訪問[0056]S204,根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。[0057]本公開實(shí)施例的方案,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息及其在各交互平臺(tái)關(guān)聯(lián)的訪問行為,基于該訪問行為確定待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,進(jìn)而基于關(guān)聯(lián)的交互平臺(tái)及其上的頁(yè)面瀏覽量,來確定待識(shí)別搜索信息的目標(biāo)訪問特征,并基于該目標(biāo)訪問特征來判定待識(shí)別搜索信息是否為異常數(shù)據(jù)。本方案基于待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái)及其在交互平臺(tái)上的頁(yè)面瀏覽量,從訪問范圍、訪問數(shù)據(jù)分布和訪問方量級(jí)等多個(gè)角度來表征目標(biāo)訪問特征,提高了目標(biāo)訪問特征的豐富度和準(zhǔn)確性,為后續(xù)基于該目標(biāo)訪問特征精準(zhǔn)識(shí)別異常數(shù)據(jù)提供了保障。[0058]可選的,本公開實(shí)施例除了采用上述實(shí)施例介紹的方式確定待識(shí)別搜索信息的目標(biāo)訪問特征外,還可以采用如下方式,從交互平臺(tái)的角度出發(fā)來確定待識(shí)別搜索信息的目[0059](一)、根據(jù)訪問行為,聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量。[0060]具體的,可以針對(duì)每一交互平臺(tái),從獲取的所有待識(shí)別搜索信息中確定該交互平臺(tái)中出現(xiàn)的待識(shí)別搜索信息作為該交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,另外,還需要針對(duì)該交互平臺(tái)關(guān)聯(lián)的每一待識(shí)別搜索信息,統(tǒng)計(jì)該待識(shí)別搜索信息在該交互平臺(tái)對(duì)應(yīng)的頁(yè)面瀏[0061](二)、根據(jù)各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0062]具體的,可以根據(jù)每一交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,統(tǒng)計(jì)該交互平臺(tái)被多少個(gè)待識(shí)別搜索信息關(guān)聯(lián);根據(jù)各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量,統(tǒng)計(jì)各個(gè)關(guān)聯(lián)的待識(shí)別搜索信息在該交互平臺(tái)對(duì)應(yīng)的平均頁(yè)面瀏覽量等,并將統(tǒng)計(jì)結(jié)果作為衡量待識(shí)別搜索信息的目標(biāo)訪問特征中的被訪問方量級(jí)特征。即從被訪問方的角度來衡量其與訪問方(即待識(shí)別搜索信息)之間的關(guān)系特征。[0063]本實(shí)施例從交互平臺(tái)的角度來刻畫待識(shí)別搜索信息的目標(biāo)訪問特征,進(jìn)一步豐富了目標(biāo)訪問特征的特征維度,使得刻畫的目標(biāo)訪問特征更為全面準(zhǔn)確,進(jìn)而提高了基于該目標(biāo)訪問特征識(shí)別的異常數(shù)據(jù)的精準(zhǔn)性。[0064]可選的,本公開實(shí)施例除了采用上述實(shí)施例介紹的方式確定待識(shí)別搜索信息的目標(biāo)訪問特征外,還可以包括:根據(jù)待識(shí)別搜索信息的信息內(nèi)容,確定待識(shí)別搜索信息的演變特征,并將演變特征添加到待識(shí)別搜索信息的目標(biāo)訪問特征中。[0065]具體的,待識(shí)別搜索信息的演變特征可以是刻畫待識(shí)別搜索信息自身演變過程的難易程度的特征,可以從待識(shí)別搜索信息的自身內(nèi)容信息來解析,例如,可以是根據(jù)待識(shí)別搜索信息的信息內(nèi)容,判斷其本次演變過程與上一次相比,變化內(nèi)容是什么,若是增加了隨[0066]本實(shí)施例解析待識(shí)別搜索信息的信息內(nèi)容的演變特征,并將其添加到待識(shí)別搜索信息的目標(biāo)訪問特征中,從訪問行為和內(nèi)容信息兩個(gè)維度來表征目標(biāo)訪問特征,使得刻畫的目標(biāo)訪問特征更為全面準(zhǔn)確,進(jìn)而提高了基于該目標(biāo)訪問特征識(shí)別的異常數(shù)據(jù)的精準(zhǔn)[0067]圖3是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖。本公開實(shí)施例在上述實(shí)施例的基礎(chǔ)上,進(jìn)一步對(duì)如何根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)進(jìn)行詳細(xì)解釋說明,如圖3所示,本實(shí)施例提供的異常數(shù)據(jù)處理方法可以包括:[0068]S301,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0069]其中,待識(shí)別搜索信息包括搜索詞信息和/或搜索詞信息觸發(fā)的網(wǎng)址信息。[0070]S302,根據(jù)訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0071]S303,通過異常數(shù)據(jù)識(shí)別模型,根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常[0072]其中,異常數(shù)據(jù)識(shí)別模型可以是預(yù)先訓(xùn)練好的能夠執(zhí)行異常數(shù)據(jù)識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。可選的,本實(shí)施例可以預(yù)先基于不同的神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練多種異常數(shù)據(jù)識(shí)別模型。例如,基于邏輯回歸(LogisticRegression,LR)模型訓(xùn)練一種異常數(shù)據(jù)識(shí)別模型,再基程將在后續(xù)實(shí)施例進(jìn)行詳細(xì)介紹。[0073]具體的,本實(shí)施例可以將各個(gè)待識(shí)別搜索信息的目標(biāo)訪問特征輸入到異常數(shù)據(jù)識(shí)別模型中,該異常數(shù)據(jù)識(shí)別模型即可基于訓(xùn)練算法對(duì)輸入的目標(biāo)訪問特征進(jìn)行分析,確定該目標(biāo)訪問特征關(guān)聯(lián)的待識(shí)別搜索信息是否為異常數(shù)據(jù)。[0074]可選的,當(dāng)本實(shí)施例的異常數(shù)據(jù)識(shí)別模型由多種能夠執(zhí)行異常數(shù)據(jù)識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型構(gòu)成時(shí),可以通過每種異常數(shù)據(jù)識(shí)別模型,根據(jù)目標(biāo)訪問特征,都從待識(shí)別搜索信息中識(shí)別出一部分異常數(shù)據(jù),再對(duì)多種模型的識(shí)別結(jié)果進(jìn)行融合(如合并或取交集等)得到最終的識(shí)別結(jié)果。[0075]可選的,本實(shí)施例根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)的另一種可實(shí)施方式可以是:根據(jù)目標(biāo)訪問特征和特征閾值,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。[0076]其中,特征閾值可以是預(yù)先設(shè)置的衡量目標(biāo)訪問特征是符合異常數(shù)據(jù)特征的標(biāo)[0077]可選的,本實(shí)施例可以預(yù)先為目標(biāo)訪問特征設(shè)置異常數(shù)據(jù)對(duì)應(yīng)的特征閾值,然后針對(duì)每一待識(shí)別搜索信息的目標(biāo)訪問特征,判斷該特征是否達(dá)到特征閾值,若達(dá)到,則說明該待識(shí)別搜索信息為異常數(shù)據(jù)。例如,若目標(biāo)訪問特征為訪問范圍特征,且特征閾值為訪問20萬(wàn)交互平臺(tái)和1000萬(wàn)頁(yè)面瀏覽量,則當(dāng)某一待識(shí)別搜索信息的目標(biāo)訪問特征達(dá)到20萬(wàn)交互平臺(tái)和1000萬(wàn)頁(yè)面瀏覽量,則該待識(shí)別搜索信息為異常數(shù)據(jù)。[0078]可選的,當(dāng)待識(shí)別搜索信息的目標(biāo)訪問特征的維度為多個(gè)時(shí),本實(shí)施例可以是基于每個(gè)維度都進(jìn)行是否達(dá)到特征閾值的判斷,以提高識(shí)別結(jié)果的準(zhǔn)確性。也可以從多個(gè)維度中選擇至少一個(gè)相對(duì)重要的目標(biāo)訪問特征,只對(duì)選出的這部分重要的目標(biāo)訪問特征進(jìn)行11是否達(dá)到特征閾值的判斷,以提高異常數(shù)據(jù)識(shí)別效率。[0079]可選的,本實(shí)施例根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)的又一種可實(shí)施方式還可以是:將上述兩種可實(shí)施方式結(jié)合,即先通過異常數(shù)據(jù)識(shí)別模型,根據(jù)目標(biāo)訪問特征,識(shí)別出待識(shí)別搜索信息中的一部分異常數(shù)據(jù);再根據(jù)目標(biāo)訪問特征和特征閾值,識(shí)別出待識(shí)別搜索信息中的另一部異常數(shù)據(jù);進(jìn)而對(duì)兩種方式識(shí)別出的兩部分異常數(shù)據(jù)進(jìn)行融合(如合并或取交集等)處理得到最終的異常數(shù)據(jù)。[0080]本公開實(shí)施例的方案,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息及其在各交互平臺(tái)關(guān)聯(lián)的訪問行為,基于該訪問行為確定待識(shí)別搜索信息的目標(biāo)訪問特征,并基于異常數(shù)據(jù)識(shí)別模型,和/或特征閾值判斷的方式來根據(jù)目標(biāo)訪問特征來識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。本方案引入多種不同方式來基于目標(biāo)訪問特征識(shí)別異常數(shù)據(jù),提高了異常數(shù)據(jù)識(shí)別結(jié)果的靈活性和精準(zhǔn)性。[0081]圖4是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖。本公開實(shí)施例在上述實(shí)施例的基礎(chǔ)上,進(jìn)一步對(duì)如何訓(xùn)練異常數(shù)據(jù)識(shí)別模型的過程進(jìn)行詳細(xì)解釋說明,如圖4所示,本實(shí)施例提供的異常數(shù)據(jù)處理方法可以包括:[0082]S401,獲取樣本搜索信息,并確定樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。[0083]其中,樣本搜索信息用于訓(xùn)練異常數(shù)據(jù)識(shí)別模型所需的訓(xùn)練樣本數(shù)據(jù)。其與待識(shí)別搜索信息類似,可以包括搜索詞信息和/或搜索詞信息觸發(fā)的網(wǎng)址信息。具體的,該樣本搜索信息可以是至少兩個(gè)交互平臺(tái)歷史運(yùn)營(yíng)過程中產(chǎn)生的搜索信息。[0084]所謂監(jiān)督標(biāo)簽信息是標(biāo)注出的屬于異常數(shù)據(jù)的樣本搜索信息。用于在異常數(shù)據(jù)識(shí)別模型訓(xùn)練的過程中,對(duì)模型訓(xùn)練進(jìn)行監(jiān)督。[0085]本實(shí)施例的一種可實(shí)施方式為:基于人工識(shí)別的方式確定出樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息;另一種可實(shí)施方式為:按照預(yù)設(shè)規(guī)則自動(dòng)為各樣本搜索信息確定關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。具體的,自動(dòng)確定樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息的過程可以包括如下步[0087]具體的,交互平臺(tái)在發(fā)現(xiàn)其搜索信息中存在異常數(shù)據(jù)時(shí),會(huì)向計(jì)算設(shè)備發(fā)送反饋異常數(shù)據(jù)的通知信息,例如,哪些搜索信息為異常數(shù)據(jù)。因此本實(shí)施例在獲取樣本搜索信息的同時(shí),還需要獲取交互平臺(tái)對(duì)樣本搜索信息的反饋信息,并基于反饋信息中指出的異常的搜索信息,先從樣本搜索信息中標(biāo)注出一部分屬于異常數(shù)據(jù)的樣本搜索信息,作為初始標(biāo)簽信息。[0088]需要說明的是,由于交互平臺(tái)每天處理的搜索信息較多,且并不是所有交互平臺(tái)都會(huì)反饋信息,所以通過本步驟確定的初始標(biāo)簽信息只是樣本搜索信息中的一小部分異常數(shù)據(jù),也就是說本步驟確定的初始標(biāo)簽信息不夠全面。[0089](二)、根據(jù)樣本搜索信息的信息內(nèi)容和初始標(biāo)簽信息的信息內(nèi)容之間的相似度,更新初始標(biāo)簽信息。[0090]具體的,本實(shí)施例在確定出初始標(biāo)簽信息后,可以將每一樣本搜索信息的信息內(nèi)容與各初始標(biāo)簽信息(即第一步已標(biāo)注成異常數(shù)據(jù)的樣本搜索信息)的信息內(nèi)容進(jìn)行相似度計(jì)算,將相似度達(dá)到預(yù)設(shè)閾值,且不屬于初始標(biāo)簽信息的樣本搜索信息添加到初始標(biāo)簽[0091]需要說明的是,通過本步驟對(duì)初始標(biāo)簽信息的更新操作,極大的提高了初始標(biāo)簽信息的全面性。[0092](三)、根據(jù)樣本搜索信息的樣本訪問特征和更新后的初始標(biāo)簽信息的樣本訪問特征之間的相似度,確定樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。[0093]其中,所謂樣本訪問特征是指對(duì)異常數(shù)據(jù)識(shí)別模型進(jìn)行訓(xùn)練時(shí)所需的部分特征維度所對(duì)應(yīng)的訪問特征。需要說明的是,在本實(shí)施例中,目標(biāo)訪問特征所包含的特征維度盡可能包含全部的特征維度,而樣本訪問特征所對(duì)應(yīng)的部分特征維度可以是交互平臺(tái)業(yè)務(wù)上相對(duì)重要的特征維度。本方案選擇部分特征維度的樣本訪問特征對(duì)異常數(shù)據(jù)識(shí)別模型進(jìn)行訓(xùn)練,相比于選擇全部特征維度的訪問特征對(duì)異常數(shù)識(shí)別模型進(jìn)行訓(xùn)練,避免了異常數(shù)據(jù)模[0094]具體的,本實(shí)施例可以根據(jù)樣本搜索信息在至少兩個(gè)交互平臺(tái)關(guān)聯(lián)的訪問行為,確定樣本搜索信息的樣本訪問特征和更新后的初始標(biāo)簽信息的樣本訪問特征。進(jìn)而基于每一樣本搜索信息,計(jì)算其樣本訪問特征與各初始標(biāo)簽信息的樣本訪問特征之間的相似度,將相似度達(dá)到預(yù)設(shè)閾值,且不屬于初始標(biāo)簽信息的樣本搜索信息添加到初始標(biāo)簽信息中,并將本步驟處理后得到的初始標(biāo)簽作為樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。[0095]本實(shí)施例通過交互平臺(tái)的反饋信息初步確定標(biāo)簽信息后,基于搜索信息的信息內(nèi)容和樣本訪問特征兩個(gè)維度的相似度來不斷完善表征異常數(shù)據(jù)的監(jiān)督標(biāo)簽信息,提高了監(jiān)督標(biāo)簽信息確定的精準(zhǔn)性與全面性。[0096]可選的,在本實(shí)施例中,為了保證確定的監(jiān)督標(biāo)簽信息的準(zhǔn)確性,還可以采用人工查驗(yàn)的方式來對(duì)上述方式確定出監(jiān)督標(biāo)簽信息進(jìn)行準(zhǔn)確性核查。[0097]S402,基于樣本搜索信息和監(jiān)督標(biāo)簽信息,對(duì)異常數(shù)據(jù)識(shí)別模型進(jìn)行有監(jiān)督訓(xùn)練。[0098]可選的,本實(shí)施例可以獲取樣本搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,并基于該訪問行為,確定樣本搜索信息的目標(biāo)訪問特征。將樣本搜索信息的目標(biāo)訪問特征作為異常數(shù)據(jù)識(shí)別模型的輸入,將樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息作為異常數(shù)據(jù)識(shí)別模型的監(jiān)督數(shù)據(jù),來對(duì)異常數(shù)據(jù)識(shí)別模型進(jìn)行有監(jiān)督訓(xùn)練。具體的,可以是將樣本搜索信息的目標(biāo)訪問特征輸入到異常數(shù)據(jù)識(shí)別模型中,異常數(shù)據(jù)識(shí)別模型對(duì)輸入的樣本搜索信息的目標(biāo)訪問特征進(jìn)行解析處理,預(yù)測(cè)樣本搜索信息中的異常數(shù)據(jù),根據(jù)預(yù)測(cè)的異常數(shù)據(jù)和該樣本搜索信息的關(guān)聯(lián)的監(jiān)督標(biāo)簽信息計(jì)算損失函數(shù),根據(jù)損失函數(shù)反向傳播更新異常數(shù)據(jù)識(shí)別模型的模型參數(shù)。[0099]需要說明的是,本實(shí)施例需要基于多組樣本搜索信息和監(jiān)督標(biāo)簽信息,按照上述方案對(duì)異常數(shù)據(jù)識(shí)別模型進(jìn)行多次迭代訓(xùn)練,直至達(dá)到預(yù)設(shè)的訓(xùn)練停止條件,則停止調(diào)整異常數(shù)據(jù)識(shí)別模型的參數(shù),得到經(jīng)訓(xùn)練的異常數(shù)據(jù)識(shí)別模型。訓(xùn)練停止條件可以包括:訓(xùn)練次數(shù)達(dá)到預(yù)設(shè)次數(shù),或者模型損失收斂等。[0100]S403,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0101]其中,待識(shí)別搜索信息包括搜索詞信息和/或搜索詞信息觸發(fā)的網(wǎng)址信息。[0102]S404,根據(jù)訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0103]S405,通過異常數(shù)據(jù)識(shí)別模型,根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常[0104]優(yōu)選的,還可以根據(jù)目標(biāo)訪問特征和特征閾值,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù),并將基于異常數(shù)據(jù)識(shí)別模型確定的異常數(shù)據(jù)與基于特征閾值確定的異常數(shù)據(jù)進(jìn)行融[0105]本公開實(shí)施例的方案,根據(jù)樣本搜索信息,及其對(duì)應(yīng)的監(jiān)督標(biāo)簽信息,通過有監(jiān)督訓(xùn)練的方式來得到異常數(shù)據(jù)識(shí)別模型后,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息及其在各交互平臺(tái)關(guān)聯(lián)的訪問行為,基于該訪問行為確定待識(shí)別搜索信息的目標(biāo)訪問特征,并基于異常數(shù)據(jù)識(shí)別模型識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。本方案給出了一種自動(dòng)確定樣本搜索信息的監(jiān)督標(biāo)簽信息的方式,另外,基于監(jiān)督標(biāo)簽對(duì)異常數(shù)據(jù)識(shí)別模型進(jìn)行有監(jiān)督訓(xùn)練,提高了異常數(shù)據(jù)識(shí)別模型識(shí)別結(jié)果的準(zhǔn)確性。[0106]圖5是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖。本公開實(shí)施例在上述實(shí)施例的基礎(chǔ)上,進(jìn)一步對(duì)如何獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息進(jìn)行詳細(xì)解釋說明,如圖5所示,本實(shí)施例提供的異常數(shù)據(jù)處理方法可以包括:[0107]S501,獲取至少兩個(gè)交互平臺(tái)的搜索詞和搜索詞觸發(fā)的訪問網(wǎng)址。[0108]其中,所謂搜索詞可以是用戶在交互平臺(tái)的搜索引擎中輸入的表征其搜索需求的詞匯。搜索引擎響應(yīng)于該搜索詞得到的搜索結(jié)果對(duì)應(yīng)的頁(yè)面網(wǎng)址即為搜索詞觸發(fā)的訪問網(wǎng)址。[0109]可選的,本實(shí)施例中,為多個(gè)交互平臺(tái)提供數(shù)據(jù)分析服務(wù)的計(jì)算設(shè)備可以與各個(gè)交互平臺(tái)交互,來獲取各個(gè)交互平臺(tái)的搜索詞和搜索詞觸發(fā)的訪問網(wǎng)址。具體的,可以是計(jì)算設(shè)備可以實(shí)時(shí)監(jiān)控各交互平臺(tái)的運(yùn)營(yíng)情況,來獲取各交互平臺(tái)的搜索詞和搜索詞觸發(fā)的訪問網(wǎng)址。也可以是每隔預(yù)設(shè)周期(如一天),向各交互平臺(tái)發(fā)送一次數(shù)據(jù)獲取請(qǐng)求,并接收各交互平臺(tái)響應(yīng)該數(shù)據(jù)獲取請(qǐng)求所反饋的該預(yù)設(shè)周期內(nèi)所產(chǎn)生的所有搜索詞和搜索詞觸發(fā)的訪問網(wǎng)址等。[0110]S502,從搜索詞中提取異常觸發(fā)詞,并將搜索詞和異常觸發(fā)詞作為待識(shí)別搜索信息的搜索詞信息。[0111]其中,所謂異常觸發(fā)詞可以是指搜索詞中可能會(huì)觸發(fā)出現(xiàn)異常數(shù)據(jù)的詞匯。具體的,本實(shí)施例可以將搜索詞中表征聯(lián)系方式的詞匯,如即時(shí)通訊軟件的社交帳號(hào)、郵箱或電話等作為異常詞匯。例如,若搜索詞為“平臺(tái)推廣ip高價(jià)收量(QQ:1234567)系方式的“QQ:1234567”即為該搜索詞中的異常觸發(fā)詞。[0112]可選的,本實(shí)施例從搜索詞中提取異常觸發(fā)詞的方式有很多,對(duì)此本實(shí)施例不進(jìn)行限定。[0113]一種可實(shí)施方式為:通過預(yù)先訓(xùn)練好的觸發(fā)詞提取模型,來對(duì)搜索詞進(jìn)行解析,從而輸出搜索詞中的異常觸發(fā)詞。[0114]另一種可實(shí)施方式為:預(yù)先基于各類型的異常觸發(fā)詞,設(shè)置匹配規(guī)則(如正則匹配規(guī)則),將獲取的各搜索詞與異常觸發(fā)詞對(duì)應(yīng)的匹配規(guī)則進(jìn)行一致性匹配,從而獲取匹配度高的詞匯作為異常觸發(fā)詞。[0115]又一種可實(shí)施方式為:對(duì)搜索詞中的各詞匯進(jìn)行語(yǔ)義解析,找到語(yǔ)義為表征聯(lián)系方式的詞匯作為搜索詞中的異常觸發(fā)詞。[0116]可選的,本實(shí)施例在對(duì)所獲取的搜索詞都執(zhí)行了異常觸發(fā)詞提取操作后,將獲取的搜索詞與提取的異常觸發(fā)詞一并作為待識(shí)別搜索信息中的搜索詞信息。[0117]S503,從訪問網(wǎng)址中提取子網(wǎng)址,并將訪問網(wǎng)址和子網(wǎng)址作為待識(shí)別搜索信息的網(wǎng)址信息。?http://我是廣告推廣/?w2”,則其中包括2個(gè)子網(wǎng)址,分別為“http://[0119]可選的,本實(shí)施例從訪問網(wǎng)址中提取子網(wǎng)址的方式可以與從搜索詞中提取異常觸發(fā)詞的方式類似,例如,可以通過預(yù)先訓(xùn)練的網(wǎng)址提取模型來提??;還可以是通過預(yù)先設(shè)置的匹配規(guī)則來提?。灰部梢允腔谡Z(yǔ)義解析算法來提取等,對(duì)此本實(shí)施例不進(jìn)行限定。[0120]可選的,本實(shí)施例在對(duì)獲取的訪問網(wǎng)址都執(zhí)行了子網(wǎng)址提取操作后,將獲取的訪問網(wǎng)址與提取的子網(wǎng)址一并作為待識(shí)別搜索詞中的網(wǎng)址信息。[0121]需要說明的是,本實(shí)施例可以將S502得到的待識(shí)別搜索信息的搜索詞信息與S503得到的待識(shí)別搜索信息的網(wǎng)址信息一并作為待識(shí)別搜索信息。[0122]S504,獲取待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0123]S505,根據(jù)訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0124]S506,根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。[0125]本公開實(shí)施例的方案,分別從至少兩個(gè)交互平臺(tái)的搜索詞及其觸發(fā)的訪問網(wǎng)址中提取異常觸發(fā)詞和子網(wǎng)址,并將搜索詞、訪問網(wǎng)址、異常觸發(fā)詞和子網(wǎng)址一并作為待識(shí)別搜索信息,獲取關(guān)聯(lián)的訪問行為,確定目標(biāo)訪問特征,進(jìn)而根據(jù)目標(biāo)訪問特征確定待識(shí)別搜索信息中的異常數(shù)據(jù)。本方案將搜索詞、訪問網(wǎng)址、異常觸發(fā)詞和子網(wǎng)址四個(gè)維度的信息一并作為待識(shí)別搜索信息進(jìn)行異常數(shù)據(jù)的識(shí)別,解決了單一維度搜索信息失效塊的問題,增加了異常數(shù)據(jù)識(shí)別的穩(wěn)定性和全面性。[0126]圖6是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理方法的流程圖。本公開實(shí)施例在上述實(shí)施例的基礎(chǔ)上,進(jìn)一步給出了如何應(yīng)用識(shí)別出的異常數(shù)據(jù)的優(yōu)選實(shí)例,如圖6所示,本實(shí)施例提供的異常數(shù)據(jù)處理方法可以包括:[0127]S601,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及待識(shí)別搜索信息在至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為。[0128]其中,待識(shí)別搜索信息包括搜索詞信息和/或搜索詞信息觸發(fā)的網(wǎng)址信息。[0129]S602,根據(jù)訪問行為,確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0130]S603,根據(jù)目標(biāo)訪問特征,識(shí)別待識(shí)別搜索信息中的異常數(shù)據(jù)。[0131]S604,若檢測(cè)到黑名單更新事件,則根據(jù)線上黑名單和異常數(shù)據(jù)的共現(xiàn)情況,更新線上黑名單。[0132]其中,黑名單更新事件可是指觸發(fā)執(zhí)行異常數(shù)據(jù)黑名單(即線上黑名單)更新的事件。本實(shí)施例中,檢測(cè)到黑名單更新事件,包括:檢測(cè)到異常數(shù)據(jù)的目標(biāo)訪問特征達(dá)到預(yù)設(shè)[0133]具體的,一種可實(shí)施方式為:為全部或部分的目標(biāo)訪問特征預(yù)先設(shè)置更新要求,若異常數(shù)據(jù)的目標(biāo)訪問特征滿足預(yù)設(shè)的更新要求,即達(dá)到預(yù)設(shè)要求,則認(rèn)為檢測(cè)到黑名單更數(shù)量的預(yù)設(shè)要求等。另一種可實(shí)施方式為:預(yù)先設(shè)置黑名單更新周期(如三天),若檢測(cè)到當(dāng)前時(shí)刻達(dá)到黑名單更新周期,則認(rèn)為檢測(cè)到黑名單更新事件。又一種可實(shí)施方式為:可以將上述兩種可實(shí)施方式進(jìn)行組合,即正常情況下,按照預(yù)設(shè)黑名單更新周期,周期性的更新異常數(shù)據(jù)黑名單;在新識(shí)別的異常數(shù)據(jù)對(duì)交互平臺(tái)的運(yùn)營(yíng)影響較大,即異常數(shù)據(jù)的目標(biāo)訪問特征滿足預(yù)設(shè)要求的情況下,臨時(shí)觸發(fā)更新異常數(shù)據(jù)黑名單。本實(shí)施例的方式可以通過多種方式靈活觸發(fā)異常數(shù)據(jù)黑名單的更新,提高了異常數(shù)據(jù)黑名單更新的時(shí)效性和靈活性。[0134]可選的,本實(shí)施例在檢測(cè)到黑名單更新事件后,可以調(diào)用關(guān)聯(lián)規(guī)則挖掘(apriori)算法,基于預(yù)設(shè)關(guān)聯(lián)規(guī)則,即根據(jù)異常數(shù)據(jù)是否屬于線上黑名單,以及異常數(shù)據(jù)間的共現(xiàn)情況,分析異常數(shù)據(jù)之間是否滿足補(bǔ)充黑名單或刪除黑名單的關(guān)聯(lián)規(guī)則,若滿足,則根據(jù)滿足關(guān)聯(lián)規(guī)則的至少兩個(gè)異常數(shù)據(jù)來更新線上黑名單。具體實(shí)現(xiàn)方式為:對(duì)于同屬于線上黑名單的異常數(shù)據(jù),分析是否存在一直同時(shí)出現(xiàn)的多個(gè)異常數(shù)據(jù),若存在,則在線上黑名單中保留其中一個(gè),剩余的刪除。對(duì)于不屬于黑名單的異常數(shù)據(jù),分析其是否與線上黑名單中的某個(gè)黑名單異常數(shù)據(jù)一直同時(shí)出現(xiàn),若否,則將該異常數(shù)據(jù)補(bǔ)充到線上黑名單中。[0135]示例性的,假設(shè)從搜索詞“平臺(tái)推廣ip高價(jià)收量(QQ:1234567,@ice000)”中識(shí)別到為線上黑名單詞匯,B詞不是線上黑名單詞匯,此時(shí)可以判斷B詞相對(duì)于A詞的置信度是否小于預(yù)設(shè)數(shù)值(如小于1),即判斷A詞與B詞是否一直同時(shí)存在,若不是,則將B詞補(bǔ)充到線上黑名單中。若關(guān)聯(lián)規(guī)則為刪除黑名單,且A詞和B詞都為線上黑名單詞匯,此時(shí)可以判斷B詞相對(duì)于A詞的置信度是否小于預(yù)設(shè)數(shù)值(如小于1),即判斷A詞與B詞是否一直同時(shí)存在,若是,則將B詞從線上黑名單中刪除,僅保留A詞。[0136]需要說明的是,在本實(shí)施例中,對(duì)于滿足刪除黑名單規(guī)則的至少兩個(gè)異常數(shù)據(jù),在確定需要從線上黑名單中刪除的異常數(shù)據(jù)時(shí),可以隨機(jī)選擇,也可以按照一定的規(guī)則選擇。對(duì)此本進(jìn)行限定。[0137]需要說明的是,本實(shí)施例的搜索信息可以包括多個(gè)維度的信息,如,搜索詞信息和網(wǎng)址信息,搜索詞信息又可以包括搜索詞和異常觸發(fā)詞;網(wǎng)址信息也可以包括訪問網(wǎng)址和子網(wǎng)址;本實(shí)施例可以針對(duì)每個(gè)維度都維護(hù)一個(gè)線上黑名單,具體的,對(duì)于每個(gè)種類的線上黑名單都可以采用本實(shí)施例所述的方式來進(jìn)行黑名單更新。[0138]本公開實(shí)施例的方案,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息及其在各交互平臺(tái)關(guān)聯(lián)的訪問行為,基于該訪問行為確定待識(shí)別搜索信息的目標(biāo)訪問特征,并基于該目標(biāo)訪問特征來確定待識(shí)別搜索信息中異常數(shù)據(jù),在檢測(cè)到黑名單更新事件后,基于線上黑名單和異常數(shù)據(jù)的共現(xiàn)情況,來更新線上黑名單。本方案在更新線上黑名單時(shí),并非簡(jiǎn)單的將異常數(shù)據(jù)添加到線上黑名單中,而是考慮到異常數(shù)據(jù)的共現(xiàn)情況,以及異常數(shù)據(jù)是否屬于黑名單的情況來更新線上黑名單,保證了線上黑名單時(shí)效性的同時(shí),降低了線上黑名單數(shù)據(jù)的冗余性。[0139]可選的,在本實(shí)施例中,計(jì)算設(shè)備還可以基于線上黑名單,對(duì)至少兩個(gè)交互平臺(tái)的線上搜索信息進(jìn)行異常數(shù)據(jù)監(jiān)控。具體的,計(jì)算設(shè)備可以基于上述實(shí)施例更新的線上黑名單,可以實(shí)時(shí)監(jiān)控各個(gè)交互平臺(tái)受異常數(shù)據(jù)的攻擊情況,例如,異常數(shù)據(jù)攻擊的交互平臺(tái)的總數(shù),以及在各交互平臺(tái)攻擊的頁(yè)面瀏覽量等。還可以實(shí)時(shí)監(jiān)控各個(gè)交互平臺(tái)對(duì)異常數(shù)據(jù)的屏蔽情況,例如,各交互平臺(tái)所屏蔽的異常數(shù)據(jù)的頁(yè)面瀏覽量。本方案通過建立精準(zhǔn)且全面的線上黑名單來監(jiān)控交互平臺(tái)的線上搜索信息中的異常數(shù)據(jù),提高了異常數(shù)據(jù)監(jiān)控的精準(zhǔn)性。[0140]圖7是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理的系統(tǒng)架構(gòu)圖。本公開實(shí)施例在上述實(shí)施例的基礎(chǔ)上,給出了一種異常數(shù)據(jù)處理方法的優(yōu)選實(shí)例。該方法主要適用于計(jì)算設(shè)備為多個(gè)B端交互平臺(tái)提供數(shù)據(jù)分析服務(wù)的過程,基于多個(gè)B端交互平臺(tái)的搜索數(shù)據(jù),來識(shí)別異常數(shù)據(jù),更新線上黑名單,并基于更新后的線上黑名單來對(duì)多個(gè)B端交互平臺(tái)的線上搜索信息進(jìn)行異常數(shù)據(jù)監(jiān)控。其中,本實(shí)施例的中的B端交互平臺(tái)優(yōu)選為經(jīng)營(yíng)規(guī)模較小,且本身不具有專業(yè)的數(shù)據(jù)存儲(chǔ)條件和分析團(tuán)隊(duì),需要委托數(shù)據(jù)分析服務(wù)方來進(jìn)行數(shù)據(jù)分析的交互平臺(tái)。[0141]如圖7所示,在數(shù)據(jù)預(yù)處理階段,計(jì)算設(shè)備會(huì)獲取至少兩個(gè)B端交互平臺(tái)的搜索詞和該搜索詞觸發(fā)的訪問網(wǎng)址;并從搜索詞中提取異常觸發(fā)詞,并將搜索詞和異常觸發(fā)詞作為待識(shí)別搜索信息的搜索詞信息;從訪問網(wǎng)址中提取子網(wǎng)址,并將訪問網(wǎng)址和子網(wǎng)址作為待識(shí)別搜索信息的網(wǎng)址信息。獲取到四個(gè)維度的待識(shí)別搜索信息后,還需要進(jìn)一步獲取待識(shí)別搜索信息的訪問行為,并基于該訪問行為確定待識(shí)別搜索信息的目標(biāo)訪問特征。[0142]在異常數(shù)據(jù)識(shí)別階段,計(jì)算設(shè)備會(huì)將待識(shí)別搜索信息的目標(biāo)訪問特征輸入到預(yù)先訓(xùn)練好的異常數(shù)據(jù)識(shí)別模型中,得到模型預(yù)測(cè)的一部分異常數(shù)據(jù),即第一異常數(shù)據(jù);同時(shí)根據(jù)目標(biāo)訪問特征與特征閾值之間的關(guān)系,識(shí)別出待識(shí)別搜索信息中的另一部分異常數(shù)據(jù),即第二異常數(shù)據(jù),將第一異常數(shù)據(jù)和第二異常數(shù)據(jù)合并后作為該階段最終識(shí)別出的異常數(shù)據(jù)。其中,異常數(shù)據(jù)識(shí)別模型是通過樣本搜索信息及其關(guān)聯(lián)的監(jiān)督標(biāo)簽,基于支持度和置信度采用有監(jiān)督訓(xùn)練的方式來訓(xùn)練得到。樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息,是基于語(yǔ)義和行為特征兩個(gè)維度的擴(kuò)充得到,該監(jiān)督標(biāo)簽信息更為準(zhǔn)確且全面。[0143]在線上黑名單更新階段,可以是基于搜索詞、搜索詞的異常觸發(fā)詞、訪問網(wǎng)址和訪問網(wǎng)址的子網(wǎng)址四種類型的異常數(shù)據(jù)各構(gòu)建一個(gè)線上黑名單,針對(duì)每一種類型的異常數(shù)據(jù),在其滿足黑名單更新事件時(shí),根據(jù)關(guān)聯(lián)規(guī)則,即該類型的線上黑名單和該類型的異常數(shù)據(jù)的共現(xiàn)情況,對(duì)該類型的線上黑名單進(jìn)行數(shù)據(jù)的補(bǔ)充或刪減,優(yōu)選的,為了保證線上黑名單數(shù)據(jù)的精準(zhǔn)性,還可以人工對(duì)補(bǔ)充或刪減操作進(jìn)行核查,核查無(wú)誤后再進(jìn)行線上黑名單數(shù)據(jù)的更新。并基于更新后的線上黑名單,對(duì)多個(gè)B端交互平臺(tái)的線上搜索信息進(jìn)行異常數(shù)據(jù)監(jiān)控,已建立完善的監(jiān)控系統(tǒng)。[0144]本方案提供了一種異常數(shù)據(jù)處理的優(yōu)選實(shí)例,給出了一種精準(zhǔn)識(shí)別搜索信息中的異常數(shù)據(jù),以及更新線上黑名單的新思路,為基于線上黑名單為交互平臺(tái)提供精準(zhǔn)的監(jiān)控服務(wù)提供了保障。[0145]圖8是根據(jù)本公開實(shí)施例提供的一種異常數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。本公開實(shí)施例適用于識(shí)別異常數(shù)據(jù)的情況。尤其適用于為企業(yè)端(Business,B端)用戶提供異常數(shù)據(jù)識(shí)別的情況。例如,可以是對(duì)多個(gè)B端交互平臺(tái)的海量搜索信息進(jìn)行解析,識(shí)別其中的異常數(shù)據(jù)。該裝置可以采用軟件和/或硬件來實(shí)現(xiàn),該裝置可以實(shí)現(xiàn)本公開任意實(shí)施例的異常數(shù)據(jù)處理方法。如圖8所示,該異常數(shù)據(jù)處理裝置[0146]信息獲取模塊801,用于獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息,以及所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,其中,所述待識(shí)別搜索信息包括搜索詞信息和/或所述搜索詞信息觸發(fā)的網(wǎng)址信息;[0147]訪問特征確定模塊802,用于根據(jù)所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征;[0148]異常數(shù)據(jù)識(shí)別模塊803,用于根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù)。[0149]本公開實(shí)施例的方案,獲取至少兩個(gè)交互平臺(tái)的待識(shí)別搜索信息及其在各交互平臺(tái)關(guān)聯(lián)的訪問行為,基于該訪問行為確定待識(shí)別搜索信息的目標(biāo)訪問特征,并基于該目標(biāo)訪問特征來判定待識(shí)別搜索信息是否為異常數(shù)據(jù)。本實(shí)施例基于搜索信息在交互平臺(tái)的整個(gè)訪問流程的行為特征出發(fā),來識(shí)別其中的異常數(shù)據(jù),無(wú)需依賴人工操作,提高了異常數(shù)據(jù)識(shí)別的精準(zhǔn)性和高效性,為精準(zhǔn)識(shí)別出交互平臺(tái)中的異常數(shù)據(jù)提供了新的解決方案。[0150]進(jìn)一步的,訪問特征確定模塊802,具體用于:[0151]根據(jù)所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,確定所述待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及所述待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽[0152]根據(jù)所述待識(shí)別搜索信息關(guān)聯(lián)的交互平臺(tái),以及所述待識(shí)別搜索信息在關(guān)聯(lián)的交互平臺(tái)的頁(yè)面瀏覽量,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征。[0153]進(jìn)一步的,訪問特征確定模塊802,還具體用于:[0154]根據(jù)所述待識(shí)別搜索信息在所述至少兩個(gè)交互平臺(tái)中關(guān)聯(lián)的訪問行為,確定各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)中關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽[0155]根據(jù)各交互平臺(tái)關(guān)聯(lián)的待識(shí)別搜索信息,以及各交互平臺(tái)中關(guān)聯(lián)的待識(shí)別搜索信息對(duì)應(yīng)的頁(yè)面瀏覽量,確定所述待識(shí)別搜索信息的目標(biāo)訪問特征。[0157]演變特征確定模塊,用于根據(jù)所述待識(shí)別搜索信息的信息內(nèi)容,確定所述待識(shí)別搜索信息的演變特征,并將所述演變特征添加到所述待識(shí)別搜索信息的目標(biāo)訪問特征中。[0159]第一識(shí)別單元,用于通過異常數(shù)據(jù)識(shí)別模型,根據(jù)所述目標(biāo)訪問特征,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù);和/或,[0160]第二識(shí)別單元,用于根據(jù)所述目標(biāo)訪問特征和特征閾值,識(shí)別所述待識(shí)別搜索信息中的異常數(shù)據(jù)。[0162]樣本信息獲取模塊,用于獲取樣本搜索信息;[0163]監(jiān)督標(biāo)簽確定模塊,用于確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息;[0164]模型訓(xùn)練模塊,用于基于所述樣本搜索信息和所述監(jiān)督標(biāo)簽信息,對(duì)所述異常數(shù)據(jù)識(shí)別模型進(jìn)行有監(jiān)督訓(xùn)練。[0166]根據(jù)所述至少兩個(gè)交互平臺(tái)對(duì)所述樣本搜索信息的反饋信息,確定初始標(biāo)簽信[0167]根據(jù)所述樣本搜索信息的信息內(nèi)容和所述初始標(biāo)簽信息的信息內(nèi)容之間的相似[0168]根據(jù)所述樣本搜索信息的樣本訪問特征和更新后的初始標(biāo)簽信息的樣本訪問特征之間的相似度,確定所述樣本搜索信息關(guān)聯(lián)的監(jiān)督標(biāo)簽信息。[0170]獲取至少兩個(gè)交互平臺(tái)的搜索詞和所述搜索詞觸發(fā)的訪問網(wǎng)址;[0171]從所述搜索詞中提取異常觸發(fā)詞,并將所述搜索詞和所述異常觸發(fā)詞作為待識(shí)別搜索信息的搜索詞信息;[0172]從所述訪問網(wǎng)址中提取子網(wǎng)址,并將所述訪問網(wǎng)址和所述子網(wǎng)址作為所述待識(shí)別搜索信息的網(wǎng)址信息。[0174]黑名單更新模塊,用于若檢測(cè)到黑名單更新事件,則根據(jù)線上黑名單和所述異常數(shù)據(jù)的共現(xiàn)情況,更新所述線上黑名單。[0176]檢測(cè)到所述異常數(shù)據(jù)的目標(biāo)訪問特征達(dá)到預(yù)設(shè)要求;或者,[0177]檢測(cè)到當(dāng)前時(shí)刻達(dá)到所述黑名單更新周期。[0179]異常監(jiān)控模塊,基于所述線上黑名單,對(duì)所述至少兩個(gè)交互平臺(tái)的線上搜索信息進(jìn)行異常數(shù)據(jù)監(jiān)控。[0180]上述產(chǎn)品可執(zhí)行本公開任意實(shí)施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。[0181]本公開的技術(shù)方案中,所涉及的任一搜索信息(比如搜索詞、異常觸發(fā)詞、訪問網(wǎng)址和子網(wǎng)址等)和訪問行為等的獲取,存儲(chǔ)和應(yīng)用等,均符合相關(guān)法律法規(guī)的規(guī)定,且不違背公序良俗。[0182]根據(jù)本公開的實(shí)施例,本公開還提供了一種電子設(shè)備、一種可讀存儲(chǔ)介質(zhì)和一種計(jì)算機(jī)程序產(chǎn)品。[0183]圖9示出了可以用來實(shí)施本公開的實(shí)施例的示例電子設(shè)備900的示意性框圖。電子裝置。本文所示的部件、它們的連接和關(guān)系、以及它們的功能僅僅作為示例,并且不意在限制本文中描述的和/或者要求的本公開的實(shí)現(xiàn)。[0184]如圖9所示,設(shè)備900包括計(jì)算單元901,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(ROM)902中的計(jì)算機(jī)程序或者從存儲(chǔ)單元908加載到隨機(jī)訪問存儲(chǔ)器(RAM)903中的計(jì)算機(jī)程序,來執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在RAM903中,總線904。[0185]設(shè)備900中的多個(gè)部件連接至I/0接口905,包括:輸入單元906,例如鍵盤、鼠標(biāo)等;輸出單元907,例如各種類型的顯示器、揚(yáng)聲器等;存儲(chǔ)單元908,例如磁盤、光盤等;以及通信單元909,例如網(wǎng)卡、調(diào)制解調(diào)器、無(wú)線通信收發(fā)機(jī)等。通信單元909允許設(shè)備900通過諸如因特網(wǎng)的計(jì)算機(jī)網(wǎng)絡(luò)和/或各種電信網(wǎng)絡(luò)與其他設(shè)備交換信息/數(shù)據(jù)。[0186]計(jì)算單元901可以是各種具有處理和計(jì)算能力的通用和/或?qū)S锰幚斫M件。計(jì)算單元901的一些示例包括但不限于中央處理單元(CPU)、圖形處理單元(GPU)、各種專用的人工智能(AI)計(jì)算芯片、各種運(yùn)行機(jī)器學(xué)習(xí)模型算法的計(jì)算單元、數(shù)字信號(hào)處理器(DSP)、以及任何適當(dāng)?shù)奶幚砥?、控制器、微控制器等。?jì)算單元901執(zhí)行上文所描述的各個(gè)方法和處理,例如異常數(shù)據(jù)處理方法。例如,在一些實(shí)施例中,異常數(shù)據(jù)處理方法可被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序,其被有形地包含于機(jī)器可讀介質(zhì),例如存儲(chǔ)單元908。在一些實(shí)部分或者全部可以經(jīng)由ROM902和/或通信單元909而被載入和/或安裝到設(shè)備900上。當(dāng)計(jì)算機(jī)程序加載到RAM903并由計(jì)算單元901執(zhí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論