淺談雙錄質(zhì)檢中的行為檢測(cè)_第1頁(yè)
淺談雙錄質(zhì)檢中的行為檢測(cè)_第2頁(yè)
淺談雙錄質(zhì)檢中的行為檢測(cè)_第3頁(yè)
淺談雙錄質(zhì)檢中的行為檢測(cè)_第4頁(yè)
淺談雙錄質(zhì)檢中的行為檢測(cè)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

雙錄是銀行業(yè)產(chǎn)品銷(xiāo)售領(lǐng)域的行業(yè)規(guī)范之一,由銀保監(jiān)會(huì)統(tǒng)一制定,各商業(yè)銀行具體實(shí)施。雙錄通過(guò)記錄和回溯銷(xiāo)售過(guò)程,為解決銷(xiāo)售糾紛、界定各自責(zé)任提供影像證據(jù)資料,是規(guī)范和治理金融機(jī)構(gòu)理財(cái)及代銷(xiāo)產(chǎn)品銷(xiāo)售行為,防止私售“飛單”、切實(shí)維護(hù)消費(fèi)者合法權(quán)益的手段。當(dāng)前,為保證雙錄合規(guī),各家金融機(jī)構(gòu)逐步引入AI雙錄質(zhì)檢系統(tǒng),該系統(tǒng)融合語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)等多種人工智能技術(shù),能有效提升雙錄質(zhì)檢的效率,節(jié)省人力審核成本。在AI雙錄質(zhì)檢流程中,行為檢測(cè)是不可或缺的一環(huán),能夠有效檢測(cè)出雙錄過(guò)程中業(yè)務(wù)人員是否出示證件、客戶(hù)是否簽字等行為,從而為金融機(jī)構(gòu)規(guī)避雙錄違規(guī)風(fēng)險(xiǎn)。而作為計(jì)算機(jī)視覺(jué)和圖像理解中的活躍領(lǐng)域,行為檢測(cè)相關(guān)技術(shù)理論也在不斷發(fā)展。學(xué)習(xí)理解行為檢測(cè)相關(guān)前沿算法及實(shí)現(xiàn)原理,能幫助從業(yè)人員拓展專(zhuān)業(yè)知識(shí)儲(chǔ)備、找到現(xiàn)有AI雙錄質(zhì)檢系統(tǒng)行為檢測(cè)解決方案的優(yōu)化方向。一、行為檢測(cè)概述行為檢測(cè)與行為識(shí)別聽(tīng)上去是比較相似的兩個(gè)概念,但在視頻理解中,行為識(shí)別實(shí)際上只是行為檢測(cè)的一部分或者前期準(zhǔn)備,因?yàn)樾袨樽R(shí)別僅僅是“讀懂行為”,而行為檢測(cè)則不僅需要知道一個(gè)動(dòng)作在視頻中是否發(fā)生,還要知道動(dòng)作發(fā)生在視頻中的哪段時(shí)間。例如,在雙錄質(zhì)檢場(chǎng)景下,一段長(zhǎng)達(dá)4~5分鐘的雙錄視頻中通常有許多諸如招手、翻書(shū)等干擾動(dòng)作,真正需要被檢測(cè)的簽字、證件展示等目標(biāo)動(dòng)作的持續(xù)時(shí)間一般不足20秒,只占視頻的一小部分,雙錄質(zhì)檢中行為檢測(cè)的實(shí)質(zhì)就是對(duì)視頻中簽字、證件展示等動(dòng)作進(jìn)行時(shí)域定位和判斷。根據(jù)待檢測(cè)視頻讀入方式的不同,行為檢測(cè)又可分為離線(xiàn)檢測(cè)(OfflineActionDetection)與在線(xiàn)檢測(cè)(OnlineActionDetection)。離線(xiàn)檢測(cè)是通過(guò)分析一整段視頻來(lái)對(duì)其中的動(dòng)作進(jìn)行識(shí)別定位,而在線(xiàn)檢測(cè)則是在視頻讀入過(guò)程中對(duì)視頻幀中的動(dòng)作進(jìn)行識(shí)別定位,即視頻讀入與動(dòng)作檢測(cè)實(shí)時(shí)同步。在線(xiàn)檢測(cè)的這種實(shí)時(shí)性特征不僅導(dǎo)致檢測(cè)實(shí)現(xiàn)難度更高,也限制了算法的計(jì)算復(fù)雜度(在現(xiàn)有的計(jì)算能力下不能過(guò)大),目前大部分在線(xiàn)行為檢測(cè)算法框架很難滿(mǎn)足這種既輕量又高效的要求,而且難以持續(xù)優(yōu)化。由于視頻行為檢測(cè)任務(wù)與圖像目標(biāo)檢測(cè)任務(wù)在解決思路上具有高度相似性,即“先定位,再識(shí)別”,所以目前很多基于深度學(xué)習(xí)的行為檢測(cè)方法都是借鑒目標(biāo)檢測(cè)領(lǐng)域兩步(two-stage)類(lèi)算法的成果,主要思想基本上是先提取時(shí)序相關(guān)的候選區(qū)域,然后再對(duì)候選區(qū)域進(jìn)行分類(lèi)與回歸邊界操作。這類(lèi)方法包含基于滑動(dòng)窗口法選取候選區(qū)域的SCNN算法、基于時(shí)序動(dòng)作分組來(lái)確定候選區(qū)域的TAG網(wǎng)絡(luò),以及基于C3D做幀分類(lèi)預(yù)測(cè)存在行為的視頻段并分類(lèi)的CDC網(wǎng)絡(luò)算法等。由于篇幅限制,筆者將結(jié)合業(yè)界實(shí)際應(yīng)用情況,擇取一種流行的離線(xiàn)行為檢測(cè)算法作簡(jiǎn)單的原理闡述。二、算法原理?yè)袷觥月炀W(wǎng)絡(luò)模型為例2019年,F(xiàn)acebook人工智能實(shí)驗(yàn)室(FAIR)的ChristophFeichtenhofer、何凱明等人發(fā)表了一篇名為“視頻識(shí)別的慢快網(wǎng)絡(luò)”(SlowfastNetworksforVideoRecognition)的論文,該論文成果一舉拿下計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域頂級(jí)會(huì)議CVPR的行為檢測(cè)挑戰(zhàn)賽冠軍。在同年舉行的國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV)上,該研究團(tuán)隊(duì)開(kāi)源了此算法模型,在之后很長(zhǎng)一段時(shí)間里,慢快網(wǎng)絡(luò)在Github的趨勢(shì)榜上一直位列前十,成為視頻理解領(lǐng)域開(kāi)源算法模型領(lǐng)域的焦點(diǎn)。顧名思義,慢快網(wǎng)絡(luò)是一種快慢結(jié)合的網(wǎng)絡(luò)模型,“快”指的是一個(gè)高幀率運(yùn)行的快通道,以精細(xì)的時(shí)間分辨率捕獲視頻的運(yùn)動(dòng)信息,該路徑的體量非常輕,只占總計(jì)算開(kāi)銷(xiāo)的20%左右,這是因?yàn)檫@個(gè)路徑通道較少,處理空間信息的能力較差;“慢”指的是一個(gè)低幀率運(yùn)行的慢通道,用來(lái)捕獲視頻的空間語(yǔ)義信息,彌補(bǔ)了快通道無(wú)法較好處理空間信息的不足。兩種不同時(shí)間速度的通道通過(guò)側(cè)連接(lateralconnection)進(jìn)行融合來(lái)處理原視頻,共同構(gòu)成了這種奇妙的網(wǎng)絡(luò)模型(如圖1所示)。圖1慢快網(wǎng)絡(luò)模型結(jié)構(gòu)慢快網(wǎng)絡(luò)模型的主要工作流程大致分為5個(gè)步驟:用快慢兩種速率采樣輸入視頻;將采樣后的視頻幀對(duì)應(yīng)輸入到慢/快兩個(gè)分支;慢分支使用2D卷積加3D卷積(ResNet2DConv+3DConv)算法提取視頻空間語(yǔ)義特征,大小為{T,S2,C};同時(shí)快分支使用3D卷積(ResNet3DConv)提取視頻時(shí)域運(yùn)動(dòng)特征,大小為{αT,S2,βC},其中α>1,β<1;橫向連接統(tǒng)一兩個(gè)分支的特征;使用Softmax邏輯回歸對(duì)采集到的特征進(jìn)行分類(lèi)、識(shí)別。根據(jù)研究者的說(shuō)法,這種算法模型其實(shí)是受到了靈長(zhǎng)類(lèi)視覺(jué)系統(tǒng)中視網(wǎng)膜神經(jīng)節(jié)細(xì)胞的生物學(xué)研究啟發(fā)。該研究發(fā)現(xiàn),在這些視網(wǎng)膜神經(jīng)節(jié)細(xì)胞中,約80%是小細(xì)胞(P-cell),15~20%是大細(xì)胞(M-cell)。M-cell以較高的時(shí)間頻率工作,對(duì)時(shí)間變化更加敏感,但對(duì)空間細(xì)節(jié)和顏色不敏感。P-cell提供良好的空間細(xì)節(jié)和顏色,但時(shí)間分辨率較低。慢快網(wǎng)絡(luò)框架正是借鑒了該項(xiàng)研究成果:一是設(shè)置兩條路徑,分別以低時(shí)間分辨率和高時(shí)間分辨率工作;二是快路徑用來(lái)捕捉快速變化的運(yùn)動(dòng),但空間細(xì)節(jié)較少,類(lèi)似于M-cell;三是快路徑很輕量,也類(lèi)似于較小比例的M-cell。除了生物學(xué)解釋外研究者也認(rèn)為,在同一個(gè)鏡頭下視頻中物體的屬性類(lèi)別不應(yīng)該隨時(shí)間快速變化,即在雙錄視頻中不可能出現(xiàn)“上一瞬間桌上擺著的是電腦,下一瞬間就變成了盆栽”這種情況,屬性類(lèi)別在視頻中應(yīng)該是穩(wěn)定而均勻變化的,所以理論上視頻檢測(cè)不用過(guò)于頻繁,用低幀率捕捉目標(biāo)的屬性,比如設(shè)置1秒檢測(cè)2幀即可?;谏鲜鲅芯?,在雙錄視頻中,一個(gè)簽字動(dòng)作往往4~5秒內(nèi)就可完成,這種情況就需要用高幀率來(lái)捕捉,需要設(shè)置1秒檢測(cè)16幀來(lái)實(shí)現(xiàn)動(dòng)作和事件判別。這種讓快、慢兩條分支各司其職來(lái)共同識(shí)別檢測(cè)視頻動(dòng)作的設(shè)計(jì)思路雖然與生物學(xué)研究理論不謀而合,但它其實(shí)更加嚴(yán)謹(jǐn)。依靠這種巧妙的架構(gòu)設(shè)計(jì),慢快網(wǎng)絡(luò)模型在主流的視頻識(shí)別數(shù)據(jù)集——Kinetics400、Kinetics600、Charades和AVA中都取得了SOTA(State-of-the-art,最先進(jìn)的)精度??傮w而言,慢快網(wǎng)絡(luò)模型的研究者通過(guò)巧妙設(shè)計(jì)兩條速率不同的通道,來(lái)分別處理輸入視頻的空間結(jié)構(gòu)和時(shí)序事件,開(kāi)創(chuàng)了提取視頻時(shí)空特征的一種全新的理念,在視頻行為識(shí)別和行為檢測(cè)方面取得了十分優(yōu)秀的實(shí)驗(yàn)結(jié)果。與此同時(shí),研究團(tuán)隊(duì)開(kāi)源了慢快網(wǎng)絡(luò)模型的算法代碼庫(kù),這一做法不僅讓研究者可以輕而易舉地復(fù)現(xiàn)從基礎(chǔ)至前沿的視頻識(shí)別和行為檢測(cè)算法,還使該模型具備良好的可移植性與優(yōu)化空間。三、結(jié)語(yǔ)作為視頻理解的重要內(nèi)容和計(jì)算機(jī)視覺(jué)領(lǐng)域的重要組成部分,行為檢測(cè)在視頻質(zhì)檢分析、信息檢索、公共安防等領(lǐng)域都有著廣泛的應(yīng)用前景和社會(huì)價(jià)值。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和各類(lèi)神經(jīng)網(wǎng)絡(luò)模型的不斷涌現(xiàn),相關(guān)檢測(cè)算法的準(zhǔn)確率也在不斷提高。目前,在金融行業(yè)雙錄事后質(zhì)檢、異常行為檢測(cè)等場(chǎng)景下,慢快網(wǎng)絡(luò)等一些主流的離線(xiàn)行為檢測(cè)算法已經(jīng)能夠滿(mǎn)足基本的檢測(cè)精度要求。然而,由于視頻時(shí)序信息難聚合、動(dòng)作邊界不明確、時(shí)間跨度大,以及在線(xiàn)行為檢測(cè)模

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論