版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
BoostingBottom-upandTop-downVisualFeaturesforSaliencyEstimationBoosting
自下而上和自上而下的視覺特征的顯著性估計主要內(nèi)容四、模型比較和結(jié)果5六、讀者小結(jié)7五、討論與小結(jié)6摘要1一、簡介2二、學習一個視覺顯著性的模型3三、實驗程序4摘要自由觀賞自然場景時,最好的視覺顯著模型盡管有顯著的最新進展,在預(yù)測眼睛注視與人類的表現(xiàn)仍然落后。多數(shù)模型是基于低層次的視覺特點,自頂向下的特點的重要性尚未得到充分探討或建模。在這里,我們結(jié)合了低級別的功能,如方向,顏色,強度,以前最好的自下而上的模式,采用自頂向下的視覺認知功能(例如,臉,人類,汽車等)的顯著圖,使用回歸、SVM和AdaBoost分類,從這些特點里學習直接映射這些功能的的眼睛注視。通過廣泛的試驗三個基準眼球跟蹤數(shù)據(jù)集,使用三種流行的評價分數(shù),我們展示了:我們的Boosting模型優(yōu)于27個最先進的模型,是迄今為止在注視預(yù)測最準確的模型。此外,我們的模型沒有如區(qū)域分割這樣復(fù)雜的圖像處理,成功地檢測到的最顯著的一個場景中的對象。視覺注意的過程中一直是許多心理學,神經(jīng)科學,計算機視覺等研究的對象。相應(yīng)地,一些計算模型已經(jīng)在機器學習,計算機視覺和機器人領(lǐng)域引起關(guān)注。幾個應(yīng)用程序也已經(jīng)被提出,并進一步提出了在這一領(lǐng)域的興趣,包括:,自動創(chuàng)建拼貼[5],視頻壓縮[6][9],非真實渲染[8],廣告設(shè)計[10]。自下而上的顯著性的模型經(jīng)常被評估,在自由觀看任務(wù)中,預(yù)測人的注視。今天,許多顯著性模型基于各種各樣令人信服的技術(shù),仍然每年都會有人引進新模型。然而,在預(yù)測眼睛注視時,模型和人類間觀察員(IO)有很大的差距。IO模型“對于一個給定的刺激的輸出,通過整合眼睛注視建成地圖,而不是觀看那個刺激。該模型預(yù)計將提供預(yù)測模型的準確度的程度,不同的人可能是對方的最好的預(yù)測者。上面提到的模型和人類之間的差距主要是由于自頂向下的因素的作用(參照圖1)。一、介紹一、介紹它被認為是自由觀看的早期階段(前幾百毫秒),主要是基于圖像醒目性的注意,后來,高層次的因素(例如,行動和事件)指導(dǎo)眼球運動[53][39]。這些高層次的因素可能不一定轉(zhuǎn)化為自下而上的顯著性(例如,根據(jù)顏色,強度或方向),應(yīng)考慮分開。舉例來說,一個人的頭部可能在其余的場景中不會特別突出,但可能會引起人們的注意。因此,結(jié)合高層次概念和低層次的功能擴展現(xiàn)有模型,并達到人類的表現(xiàn)似乎是不可避免的。一、介紹由[1]的啟發(fā),我們提出了三個貢獻顯著性的學習。首先,我們結(jié)合最好的兩個方面:自下而上和自上而下的因素。通過比較29個顯著性模型,我們整合功能,最好的自下而上的模式已經(jīng)發(fā)現(xiàn)預(yù)測與自上而下的因素,如人臉,人,車,等人的注視,培養(yǎng)幾個線性和非線性分類從這些功能中的錄制品。第二,我們更強調(diào)內(nèi)部零件更準確的顯著性檢測矚目的對象(例如,人類上部)。通過大量的實驗,我們證明了我們的相結(jié)合的方法,超過以前顯著的學習方法([1][48]),以及其他最新的方法,在3個數(shù)據(jù)集上,使用3個評價得分。第三,我們證明了我們的模型能夠在一個場景中檢測到最突出的對象,接近主流的顯著區(qū)域檢測的表現(xiàn)。一、介紹相關(guān)工作:顯著性模型簡介顯著性模型一般可以分為認知(生物)或計算(數(shù)學),而有些發(fā)生在之間。幾款根據(jù)Itti等人的自底向上的顯著性模型[4]。這種模型是先執(zhí)行Koch和Ullman的計算架構(gòu)基于特征整合理論[15][16]。在這個理論中,圖像被分解為低一級的屬性,如跨越幾個空間尺度,然后歸一化和線性或非線性相結(jié)合,形成一個主顯著圖的顏色,強度和方向。這一理論的一個重要組成部分是作為圖像區(qū)域及其周圍環(huán)境的獨特性,顯著性定義中心環(huán)繞的想法。這個模型還提出一個合適的架構(gòu)適應(yīng)視覺搜索理論和對象檢測模型(例如,[18])?;谌ハ嚓P(guān)的神經(jīng)反應(yīng),Diaz等人[29]提出了一種有效的模型被稱為自適應(yīng)白化顯著性(AWS)的顯著性。LeMeur等[33],Marat等[36],Kootstra等[17]提出的模型是其他以認知的調(diào)查結(jié)果為導(dǎo)向的模型。
另有,基于概率模型、基于頻率模型等,這里不一一介紹。一、介紹與手動設(shè)計顯著性措施相比,我們按照訓(xùn)練分類的一種學習方式,直接從人眼跟蹤數(shù)據(jù)。其基本思路是的加權(quán)組合的功能,其中權(quán)重學會從一個大的庫對自然圖像的眼球運動,可以增強顯著性檢測比未經(jīng)調(diào)整組合特征映射。學習方法也有容易適用于通過提高要素權(quán)重目標對象的可視化搜索的好處。在下面,我們提出了一個樸素貝葉斯公式的顯著性估計。讓我們是一個二元變量表示的顯著位置的圖像像素X=(X,Y)與特征向量f,其中“s等于1”表示這個像素是突出的(也就是說,它可以吸引人類的眼睛)和零。像素x的概率是顯著的可寫為:二、學習一個視覺顯著性的模型上面的公式是基于假設(shè)特點可以出現(xiàn)在所有的空間位置(即,x和f是相互獨立的,則p(f|x)=p(f))。我們進一步假設(shè),在S的先驗概率(即,位置突出與否)都是平等的。上式右邊的第一項測量由于上面的圖像的像素的特征的顯著性,而第二項措施顯著性的基礎(chǔ)上的像素的空間位置。我們學習使用p(s|f)分類標注數(shù)據(jù)(傾向的位置)。我們估計p(s|x):其中,d(X,X0)是歸一化的像素x從中心像素的X0的距離。二、學習一個視覺顯著性的模型①低層次(自下而上)特點傳統(tǒng)上,強度,方向和顏色已被用于對靜態(tài)圖像的顯著性推導(dǎo)。動態(tài)場景(視頻),閃爍和運動特點也已經(jīng)被其他幾個低級別的特點(例如,大小,深度和光流)增加[55][56]。在這里,我們先調(diào)整每個圖像為200×200像素,然后提取一組特點,我們使用低級每個像素[1],因為他們已經(jīng)被證明與視覺注意力相關(guān)的特點,并有潛在的生物合理性[16][15]。低層次的特點列舉如下:·13個在4個方向3尺度的可操縱金字塔過濾器的局部特點·使用Itti和Koch顯著的方法[4]計算的3強度,方向和顏色(紅/綠和藍色/黃色)對比通道?!?個紅色,綠色和藍色通道,以及3個功能相對應(yīng)的各顏色通道的概率值?!?在6個不同尺度中值濾波器濾波的圖像的三維顏色直方圖計算從上述顏色通道的概率。二、學習一個視覺顯著性的模型這樣產(chǎn)生了30個低級的特點。中心環(huán)繞操作需要注意的是,直接施加在地圖的某些特點(例如,Ltti特征映射)。雖然在實踐中,它是作為一個功能,可以使用任何自下而上的模型,在這里,我們利用Torralba[32],AWS[29],GBVS[20]的模型,因為這些模型具有較高的固定預(yù)測能力,采用完全不同的顯著性機制的速度,可以計算出從其他低級別的特點。樣本圖像中提取的特征示于圖2。二、學習一個視覺顯著性的模型二、學習一個視覺顯著性的模型②高級別(自頂向下)特點。高級別特點,如人臉和文字[14],人車[1],對稱性[17],和體征已建議直接關(guān)注。據(jù)悉,這些都是通過一個人的一生的時間獲得的先驗知識一個挑戰(zhàn)是檢測情感(情緒)的功能和語義(高層次的知識)場景屬性,如因果關(guān)系和行動的影響力,這被認為是很重要的引導(dǎo)注意力。這些因素都影響眼球固定的位置和持續(xù)時間[13]。我們將我們的功能集包括如下的高級別的功能:?!び捎跀z影師的傾向幀圖像和對象水平所形成的水平線?!嵤┯蒄elzenszwalb的變形部分模型的人和車探測器(DPM)[50]。·使用Viola和Jone代碼的人臉檢測[51]。二、學習一個視覺顯著性的模型從注釋的數(shù)據(jù),我們注意到,某些地區(qū)吸引更多的關(guān)注對象,例如人類上部(頭區(qū))和臉部(眼睛,鼻子和嘴)(見圖3)。為了提高這些地區(qū)的顯著性,我們了解到該對象的平均顯著圖從訓(xùn)練數(shù)據(jù)了解到對象的檢測區(qū)域。二、學習一個視覺顯著性的模型另一個重要特點是在前中心的基礎(chǔ)上發(fā)現(xiàn)的:大多數(shù)的錄制品在中心附近發(fā)生的圖像(即中心偏置[39])。與基線的方法進行公平比較的分類(AWS和GBVS模型),我們在這里單獨對待中心功能。根據(jù)公式2,我們把每個模型的顯著性圖與p(s|x)相乘,p(s|x)是每個像素打牌中心的距離。最終,所有的特點都變成34(30自底向上+4自上而下)向量(不含中心),被送入分類器(在下一節(jié)中解釋)。二、學習一個視覺顯著性的模型分類器我們調(diào)查線性和非線性分類器的固定預(yù)測能力。線性分類通常比較快,通過矩陣運算計算了解到的權(quán)重是比較容易解讀。另一方面,非線性模型通常是速度慢,但更強大的。回歸。假設(shè)特征矢量f和顯著性s之間的線性關(guān)系,解方程F×W=S,其中,F(xiàn)和S是訓(xùn)練數(shù)據(jù)為f和s的矩陣。解決的辦法是:W=F+×S,F(xiàn)+是通過SVD分解最小二乘偽逆矩陣F。為了避免數(shù)值不穩(wěn)定,這些特征向量的特征值是小于的最大特征值的一半的偽逆的計算過程中被丟棄。對于測試圖像,特征提取,然后學習的映射被用于產(chǎn)生一個向量,然后調(diào)整大小到200×200的顯著圖。二、學習一個視覺顯著性的模型SVM。使用liblinear的支持向量機2,liblinear是一個公開的SVMmatlab版,我們也訓(xùn)練SVM分類器。我們采用了線性的內(nèi)核,因為它們是更快的執(zhí)行以及非線性多項式和RBF內(nèi)核的固定預(yù)測[1]。回歸,而不是預(yù)測的標簽(即,1/-1)相似,在測試中,我們使用的WT的值F+b,其中W和b的學習參數(shù)。要調(diào)查的非線性映射功能顯著性,我們使用AdaBoost算法[52],在應(yīng)用場景分類和識別物體時,其中有許多吸引人的理論性。鑒于N標記的訓(xùn)練實例(ui,vi),vi∈{?1,+1},ui∈U,AdaBoost的結(jié)合了一些弱分類器Ht學到了強分類器H(u)=sign(f(u));f(u)=,這里αt是第t個分類器。二、學習一個視覺顯著性的模型本節(jié)對分類和功能提出一個全面的評估。在這里,我們不僅評估了我們的模型,也比較幾款模型以供日后參考。我們能夠運行27個顯著性模型。此外,我們還實施了其他兩個簡單但功能強大的模型:GaussianBlob和人類中間觀察者模型。GaussianBlob的是一個簡單的2D高斯形狀的繪制圖像的中心,它是預(yù)期預(yù)測人的目光,以及如果這樣的凝視強烈圖像中心的周圍聚集。對于一個給定的刺激,當他們觀看刺激時,中間觀察員的模型輸出一個通過整合比其他物體測試的地圖。模型地圖可以根據(jù)記錄眼球運動來調(diào)整原始圖像的大小。三、實驗程序3.1眼動數(shù)據(jù)集由于可用的眼球運動數(shù)據(jù)集有不同的統(tǒng)計、各類刺激、受試者人數(shù),在這里,我們利用公平的基準數(shù)據(jù)集來比較模型。第一個數(shù)據(jù)集,MIT[1],從Flicker和LabelMe[46]采集到的包含1003幅圖像的數(shù)據(jù)集。圖像的最長尺寸是1024,其他的尺寸范圍從405到1024。它有779幅景觀圖像和228幅人像圖像。15人類受試者觀看的圖像。圖像顯示3秒,每兩個之間有1秒的灰色屏幕。第二個數(shù)據(jù)集,Toronto[21],是顯著模型評價最高和最廣泛使用的數(shù)據(jù)集。它包含120室內(nèi)和室外場景的彩色圖像。隨機圖片4秒,圖像之間有2秒灰度掩模,20個的主題。NUSEF是最近推出的數(shù)據(jù)集,它有758幅包含情感的場景/物體如表現(xiàn)力的面孔,裸體,不愉快的概念和概念的語義(動作/原因)的圖像圖像??偣?5名自由查看圖像數(shù)據(jù)集的一部分,每幅圖片觀察5秒(每幅圖像有平均25個不同的觀察者)。三、實驗程序3.2評價指標由于沒有一個獨特的得分可以進行顯著模型評價,我們報告了三個結(jié)果。應(yīng)該說一個模型表現(xiàn)良好的話,應(yīng)該所有分數(shù)都比較高。ROC曲線下面積(AUC);使用這個分數(shù),視為二元分類的圖像中的每個像素上的模型的顯著圖;較大的顯著度值大于閾值的像素被分類為迷戀,而其余的像素被分類為非迷戀[21]。人類注視被用作地面參考。通過不同的閾值,ROC曲線繪制的假陽性率與真陽性率,這條曲線下的面積表示:顯著圖預(yù)測實際人眼注視。三、實驗程序我們訓(xùn)練和測試分類在MIT的數(shù)據(jù)集交叉驗證后段。第2.2節(jié)(K=10,M=100,除了最后一個含103)。在MIT的所有圖像數(shù)據(jù)集的一個訓(xùn)練有素的模型,然后應(yīng)用到其他數(shù)據(jù)集。表1示出模型的AUC分數(shù)。四、模型比較和結(jié)果四、模型比較和結(jié)果NSS和CC不乘以中心偏置的分數(shù)結(jié)果示于圖中4。增壓(無中心,但與AWS和GBVS為特征),在幾乎所有的情況下贏得了GBVS和AWS??傮w而言,這個數(shù)字顯示,而許多模型得分低于高斯模型,提高模型性能站在高斯的頂部,超過3個數(shù)據(jù)集和分數(shù)顯示提高模型在大多數(shù)情況下是最好的。因為有更多的概念和自上而下的刺激因素,在這些數(shù)據(jù)集模型和IO模型在NUSEF和MIT的數(shù)據(jù)集之間有較大的差距。Tavakoli[40]表現(xiàn)最好,超過Toronto的數(shù)據(jù)集,缺乏太多的自上而下因素,此數(shù)據(jù)集的圖像排名提升至第二。除去在內(nèi)部零件上的強調(diào),在MIT的數(shù)據(jù)集上,AUC的增壓從0.806減少到0.792。四、模型比較和結(jié)果四、模型比較和結(jié)果四、模型比較和結(jié)果4.2顯著性物體檢測的應(yīng)用圖8顯示與人類的注釋和我們的模型預(yù)測的例子。可以看出,即使是顯著的對象是不是靠近中心位置時,它能夠成功地檢測最突出的物體。四、模型比較和結(jié)果結(jié)合自下而上和自上而下的特點,我們學到了一些模型的視覺顯著性,在相同的數(shù)據(jù)和分數(shù)上比較其準確性。我們的方法允許添加更多的特點,如其他自下而上的模式或其他自上而下的功能顯著圖。在分類中,使用SVM和回歸預(yù)測的AdaBoost具有最好的預(yù)測精度。它優(yōu)于大部分現(xiàn)有模型,是迄今為止表現(xiàn)人類最接近的模型,它可以幾種方法提高計算機視覺的性能。它也競相表現(xiàn)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版肺部感染常見癥狀解析及護理指南
- 2025青海聯(lián)通校園招聘(30個崗位)筆試參考題庫附帶答案詳解(3卷)
- 2025貴州金禾惠科創(chuàng)有限公司招聘2人筆試參考題庫附帶答案詳解(3卷)
- 2025年河南省文化旅游投資集團有限公司二級公司社會招聘9人筆試參考題庫附帶答案詳解(3卷)
- 淮北市2024年安徽淮北高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)管理委員會公開招聘6人筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)
- 2026年四川單招職業(yè)適應(yīng)性測試時政經(jīng)典題集含答案
- 2026年重慶單招護理專業(yè)技能操作規(guī)范經(jīng)典題詳解
- 2026年深圳單招醫(yī)藥衛(wèi)生大類醫(yī)學影像技術(shù)職業(yè)技能模擬題含答案
- 2026年江蘇單招專升本銜接備考題含答案想沖職業(yè)本科考生專用
- 2026年寧夏單招學前教育專業(yè)技能面試實操配套試題含答案
- 2025下半年貴州遵義市市直事業(yè)單位選調(diào)56人筆試考試參考題庫及答案解析
- 2025鄂爾多斯達拉特旗第二批事業(yè)單位引進28名高層次、急需緊缺人才考試筆試模擬試題及答案解析
- 甲狀腺癌放射性碘抵抗機制研究
- 包治祛痘合同范本
- 門窗的代理合同范本
- 2025年秋國家開放大學《思想道德與法治》終考大作業(yè)試卷一附答案【供參考】
- 學堂在線 雨課堂 學堂云 信息素養(yǎng)-學術(shù)研究的必修課 章節(jié)測試答案
- 新注聚工藝流程及日常管理
- 高中地理南極地區(qū)優(yōu)秀課件
- 隱身技術(shù)概述課件
- 劉伯溫透天玄機原文
評論
0/150
提交評論