版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一種基于內(nèi)容的廣告垃圾圖像過(guò)濾方法目錄論題意義及其必要性過(guò)濾原理與實(shí)現(xiàn)方法實(shí)驗(yàn)和結(jié)果分析論題意義及其必要性垃圾郵件問(wèn)題日益嚴(yán)重:
2005年7月,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第十六次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國(guó)網(wǎng)民平均每周收到14.5封電子郵件,其中垃圾郵件占了9.3封,垃圾郵件數(shù)量已經(jīng)大大超過(guò)了正常郵件數(shù)量。
基于文本過(guò)濾方法的局限性:第一
、基于文本的過(guò)濾受到文本語(yǔ)言種類的限制;第二、垃圾郵件發(fā)送者(spamer)經(jīng)常使用各種各樣的騙術(shù)來(lái)迷惑基于文本的垃圾郵件過(guò)濾器,比如將文字頁(yè)面轉(zhuǎn)換為圖像;有數(shù)據(jù)顯示,包含圖像的垃圾郵件占所有垃圾郵件的25%??梢?jiàn),這種欺騙手段已經(jīng)被垃圾郵件制作者們頻繁利用,如果沒(méi)有找到可行的解決辦法,這個(gè)數(shù)字還會(huì)上升。第三、隨著因特網(wǎng)的范圍和容量不斷增長(zhǎng),郵件包含越來(lái)越多的多媒體信息。一些廣告垃圾圖片的示例目錄論題意義及其必要性過(guò)濾原理與實(shí)現(xiàn)方法實(shí)驗(yàn)和結(jié)果分析過(guò)濾的原理任何廣告都需要用文字來(lái)傳播某種信息。也就是說(shuō),廣告垃圾圖像的文字區(qū)域特征具有普遍性。本文正是利用廣告垃圾圖像的文字區(qū)域特征來(lái)進(jìn)行廣告垃圾圖像過(guò)濾。
基本步驟:
1.提取圖像的邊緣信息,并把邊緣信息做二值化處理;
2.將二值化邊緣圖像進(jìn)行膨脹處理,使相鄰的字符連通起來(lái),并把膨脹處理后的所有連通區(qū)域作為候選文字區(qū)域記錄下來(lái);
3.利用文字區(qū)域的特征從候選文字區(qū)域中篩選出正確的文字區(qū)域;
4.根據(jù)得到的文字區(qū)域的數(shù)量和面積等特征對(duì)圖像進(jìn)行分類,把廣告垃圾圖像和合法圖像區(qū)分開(kāi)來(lái)。
彩色邊緣提取由于廣告圖像中的文本與背景有較強(qiáng)的對(duì)比度,表現(xiàn)為在文本與背景的交界處,存在十分明顯的高頻區(qū)域,因此可以用提取邊緣的方法來(lái)大致估計(jì)出文本可能存在的區(qū)域。由于廣告垃圾圖像大多為彩色圖像,所以本文采用張引等提出的彩色圖像邊緣提取算子來(lái)提取邊緣,利用彩色三分量的彩色邊緣提取算法,充分利用了全面的色彩信息,效果優(yōu)于傳統(tǒng)的灰度邊緣提取算法。
邊緣提取的具體做法如下:已知輸入圖像f的RGB值,其中象素(i,j)的RGB分量分別為R(i,j),G(i,j),B(i,j)。要計(jì)算圖像f的邊緣圖像Edge。
Eud(i1,j1;i2,j2)定義為像素點(diǎn)(i1,j1)與(i2,j2)之間的彩色值歐氏距離。
原圖與邊緣圖像(a)原圖(b)邊緣圖像邊緣圖像二值化閾值選取方法:首先計(jì)算邊緣圖像Edge的歸一化灰度直方圖h(i):
其中,ni是圖像Edge中灰度值為i的象素的個(gè)數(shù),N是圖像象素總數(shù)。因?yàn)槲淖謪^(qū)域邊緣十分明顯,所以本文認(rèn)為文字區(qū)域邊緣的灰度級(jí)一般比較高。于是需要找到一個(gè)灰度級(jí)k作為閾值,把灰度大于k的邊緣象素點(diǎn)保留,灰度小于k的邊緣象素點(diǎn)忽略。令;eh(k)表示保留的邊緣象素?cái)?shù)占圖像總象素?cái)?shù)的比例;找到一個(gè)盡可能大的灰度級(jí)k使得eh(k)大于閾值TH1;如果此時(shí)k小于下限TH2,則把TH2作為二值化的閾值,否則把k作為二值化的閾值。在實(shí)驗(yàn)中,我們?nèi)H1=0.2,TH2=120(認(rèn)為文字區(qū)域邊緣的灰度級(jí)不應(yīng)低于120)。二值化邊緣圖像
(c)二值化邊緣圖像候選文本區(qū)域提取從二值邊緣圖像中可以看出,由于文字的分布比較集中,所以文字附近的邊緣比較豐富,而且屬于同一文字區(qū)域的文字邊緣具有較小的距離。對(duì)于水平方向的文本行來(lái)說(shuō),可以用水平膨脹的方法將相鄰的邊緣連起來(lái),形成連通的區(qū)域,從而在空間位置上將可能含有文本的區(qū)域檢測(cè)出來(lái)。
膨脹方法:設(shè)f為二值圖像,B為結(jié)構(gòu)元素,二值形態(tài)和(膨脹)定義如下:
其中表示以(x,y)為原點(diǎn),形狀與結(jié)構(gòu)元素B相同的區(qū)域。膨脹運(yùn)算具有擴(kuò)大圖像的作用,膨脹可以看作是將圖像f中的每一個(gè)點(diǎn)(x,y)擴(kuò)大為。
本文使用的結(jié)構(gòu)元素B是一條N個(gè)象素的水平線段。其中N由圖像的寬度決定,因?yàn)檩^寬的圖像里的文字的橫向間隔也會(huì)較寬。本文中取N=imageWidth/250+1;其中imageWidth為圖像寬度。把膨脹操作后所得的連通區(qū)域所在的最小的矩形區(qū)域記錄為候選的文字區(qū)域。
膨脹邊緣圖像(d)膨脹邊緣圖像文本區(qū)域篩選本文根據(jù)文字區(qū)域的視覺(jué)特征定義了若干約束條件,滿足所有約束條件的候選文字區(qū)域被認(rèn)為是文字區(qū)域。本文中使用的約束條件有:
(1)文字區(qū)域包含的邊緣信息豐富,因此連通區(qū)域的象素總數(shù)占連通區(qū)域所在矩形的象素總數(shù)的比例應(yīng)該大于某個(gè)閾值。(2)文字高度不能太小,否則人眼將無(wú)法看清;也不會(huì)太大,應(yīng)在某一范圍內(nèi)。(3)因?yàn)槊總€(gè)文字區(qū)域都是同行的幾個(gè)字符粘連而形成的區(qū)域,所以文字區(qū)域的寬高比應(yīng)當(dāng)大于某一閾值。(4)文字區(qū)域中存在一組連續(xù)的,邊緣信息相當(dāng)豐富的行。要求這段區(qū)域的高度占文字區(qū)域高度的一定比例,并且這段區(qū)域中的每一行的白點(diǎn)數(shù)目大于某一閾值。(5)如果兩個(gè)候選文字區(qū)域具有包含關(guān)系或具有大部分重疊的關(guān)系,則保留面積較大的區(qū)域。按照上述準(zhǔn)則,可以除掉候選文字區(qū)域中的虛假文字區(qū)域,得到了相對(duì)準(zhǔn)確的文字區(qū)域。下頁(yè)的圖(e)為文字區(qū)域的提取結(jié)果,識(shí)別出的文字區(qū)域用紅色邊框標(biāo)出。
文字區(qū)域的提取結(jié)果(e)文字區(qū)域的提取結(jié)果目錄論題意義及其必要性過(guò)濾原理與實(shí)現(xiàn)方法實(shí)驗(yàn)和結(jié)果分析實(shí)驗(yàn)和結(jié)果分析實(shí)驗(yàn)流程如下圖所示:廣告垃圾圖像判定條件:主要根據(jù)文字區(qū)域的數(shù)量和面積兩個(gè)特征判斷圖像是否為廣告垃圾圖像。本實(shí)驗(yàn)設(shè)定閾值th1,th2。如果圖像f的文字區(qū)域數(shù)量大于th1,或者文字區(qū)域面積占圖像總面積的比例大于th2,則認(rèn)為圖像f為廣告垃圾圖像。經(jīng)實(shí)驗(yàn)證明,th1取值6,th2取值15%可以達(dá)到較實(shí)用的效果。
文字區(qū)域提取實(shí)驗(yàn)結(jié)果廣告垃圾圖像過(guò)濾實(shí)驗(yàn)結(jié)果本文為做廣告垃圾圖像過(guò)濾實(shí)驗(yàn),建立了一個(gè)圖像庫(kù),分別由廣告垃圾圖像(39幀),普通圖像(1215幀)和紋理圖像(598幀)等三種圖像組成,下圖為圖像庫(kù)取樣。
廣告垃圾圖像過(guò)濾實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)數(shù)據(jù)表明,廣告垃圾圖像集合的檢出率接近80%,大部分特征明顯的廣告垃圾圖像都能被檢索出來(lái);對(duì)普通圖像的誤檢率為3.045%,控制在可以接受的范圍內(nèi);而由于紋理圖像比較特殊,邊緣信息豐富,產(chǎn)生很多疑似文本的區(qū)域,對(duì)檢索造成了較大干擾,所以誤檢率偏高。
謝謝大家!9、春去春又回,新桃換舊符。在那桃花盛開(kāi)的地方,在這醉人芬芳的季節(jié),愿你生活像春天一樣陽(yáng)光,心情像桃花一樣美麗,日子像桃子一樣甜蜜。3月-253月-25Wednesday,March19,202510、人的志向通常和他們的能力成正比例。17:23:0417:23:0417:233/19/20255:23:04PM11、夫?qū)W須志也,才須學(xué)也,非學(xué)無(wú)以廣才,非志無(wú)以成學(xué)。3月-2517:23:0417:23Mar-2519-Mar-2512、越是無(wú)能的人,越喜歡挑剔別人的錯(cuò)兒。17:23:0417:23:0417:23Wednesday,March19,202513、志不立,天下無(wú)可成之事。3月-253月-2517:23:0417:23:04March19,202514、ThankyouverymuchfortakingmewithyouonthatsplendidoutingtoLondon.ItwasthefirsttimethatIhadseentheToweroranyoftheotherfamoussights.IfI'dgonealone,Icouldn'thaveseennearlyasmuch,becauseIwouldn'thaveknownmywayabout.。19三月20255:23:04下午17:23:043月-2515、會(huì)當(dāng)凌絕頂,一覽眾山小
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 秋分溫泉活動(dòng)策劃方案(3篇)
- 學(xué)校歷史文化管理制度(3篇)
- 2026年聊城市中醫(yī)醫(yī)院“水城優(yōu)才”青年人才引進(jìn)參考考試題庫(kù)及答案解析
- 現(xiàn)代裝飾公司店長(zhǎng)管理制度(3篇)
- 2026年度德州市事業(yè)單位公開(kāi)招聘初級(jí)綜合類崗位人員(526人)備考考試題庫(kù)及答案解析
- 2026山東事業(yè)單位統(tǒng)考濟(jì)南歷城區(qū)屬招聘初級(jí)綜合類崗位50人參考考試題庫(kù)及答案解析
- 2026浙江興??毓杉瘓F(tuán)有限公司下屬企業(yè)招聘3人備考考試試題及答案解析
- 2026年甘肅省酒泉民健康復(fù)醫(yī)院招聘考試備考試題及答案解析
- 2026上半年黑龍江伊春市事業(yè)單位招聘262人參考考試題庫(kù)及答案解析
- 2026浙江南方水泥有限公司校園招聘?jìng)淇伎荚囋囶}及答案解析
- 2025ACCP實(shí)踐指南:危重患者血漿與血小板輸注指南解讀
- 腳手架施工環(huán)境保護(hù)措施方案
- 符號(hào)互動(dòng)理論課件
- 獸藥使用法律法規(guī)學(xué)習(xí)材料
- 農(nóng)村道路交通安全課件兒
- 移動(dòng)式腳手架培訓(xùn)課件
- 高二上學(xué)期哪吒課堂趣味懲罰游戲(課件版)
- 電石卸車安全操作規(guī)程
- 應(yīng)急救援訓(xùn)練基地建設(shè)項(xiàng)目可行性研究報(bào)告
- 安徽控告申訴知識(shí)競(jìng)賽(含答案)
- 2025-2030高端汽車品牌營(yíng)銷策略與消費(fèi)者畫(huà)像分析報(bào)告
評(píng)論
0/150
提交評(píng)論