(信號與信息處理專業(yè)論文)基于本征退化的打印文檔取證技術(shù).pdf_第1頁
(信號與信息處理專業(yè)論文)基于本征退化的打印文檔取證技術(shù).pdf_第2頁
(信號與信息處理專業(yè)論文)基于本征退化的打印文檔取證技術(shù).pdf_第3頁
(信號與信息處理專業(yè)論文)基于本征退化的打印文檔取證技術(shù).pdf_第4頁
(信號與信息處理專業(yè)論文)基于本征退化的打印文檔取證技術(shù).pdf_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大連理工大學(xué)碩士學(xué)位論文 摘要 打印文檔的使用越來越廣泛,而與此同時與偽造文檔相關(guān)的案件也越來越多,例如 偽造合同、偽造文檔證據(jù)、非法傳單。在法庭的審判中i 需要驗證這些作為證據(jù)的文檔 的真實性;在刑事偵查過程中,需要追蹤文檔的來源。因此,司法和公安部門迫切需要 打印文檔的取證技術(shù),包括檢驗文檔是否經(jīng)過偽造,以及判斷文檔來自于哪一臺打印機(jī)。 在打印文檔的取證技術(shù)中,關(guān)鍵在于如何提取打印文檔中含有的固有特征。本文著 重挖掘了打印文檔中存在的頁面幾何失真特征,它所代表的是打印過程中由于機(jī)械裝置 的缺陷造成的頁面打印內(nèi)容整體上存在的幾何形變失真。 本文設(shè)計實驗發(fā)現(xiàn)了頁面幾何失真現(xiàn)象,它可以理解為圖像退化中的幾何失真部 分。本文先后采用了投影變換和彈性變換模型對頁面幾何失真現(xiàn)象進(jìn)行建模,從中提取 頁面幾何失真特征。實驗發(fā)現(xiàn),投影變換模型能夠較好的描述頁面幾何失真現(xiàn)象。如何 進(jìn)一步提取更加合適頁面幾何失真模型,還將進(jìn)一步探索。 在使用投影變換模型時,通過預(yù)處理提取特征點對集合,使用最小二乘法求解模型 參數(shù),并利用模型參數(shù)獲得殘差矩陣。模型的部分參數(shù)和模型的殘差矩陣中均包含了打 印機(jī)的固有特征,通過對所選模型參數(shù)的分類和對殘差矩陣進(jìn)行分析比對,最終實現(xiàn)文 檔的打印機(jī)來源認(rèn)證。在包含1 0 臺打印機(jī)的實驗中,該方法的分類準(zhǔn)確率為1 0 0 。 在使用彈性變換模型時,針對不同的實驗樣本,對處理過程進(jìn)行了調(diào)整,具體包括 通過i c p 算法匹配特征點對集合等。具體選用薄板樣條彈性變換模型,并嘗試從該模型 中提取頁面幾何失真特征。 關(guān)鍵詞:文檔取證:頁面幾何失真;投影變換;彈性變換 大連理工大學(xué)碩士學(xué)位論文 p r i n t e dd o c u m e n t sf o r e n s i c sba s e do ni n t r i n s i cd e g r a d a t i o n a b s t r a c t p r i n t e dd o c u m e n ta r ew i d e l yu s e dm o r ea n dm o r e ,w h i l ea tt h es a m et i m et h en u m b e ro f c a s e sr e l a t e dt of o r g e dd o c u m e n t so c c u ri n c r e a s i n g l yi nr e c e n ty e a r s ,s u c ha sb o g u sc o n t r a c t s , f a l s i f i e dd o c u m e n t se v i d e n c e ,i l l e g a ll e a f l e t s i nt h ec o u r tt r i a l ,i ti sn e e d e dt ov e r i f yt h e a u t h e n t i c i t yo fd o c u m e n t sa se v i d e n c e ;i nt h ec r i m i n a li n v e s t i g a t i o np r o c e s s i ti sn e e d e dt o f i n dt h es o u r c ep r i n t e ro fd o c u m e n t s t h u s ,j u d i c i a la n dp u b l i cs e c u r i t yd e p a r t m e n t su r g e n t l y n e e dt h ep r i n t e dd o c u m e n t sf o r e n s i c st e c h n o l o g y ,i n c l u d i n gt e s t i n gw h e t h e rt h ed o c u m e n t h a v eb e e nf o r g e d ,a sw e l la sd e t e r m i n i n gw h i c hp r i n t e rt h ed o c u m e n t sc a m ef r o m i nt h ep r i n t e dd o c u m e n t sf o r e n s i c st e c h n o l o g y ,t h ek e yl i e si nh o w t oe x t r a c tt h ei n t r i n s i c f e a t u r e sc o n t a i n e di nt l l ep r i n t e dd o c u m e n t s n l i sp a p e rf o c u s e so nt h ee x t r a c t i o no fp a g e s g e o m e t r i cd i s t o r t i o n f e a t u r e sf r o mt h ep r i n t e dd o c u m e n t s ,w h i c hr e p r e s e n t st h ep r i n t e d c o n t e n t s o v e r a l ld i s t o r t i o no ft h eg e o m e t r yd e f o r m a t i o nc a u s e db yt h ed e f e c t so fm e c h a n i c a l d e v i c e sd u r i n gt h ep r i n t i n gp r o c e s s n l i sp a p e rd e s i g n st h ee x p e r i m e n t st of i n dt h ep a g e sg e o m e t r i cd i s t o r t i o np h e n o m e n o n , w h i c hc a nb eu n d e r s t o o da st h eg e o m e t r i cd e f o r m a t i o np a r to ft h ei m a g ed e g r a d a t i o n t h e n p r o j e c t i v et r a n s f o r m a t i o na n de l a s t i ct r a n s f o r m a t i o nm o d e l sa r eu s e dr e s p e c t i v e l yt om o d e l t h ep a g e sg e o m e t r i cd i s t o r t i o n ,f r o mw h i c ht h e p a g e sg e o m e 伍cd i s t o r t i o nf e a t u r e sa r e e x t r a c t e d a st h ee x p e r i m e n ts h o w n , p r o j e c t i v et r a n s f o r m a t i o nm o d e lc a nd e s c r i b et h e p a g e s g e o m e t r i cd i s t o r t i o nw e l l ,a n dm o r es u i t a b l em o d e l ss o u l db ee x p e r i m e n t e di nt h ef u t u r e r e s e a r c h f i r s tw e t r yt ou s et h ep r o j e c t i v et r a n s f o r m a t i o nt om o d e lt h ep a g e sg e o m e t r i cd i s t o r t i o n 1 1 1 ep u r p o s eo fp r e - p r o c e s s i n gp r o c e s sw a st og e t 此s e to ff e a t u r ep o i n tp a i r ,l e a s ts q u a r e s m e t h o dw a st oe s t i m a t et h ep a r a m e t e r so ft h em o d e l ,a n dt h er e s i d u a le r r o rm a t r i xc a nb e o b t a i n e dt h r o u g ht h ee s t i m a t e dp a r a m e t e r s p a r t i a lp a r a m e t e r so ft h em o d e la n dt h er e s i d u a l e r r o rm a t r i xa l lc o n t a i nt h ei n t r i n s i cf e a t u r e so fp r i n t e r b o t ht h ec l a s s i f i c a t i o no ft h es e l e c t e d p a r a m e t e r sa n dc o m p a r i s o no ft h er e s i d u a le r r o rm a t r i xc a nh e l pu s1 i n kad o c u m e n tt oa p r i n t e r n l ea c c u r a c yo ft h ec l a s s i f i c a t i o nw a s10 0 i nt 1 1 ee x p e r i m e n tc o n t a i n i n g10p r i n t e r s t h e nw eu s et h ee l a s t i ct r a n s f o r m a t i o nm o d e l n l ep r o c e s sh a sb e e na d j u s t e dt o w a r d s d i f f e r e n tp r i n t e dd o c u m e n tc o n t e n t ,s u c ha st h ei c pa l g o r i t h mf o rm a t c h i n gf e a t u r ep o i n t ss e t i si n c l u d e di nt h ep r o c e s s w ee x p e r i m e n t e dt h i np l a t es p l i n ee l a s t i ct r a n s f o r m a t i o n 一i i i 基于本征退化的打印文檔取證技術(shù) k e yw o r d s :d o c u m e n t sf o r e n s i c s ;p a g e s g e o m e t r i c d i s t o r t i o n ;p r o j e c t i v e t r a n s f o r m a t i o n ;e l a s t i ct r a n s f o r m a t i o n i v 獨創(chuàng)性說明 作者鄭重聲明:本碩士學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工 作及取得研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外, 論文中不包含其他人已經(jīng)發(fā)表或撰寫的研究成果,也不包含為獲得大連理 工大學(xué)或者其他單位的學(xué)位或證書所使用過的材料。與我一同工作的同志 對本研究所做的貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。 作者簽名:罷至量日期:主! ! i 生! 蘭壘望日 大連理工大學(xué)碩士研究生學(xué)位論文 大連理工大學(xué)學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者及指導(dǎo)教師完全了解“大連理工大學(xué)碩士、博士學(xué)位論文版權(quán)使用 規(guī)定 ,同意大連理工大學(xué)保留并向國家有關(guān)部門或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和電子 版,允許論文被查閱和借閱。本人授權(quán)大連理工大學(xué)可以將本學(xué)位論文的全部或部分內(nèi) 容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論 文。 作者簽名:塞至窒 導(dǎo)師簽名: 蘭! 盟年蘭月二上日 大連理工大學(xué)碩士學(xué)位論文 1 緒論 1 1 研究背景和意義 目前,打印文檔的使用越來越廣泛,而與此同時與偽造文檔相關(guān)的案件也越來越多, 例如偽造合同、偽造文檔證據(jù)、非法傳單。在法庭的審判中,需要驗證這些作為證據(jù)的 文檔的真實性;在刑事偵查過程中,需要追蹤文檔的來源。因此,司法和公安部門迫切 需要打印文檔的取證技術(shù),檢驗文檔是否經(jīng)過偽造,以及判斷文檔來自于哪一臺打印機(jī)。 目前我國司法部門進(jìn)行文件檢驗時主要采用人工借助儀器的手段,針對噴墨打印機(jī) 主要從墨水驅(qū)動方式、墨水種類、打印字符質(zhì)量、打印介質(zhì)、用紙、油墨的理化性質(zhì)【l - 3 】 等進(jìn)行種類鑒別;針對激光打印機(jī)主要利用拉曼光譜【4 】分析打印文件字跡確定墨粉種類, 從而推斷打印機(jī)品牌和大致型號。這些方法存在分析儀器價格高,操作專業(yè)性強(qiáng),人工 操作憑經(jīng)驗,分析成本高,有一定的主觀性等特點。實際的檢驗過程中,還很難做到判 斷文檔來自于哪一臺打印機(jī)。如何確定文檔的打印機(jī)品牌,以及來自于哪臺具體的打 印機(jī),一直是文件檢驗中的一個亟待解決的問題 5 】。 隨著計算機(jī)科學(xué)的發(fā)展,人們逐步嘗試使用圖像處理和模式識別技術(shù)來解決文檔檢 驗問題。這種技術(shù)通過掃描儀將文檔掃描成文檔圖像,然后利用圖像處理技術(shù)從文檔圖 像中提取一些能夠代表打印機(jī)固有特征的特征,最后使用模式識別技術(shù)判斷文檔的打印 機(jī)來源。近年來,這種基于圖像的無損被動打印取證技術(shù)【1 6 講】逐步發(fā)展起來,學(xué)者們提 出了很多種方法。但是實際中情況非常復(fù)雜,對提取特征的影響因素主要包括:紙張類 型的變換、打印機(jī)的老化、硒鼓中墨量變化和更換、掃描儀的不同。目前所提出的各種 方法中的特征針對上述情況還并不是很穩(wěn)定,檢驗準(zhǔn)確率還有待進(jìn)一步提高。 1 2 本文貢獻(xiàn) 在上述基于圖像的無損被動打印機(jī)取證技術(shù)中,學(xué)者們提出的方法主要集中在如何 從含有墨跡的連通區(qū)域中提取打印機(jī)固有特征。本文從整體頁面上提取頁面幾何失真特 征,實驗表明,該特征可用于打印機(jī)來源認(rèn)證。本文分別用投影變換模型和彈性變換模 型來對頁面幾何失真進(jìn)行建模,提取模型的參數(shù)作為打印機(jī)固有特征。本文的主要貢獻(xiàn) 如下: ( 1 ) 綜述打印文件取證技術(shù) 本文總結(jié)歸納了2 0 0 2 年以來的打印取證技術(shù),介紹各種取證技術(shù)主要思路。目前 在打印機(jī)取證技術(shù)領(lǐng)域,主要包含兩大類技術(shù):主動取證技術(shù)和被動取證技術(shù)。本文所 研究的內(nèi)容屬于被動取證技術(shù)。 基于本征退化的打印文檔取證技術(shù) ( 2 ) 提出了文檔頁面幾何失真特征 本文最大的貢獻(xiàn)就是發(fā)現(xiàn)了頁面幾何失真特征。文中具體介紹通過行斜率變化規(guī)律 實驗發(fā)現(xiàn)頁面幾何失真現(xiàn)象的過程。文中分別采用了投影變換模型和彈性變換模型來模 擬頁面幾何失真現(xiàn)象,并實驗了兩個模型在文檔來源認(rèn)證中的具體性能,比較了兩種模 型在各方面的相似和不同之處,并比較了它們各自的優(yōu)缺點。 1 3 論文結(jié)構(gòu) 本論文各章的結(jié)構(gòu)組織如下: 第一章為緒論,主要介紹了研究背景和意義,同時介紹了本文主要貢獻(xiàn)。 第二章為打印文檔取證技術(shù)概述,主要從主動和被動兩個方面進(jìn)行介紹。 第三章介紹如何通過文檔頁面行斜率變化規(guī)律實驗發(fā)現(xiàn)頁面幾何失真現(xiàn)象。 第四章介紹了使用投影變換模型對頁面幾何失真現(xiàn)象建模的過程。 第五章介紹了使用彈性變換模型對頁面幾何失真現(xiàn)象建模的過程。 第六章在對全文進(jìn)行總結(jié)歸納的基礎(chǔ)上,展望了本文工作的可能發(fā)展。 一2 一 大連理工大學(xué)碩士學(xué)位論文 2 打印機(jī)取證技術(shù)綜述 本章將打印取證技術(shù)分為主動打印取證技術(shù)和被動打印取證技術(shù)兩類。主動取證技 術(shù)通過嵌入外部特征實現(xiàn)取證;被動取證技術(shù)則利用了文檔打印過程引入的固有特征。 2 1 主動打印取證技術(shù) 主動取證技術(shù)向打印文檔中嵌入水印信息,使文檔具有視覺不可見又可供算法識別 的外部特征( e x t r i n s i cs i e m a t u r e ) ,從而實現(xiàn)打印文檔的主動取證。目前主要包括以下典型 技術(shù):打印機(jī)廠商在部分品牌彩色激光打印機(jī)的打印品中嵌入視覺不可見的黃色斑點陣 列信息:有很多學(xué)者研究了在打印機(jī)半色調(diào)算法中嵌入視覺不可見的水印信息;而 p u r d u e 大學(xué)的e d w a r djd c l p 團(tuán)隊通過改變打印機(jī)機(jī)械級參數(shù)【i o - i5 控制墨點大小和位置 來嵌入視覺不可見的外部特征。以上方法和思想分述如下: ( 1 ) 彩色激光打印機(jī)的黃色斑點信息 撒光打印機(jī)的制造商很早就考慮到其高性能的辦公設(shè)備可能會給偽造文件者提供 方便。于是在打印機(jī)輸出文件中嵌入了可供追查文件來源的水印信息。在電子先鋒( e f f , e i e c l i _ o m cf r o n t i e rf o 岫d 撕o n l 的網(wǎng)站【q 上,報道了施樂彩色撇光打印機(jī)在輸出文檔中嵌 入規(guī)則的黃色斑點陣列,如圖2 1 所示,以此記錄文檔的打印機(jī)型、打印時問等信息。 在文獻(xiàn)中針對彩色激光打印機(jī)的黃點嵌入機(jī)制給予了一些實驗性研究工作的報道1 7 唧。 在圖21 中,左圖為實際掃描的黃色斑點圖,其尺寸要大于實際;右圖為人工繪制的藍(lán) 底黃點圖,用以說明斑點陣列的編碼格式。 圈2i 篪樂彩色激光打印機(jī)的黃點斑點陣列盈其編碼格式 f i g2 1y e l l o w d o ta r r a y s a n d i t se n c o d i n g f o r m a t o f x e r o xc o l o r l a s e r p f i n t c r 基于本征退化的打印文檔取證技術(shù) e f f 統(tǒng)計了1 8 個廠商的2 0 9 種型號的彩色打印機(jī),具體如表2 1 所示。其中1 4 1 種型號含有可追蹤來源的黃色斑點,5 7 種型號不含有,剩余的1 1 種型號未知。從中可 以看出,有6 7 的彩色激光打印機(jī)嵌入了黃色斑點陣列信息,其它沒有嵌入黃色斑點陣 列的打印機(jī)可能采用了其它未知的技術(shù)嵌入了水印。 表2 1 各品牌彩色激光打印機(jī)是否嵌入黃色斑點型號統(tǒng)計表 t a b 2 1l i s to fw h e t h e rt h ep r i n t e rm o d e l so fv a r i o u sb a n dc o n t a i ny e l l o wd o t 對于含有黃色斑點的彩色打印文檔,可以通過提取黃點陣列信息準(zhǔn)確的找到其來源 打印機(jī)。但是,占據(jù)市場上份額非常大的黑白激光和噴墨打印機(jī)是不可能嵌入“黃色 的墨點水印的。所以這種可靠且簡易的方法存在很大的局限性。 ( 2 ) 半色調(diào)算法級水印嵌入 半色調(diào)算法級水印嵌入通過調(diào)整基n ) 異( s c r e e n i n g ) 、差錯分散( e r r o rd i f f u s i o n ) 和 搜索( s e a r c h i n g ) 等算法的半色調(diào)處理過程實現(xiàn)水印嵌入。它們的計算復(fù)雜度很高,不適 合于實時打印應(yīng)用【1 0 】。該類方法的討論超出了本論文的研究內(nèi)容,不詳細(xì)介紹。 ( 3 ) 打印機(jī)機(jī)械結(jié)構(gòu)級水印嵌入 該類方法通過調(diào)整打印機(jī)機(jī)械結(jié)構(gòu)的處理參數(shù)來實現(xiàn)水印嵌入。在研究了打印文檔 中可用于判斷打印機(jī)來源的條帶特征【l l 】的基礎(chǔ)上,可以事先通過調(diào)整激光強(qiáng)度產(chǎn)生這種 條帶信號【1 2 】,但是它的數(shù)據(jù)嵌入容量非常有限。為了增大數(shù)據(jù)嵌入容量,e d w a r dj d e l p 大連理工大學(xué)碩士學(xué)位論文 團(tuán)隊又提出了基于邊緣粗糙程度1 3 1 和激光曝光調(diào)制【1 4 】的改進(jìn)方法,它們本質(zhì)上仍然是調(diào) 節(jié)激光強(qiáng)度嵌入條帶特征。最新的研究成果是通過調(diào)節(jié)半色調(diào)圖像中墨點的位置來嵌入 信息【1 0 , 1 5 】,它具有更好的魯棒性和嵌入容量。 2 2 被動打印取證技術(shù) 被動打印取證技術(shù)從文檔中提取了能夠代表打印機(jī)個體的固有特征,使用模式識別 的分類技術(shù)進(jìn)行訓(xùn)練和分類,實現(xiàn)追蹤文檔的打印機(jī)來源。 2 2 1 現(xiàn)有被動打印取證技術(shù)框架 為了能夠深入理解打印機(jī)的固有特征,了解激光打印機(jī)的工作過程是非常必要的。 激光打印過程如圖2 2 所示,共有6 步:( 1 ) 感光鼓均勻充電;( 2 ) 激光掃描感光鼓,對特 殊區(qū)域放電;( 3 ) 放電區(qū)域吸附墨粉;( 4 ) 感光鼓上的墨粉轉(zhuǎn)印到紙張上;( 5 ) 墨粉與紙張 相融合;( 6 ) 清潔感光鼓。打印機(jī)結(jié)構(gòu)中的電子機(jī)械設(shè)備的不理想會導(dǎo)致打印輸出中存在 缺陷【1 1 】。由于這些“缺陷”直接和打印機(jī)結(jié)構(gòu)有關(guān),所以認(rèn)為是打印機(jī)的固有特征。 t l m s f e zr o u 叮 圖2 2 激光打印過程框圖:( a ) 充電,( b ) 曝光,( c ) 附墨,( d ) 轉(zhuǎn)印,( e ) 融合,( f ) 清墨 f i g 2 2e l e c t r o p h o t o g r a p h i cp r o c e s s :c r o s ss e c t i o n a lv i e wo ft y p i c a ll a s e rp r i n t e r ( a ) c h a r g i n g ( b ) e x p o s u r e ( c ) d e v e l o p m e n t ( d ) t r a n s f e r r i n g ( e ) f u s i n g ( f ) c l e a n i n g 對目前所掌握的文獻(xiàn)進(jìn)行總結(jié)歸納,對文檔進(jìn)行取證的過程框架如圖2 3 所示: 基于本征退化的打印文檔取證技術(shù) l 轎n - 干田l i 對字符圖像l jj 哭處瑾廣 f 提取特征 _ 一分婁分割1 二值化 打印質(zhì)量分析 i “7 、一“o o 一取證結(jié)果卜- 掃 噪聲消除 s v m 等方法 + 共生矩陣特征 需要訓(xùn)練數(shù)據(jù) 來源取證 描 _ 字符圖像 文 檔 分割識別 字符圖像質(zhì)量評價 區(qū)域分割偽造取證 t :直方圖匹配打印機(jī)失真模型l n o r m a l i z e dc t i t :空i 司校正 - 一 圖2 3 目前打印機(jī)被動取證技術(shù)的實現(xiàn)過程框架 f i g 2 3f r a m e w o r ko fp r o c e s si nt h ec u r r e n tp a s s i v ep r i n t e rf o r e n s i ct e c h n o l o g y 針對掃描得到的待取證的文檔圖像,主要經(jīng)過預(yù)處理、對字符圖像提取特征、分類 分割三個步驟實現(xiàn)文檔的取證工作。 預(yù)處理過程用于完成前期處理工作,包括圖像二值化,斑點墨跡噪聲的消除,字符 圖像分割和字符識別工作。在文獻(xiàn) 2 6 中還使用了直方圖匹配和空間校正的預(yù)處理步驟 來分別統(tǒng)一字符的灰度直方圖變化范圍和尺寸。 對字符圖像提取特征主要分為9 類,如表2 2 所示: 表2 2 被動取證技術(shù)提取特征的分類 t a b 2 2c l a s s i f i c a t i o no ft h ef e a t u r e se x t r a c t e db yt h ep a s s i v ef o r e n s i ct e c h n o l o g y 大連理工大學(xué)碩士學(xué)位論文 分類分割則針對上述提取的特征,使用s v m 分類器進(jìn)行分類實現(xiàn)文檔的來源取證, 或者使用區(qū)域分割的技術(shù)判斷文檔是否經(jīng)過偽造篡改。同樣可以采用其它的分類和分割 方法實現(xiàn)類似的功能。 2 。2 2 現(xiàn)有被動打印取證技術(shù)詳述 下面分別將這9 類方法簡單描述如下: ( 1 ) 打印質(zhì)量分析 0 2 年j o h no l i v e r t m 】等借助于i m a g e x p e r t 專業(yè)打印質(zhì)量分析軟硬件,將提取的打印 質(zhì)量特征用于打印機(jī)來源取證,具體包括:線寬度、粗糙度、拖墨度、點圓滿度、周長、 周圍散落墨點數(shù)等特征。i m a g e x p e r t 公司是專門為h p 等打印機(jī)公司提供打印質(zhì)量分析 工具的公司,它們可以幫助打印機(jī)廠商更好的完成新型打印機(jī)的質(zhì)量性能檢測評價。該 方法需要借助專業(yè)軟硬件,掃描分辨率要求較高。 ( 2 ) 共生矩陣特征 之前有很多學(xué)者在研究如何改進(jìn)打印機(jī)的控制程序以更好的消除打印文檔中包含 條帶現(xiàn)象,而0 5 年e d w a r dj d e l p 團(tuán)隊則利用了這種條帶特征進(jìn)行打印機(jī)取證。由于文 本文檔由較小的字符連通區(qū)域組成,提取條帶存在困難,他們在0 5 年從打印的“e 字 符圖像中提取了描述紋理的共生矩陣特征【l7 1 。該方法實驗中要求的掃描分辨率為 l z 0 0 d p i 。e d w a r dj d e l p 團(tuán)隊在該領(lǐng)域的研究最活躍,0 3 年至今發(fā)表文獻(xiàn)有2 2 篇左右, 其中5 篇綜述,7 篇關(guān)于提取固有特征的被動取證技術(shù),1 0 篇關(guān)于嵌入外部特征的主動 取證技術(shù)。最近幾年,該團(tuán)隊在嵌入外部特征的主動取證技術(shù)方面做的工作更多一些, 他們與機(jī)械電子專業(yè)的團(tuán)隊進(jìn)行合作,完成打印機(jī)內(nèi)部的硬件改造。 ( 3 ) 灰度級特征 0 4 年j a c kt c h a n l l 8 j 提出的特征包括:邊緣銳利程度、表面粗糙度、圖像對比度,要 求的掃描分辨率較低,但僅實驗圓點和方塊圖像內(nèi)容的文檔,并沒有實驗文本字符。 0 6 和0 8 年,t h o m a sb r e u e l 等提出了一些基于普通紋理和邊緣描述的灰度級特征 1 9 - 2 0 l ,這些特征與0 4 年j a c kt c h a n 提出的特征有些類似,所以將其統(tǒng)稱為“灰度級特 征 。文中給出了特征具體計算公式,便于實現(xiàn),而且實驗結(jié)果很詳細(xì)。該方法所需的 掃描分辨率較低,適合應(yīng)用在銀行的高吞吐量文檔管理系統(tǒng)中。 ( 4 ) 不變矩特征 0 6 年c 妒lm u r i e 等提出不變矩特征【2 1 】用于打印機(jī)來源取證。不變矩最早由m h u 于1 9 6 2 年提出,針對圖像的旋轉(zhuǎn)、縮放、平移操作,這些不變矩特征值基本不發(fā)生變 化。目前已有其它的矩提出,例如l e g e n d r e 矩或c o m p l e xz e m i k e 矩。作者僅觀察了實 基于本征退化的打印文檔取證技術(shù) 驗樣本的h u 矩特征分布,發(fā)現(xiàn)它們在不同打印機(jī)之間存在可分性,而沒有具體分類準(zhǔn) 確率。 ( 5 ) 字符圖像質(zhì)量評價 0 7 年孔祥維等和0 8 年h a e y e 0 1 m 1l e e 等均提出了字符圖像質(zhì)量評價特型2 2 2 3 1 。從 文檔圖像中分割得到字符圖像,然后獲得其高斯濾波圖像以及噪聲圖像,并在這三幅圖 像中或相互之間提取了字符圖像質(zhì)量評價特征。使用s v m 分類器對每個字符圖像提取 的特征進(jìn)行分類,然后每頁文檔的所有字符圖像進(jìn)行投票得到該頁文檔的分類結(jié)果。 ( 6 ) 字筆畫周長面積等 0 7 年韓國強(qiáng)等在漢字識另j ( o c r ) - i - 具包的基礎(chǔ)上,提取識別后的字符筆畫周長面積 等特征【2 4 】,并將其應(yīng)用于打印機(jī)的來源取證。文中采用模糊分類器進(jìn)行分類,并給出了 1 0 臺打印機(jī)的實驗結(jié)果。 ( 7 ) 字符間距離變換 0 8 年陳慶虎等對訓(xùn)練和測試文檔圖像進(jìn)行預(yù)處理,以獲得歸一化的打印字符圖像, 并使用o c r 算法對其進(jìn)行識別。對訓(xùn)練和測試文檔圖像中的字符圖像應(yīng)用距離變換1 2 5 1 , 計算測試文檔字符圖像與每類訓(xùn)練文檔字符圖像的距離,與其距離最小的類將確定為該 文檔的打印機(jī)來源。 ( 8 ) 打印機(jī)失真模型 0 8 年h a n yf a r i d 等利用主成分分析算法( p c a ,p r i n c i p a lc o m p o n e n ta n a l y s i s ) 構(gòu)建近 似打印機(jī)失真模型【2 6 1 ,并根據(jù)字符圖像與各打印機(jī)失真模型的匹配程度來判斷打印機(jī)來 源。針對從文檔中分割出的含相同字符的字符圖像,進(jìn)行圖2 3 中預(yù)處理階段虛線框中 的直方圖匹配、空間校正步驟,使得每個字符圖像大小相同,然后對此字符圖像集合應(yīng) 用p c a 方法,提取字符圖像均值和最大特征值對應(yīng)的特征向量構(gòu)成打印機(jī)失真模型。 實際的打印機(jī)失真模型非常復(fù)雜,文中只是以p c a 方法進(jìn)行了近似。 另外,文章針對一頁文檔是否經(jīng)過偽造( 如二次打印) 提出了一種解決思路。作者利 用了圖像分割中成熟的n o r m a l i z e dc u t 分割思想,以任意兩個字符的打印機(jī)模型匹配度 和空間距離作為依據(jù),將圖像分割成兩部分。如果分割的代價較小,則認(rèn)為分割正確, 分割得到的兩部分分別由不同的打印機(jī)打印得到;如果分割代價較大,則認(rèn)為該文檔中 所提取的這些字符均由同一臺打印機(jī)打印得到。 ( 9 ) 尖齒輪痕跡特征 0 2 年y o k os e k i 等發(fā)現(xiàn)了噴墨打印機(jī)中傳動紙張的尖齒輪會在紙張上留下痕跡,稱 為尖齒輪痕跡【27 l ( s p u r m a r k s ) 。通過對尖齒輪痕跡特征的提取,來區(qū)分不同的噴墨打印機(jī)。 使用紅外光傾斜一定角度照射打印紙張,可以從紅外照相圖像中提取出尖齒輪痕跡,使 一8 一 大連理工大學(xué)碩士學(xué)位論文 用r a d o n 變換和傅立葉變換估計尖齒輪間距等參數(shù),判斷文檔的噴墨打印機(jī)來源。特征 提取過程中使用的紅外照,相設(shè)備并不常用,實驗表明,從普通的文檔掃描儀掃描的文 檔中觀察不到尖齒輪痕跡。 2 2 3 現(xiàn)有被動打印取證技術(shù)分析 上述方法均從文檔圖像含有墨跡的連通區(qū)域或字符區(qū)域中提取特征,所以這些特征 不同程度的受到打印文檔墨跡濃淡變化的影響,這將降低文檔來源的判決準(zhǔn)確性。f a r i d 實驗了墨跡濃淡對判決結(jié)果的影響,實驗表明,其方法的判決結(jié)果更多地取決于墨跡濃 淡程度而不是打印機(jī)個體。本文首先通過預(yù)處理獲得特征點對集合,然后從中提取頁面 幾何失真特征。而這些特征點( 字符中心) 行列坐標(biāo)的檢測對樣本文檔墨跡濃淡變化并 不敏感,所以與上述方法相比較,本文方法對墨跡濃淡變化具有更好的穩(wěn)定性。 2 3 小結(jié) 綜上所述,基于機(jī)械結(jié)構(gòu)級的主動打印取證技術(shù)需要機(jī)械方面的專業(yè)技術(shù)來控制打 印過程,并且該方法要得到打印機(jī)生產(chǎn)廠商的支持;被動打印取證技術(shù)雖然取得了一定 的成果,但所提取的特征對墨跡濃淡變化還不夠穩(wěn)定,需要進(jìn)一步提出新的特征以及對 打印過程進(jìn)行更完善的建模。 大連理工大學(xué)碩士學(xué)位論文 3 文檔圖像頁面幾何失真現(xiàn)象 本章通過頁面行斜率變化實驗發(fā)現(xiàn)了打印文檔頁面幾何失真現(xiàn)象。頁面幾何失真現(xiàn) 象是指實際文檔與理想文檔之間在頁面整體上存在的幾何形變失真現(xiàn)象。 3 1 頁面幾何失真現(xiàn)象的實驗設(shè)計框圖 本節(jié)通過文檔頁面行斜率變化實驗證明了文檔頁面幾何失真的存在,它為后面使用 其它幾何失真模型對其進(jìn)行建模并提取幾何失真特征進(jìn)行打印機(jī)來源認(rèn)證奠定了基礎(chǔ)。 頁面行斜率變化的實驗框圖如圖3 2 所示,實驗過程包含預(yù)處理和斜率分析兩個階 段。預(yù)處理階段通過對圖像進(jìn)行二值去噪、字符分割的操作實現(xiàn)從文檔圖像中提取字符 中心;斜率分析階段對每行字符的中心進(jìn)行直線擬合,將擬合直線的斜率稱為該行的行 斜率,并觀察頁面中行斜率變化現(xiàn)象。下面兩個小節(jié)分別對這兩個階段進(jìn)行詳細(xì)描述。 一預(yù)處理卜 1 行斜率分析 文 l 二值去噪f 估計行斜率 檔 + + 區(qū)分打印機(jī) 圖 - 字符分割 像 行斜率 i 字符中心 變化現(xiàn)象 圖3 2 頁面行斜率變化的實驗框圖 f i g 3 2d i a g r a mo f t h ee x p e r i m e n to f t h ev a r i a t i o no f r o w s s l o p ei no n ep a g e 3 2 預(yù)處理 二值去噪步驟中采用o t s u 方法【2 8 】對文檔進(jìn)行二值化操作。該二值圖像中有時會包 含有小面積的墨點噪聲,所以需要對其進(jìn)行去噪操作。具體做法是統(tǒng)計該二值圖像中各 連通區(qū)域的面積,對于面積小于某閾值的連通區(qū)域,認(rèn)為是墨點噪聲,將其消除。 對于二值去噪圖像,采用行列投影的辦法進(jìn)行字符分割,獲得每個字符的外接矩形。 行投影方法將二值圖像沿行方向投影,得到一個列向量,向量中每個元素為二值圖像中 對應(yīng)行所含非零元素的個數(shù)。在掃描過程中,對文檔進(jìn)行過手動傾斜校正,頁面傾斜角 度較小,使得行投影之后行與行之間存在一段區(qū)域的累積數(shù)值為0 ,具體如圖3 3 所示。 基于本征退化的打印文檔取證技術(shù) 行坐標(biāo) 圖3 3 行投影向量圖形顯示 f i g 3 3g r a p h i c so fr o wp r o j e c t i o nv e c t o r 利用此特點,可以分割得到文檔圖像的每一行。針對每行文檔圖像,采用類似的列 投影辦法,分割出每個字符圖像??紤]到有些漢字是左右結(jié)構(gòu),如漢字“非”,在對列 投影向量進(jìn)行掃描的過程中,考慮了前一個連續(xù)零區(qū)域與當(dāng)前連續(xù)零區(qū)域的距離,如果 距離小于某個閾值,則認(rèn)為遇到左右結(jié)構(gòu)漢字的左半部分,繼續(xù)掃描得到漢字的右半部 分以得到整個字符。調(diào)整閾值,可以正確分割每個字符。在字符圖像分割過程中可以得 到字符圖像上下邊界行坐標(biāo)值和左右邊界列坐標(biāo)值,可以利用它們得到字符的中心。含 有中心和外接矩形標(biāo)記的字符圖像如圖3 4 所示。 圜圃 圖3 4 文檔圖像的字符分割和中心檢測示例 f i g 3 4e x a m p l eo f c h a r a c t e rs e g m e n t a t i o na n dc e n t e rd e t e c t i o no f d o c u m e n ti m a g e 3 3 頁面行斜率分析 針對某行的字符中心,使用最小二乘法對其進(jìn)行直線擬合。設(shè)某行中檢測得到的字 符中心坐標(biāo)為( ,只) ,i = l , ,且滿足直線公式: 只= q + 6 + e( 3 1 ) 將某行中的所有字符中心點滿足的直線公式寫成矩陣形式: 津蚓 2 , 大連理工大學(xué)碩士學(xué)位論文 將上式寫成簡潔的矩陣形式: y = x a + 其中,y 尺寸為行x l ,x 尺寸為n x 2 ,a 尺寸為2 x l ,8 尺寸為n x l 。 j = a r g 呼0 黝一i ,i l : 該問題的解可以描述為: ( 3 3 ) ( 3 4 ) j = ( x l x ) x r y ( 3 5 ) 使用上述方法可以估計出的- 中占即為該行的行斜率。 3 4 實驗結(jié)果及總結(jié) 對文檔圖像應(yīng)用上述處理過程,獲得每頁文檔的行斜率,并觀察不同打印機(jī)打印樣 本的行斜率變化之間的不同之處。實驗中使用了1 0 臺打印機(jī),具體機(jī)型如表3 1 所示: 表3 1 實驗中使用的1 0 臺打印機(jī)機(jī)型列表 t a b 3 1l i s to f10p r i n t e r s m o d e li nt h ee x p e r i m e n t 每頁文檔中含有4 4 行,求得每行斜率后可觀察到行斜率變化現(xiàn)象。例如,0 1 打印 機(jī)和0 3 打印機(jī)的0 5 頁樣本的行斜率變化現(xiàn)象如圖3 5 所示: 圖3 5 兩幅樣本的頁面行斜率變化現(xiàn)象 f i g 3 5p h e n o m e n o no f t h ev a r i a t i o no fr o w s s l o p ef r o mt w od i f f e r e n tp a g e 將1 0 臺打印機(jī)的1 2 頁樣本分別求各頁各行的行斜率,并將1 2 頁樣本求平均值, 得到該打印機(jī)的行斜率變化現(xiàn)象。實驗中各打印機(jī)行斜率變化如圖3 6 所示。 基于本征退化的打印文檔取證技術(shù) r o w s 圖3 6 理想圖像與1 0 臺打印機(jī)采樣文檔圖像的行斜率變化比較 f i g 3 6t h ev a r i a t i o no fr o w s s l o p ei nt h ei d e a li m a g e sa n d10p r i n t e r s d o c u m e n ti m a g e s 圖中的理想圖像是指由w o r d 轉(zhuǎn)換得到的t i f 格式圖像。從圖中可知,理想圖像的 各行行斜率始終保持在零左右。文檔圖像的行斜率存在明顯的變化規(guī)律,有些逐漸增大, 有些則逐漸減小?;蛘哒f,在理想情況下,文檔頁面中行與行之間是平行的,但實際打 印掃描的文檔圖像中行斜率存在變化規(guī)律。這種現(xiàn)象稱為文檔頁面幾何失真現(xiàn)象,它可 能是由打印機(jī)內(nèi)部走紙機(jī)械裝置存在缺陷所造成的,例如,走紙裝置左右轉(zhuǎn)速及對紙張 夾緊程度的微小差異。通過人工比對分析文檔中的頁面行斜率變化規(guī)律可以幫助確定文 檔的打印機(jī)來源。 該實驗證明了頁面幾何失真的存在,并且在不同的打印機(jī)之間,頁面幾何失真存在 一定的差異性,如何提取描述這種差異性的特征,實現(xiàn)打印機(jī)來源認(rèn)證,在后面的章節(jié) 中將進(jìn)一步探討。行斜率的變化將理想的平行線變成了近似的相交線,而這是投影變換 的一個效果,所以在第4 章討論了如何使用投影變換模型對頁面幾何失真進(jìn)行建模;在 第4 章的實驗結(jié)果中發(fā)現(xiàn),投影變換模型的殘差矩陣中仍含有可用于判斷打印機(jī)來源的 特征,所以在第5 章中討論了如何使用彈性變換模型對頁面幾何失真進(jìn)行建模。 大連理:1 二大學(xué)碩士學(xué)位論文 4 頁面幾何失真的投影變換模型打印機(jī)來源認(rèn)證方法 針對頁面幾何失真現(xiàn)象,本章采用投影變換模型對其進(jìn)行建模。通過預(yù)處理提取特 征點對集合,使用最d , - - 乘法求解投影變換模型參數(shù),并利用該模型參數(shù)獲得殘差矩陣。 模型的部分參數(shù)和殘差矩陣均包含打印機(jī)的固有特征。通過對所選模型參數(shù)進(jìn)行分類和 對殘差矩陣進(jìn)行分析比對,最終實現(xiàn)文檔的打印機(jī)來源認(rèn)證。 4 1 頁面幾何失真的投影變換模型框架 本節(jié)從頁面幾何失真現(xiàn)象出發(fā),介紹頁面幾何失真的投影變換模型打印機(jī)來源認(rèn)證 方法的基本思路和總體框圖。 如3 3 小節(jié)所述,頁面幾何失真現(xiàn)象將理想的平行線變成了實際的相交線,所以本 文對其采用投影變換進(jìn)行建模。以此為核心,頁面幾何失真的投影變換模型打印機(jī)來源 認(rèn)證方法總體框圖如圖4 1 所示。一方面,將一頁w o r d 文檔轉(zhuǎn)換為p d f 文件,然后另 存為6 0 0 d p i 分辨率t i f 格式的理想圖像:另一方面,將該頁w o r d 文檔打印成紙質(zhì)文檔, 然后將其掃描成相同分辨率t i f 格式的文檔圖像。理想圖像和文檔圖像分別通過預(yù)處理 過程提取特征點,兩者對應(yīng)位置的特征點相匹配,構(gòu)成特征點對集合。使用最小二乘法 從特征點對集合中估計模型參數(shù),并獲得殘差矩陣。使用s v m ( s u p p o r tv e c t o rm a c h i n e , 支持向量機(jī)) 分類器分類部分模型參數(shù),并且比對分析殘差矩陣,從而實現(xiàn)打印機(jī)來源 認(rèn)證。在實際應(yīng)用中,可以通過o c r ( o p t i c a lc h a r a c t e rr e a d e r , 光學(xué)字符識別) 和排版恢 復(fù)算法從打印文檔中恢復(fù)w o r d 文檔頁面,然后再應(yīng)用上述方法。 一 叫p d f 文件 5i 二值去噪ij 0 廣王西西石 b | 蠹| | 豁 章 模型參數(shù) s v m 分類 殘差矩陣 分析比對 圖4 1 頁面幾何失真的投影變換模型打印機(jī)來源認(rèn)證方法框圖 f i g 4 1d i a g r a mo f p r i n t e rf o r e n s i c sm e t h o db a s e do nt h ep r o j e c t i v et r a n s f o r m a t i o nm o d e lo f t h ep a g e s g e o m e t r i cd i s t o r t i o n 一一一刪一一 基于本征退化的打印文檔取證技術(shù) 4 2 頁面幾何失真的投影變換模型原理 頁面幾何失真的投影變換模型打印機(jī)來源認(rèn)證方法包含預(yù)處理、投影變換模型的建 立、求解及在打印機(jī)來源認(rèn)證中的應(yīng)用這四個過程。本節(jié)依次對這四個過程進(jìn)行描述。 4 2 1 預(yù)處理 為了從理想和文檔圖像中獲得特征點對集合,本文通過二值去噪、傾斜校正、提取 字符中心三個步驟構(gòu)成的預(yù)處理過程來獲得特征點,并將其匹配構(gòu)成特征點對集合。 首先,對文本文檔圖像進(jìn)行基于閾值的二值化,得到對應(yīng)的二值圖像。文本文檔圖 像包含字符墨跡和均勻背景區(qū)域,其灰度直方圖呈現(xiàn)明顯的雙峰,可以選擇雙峰中間的 谷點作為二值化閾值。對于二值圖像中面積小于某個閾值的連通區(qū)域,認(rèn)為是墨點飛濺 產(chǎn)生的噪聲斑點并將其消除。針對理想圖像,由于其本身就是無噪二值圖像,這步省略。 其次,對二值去噪圖像使用f n n c ( f o c u s e dn e a r e s t - n e i g h b o rc l u s t e r i n g ,聚焦近鄰法) 算法【2 9 】進(jìn)行傾斜校正。f n n c 方法為近鄰法的改進(jìn)方法,分為特征點提取和傾斜角度估 計兩個階段。在特征點提取階段,本文提取字符連通區(qū)域重心作為特征點。針對單個漢 字可能存在多個連通區(qū)域的特點,可以計算各連通區(qū)域的凸殼,對于凸殼相連或之間距 離小于某閾值的連通區(qū)域,認(rèn)為屬于同一漢字字符,并將其標(biāo)記為同一個連通區(qū)域。在 傾斜角度估計階段,選取某特征點的3 個最近鄰特征點確定局部傾斜角度1 2 9 1 ,再根據(jù)各 特征點的局部傾斜角度統(tǒng)計直方圖確定頁面傾斜角度。理想圖像不含有傾斜,這步省略。 然后,對傾斜校正后的二值圖像提取字符中心。與上述傾斜校正步驟中的特征點提 取階段類似,通過凸殼來合并單個漢字內(nèi)各連通區(qū)域,并取每個漢字字符連通區(qū)域外接 矩形的中心作為特征點。字符中心檢測過程實例如圖4 2 所示。其中,( a ) 為文檔圖像中 漢字“詠 原始灰度圖像;f o ) 為其二值圖像初始連通區(qū)域的凸殼及重心標(biāo)記;( c ) 為連通 區(qū)域合并后的凸殼及重心標(biāo)記;( d ) 為字符連通區(qū)域外接矩形及字符中心標(biāo)記;( e ) 為理想 圖像中漢字“詠”字符連通區(qū)域外接矩形及字符中心標(biāo)記。圖中綠色十字表示連通區(qū)域 重心,紅色十字表示字符中心,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論