面向信息隱藏的文本特征值性質(zhì)研究.ppt_第1頁
面向信息隱藏的文本特征值性質(zhì)研究.ppt_第2頁
面向信息隱藏的文本特征值性質(zhì)研究.ppt_第3頁
面向信息隱藏的文本特征值性質(zhì)研究.ppt_第4頁
面向信息隱藏的文本特征值性質(zhì)研究.ppt_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,1,面向信息隱藏的文本特征值性質(zhì)研究,申 請 者: 戴祖旭 工作單位: 武漢工程大學(xué) 電子郵件: 申請日期: 2009/11/29,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,2,摘 要,文本作為一種重要的信息傳輸載體,文本信息隱藏研究在信息安全等領(lǐng)域應(yīng)用價(jià)值極高。目前對照信息隱藏的要求(數(shù)據(jù)有效載荷、不可感知性、魯棒性、安全性等)去研究攜帶秘密信息的特征值的性質(zhì)并評價(jià)相應(yīng)算法的工作還很缺乏。本項(xiàng)目采用數(shù)理統(tǒng)計(jì)方法研究基于詞性標(biāo)記串序關(guān)系、語法結(jié)構(gòu)關(guān)系以及其他統(tǒng)計(jì)特性的載體特征值的概率分布與冗余性質(zhì);對詞性標(biāo)記串按

2、文本編輯相互轉(zhuǎn)化關(guān)系分類,研究特征值在文本編輯下的變換性質(zhì),將這些變換性質(zhì)作為信息隱藏的噪聲,建立不同類型特征值的信道模型,估計(jì)容量,設(shè)計(jì)信道編碼方法。本研究為基于詞性標(biāo)記工作域的文本信息隱藏技術(shù)提供理論基礎(chǔ)。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,3,1.研究意義及國內(nèi)外研究工作現(xiàn)狀,信息隱藏是以多媒體信號作為宿主載體,利用多媒體數(shù)據(jù)的冗余特性和人類感知覺的冗余特性來隱藏秘密信息的技術(shù)。在開放式網(wǎng)絡(luò)環(huán)境中,信息隱藏技術(shù)主要用于: (1)隱秘通信; (2)數(shù)字作品完整性與版權(quán)保護(hù)。 作為一種重要的信息存儲與傳輸媒體,文本載體信息隱藏理論與技術(shù)的研究是信息隱藏學(xué)科的一個重

3、要分支。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,4,基于格式的方法:將文本解釋為二值或灰度圖像,通過調(diào)整行間距或單詞和字符間距、修改字符輪廓與拓?fù)浣Y(jié)構(gòu)、調(diào)整字符亮度或顏色,以及格式化文本的腳本控制符來隱藏信息。選擇行(字)間距、字符結(jié)構(gòu)、字符亮度 等物理量作為載體特征值來攜帶秘密信息,利用人類視覺保真度量模型計(jì)算特征值調(diào)整幅度,隱藏過程不改變?nèi)搜蹖ξ谋就庥^的感知效果。這類方法有科學(xué)的人類視覺模型做基礎(chǔ),易于實(shí)現(xiàn)自動化,在信息隱藏技術(shù)出現(xiàn)的初期發(fā)展較快,缺點(diǎn)是隱藏容量較小,抵抗文本重新錄入、復(fù)印等再生操作的魯棒性較差。,2.文本信息隱藏的代表性方法,2009-11-29,

4、第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,5,基于內(nèi)容的方法:建立在文本內(nèi)容理解的基礎(chǔ)上,主要通過修改自然語言語句來隱藏信息,利用同義詞替換,可選擇同義詞、同義詞頻率、同義詞語義歧義等特征值攜帶秘密信息;利用語句結(jié)構(gòu)的變化,可選擇句法分析樹和詞性標(biāo)記串等特征值攜帶秘密信息。更高級的是利用文法來生成含密文本。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,6,例:漢語語句“風(fēng)景優(yōu)美的房間請給我?!辈糠指膶憣?shí)例 (1) 風(fēng)景優(yōu)美的房間請給我。 (2) 請把風(fēng)景優(yōu)美的房間給我。 (3) 我想要風(fēng)景優(yōu)美的房間。 (4) 請給我風(fēng)景優(yōu)美的房間。 (5) 房間請給我風(fēng)景優(yōu)美的。 (6) 把風(fēng)

5、景優(yōu)美的房間給我。 (7) 風(fēng)景優(yōu)美的房間給我。 (8) 風(fēng)景優(yōu)美的房間我要。 (9) 我要風(fēng)景優(yōu)美的房間。 (10)給我風(fēng)景優(yōu)美的房間。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,7,我們可以有10種改寫方式(或許還有更多的其它方式),10個句子的語法都正確,意思也相似。因此,采用定長編碼方法,一個句子用句法分析樹可攜帶3比特信息。再考慮到用“優(yōu)美”的同義詞美麗,漂亮,好看,悅目,美妙,幽美,優(yōu)美做替換,則可增加到70個改寫句子,一個句子就可攜帶6比特信息。當(dāng)然還可以進(jìn)一步綜合利用詞性標(biāo)記等其它特征值來攜帶信息以提高容量。,2009-11-29,第一屆中國(杭州)安全電子

6、商務(wù)學(xué)術(shù)會議,8,3.信息隱藏算法的兩個基本要素,秘密信息的隱藏空間與隱藏方式是信息隱藏算法的兩個基本要素。隱藏空間稱為嵌入工作域,人們總是利用工作域中的各類特征值來攜帶秘密信息。隱藏方式由數(shù)據(jù)嵌入方式實(shí)現(xiàn),包括疊加嵌入和映射嵌入。疊加嵌入中,秘密信息作為弱信號用疊加的方式嵌入到宿主信號的特征值中;映射嵌入中,宿主信號的系數(shù)被映射函數(shù)映射到由嵌入比特確定的特征值,嵌入方式直接受特征值性質(zhì)制約。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,9,目前的文本信息隱藏研究一般集中在尋找文本的各種特征值并設(shè)計(jì)相應(yīng)的信息隱藏方法等較為基本的內(nèi)容上,而對照信息隱藏的要求(數(shù)據(jù)有效載荷、不可

7、感知性、魯棒性、誤判率、安全性、計(jì)算效率和成本等)去研究特征值的性質(zhì)并評價(jià)相應(yīng)信息隱藏算法的研究工作還很缺乏。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,10,4.項(xiàng)目研究內(nèi)容、目標(biāo),文本載體信息隱藏過程一般包括以下步驟:秘密信息編碼(映射)為載體特征值(格式參數(shù)、同義詞、語法樹、逆序數(shù)等);根據(jù)特征值修改載體得到含密載體(受文本不可感知性條件約束);公開發(fā)送含密載體以及文本編輯處理等噪聲干擾;接收方計(jì)算特征值并譯碼提取秘密信息。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,11,設(shè)信息隱藏函數(shù)為 (1) 其中 分別表示秘密信息、原始載體、含密載體和載體特

8、征值, 分別表示編碼密鑰和嵌入密鑰,函數(shù)d表示不可感知性約束條件,為常數(shù)。 另設(shè)噪聲干擾為 (2) 其中 是加噪含密載體。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,12,項(xiàng)目組成員經(jīng)過多年研究,找到了基于詞性標(biāo)記工作域的部分特征值,并據(jù)此提出了若干文本信息隱藏新算法,在前期研究工作的基礎(chǔ)上,本項(xiàng)目將深入研究如下內(nèi)容: 1) 研究現(xiàn)有文本載體特征值的性質(zhì)。公式(1)中t是載體特征值,是秘密信息的攜帶者,也是噪聲干擾的目標(biāo)。針對文獻(xiàn)已提出的特征值,比如語法樹、逆序數(shù)、信息熵等,重點(diǎn)研究t在常規(guī)文本編輯(比如語句或語句中詞的增加、刪除與移位等)處理下的變換性質(zhì),它是進(jìn)一步評估相

9、關(guān)隱藏算法魯棒性、安全性和計(jì)算復(fù)雜性的理論基礎(chǔ);特征值t的分布性質(zhì),它是設(shè)計(jì)秘密信息編碼函數(shù)f的基礎(chǔ),也是度量不可感知性的基本因素之一。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,13,2)研究文本載體信息隱藏信道模型。信道模型是噪聲對特征值的作用方式,是計(jì)算信息隱藏容量的基礎(chǔ)。公式(2)描述了文本編輯噪聲對含密文本的干擾作用,這種干擾作用傳遞到不同的特征值上會有不同的影響。對于逆序數(shù)、語法樹等來說,干擾導(dǎo)致離散狀態(tài)之間的轉(zhuǎn)換,對于信息熵等取非負(fù)實(shí)數(shù)的特征值來說,干擾導(dǎo)致熵值的波動。因此信道模型可能是狀態(tài)轉(zhuǎn)移矩陣,需要具體研究同一類特征值之間的轉(zhuǎn)移概率,也可能是具有加性或乘

10、性噪聲的連續(xù)信道,需要建立噪聲分布函數(shù)關(guān)系式。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,14,5.本項(xiàng)目預(yù)期目標(biāo),1)針對2-3種文本載體特征值建立文本編輯變換模型,據(jù)此建立相應(yīng)的信道模型。 2)針對2-3種文本載體特征值建立統(tǒng)計(jì)模型及其相關(guān)性模型。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,15,6. 擬采取的研究方法和技術(shù)路線,本項(xiàng)目總的研究方案是以詞性標(biāo)記工作域上的特征值為中心,收集大容量的文本樣本,將文本按文體分類,首先研究各類特征值的分布規(guī)律與冗余性質(zhì),研究文本編輯操作對詞性標(biāo)記串的改變規(guī)律,對詞性標(biāo)記串按文本編輯相互轉(zhuǎn)換關(guān)系進(jìn)行分類,根據(jù)分

11、類情況研究各類特征值的變換性質(zhì),將這些性質(zhì)作為噪聲,得到信道模型。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,16,1)關(guān)于數(shù)據(jù)統(tǒng)計(jì)分析工作 本項(xiàng)目的研究內(nèi)容涉及大量不同類型數(shù)據(jù)的統(tǒng)計(jì)分析工作,可以利用成熟的數(shù)理統(tǒng)計(jì)方法,關(guān)鍵點(diǎn)在于合理規(guī)劃數(shù)據(jù)采集、存儲與處理等實(shí)驗(yàn)方案,科學(xué)選擇統(tǒng)計(jì)指標(biāo)與統(tǒng)計(jì)模型,保證數(shù)據(jù)處理工作有序、高效且準(zhǔn)確。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,17,研究載體特征值概率分布模型時,計(jì)劃將載體按文體分為小說、散文、新聞報(bào)道、文史哲類學(xué)術(shù)論文四類,每類文體樣本量在1000篇左右,分別對詞性、詞性標(biāo)記串及其信息熵、逆序數(shù)等進(jìn)行統(tǒng)計(jì)

12、處理,分門別類地建立這些特征值的概率分布類型與冗余模型,測定各種分布參數(shù)。 把特征值理解為一個句子固有的屬性,而這些特征值都具有隨機(jī)性,因此可以用特征值隨機(jī)向量來描述樣本。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,18,設(shè) 是特征值構(gòu)成的隨機(jī)向量, 其中 是統(tǒng)計(jì)相關(guān)的, 是聯(lián)合分布。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,19,采集各特征值的樣本,建立特征值的一維分布和高維聯(lián)合分布。聯(lián)合分布 可由樣本統(tǒng)計(jì)得到,而相應(yīng)低維分布就是邊際分布,即 = ;,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,20,分析特征值之間的相關(guān)關(guān)系。由于各

13、特征值統(tǒng)計(jì)上是不獨(dú)立的,所以攜帶秘密信息的主特征值的分布改變后,其它特征值的分布也會改變,因此我們要知道其它特征值的分布的變化規(guī)律,這樣才能控制其它特征值分布的變化。這個變化規(guī)律就是主特征值與其它特征值的相關(guān)關(guān)系,對于一個好的信息隱藏系統(tǒng)來說,這種關(guān)系在信息隱藏前后應(yīng)該是不變的??刹捎脙煞N方法表示這種相關(guān)關(guān)系。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,21,例句 “他/r買/v了/u一/m把/q裁/v紙/n的/u刀/n,/w” “他/r買/v了/u一/m把/q裁/v紙/n刀/n,/w”,(去掉“的”) 則句法分析樹變了,詞性標(biāo)記串也由“/r/v/u/m/q/v/n/u/n

14、/w”變?yōu)椤?r/v/u/m/q/v/n/n/w”, 詞性標(biāo)記串的逆序數(shù)也由偶數(shù)20變?yōu)槠鏀?shù)19(采用字典序)。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,22,一個是函數(shù)關(guān)系,我們可以由采集到的樣本 回歸出 與 的函數(shù)關(guān)系 ;,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,23,另一個是條件概率,比如條件概率 反映了真實(shí)文本中特征值子向量 對 的依賴關(guān)系。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,24,2)關(guān)于信道建模工作 以詞性標(biāo)記串逆序數(shù)、逆序數(shù)奇偶性、詞性標(biāo)記串信息熵等特征值來攜帶秘密信息,文本編輯(語句增刪與移位,語句中詞的增

15、刪與移位等)可能引起特征值的改變,改變的規(guī)律即為相應(yīng)的信道模型。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,25,設(shè)標(biāo)記串集合為 ,文本編輯為公式(1)中映射 ,定義A上的關(guān)系 即兩個標(biāo)記串具有關(guān)系 當(dāng)且僅當(dāng)它們可以通過文本編輯相互轉(zhuǎn)換,顯然 具有對稱性和傳遞性,可根據(jù) 對A分類。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,26,設(shè)有 共n個劃分塊,設(shè)要計(jì)算的特征值類型為T,若T為離散型,則根據(jù)T的值進(jìn)一步將 分為 共 個子塊,每個子塊有相同的特征值。由此可按如下方法定義子塊間特征值的轉(zhuǎn)移概率,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議

16、,27,最后可通過對劃分塊加權(quán)的方式定義特征值轉(zhuǎn)移概率。若為連續(xù)型,比如信息熵,則劃分塊的基數(shù)可用于標(biāo)記串頻數(shù)變化范圍估計(jì),據(jù)此可對特征值波動做出誤差估計(jì),采用誤差分析理論建立信道模型。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,28,7.與本項(xiàng)目有關(guān)的工作條件,項(xiàng)目組已購置了由北京大學(xué)計(jì)算語言學(xué)研究所開發(fā)的漢語自動分詞與詞性標(biāo)注軟件,現(xiàn)代漢語語法信息電子詞典等自然語言處理工具,為項(xiàng)目實(shí)施提供了計(jì)算語言學(xué)方面的技術(shù)支持。 項(xiàng)目依托武漢工程大學(xué)理學(xué)院信息與計(jì)算科學(xué)專業(yè)實(shí)驗(yàn)室,具有高性能計(jì)算設(shè)備和科研團(tuán)隊(duì)的支持。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,2

17、9,8.項(xiàng)目申請人簡介,戴祖旭,男,博士,副教授。2008/92009/7在北京大學(xué)計(jì)算語言學(xué)研究所作為期一年的訪問學(xué)者,在俞士汶教授指導(dǎo)下從事文本信息隱藏的有關(guān)基礎(chǔ)理論研究工作;2007年畢業(yè)于華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,獲得計(jì)算機(jī)軟件與理論專業(yè)博士學(xué)位,研究方向?yàn)樾畔㈦[藏與數(shù)字水??;1999年7月畢業(yè)于大連理工大學(xué)應(yīng)用數(shù)學(xué)系,獲得應(yīng)用數(shù)學(xué)專業(yè)理學(xué)碩士學(xué)位。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,30,項(xiàng)目申請人主持的相關(guān)科研項(xiàng)目: 湖北省教育廳科學(xué)技術(shù)研究項(xiàng)目(D20081506),已結(jié)題。該項(xiàng)目主要研究了文本詞性標(biāo)記的數(shù)學(xué)性質(zhì),尋找適合攜帶秘密信息的特征值(

18、標(biāo)記串逆序數(shù)、信息熵等),在此基礎(chǔ)上設(shè)計(jì)了若干新的信息隱藏算法。,2009-11-29,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議,31,發(fā)表與本項(xiàng)目相關(guān)的論文有: 1戴祖旭.高精度模擬函數(shù)J.數(shù)學(xué)的實(shí)踐與認(rèn)識,2009,第一屆中國(杭州)安全電子商務(wù)學(xué)術(shù)會議錄用論文 2戴祖旭.抵抗同義詞替換攻擊的文本信息隱藏算法J.四川大學(xué)學(xué)報(bào)(工程科學(xué)版) (EI收錄),2009,41(4):186-190 3戴祖旭,洪 帆,崔國華.信息熵方程求解算法及其應(yīng)用J.高校應(yīng)用數(shù)學(xué)學(xué)報(bào),2008,23(3):277-281 4Dai zuxu,Hong fan,Yang muxiang.Text Information Hiding Based on Part of Speech GrammarC.In Yuping Wang,Qingfu Zhang,Hailin Liu,and Xiamu Niu(ed.):2007 International Conference on Computational Intelligence and Security Workshops, 2007:632-635 (EI收錄) 5Zuxu Dai,Fan Hong.Watermarking Text Documents Based on Entropy of

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論