版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、2022/8/101第二章:信息量和熵2.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)2.2 離散型隨機(jī)變量的平均自信息量(熵)2.4 離散型隨機(jī)變量的平均互信息量2.5 連續(xù)型隨機(jī)變量的平均互信息量和微分熵2.6 凸函數(shù)與(離散型隨機(jī)變量的)平均互信息量的凸性2022/8/1022.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)(本章將給出各種信息量的定義和它們的性質(zhì)。) 定義2.1.1(非平均互信息量) 給定一個二維離散型隨機(jī)變量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就給定了兩個離散型隨機(jī)變量X, xk, qk, k=1K和Y, yj, wj, j=
2、1J)。事件xkX與事件yjY的互信息量定義為I(xk; yj)2022/8/1032.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)其中底數(shù)a是大于1的常數(shù)。常用a=2或a=e 。當(dāng)a=2時互信息量的單位為“比特”。bit2022/8/1042.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)互信息量的性質(zhì): (1)I(xk; yj)=loga(rkj/(qkwj)。因此有對稱性:I(xk; yj)=I(yj; xk)。(2)當(dāng)rkj=qkwj時I(xk; yj)=0。(即當(dāng)(rkj/qk)=wj時,I(xk; yj)=0。又即當(dāng)(rkj/wj)=qk時,I(xk; yj)=0。換句話說,
3、當(dāng)“X=xk”與“Y= yj”這兩個事件相互獨(dú)立時,互信息量為0)。(3)當(dāng)rkjqkwj時I(xk; yj)0,當(dāng)rkjqkwj時I(xk; yj) wj時,I(xk; yj)0;當(dāng)(rkj/qk) wj時,I(xk; yj)0。換句話說,當(dāng)“X=xk”與“Y= yj”這兩個事件相互肯定時,互信息量為正值;當(dāng)“X=xk”與“Y= yj”這兩個事件相互否定時,互信息量為負(fù)值。)2022/8/1052.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)定義2.1.3(非平均自信息量) 給定一個離散型隨機(jī)變量X, xk, qk, k=1K。事件xkX的自信息量定義為h(xk)=loga(1/qk),
4、其中底數(shù)a是大于1的常數(shù)。自信息量的性質(zhì):(1)h(xk)0。(2)qk越小,h(xk)越大。(3)I(xk; yj)minh(xk),h(yj),即互信息量不超過各自的自信息量。證明 注意到總有rkjminqk, j。(為什么?什么情況下相等?)。因此根據(jù)定義,I(xk; yj)h(xk),I(xk; yj)h(yj)。得證。 2022/8/1062.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)定義2.1.4(條件的非平均自信息量) 給定一個二維離散型隨機(jī)變量(X, Y), (xk, yj), rkj, k=1K; j=1J。在事件yj發(fā)生的條件下事件xk的條件自信息量定義為h(xk|y
5、j)=loga(1/P(X=xk|Y=yj)=loga(wj/rkj)。(條件的非平均自信息量實(shí)際上是非平均自信息量的簡單推廣,只不過將概率換成了條件概率)。 條件的非平均自信息量的特殊性質(zhì):h(xk|yj)=h(xk)-I(xk; yj) 。2022/8/1072.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)定義2.1.5(聯(lián)合的非平均自信息量) 給定一個二維離散型隨機(jī)變量(X, Y), (xk, yj), rkj, k=1K; j=1J。事件(xk, yj)(X, Y)的自信息量定義為h(xk, yj)=loga(1/rkj)。(聯(lián)合的非平均自信息量實(shí)際上是非平均自信息量的簡單推廣。即
6、可以將(X, Y)直接看成是一維的隨機(jī)變量)。 聯(lián)合的非平均自信息量的特殊性質(zhì):h(xk, yj)=h(yj)+h(xk|yj)=h(xk)+h(yj|xk)。h(xk, yj)=h(xk)+h(yj)-I(xk; yj)。2022/8/1082.1 離散型隨機(jī)變量的非平均信息量(事件的信息量)小結(jié)非平均互信息量I(xk; yj)。非平均自信息量h(xk),h(yj)。條件的非平均自信息量h(xk|yj), h(yj|xk)。聯(lián)合的非平均自信息量h(xk, yj)。相互關(guān)系:I(xk; yj)minh(xk),h(yj)。h(xk|yj)=h(xk)-I(xk; yj) 。h(xk, yj)=
7、h(yj)+h(xk|yj)=h(xk)+h(yj|xk)。h(xk, yj)=h(xk)+h(yj)-I(xk; yj)。2022/8/1092.2 離散型隨機(jī)變量的平均自信息量(熵)定義2.2.1(平均自信息量熵) 離散型隨機(jī)變量X, xk, qk, k=1K的平均自信息量(又稱為熵)定義為如下的H(X),其中底數(shù)a是大于1的常數(shù)。 2022/8/10102.2 離散型隨機(jī)變量的平均自信息量(熵)注意:(1)事件xk的自信息量值為h(xk)=loga(1/qk),因此H(X)是隨機(jī)變量X的各事件自信息量值的“數(shù)學(xué)期望”。(2)定義H(X)時,允許某個qk=0。(此時將qkloga(1/qk
8、) 通盤考慮)此時補(bǔ)充定義qkloga(1/qk)=0。這個定義是合理的,因?yàn)?022/8/10112.2 離散型隨機(jī)變量的平均自信息量(熵)例2.2.1 離散型隨機(jī)變量X有兩個事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。則X的平均自信息量(熵)為H(X)=ploga(1/p)+(1-p)loga(1/(1-p) 。觀察H(X)(它是p的函數(shù),圖2.2.1給出了函數(shù)圖象,該圖象具有某種對稱性),有當(dāng)p=0或p=1時,H(X)=0。(隨機(jī)變量X退化為常數(shù)時,熵為0)當(dāng)0p0。p越靠近1/2, H(X)越大。 (X是真正的隨機(jī)變量時,總有正的熵。隨機(jī)性越大,熵越大)當(dāng)p=1/2時,
9、H(X)達(dá)到最大。(隨機(jī)變量X的隨機(jī)性最大時,熵最大。特別如果底數(shù)a=2,則H(X)=1比特) 2022/8/1012圖2.2.1 H(X)1.00.5 0 0.5 1 P 2022/8/10132.2 離散型隨機(jī)變量的平均自信息量(熵)定義2.2.2(條件熵) 給定一個二維離散型隨機(jī)變量(X, Y), (xk, yj), rkj, k=1K; j=1J。稱如下定義的H(X|Y)為X相對于Y的條件熵。H(X|Y)2022/8/10142.2 離散型隨機(jī)變量的平均自信息量(熵)定義2.2.3(聯(lián)合熵) 二維離散型隨機(jī)變量(X, Y), (xk, yj), rkj, k=1K; j=1J的聯(lián)合熵定
10、義為2022/8/10152.2 離散型隨機(jī)變量的平均自信息量(熵)熵、條件熵、聯(lián)合熵之間的關(guān)系:(1)H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)。(由定義容易證明)(2)當(dāng)X與Y相互獨(dú)立時,H(Y|X)=H(Y),因此此時H(XY)=H(X)+H(Y)。 證明 此時2022/8/10162.2 離散型隨機(jī)變量的平均自信息量(熵)熵的性質(zhì) 對于隨機(jī)變量X, xk, qk, k=1K的熵H(X)=kqkloga(1/qk),有以下的性質(zhì)。 1、 H(X)與事件xk, k=1K的具體形式無關(guān),僅僅依賴于概率向量qk, k=1K。 而且H(X)與概率向量qk, k=1K的分量排列順序
11、無關(guān)。2、H(X)0。完全同理,H(X|Y)0;H(Y|X)0;H(XY)0。3、確定性:當(dāng)概率向量qk, k=1K的一個分量為1時(此時其它分量均為0),H(X)=0。(這就是說,當(dāng)隨機(jī)變量X實(shí)際上是個常量時,不含有任何信息量)。2022/8/10172.2 離散型隨機(jī)變量的平均自信息量(熵)4、可忽略性:當(dāng)隨機(jī)變量X的某個事件的概率很小時,該事件對熵的貢獻(xiàn)可以忽略不計。(雖然小概率事件的自信息量很大。這是因?yàn)楫?dāng)qk0時,qkloga(1/qk)0)。5、可加性:H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)。因此,H(XY)H(X); H(XY)H(Y)。 (性質(zhì)5有一個隱含的
12、結(jié)論:設(shè)X的概率向量為q1, q2, , qK,Y的概率向量為q1, q2, , qK-2, qK-1+qK,其中qK-1qK0,則H(X) H(Y)。 )2022/8/10182.2 離散型隨機(jī)變量的平均自信息量(熵)6、極值性:H(X)logaK。當(dāng)q1=q2=qK=1/K時,才有H(X)=logaK。(以下是極值性的證明過程) 引理1 對任何x0總有l(wèi)nxx-1。證明 令f(x)=lnx-(x-1),則f(x)=1/x-1。因此當(dāng)0 x0;當(dāng)x1時f(x)0。換句話說,當(dāng)0 x1時,f(x)的值嚴(yán)格單調(diào)減。注意到f(1)=0。所以對任何x0總有f(x)f(1)=0。得證。 2022/8/
13、10192.2 離散型隨機(jī)變量的平均自信息量(熵)引理2 設(shè)有兩個K維概率向量(什么叫概率向量?每個分量都是非負(fù)的,且各分量之和等于1)qk, k=1K和pk, k=1K 。則總滿足 2022/8/10202.2 離散型隨機(jī)變量的平均自信息量(熵)證明 注意到引理1,2022/8/10212.2 離散型隨機(jī)變量的平均自信息量(熵)引理2得證。(注意:此證明過程省略了若干細(xì)節(jié),比如當(dāng)概率向量的某個分量為0時,情況比較復(fù)雜)極值性的證明 qk, k=1K是一個K維概率向量。令pk=1/K,k=1K。則pk, k=1K也是一個K維概率向量。由引理2,H(X)=kqkloga(1/qk)kqkloga
14、(1/(1/K)=logaK。得證。 2022/8/10222.4 離散型隨機(jī)變量的平均互信息量定義2.4.1(平均互信息量) 給定一個二維離散型隨機(jī)變量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就給定了兩個離散型隨機(jī)變量X, xk, qk, k=1K和Y, yj, wj, j=1J)。X與Y的平均互信息量定義為如下的I(X; Y):2022/8/10232.4 離散型隨機(jī)變量的平均互信息量定義2.4.1等價形式(一)2022/8/10242.4 離散型隨機(jī)變量的平均互信息量定義2.4.1等價形式(二)2022/8/10252.4 離散型隨機(jī)變量的平均互信息量此處
15、:I(xk; yj)表示事件“X=xk”與事件“Y=yj”的“非平均互信息量” 。I(xk; Y)表示事件“X=xk”與隨機(jī)變量Y之間的“半平均互信息量”。I(X; yj)表示事件“Y=yj”與隨機(jī)變量X之間的“半平均互信息量”。2022/8/10262.4 離散型隨機(jī)變量的平均互信息量定義2.4.1等價形式(三)2022/8/1027注意:事件對(xk, yj)的“非平均互信息量”值為I(xk; yj)。此外,可以定義“半平均互信息量”I(xk; Y)和I(X; yj)。I(xk; Y)表示事件“X=xk”與隨機(jī)變量Y之間的半平均互信息量;I(X; yj)表示事件“Y=yj”與隨機(jī)變量X之間
16、的半平均互信息量。2022/8/10282.4 離散型隨機(jī)變量的平均互信息量平均互信息量的性質(zhì) 1、I(X; Y)0。(雖然每個“非平均互信息量” I(xk; yj)未必非負(fù),但平均互信息量I(X; Y)非負(fù))證明2022/8/10292.4 離散型隨機(jī)變量的平均互信息量rkj, k=1K; j=1J是一個概率向量:qkwj, k=1K; j=1J是另一個概率向量:故由引理2知,2022/8/10302.4 離散型隨機(jī)變量的平均互信息量2、對稱性:I(X; Y)=I(Y; X)。3、平均互信息量的熵表示:I(X; Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(X
17、Y)。證明2022/8/10312.4 離散型隨機(jī)變量的平均互信息量2022/8/10322.4 離散型隨機(jī)變量的平均互信息量3、若X與Y相互獨(dú)立,則I(X; Y)=0,H(X|Y)=H(X),H(Y|X)=H(Y),H(XY)=H(X)+H(Y)。 證明 若X與Y相互獨(dú)立,則rkj=qkwj, k=1K; j=1J。因此此時loga(rkj/(qkwj)=0, k=1K; j=1J。因此I(X; Y)=0。再由性質(zhì)3,性質(zhì)3得證。2022/8/10332.4 離散型隨機(jī)變量的平均互信息量4、I(X; Y)H(X),I(X; Y)H(Y)。(性質(zhì)4有多種簡單的證明方法。第一種證明方法:由I(X
18、; Y)的定義, loga(rkj/(qkwj)loga(1/qk)。第二種證明方法: 由性質(zhì)3,I(X; Y)=H(X)-H(X|Y)H(X)。)4、 若X是Y的確定的函數(shù)X=g(Y),則I(X; Y)=H(X)H(Y)。若Y是X的確定的函數(shù)Y=g(X),則I(X; Y)=H(Y)H(X)。(證略) 2022/8/10342.4 離散型隨機(jī)變量的平均互信息量一般印象(平均互信息量I(X; Y)的各種性質(zhì)與我們對“平均互信息量”這個名詞的直觀理解非常吻合)。一般情形:總有0I(X; Y)minH(X), H(Y)。一種極端情形:若X與Y相互獨(dú)立,則I(X; Y)=0。另一種極端情形:若X、Y中有一個完全是另一個的確定的函數(shù),則I(X; Y)=minH(X), H(Y)。2022/8/10352.4 離散型隨機(jī)變量的平均互信息量定理2.4.1(信息處理定理) 對于以下給定的系統(tǒng)串聯(lián)有:I(X; Y)I(X; Z)。信息處理定理的含義:串聯(lián)的系統(tǒng)越多,兩端的平均互信息量越小。信息處理定理的證明思想:注意到X、Z、Y構(gòu)成了馬爾可夫鏈。簡單地說,在已知Z的條件下, X與Y條件獨(dú)立。根據(jù)這種馬爾可夫鏈
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 課后延時輔導(dǎo)具體管理制度(3篇)
- 運(yùn)維場地安全管理制度(3篇)
- 餐飲乙醇安全使用管理制度(3篇)
- 獸藥廠家技術(shù)培訓(xùn)課件
- 2026年及未來5年市場數(shù)據(jù)中國在線自助游行業(yè)發(fā)展運(yùn)行現(xiàn)狀及發(fā)展趨勢預(yù)測報告
- 《GAT 651-2021公安交通指揮系統(tǒng)工程建設(shè)通 用程序和要求》專題研究報告
- 中學(xué)教育教學(xué)資源配置制度
- 養(yǎng)老院入住老人醫(yī)療護(hù)理技能培訓(xùn)制度
- 養(yǎng)鴨培訓(xùn)課件
- 交通場站服務(wù)規(guī)范制度
- 2025年?;沸孤?yīng)急培訓(xùn)教案
- 2026年鐵嶺衛(wèi)生職業(yè)學(xué)院單招職業(yè)技能測試題庫附答案詳解
- 2025年江南大學(xué)招聘真題(行政管理崗)
- 2024-2025學(xué)年江蘇省南通市海門區(qū)高二上學(xué)期期末調(diào)研地理試題(解析版)
- 汽車焊接知識培訓(xùn)
- 操作系統(tǒng)安裝與配置標(biāo)準(zhǔn)
- 二級注冊計量師2025年全真模擬測試卷(含答案)
- 2025年廣東中考音樂題庫及答案
- 明成祖朱棣課件
- 冰箱生產(chǎn)線工藝流程及質(zhì)量控制
- 口腔醫(yī)院會員中心
評論
0/150
提交評論