版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二章 信息量和熵,,信息量和熵,離散變量的非平均信息量 離散集的平均自信息量-熵 離散集的平均互信息量 信息不等式 凸函數(shù)和互信息的凸性 連續(xù)隨機(jī)變量的互信息和微分熵,2.1 離散變量的非平均信息量,,輸入,輸出空間定義,輸入空間X={xk,k=1,2,…,K},概率記為q(xk)輸出空間Y={yj,j=1,2,…,J},概率記為ω(yj)聯(lián)合空間XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率為p(
2、xkyj) p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk),非平均互信息量,例2.1.1,非平均互信息量,非平均互信息量,例2.1.2,非平均互信息量,非平均互信息量,定義2.1.1(非平均互信息量) 給定一個(gè)二維離散型隨機(jī)變量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就給定了兩個(gè)離散型隨機(jī)變量{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J
3、})。事件xk∈X與事件yj∈Y的互信息量定義為,非平均互信息量,其中底數(shù)a是大于1的常數(shù)。常用a=2或a=e,當(dāng)a=2時(shí)互信息量的單位為“比特”。幾點(diǎn)說明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有對(duì)稱性:I(xk; yj)=I(yj; xk)。(2)當(dāng)rkj=qkwj時(shí)I(xk; yj)=0。(當(dāng)兩個(gè)事件相互獨(dú)立時(shí),互信息量為0)。(3)當(dāng)rkj>qkwj時(shí)I(xk; yj)>0,當(dāng)r
4、kj<qkwj時(shí)I(xk; yj)<0。(當(dāng)兩個(gè)事件正相關(guān)時(shí),互信息量為正值,當(dāng)兩個(gè)事件負(fù)相關(guān)時(shí),互信息量為負(fù)值)。,條件互信息和聯(lián)合事件互信息,三個(gè)事件集的條件互信息定義為可以推廣到任意有限多個(gè)空間情況,互信息的可加性,系統(tǒng),,,u1,u2,u3,互信息量特性:,對(duì)稱性可加性互信息量的值域: -infinite ~ +infinite, 即全體實(shí)數(shù),離散變量的非平均自信息量
5、,定義:給定集合{X, q(xk)},事件xk∈X的自信息量定義為:,非平均自信息的性質(zhì),非負(fù)性體現(xiàn)先驗(yàn)不確定性大小,條件自信息和聯(lián)合自信息,自信息、條件自信息和互信息,2.2 離散集的平均自信息量-熵,,熵,集X中事件出現(xiàn)的平均不確定性,(平均自信息量——熵) 離散型隨機(jī)變量{X, xk, qk, k=1~K}的平均自信息量(又稱為熵)定義為如下的H(X),其中底數(shù)a是大于1的常數(shù)。,熵,注意:(1)事件xk的自信息量值為I(x
6、k)=loga(1/qk),因此H(X)是隨機(jī)變量X的各事件自信息量值的“數(shù)學(xué)期望”。(2)定義H(X)時(shí),允許某個(gè)qk=0。(此時(shí)將qkloga(1/qk) 通盤考慮)此時(shí)補(bǔ)充定義qkloga(1/qk)=0。這個(gè)定義是合理的,因?yàn)?熵,例2.2.1 離散型隨機(jī)變量X有兩個(gè)事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。則X的平均自信息量(熵)為H(X)=ploga(1/p)+(1-p)loga(1/(1-p))
7、 。觀察H(X)(它是p的函數(shù),圖2.2.1給出了函數(shù)圖象,該圖象具有某種對(duì)稱性),有當(dāng)p=0或p=1時(shí),H(X)=0。(隨機(jī)變量X退化為常數(shù)時(shí),熵為0)當(dāng)00。p越靠近1/2, H(X)越大。 (X是真正的隨機(jī)變量時(shí),總有正的熵。隨機(jī)性越大,熵越大)當(dāng)p=1/2時(shí),H(X)達(dá)到最大。(隨機(jī)變量X的隨機(jī)性最大時(shí),熵最大。特別如果底數(shù)a=2,則H(X)=1比特),條件熵(定義2.2.2),XY獨(dú)立時(shí)有H(X|Y)=H(X),聯(lián)合熵
8、,熵的性質(zhì),對(duì)稱性非負(fù)性確定性擴(kuò)展性可加性極值性是H(P)上凸函數(shù),熵是概率矢量的函數(shù),P=(p1, p2, …, pk)可以看作是K維矢量,當(dāng) ,常稱作是概率矢量;故HK(P)=HK(p1, p2, …, pk)是概率矢量P的函數(shù),熵的性質(zhì)-對(duì)稱性,矢量的各分量p1,p2,…pk的次序任意改變時(shí),熵值不變熵函數(shù)的值只與概率分布或?qū)?分割成的K個(gè)實(shí)數(shù)的取值有關(guān),而與這K個(gè)實(shí)數(shù)
9、和K個(gè)事件采取何種一一對(duì)應(yīng)方式無關(guān),熵的性質(zhì)-非負(fù)性,HK(P) = HK(p1, p2, …, pK) ≥0可由單個(gè)事件自信息量的非負(fù)性得到,熵的性質(zhì)-確定性,若事件集X中有一個(gè)事件為必然事件,其余事件為不可能事件,則此集合的熵值為0,熵的性質(zhì)-擴(kuò)展性,熵的性質(zhì)-可加性,H(p1q11,p1q12,…,p4q44)=H(p1…,p4)+p1H(q11,…,q14)+…+p4H(q41,…,q44),相對(duì)熵和條件相對(duì)熵,相對(duì)熵用于度
10、量兩個(gè)概率分布P(x)與Q(x)的距離兩個(gè)隨機(jī)變量集合的條件相對(duì)熵定義為相對(duì)熵和條件相對(duì)熵滿足可加性,熵的唯一性,熵函數(shù)的形式是唯一的對(duì)稱性擴(kuò)展性可加性極值性,2.3 離散集的平均互信息量,,平均互信息量,定義2.4.1(平均互信息量) 給定一個(gè)二維離散型隨機(jī)變量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就給定了兩個(gè)離散型隨機(jī)變量{X, xk, qk, k=1~K}和{Y, y
11、j, wj, j=1~J})。X與Y的平均互信息量定義為如下的I(X; Y):,平均互信息量,注意:事件對(duì)(xk, yj)的互信息量值為I(xk; yj)。此外,可以定義半平均互信息量I(xk; Y)和I(X; yj)。,平均互信息量的性質(zhì),對(duì)稱性 I(X;Y)=I(Y;X)平均互信息用熵與條件熵表示平均互信息與熵的關(guān)系: I(X;Y) ≤H(X) or H(Y)若X是Y的確定的函數(shù)X=g(Y),則I(X;Y)=H(X)
12、≤H(Y); 若Y是X的確定的函數(shù)Y=g(X),則I(X; Y)=H(Y)≤H(X)。,平均互信息量,一般印象(平均互信息量I(X; Y)的各種性質(zhì)與我們對(duì)“互信息量”這個(gè)名詞的直觀理解非常吻合)。一般情形:總有0≤I(X; Y)≤min{H(X), H(Y)}。一種極端情形:若X與Y相互獨(dú)立,則I(X; Y)=0。另一種極端情形:若X、Y中有一個(gè)完全是另一個(gè)的確定的函數(shù),則I(X; Y)=min{H(X), H(Y)}。,平均
13、互信息量,,平均條件互信息與聯(lián)合互信息,鏈?zhǔn)椒▌t,熵的鏈?zhǔn)椒▌t平均互信息量的鏈?zhǔn)椒▌t,信息不等式與信息處理定理,,凸函數(shù),凸集R:a,b屬于R,qa+(1-q)b也屬于R,其中0≤q≤1概率矢量:矢量a的所有分量非負(fù),且和為1概率矢量全體所構(gòu)成的區(qū)域R是凸的上凸函數(shù)下凸函數(shù),凸函數(shù)的性質(zhì),定理2.5.1:如果函數(shù)f(x)的二階導(dǎo)數(shù)是處處非負(fù),則f(x)是嚴(yán)格下凸的。f(a)是上凸的,-f(a)是下凸的f1(a),…
14、,fL(a)是R上的上凸函數(shù),c1,…,cL是正數(shù),c1f1(a)+…+cLfL(a)也是上凸函數(shù),K-T條件,f(a)是定義域R上的上凸函數(shù),a是概率矢量。偏導(dǎo)數(shù) 存在且連續(xù), f(a)在R上為極大的 充分必要條件 其中l(wèi)為一常數(shù)。,信息不等式,基礎(chǔ)不等式:對(duì)于任意的x>0, lnx≤x-1,等號(hào)成立當(dāng)且僅當(dāng)x=1Jensen不等式: f(a)是上凸函數(shù),E[f(
15、a)]≤f[E(a)],E為求數(shù)學(xué)期望信息散度不等式:D(p||q)≥0,等號(hào)成立當(dāng)且僅當(dāng)對(duì)所有的x,p(x)=q(x),信息不等式,互信息量不等式:I(X;Y)≥0證明:I(X;Y)=D(p(x,y)||p(x)p(y))≥0最大熵定理:H(X)≤log|X|,|X|是X中元素的數(shù)目,等號(hào)等概的時(shí)候成立。條件降低熵:H(X|Y) ≤H(X),X與Y獨(dú)立時(shí)等號(hào)成立,信息不等式,對(duì)數(shù)和不等式:a1,a2,…an和b1,b2,…
16、bn都非負(fù)Fano不等式可以弱化為:,信息處理定理,Z出現(xiàn)情況下,X和Y獨(dú)立,信息處理定理,熵的性質(zhì)-凸性,相對(duì)熵的凸性:D(p||q)是概率分布對(duì)(p,q)的下凸函數(shù):H(P)是P的上凸函數(shù),記離散型隨機(jī)變量X的事件為1,2,…,K。記X的概率分布為P(X=k)=qk,k=1~K。記離散型隨機(jī)變量Y的事件為1,2,…,J。記條件概率P(Y=j|X=k)=p(j|k)。則rkj=P((X, Y)=(k,j))
17、=qkp(j|k),(概率論中的乘法公式)wj=P(Y=j)=∑k qkp(j|k),(概率論中的全概率公式),互信息的凸性,互信息的凸性,p(y | x)給定,I(X; Y)是q(x)的上凸函數(shù)q(x)給定,I(X; Y)是p(y | x)的下凸函數(shù),互信息的凸性,設(shè)條件概率{p(j|k),k=1~K,j=1~J}被確定。此時(shí)I(X; Y)是概率向量q=(q1, q2, …, qK)的函數(shù)。我們希望找到這樣的概率向量,使得對(duì)應(yīng)的I
18、(X; Y)達(dá)到最大。這就是說,記我們希望找到這樣的K維概率向量a=(a1, a2, …, aK),使得,互信息的凸性,K維概率向量a=(a1, a2, …, aK)使得當(dāng)且僅當(dāng):以a為X的概率向量的時(shí)候,I(X=k; Y)對(duì)所有ak>0的k都取一個(gè)相同的值C; I(X=k; Y)對(duì)所有滿足ak=0的k都取值不超過上述的相同值C 。,互信息的凸性,I(X=k; Y)表示什么?表示事件X=k與隨機(jī)變量Y之間的“半平
19、均互信息量”。,互信息的凸性,例 設(shè)X的事件有0、1; Y的事件有0、1; 已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。當(dāng)X服從等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)時(shí),I(X;Y)達(dá)到最大。因?yàn)榇藭r(shí),互信息的凸性,2.4 連續(xù)隨機(jī)變量的互信息和微分熵,,連續(xù)隨機(jī)變量的互信息,定義2.5.1 給定二維連續(xù)型隨機(jī)變量{(X, Y), f(X,Y)(x, y)}(因
20、此就給定了兩個(gè)連續(xù)型隨機(jī)變量{X, fX(x)}和{Y, fY(y)})。事件x∈X與事件y∈Y的互信息量定義為,連續(xù)隨機(jī)變量的平均互信息,I(X; Y | Z)I(XY; Z),定義2.5.2 給定二維連續(xù)型隨機(jī)變量{(X, Y), f(X,Y)(x, y)}(因此就給定了兩個(gè)連續(xù)型隨機(jī)變量{X, fX(x)}和{Y, fY(y)})。 X與Y的平均互信息量定義為,性質(zhì),非負(fù)性對(duì)稱性數(shù)據(jù)處理定理關(guān)系,連續(xù)隨機(jī)變量的
21、微分熵,(連續(xù)型隨機(jī)變量為什么不能類似地定義平均自信息量——熵?這是因?yàn)椋B續(xù)型隨機(jī)變量的事件有無窮多個(gè),每個(gè)事件發(fā)生的概率無窮小。如果類似地定義熵,則熵是無窮大。因此只能定義所謂“微分熵”,而“微分熵”的直觀合理性大打折扣),微分熵的定義 給定連續(xù)型隨機(jī)變量{X, fX(x)}。 X的微分熵定義為,連續(xù)隨機(jī)變量的微分熵,HC(XY)HC(Y | X), HC(Y | X) ≤HC(Y)互信息與微分熵I(X ; Y)=HC(
22、X)-HC(X | Y)=HC(Y)-HC(Y | X) =HC(X)+HC(Y)-HC(X, Y)HC(X, Y)=HC(X)+HC(Y)-I(X ; Y),均勻隨機(jī)變量的微分熵,例2.7.2 設(shè)X~U(a, b),求X的微分熵(我們將發(fā)現(xiàn), X的微分熵未必非負(fù))。,正態(tài)隨機(jī)變量的微分熵,例2.7.3 設(shè)X~N(m, σ2),求X的微分熵(我們將發(fā)現(xiàn), X的微分熵未必非負(fù))。,正態(tài)隨機(jī)變量的微分熵,熵功率
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)學(xué)建模講座-西安電子科技大學(xué)個(gè)人主頁系統(tǒng)我
- 第一章引論-西安電子科技大學(xué)個(gè)人主頁系統(tǒng)我的西電我的
- 糾突發(fā)錯(cuò)誤循環(huán)碼-西安電子科技大學(xué)個(gè)人主頁系統(tǒng)我的
- matlab 程序設(shè)計(jì)語言 - 西安電子科技大學(xué)個(gè)人主頁 …
- 計(jì)算機(jī)網(wǎng)絡(luò)-西安電子科技大學(xué)個(gè)人主頁系統(tǒng)我的西電我的
- 西安電子科技大學(xué)
- —西安電子科技大學(xué)—
- 博士西安電子科技大學(xué)
- 電子科技大學(xué)
- 西安電子科技大學(xué)2016~2017學(xué)年
- 電子科技大學(xué)策劃
- 杭州電子科技大學(xué)
- 桂林電子科技大學(xué)
- 西安電子科技大學(xué)本科培養(yǎng)方案
- 數(shù)據(jù)挖掘-西安電子科技大學(xué)軟件學(xué)院
- 西安電子科技大學(xué)2014年工作要點(diǎn)
- 西安電子科技大學(xué)崗位應(yīng)聘登記簡表
- 微機(jī)電系統(tǒng)-電子科技大學(xué)
- 電子科技大學(xué)2008年
- 《電子科技大學(xué)獎(jiǎng)勵(lì)辦法》
評(píng)論
0/150
提交評(píng)論