Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js

Exercise 3.9: Conditional Mutual Information

From LNTwww
Revision as of 14:56, 9 July 2020 by Javier (talk | contribs) (Text replacement - "[[Informationstheorie" to "[[Information_Theory")

Ergebnis  W  als Funktion
von  XYZ

Wir gehen von den statistisch unabhängigen Zufallsgrößen  XY  und  Z  mit den folgenden Eigenschaften aus:

X{1, 2},Y{1, 2},Z{1, 2},PX(X)=PY(Y)=[1/2, 1/2],PZ(Z)=[p, 1p].

Aus  XY  und  Z  bilden wir die neue Zufallsgröße  W=(X+Y)Z.

  • Es ist offensichtlich, dass es zwischen  X  und  W  statistische Abhängigkeiten gibt   ⇒   Transinformation  I(X;W)0.
  • Außerdem wird auch  I(Y;W)0  sowie  I(Z;W)0  gelten, worauf in dieser Aufgabe jedoch nicht näher eingegangen wird.


In dieser Aufgabe werden drei verschiedene Transinformationsdefinitionen verwendet:

  • die herkömmliche  Transinformation zwischen  X  und  W:
I(X;W)=H(X)H(X|W),
  • die bedingte  Transinformation zwischen  X  und  W  bei gegebenem Festwert  Z=z:
I(X;W|Z=z)=H(X|Z=z)H(X|W,Z=z),
  • die bedingte  Transinformation zwischen  X  und  W  bei gegebener Zufallsgröße  Z:
I(X;W|Z)=H(X|Z)H(X|WZ).

Der Zusammenhang zwischen den beiden letzten Definitionen lautet:

I(X;W|Z)=zsupp(PZ)PZ(z)I(X;W|Z=z).




Hinweise:



Fragebogen

1

Wie groß ist die Transinformation zwischen  X  und  W,  falls stets  Z=1  gilt?

I(X;W|Z=1) = 

 bit

2

Wie groß ist die Transinformation zwischen  X  und  W,  falls stets  Z=2  gilt?

I(X;W|Z=2) = 

 bit

3

Nun gelte  p=Pr(Z=1).  Wie groß ist die bedingte Transinformation zwischen  X  und  W, falls  zZ={1, 2}  bekannt ist?

p=1/2:   I(X;W|Z) = 

 bit
p=3/4:   I(X;W|Z) = 

 bit

4

Wie groß ist die unkonditionierte Transinformation für  p=1/2?

I(X;W) = 

 bit


Musterlösung

2D-Wahrscheinlichkeitsfunktionen für  Z=1

(1)  Die obere Grafik gilt für  Z=1   ⇒   W=X+Y

  • Unter den Voraussetzungen  PX(X)=[1/2, 1/2]  sowie  PY(Y)=[1/2, 1/2]  ergeben sich somit die Verbundwahrscheinlichkeiten  PXW|Z=1(X,W)  entsprechend der rechten Grafik (graue Hinterlegung).
  • Damit gilt für die Transinformation unter der festen Bedingung  Z=1:
I(X;W|Z=1)=(x,w)supp(PXW|Z=1)PXW|Z=1(x,w)log2PXW|Z=1(x,w)PX(x)PW|Z=1(w)
I(X;W|Z=1)=214log21/41/21/4+214log21/41/21/2
I(X;W|Z=1)=0.5(bit)_.
  • Der erste Term fasst die beiden horizontal schraffierten Felder in der Grafik zusammen, der zweite Term die vertikal schraffierten Felder.
  • Letztere liefern wegen  log2(1)=0  keinen Beitrag.


2D-Wahrscheinlichkeitsfunktionen für  Z=2

(2)  Für  Z=2  gilt zwar W={4, 6, 8}, es ändert sich aber hinsichtlich der Wahrscheinlichkeitsfunktionen gegenüber der Teilaufgabe  (1)  nichts.

  • Demzufolge erhält man auch die gleiche bedingte Transinformation:
I(X;W|Z=2)=I(X;W|Z=1)=0.5(bit)_.


(3)  Die Gleichung lautet für  Z={1, 2}  mit  Pr(Z=1)=p  und  Pr(Z=2)=1p:

I(X;W|Z)=pI(X;W|Z=1)+(1p)I(X;W|Z=2)=0.5(bit)_.
  • Es ist berücksichtigt, dass nach den Teilaufgaben  (1)  und  (2)  die bedingten Transinformationen für gegebenes  Z=1  und gegebenes  Z=2  gleich sind.
  • Damit ist  I(X;W|Z), also unter der Bedingung einer stochastischen Zufallsgröße  Z={1, 2}  mit  P_Z(Z) = \big [p, \ 1 – p\big ]  unabhängig von  p.
  • Das Ergebnis gilt insbesondere auch für  \underline{p = 1/2}  und  \underline{p = 3/4}.


Zur Berechnung der Verbundwahrscheinlichkeit für XW

(4)  Die Verbundwahrscheinlichkeit  P_{ XW }  hängt von den  Z–Wahrscheinlichkeiten  p  und  1 – p  ab.

  • Für  Pr(Z = 1) = Pr(Z = 2) = 1/2  ergibt sich das rechts skizzierte Schema.
  • Zur Transinformation tragen nur wieder die beiden horizontal schraffierten Felder bei:
I(X;W) = 2 \cdot \frac{1}{8} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1/8}{1/2 \cdot 1/8} \hspace{0.15cm} \underline {=0.25\,{\rm (bit)}} \hspace{0.35cm} < \hspace{0.35cm} I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z) \hspace{0.05cm}.

Das Ergebnis  I(X; W|Z) > I(X; W)  trifft für dieses Beispiel, aber auch für viele andere Anwendungen zu:

  • Kenne ich  Z, so weiß ich mehr über die 2D–Zufallsgröße  XW  als ohne diese Kenntnis.
  • Man darf dieses Ergebnis aber nicht verallgemeinern:
Manchmal gilt tatsächlich  I(X; W) > I(X; W|Z), so wie im  Beispiel 3 im Theorieteil.