Exercise 3.9: Conditional Mutual Information
Wir gehen von den statistisch unabhängigen Zufallsgrößen X, Y und Z mit den folgenden Eigenschaften aus :
- X∈{1,2},Y∈{1,2},Z∈{1,2},PX(X)=PY(Y)=[1/2, 1/2],PZ(Z)=[p, 1−p].
Aus X, Y und Z bilden wir die neue Zufallsgröße W=(X+Y)⋅Z.
- Es ist offensichtlich, dass es zwischen X und W statistische Abhängigkeiten gibt ⇒ Transinformation I(X;W)≠0.
- Außerdem wird auch I(Y;W)≠0 sowie I(Z;W)≠0 gelten, worauf in dieser Aufgabe jedoch nicht näher eingegangen wird.
In dieser Aufgabe werden drei verschiedene Transinformationsdefinitionen verwendet:
- die herkömmliche Transinformation zwischen X und W:
- I(X;W)=H(X)−H(X|W),
- die bedingte Transinformation zwischen X und W bei gegebenem Festwert Z=z:
- I(X;W|Z=z)=H(X|Z=z)−H(X|W,Z=z),
- die bedingte Transinformation zwischen X und W bei gegebener Zufallsgröße Z:
- I(X;W|Z)=H(X|Z)−H(X|WZ).
Der Zusammenhang zwischen den beiden letzten Definitionen lautet:
- I(X;W|Z)=∑z∈supp(PZ)PZ(z)⋅I(X;W|Z=z).
Hinweise:
- Die Aufgabe gehört zum Kapitel Verschiedene Entropien zweidimensionaler Zufallsgrößen.
- Insbesondere wird auf die Seite Bedingte Transinformation Bezug genommen .
Fragebogen
Musterlösung
Damit gilt für die Transinformation unter der festen Bedingung Z=1:
- I(X;W|Z=1)=∑(x,w)∈supp(PXW|Z=1)PXW|Z=1(x,w)⋅log2PXW|Z=1(x,w)PX(x)⋅PW|Z=1(w)=2⋅14⋅log21/41/2⋅1/4+2⋅14⋅log21/41/2⋅1/2=0.5(bit)_.
Der erste Term fasst die beiden horizontal schraffierten Felder in obiger Grafik zusammen, der zweite Term die vertikal schraffierten Felder. Letztere liefern wegen log2(1)=0 keinen Beitrag.
(2) Für Z=2 gilt zwar W={4,6,8}, aber hinsichtlich der Wahrscheinlichkeitsfunktionen ändert sich gegenüber der Teilaufgabe (1) nichts. Demzufolge erhält man auch die gleiche bedingte Transinformation:
- I(X;W|Z=2)=I(X;W|Z=1)=0.5(bit)_.
(3) Die angegebene Gleichung lautet für Z={1,2} mit Pr(Z=1)=p und Pr(Z=2)=1−p:
- I(X;W|Z)=p⋅I(X;W|Z=1)+(1−p)⋅I(X;W|Z=2)=0.5(bit)_.
Es ist berücksichtigt, dass entsprechend den Teilaufgaben (1) und (2) die bedingten Transinformationen für gegebenes Z=1 und gegebenes Z=2 gleich sind. Damit ist I(X;W|Z), also unter der Bedingung einer stochastischen Zufallsgröße Z={1,2} mit P_Z(Z) = [p, 1 – p], unabhängig von p. Das Ergebnis gilt insbesondere auch für \underline{p = 1/2} und \underline{p = 3/4}.
(4) Die Verbundwahrscheinlichkeiten P_{ XW }(⋅) hängen auch von den Z–Wahrscheinlichkeiten p und 1 – p ab.
- Für Pr(Z = 1) = Pr(Z = 2) = 1/2 ergibt sich das rechts skizzierte Schema.
- Zur Transinformation tragen nur wieder die beiden horizontal schraffierten Felder bei:
- I(X;W) = 2 \cdot \frac{1}{8} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1/8}{1/2 \cdot 1/8} \hspace{0.15cm} \underline {=0.25\,{\rm (bit)}} \hspace{0.35cm} < \hspace{0.35cm} I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z) \hspace{0.05cm}.
Das Ergebnis I(X; W|Z) > I(X; W) trifft für dieses Beispiel, aber auch für viele andere Anwendungen zu:
- Kenne ich Z, so weiß ich mehr über die 2D–Zufallsgröße XW als ohne diese Kenntnis.
- Man darf dieses Ergebnis aber nicht verallgemeinern. Manchmal gilt tatsächlich I(X; W) > I(X; W|Z), so wie im Beispiel 3 im Theorieteil.