Difference between revisions of "Aufgaben:Exercise 3.9: Conditional Mutual Information"
m (Guenter verschob die Seite 3.08 Bedingte Transinformation nach 3.9 Bedingte Transinformation) |
|||
Line 3: | Line 3: | ||
}} | }} | ||
− | [[File:P_ID2813__Inf_A_3_8.png|right|]] | + | [[File:P_ID2813__Inf_A_3_8.png|right|Zusammenhang zwischen den Zufallsgrößen <i>X</i>, <i>Y</i>, <i>Z</i> und <i>W</i>]] |
− | Wir gehen von den statistisch unabhängigen Zufallsgrößen $X$, $Y$ und $Z$mit den folgenden Eigenschaften aus : | + | Wir gehen von den statistisch unabhängigen Zufallsgrößen $X$, $Y$ und $Z$ mit den folgenden Eigenschaften aus : |
+ | :$$X \in \{1, 2 \} \hspace{0.05cm},\hspace{0.35cm} | ||
+ | Y \in \{1, 2 \} \hspace{0.05cm},\hspace{0.35cm} | ||
+ | Z \in \{1, 2 \} \hspace{0.05cm},\hspace{0.35cm} P_X(X) = P_Y(Y) = [ 1/2 , 1/2]\hspace{0.05cm},\hspace{0.35cm}P_Z(Z) = [ p, 1-p].$$ | ||
− | $X | + | Aus $X$, $Y$ und $Z$ bilden wir die neue Zufallsgröße $W = (X+Y) \cdot Z$. |
+ | *Damit ist offensichtlich, dass es zwischen den beiden Zufallsgrößen $X$ und $W$ statistische Abhängigkeiten gibt, die sich auch in der Transinformation $I(X; W) ≠ 0$ zeigen werden. | ||
+ | *Außerdem wird auch $I(Y; W) ≠ 0$ sowie $I(Z; W) ≠ 0$ gelten, worauf in dieser Aufgabe jedoch nicht näher eingegangen wird. | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
In dieser Aufgabe werden drei verschiedene Transinformationsdefinitionen verwendet: | In dieser Aufgabe werden drei verschiedene Transinformationsdefinitionen verwendet: | ||
− | + | *die ''herkömmliche'' Transinformation zwischen $X$ und $W$: | |
− | + | :$$I(X;W) = H(X) - H(X|\hspace{0.05cm}W) \hspace{0.05cm},$$ | |
− | $I(X;W) = H(X) - H(X \ | + | :* die ''bedingte'' Transinformation zwischen $X$ und $W$ bei ''gegebenem Festwert'' $Z = z$: |
− | :* die ''bedingte'' Transinformation zwischen $X$ und $W$ bei ''gegebenem | + | :$$I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z = z) = H(X\hspace{0.05cm}|\hspace{0.05cm} Z = z) - H(X|\hspace{0.05cm}W ,\hspace{0.05cm} Z = z) \hspace{0.05cm},$$ |
− | + | * die ''bedingte'' Transinformation zwischen $X$ und $W$ bei ''gegebener Zufallsgröße'' $Z$: | |
− | $I(X;W \ | + | :$$I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z ) = H(X\hspace{0.05cm}|\hspace{0.05cm} Z ) - H(X|\hspace{0.05cm}W \hspace{0.05cm} Z ) \hspace{0.05cm}.$$ |
− | |||
− | |||
− | $I(X;W \ | ||
− | |||
Der Zusammenhang zwischen den beiden letzten Definitionen lautet: | Der Zusammenhang zwischen den beiden letzten Definitionen lautet: | ||
+ | :$$I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z ) = \sum_{z \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Z})} \hspace{-0.2cm} | ||
+ | P_Z(z) \cdot I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z = z)\hspace{0.05cm}.$$ | ||
− | |||
'''Hinwies:''' Die Aufgabe gehört zum Themengebiet von [http://en.lntwww.de/Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgr%C3%B6%C3%9Fen Kapitel 3.2]. | '''Hinwies:''' Die Aufgabe gehört zum Themengebiet von [http://en.lntwww.de/Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgr%C3%B6%C3%9Fen Kapitel 3.2]. |
Revision as of 16:16, 1 June 2017
Wir gehen von den statistisch unabhängigen Zufallsgrößen $X$, $Y$ und $Z$ mit den folgenden Eigenschaften aus :
- $$X \in \{1, 2 \} \hspace{0.05cm},\hspace{0.35cm} Y \in \{1, 2 \} \hspace{0.05cm},\hspace{0.35cm} Z \in \{1, 2 \} \hspace{0.05cm},\hspace{0.35cm} P_X(X) = P_Y(Y) = [ 1/2 , 1/2]\hspace{0.05cm},\hspace{0.35cm}P_Z(Z) = [ p, 1-p].$$
Aus $X$, $Y$ und $Z$ bilden wir die neue Zufallsgröße $W = (X+Y) \cdot Z$.
- Damit ist offensichtlich, dass es zwischen den beiden Zufallsgrößen $X$ und $W$ statistische Abhängigkeiten gibt, die sich auch in der Transinformation $I(X; W) ≠ 0$ zeigen werden.
- Außerdem wird auch $I(Y; W) ≠ 0$ sowie $I(Z; W) ≠ 0$ gelten, worauf in dieser Aufgabe jedoch nicht näher eingegangen wird.
In dieser Aufgabe werden drei verschiedene Transinformationsdefinitionen verwendet:
- die herkömmliche Transinformation zwischen $X$ und $W$:
- $$I(X;W) = H(X) - H(X|\hspace{0.05cm}W) \hspace{0.05cm},$$
- die bedingte Transinformation zwischen $X$ und $W$ bei gegebenem Festwert $Z = z$:
- $$I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z = z) = H(X\hspace{0.05cm}|\hspace{0.05cm} Z = z) - H(X|\hspace{0.05cm}W ,\hspace{0.05cm} Z = z) \hspace{0.05cm},$$
- die bedingte Transinformation zwischen $X$ und $W$ bei gegebener Zufallsgröße $Z$:
- $$I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z ) = H(X\hspace{0.05cm}|\hspace{0.05cm} Z ) - H(X|\hspace{0.05cm}W \hspace{0.05cm} Z ) \hspace{0.05cm}.$$
Der Zusammenhang zwischen den beiden letzten Definitionen lautet:
- $$I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z ) = \sum_{z \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Z})} \hspace{-0.2cm} P_Z(z) \cdot I(X;W \hspace{0.05cm}|\hspace{0.05cm} Z = z)\hspace{0.05cm}.$$
Hinwies: Die Aufgabe gehört zum Themengebiet von Kapitel 3.2.
Fragebogen
Musterlösung
Die folgende Grafik gilt für $Z = 1 \Rightarrow W = X + Y$. Unter den Voraussetzungen $P_X(X) = [1/2, 1/2]$ sowie $P_Y(Y) = [1/2, 1/2]$ ergeben sich somit die Verbundwahrscheinlichkeiten $P_{ XW|Z=1 }(X, W)$ entsprechend der rechten Grafik (graue Hinterlegung).
Damit gilt für die Transinformation unter der festen Bedingung $Z = 1$:
$$I(X;W \mid Z=1) = \sum\limits_{(x,w) \epsilon supp (P_{ XW } \mid Z=1)} P_{ XW \mid Z=1 }(x,w) . log_2 \frac{ P_{ XW \mid Z=1 }(x,w)}{ P_X(X) . P_{ W \mid Z=1 } (w)}=$$ $$= 2 . \frac{1}{4} . log_2 \frac{1/4}{1/2 . 1/4} + 2 . \frac{1}{4} . log_2 \frac{1/4}{1/2 . 1/4} = 0.5 (bit)$$ Der erste Term fasst die beiden horizontal schraffierten Felder in obiger Grafik zusammen, der zweite Term die vertikal schraffierten Felder. Letztere liefern wegen $log_2 (1) = 0$ keinen Beitrag.
2. Für $Z = 2$ gilt zwar '$W = \{4, 6, 8\}$, aber hinsichtlich der Wahrscheinlichkeitsfunktionen ändert sich gegenüber der Teilaufgabe (a) nichts. Demzufolge erhält man auch die gleiche bedingte Transinformation:
$I(X;W \mid Z=2) = I(X;W \mid Z=1) = 0.5 (bit)$
3. Es ist berücksichtigt, dass entsprechend den Teilaufgaben (a) und (b) die bedingten Transinformationen für gegebenes $Z = 1$ und gegebenes $Z = 2$ gleich sind. Damit ist $I(X; W|Z)$, also unter der Bedingung einer stochastischen Zufallsgröße $Z = \{1, 2\}$ mit $P_Z(Z) = [p, 1 – p]$, unabhängig von p. Das Ergebnis gilt insbesondere auch für $p = 1/2$ und $p = 3/4$.
4. Die Verbundwahrscheinlichkeiten P_{ XW }(⋅) hängen auch von den $Z$–Wahrscheinlichkeiten $p$ und $1 – p$ ab. Für $Pr(Z = 1) = Pr(Z = 2) = 1/2$ ergibt sich das nachfolgend skizzierte Schema. Zur Transinformation tragen nur wieder die beiden horizontal schraffierten Felder bei:
$I(X;W) = 2 . \frac{1}{8} . log_2 \frac{1/8}{1/2 . 1/8} = 0.25 (bit) < I(X; W \mid Z)$.
Das Ergebnis $I(X; W|Z) > I(X; W)$ trifft für dieses Beispiel, aber auch für viele andere Anwendungen zu: Kenne ich $Z$, so weiß ich mehr über die 2D–Zufallsgröße $XW$ als ohne diese Kenntnis. Man darf dieses Ergebnis aber nicht verallgemeinern. Manchmal gilt tatsächlich $I(X; W) > I(X; W|Z)$, so wie im Beispiel im Theorieteil.