Difference between revisions of "Aufgaben:Exercise 3.5Z: Kullback-Leibler Distance again"

From LNTwww

@@ Line 76: / Line 76: @@
 -  $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$ ist unendlich groß.
-{Ändern sich sowohl $H(Y)$ als auch  $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$monoton mit $N$?
+{Ändern sich sowohl $H(Y)$ als auch  $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ monoton mit $N$?
 |type="[]"}
 - Ja,
@@ Line 87: / Line 87: @@
 {{ML-Kopf}}
-'''1.'''Bei gleichen Wahrscheinlichkeiten gilt mit $M = 4$ :
+'''(1)'''&nbsp; Bei gleichen Wahrscheinlichkeiten gilt mit $M = 4$: &nbsp;  $H(X) = {\rm log}_2 \hspace{0.1cm} M
+\hspace{0.15cm} \underline {= 2\,{\rm (bit)}}  \hspace{0.05cm}.$
-$H(X) = log_2   M = 2 (bit)$
-'''2.''' Die Wahrscheinlichkeiten für die empirisch ermittelten Zufallsgrößen $Y$ weichen im Allgemeinen (nicht immer!) von der Gleichverteilung um so mehr ab, je kleiner der Parameter $N$ ist. Man erhält
+'''(2)'''&nbsp; Die Wahrscheinlichkeiten für die empirisch ermittelten Zufallsgrößen $Y$ weichen im Allgemeinen (nicht immer!) von der Gleichverteilung um so mehr ab, je kleiner der Parameter $N$ ist. Man erhält
-:* $N = 1000 \Rightarrow  P_Y(Y) =  [0.225, 0.253, 0.250, 0.272]$ :
+* $N = 1000 \Rightarrow  P_Y(Y) =  [0.225, 0.253, 0.250, 0.272]$:
+:$$H(Y) \hspace{-0.15cm} = \hspace{-0.15cm}
+.225 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.225} +
+.253 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.253} +
+.250 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.250} +
+.272 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.272}
+\hspace{0.15cm} \underline {= 1.9968\,{\rm (bit)}}  \hspace{0.05cm},$$
+* $N = 100\Rightarrow  P_Y(Y) = [0.24, 0.16, 0.30, 0.30]$:
+:$$H(Y) = ... \hspace{0.15cm} \underline {= 1.9410\,{\rm (bit)}}  \hspace{0.05cm},$$
+* $N = 10 \Rightarrow  P_Y(Y) =  [0.5, 0.1, 0.3, 0.1]$:
+:$$H(Y) = ... \hspace{0.15cm} \underline {= 1.6855\,{\rm (bit)}}  \hspace{0.05cm}.$$
-$H(Y) = 0.225 . log_2 \frac{1}{0.225} +0.253. log_2 \frac{1}{0.253} + 0.250 . log_2 \frac{1}{0.250}+ 0.272 . log_2 \frac{1}{0.272} = 1.9968 (bit)$
+'''(3)'''&nbsp; Die Gleichung für die gesuchte Kullback–Leibler–Distanz lautet:
-:* $N = 100\Rightarrow  P_Y(Y) = [0.24, 0.16, 0.30, 0.30]$ :
-$H(Y) =$......$= 1.9410$
+:$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \sum_{\mu = 1}^{4}  P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)}
-:* $N = 10 \Rightarrow  P_Y(Y) =  [0.5, 0.1, 0.3, 0.1]$:
+=  \frac{1/4}{{\rm lg} \hspace{0.1cm}(2)} \cdot
+\left [ {\rm lg} \hspace{0.1cm} \frac{0.25}{P_Y(1)} + \frac{0.25}{P_Y(2)} + \frac{0.25}{P_Y(3)} + \frac{0.25}{P_Y(4)}
+\right ] $$
+:$$\Rightarrow \hspace{0.3cm} D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y)  =   \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot
+\left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{P_Y(1) \cdot P_Y(2)\cdot P_Y(3)\cdot P_Y(4)}
+\right ] \hspace{0.05cm}.$$
-$H(Y) =$......$= 1.6855$
+Der Logarithmus zur Basis 2 &nbsp; &rArr;  &nbsp; $\log_2(.)$ wurde zur einfachen Nutzung des Taschenrechners durch den Zehnerlogarithmus  2 &nbsp; &rArr;  &nbsp; $\lg(.)$  ersetzt. Man erhält die folgenden numerischen Ergebnisse:
+* für $N=1000$:
+:$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot
+\left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{0.225 \cdot 0.253\cdot 0.250\cdot 0.272}
+\right ] \hspace{0.15cm} \underline {= 3.28 \cdot 10^{-3}\,{\rm (bit)}}  \hspace{0.05cm},$$
+* für $N=100$:
+:$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot
+\left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{0.24 \cdot 0.16\cdot 0.30\cdot 0.30}
+\right ] \hspace{0.15cm} \underline {= 4.42 \cdot 10^{-2}\,{\rm (bit)}}  \hspace{0.05cm},$$
+* für $N=10$:
+:$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot
+\left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{0.5 \cdot 0.1\cdot 0.3\cdot 0.1}
+\right ] \hspace{0.15cm} \underline {= 3.45 \cdot 10^{-1}\,{\rm (bit)}}  \hspace{0.05cm}.$$
-'''3.'''  Die Gleichung für die gesuchte Kullback–Leibler–Distanz lautet:
+'''(4)'''&nbsp; Richtig ist <u>Nein</u>, wie am Beispiel $N = 100$ gezeigt werden soll:
+:$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) =   \sum_{\mu = 1}^M  P_Y(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y(\mu)}{P_X(\mu)} = 0.24\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.24}{0.25} + 0.16\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.16}{0.25} +2 \cdot 0.30\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.30}{0.25}  = 0.0407\,{\rm (bit)}\hspace{0.05cm}.$$
-$$D(P_X||P_Y) = \sum\limits_{\mu=1}^4 P_X(\mu) . log_2 \frac{P_X(\mu)}{P_Y(\mu)} =$$
+In der Teilaufgabe (c) haben wir stattdessen $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y) = 0.0442$ erhalten. Das bedeutet auch: Der Name „Distanz” ist etwas irreführend. Danach würde man eigentlich $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$ = $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ erwarten.
-$$= \frac{1/4}{lg(2)} .[lg \frac{0.25}{P_Y(1)}+\frac{0.25}{P_Y(2)}+\frac{0.25}{P_Y(3)} + \frac{0.25}{P_Y(4)}] =$$
-$$=\frac{1}{4 . lg(2)} . [lg \frac{0.25^4}{P_Y(1) . P_Y(2) . P_Y(3) . P_Y(4)}]$$
+'''(5)'''&nbsp; Mit $P_Y(X) = [0, 0.25, 0.5, 0.25]$ erhält man:
-Der Logarithmus zur Basis 2  $\Rightarrow log_2(.)$ wurde zur einfachen Nutzung des Taschenrechners durch den Zehnerlogarithmus  $\Rightarrow lg(.)$  ersetzt. Man erhält die folgenden numerischen Ergebnisse:
+:$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = 0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0} + 2 \cdot 0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0.25}+0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0.50}\hspace{0.05cm}.$$
-:* $N=1000$ :
-$$D(P_X||P_Y)=\frac{1}{4 . lg(2)} . [lg \frac{0.25^4}{0,225 . 0,253 . 0,250 . 0,272}] = 3,28 . 10^{-3} (bit)$$
+Aufgrund des ersten Terms ergibt sich für $D(P_X\hspace{0.05cm}|| \hspace{0.05cm}P_Y)$ ein unendlich großer Wert. Für die zweite Kullback–Leibler–Distanz gilt:
-:* $N=100$ :
+:$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) = 0\cdot {\rm log}_2 \hspace{0.1cm} \frac{0}{0.25} + 2 \cdot 0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0.25}+
+.50\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.5}{0.25}
-$$D(P_X||P_Y)=\frac{1}{4 . lg(2)} . [lg \frac{0.25^4}{0,24 . 0,16 . 0,30 . 0,30}] = 4,42 . 10^{-2} (bit)$$
+	\hspace{0.05cm}.$$
-::* $N=100$ :
-$$D(P_X||P_Y)=\frac{1}{4 . lg(2)} . [lg \frac{0.25^4}{0,5 . 0,1. 0,3 . 0,1}] = 3,45. 10^{-1} (bit)$$
-'''5.'''  Richtig ist Nein, wie am Beispiel $N = 100$ gezeigt werden soll:
-$$D(P_X||P_Y) = \sum\limits_{\mu=1}^M P_X(\mu) . log_2 \frac{P_X(\mu)}{P_Y(\mu)} =$$
-$$ = 0.24 . log_2 \frac{0.24}{0.25} +0.16. log_2 \frac{16}{0.25} +2 .  0,30  . log_2 \frac{0.30}{0.25} = 0.0407 (bit)$$
-In der Teilaufgabe (c) haben wir stattdessen $D(P_X||P_Y)$ = 0.0442 erhalten. Das bedeutet auch: Der Name „Distanz” ist etwas irreführend. Danach würde man eigentlich $D(P_Y||P_X)$ = $D(P_X||P_Y)$ erwarten.
-'''6.'''  Mit $P_Y(X) = [0, 0.25, 0.5, 0.25]$ erhält man:
-$$D(P_X||P_Y) = 0,25 . log_2 \frac{0.25}{0} +2 . 0,25 . log_2 \frac{0.25}{0.25} +0,25 . log_2 \frac{0.25}{0.50}$$
-Aufgrund des ersten Terms ergibt sich für $D(P_X||P_Y)$ ein unendlich großer Wert. Für die zweite Kullback–Leibler–Distanz gilt:
-$$D(P_Y||P_X) = 0 . log_2 \frac{0}{0.25} +2 . 0,25 . log_2 \frac{0.25}{0.25} +0,25 . log_2 \frac{0.5}{0.25}$$
+[[File:P_ID2763__Inf_Z_3_4e.png|right|Wahrscheinlichkeitsfunktion, Entropie und Kullback–Leibler–Distanz]]
 Nach einer Grenzwertbetrachtung erkennt man, dass der erste Term das Ergebnis $0$ liefert. Auch der zweite Term ergibt sich zu $0$, und man erhält als Endergebnis:
+:$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) = 0.50\cdot {\rm log}_2 \hspace{0.1cm} (2) \hspace{0.15cm} \underline {= 0.5\,{\rm (bit)}} 	\hspace{0.05cm}.$$
-$D(P_Y||P_X) = 0,50 . log_2(2) = 0.5 (bit)$
+Richtig sind somit die <u>Aussagen 3 und 5</u>:
+*Auch aus diesem Extrembeispiel wird deutlich, dass sich $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$ stets von $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ unterscheidet.
+*Nur für den Sonderfall $P_Y = P_X$ sind beide Kullback–Leibler–Distanzen gleich, nämlich Null.
+*Die nebenstehende Tabelle zeigt das vollständige Ergebnis dieser Aufgabe.
-Richtig sind somit die Aussagen $3$ und $5$. Auch aus diesem Extrembeispiel wird deutlich, dass sich $D(P_Y||P_X)$ stets von $D(P_X||P_Y)$ unterscheidet. Nur für den Sonderfall P_Y = P_X sind beide Kullback–Leibler–Distanzen gleich, nämlich $0$. Die folgende Tabelle zeigt das vollständige Ergebnis dieser Aufgabe.
-[[File:P_ID2763__Inf_Z_3_4e.png|right|]]
+'''(6)'''&nbsp; Richtig ist <u>Nein</u>. Die Tendenz ist zwar eindeutig: Je größer $N$ ist,
-'''7.''' Die richtige Antwort ist Nein. Die Tendenz ist zwar eindeutig: Je größer $N$ ist,
+* desto mehr nähert sich $H(Y)$ im Prinzip dem Endwert $H(X) = 2 \ \rm bit$ an.
+* um so kleiner werden die Distanzen $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ und $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$.
-:* desto mehr nähert sich $H(Y)$ im Prinzip dem Endwert $H(X) = 2$ bit an.
-:* um so kleiner werden die Distanzen $D(P_X||P_Y)$ und $D(P_Y||P_X)$.
+Man erkennt aus der Tabelle aber auch, dass es Ausnahmen gibt:
-Man erkennt aus obiger Tabelle aber auch, dass es Ausnahmen gibt:
+* Die Entropie $H(Y)$ ist für $N = 1000$ kleiner als für $N = 400$,
+* Die Distanz $D(P_X\hspace{0.05cm}|| \hspace{0.05cm}P_Y)$ ist für $N = 1000$ größer als für $N = 400$.
-:* Die Entropie $H(Y)$ ist für $N = 1000$ kleiner als für $N = 400$,
-:* Die Distanz $D(P_X||P_Y)$ ist für $N = 1000$ größer als für $N = 400$.
 Der Grund hierfür ist, dass das hier dokumentierte empirische Experiment mit $N = 400$ eher zu einer Gleichverteilung geführt hat als das Experiment mit $N = 1000$.

Revision as of 12:47, 31 May 2017

Return to book

Empirisch ermittelte Wahrscheinlichkeitsfunktionen

Die Wahrscheinlichkeitsfunktion lautet:

$$P_X(X) = [\hspace{0.03cm}0.25\hspace{0.03cm}, \hspace{0.03cm} 0.25\hspace{0.03cm},\hspace{0.03cm} 0.25 \hspace{0.03cm}, \hspace{0.03cm} 0.25\hspace{0.03cm}]\hspace{0.05cm}$$

Die Zufallsgröße $X$ ist also gekennzeichnet durch

den Symbolumfang $M=4$,
gleiche Wahrscheinlichkeiten $P_X(1) = P_X(2) = P_X(3) = P_X(4) = 1/4$ .

Die Zufallsgröße $Y$ ist stets eine Näherung für $X$. Sie wurde per Simulation aus einer Gleichverteilung gewonnen, wobei jeweils nur $N$ Zufallswerte ausgewertet wurden. Das heißt: $P_Y(1)$, ... ,$P_Y(4)$ sind im herkömmlichen Sinn keine Wahrscheinlichkeiten. Sie beschreiben vielmehr relative Häufigkeiten.

Das Ergebnis der sechsten Versuchsreihe (mit $N=1000$) wird demnach durch die folgende Wahrscheinlichkeitsfunktion zusammengefasst:

$$P_Y(X) = [\hspace{0.05cm}0.225\hspace{0.05cm}, \hspace{0.05cm} 0.253\hspace{0.05cm},\hspace{0.05cm} 0.250 \hspace{0.05cm}, \hspace{0.05cm} 0.272\hspace{0.05cm}] \hspace{0.05cm}$$

Bei dieser Schreibweise ist bereits berücksichtigt, dass die Zufallsgrößen $X$ und $Y$ auf dem gleichen Alphabet $X = \{1, 2, 3, 4\}$ basieren.

Mit diesen Voraussetzungen gilt für die relative Entropie (englisch: Informational Divergence) zwischen den beiden Wahrscheinlichkeitsfunktionen $P_X(.)$ und $P_Y(.)$ :

$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = {\rm E}_X \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{P_X(X)}{P_Y(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{M} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} \hspace{0.05cm}.$$

Man bezeichnet $D( P_X\hspace{0.05cm} || \hspace{0.05cm}P_Y)$ als (erste) Kullback–Leibler–Distanz.

Diese ist ein Maß für die Ähnlichkeit zwischen den beiden Wahrscheinlichkeitsfunktionen $P_X(.)$ und $P_Y(.)$.
Die Erwartungswertbildung geschieht hier hinsichtlich der (tatsächlich gleichverteilten) Zufallsgröße $X$. Dies wird durch die Nomenklatur $E_X[.]$ angedeutet.

Eine zweite Form der Kullback–Leibler–Distanz ergibt sich durch die Erwartungswertbildung hinsichtlich der Zufallsgröße $Y \Rightarrow E_Y[.]$:

$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) = {\rm E}_Y \hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_Y(X)}{P_X(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^M P_Y(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y(\mu)}{P_X(\mu)} \hspace{0.05cm}.$$

Hinweise:

Die Aufgabe gehört zum Kapitel Einige Vorbemerkungen zu den 2D-Zufallsgrößen.
Insbesondere wird Bezug genommen auf die Seite Relative Entropie – Kullback-Leibler-Distanz.
Die Angaben der Entropie $H(Y)$ und der Kullback–Leibler–Distanz $D( P_X \hspace{0.05cm}|| \hspace{0.05cm}P_Y)$ in obiger Grafik sind in „bit” zu verstehen.
Die in der Grafik mit „???" versehenen Felder sollen von Ihnen in dieser Aufgabe ergänzt werden.
Sollte die Eingabe des Zahlenwertes „0” erforderlich sein, so geben Sie bitte „0.” ein.

Fragebogen

Welche Entropie besitzt die Zufallsgröße $X$ ?

$H(X)\ = \ $

$\ \rm bit$

Wie groß sind die Entropien der Zufallsgrößen $Y$ (Näherungen für $X$)?

$N=10^3\text{:} \ H(Y) \ = \ $

$\ \rm bit$

$N=10^2\text{:} \ H(Y) \ = \ $

$\ \rm bit$

$N=10^1\text{:} \ H(Y) \ = \ $

$\ \rm bit$

Berechnen Sie die folgenden Kullback–Leibler–Distanzen.

$N=10^3\text{:} \ D( P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) \ = \ $

$\ \rm bit$

$N=10^2\text{:} \ D( P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) \ = \ $

$\ \rm bit$

$N=10^1\text{:} \ D( P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) \ = \ $

$\ \rm bit$

Liefert $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$ jeweils exakt das gleiche Ergebnis?

	Ja.
	Nein.

Welche Aussagen gelten für die Kullback–Leibler–Distanzen bei $N = 4$?

	Es gilt $D(P_X \hspace{0.05cm}\|\| \hspace{0.05cm} P_Y) = 0$.
	Es gilt $D(P_X\hspace{0.05cm}\|\| \hspace{0.05cm} P_Y) = 0.5 \ \rm bit$
	$D(P_X\hspace{0.05cm}\|\| \hspace{0.05cm} P_Y)$ ist unendlich groß
	Es gilt $D(P_Y\hspace{0.05cm}\|\| \hspace{0.05cm} P_X) = 0$.
	Es gilt $D(P_Y\hspace{0.05cm}\|\| \hspace{0.05cm} P_X) = 0.5 \ \rm bit$.
	$D(P_Y\hspace{0.05cm}\|\| \hspace{0.05cm} P_X)$ ist unendlich groß.

Ändern sich sowohl $H(Y)$ als auch $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ monoton mit $N$?

	Ja,
	Nein.

Musterlösung

Solution

(1) Bei gleichen Wahrscheinlichkeiten gilt mit $M = 4$: $H(X) = {\rm log}_2 \hspace{0.1cm} M \hspace{0.15cm} \underline {= 2\,{\rm (bit)}} \hspace{0.05cm}.$

(2) Die Wahrscheinlichkeiten für die empirisch ermittelten Zufallsgrößen $Y$ weichen im Allgemeinen (nicht immer!) von der Gleichverteilung um so mehr ab, je kleiner der Parameter $N$ ist. Man erhält

$N = 1000 \Rightarrow P_Y(Y) = [0.225, 0.253, 0.250, 0.272]$:

$$H(Y) \hspace{-0.15cm} = \hspace{-0.15cm} 0.225 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.225} + 0.253 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.253} + 0.250 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.250} + 0.272 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.272} \hspace{0.15cm} \underline {= 1.9968\,{\rm (bit)}} \hspace{0.05cm},$$

$N = 100\Rightarrow P_Y(Y) = [0.24, 0.16, 0.30, 0.30]$:

$$H(Y) = ... \hspace{0.15cm} \underline {= 1.9410\,{\rm (bit)}} \hspace{0.05cm},$$

$N = 10 \Rightarrow P_Y(Y) = [0.5, 0.1, 0.3, 0.1]$:

$$H(Y) = ... \hspace{0.15cm} \underline {= 1.6855\,{\rm (bit)}} \hspace{0.05cm}.$$

(3) Die Gleichung für die gesuchte Kullback–Leibler–Distanz lautet:

$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \sum_{\mu = 1}^{4} P_X(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_X(\mu)}{P_Y(\mu)} = \frac{1/4}{{\rm lg} \hspace{0.1cm}(2)} \cdot \left [ {\rm lg} \hspace{0.1cm} \frac{0.25}{P_Y(1)} + \frac{0.25}{P_Y(2)} + \frac{0.25}{P_Y(3)} + \frac{0.25}{P_Y(4)} \right ] $$

$$\Rightarrow \hspace{0.3cm} D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot \left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{P_Y(1) \cdot P_Y(2)\cdot P_Y(3)\cdot P_Y(4)} \right ] \hspace{0.05cm}.$$

Der Logarithmus zur Basis 2 ⇒ $\log_2(.)$ wurde zur einfachen Nutzung des Taschenrechners durch den Zehnerlogarithmus 2 ⇒ $\lg(.)$ ersetzt. Man erhält die folgenden numerischen Ergebnisse:

für $N=1000$:

$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot \left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{0.225 \cdot 0.253\cdot 0.250\cdot 0.272} \right ] \hspace{0.15cm} \underline {= 3.28 \cdot 10^{-3}\,{\rm (bit)}} \hspace{0.05cm},$$

für $N=100$:

$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot \left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{0.24 \cdot 0.16\cdot 0.30\cdot 0.30} \right ] \hspace{0.15cm} \underline {= 4.42 \cdot 10^{-2}\,{\rm (bit)}} \hspace{0.05cm},$$

für $N=10$:

$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = \frac{1}{4 \cdot {\rm lg} \hspace{0.1cm}(2)} \cdot \left [ {\rm lg} \hspace{0.1cm} \frac{0.25^4}{0.5 \cdot 0.1\cdot 0.3\cdot 0.1} \right ] \hspace{0.15cm} \underline {= 3.45 \cdot 10^{-1}\,{\rm (bit)}} \hspace{0.05cm}.$$

(4) Richtig ist Nein, wie am Beispiel $N = 100$ gezeigt werden soll:

$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) = \sum_{\mu = 1}^M P_Y(\mu) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y(\mu)}{P_X(\mu)} = 0.24\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.24}{0.25} + 0.16\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.16}{0.25} +2 \cdot 0.30\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.30}{0.25} = 0.0407\,{\rm (bit)}\hspace{0.05cm}.$$

In der Teilaufgabe (c) haben wir stattdessen $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y) = 0.0442$ erhalten. Das bedeutet auch: Der Name „Distanz” ist etwas irreführend. Danach würde man eigentlich $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$ = $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ erwarten.

(5) Mit $P_Y(X) = [0, 0.25, 0.5, 0.25]$ erhält man:

$$D(P_X \hspace{0.05cm}|| \hspace{0.05cm} P_Y) = 0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0} + 2 \cdot 0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0.25}+0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0.50}\hspace{0.05cm}.$$

Aufgrund des ersten Terms ergibt sich für $D(P_X\hspace{0.05cm}|| \hspace{0.05cm}P_Y)$ ein unendlich großer Wert. Für die zweite Kullback–Leibler–Distanz gilt:

$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) = 0\cdot {\rm log}_2 \hspace{0.1cm} \frac{0}{0.25} + 2 \cdot 0.25\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.25}{0.25}+ 0.50\cdot {\rm log}_2 \hspace{0.1cm} \frac{0.5}{0.25} \hspace{0.05cm}.$$

Wahrscheinlichkeitsfunktion, Entropie und Kullback–Leibler–Distanz

Nach einer Grenzwertbetrachtung erkennt man, dass der erste Term das Ergebnis $0$ liefert. Auch der zweite Term ergibt sich zu $0$, und man erhält als Endergebnis:

$$D(P_Y \hspace{0.05cm}|| \hspace{0.05cm} P_X) = 0.50\cdot {\rm log}_2 \hspace{0.1cm} (2) \hspace{0.15cm} \underline {= 0.5\,{\rm (bit)}} \hspace{0.05cm}.$$

Richtig sind somit die Aussagen 3 und 5:

Auch aus diesem Extrembeispiel wird deutlich, dass sich $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$ stets von $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ unterscheidet.
Nur für den Sonderfall $P_Y = P_X$ sind beide Kullback–Leibler–Distanzen gleich, nämlich Null.
Die nebenstehende Tabelle zeigt das vollständige Ergebnis dieser Aufgabe.

(6) Richtig ist Nein. Die Tendenz ist zwar eindeutig: Je größer $N$ ist,

desto mehr nähert sich $H(Y)$ im Prinzip dem Endwert $H(X) = 2 \ \rm bit$ an.
um so kleiner werden die Distanzen $D(P_X\hspace{0.05cm}|| \hspace{0.05cm} P_Y)$ und $D(P_Y\hspace{0.05cm}|| \hspace{0.05cm} P_X)$.

Man erkennt aus der Tabelle aber auch, dass es Ausnahmen gibt:

Die Entropie $H(Y)$ ist für $N = 1000$ kleiner als für $N = 400$,
Die Distanz $D(P_X\hspace{0.05cm}|| \hspace{0.05cm}P_Y)$ ist für $N = 1000$ größer als für $N = 400$.

Der Grund hierfür ist, dass das hier dokumentierte empirische Experiment mit $N = 400$ eher zu einer Gleichverteilung geführt hat als das Experiment mit $N = 1000$.

Würde man dagegen sehr (unendlich) viele Versuche mit $N = 400$ und $N = 1000$ starten und über diese mitteln, ergäbe sich tatsächlich der eigentlich erwartete monotone Verlauf.

Retrieved from "http://en.lntwww.de/index.php?title=Aufgaben:Exercise_3.5Z:_Kullback-Leibler_Distance_again&oldid=13160"

Category:

Aufgaben zu Informationstheorie

	Es gilt $D(P_X \hspace{0.05cm}\|\| \hspace{0.05cm} P_Y) = 0$.
	Es gilt $D(P_X\hspace{0.05cm}\|\| \hspace{0.05cm} P_Y) = 0.5 \ \rm bit$
	$D(P_X\hspace{0.05cm}\|\| \hspace{0.05cm} P_Y)$ ist unendlich groß
	Es gilt $D(P_Y\hspace{0.05cm}\|\| \hspace{0.05cm} P_X) = 0$.
	Es gilt $D(P_Y\hspace{0.05cm}\|\| \hspace{0.05cm} P_X) = 0.5 \ \rm bit$.
	$D(P_Y\hspace{0.05cm}\|\| \hspace{0.05cm} P_X)$ ist unendlich groß.