Difference between revisions of "Information Theory/Different Entropy Measures of Two-Dimensional Random Variables"

From LNTwww
Line 21: Line 21:
 
* $S$:  Summe der beiden Würfel $R$ und $B$
 
* $S$:  Summe der beiden Würfel $R$ und $B$
 
gibt es 6 · 11 = 66 Felder, von denen viele leer sind ⇒ Wahrscheinlichkeit 0. Die Teilmenge $\text{supp}(P_{RS})$ beinhaltet dagegen nur die 36 schraffierten Felder mit von 0 verschiedenen Wahrscheinlichkeiten.
 
gibt es 6 · 11 = 66 Felder, von denen viele leer sind ⇒ Wahrscheinlichkeit 0. Die Teilmenge $\text{supp}(P_{RS})$ beinhaltet dagegen nur die 36 schraffierten Felder mit von 0 verschiedenen Wahrscheinlichkeiten.
Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von PRS oder nur über die Elemente von $\text{supp}(P_{RS})$) erstreckt, da $x$ · \log_2 (\frac{1}{x})$ für $x$ → 0 gleich 0 ergibt.
+
Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von $P_{RS}$ oder nur über die Elemente von $\text{supp}(P_{RS})$ erstreckt, da $x · \log_2 (\frac{1}{x})$ für $x$ → 0 gleich 0 ergibt.
Dagegen sind bei der 2D–Wahrscheinlichkeitsfunktion PRB(R, B) mit
+
Dagegen sind bei der 2D–Wahrscheinlichkeitsfunktion $P_{RB}(R, B)$ mit
 
* $R$:  Augenzahl des roten Würels,
 
* $R$:  Augenzahl des roten Würels,
 
* $B$:  Augenzahl des blauen Würfels
 
* $B$:  Augenzahl des blauen Würfels

Revision as of 20:27, 25 May 2016


Definition der Entropie unter Verwendung von $\text{supp}(P_{XY})$

Wir fassen die Ergebnisse des letzten Abschnitts nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße $XY$ mit der Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$ ausgehen. Gleichzeitig verwenden wir die Schreibweise

Mit dieser Teilmenge $\text{supp}(P_{XY}) ⊂ P_{XY}$ gilt für

  • die Verbundentropie (englisch: Joint Entropy):
  • die Entropien der 1D–Zufallsgrößen $X$ und $Y$:


Bei der zweidimensionalen (2D) Wahrscheinlichkeitsfunktion PRS(R, S) unseres Würfel–Experimentes mit

  • $R$: Augenzahl des roten Würfels,
  • $S$: Summe der beiden Würfel $R$ und $B$

gibt es 6 · 11 = 66 Felder, von denen viele leer sind ⇒ Wahrscheinlichkeit 0. Die Teilmenge $\text{supp}(P_{RS})$ beinhaltet dagegen nur die 36 schraffierten Felder mit von 0 verschiedenen Wahrscheinlichkeiten. Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von $P_{RS}$ oder nur über die Elemente von $\text{supp}(P_{RS})$ erstreckt, da $x · \log_2 (\frac{1}{x})$ für $x$ → 0 gleich 0 ergibt. Dagegen sind bei der 2D–Wahrscheinlichkeitsfunktion $P_{RB}(R, B)$ mit

  • $R$: Augenzahl des roten Würels,
  • $B$: Augenzahl des blauen Würfels

die Mengen $P_{RB}$ und $\text{supp}(P_{RB})$ identisch. Hier sind alle $6^2 = 36$ Felder mit Werten ≠ 0 belegt.


Bedingte Wahrscheinlichkeit und bedingte Entropie

Im Buch „Stochastische Signaltheorie” wurden für den Fall zweier Ereignisse $X$ und $Y$ die folgenden bedingten Wahrscheinlichkeiten angegeben ⇒ Satz von Bayes:

Angewendet auf Wahrscheinlichkeitsfunktionen erhält man somit:

Analog zur Verbundentropie $H(XY)$ lassen sich hier folgende Entropiefunktionen ableiten:


Die bedingte Entropie (englisch: Conditional Entropy) der Zufallsgröße $X$ lautet unter der Bedingung $Y$:

In gleicher Weise erhält man für die zweite bedingte Entropie:



Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion ⇒ $P_{X|Y}(·)$ bzw. $P_{Y|X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit $P_{XY}(·)$ benötigt wird. Für die bedingten Entropien gibt es folgende Begrenzungen:

  • Sowohl $H(X|Y)$ als auch $H(Y|X)$ sind stets größer oder gleich 0. Aus $H(X|Y)$ = 0 folgt direkt auch $H(Y|X)$ = 0. Beides ist nur für disjunkte Mengen $X$ und $Y$ möglich.
  • Es gilt stets $H(X|Y) ≤ H(X)$ sowie $H(Y|X) ≤ H(Y)$. Diese Aussage ist einleuchtend, wenn man sich bewusst macht, dass man für Entropie synonym auch Unsicherheit verwenden kann.
  • Denn: Die Unsicherheit bezüglich $X$ kann nicht dadurch größer werden, dass man $Y$ kennt. Außer bei statistischer Unabhängigkeit ⇒ $H(X|Y)$ = $H(X)$ gilt stets $H(X|Y) < H(X)$.
  • Wegen $H(X) ≤ H(XY)$, $H(Y) ≤ H(XY)$ gilt somit auch $H(X|Y) ≤ H(XY)$ und $H(Y|X) ≤ H(XY)$. Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.


Beispiel F: Wir betrachten die Verbundwahrscheinlichkeiten $P_{RS}(·)$ unseres Würfelexperiments, die im Beispiel D ermittelt wurden. In der Mitte der folgenden Grafik ist $P_{RS}(·)$ nochmals angegeben.

Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen gezeichnet:

  • Links dargestellt ist die bedingte Wahrscheinlichkeitsfunktion $P_{S|R}(⋅)$ = $P_{SR}(⋅)/P_R(⋅)$. Wegen $P_R(R)$ = [1/6, 1/6, 1/6, 1/6, 1/6, 1/6] steht hier in allen schraffierten Feldern ⇒ $\text{supp}(P_{S|R})$ = $\text{supp}(P_{R|S})$ der gleiche Wahrscheinlichkeitswert 1/6. Daraus folgt für die bedingte Entropie:
  • Für die andere bedingte Wahrscheinlichkeitsfunktion $P_{R|S}(⋅)$ = $P_{RS}(⋅)/P_S(⋅)$ mit $P_S(⋅)$ gemäß Beispiel D ergeben sich die gleichen Felder ungleich 0 ⇒ $\text{supp}(P_{R|S})$ = $\text{supp}(P_{S|R})$. Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte (1/6) zu den Rändern hin bis zur Wahrscheinlichkeit 1 in den Ecken kontinuierlich zu. Daraus folgt:

Dagegen ergibt sich für die Zufallsgröße $RB$ gemäß Beispiel C wegen $P_{RB}(⋅)$ = $P_R(⋅) · P_B(⋅)$:



Transinformation zwischen zwei Zufallsgrößen

Wir betrachten die Zufallsgröße $XY$ mit der 2D–Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$. Bekannt seien auch die 1D–Funktionen $P_X(X)$ und $P_Y(Y)$. Nun stellen sich folgende Fragen:

  • Wie vermindert die Kenntnis der Zufallsgröße $Y$ die Unsicherheit bezüglich $X$?
  • Wie vermindert die Kenntnis der Zufallsgröße $X$ die Unsicherheit bezüglich $Y$?

Zur Beantwortung benötigen wir eine für die Informationstheorie substantielle Definition:

Die Transinformation (englisch: Mutual Information) zwischen den Zufallsgrößen $X$ und $Y$ – beide über dem gleichen Alphabet – ist gegeben durch den Ausdruck

Ein Vergleich mit Kapitel 3.1 zeigt, dass die Transinformation auch als Kullback–Leibler–Distanz zwischen der 2D–PMF $P_{XY}(⋅)$ und dem Produkt $P_X(⋅) · P_Y(⋅)$ geschrieben werden kann:

Es ist offensichtlich, dass stets $I(X; Y)$ ≥ 0 gilt. Wegen der Symmetrie ist auch $I(Y; X)$ = $I(X; Y)$.


Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”. Und ebenso sind in Fachbüchern für $I(X; Y)$ auch die Bezeichnungen gemeinsame Entropie und gegenseitige Entropie üblich. Wir sprechen aber im Folgenden durchgängig von der Transinformation $I(X; Y)$ und interpretieren nun diese Größe:

  • Durch Aufspalten des log2–Arguments entsprechend

erhält man unter Verwendung von $P_{X|Y}(⋅)$ = $P_{XY}(⋅)/_PY(Y)$:

Das heißt: Die Unsicherheit hinsichtlich der Zufallsgröße $X$ ⇒ Entropie $H(X)$ vermindert sich bei Kenntnis von $Y$ um den Betrag $H(X|Y)$. Der Rest ist die Transinformation $I(X; Y)$.

  • Bei anderer Aufspaltung kommt man zum Ergebnis:

Ergo: Die Transinformation $I(X; Y)$ ist symmetrisch: $X$ sagt genau so viel über $Y$ aus wie $Y$ über $X$ ⇒ gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.

Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen. Daraus erkennt man, dass auch folgende Gleichungen zutreffen:

Beispiel F: Wir kommen nochmals auf das Würfel–Experiment mit dem roten $(R)$ und dem blauen $(B)$ Würfel zurück. Die Zufallsgröße $S$ gibt die Summe der beiden Würfel an: $S = R + B$. Wir betrachten hier die 2D–Zufallsgröße RS. In früheren Beispielen haben wir berechnet:

  • die Entropien $H(R)$ = 2.585 bit und $H(S)$ = 3.274 bit ⇒ Beispiel D,
  • die Verbundentropie $H(RS)$ = 5.170 bit ⇒ Beispiel D,
  • die bedingten Entropien $H(S|R)$ = 2.585 bit und $H(R|S)$ = 1.896 bit ⇒ Beispiel F.

Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße $R$ durch die Grundfarbe „Rot” und die Summe $S$ durch die Grundfarbe „grün” markiert sind. Bedingte Entropien sind schraffiert. Man erkennt aus dieser Darstellung:

  • Hier ist $H(R)$ = $\log_2 $(6) = 2.585 bit genau halb so groß wie die Verbundentropie $H(RS)$. Kennt man $R$, so liefert $S$ genau die gleiche Information wie die Zufallsgröße $B$, nämlich $H(S|R)$ = $H(B)$ = $\log_2(6)$ = 2.585 bit. Hinweis: $H(R)$ = $H(S|R)$ gilt nicht allgemein.
  • Die Entropie $H(S)$ = 3.274 bit ist im vorliegenden Beispiel erwartungsgemäß größer als $H(R)$. Wegen $H(S) + H(R|S) = H(R) + H(S|R)$ muss deshalb $H(R|S)$ gegenüber $H(S|R)$ um den gleichen Betrag $I(R; S)$ = 0.689 bit kleiner sein wie $H(R)$ gegenüber $H(S)$.
  • Die Transinformation (englisch: Mutual Information) zwischen den Zufallsgrößen $R$ und $S$ ergibt sich aber auch aus der Gleichung

Bedingte Transinformation

Kettenregel der Transinformation

Aufgaben zu Kapitel 3.2