Difference between revisions of "Information Theory/Differential Entropy"

From LNTwww
Line 68: Line 68:
  
 
Die Ergebnisse dieses Experiments interpretieren wir wie folgt:
 
Die Ergebnisse dieses Experiments interpretieren wir wie folgt:
Die Entropie H(Z) nimmt mit steigendem M immer mehr zu.
+
*Die Entropie $H(Z)$ nimmt mit steigendem $M$ immer mehr zu.
Der Grenzwert von H(Z) für M → ∞  ⇒  Δ → 0 ist unendlich.
+
*Der Grenzwert von $H(Z)$ für $M → ∞  ⇒  Δ → 0$ ist unendlich.
Damit ist auch die Entropie H(X) der wertkontinuierlichen Zufallsgröße X unendlich groß.
+
*Damit ist auch die Entropie $H(X)$ der wertkontinuierlichen Zufallsgröße $X$ unendlich groß.
Daraus folgt: Die bisherige Entropie–Definition versagt hier.
+
*Daraus folgt: Die bisherige Entropie–Definition versagt hier.
 +
 
 +
 
 +
Zur Verifizierung unseres empirischen Ergebnisses gehen wir von folgender Gleichung aus:
 +
 +
*Wir spalten nun $H(Z) = S_1 + S_2$ in zwei Summen auf:
 +
 +
Die Näherung $S_1 ≈ –\log_2 Δ$ gilt exakt nur im Grenzfall $Δ → 0$. Die angegebene Näherung für $S_2$ gilt ebenfalls nur für kleine $Δ → {\rm d}x$, so dass man die Summe durch das Integral ersetzen kann.
 +
 
 +
{{Satz}}
 +
'''Verallgemeinerung''': Nähert man die wertkontinuierliche Zufallsgröße $X$ mit der WDF $f_X(x)$ durch eine wertdiskrete Zufallsgröße $Z$ an, indem man eine (feine) Quantisierung mit der Intervallbreite $Δ$ durchführt, so erhält man für die Entropie der Zufallsgröße $Z$:
 +
 +
Das Integral beschreibt die differentielle Entropie $h(X)$ der wertkontinuierlichen Zufallsgröße $X$. Für den Sonderfall  $Δ = 1/M = 2^{–n}$  kann die obige Gleichung auch wie folgt geschrieben werden:
 +
 +
*Im Grenzfall $Δ → 0  ⇒  M → ∞  ⇒  n → ∞$ ist auch die Entropie der wertkontinuierlichen Zufallsgröße unendlich groß: $H(X) → ∞$.
 +
*Auch bei kleinerem $n$ stellt diese Gleichung lediglich eine Näherung für $H(Z)$ dar, wobei die differentielle Entropie $h(X)$ der wertkontinuierlichen Größe als Korrekturfaktor dient.
 +
 
 +
{{end}}
 +
 
 +
{{Beispiel}}
 +
Wir betrachten wie im letzten Beispiel eine Dreieck–WDF (zwischen 0 und 1). Deren differentielle Entropie ergibt sich zu $h(X)$ = –0.279 bit – siehe Aufgabe A4.2. In der Tabelle ist die Entropie $H(Z)$ der mit $n$ Bit quantisierten Größe $Z$ angegeben. Man erkennt bereits für $n$ = 3 eine gute Übereinstimmung zwischen der Näherung (untere Zeile) und der exakten Berechnung.
 +
 
 +
{{end}}
 +
 +
 
 +
 
==Definition und Eigenschaften der differentiellen Entropie ==  
 
==Definition und Eigenschaften der differentiellen Entropie ==  
==Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen  ==
+
 
 +
{{Definition}}
 +
Die differentielle Entropie $h(X)$ einer wertkontinuierlichen Zufallsgröße $X$ lautet mit der Wahrscheinlichkeitsdichtefunktion $f_X(x)$:
 +
 +
Hinzugefügt werden muss jeweils eine Pseudo–Einheit:
 +
*„nat” bei Verwendung von „ln”  ⇒  natürlicher Logarithmus,
 +
*„bit” bei Verwendung von „log2”  ⇒  Logarithmus dualis.
 +
 
 +
{{end}}
 +
 
 +
 
 +
Während für die (herkömmliche) Entropie einer wertdiskreten Zufallsgröße $X$ stets $H(X) ≥ 0$ gilt, kann die differentielle Entropie $h(X)$ einer wertkontinuierlichen Zufallsgröße auch negativ sein. Daraus ist bereits ersichtlich, dass $h(X)$ im Gegensatz zu $H(X)$ nicht als „Unsicherheit” interpretiert werden kann.
 +
 
 +
 
 +
{{Beispiel}}
 +
Die Grafik zeigt die Wahrscheinlichkeitsdichte einer zwischen $x_{\rm min}$ und $x_{\rm max} gleichverteilten Zufallsgröße $X$. Für deren differentielle Entropie erhält man in „nat”:
 +
 
 +
Die Gleichung für die differentielle Entropie in „bit” lautet:  $h(X) = \log_2 [x_{\rm max} – x_{ \rm min}].
 +
 
 +
Die Grafik zeigt anhand einiger Beispiele die numerische Auswertung des obigen Ergebnisses. Auf der nächsten Seite wird auf die Größen $h_1(X), ... , h_6(X)$ näher eingegangen.
 +
 +
{{end}}
 +
 +
{{Satz}}
 +
Aus den Skizzen des letzten Beispiels lassen sich wichtige Eigenschaften der differentiellen Entropie $h(X)$ ablesen:
 +
*Die differentielle Entropie wird durch eine WDF–Verschiebung (um $k$) nicht verändert:
 +
 +
* $h(X)$ ändert sich durch Stauchung/Spreizung der WDF um den Faktor $k ≠ 0$ wie folgt:
 +
 +
 
 +
{{end}}
 +
 
 +
Des Weiteren gelten viele der in Kapitel 3 für den wertdiskreten Fall hergeleitete Gleichungen auch für wertkontinuierliche Zufallsgrößen. Aus der folgenden Zusammenstellung erkennt man, dass oft nur das „$H$” durch ein „$h$” sowie die PMF durch die entsprechende WDF zu ersetzen ist.
 +
 
 +
* '''Bedingte differentielle Entropie''' (englisch: ''Conditional Differential Entropy''):
 +
 
 +
* '''Differentielle Verbundentropie''' (englisch: ''Joint Differential Entropy''):
 +
 
 +
* '''Kettenregel''' der differentiellen Entropie:
 +
 
 +
* '''Kullback–Leibler–Distanz''' zwischen den Zufallsgrößen $X$ und $Y$:
 +
 
 +
==Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen  ==
 +
 
 +
Die Tabelle zeigt die Ergebnisse für drei beispielhafte Wahrscheinlichkeitsdichtefunktionen fX(x). Diese sind alle spitzenwertbegrenzt, das heißt, es gilt jeweils |X| ≤ A.
 +
 
 +
Bei Spitzenwertbegrenzung kann man die differentielle Entropie stets wie folgt darstellen:
 +
 +
Das Argument ΓA · A ist unabhängig davon, welchen Logarithmus man verwendet. Anzufügen ist
 +
bei Verwendung von „ln” ist die Pseudo–Einheit „nat”,
 +
bei Verwendung von „log2” ist die Pseudo–Einheit „bit”.
 +
 
 +
{{Box}}
 +
'''Theorem''': Unter der Nebenbedingung Spitzenwertbegrenzung (englisch: Peak Constraint) ⇒ also WDF fX(x) = 0 für |x| > A  –  führt die Gleichverteilung zur maximalen differentiellen Entropie:
 +
 
 +
Beweis
 +
{{end}}
 +
 
 +
Das Theorem bedeutet gleichzeitig, dass bei jeder anderen spitzenwertbegrenzten WDF (außer der Gleichverteilung) der Kennparameter ΓA kleiner als 2 sein wird.
 +
Für die symmetrische Dreieckverteilung ergibt sich nach obiger Tabelle ΓA = e1/2 ≈ 1.649.
 +
Beim einseitigen Dreieck (zwischen 0 und A) ist demgegenüber ΓA nur halb so groß.
 +
Auch für jedes andere Dreieck (Breite A, Spitze beliebig zwischen 0 und A) gilt ΓA ≈ 0.824.
 +
Die jeweils zweite h(X)–Angabe und die Kenngröße ΓL eignet sich dagegen für den Vergleich von Zufallsgrößen bei Leistungsbegrenzung – siehe nächste Seite. Unter dieser Nebenbedingung ist die symmetrische Dreieckverteilung (ΓL ≈ 16.31) besser als die Gleichverteilung (ΓL = 12).
 +
 
==Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen ==   
 
==Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen ==   
 
==WDF–Herleitung für maximale differentielle Entropie ==  
 
==WDF–Herleitung für maximale differentielle Entropie ==  

Revision as of 12:56, 1 June 2016

Eigenschaften wertkontinuierlicher Zufallsgrößen

Bisher wurden stets wertdiskrete Zufallsgrößen der Form $X = \{x_1, x_2, ... , x_μ, ... , x_M\}$ betrachtet, die aus informationstheoretischer Sicht vollständig durch ihre Wahrscheinlichkeitsfunktion (englisch: Probability Mass Function, PMF) $P_X(X)$ charakterisiert werden:

Eine wertkontinuierliche Zufallsgröße kann dagegen – zumindest in endlichen Intervallen – jeden beliebigen Wert annehmen. Aufgrund des nicht abzählbaren Wertevorrats ist in diesem Fall die Beschreibung durch eine Wahrscheinlichkeitsfunktion nicht möglich oder zumindest nicht sinnvoll: Es ergäbe sich nämlich $M$ → $∞$ sowie $p_1$ → 0, $p_2$ → 0, usw.


Nomenklaturhinweise zu WDF und VTF

Man verwendet zur Beschreibung wertkontinuierlicher Zufallsgrößen gemäß den Definitionen im Buch „Stochastische Signaltheorie” gleichermaßen (beachten Sie die Einträge in der Grafik):

  • Wahrscheinlichkeitsdichtefunktion (WDF, englisch: Probability Density Function, PDF):

In Worten: Der WDF–Wert bei $x_0$ gibt die Wahrscheinlichkeit $p_{Δx}$ an, dass die Zufallsgröße $X$ in einem (unendlich kleinen) Intervall der Breite $Δx$ um $x_0$ liegt, dividiert durch $Δx$.

  • Mittelwert (Moment erster Ordnung, englisch: Mean Value bzw. Expectation Value):
  • Varianz (Zentralmoment zweiter Ordnung, englisch: Variance):
  • Verteilungsfunktion (VTF, englisch: Cumulative Distribution Function, CDF):

Beachten Sie, dass sowohl die WDF–Fläche als auch der VTF–Endwert stets gleich 1 sind.

Wir betrachten nun mit der Gleichverteilung einen wichtigen Sonderfall. Die Grafik zeigt den Verlauf zweier gleichverteilter Größen, die alle Werte zwischen 1 und 5 (Mittelwert $m_1$ = 3) mit gleicher Wahrscheinlichkeit annehmen können. Links ist das Ergebnis eines Zufallsprozesses dargestellt, rechts ein deterministisches Signal („Sägezahn”) mit gleicher Amplitudenverteilung.

Die Wahrscheinlichkeitsdichtefunktion der Gleichverteilung hat den unten skizzierten Verlauf:


Es ergeben sich hier für den Mittelwert $m_1$ = ${\rm E}[X]$ und die Varianz $σ_2$ = ${\rm E}[(X – m_1)^2]$ folgende Gleichungen:

Unten dargestellt ist die Verteilungsfunktion (VTF):

Diese ist für $x ≤ x_{\rm min}$ identisch 0, steigt danach linear an und erreicht bei $x$ = $x_{\rm max}$ den VTF–Endwert 1. Die Wahrscheinlichkeit, dass die Zufallgröße $X$ einen Wert zwischen 3 und 4 annimmt, kann sowohl aus der WDF als auch aus der VTF ermittelt werden:

Weiterhin ist zu beachten:

  • Das Ergebnis $X$ = 0 ist bei dieser Zufallsgröße ausgeschlossen ⇒ Pr($X$ = 0) = 0.
  • Das Ergebnis $X$ = 4 ist dagegen durchaus möglich. Trotzdem gilt auch hier Pr($X$ = 4) = 0.

Entropie wertkontinuierlicher Zufallsgrößen nach Quantisierung

Wir betrachten nun eine wertkontinuierliche Zufallsgröße $X$ im Bereich von 0 bis 1.

  • Wir quantisieren die kontinuierliche Zufallsgröße $X$, um die bisherige Entropieberechnung weiter anwenden zu können. Die so entstehende diskrete (quantisierte) Größe nennen wir $Z$.
  • Die Quantisierungsstufenzahl sei $M$, so dass jedes Quantisierungsintervall $μ$ bei der vorliegenden WDF die Breite $Δ$ = 1/$M$ aufweist. Die Intervallmitten bezeichnen wir mit $x_μ$. *Die Wahrscheinlichkeit $p_μ$ = Pr($Z$ = $z_μ$) bezüglich $Z$ ist gleich der Wahrscheinlichkeit, dass die kontinuierliche Zufallsgröße $X$ einen Wert zwischen $x_μ – Δ/2$ und $x_μ + Δ/2$ besitzt. *Zunächst setzen wir $M$ = 2 und verdoppeln anschließend $M$ in jeder Iteration. Dadurch wird die Quantisierung zunehmend feiner. Im $n$–ten Versuch gilt dann $M$ = $2^n$ und $Δ$ = $2^{–n}$. <div class="example"> Die Grafik zeigt die Ergebnisse der ersten drei Versuche für eine dreieckförmige WDF (zwischen 0 und 1): * $n = 1 ⇒ M = 2 ⇒ Δ = 1/2: H(Z) = 0.811$ bit, * $n = 2 ⇒ M = 4 ⇒ Δ = 1/4: H(Z) = 1.749$ bit, * $n = 3 ⇒ M = 8 ⇒ Δ = 1/8: H(Z) = 2.729$ bit. Zudem können der Grafik noch folgende Größen entnommen werden, zum Beispiel für $Δ = 1/8$: *Die Intervallmitten liegen bei $x_1 = 1/16, x_2 = 3/16, ... , x_8 = 15/16 ⇒ x_μ = Δ · (μ – 1/2)$. *Die Intervallflächen ergeben sich zu $p_μ = Δ · f_X(x_μ) ⇒ p_8 = 1/8 · (7/8+1)/2 = 15/64$. *Damit erhält man $P_Z(Z) = (1/64, 3/64, 5/64, 7/64, 9/64, 11/64, 13/64, 15/64)$. <div style="clear:both;"> </div> </div> Die Ergebnisse dieses Experiments interpretieren wir wie folgt: *Die Entropie $H(Z)$ nimmt mit steigendem $M$ immer mehr zu. *Der Grenzwert von $H(Z)$ für $M → ∞ ⇒ Δ → 0$ ist unendlich. *Damit ist auch die Entropie $H(X)$ der wertkontinuierlichen Zufallsgröße $X$ unendlich groß. *Daraus folgt: Die bisherige Entropie–Definition versagt hier. Zur Verifizierung unseres empirischen Ergebnisses gehen wir von folgender Gleichung aus: *Wir spalten nun $H(Z) = S_1 + S_2$ in zwei Summen auf: Die Näherung $S_1 ≈ –\log_2 Δ$ gilt exakt nur im Grenzfall $Δ → 0$. Die angegebene Näherung für $S_2$ gilt ebenfalls nur für kleine $Δ → {\rm d}x$, so dass man die Summe durch das Integral ersetzen kann. <div class="satz"> '''Verallgemeinerung''': Nähert man die wertkontinuierliche Zufallsgröße $X$ mit der WDF $f_X(x)$ durch eine wertdiskrete Zufallsgröße $Z$ an, indem man eine (feine) Quantisierung mit der Intervallbreite $Δ$ durchführt, so erhält man für die Entropie der Zufallsgröße $Z$: Das Integral beschreibt die differentielle Entropie $h(X)$ der wertkontinuierlichen Zufallsgröße $X$. Für den Sonderfall $Δ = 1/M = 2^{–n}$ kann die obige Gleichung auch wie folgt geschrieben werden: *Im Grenzfall $Δ → 0 ⇒ M → ∞ ⇒ n → ∞$ ist auch die Entropie der wertkontinuierlichen Zufallsgröße unendlich groß: $H(X) → ∞$. *Auch bei kleinerem $n$ stellt diese Gleichung lediglich eine Näherung für $H(Z)$ dar, wobei die differentielle Entropie $h(X)$ der wertkontinuierlichen Größe als Korrekturfaktor dient. <div style="clear:both;"> </div> </div> <div class="example"> Wir betrachten wie im letzten Beispiel eine Dreieck–WDF (zwischen 0 und 1). Deren differentielle Entropie ergibt sich zu $h(X)$ = –0.279 bit – siehe Aufgabe A4.2. In der Tabelle ist die Entropie $H(Z)$ der mit $n$ Bit quantisierten Größe $Z$ angegeben. Man erkennt bereits für $n$ = 3 eine gute Übereinstimmung zwischen der Näherung (untere Zeile) und der exakten Berechnung. <div style="clear:both;"> </div> </div> =='"`UNIQ--h-2--QINU`"'Definition und Eigenschaften der differentiellen Entropie == <div class="definition"> Die differentielle Entropie $h(X)$ einer wertkontinuierlichen Zufallsgröße $X$ lautet mit der Wahrscheinlichkeitsdichtefunktion $f_X(x)$: Hinzugefügt werden muss jeweils eine Pseudo–Einheit: *„nat” bei Verwendung von „ln” ⇒ natürlicher Logarithmus, *„bit” bei Verwendung von „log2” ⇒ Logarithmus dualis. <div style="clear:both;"> </div> </div> Während für die (herkömmliche) Entropie einer wertdiskreten Zufallsgröße $X$ stets $H(X) ≥ 0$ gilt, kann die differentielle Entropie $h(X)$ einer wertkontinuierlichen Zufallsgröße auch negativ sein. Daraus ist bereits ersichtlich, dass $h(X)$ im Gegensatz zu $H(X)$ nicht als „Unsicherheit” interpretiert werden kann. <div class="example"> Die Grafik zeigt die Wahrscheinlichkeitsdichte einer zwischen $x_{\rm min}$ und $x_{\rm max} gleichverteilten Zufallsgröße $X$. Für deren differentielle Entropie erhält man in „nat”:

Die Gleichung für die differentielle Entropie in „bit” lautet: $h(X) = \log_2 [x_{\rm max} – x_{ \rm min}]. Die Grafik zeigt anhand einiger Beispiele die numerische Auswertung des obigen Ergebnisses. Auf der nächsten Seite wird auf die Größen $h_1(X), ... , h_6(X)$ näher eingegangen. <div style="clear:both;"> </div> </div> <div class="satz"> Aus den Skizzen des letzten Beispiels lassen sich wichtige Eigenschaften der differentiellen Entropie $h(X)$ ablesen: *Die differentielle Entropie wird durch eine WDF–Verschiebung (um $k$) nicht verändert: * $h(X)$ ändert sich durch Stauchung/Spreizung der WDF um den Faktor $k ≠ 0$ wie folgt: <div style="clear:both;"> </div> </div> Des Weiteren gelten viele der in Kapitel 3 für den wertdiskreten Fall hergeleitete Gleichungen auch für wertkontinuierliche Zufallsgrößen. Aus der folgenden Zusammenstellung erkennt man, dass oft nur das „$H$” durch ein „$h$” sowie die PMF durch die entsprechende WDF zu ersetzen ist. * '''Bedingte differentielle Entropie''' (englisch: ''Conditional Differential Entropy''): * '''Differentielle Verbundentropie''' (englisch: ''Joint Differential Entropy''): * '''Kettenregel''' der differentiellen Entropie: * '''Kullback–Leibler–Distanz''' zwischen den Zufallsgrößen $X$ und $Y$:

Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen

Die Tabelle zeigt die Ergebnisse für drei beispielhafte Wahrscheinlichkeitsdichtefunktionen fX(x). Diese sind alle spitzenwertbegrenzt, das heißt, es gilt jeweils |X| ≤ A.

Bei Spitzenwertbegrenzung kann man die differentielle Entropie stets wie folgt darstellen:

Das Argument ΓA · A ist unabhängig davon, welchen Logarithmus man verwendet. Anzufügen ist bei Verwendung von „ln” ist die Pseudo–Einheit „nat”, bei Verwendung von „log2” ist die Pseudo–Einheit „bit”.

Theorem: Unter der Nebenbedingung Spitzenwertbegrenzung (englisch: Peak Constraint) ⇒ also WDF fX(x) = 0 für |x| > A – führt die Gleichverteilung zur maximalen differentiellen Entropie:

Beweis

Das Theorem bedeutet gleichzeitig, dass bei jeder anderen spitzenwertbegrenzten WDF (außer der Gleichverteilung) der Kennparameter ΓA kleiner als 2 sein wird. Für die symmetrische Dreieckverteilung ergibt sich nach obiger Tabelle ΓA = e1/2 ≈ 1.649. Beim einseitigen Dreieck (zwischen 0 und A) ist demgegenüber ΓA nur halb so groß. Auch für jedes andere Dreieck (Breite A, Spitze beliebig zwischen 0 und A) gilt ΓA ≈ 0.824. Die jeweils zweite h(X)–Angabe und die Kenngröße ΓL eignet sich dagegen für den Vergleich von Zufallsgrößen bei Leistungsbegrenzung – siehe nächste Seite. Unter dieser Nebenbedingung ist die symmetrische Dreieckverteilung (ΓL ≈ 16.31) besser als die Gleichverteilung (ΓL = 12).

Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen

WDF–Herleitung für maximale differentielle Entropie

Aufgaben zu Kapitel 4.1