Difference between revisions of "Information Theory/Differential Entropy"
Line 68: | Line 68: | ||
Die Ergebnisse dieses Experiments interpretieren wir wie folgt: | Die Ergebnisse dieses Experiments interpretieren wir wie folgt: | ||
− | Die Entropie H(Z) nimmt mit steigendem M immer mehr zu. | + | *Die Entropie $H(Z)$ nimmt mit steigendem $M$ immer mehr zu. |
− | Der Grenzwert von H(Z) für M → ∞ ⇒ Δ → 0 ist unendlich. | + | *Der Grenzwert von $H(Z)$ für $M → ∞ ⇒ Δ → 0$ ist unendlich. |
− | Damit ist auch die Entropie H(X) der wertkontinuierlichen Zufallsgröße X unendlich groß. | + | *Damit ist auch die Entropie $H(X)$ der wertkontinuierlichen Zufallsgröße $X$ unendlich groß. |
− | Daraus folgt: Die bisherige Entropie–Definition versagt hier. | + | *Daraus folgt: Die bisherige Entropie–Definition versagt hier. |
+ | |||
+ | |||
+ | Zur Verifizierung unseres empirischen Ergebnisses gehen wir von folgender Gleichung aus: | ||
+ | |||
+ | *Wir spalten nun H(Z)=S1+S2 in zwei Summen auf: | ||
+ | |||
+ | Die Näherung S_1 ≈ –\log_2 Δ gilt exakt nur im Grenzfall Δ → 0. Die angegebene Näherung für S_2 gilt ebenfalls nur für kleine Δ → {\rm d}x, so dass man die Summe durch das Integral ersetzen kann. | ||
+ | |||
+ | {{Satz}} | ||
+ | '''Verallgemeinerung''': Nähert man die wertkontinuierliche Zufallsgröße X mit der WDF f_X(x) durch eine wertdiskrete Zufallsgröße Z an, indem man eine (feine) Quantisierung mit der Intervallbreite Δ durchführt, so erhält man für die Entropie der Zufallsgröße Z: | ||
+ | |||
+ | Das Integral beschreibt die differentielle Entropie h(X) der wertkontinuierlichen Zufallsgröße X. Für den Sonderfall Δ = 1/M = 2^{–n} kann die obige Gleichung auch wie folgt geschrieben werden: | ||
+ | |||
+ | *Im Grenzfall Δ → 0 ⇒ M → ∞ ⇒ n → ∞ ist auch die Entropie der wertkontinuierlichen Zufallsgröße unendlich groß: H(X) → ∞. | ||
+ | *Auch bei kleinerem n stellt diese Gleichung lediglich eine Näherung für H(Z) dar, wobei die differentielle Entropie h(X) der wertkontinuierlichen Größe als Korrekturfaktor dient. | ||
+ | |||
+ | {{end}} | ||
+ | |||
+ | {{Beispiel}} | ||
+ | Wir betrachten wie im letzten Beispiel eine Dreieck–WDF (zwischen 0 und 1). Deren differentielle Entropie ergibt sich zu h(X) = –0.279 bit – siehe Aufgabe A4.2. In der Tabelle ist die Entropie H(Z) der mit n Bit quantisierten Größe Z angegeben. Man erkennt bereits für n = 3 eine gute Übereinstimmung zwischen der Näherung (untere Zeile) und der exakten Berechnung. | ||
+ | |||
+ | {{end}} | ||
+ | |||
+ | |||
+ | |||
==Definition und Eigenschaften der differentiellen Entropie == | ==Definition und Eigenschaften der differentiellen Entropie == | ||
− | ==Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen == | + | |
+ | {{Definition}} | ||
+ | Die differentielle Entropie h(X) einer wertkontinuierlichen Zufallsgröße X lautet mit der Wahrscheinlichkeitsdichtefunktion f_X(x): | ||
+ | |||
+ | Hinzugefügt werden muss jeweils eine Pseudo–Einheit: | ||
+ | *„nat” bei Verwendung von „ln” ⇒ natürlicher Logarithmus, | ||
+ | *„bit” bei Verwendung von „log2” ⇒ Logarithmus dualis. | ||
+ | |||
+ | {{end}} | ||
+ | |||
+ | |||
+ | Während für die (herkömmliche) Entropie einer wertdiskreten Zufallsgröße X stets H(X) ≥ 0 gilt, kann die differentielle Entropie h(X) einer wertkontinuierlichen Zufallsgröße auch negativ sein. Daraus ist bereits ersichtlich, dass h(X) im Gegensatz zu H(X) nicht als „Unsicherheit” interpretiert werden kann. | ||
+ | |||
+ | |||
+ | {{Beispiel}} | ||
+ | Die Grafik zeigt die Wahrscheinlichkeitsdichte einer zwischen x_{\rm min} und x_{\rm max} gleichverteilten Zufallsgröße X$. Für deren differentielle Entropie erhält man in „nat”: | ||
+ | |||
+ | Die Gleichung für die differentielle Entropie in „bit” lautet: $h(X) = \log_2 [x_{\rm max} – x_{ \rm min}]. | ||
+ | |||
+ | Die Grafik zeigt anhand einiger Beispiele die numerische Auswertung des obigen Ergebnisses. Auf der nächsten Seite wird auf die Größen h_1(X), ... , h_6(X) näher eingegangen. | ||
+ | |||
+ | {{end}} | ||
+ | |||
+ | {{Satz}} | ||
+ | Aus den Skizzen des letzten Beispiels lassen sich wichtige Eigenschaften der differentiellen Entropie h(X) ablesen: | ||
+ | *Die differentielle Entropie wird durch eine WDF–Verschiebung (um k) nicht verändert: | ||
+ | |||
+ | * h(X) ändert sich durch Stauchung/Spreizung der WDF um den Faktor k ≠ 0 wie folgt: | ||
+ | |||
+ | |||
+ | {{end}} | ||
+ | |||
+ | Des Weiteren gelten viele der in Kapitel 3 für den wertdiskreten Fall hergeleitete Gleichungen auch für wertkontinuierliche Zufallsgrößen. Aus der folgenden Zusammenstellung erkennt man, dass oft nur das „H” durch ein „h” sowie die PMF durch die entsprechende WDF zu ersetzen ist. | ||
+ | |||
+ | * '''Bedingte differentielle Entropie''' (englisch: ''Conditional Differential Entropy''): | ||
+ | |||
+ | * '''Differentielle Verbundentropie''' (englisch: ''Joint Differential Entropy''): | ||
+ | |||
+ | * '''Kettenregel''' der differentiellen Entropie: | ||
+ | |||
+ | * '''Kullback–Leibler–Distanz''' zwischen den Zufallsgrößen X und Y: | ||
+ | |||
+ | ==Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen == | ||
+ | |||
+ | Die Tabelle zeigt die Ergebnisse für drei beispielhafte Wahrscheinlichkeitsdichtefunktionen fX(x). Diese sind alle spitzenwertbegrenzt, das heißt, es gilt jeweils |X| ≤ A. | ||
+ | |||
+ | Bei Spitzenwertbegrenzung kann man die differentielle Entropie stets wie folgt darstellen: | ||
+ | |||
+ | Das Argument ΓA · A ist unabhängig davon, welchen Logarithmus man verwendet. Anzufügen ist | ||
+ | bei Verwendung von „ln” ist die Pseudo–Einheit „nat”, | ||
+ | bei Verwendung von „log2” ist die Pseudo–Einheit „bit”. | ||
+ | |||
+ | {{Box}} | ||
+ | '''Theorem''': Unter der Nebenbedingung Spitzenwertbegrenzung (englisch: Peak Constraint) ⇒ also WDF fX(x) = 0 für |x| > A – führt die Gleichverteilung zur maximalen differentiellen Entropie: | ||
+ | |||
+ | Beweis | ||
+ | {{end}} | ||
+ | |||
+ | Das Theorem bedeutet gleichzeitig, dass bei jeder anderen spitzenwertbegrenzten WDF (außer der Gleichverteilung) der Kennparameter ΓA kleiner als 2 sein wird. | ||
+ | Für die symmetrische Dreieckverteilung ergibt sich nach obiger Tabelle ΓA = e1/2 ≈ 1.649. | ||
+ | Beim einseitigen Dreieck (zwischen 0 und A) ist demgegenüber ΓA nur halb so groß. | ||
+ | Auch für jedes andere Dreieck (Breite A, Spitze beliebig zwischen 0 und A) gilt ΓA ≈ 0.824. | ||
+ | Die jeweils zweite h(X)–Angabe und die Kenngröße ΓL eignet sich dagegen für den Vergleich von Zufallsgrößen bei Leistungsbegrenzung – siehe nächste Seite. Unter dieser Nebenbedingung ist die symmetrische Dreieckverteilung (ΓL ≈ 16.31) besser als die Gleichverteilung (ΓL = 12). | ||
+ | |||
==Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen == | ==Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen == | ||
==WDF–Herleitung für maximale differentielle Entropie == | ==WDF–Herleitung für maximale differentielle Entropie == |
Revision as of 13:56, 1 June 2016
Contents
- 1 Eigenschaften wertkontinuierlicher Zufallsgrößen
- 2 Entropie wertkontinuierlicher Zufallsgrößen nach Quantisierung
- 3 Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen
- 4 Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen
- 5 WDF–Herleitung für maximale differentielle Entropie
- 6 Aufgaben zu Kapitel 4.1
Eigenschaften wertkontinuierlicher Zufallsgrößen
Bisher wurden stets wertdiskrete Zufallsgrößen der Form X = \{x_1, x_2, ... , x_μ, ... , x_M\} betrachtet, die aus informationstheoretischer Sicht vollständig durch ihre Wahrscheinlichkeitsfunktion (englisch: Probability Mass Function, PMF) P_X(X) charakterisiert werden:
Eine wertkontinuierliche Zufallsgröße kann dagegen – zumindest in endlichen Intervallen – jeden beliebigen Wert annehmen. Aufgrund des nicht abzählbaren Wertevorrats ist in diesem Fall die Beschreibung durch eine Wahrscheinlichkeitsfunktion nicht möglich oder zumindest nicht sinnvoll: Es ergäbe sich nämlich M → ∞ sowie p_1 → 0, p_2 → 0, usw.
Nomenklaturhinweise zu WDF und VTF
Man verwendet zur Beschreibung wertkontinuierlicher Zufallsgrößen gemäß den Definitionen im Buch „Stochastische Signaltheorie” gleichermaßen (beachten Sie die Einträge in der Grafik):
- Wahrscheinlichkeitsdichtefunktion (WDF, englisch: Probability Density Function, PDF):
In Worten: Der WDF–Wert bei x_0 gibt die Wahrscheinlichkeit p_{Δx} an, dass die Zufallsgröße X in einem (unendlich kleinen) Intervall der Breite Δx um x_0 liegt, dividiert durch Δx.
- Mittelwert (Moment erster Ordnung, englisch: Mean Value bzw. Expectation Value):
- Varianz (Zentralmoment zweiter Ordnung, englisch: Variance):
- Verteilungsfunktion (VTF, englisch: Cumulative Distribution Function, CDF):
Beachten Sie, dass sowohl die WDF–Fläche als auch der VTF–Endwert stets gleich 1 sind.
Wir betrachten nun mit der Gleichverteilung einen wichtigen Sonderfall. Die Grafik zeigt den Verlauf zweier gleichverteilter Größen, die alle Werte zwischen 1 und 5 (Mittelwert m_1 = 3) mit gleicher Wahrscheinlichkeit annehmen können. Links ist das Ergebnis eines Zufallsprozesses dargestellt, rechts ein deterministisches Signal („Sägezahn”) mit gleicher Amplitudenverteilung.
Die Wahrscheinlichkeitsdichtefunktion der Gleichverteilung hat den unten skizzierten Verlauf:
Es ergeben sich hier für den Mittelwert m_1 = {\rm E}[X] und die Varianz σ_2 = {\rm E}[(X – m_1)^2] folgende Gleichungen:
Unten dargestellt ist die Verteilungsfunktion (VTF):
Diese ist für x ≤ x_{\rm min} identisch 0, steigt danach linear an und erreicht bei x = x_{\rm max} den VTF–Endwert 1. Die Wahrscheinlichkeit, dass die Zufallgröße X einen Wert zwischen 3 und 4 annimmt, kann sowohl aus der WDF als auch aus der VTF ermittelt werden:
Weiterhin ist zu beachten:
- Das Ergebnis X = 0 ist bei dieser Zufallsgröße ausgeschlossen ⇒ Pr(X = 0) = 0.
- Das Ergebnis X = 4 ist dagegen durchaus möglich. Trotzdem gilt auch hier Pr(X = 4) = 0.
Entropie wertkontinuierlicher Zufallsgrößen nach Quantisierung
Wir betrachten nun eine wertkontinuierliche Zufallsgröße X im Bereich von 0 bis 1.
- Wir quantisieren die kontinuierliche Zufallsgröße X, um die bisherige Entropieberechnung weiter anwenden zu können. Die so entstehende diskrete (quantisierte) Größe nennen wir Z.
- Die Quantisierungsstufenzahl sei M, so dass jedes Quantisierungsintervall μ bei der vorliegenden WDF die Breite Δ = 1/M aufweist. Die Intervallmitten bezeichnen wir mit x_μ. *Die Wahrscheinlichkeit p_μ = Pr(Z = z_μ) bezüglich Z ist gleich der Wahrscheinlichkeit, dass die kontinuierliche Zufallsgröße X einen Wert zwischen x_μ – Δ/2 und x_μ + Δ/2 besitzt. *Zunächst setzen wir M = 2 und verdoppeln anschließend M in jeder Iteration. Dadurch wird die Quantisierung zunehmend feiner. Im n–ten Versuch gilt dann M = 2^n und Δ = 2^{–n}. <div class="example"> Die Grafik zeigt die Ergebnisse der ersten drei Versuche für eine dreieckförmige WDF (zwischen 0 und 1): * n = 1 ⇒ M = 2 ⇒ Δ = 1/2: H(Z) = 0.811 bit, * n = 2 ⇒ M = 4 ⇒ Δ = 1/4: H(Z) = 1.749 bit, * n = 3 ⇒ M = 8 ⇒ Δ = 1/8: H(Z) = 2.729 bit. Zudem können der Grafik noch folgende Größen entnommen werden, zum Beispiel für Δ = 1/8: *Die Intervallmitten liegen bei x_1 = 1/16, x_2 = 3/16, ... , x_8 = 15/16 ⇒ x_μ = Δ · (μ – 1/2). *Die Intervallflächen ergeben sich zu p_μ = Δ · f_X(x_μ) ⇒ p_8 = 1/8 · (7/8+1)/2 = 15/64. *Damit erhält man P_Z(Z) = (1/64, 3/64, 5/64, 7/64, 9/64, 11/64, 13/64, 15/64). <div style="clear:both;"> </div> </div> Die Ergebnisse dieses Experiments interpretieren wir wie folgt: *Die Entropie H(Z) nimmt mit steigendem M immer mehr zu. *Der Grenzwert von H(Z) für M → ∞ ⇒ Δ → 0 ist unendlich. *Damit ist auch die Entropie H(X) der wertkontinuierlichen Zufallsgröße X unendlich groß. *Daraus folgt: Die bisherige Entropie–Definition versagt hier. Zur Verifizierung unseres empirischen Ergebnisses gehen wir von folgender Gleichung aus: *Wir spalten nun H(Z) = S_1 + S_2 in zwei Summen auf: Die Näherung S_1 ≈ –\log_2 Δ gilt exakt nur im Grenzfall Δ → 0. Die angegebene Näherung für S_2 gilt ebenfalls nur für kleine Δ → {\rm d}x, so dass man die Summe durch das Integral ersetzen kann. <div class="satz"> '''Verallgemeinerung''': Nähert man die wertkontinuierliche Zufallsgröße X mit der WDF f_X(x) durch eine wertdiskrete Zufallsgröße Z an, indem man eine (feine) Quantisierung mit der Intervallbreite Δ durchführt, so erhält man für die Entropie der Zufallsgröße Z: Das Integral beschreibt die differentielle Entropie h(X) der wertkontinuierlichen Zufallsgröße X. Für den Sonderfall Δ = 1/M = 2^{–n} kann die obige Gleichung auch wie folgt geschrieben werden: *Im Grenzfall Δ → 0 ⇒ M → ∞ ⇒ n → ∞ ist auch die Entropie der wertkontinuierlichen Zufallsgröße unendlich groß: H(X) → ∞. *Auch bei kleinerem n stellt diese Gleichung lediglich eine Näherung für H(Z) dar, wobei die differentielle Entropie h(X) der wertkontinuierlichen Größe als Korrekturfaktor dient. <div style="clear:both;"> </div> </div> <div class="example"> Wir betrachten wie im letzten Beispiel eine Dreieck–WDF (zwischen 0 und 1). Deren differentielle Entropie ergibt sich zu h(X) = –0.279 bit – siehe Aufgabe A4.2. In der Tabelle ist die Entropie H(Z) der mit n Bit quantisierten Größe Z angegeben. Man erkennt bereits für n = 3 eine gute Übereinstimmung zwischen der Näherung (untere Zeile) und der exakten Berechnung. <div style="clear:both;"> </div> </div> =='"`UNIQ--h-2--QINU`"'Definition und Eigenschaften der differentiellen Entropie == <div class="definition"> Die differentielle Entropie h(X) einer wertkontinuierlichen Zufallsgröße X lautet mit der Wahrscheinlichkeitsdichtefunktion f_X(x): Hinzugefügt werden muss jeweils eine Pseudo–Einheit: *„nat” bei Verwendung von „ln” ⇒ natürlicher Logarithmus, *„bit” bei Verwendung von „log2” ⇒ Logarithmus dualis. <div style="clear:both;"> </div> </div> Während für die (herkömmliche) Entropie einer wertdiskreten Zufallsgröße X stets H(X) ≥ 0 gilt, kann die differentielle Entropie h(X) einer wertkontinuierlichen Zufallsgröße auch negativ sein. Daraus ist bereits ersichtlich, dass h(X) im Gegensatz zu H(X) nicht als „Unsicherheit” interpretiert werden kann. <div class="example"> Die Grafik zeigt die Wahrscheinlichkeitsdichte einer zwischen x_{\rm min} und x_{\rm max} gleichverteilten Zufallsgröße X$. Für deren differentielle Entropie erhält man in „nat”:
Die Gleichung für die differentielle Entropie in „bit” lautet: h(X) = \log_2 [x_{\rm max} – x_{ \rm min}]. Die Grafik zeigt anhand einiger Beispiele die numerische Auswertung des obigen Ergebnisses. Auf der nächsten Seite wird auf die Größen h_1(X), ... , h_6(X) näher eingegangen. <div style="clear:both;"> </div> </div> <div class="satz"> Aus den Skizzen des letzten Beispiels lassen sich wichtige Eigenschaften der differentiellen Entropie h(X) ablesen: *Die differentielle Entropie wird durch eine WDF–Verschiebung (um k) nicht verändert: * h(X) ändert sich durch Stauchung/Spreizung der WDF um den Faktor k ≠ 0 wie folgt: <div style="clear:both;"> </div> </div> Des Weiteren gelten viele der in Kapitel 3 für den wertdiskreten Fall hergeleitete Gleichungen auch für wertkontinuierliche Zufallsgrößen. Aus der folgenden Zusammenstellung erkennt man, dass oft nur das „H” durch ein „h” sowie die PMF durch die entsprechende WDF zu ersetzen ist. * '''Bedingte differentielle Entropie''' (englisch: ''Conditional Differential Entropy''): * '''Differentielle Verbundentropie''' (englisch: ''Joint Differential Entropy''): * '''Kettenregel''' der differentiellen Entropie: * '''Kullback–Leibler–Distanz''' zwischen den Zufallsgrößen X und Y$:
Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen
Die Tabelle zeigt die Ergebnisse für drei beispielhafte Wahrscheinlichkeitsdichtefunktionen fX(x). Diese sind alle spitzenwertbegrenzt, das heißt, es gilt jeweils |X| ≤ A.
Bei Spitzenwertbegrenzung kann man die differentielle Entropie stets wie folgt darstellen:
Das Argument ΓA · A ist unabhängig davon, welchen Logarithmus man verwendet. Anzufügen ist bei Verwendung von „ln” ist die Pseudo–Einheit „nat”, bei Verwendung von „log2” ist die Pseudo–Einheit „bit”.
Theorem: Unter der Nebenbedingung Spitzenwertbegrenzung (englisch: Peak Constraint) ⇒ also WDF fX(x) = 0 für |x| > A – führt die Gleichverteilung zur maximalen differentiellen Entropie:
Beweis
Das Theorem bedeutet gleichzeitig, dass bei jeder anderen spitzenwertbegrenzten WDF (außer der Gleichverteilung) der Kennparameter ΓA kleiner als 2 sein wird. Für die symmetrische Dreieckverteilung ergibt sich nach obiger Tabelle ΓA = e1/2 ≈ 1.649. Beim einseitigen Dreieck (zwischen 0 und A) ist demgegenüber ΓA nur halb so groß. Auch für jedes andere Dreieck (Breite A, Spitze beliebig zwischen 0 und A) gilt ΓA ≈ 0.824. Die jeweils zweite h(X)–Angabe und die Kenngröße ΓL eignet sich dagegen für den Vergleich von Zufallsgrößen bei Leistungsbegrenzung – siehe nächste Seite. Unter dieser Nebenbedingung ist die symmetrische Dreieckverteilung (ΓL ≈ 16.31) besser als die Gleichverteilung (ΓL = 12).