LNTwww - User contributions [en]

Fehlerhafte Links

2017-02-05T19:41:39Z

LukasWolf:

{{Header
|Untermenü=
|Vorherige Seite=
|Nächste Seite=
}}
'''Fehlerhafte Links in folgenden Kapiteln:'''

Buch Signaldarstellung:
*Grundbegriffe der NT-Prinzip der Nachrichtenübertragung-Nachrichtenquelle
*Grundbegriffe der NT-Prinzip der Nachrichtenübertragung-Übertragungskanal
*Grundbegriffe der NT-Klassifikation von Signalen-Analog- und Digitalsignale
*Grundbegriffe der NT-Rechnen mit komplexen Zahlen-Rechenregeln für komplexe Zahlen
*Periodische Signale-Allgemeine Beschreibung-Resultierende Periodendauer
*Periodische Signale-Gleichsignal-Diracfunktion im Frequenzbereich
*Periodische Signale-Harmonische Schwingung-Definition und Eigenschaften
*Periodische Signale-Harmonische Schwingung-Allgemeine Spektraldarstellung
*Periodische Signale-Fourierreihe-Berechnung der Fourierkoeffizienten
*Periodische Signale-Fourierreihe-Ausnutzung der Symmetrieeigenschaften
*Periodische Signale-Fourierreihe-Das Gibbsche Phänomen
*Periodische Signale-FT-Rücktrafo
*Periodische Signale-Sonderfälle
*Periodische Signale-Gesetzmäßigkeiten der FT
*Periodische Signale-Faltungssatz und Faltungsoperation-Grafische Faltung
*Bandpassartige Signale-Unterschiede und Gemeinsamkeiten-Synthese
*Bandpassartige Signale-Analytisches Signal und zugehörige Spektralfunktion-Zeigerdiagramm einer Summe harmonischer Schwingungen
*Bandpassartige Signale-Analytisches Signal und zugehörige Spektralfunktion-Warum gibt es für das gleiche Signal drei Darstellungsformen?
*Zeit und frequenzdiskrete SD-Zeitdiskrete Signaldarstellung-Das Abtasttheorem
*Zeit und frequenzdiskrete SD-Fehlermöglichkeiten bei Andwendung der DFT-Der mittlere quad. Fehler Qualitätskriterium
*Zeit und frequenzdiskrete SD-Fehlermöglichkeiten bei DFT-Aliasing
*Zeit und frequenzdiskrete SD-FFT-Radix-2-Algorithmus

Buch Lineare zeitinvariante Systeme
*Eigenschaften elektrischer Leitungen-Koaxialkabel-Interaktionsmodul
*Eigenschaften elektrischer Leitungen-Koaxialkabel-Interaktionsmodul #Empfangsgrundimpuls
*Eigenschaften elektrischer Leitungen-Kupfer Doppelader-Impulsantworten von Zweidrahtleitungen (3) Interaktionsmodul fehlt

Buch Stochastische Signaltheorie
*Wahrscheinlichkeitsrechnung-Einige grundlegende Definitionen-Ereignis und Ereignismenge: Videolink fehlt
*Wahrscheinlichkeitsrechnung-Mengentheoretische Grundlagen-Venndiagramm: Videolink
*Wahrscheinlichkeitsrechnung-Statistische Abhängigkeit und Unabh.-Rückschlusswsk. Videolink
*WSKR-Markowketten
*Diskrete ZG-WSK und rel. Häufigkeit-Bernoulli große Zahlen
*Diskrete ZG-WSk und rel. Häufigkeit-Quadratischer Mittelwert – Varianz – Streuung
*Diskrete ZG-WSK und rel Häufigkeit-Wahrscheinlichkeiten der Binomialverteilung
*Diskrete ZG-Poissonverteilung-Momente der Poissonverteilung zwei Module fehlen
*Diskrete ZG-Poissonverteilung-Gegenüberstellung Binomialverteilung - Poissonverteilung Module
*Diskrete ZG-Erzeugung-Reziproke Polynome
*Kontinuierliche Zufallsgrößen-WDF Definition Video
*Kontinuierliche ZG-WDF Diskret Video
*Kontinuierliche ZG-VTF bei kontinuierlichen Zufallsgrößen (2)
*Stochastische_Signaltheorie/Verteilungsfunktion_(VTF)#VTF_bei_kontinuierlichen_Zufallsgr.C3.B6.C3.9Fen_.281.29 LATEX FORMEL funktioniert nicht ???
*Kontinuierliche ZG-Erwartungswerte und Momente-Berechnung als Zeitmittelwert
*Kontinuierliche ZG-Gleichverteilte ZG-Bedeutung der Gleichverteilung für die Nachrichtentechnik
*Kontinuierliche ZG-Gaußverteilte ZG-Wahrscheinlichkeitsdichte- und Verteilungsfunktion
*Kontinuierliche ZG-Gaußverteilte ZG-Überschreitungswahrscheinlichkeit Interaktionsmodul fehlt
*Kontinuierliche ZG-Gaußverteilte ZG-Zentralmomente und Momente
*Kontinuierliche ZG-Gaußverteilte ZG-Erzeugung mittels Additionsmethode Lernvideo
*Kontinuierliche ZG-Exponentialverteilte ZG-Erzeugung einer exponentialverteilten Zufallsgröße (1) Lernvideo + 2 Tools
*Kontinuierliche ZG-Weitere Verteilungen-Riceverteilung Tool
*ZG stat. Bindungen-Zweidimensionale ZG- Korrelationsgerade
*ZG stat. Bindungen-2D Gaußsche -Wahrscheinlichkeitsdichte- und Verteilungsfunktion (2) Modul
*ZG stat. Bindungen-2D Gaußsche -Höhenlinien bei unkorrelierten Zufallsgrößen
*ZG stat. Bindungen-2D Gaußsche -Höhenlinien bei korrelierten Zufallsgrößen , 2 Videos
*ZG stat.Bindungen-LDS-Reziprozitätsgesetz von AKF-Zeitdauer und LDS-Bandbreite (2), 3 Videos
*ZG stat.Bindungen-LDS-Leistungsdichtespektrum mit Gleichsignalkomponente
*ZG stat.Bindungen-Verallgemeinerung auf N-dim-Zusammenhang zwischen Kovarianzmatrix und WDF, 2 Links
*Filterung stochastischer Signale-Stochastische Systemtheorie-Leistungsdichtespektrum des Filterausgangssignals

Buch Informationstheorie
*Einführung-Entropie wertdiskret-Natürliche wertdiskrete
*Quellencodierung-Allg.Beschreibung-Verlustbehaftete Quellencodierung: Modul fehlt
*Quellencodierung-Allg.Beschreibung-Verlustbehaftete Quellencodierung: Modul 2 fehlt
*Quellencodierung-Komprimierung-Lempel Ziv Codierung: Modul fehlt
*Quellencodierung-Komprimierung-Effizienz der LZ Codierung: Modul fehlt
*Quellencodierung-Komprimierung-Quantitative Aussagen: Modul fehlt
*Wertkontinuierliche Informationstheorie-AWGN KanalKapazität diskret-AWGN für binäre Eingangssignale: Modul fehlt
*

Buch Beispiele von Nachrichtensystemen:
*GSM-Komponenten der Sprach- und Datenübertragung: Grafik fehlt komplett
*

{{Display}}

Information Theory/AWGN Channel Capacity for Discrete-Valued Input

2017-02-05T19:41:15Z

LukasWolf:

{{LastPage}}
{{Header
|Untermenü=Wertkontinuierliche Informationstheorie
|Vorherige Seite=AWGN–Kanalkapazität bei wertkontinuierlichem Eingang
|Nächste Seite=
}}

==AWGN–Modell für zeitdiskrete bandbegrenzte Signale==

Am Ende von Kapitel 4.2 wurde das AWGN–Modell entsprechend der linken Grafik verwendet, gekennzeichnet durch die beiden Zufallsgrößen $X$ und $Y$ am Eingang und Ausgang sowie die stochastische Störung $N$ als das Ergebnis eines mittelwertfreien Gaußschen Zufallsprozesses ⇒ „Weißes Rauschen” mit der Varianz $σ_N^2$. Die Störleistung $P_N$ ist ebenfalls gleich $σ_N^2$.

[[File:P_ID2931__Inf_T_4_3_S1a.png|Zwei weitgehend äquivalente Modelle für den AWGN–Kanal]]

Die maximale Transinformation $I(X; Y)$ zwischen Eingang und Ausgang ⇒ Kanalkapazität $C$ ergibt sich dann, wenn eine Gaußsche Eingangs–WDF $f_X(x)$ vorliegt. Mit der Sendeleistung $P_X = σ_X^2$ (Varianz der Zufallsgröße $X$) lautet die Kanalkapazitätsgleichung:

$$C = 1/2 \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + {P_X}/{P_N})
\hspace{0.05cm}.$$

Nun beschreiben wir das AWGN–Kanalmodell gemäß dem rechts skizzierten Fall, dass am Kanaleingang die Folge $〈X_ν〉$ anliegt, wobei der Abstand zwischen aufeinander folgenden Werten $T_A$ beträgt. Diese Folge ist das zeitdiskrete Äquivalent des zeitkontinuierlichen Signals X(t) nach Bandbegrenzung und Abtastung.
Der Zusammenhang zwischen beiden Modellen kann anhand der folgenden Grafik hergestellt werden, die auf der nächsten Seite noch genauer beschrieben wird.

[[File: P_ID2932__Inf_T_4_3_S1b.png| AWGN–Modell unter Berücksichtigung von Zeitdiskretisierung und Bandbegrenzung]]

Die wesentlichen Erkenntnisse vorneweg:
*Beim rechten Modell gilt zu den Abtastzeitpunkten $ν·T_A$ genau der gleiche Zusammenhang $Y_ν = X_ν + N_ν$ wie beim bisherigen (linken) Modell.
*Die Störkomponente $N_ν$ ist nun durch (auf $±B$) bandbegrenztes Weißes Rauschen mit zweiseitiger Leistungsdichte $Φ_N(f) = N_0/2$ zu modellieren, wobei $B = 1/(2T_A)$ gelten muss ⇒ „Abtasttheorem”.

Beim Modell gemäß der oberen Grafik auf der letzten Seite gehen wir von einer unendlichen Folge $〈X_ν〉$ von Gaußschen Zufallsgrößen aus, die einem [[Signaldarstellung/Zeitdiskrete_Signaldarstellung#Zeitbereichsdarstellung|Diracpuls]] $p_δ(t)$ eingeprägt werden. Das resultierende zeitdiskrete Signal lautet somit:

$$X_{\delta}(t) = T_{\rm A} \cdot \hspace{-0.1cm} \sum_{\nu = - \infty }^{+\infty} X_{\nu} \cdot
\delta(t- \nu \cdot T_{\rm A}
)\hspace{0.05cm}.$$

Der Abstand aller (gewichteten) Diracfunktionen ist einheitlich $T_A$.
Durch das Interpolationsfilter mit der Impulsantwort $h(t)$ sowie dem Frequenzgang $H(f)$, wobei

$$h(t) = 1/T_{\rm A} \cdot {\rm si}(\pi \cdot t/T_{\rm A}) \quad \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet \quad H(f) =
\left\{ \begin{array}{c} 1 \\ 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| \le B, \\ {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| > B, \\ \end{array}
\hspace{0.5cm} B = \frac{1}{T_{\rm A}}$$

gelten muss, entsteht das zeitkontinuierliche Signal $X(t)$ mit folgenden Eigenschaften:
*Die Abtastwerte $X(ν·T_A)$ sind für alle ganzzahligen $ν$ identisch mit den Eingangswerten $X_ν$, was mit den äquidistanten Nullstellen der [[Signaldarstellung/Einige_Sonderfälle_impulsartiger_Signale#Rechteckimpuls|Spaltfunktion]] ⇒ $\text{si}(x) = \sin(x)/x$ begründet werden kann.
*Gemäß dem Abtasttheorem ist $X(t)$ auf den Spektralbereich $±B$ ideal bandbegrenzt, wie die obige Rechnung gezeigt hat ⇒ rechteckförmiger Frequenzgang $H(f)$ der einseitigen Bandbreite $B$.

Nach der Addition der Störung $N(t)$ mit der (zweiseitigen) Leistungsdichte $Φ_N(t) = N_0/2$ folgt das Matched–Filter mit si–förmiger Impulsantwort. Für die Störleistung am MF–Ausgang erhält man:

$$P_N = {\rm E}[N_\nu^2] = \frac{N_0}{2T_{\rm A}} = N_0 \cdot B\hspace{0.05cm}.$$

{{Box}}
'''Beweis''': Mit $B = 1/(2T_A)$ erhält man für die Impulsantwort $h_E(t)$ und die Spektralfunktion $H_E(f)$:

$$h_{\rm E}(t) = 2B \cdot {\rm si}(2\pi \cdot B \cdot t) \quad \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet \quad H_{\rm E}(f) =
\left\{ \begin{array}{c} 1 \\ 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| \le B, \\ {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| > B. \\ \end{array} $$

Daraus folgt entsprechend den Erkenntnissen der [[Stochastische_Signaltheorie/Stochastische_Systemtheorie#Problemstellung|Stochastischen Systemtheorie]]:

$$P_N =
\int_{-\infty}^{+\infty}
\hspace{-0.3cm} {\it \Phi}_N (f) \cdot |H_{\rm E}(f)|^2
\hspace{0.15cm}{\rm d}f = \int_{-B}^{+B}
\hspace{-0.3cm} {\it \Phi}_N (f)
\hspace{0.15cm}{\rm d}f = \frac{N_0}{2} \cdot 2B = N_0 \cdot B
\hspace{0.05cm}.$$

{{end}}

*Tastet man das MF–Ausgangssignal in äquidistanten Abständen $T_A$ ab, so ergibt sich für die Zeitpunkte $ν·T_A$ die gleiche Konstellation wie bisher: $Y_ν = X_ν + N_ν$.
*Der Störanteil $N_ν$ im zeitdiskreten Ausgangssignal $Y_ν$ ist somit „bandbegrenzt” und „weiß”. Die Kanalkapazitätsgleichung muss somit nur geringfügig angepasst werden;

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {P_X}{N_0 \cdot B})
= \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {2 \cdot P_X \cdot T_{\rm A}}{N_0})
= \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {2 \cdot E_{\rm S}}{N_0})
\hspace{0.05cm}.$$

$E_S$ ist die Sende–Energie innerhalb einer Symboldauer $T_A$ ⇒ '''Energie pro Symbol'''.

==Die Kanalkapazität $C$ als Funktion von $E_S/N_0$ ==

Die obere Grafik zeigt den Verlauf der AWGN–Kanalkapazität in Abhängigkeit des Quotienten $E_S/N_0$, wobei die linke Koordinatenachse und die roten Beschriftungen gültig sind:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel\hspace{0.05cm}use)}
\hspace{0.05cm}.$$

Die Einheit wird manchmal auch mit „bit/Quellensymbol” oder kurz „bit/Symbol” bezeichnet.

[[File:P_ID2934__Inf_T_4_3_S2a.png| Kanalkapazitäten C und C∗ über ES/N0]]

Die rechte (blaue) Achsenbeschriftung berücksichtigt die Beziehung $B = 1/(2T_A)$ und liefert somit eine obere Schranke für die Bitrate eines Digitalsystems, die bei diesem AWGN–Kanal noch möglich ist.

$$C^{\hspace{0.05cm}*} = \frac{C}{T_{\rm A}} = B \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{1.0cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Sekunde}
\hspace{0.05cm}.$$

Meist gibt man den Quotienten aus Symbolenergie $(E_S)$ und AWGN–Rauschleistungsdichte $(N_0)$ in logarithmischer Form an. Die untere Grafik zeigt die Kanalkapazitäten $C$ bzw. $C*$ als Funktion von 10 · lg $(E_S/N_0)$ im Bereich von –20 dB bis +30 dB. Ab etwa 10 dB ergibt sich ein (nahezu) linearer Verlauf.

[[File:P_ID2935__Inf_T_4_3_S2b.png|AWGN–Kanalkapazität als Funktion von 10 · lg (ES/N0) ]]

==Systemmodell zur Interpretation der AWGN–Kanalkapazität==

Um das [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung#Definition_und_Bedeutung_der_Kanalkapazit.C3.A4t|Kanalcodierungstheorem]] im Zusammenhang mit dem AWGN–Kanal besprechen zu können, benötigen wir noch eine Codiervorrichtung, die informationstheoretisch vollständig durch die Coderate $R$ gekennzeichnet wird.

[[File:P_ID2937__Inf_T_4_3_S3_neu.png|Modell zur Interpretation der AWGN–Kanalkapazität]]

Die Grafik beschreibt das von Shannon betrachtete Nachrichtensystem mit den Blöcken Quelle, Coder, (AWGN–)Kanal, Decoder und Empfänger. Im Hintergrund erkennt man ein Originalbild aus einem Shannon–Aufsatz zu diesem Thema. Rot eingezeichnet sind einige Bezeichnungen und Erläuterungen für den folgenden Text:
*Das Quellensymbol $U$ entstammt einem Alphabet mit $M_U = |U| = 2^k$ Symbolen und kann durch $k$ gleichwahrscheinliche statistisch unabhängige Binärsymbole repräsentiert werden.
*Das Alphabet des Codesymbols $X$ hat den Symbolumfang $M_X = |X| = 2^n$, wobei sich $n$ aus der Coderate $R = k/n$ ergibt. Für $R = 1$ gilt somit $n = k$.
*Der Fall $n > k$ führt zu einer Coderate $R < 1$ und aus $n < k$ folgt für die Coderate $R > 1$.

Das '''Kanalcodierungstheorem''' besagt, dass es (mindestens) einen Code der Rate $R$ gibt, der zur Symbolfehlerwahrscheinlichkeit $p_S = \text{Pr}(V ≠ U) = 0$ führt, falls folgende Bedingungen erfüllt sind:
*Die Coderate $R$ ist nicht größer als die Kanalkapazität $C$.
*Ein solcher geeigneter Code ist unendlich lang: $n → ∞$, das heißt, dass die Zufallsgröße $X$ am Kanaleingang wertkontinuierlich ist. Gleiches gilt für $U$ sowie für die Zufallsgrößen $Y$ und $V$ nach dem AWGN–Kanal.
*Wegen $n → ∞$ ist auch tatsächlich eine Gaußverteilung $f_X(x)$ am Kanaleingang möglich, die der bisherigen Berechnung der AWGN–Kanalkapazität stets zugrunde gelegt wurde:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel \hspace{0.05cm}use)}
\hspace{0.05cm}.$$

*Für einen Systemvergleich ist die Energie pro Symbol $(E_S)$ ungeeignet. Ein Vergleich sollte vielmehr auf der Energie $E_B$ pro Informationsbit basieren. Mit $E_B = E_S/R$ gilt somit auch:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot R \cdot E_{\rm B}}{N_0})
\hspace{0.2cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.1cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel \hspace{0.05cm}use)}
\hspace{0.05cm}.$$

Diese beiden Gleichungen werden auf der nächsten Seite diskutiert.

==Die Kanalkapazität $C$ als Funktion von $E_B/N_0$==

Die folgende Grafik zeigt die AWGN–Kanalkapazität $C$ als Funktion von
*10 · lg $(E_S/N_0)$ ⇒ roter Kurvenverlauf:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (oder\hspace{-0.15cm}: \hspace{0.05cm}bit/Symbol)}
\hspace{0.05cm}.$$

Rote Zahlen: Kapazität $C$ in „bit/Symbol” für 10 · lg $(E_S/N_0)$ = –20 dB, –15 dB, ... , +30dB.
*10 · lg $(E_B/N_0)$ ⇒ grüner Kurvenverlauf:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot R \cdot E_{\rm B}}{N_0})
\hspace{0.2cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.1cm} (oder \hspace{-0.15cm}: \hspace{0.05cm}bit/Symbol)}
\hspace{0.05cm}.$$

Grüne Zahlen: Erforderliches 10 · lg $(E_B/N_0)$ in „dB” für $C$ = 0, 1, ... , 5 in „bit/Symbol”.

[[File:P_ID2938__Inf_T_4_3_S4.png|Die AWGN–Kanalkapazität in zwei unterschiedlichen Darstellungen]]

Die $C(E_B/N_0)$–Berechnung finden Sie in der Aufgabe A4.8 und der zugehörigen Musterlösung. Im Folgenden interpretieren wir das Ergebnis im Vergleich zur [[Informationstheorie/AWGN–Kanalkapazität_bei_wertdiskretem_Eingang#Die_Kanalkapazit.C3.A4t_.7FUNIQ-MathJax74-QINU.7F_als_Funktion_von_.7FUNIQ-MathJax75-QINU.7F|C(E_S/N_0)–Kurve]]:
*Wegen $E_S = R · E_B$ liegt der Schnittpunkt beider Kurven bei $C$ (= $R$) = 1 [bit/Symbol]. Erforderlich sind dazu 10 · lg $(E_S/N_0)$ = 1.76 dB bzw. 10 · lg $(E_B/N_0)$ = 1.76 dB.
*Im Bereich $C$ > 1 liegt die grüne Kurve stets über der roten. Beispielsweise ergibt sich für 10 · lg $(E_B/N_0)$ = 20 dB die Kanalkapazität $C$ ≈ 5, für 10 · lg $(E_S/N_0)$ = 20 dB nur $C$ = 3.83.
*Ein Vergleich in horizontaler Richtung zeigt, dass die Kanalkapazität $C$ = 3 bit/Symbol schon mit 10 · lg $(E_B/N_0)$ ≈ 10 dB erreichbar ist, man aber 10 · lg $(E_S/N_0)$ ≈ 15 dB benötigt.
*Im Bereich $C$ < 1 liegt die rote Kurve stets über der grünen. Für $E_S/N_0$ > 0 gilt auch $C$ > 0. Bei logarithmischer Abszisse reicht somit die rote Kurve bis ins „Minus–Unendliche”.
*Dagegen endet die grüne Kurve bei $E_B/N_0$ = ln (2) = 0.693 ⇒ 10 · lg $(E_B/N_0)$ = –1.59 dB ⇒ absolute Grenze für die (fehlerfreie) Übertragung über den AWGN–Kanal.

==AWGN–Kanalkapazität für binäre Eingangssignale ==

Auf den bisherigen Seiten des Kapitels 4.3 wurde stets entsprechend der Shannon–Theorie von einem gaußverteilten und damit wertkontinuierlichem AWGN–Eingang $X$ ausgegangen. Nun betrachten wir den binären Fall und werden somit der Überschrift „''AWGN–Kanalkapazität bei wertdiskretem Eingang''” dieses Kapitels gerecht.

[[File:P_ID2941__Inf_T_4_3_S5a_neu.png|Zur Berechnung der AWGN–Kanalkapazität für BPSK]]

Die Grafik zeigt das zugrundeliegende Blockschaltbild für [[Digitalsignalübertragung/Lineare_digitale_Modulation_–_Kohärente_Demodulation#Gemeinsames_Blockschaltbild_f.C3.BCr_ASK_und_BPSK|Binary Phase Shift Keying]] (BPSK) mit binärem Eingang $U$ und ebenfalls binärem Ausgang $V$. Durch eine bestmögliche Codierung soll erreicht werden, dass die Fehlerwahrscheinlichkeit $\text{Pr}(V ≠ U)$ verschwindend klein wird.
*Der Coderausgang ist gekennzeichnet durch die binäre Zufallsgröße $X ' = \{0, 1\} ⇒ M_{X'} = 2$, während der Ausgang $Y$ des AWGN–Kanals weiterhin wertkontinuierlich ist: $M_Y → ∞$.
*Durch das Mapping $X = 1 – 2X '$ kommt man von der unipolaren Darstellung zu der für BPSK besser geeigneten bipolaren (antipodalen) Beschreibung: $X ' = 0 → X = +1; X ' = 1 → X = –1$.

[[File:P_ID2942__Inf_T_4_3_S5b_neu.png|Bedingte Wahrscheinlichkeitsdichtefunktionen]]

*Der AWGN–Kanal ist hier durch die beiden bedingten Wahrscheinlichkeitsdichtefunktionen charakterisiert:

$$\begin{align*}f_{Y|\hspace{0.03cm}{X}}(y|\hspace{0.03cm}{X}=+1) \hspace{-0.15cm} & = \hspace{-0.15cm} \frac{1}{\sqrt{2\pi\sigma^2}} \cdot {\rm exp}\left [-\frac{(y - 1)^2} { 2 \sigma^2})\right ] \hspace{0.05cm}\hspace{0.05cm},\\
f_{Y|\hspace{0.03cm}{X}}(y|\hspace{0.03cm}{X}=-1) \hspace{-0.15cm} & = \hspace{-0.15cm} \frac{1}{\sqrt{2\pi\sigma^2}} \cdot {\rm exp}\left [-\frac{(y + 1)^2} { 2 \sigma^2})\right ] \hspace{0.05cm}
\hspace{0.05cm}. \end{align*}$$

In Kurzform: $f_{Y | X} (y | +1)$ bzw. $f_{Y | X} (y | –1)$.
*Da hier das Nutzsignal $X$ auf ±1 normiert ist ⇒ Leistung 1 anstelle von $P_X$, muss die Varianz des AWGN–Rauschens $N$ in gleicher Weise normiert werden: $σ^2 = P_N/P_X$.
*Der Empfänger trifft aus der reellwertigen Zufallsgröße $Y$ (am AWGN–Kanalausgang) eine [[Kanalcodierung/Klassifizierung_von_Signalen#ML.E2.80.93Entscheidung_beim_AWGN.E2.80.93Kanal|Maximum–Likelihood–Entscheidung]]. Der Empfängerausgang $V$ ist binär (0 oder 1).

Ausgehend von diesem Modell wird auf der nächsten Seite die Kanalkapazität berechnet.

Die Kanalkapazität des AWGN–Kanals unter der Nebenbedingung einer binären Eingangsgröße $X$ lautet allgemein unter Berücksichtigung von $\text{Pr}(X = –1) = 1 – \text{Pr}(X = +1)$:

$$C_{\rm BPSK} = \max_{ {\rm Pr}({X} =+1)} \hspace{-0.15cm} I(X;Y)
\hspace{0.05cm}.$$

Aufgrund des symmetrischen Kanals ist offensichtlich, dass die Eingangswahrscheinlichkeiten

$${\rm Pr}({{X}} =+1) = {\rm Pr}({{X} =-1)} = 0.5 $$

zum Optimum führen werden. Gemäß [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Transinformationsberechnung_bei_additiver_St.C3.B6rung|Kapitel 4.2]] gibt es mehrere Berechnungsmöglichkeiten:

$$ \begin{align*}C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(X) + h(Y) - h(XY)\hspace{0.05cm},\\
C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(Y) - h(Y|X)\hspace{0.05cm},\\
C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(X) - h(X|Y)\hspace{0.05cm}. \end{align*}$$

Alle Ergebnisse sind noch um die Pseudo–Einheit „bit” zu ergänzen. Wir wählen hier die mittlere Gleichung:
*Die hierfür benötigte bedingte differentielle Entropie ist gleich

$$h(Y|X) = h(N) = 1/2 \cdot {\rm log}_2 \hspace{0.1cm}(2\pi{\rm e}\cdot \sigma^2)
\hspace{0.05cm}. $$

*Die differentielle Entropie $h(Y)$ ist vollständig durch die WDF $f_Y(y)$ gegeben. Mit den vorne definierten und skizzierten bedingten Wahrscheinlichkeitsdichtefunktionen erhält man:

$$f_Y(y) = \frac{1}{2} \cdot \left [ f_{Y|{X}}(y\hspace{0.05cm}|{X}=-1) + f_{Y|{X}}(y\hspace{0.05cm}|{X}=+1) \right ]$$

$$\Rightarrow \hspace{0.3cm} h(Y) \hspace{-0.01cm}=\hspace{0.05cm}
-\hspace{-0.7cm} \int\limits_{y \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}(f_Y)} \hspace{-0.65cm} f_Y(y) \cdot {\rm log}_2 \hspace{0.1cm} [f_Y(y)] \hspace{0.1cm}{\rm d}y
\hspace{0.05cm}.$$

Es ist offensichtlich, dass $h(Y)$ nur durch numerische Integration ermittelt werden kann, insbesondere, wenn man berücksichtigt, dass sich im Überlappungsbereich $f_Y(y)$ aus der Summe der beiden bedingten Gauß–Funktionen ergibt.

[[File:P_ID2944__Inf_T_4_3_S5d.png|CBPSK und CGauß im Vergleich]]

Das skizzierte Ergebnis wird auf der nächsten Seite diskutiert.

In der folgenden Grafik sind über der Abszisse 10 · lg $(E_B/N_0)$ drei Kurven dargestellt:
*die Kanalkapazität $C_{\rm Gauß}$, gültig für eine Gaußsche Eingangsgröße $X ⇒ M_X → ∞$,
*die Kanalkapazität $C_{\rm BPSK}$ für die Zufallsgröße $X = (+1, –1)$, sowie
*die mit „BPSK ohne Codierung” bezeichnete Horizontale.

[[File:P_ID2946__Inf_T_4_3_S5c_neu.png|CBPSK und CGauß im Vergleich]]

Diese Kurvenverläufe sind wie folgt zu interpretieren:
*Die grüne Kurve $C_{\rm BPSK}$ gibt die maximal zulässige Coderate $R$ einer BPSK an, bei der für das gegebene $E_B/N_0$ durch bestmögliche Codierung die Bitfehlerwahrscheinlichkeit $p_B$ = 0 möglich ist.
*Für alle BPSK–Systeme mit den Koordinaten (10 · lg $E_B/N_0$, $R$) im „grünen Bereich” ist $p_B$ = 0 prinzipiell erreichbar. Aufgabe der Nachrichtentechniker ist es, hierfür geeignete Codes zu finden.
*Die BPSK–Kurve liegt stets unter der absoluten Shannon–Grenzkurve $C_{\rm Gauß}$ für $M_X → ∞$. Im unteren Bereich gilt $C_{\rm BPSK} ≈ C_{\rm Gauß}$. Zum Beispiel muss ein BPSK–System mit $R$ = 1/2 nur ein um 0.1 dB größeres $E_B/N_0$ bereitstellen, als es die (absolute) Kanalkapazität $C_{\rm Gauß}$ fordert.
*Ist $E_B/N_0$ endlich, so gilt stets $C_{\rm BPSK}$ < 1 ⇒ siehe Aufgabe Z4.9. Eine BPSK mit $R$ = 1 (und somit ohne Codierung) wird stets eine Bitfehlerwahrscheinlichkeit $p_B$ > 0 zur Folge haben.
*Die Fehlerwahrscheinlichkeiten eines solchen BPSK–Systems ohne Codierung ( $R$ = 1 ) sind auf der roten Horizontalen angegeben. Um $p_B ≤ 10^{–5}$ zu erreichen, benötigt man mindestens 10 · lg $(E_B/N_0)$ = 9.6 dB.

Die Wahrscheinlichkeiten ergeben sich gemäß [[Digitalsignalübertragung/Lineare_digitale_Modulation_–_Kohärente_Demodulation#Fehlerwahrscheinlichkeit_des_optimalen_BPSK.E2.80.93Systems_.282.29|Kapitel 1.5]] im Buch [[Digitalsignalübertragung]] zu

$$p_{\rm B} = {\rm Q} \left ( \sqrt{S \hspace{-0.06cm}N\hspace{-0.06cm}R}\right ) \hspace{0.45cm} {\rm mit } \hspace{0.45cm}
S\hspace{-0.06cm}N\hspace{-0.06cm}R = 2\cdot E_{\rm B}/{N_0}
\hspace{0.05cm}. $$

''Hinweis'': In obiger Grafik ist 10 · lg (SNR) als zweite, zusätzliche Abszissenachse eingezeichnet. Die Funktion Q(x) bezeichnet man als die komplementäre Gaußsche Fehlerfunktion.

==Vergleich zwischen Theorie und Praxis==

Anhand zweier Grafiken soll gezeigt werden, in wie weit sich etablierte Kanalcodes der BPSK–Kanalkapazität (grüne Kurve) annähern. Als Ordinate aufgetragen ist die Rate $R = k/n$ dieser Codes bzw. die Kapazität $C$ (wenn noch die Pseudo–Einheit „bit/Kanalzugriff” hinzugefügt wird). Vorausgesetzt ist:
*der AWGN–Kanal, gekennzeichnet durch 10 · lg $(E_B/N_0)$ in dB, und
*für die durch Kreuze markierten realisierten Codes eine Bitfehlerrate (BER) von $10^{–5}$.

Zu beachten ist, dass die Kanalkapazitätskurven stets für $n → ∞$ und BER = 0 gelten. Würde man diese strenge Forderung „feherfrei” auch an die betrachteten Kanalcodes endlicher Codelänge $n$ anlegen, so wäre hierfür stets 10 · $E_B/N_0 → ∞$ erforderlich. Dies ist aber ein eher akademisches Problem, das für die Praxis weniger Bedeutung hat. Für $\text{BER} = 10^{–10}$ ergäbe sich eine qualitativ ähnliche Grafik.

[[File:P_ID2949__Inf_T_4_3_S6a.png|Raten und erforderliches EB/N0 verschiedener Kanalcodes]]

Es folgen einige Erläuterungen zu den Daten, die der Vorlesung <ref>Liva, G.: ''Channel Coding''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, TU München und DLR Oberpfaffenhofen, 2010.</ref> entnommen wurden. Die folgenden Links beziehen sich oft auf das Buch [[Kanalcodierung]].
*Die Punkte '''A''', '''B''' und '''C''' markieren [[Kanalcodierung/Beispiele_binärer_Blockcodes#Hamming.E2.80.93Codes_.281.29|Hamming–Codes]] der Raten $R$ = 4/7 ≈ 0.57, $R$ ≈ 0.73 bzw. $R$ ≈ 0.84. Für $\text{BER} = 10^{–5}$ benötigen diese sehr frühen Codes (aus dem Jahr 1950) alle 10 · lg $(E_B/N_0)$ > 8 dB.
*Die Markierung '''D''' kennzeichnet den binären [https://de.wikipedia.org/wiki/Golay-Code Golay–Code] mit der Rate 1/2 und der Punkt '''E''' einen [https://de.wikipedia.org/wiki/Reed-Muller-Code Reed–Muller–Code]. Dieser sehr niederratige Code kam bereits 1971 bei der Raumsonde Mariner 9 zum Einsatz.
*Die [[Kanalcodierung/Definition_und_Eigenschaften_von_Reed–Solomon–Codes#Konstruktion_von_Reed.E2.80.93Solomon.E2.80.93Codes_.281.29|Reed–Solomon–Codes]] (RS–Codes, ca. 1960) sind eine Klasse zyklischer Blockcodes. '''F''' markiert einen RS–Code der Rate 223/255 > 0.9 und einem erforderlichen $E_B/N_0$ < 6 dB.
*Die Punkte '''G''' und '''H''' bezeichnen zwei Faltungscodes (englisch: ''Convolutional Codes'', CC) mittlerer Rate. Der Code '''G''' wurde schon 1972 bei der Pioneer10–Mission eingesetzt.
*Die Kanalcodierung der Voyager–Mission Ende der 1970er Jahre ist mit '''I''' markiert. Es handelt sich um die Verkettung eines (2, 1, 7)–Faltungscodes mit einem RS–Code.

Anzumerken ist, dass bei den Faltungscodes der dritte Kennungsparameter eine andere Bedeutung hat als bei den Blockcodes. (2, 1, 32) weist beispielsweise auf das Memory $m$ = 32 hin.
Auf der nächsten Seite folgen noch die Kenndaten von Systemen mit iterativer Decodierung.

Die frühen Kanalcodes der letzten Seite liegen noch relativ weit von der Kanalkapazitätskurve entfernt. Dies war wahrscheinlich auch ein Grund, warum dem Autor die auch große praktische Bedeutung der Informationstheorie verschlossen blieb, als er diese Anfang der 1970er Jahre im Studium kennenlernte.

Diese Sichtweise hat sich deutlich verändert, als in den 1990er Jahren sehr lange Kanalcodes zusammen mit iterativer Decodierung aufkamen. Die neuen Markierungspunkte liegen näher an der Kapazitätskurve.

[[File:P_ID2950__Inf_T_4_3_S6b.png|Raten und erforderliches EB/N0 für iterative Codierverfahren ]]

Hier noch einige Erläuterungen zu dieser Grafik:
*Rote Kreuze markieren sog. [https://de.wikipedia.org/wiki/Turbo-Code Turbo–Codes] nach CCSDS (''Consultative Committee for Space Data Systems'') mit jeweils $k$ = 6920 Informationsbits und unterschiedlichen Codelängen $n = k/R$. Diese von [https://de.wikipedia.org/wiki/Claude_Berrou Claude Berrou] um 1990 erfundenen Codes können iterativ decodiert werden. Die (roten) Markierungen liegen jeweils weniger als 1 dB von der Shannon–Grenze entfernt.
*Ähnlich verhalten sich die [https://en.wikipedia.org/wiki/Low-density_parity-check_code LDPC–Codes] (''Low Density Parity–check Codes'') mit konstanter Codelänge $n$ = 64800 ⇒ weiße Rechtecke). Sie werden seit 2006 bei DVB–S2 (''Digital Video Broadcast over Satellite'') eingesetzt und eignen sich aufgrund der spärlichen Einsen–Belegung der Prüfmatrix sehr gut für die iterative Decodierung mittels [https://en.wikipedia.org/wiki/Factor_graph Faktor–Graphen] und Exit Charts.
*Schwarze Punkte markieren die von CCSDS spezifizierten LDPC–Codes mit konstanter Anzahl an Informationsbits ( $k$ = 16384 ) und variabler Codewortlänge $n = k/R$. Diese Codeklasse erfordert ein ähnliches $E_B/N_0$ wie die roten Kreuze und die weißen Rechtecke.

Um die Jahrhundertwende hatten viele Forscher den Ehrgeiz, sich der Shannon–Grenze bis auf Bruchteile von einem dB anzunähern. Das gelbe Kreuz markiert ein derartiges Ergebnis (0.0045 dB) von Chung et al. aus dem Jahr 2001. Verwendet wurde ein irregulärer LDPC–Code mit Rate $1/2$ und Codelänge $10^7$.
An dieser Stelle soll nochmals die Brillianz und der Weitblick von [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] hervorgehoben werden. Er hat 1948 eine bis dahin nicht bekannte Theorie entwickelt, mit der die Möglichkeiten, aber auch die Grenzen der Digitalsignalübertragung aufgezeigt werden. Zu dieser Zeit waren die ersten Überlegungen zur digitalen Nachrichtenübertragung gerade mal zehn Jahre alt ⇒ Pulscodemodulation (Alec Reeves, 1938) und selbst der Taschenrechner kam erst mehr als 20 Jahre später. Shannon's Arbeiten zeigen uns, dass man auch ohne gigantische Computer Großes leisten kann.

== Kanalkapazität des komplexen AWGN–Kanals==

Höherstufige Modulationsverfahren wie
*[[Modulationsverfahren/Quadratur–Amplitudenmodulation#QAM.E2.80.93Signalraumkonstellationen|M–QAM]] ⇒ Quadraturamplitudenmodulation; $M$ ≥ 4 quadratische Signalraumpunkte
*[[Modulationsverfahren/Quadratur–Amplitudenmodulation#Weitere_Signalraumkonstellationen|M–PSK]] ⇒ $M$ ≥ 4 Signalraumpunkte in kreisförmiger Anordnung

können jeweils durch eine Inphase– und eine Quadraturkomponente dargestellt werden. Die beiden Komponenten lassen sich im [[Signaldarstellung/Äquivalentes_Tiefpass-Signal_und_zugehörige_Spektralfunktion#Motivation|äquivalenten Tiefpassbereich]] auch als ''Realteil'' bzw. ''Imaginärteil'' eines komplexen Rauschterms $N$ beschreiben.
Alle oben genannten Verfahren sind zweidimensional. Der (komplexe) AWGN–Kanal stellt somit $K$ = 2 voneinander unabhängige Gaußkanäle zur Verfügung. Entsprechend [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Parallele_Gau.C3.9Fsche_Kan.C3.A4le|Kapitel 4.2]] ergibt sich deshalb für die Kapazität dieses Kanals:

$$C_{\rm Gauss, \hspace{0.1cm}komplex}= C_{\rm Gesamt} ( K=2)
= {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X/2}{\sigma^2})
\hspace{0.05cm}.$$

*Die gesamte Nutzleistung von Inphase– und Quadraturkomponente wird mit $P_X$ bezeichnet.
*Dagegen bezieht sich die Varianz $σ^2$ der Störung nur auf eine Dimension: $σ^2 = σ_I^2 = σ_Q^2$.

[[File:P_ID2955__Inf_T_4_3_S7.png|2D–WDF des Komplexen Gaußschen Rauschens]]

Die rechte Abbildung zeigt die 2D–WDF $f_N(n)$ des Gaußschen Rauschprozesses $N$ über den beiden Achsen
* $N_I$ (Inphase–Anteil, Realteil) und
* $N_Q$ (Quadraturanteil, Imaginärteil).

Dunklere Bereiche der rotationssymmetrischen WDF $f_N(n)$ um den Nullpunkt weisen auf mehr Störanteile hin. Für die Varianz des komplexen Gaußschen Rauschens $N$ gilt aufgrund der Rotationsinvarianz $(σ_R = σ_I)$ folgender Zusammenhang:

$$\sigma_N^2 = \sigma_{\rm I}^2 + \sigma_{\rm Q}^2 = 2\cdot \sigma^2
\hspace{0.05cm}.$$

Damit lässt sich die Kanalkapazität auch wie folgt ausdrücken:

$$C_{\rm Gauss, \hspace{0.1cm}komplex}= {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X}{\sigma_N^2}) = {\rm log}_2 \hspace{0.1cm} ( 1 + SNR)
\hspace{0.05cm}.$$

Diese Gleichung wird auf der nächsten Seite numerisch ausgewertet. Bereits aus dieser Gleichung ist zu ersehen, dass für das Signal–zu–Störleistungsverhältnis gilt:

$$SNR = {P_X}/{\sigma_N^2}
\hspace{0.05cm}.$$

==Maximale Coderate für QAM–Strukturen==

In der Grafik ist die Kanalkapazität des komplexen AWGN–Kanals als rote Kurve dargestellt:

$$C_{\rm Gauss, \hspace{0.1cm}komplex}= {\rm log}_2 \hspace{0.1cm} ( 1 + SNR)
\hspace{0.05cm}.$$

Die Einheit dieser Kanalkapazität ist wieder „bit/Kanalzugriff” oder „bit/Quellensymbol”. Als Abszisse ist der Signal–zu–Störleistungsverhältnis 10 · log (SNR) mit $\text{SNR} = P_X/σ_N^2$ aufgetragen.
Die rote Kurve basiert entsprechend der Shannon–Theorie wieder auf einer Gaußverteilung $f_X(x)$ am Eingang. Zusätzlich eingezeichnet sind zehn weitere Kapazitätskurven für wertdiskreten Eingang:

[[File:P_ID2956__Inf_T_4_3_S8_neu.png|Kanalkapazität von BPSK und M–QAM]]

*die BPSK (mit „1” markiert),
*die M–QAM, ( $M$ = 22, ..., 210 ).

Diese Grafik wurde der Dissertation <ref>Göbel, B.: ''Information–Theoretic Aspects of Fiber–Optic Communication Channels''. Dissertation. TU München. Verlag Dr. Hut, Reihe Informationstechnik, ISBN 978-3-86853-713-0, 2010.</ref> entnommen. Wir danken unserem ehemaligen Kollegen am LNT, Dr.-Ing. Bernhard Göbel, für sein Einverständnis, diese Abbildung verwenden zu dürfen, sowie für seine Unterstützung unseres Lerntutorials.

Man erkennt aus dieser Darstellung:
*Die BPSK–Kurve sowie alle $M$–QAM–Kurven liegen rechts von der Shannon–Grenzkurve. Bei kleinem SNR sind alle Kurven von der roten Kurve fast nicht mehr zu unterscheiden.
*Der Endwert aller Kurven für wertdiskrete Eingangssignale ist $\log_2 (M)$. Für SNR → $∞$ erhält man beispielsweise $C_{\rm BPSK}$ = 1 bit/Symbol sowie $C_{\rm 4-QAM}$ = $C_{\rm QPSK}$ = 2 bit/Symbol.
*Die blauen Markierungen zeigen, dass eine $2^{10}$–QAM mit 10 · lg (SNR) ≈ 27 dB eine Coderate von $R$ ≈ 8,2 ermöglicht. Der Abstand zur Shannon–Kurve beträgt hier 1.53 dB.
*Man spricht hier von einem ''Shaping Gain'' von 10 · lg $(πe$/6) = 1.53 dB. Diese Verbesserung lässt sich erzielen, wenn man die Lage der $32^2$ quadratisch angeordneten Signalraumpunkte so ändern würde, dass sich eine gaußähnliche Eingangs–WDF ergibt ⇒ ''Signal Shaping''.

In der Aufgabe A4.10 werden die AWGN–Kapazitätskurven von BPSK und QPSK diskutiert:
*Ausgehend von der Abszisse 10 · lg $(E_B/N_0)$ mit der Energie $E_B$ pro Informationsbit kommt man zur QPSK–Kurve durch Verdopplung der BPSK–Kurve:

$$C_{\rm QPSK}(10 \cdot {\rm lg} \hspace{0.1cm}(E_{\rm B}/{N_0}))
=
2 \cdot C_{\rm BPSK}(10 \cdot {\rm lg} \hspace{0.1cm}(E_{\rm B}/{N_0}) ) .$$

*Vergleicht man aber BPSK und QPSK bei gleicher Energie pro Informationssymbol $(E_S)$, so gilt:

$$C_{\rm QPSK}(10 \cdot {\rm lg} \hspace{0.1cm}E_{\rm S}/{N_0})
=
2 \cdot C_{\rm BPSK}(10 \cdot {\rm lg} \hspace{0.1cm}E_{\rm S}/{N_0} - 3\,{\rm dB}) .$$

Hierbei ist berücksichtigt, dass bei QPSK die Energie in einer Dimension nur $E_S$/2 beträgt.

== Aufgaben zu Kapitel 4.3 ==

{{Display}}

Information Theory/AWGN Channel Capacity for Discrete-Valued Input

2017-02-05T19:40:22Z

LukasWolf:

{{LastPage}}
{{Header
|Untermenü=Wertkontinuierliche Informationstheorie
|Vorherige Seite=AWGN–Kanalkapazität bei wertkontinuierlichem Eingang
|Nächste Seite=
}}

==AWGN–Modell für zeitdiskrete bandbegrenzte Signale==

Am Ende von Kapitel 4.2 wurde das AWGN–Modell entsprechend der linken Grafik verwendet, gekennzeichnet durch die beiden Zufallsgrößen $X$ und $Y$ am Eingang und Ausgang sowie die stochastische Störung $N$ als das Ergebnis eines mittelwertfreien Gaußschen Zufallsprozesses ⇒ „Weißes Rauschen” mit der Varianz $σ_N^2$. Die Störleistung $P_N$ ist ebenfalls gleich $σ_N^2$.

[[File:P_ID2931__Inf_T_4_3_S1a.png|Zwei weitgehend äquivalente Modelle für den AWGN–Kanal]]

Die maximale Transinformation $I(X; Y)$ zwischen Eingang und Ausgang ⇒ Kanalkapazität $C$ ergibt sich dann, wenn eine Gaußsche Eingangs–WDF $f_X(x)$ vorliegt. Mit der Sendeleistung $P_X = σ_X^2$ (Varianz der Zufallsgröße $X$) lautet die Kanalkapazitätsgleichung:

$$C = 1/2 \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + {P_X}/{P_N})
\hspace{0.05cm}.$$

Nun beschreiben wir das AWGN–Kanalmodell gemäß dem rechts skizzierten Fall, dass am Kanaleingang die Folge $〈X_ν〉$ anliegt, wobei der Abstand zwischen aufeinander folgenden Werten $T_A$ beträgt. Diese Folge ist das zeitdiskrete Äquivalent des zeitkontinuierlichen Signals X(t) nach Bandbegrenzung und Abtastung.
Der Zusammenhang zwischen beiden Modellen kann anhand der folgenden Grafik hergestellt werden, die auf der nächsten Seite noch genauer beschrieben wird.

[[File: P_ID2932__Inf_T_4_3_S1b.png| AWGN–Modell unter Berücksichtigung von Zeitdiskretisierung und Bandbegrenzung]]

Die wesentlichen Erkenntnisse vorneweg:
*Beim rechten Modell gilt zu den Abtastzeitpunkten $ν·T_A$ genau der gleiche Zusammenhang $Y_ν = X_ν + N_ν$ wie beim bisherigen (linken) Modell.
*Die Störkomponente $N_ν$ ist nun durch (auf $±B$) bandbegrenztes Weißes Rauschen mit zweiseitiger Leistungsdichte $Φ_N(f) = N_0/2$ zu modellieren, wobei $B = 1/(2T_A)$ gelten muss ⇒ „Abtasttheorem”.

Beim Modell gemäß der oberen Grafik auf der letzten Seite gehen wir von einer unendlichen Folge $〈X_ν〉$ von Gaußschen Zufallsgrößen aus, die einem [[Signaldarstellung/Zeitdiskrete_Signaldarstellung#Zeitbereichsdarstellung|Diracpuls]] $p_δ(t)$ eingeprägt werden. Das resultierende zeitdiskrete Signal lautet somit:

$$X_{\delta}(t) = T_{\rm A} \cdot \hspace{-0.1cm} \sum_{\nu = - \infty }^{+\infty} X_{\nu} \cdot
\delta(t- \nu \cdot T_{\rm A}
)\hspace{0.05cm}.$$

Der Abstand aller (gewichteten) Diracfunktionen ist einheitlich $T_A$.
Durch das Interpolationsfilter mit der Impulsantwort $h(t)$ sowie dem Frequenzgang $H(f)$, wobei

$$h(t) = 1/T_{\rm A} \cdot {\rm si}(\pi \cdot t/T_{\rm A}) \quad \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet \quad H(f) =
\left\{ \begin{array}{c} 1 \\ 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| \le B, \\ {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| > B, \\ \end{array}
\hspace{0.5cm} B = \frac{1}{T_{\rm A}}$$

gelten muss, entsteht das zeitkontinuierliche Signal $X(t)$ mit folgenden Eigenschaften:
*Die Abtastwerte $X(ν·T_A)$ sind für alle ganzzahligen $ν$ identisch mit den Eingangswerten $X_ν$, was mit den äquidistanten Nullstellen der [[Signaldarstellung/Einige_Sonderfälle_impulsartiger_Signale#Rechteckimpuls|Spaltfunktion]] ⇒ $\text{si}(x) = \sin(x)/x$ begründet werden kann.
*Gemäß dem Abtasttheorem ist $X(t)$ auf den Spektralbereich $±B$ ideal bandbegrenzt, wie die obige Rechnung gezeigt hat ⇒ rechteckförmiger Frequenzgang $H(f)$ der einseitigen Bandbreite $B$.

Nach der Addition der Störung $N(t)$ mit der (zweiseitigen) Leistungsdichte $Φ_N(t) = N_0/2$ folgt das Matched–Filter mit si–förmiger Impulsantwort. Für die Störleistung am MF–Ausgang erhält man:

$$P_N = {\rm E}[N_\nu^2] = \frac{N_0}{2T_{\rm A}} = N_0 \cdot B\hspace{0.05cm}.$$

{{Box}}
'''Beweis''': Mit $B = 1/(2T_A)$ erhält man für die Impulsantwort $h_E(t)$ und die Spektralfunktion $H_E(f)$:

$$h_{\rm E}(t) = 2B \cdot {\rm si}(2\pi \cdot B \cdot t) \quad \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet \quad H_{\rm E}(f) =
\left\{ \begin{array}{c} 1 \\ 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| \le B, \\ {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| > B. \\ \end{array} $$

Daraus folgt entsprechend den Erkenntnissen der [[Stochastische_Signaltheorie/Stochastische_Systemtheorie#Problemstellung|Stochastischen Systemtheorie]]:

$$P_N =
\int_{-\infty}^{+\infty}
\hspace{-0.3cm} {\it \Phi}_N (f) \cdot |H_{\rm E}(f)|^2
\hspace{0.15cm}{\rm d}f = \int_{-B}^{+B}
\hspace{-0.3cm} {\it \Phi}_N (f)
\hspace{0.15cm}{\rm d}f = \frac{N_0}{2} \cdot 2B = N_0 \cdot B
\hspace{0.05cm}.$$

{{end}}

*Tastet man das MF–Ausgangssignal in äquidistanten Abständen $T_A$ ab, so ergibt sich für die Zeitpunkte $ν·T_A$ die gleiche Konstellation wie bisher: $Y_ν = X_ν + N_ν$.
*Der Störanteil $N_ν$ im zeitdiskreten Ausgangssignal $Y_ν$ ist somit „bandbegrenzt” und „weiß”. Die Kanalkapazitätsgleichung muss somit nur geringfügig angepasst werden;

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {P_X}{N_0 \cdot B})
= \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {2 \cdot P_X \cdot T_{\rm A}}{N_0})
= \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {2 \cdot E_{\rm S}}{N_0})
\hspace{0.05cm}.$$

$E_S$ ist die Sende–Energie innerhalb einer Symboldauer $T_A$ ⇒ '''Energie pro Symbol'''.

==Die Kanalkapazität $C$ als Funktion von $E_S/N_0$ ==

Die obere Grafik zeigt den Verlauf der AWGN–Kanalkapazität in Abhängigkeit des Quotienten $E_S/N_0$, wobei die linke Koordinatenachse und die roten Beschriftungen gültig sind:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel\hspace{0.05cm}use)}
\hspace{0.05cm}.$$

Die Einheit wird manchmal auch mit „bit/Quellensymbol” oder kurz „bit/Symbol” bezeichnet.

[[File:P_ID2934__Inf_T_4_3_S2a.png| Kanalkapazitäten C und C∗ über ES/N0]]

Die rechte (blaue) Achsenbeschriftung berücksichtigt die Beziehung $B = 1/(2T_A)$ und liefert somit eine obere Schranke für die Bitrate eines Digitalsystems, die bei diesem AWGN–Kanal noch möglich ist.

$$C^{\hspace{0.05cm}*} = \frac{C}{T_{\rm A}} = B \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{1.0cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Sekunde}
\hspace{0.05cm}.$$

Meist gibt man den Quotienten aus Symbolenergie $(E_S)$ und AWGN–Rauschleistungsdichte $(N_0)$ in logarithmischer Form an. Die untere Grafik zeigt die Kanalkapazitäten $C$ bzw. $C*$ als Funktion von 10 · lg $(E_S/N_0)$ im Bereich von –20 dB bis +30 dB. Ab etwa 10 dB ergibt sich ein (nahezu) linearer Verlauf.

[[File:P_ID2935__Inf_T_4_3_S2b.png|AWGN–Kanalkapazität als Funktion von 10 · lg (ES/N0) ]]

==Systemmodell zur Interpretation der AWGN–Kanalkapazität==

Um das [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung#Definition_und_Bedeutung_der_Kanalkapazit.C3.A4t|Kanalcodierungstheorem]] im Zusammenhang mit dem AWGN–Kanal besprechen zu können, benötigen wir noch eine Codiervorrichtung, die informationstheoretisch vollständig durch die Coderate $R$ gekennzeichnet wird.

[[File:P_ID2937__Inf_T_4_3_S3_neu.png|Modell zur Interpretation der AWGN–Kanalkapazität]]

Die Grafik beschreibt das von Shannon betrachtete Nachrichtensystem mit den Blöcken Quelle, Coder, (AWGN–)Kanal, Decoder und Empfänger. Im Hintergrund erkennt man ein Originalbild aus einem Shannon–Aufsatz zu diesem Thema. Rot eingezeichnet sind einige Bezeichnungen und Erläuterungen für den folgenden Text:
*Das Quellensymbol $U$ entstammt einem Alphabet mit $M_U = |U| = 2^k$ Symbolen und kann durch $k$ gleichwahrscheinliche statistisch unabhängige Binärsymbole repräsentiert werden.
*Das Alphabet des Codesymbols $X$ hat den Symbolumfang $M_X = |X| = 2^n$, wobei sich $n$ aus der Coderate $R = k/n$ ergibt. Für $R = 1$ gilt somit $n = k$.
*Der Fall $n > k$ führt zu einer Coderate $R < 1$ und aus $n < k$ folgt für die Coderate $R > 1$.

Das '''Kanalcodierungstheorem''' besagt, dass es (mindestens) einen Code der Rate $R$ gibt, der zur Symbolfehlerwahrscheinlichkeit $p_S = \text{Pr}(V ≠ U) = 0$ führt, falls folgende Bedingungen erfüllt sind:
*Die Coderate $R$ ist nicht größer als die Kanalkapazität $C$.
*Ein solcher geeigneter Code ist unendlich lang: $n → ∞$, das heißt, dass die Zufallsgröße $X$ am Kanaleingang wertkontinuierlich ist. Gleiches gilt für $U$ sowie für die Zufallsgrößen $Y$ und $V$ nach dem AWGN–Kanal.
*Wegen $n → ∞$ ist auch tatsächlich eine Gaußverteilung $f_X(x)$ am Kanaleingang möglich, die der bisherigen Berechnung der AWGN–Kanalkapazität stets zugrunde gelegt wurde:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel \hspace{0.05cm}use)}
\hspace{0.05cm}.$$

*Für einen Systemvergleich ist die Energie pro Symbol $(E_S)$ ungeeignet. Ein Vergleich sollte vielmehr auf der Energie $E_B$ pro Informationsbit basieren. Mit $E_B = E_S/R$ gilt somit auch:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot R \cdot E_{\rm B}}{N_0})
\hspace{0.2cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.1cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel \hspace{0.05cm}use)}
\hspace{0.05cm}.$$

Diese beiden Gleichungen werden auf der nächsten Seite diskutiert.

==Die Kanalkapazität $C$ als Funktion von $E_B/N_0$==

Die folgende Grafik zeigt die AWGN–Kanalkapazität $C$ als Funktion von
*10 · lg $(E_S/N_0)$ ⇒ roter Kurvenverlauf:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (oder\hspace{-0.15cm}: \hspace{0.05cm}bit/Symbol)}
\hspace{0.05cm}.$$

Rote Zahlen: Kapazität $C$ in „bit/Symbol” für 10 · lg $(E_S/N_0)$ = –20 dB, –15 dB, ... , +30dB.
*10 · lg $(E_B/N_0)$ ⇒ grüner Kurvenverlauf:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot R \cdot E_{\rm B}}{N_0})
\hspace{0.2cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.1cm} (oder \hspace{-0.15cm}: \hspace{0.05cm}bit/Symbol)}
\hspace{0.05cm}.$$

Grüne Zahlen: Erforderliches 10 · lg $(E_B/N_0)$ in „dB” für $C$ = 0, 1, ... , 5 in „bit/Symbol”.

[[File:P_ID2938__Inf_T_4_3_S4.png|Die AWGN–Kanalkapazität in zwei unterschiedlichen Darstellungen]]

Die $C(E_B/N_0)$–Berechnung finden Sie in der Aufgabe A4.8 und der zugehörigen Musterlösung. Im Folgenden interpretieren wir das Ergebnis im Vergleich zur [[Informationstheorie/AWGN–Kanalkapazität_bei_wertdiskretem_Eingang#Die_Kanalkapazit.C3.A4t_.7FUNIQ-MathJax74-QINU.7F_als_Funktion_von_.7FUNIQ-MathJax75-QINU.7F|C(E_S/N_0)–Kurve]]:
*Wegen $E_S = R · E_B$ liegt der Schnittpunkt beider Kurven bei $C$ (= $R$) = 1 [bit/Symbol]. Erforderlich sind dazu 10 · lg $(E_S/N_0)$ = 1.76 dB bzw. 10 · lg $(E_B/N_0)$ = 1.76 dB.
*Im Bereich $C$ > 1 liegt die grüne Kurve stets über der roten. Beispielsweise ergibt sich für 10 · lg $(E_B/N_0)$ = 20 dB die Kanalkapazität $C$ ≈ 5, für 10 · lg $(E_S/N_0)$ = 20 dB nur $C$ = 3.83.
*Ein Vergleich in horizontaler Richtung zeigt, dass die Kanalkapazität $C$ = 3 bit/Symbol schon mit 10 · lg $(E_B/N_0)$ ≈ 10 dB erreichbar ist, man aber 10 · lg $(E_S/N_0)$ ≈ 15 dB benötigt.
*Im Bereich $C$ < 1 liegt die rote Kurve stets über der grünen. Für $E_S/N_0$ > 0 gilt auch $C$ > 0. Bei logarithmischer Abszisse reicht somit die rote Kurve bis ins „Minus–Unendliche”.
*Dagegen endet die grüne Kurve bei $E_B/N_0$ = ln (2) = 0.693 ⇒ 10 · lg $(E_B/N_0)$ = –1.59 dB ⇒ absolute Grenze für die (fehlerfreie) Übertragung über den AWGN–Kanal.

==AWGN–Kanalkapazität für binäre Eingangssignale ==

Auf den bisherigen Seiten des Kapitels 4.3 wurde stets entsprechend der Shannon–Theorie von einem gaußverteilten und damit wertkontinuierlichem AWGN–Eingang $X$ ausgegangen. Nun betrachten wir den binären Fall und werden somit der Überschrift „''AWGN–Kanalkapazität bei wertdiskretem Eingang''” dieses Kapitels gerecht.

[[File:P_ID2941__Inf_T_4_3_S5a_neu.png|Zur Berechnung der AWGN–Kanalkapazität für BPSK]]

Die Grafik zeigt das zugrundeliegende Blockschaltbild für [[Digitalsignalübertragung/Lineare_digitale_Modulation_–_Kohärente_Demodulation#Gemeinsames_Blockschaltbild_f.C3.BCr_ASK_und_BPSK|Binary Phase Shift Keying]] (BPSK) mit binärem Eingang $U$ und ebenfalls binärem Ausgang $V$. Durch eine bestmögliche Codierung soll erreicht werden, dass die Fehlerwahrscheinlichkeit $\text{Pr}(V ≠ U)$ verschwindend klein wird.
*Der Coderausgang ist gekennzeichnet durch die binäre Zufallsgröße $X ' = \{0, 1\} ⇒ M_{X'} = 2$, während der Ausgang $Y$ des AWGN–Kanals weiterhin wertkontinuierlich ist: $M_Y → ∞$.
*Durch das Mapping $X = 1 – 2X '$ kommt man von der unipolaren Darstellung zu der für BPSK besser geeigneten bipolaren (antipodalen) Beschreibung: $X ' = 0 → X = +1; X ' = 1 → X = –1$.

[[File:P_ID2942__Inf_T_4_3_S5b_neu.png|Bedingte Wahrscheinlichkeitsdichtefunktionen]]

*Der AWGN–Kanal ist hier durch die beiden bedingten Wahrscheinlichkeitsdichtefunktionen charakterisiert:

$$\begin{align*}f_{Y|\hspace{0.03cm}{X}}(y|\hspace{0.03cm}{X}=+1) \hspace{-0.15cm} & = \hspace{-0.15cm} \frac{1}{\sqrt{2\pi\sigma^2}} \cdot {\rm exp}\left [-\frac{(y - 1)^2} { 2 \sigma^2})\right ] \hspace{0.05cm}\hspace{0.05cm},\\
f_{Y|\hspace{0.03cm}{X}}(y|\hspace{0.03cm}{X}=-1) \hspace{-0.15cm} & = \hspace{-0.15cm} \frac{1}{\sqrt{2\pi\sigma^2}} \cdot {\rm exp}\left [-\frac{(y + 1)^2} { 2 \sigma^2})\right ] \hspace{0.05cm}
\hspace{0.05cm}. \end{align*}$$

In Kurzform: $f_{Y | X} (y | +1)$ bzw. $f_{Y | X} (y | –1)$.
*Da hier das Nutzsignal $X$ auf ±1 normiert ist ⇒ Leistung 1 anstelle von $P_X$, muss die Varianz des AWGN–Rauschens $N$ in gleicher Weise normiert werden: $σ^2 = P_N/P_X$.
*Der Empfänger trifft aus der reellwertigen Zufallsgröße $Y$ (am AWGN–Kanalausgang) eine [[Kanalcodierung/Klassifizierung_von_Signalen#ML.E2.80.93Entscheidung_beim_AWGN.E2.80.93Kanal|Maximum–Likelihood–Entscheidung]]. Der Empfängerausgang $V$ ist binär (0 oder 1).

Ausgehend von diesem Modell wird auf der nächsten Seite die Kanalkapazität berechnet.

Die Kanalkapazität des AWGN–Kanals unter der Nebenbedingung einer binären Eingangsgröße $X$ lautet allgemein unter Berücksichtigung von $\text{Pr}(X = –1) = 1 – \text{Pr}(X = +1)$:

$$C_{\rm BPSK} = \max_{ {\rm Pr}({X} =+1)} \hspace{-0.15cm} I(X;Y)
\hspace{0.05cm}.$$

Aufgrund des symmetrischen Kanals ist offensichtlich, dass die Eingangswahrscheinlichkeiten

$${\rm Pr}({{X}} =+1) = {\rm Pr}({{X} =-1)} = 0.5 $$

zum Optimum führen werden. Gemäß [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Transinformationsberechnung_bei_additiver_St.C3.B6rung|Kapitel 4.2]] gibt es mehrere Berechnungsmöglichkeiten:

$$ \begin{align*}C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(X) + h(Y) - h(XY)\hspace{0.05cm},\\
C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(Y) - h(Y|X)\hspace{0.05cm},\\
C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(X) - h(X|Y)\hspace{0.05cm}. \end{align*}$$

Alle Ergebnisse sind noch um die Pseudo–Einheit „bit” zu ergänzen. Wir wählen hier die mittlere Gleichung:
*Die hierfür benötigte bedingte differentielle Entropie ist gleich

$$h(Y|X) = h(N) = 1/2 \cdot {\rm log}_2 \hspace{0.1cm}(2\pi{\rm e}\cdot \sigma^2)
\hspace{0.05cm}. $$

*Die differentielle Entropie $h(Y)$ ist vollständig durch die WDF $f_Y(y)$ gegeben. Mit den vorne definierten und skizzierten bedingten Wahrscheinlichkeitsdichtefunktionen erhält man:

$$f_Y(y) = \frac{1}{2} \cdot \left [ f_{Y|{X}}(y\hspace{0.05cm}|{X}=-1) + f_{Y|{X}}(y\hspace{0.05cm}|{X}=+1) \right ]$$

$$\Rightarrow \hspace{0.3cm} h(Y) \hspace{-0.01cm}=\hspace{0.05cm}
-\hspace{-0.7cm} \int\limits_{y \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}(f_Y)} \hspace{-0.65cm} f_Y(y) \cdot {\rm log}_2 \hspace{0.1cm} [f_Y(y)] \hspace{0.1cm}{\rm d}y
\hspace{0.05cm}.$$

Es ist offensichtlich, dass $h(Y)$ nur durch numerische Integration ermittelt werden kann, insbesondere, wenn man berücksichtigt, dass sich im Überlappungsbereich $f_Y(y)$ aus der Summe der beiden bedingten Gauß–Funktionen ergibt.

[[File:P_ID2944__Inf_T_4_3_S5d.png|CBPSK und CGauß im Vergleich]]

Das skizzierte Ergebnis wird auf der nächsten Seite diskutiert.

In der folgenden Grafik sind über der Abszisse 10 · lg $(E_B/N_0)$ drei Kurven dargestellt:
*die Kanalkapazität $C_{\rm Gauß}$, gültig für eine Gaußsche Eingangsgröße $X ⇒ M_X → ∞$,
*die Kanalkapazität $C_{\rm BPSK}$ für die Zufallsgröße $X = (+1, –1)$, sowie
*die mit „BPSK ohne Codierung” bezeichnete Horizontale.

[[File:P_ID2946__Inf_T_4_3_S5c_neu.png|CBPSK und CGauß im Vergleich]]

Diese Kurvenverläufe sind wie folgt zu interpretieren:
*Die grüne Kurve $C_{\rm BPSK}$ gibt die maximal zulässige Coderate $R$ einer BPSK an, bei der für das gegebene $E_B/N_0$ durch bestmögliche Codierung die Bitfehlerwahrscheinlichkeit $p_B$ = 0 möglich ist.
*Für alle BPSK–Systeme mit den Koordinaten (10 · lg $E_B/N_0$, $R$) im „grünen Bereich” ist $p_B$ = 0 prinzipiell erreichbar. Aufgabe der Nachrichtentechniker ist es, hierfür geeignete Codes zu finden.
*Die BPSK–Kurve liegt stets unter der absoluten Shannon–Grenzkurve $C_{\rm Gauß}$ für $M_X → ∞$. Im unteren Bereich gilt $C_{\rm BPSK} ≈ C_{\rm Gauß}$. Zum Beispiel muss ein BPSK–System mit $R$ = 1/2 nur ein um 0.1 dB größeres $E_B/N_0$ bereitstellen, als es die (absolute) Kanalkapazität $C_{\rm Gauß}$ fordert.
*Ist $E_B/N_0$ endlich, so gilt stets $C_{\rm BPSK}$ < 1 ⇒ siehe Aufgabe Z4.9. Eine BPSK mit $R$ = 1 (und somit ohne Codierung) wird stets eine Bitfehlerwahrscheinlichkeit $p_B$ > 0 zur Folge haben.
*Die Fehlerwahrscheinlichkeiten eines solchen BPSK–Systems ohne Codierung ( $R$ = 1 ) sind auf der roten Horizontalen angegeben. Um $p_B ≤ 10^{–5}$ zu erreichen, benötigt man mindestens 10 · lg $(E_B/N_0)$ = 9.6 dB.

Die Wahrscheinlichkeiten ergeben sich gemäß [[Digitalsignalübertragung/Lineare_digitale_Modulation_–_Kohärente_Demodulation#Fehlerwahrscheinlichkeit_des_optimalen_BPSK.E2.80.93Systems_.282.29|Kapitel 1.5]] im Buch [[Digitalsignalübertragung]] zu

$$p_{\rm B} = {\rm Q} \left ( \sqrt{S \hspace{-0.06cm}N\hspace{-0.06cm}R}\right ) \hspace{0.45cm} {\rm mit } \hspace{0.45cm}
S\hspace{-0.06cm}N\hspace{-0.06cm}R = 2\cdot E_{\rm B}/{N_0}
\hspace{0.05cm}. $$

''Hinweis'': In obiger Grafik ist 10 · lg (SNR) als zweite, zusätzliche Abszissenachse eingezeichnet. Die Funktion Q(x) bezeichnet man als die komplementäre Gaußsche Fehlerfunktion.

==Vergleich zwischen Theorie und Praxis==

Anhand zweier Grafiken soll gezeigt werden, in wie weit sich etablierte Kanalcodes der BPSK–Kanalkapazität (grüne Kurve) annähern. Als Ordinate aufgetragen ist die Rate $R = k/n$ dieser Codes bzw. die Kapazität $C$ (wenn noch die Pseudo–Einheit „bit/Kanalzugriff” hinzugefügt wird). Vorausgesetzt ist:
*der AWGN–Kanal, gekennzeichnet durch 10 · lg $(E_B/N_0)$ in dB, und
*für die durch Kreuze markierten realisierten Codes eine Bitfehlerrate (BER) von $10^{–5}$.

Zu beachten ist, dass die Kanalkapazitätskurven stets für $n → ∞$ und BER = 0 gelten. Würde man diese strenge Forderung „feherfrei” auch an die betrachteten Kanalcodes endlicher Codelänge $n$ anlegen, so wäre hierfür stets 10 · $E_B/N_0 → ∞$ erforderlich. Dies ist aber ein eher akademisches Problem, das für die Praxis weniger Bedeutung hat. Für $\text{BER} = 10^{–10}$ ergäbe sich eine qualitativ ähnliche Grafik.

[[File:P_ID2949__Inf_T_4_3_S6a.png|Raten und erforderliches EB/N0 verschiedener Kanalcodes]]

Es folgen einige Erläuterungen zu den Daten, die der Vorlesung <ref>Liva, G.: ''Channel Coding''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, TU München und DLR Oberpfaffenhofen, 2010.</ref> entnommen wurden. Die folgenden Links beziehen sich oft auf das Buch [[Kanalcodierung]].
*Die Punkte '''A''', '''B''' und '''C''' markieren [[Kanalcodierung/Beispiele_binärer_Blockcodes#Hamming.E2.80.93Codes_.281.29|Hamming–Codes]] der Raten $R$ = 4/7 ≈ 0.57, $R$ ≈ 0.73 bzw. $R$ ≈ 0.84. Für $\text{BER} = 10^{–5}$ benötigen diese sehr frühen Codes (aus dem Jahr 1950) alle 10 · lg $(E_B/N_0)$ > 8 dB.
*Die Markierung '''D''' kennzeichnet den binären [https://de.wikipedia.org/wiki/Golay-Code Golay–Code] mit der Rate 1/2 und der Punkt '''E''' einen [https://de.wikipedia.org/wiki/Reed-Muller-Code Reed–Muller–Code]. Dieser sehr niederratige Code kam bereits 1971 bei der Raumsonde Mariner 9 zum Einsatz.
*Die [[Kanalcodierung/Definition_und_Eigenschaften_von_Reed–Solomon–Codes#Konstruktion_von_Reed.E2.80.93Solomon.E2.80.93Codes_.281.29|Reed–Solomon–Codes]] (RS–Codes, ca. 1960) sind eine Klasse zyklischer Blockcodes. '''F''' markiert einen RS–Code der Rate 223/255 > 0.9 und einem erforderlichen $E_B/N_0$ < 6 dB.
*Die Punkte '''G''' und '''H''' bezeichnen zwei Faltungscodes (englisch: ''Convolutional Codes'', CC) mittlerer Rate. Der Code '''G''' wurde schon 1972 bei der Pioneer10–Mission eingesetzt.
*Die Kanalcodierung der Voyager–Mission Ende der 1970er Jahre ist mit '''I''' markiert. Es handelt sich um die Verkettung eines (2, 1, 7)–Faltungscodes mit einem RS–Code.

Anzumerken ist, dass bei den Faltungscodes der dritte Kennungsparameter eine andere Bedeutung hat als bei den Blockcodes. (2, 1, 32) weist beispielsweise auf das Memory $m$ = 32 hin.
Auf der nächsten Seite folgen noch die Kenndaten von Systemen mit iterativer Decodierung.

Die frühen Kanalcodes der letzten Seite liegen noch relativ weit von der Kanalkapazitätskurve entfernt. Dies war wahrscheinlich auch ein Grund, warum dem Autor die auch große praktische Bedeutung der Informationstheorie verschlossen blieb, als er diese Anfang der 1970er Jahre im Studium kennenlernte.

Diese Sichtweise hat sich deutlich verändert, als in den 1990er Jahren sehr lange Kanalcodes zusammen mit iterativer Decodierung aufkamen. Die neuen Markierungspunkte liegen näher an der Kapazitätskurve.

[[File:P_ID2950__Inf_T_4_3_S6b.png|Raten und erforderliches EB/N0 für iterative Codierverfahren ]]

Hier noch einige Erläuterungen zu dieser Grafik:
*Rote Kreuze markieren sog. [https://de.wikipedia.org/wiki/Turbo-Code Turbo–Codes] nach CCSDS (''Consultative Committee for Space Data Systems'') mit jeweils $k$ = 6920 Informationsbits und unterschiedlichen Codelängen $n = k/R$. Diese von [https://de.wikipedia.org/wiki/Claude_Berrou Claude Berrou] um 1990 erfundenen Codes können iterativ decodiert werden. Die (roten) Markierungen liegen jeweils weniger als 1 dB von der Shannon–Grenze entfernt.
*Ähnlich verhalten sich die [https://en.wikipedia.org/wiki/Low-density_parity-check_code LDPC–Codes] (''Low Density Parity–check Codes'') mit konstanter Codelänge $n$ = 64800 ⇒ weiße Rechtecke). Sie werden seit 2006 bei DVB–S2 (''Digital Video Broadcast over Satellite'') eingesetzt und eignen sich aufgrund der spärlichen Einsen–Belegung der Prüfmatrix sehr gut für die iterative Decodierung mittels [https://en.wikipedia.org/wiki/Factor_graph Faktor–Graphen] und Exit Charts.
*Schwarze Punkte markieren die von CCSDS spezifizierten LDPC–Codes mit konstanter Anzahl an Informationsbits ( $k$ = 16384 ) und variabler Codewortlänge $n = k/R$. Diese Codeklasse erfordert ein ähnliches $E_B/N_0$ wie die roten Kreuze und die weißen Rechtecke.

Um die Jahrhundertwende hatten viele Forscher den Ehrgeiz, sich der Shannon–Grenze bis auf Bruchteile von einem dB anzunähern. Das gelbe Kreuz markiert ein derartiges Ergebnis (0.0045 dB) von Chung et al. aus dem Jahr 2001. Verwendet wurde ein irregulärer LDPC–Code mit Rate $1/2$ und Codelänge $10^7$.
An dieser Stelle soll nochmals die Brillianz und der Weitblick von [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] hervorgehoben werden. Er hat 1948 eine bis dahin nicht bekannte Theorie entwickelt, mit der die Möglichkeiten, aber auch die Grenzen der Digitalsignalübertragung aufgezeigt werden. Zu dieser Zeit waren die ersten Überlegungen zur digitalen Nachrichtenübertragung gerade mal zehn Jahre alt ⇒ Pulscodemodulation (Alec Reeves, 1938) und selbst der Taschenrechner kam erst mehr als 20 Jahre später. Shannon's Arbeiten zeigen uns, dass man auch ohne gigantische Computer Großes leisten kann.

== Kanalkapazität des komplexen AWGN–Kanals==

Höherstufige Modulationsverfahren wie
*[[Modulationsverfahren/Quadratur–Amplitudenmodulation#QAM.E2.80.93Signalraumkonstellationen|M–QAM]] ⇒ Quadraturamplitudenmodulation; $M$ ≥ 4 quadratische Signalraumpunkte
*[[Modulationsverfahren/Quadratur–Amplitudenmodulation#Weitere_Signalraumkonstellationen|M–PSK]] ⇒ $M$ ≥ 4 Signalraumpunkte in kreisförmiger Anordnung

können jeweils durch eine Inphase– und eine Quadraturkomponente dargestellt werden. Die beiden Komponenten lassen sich im [[Signaldarstellung/Äquivalentes_Tiefpass-Signal_und_zugehörige_Spektralfunktion#Motivation|äquivalenten Tiefpassbereich]] auch als ''Realteil'' bzw. ''Imaginärteil'' eines komplexen Rauschterms $N$ beschreiben.
Alle oben genannten Verfahren sind zweidimensional. Der (komplexe) AWGN–Kanal stellt somit $K$ = 2 voneinander unabhängige Gaußkanäle zur Verfügung. Entsprechend [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Parallele_Gau.C3.9Fsche_Kan.C3.A4le|Kapitel 4.2]] ergibt sich deshalb für die Kapazität dieses Kanals:

$$C_{\rm Gauss, \hspace{0.1cm}komplex}= C_{\rm Gesamt} ( K=2)
= {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X/2}{\sigma^2})
\hspace{0.05cm}.$$

*Die gesamte Nutzleistung von Inphase– und Quadraturkomponente wird mit $P_X$ bezeichnet.
*Dagegen bezieht sich die Varianz $σ^2$ der Störung nur auf eine Dimension: $σ^2 = σ_I^2 = σ_Q^2$.

[[File:P_ID2955__Inf_T_4_3_S7.png|2D–WDF des Komplexen Gaußschen Rauschens]]

Die rechte Abbildung zeigt die 2D–WDF $f_N(n)$ des Gaußschen Rauschprozesses $N$ über den beiden Achsen
* $N_I$ (Inphase–Anteil, Realteil) und
* $N_Q$ (Quadraturanteil, Imaginärteil).

Dunklere Bereiche der rotationssymmetrischen WDF $f_N(n)$ um den Nullpunkt weisen auf mehr Störanteile hin. Für die Varianz des komplexen Gaußschen Rauschens $N$ gilt aufgrund der Rotationsinvarianz $(σ_R = σ_I)$ folgender Zusammenhang:

$$\sigma_N^2 = \sigma_{\rm I}^2 + \sigma_{\rm Q}^2 = 2\cdot \sigma^2
\hspace{0.05cm}.$$

Damit lässt sich die Kanalkapazität auch wie folgt ausdrücken:

$$C_{\rm Gau\ss, \hspace{0.1cm}komplex}= {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X}{\sigma_N^2}) = {\rm log}_2 \hspace{0.1cm} ( 1 + SNR)
\hspace{0.05cm}.$$

Diese Gleichung wird auf der nächsten Seite numerisch ausgewertet. Bereits aus dieser Gleichung ist zu ersehen, dass für das Signal–zu–Störleistungsverhältnis gilt:

$$SNR = {P_X}/{\sigma_N^2}
\hspace{0.05cm}.$$

==Maximale Coderate für QAM–Strukturen==

In der Grafik ist die Kanalkapazität des komplexen AWGN–Kanals als rote Kurve dargestellt:

$$C_{\rm Gau\ss, \hspace{0.1cm}komplex}= {\rm log}_2 \hspace{0.1cm} ( 1 + SNR)
\hspace{0.05cm}.$$

Die Einheit dieser Kanalkapazität ist wieder „bit/Kanalzugriff” oder „bit/Quellensymbol”. Als Abszisse ist der Signal–zu–Störleistungsverhältnis 10 · log (SNR) mit $\text{SNR} = P_X/σ_N^2$ aufgetragen.
Die rote Kurve basiert entsprechend der Shannon–Theorie wieder auf einer Gaußverteilung $f_X(x)$ am Eingang. Zusätzlich eingezeichnet sind zehn weitere Kapazitätskurven für wertdiskreten Eingang:

[[File:P_ID2956__Inf_T_4_3_S8_neu.png|Kanalkapazität von BPSK und M–QAM]]

*die BPSK (mit „1” markiert),
*die M–QAM, ( $M$ = 22, ..., 210 ).

Diese Grafik wurde der Dissertation <ref>Göbel, B.: ''Information–Theoretic Aspects of Fiber–Optic Communication Channels''. Dissertation. TU München. Verlag Dr. Hut, Reihe Informationstechnik, ISBN 978-3-86853-713-0, 2010.</ref> entnommen. Wir danken unserem ehemaligen Kollegen am LNT, Dr.-Ing. Bernhard Göbel, für sein Einverständnis, diese Abbildung verwenden zu dürfen, sowie für seine Unterstützung unseres Lerntutorials.

Man erkennt aus dieser Darstellung:
*Die BPSK–Kurve sowie alle $M$–QAM–Kurven liegen rechts von der Shannon–Grenzkurve. Bei kleinem SNR sind alle Kurven von der roten Kurve fast nicht mehr zu unterscheiden.
*Der Endwert aller Kurven für wertdiskrete Eingangssignale ist $\log_2 (M)$. Für SNR → $∞$ erhält man beispielsweise $C_{\rm BPSK}$ = 1 bit/Symbol sowie $C_{\rm 4-QAM}$ = $C_{\rm QPSK}$ = 2 bit/Symbol.
*Die blauen Markierungen zeigen, dass eine $2^{10}$–QAM mit 10 · lg (SNR) ≈ 27 dB eine Coderate von $R$ ≈ 8,2 ermöglicht. Der Abstand zur Shannon–Kurve beträgt hier 1.53 dB.
*Man spricht hier von einem ''Shaping Gain'' von 10 · lg $(πe$/6) = 1.53 dB. Diese Verbesserung lässt sich erzielen, wenn man die Lage der $32^2$ quadratisch angeordneten Signalraumpunkte so ändern würde, dass sich eine gaußähnliche Eingangs–WDF ergibt ⇒ ''Signal Shaping''.

In der Aufgabe A4.10 werden die AWGN–Kapazitätskurven von BPSK und QPSK diskutiert:
*Ausgehend von der Abszisse 10 · lg $(E_B/N_0)$ mit der Energie $E_B$ pro Informationsbit kommt man zur QPSK–Kurve durch Verdopplung der BPSK–Kurve:

$$C_{\rm QPSK}(10 \cdot {\rm lg} \hspace{0.1cm}(E_{\rm B}/{N_0}))
=
2 \cdot C_{\rm BPSK}(10 \cdot {\rm lg} \hspace{0.1cm}(E_{\rm B}/{N_0}) ) .$$

*Vergleicht man aber BPSK und QPSK bei gleicher Energie pro Informationssymbol $(E_S)$, so gilt:

$$C_{\rm QPSK}(10 \cdot {\rm lg} \hspace{0.1cm}E_{\rm S}/{N_0})
=
2 \cdot C_{\rm BPSK}(10 \cdot {\rm lg} \hspace{0.1cm}E_{\rm S}/{N_0} - 3\,{\rm dB}) .$$

Hierbei ist berücksichtigt, dass bei QPSK die Energie in einer Dimension nur $E_S$/2 beträgt.

== Aufgaben zu Kapitel 4.3 ==

{{Display}}

Information Theory/AWGN Channel Capacity for Discrete-Valued Input

2017-02-05T19:39:16Z

LukasWolf:

{{LastPage}}
{{Header
|Untermenü=Wertkontinuierliche Informationstheorie
|Vorherige Seite=AWGN–Kanalkapazität bei wertkontinuierlichem Eingang
|Nächste Seite=
}}

==AWGN–Modell für zeitdiskrete bandbegrenzte Signale==

Am Ende von Kapitel 4.2 wurde das AWGN–Modell entsprechend der linken Grafik verwendet, gekennzeichnet durch die beiden Zufallsgrößen $X$ und $Y$ am Eingang und Ausgang sowie die stochastische Störung $N$ als das Ergebnis eines mittelwertfreien Gaußschen Zufallsprozesses ⇒ „Weißes Rauschen” mit der Varianz $σ_N^2$. Die Störleistung $P_N$ ist ebenfalls gleich $σ_N^2$.

[[File:P_ID2931__Inf_T_4_3_S1a.png|Zwei weitgehend äquivalente Modelle für den AWGN–Kanal]]

Die maximale Transinformation $I(X; Y)$ zwischen Eingang und Ausgang ⇒ Kanalkapazität $C$ ergibt sich dann, wenn eine Gaußsche Eingangs–WDF $f_X(x)$ vorliegt. Mit der Sendeleistung $P_X = σ_X^2$ (Varianz der Zufallsgröße $X$) lautet die Kanalkapazitätsgleichung:

$$C = 1/2 \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + {P_X}/{P_N})
\hspace{0.05cm}.$$

Nun beschreiben wir das AWGN–Kanalmodell gemäß dem rechts skizzierten Fall, dass am Kanaleingang die Folge $〈X_ν〉$ anliegt, wobei der Abstand zwischen aufeinander folgenden Werten $T_A$ beträgt. Diese Folge ist das zeitdiskrete Äquivalent des zeitkontinuierlichen Signals X(t) nach Bandbegrenzung und Abtastung.
Der Zusammenhang zwischen beiden Modellen kann anhand der folgenden Grafik hergestellt werden, die auf der nächsten Seite noch genauer beschrieben wird.

[[File: P_ID2932__Inf_T_4_3_S1b.png| AWGN–Modell unter Berücksichtigung von Zeitdiskretisierung und Bandbegrenzung]]

Die wesentlichen Erkenntnisse vorneweg:
*Beim rechten Modell gilt zu den Abtastzeitpunkten $ν·T_A$ genau der gleiche Zusammenhang $Y_ν = X_ν + N_ν$ wie beim bisherigen (linken) Modell.
*Die Störkomponente $N_ν$ ist nun durch (auf $±B$) bandbegrenztes Weißes Rauschen mit zweiseitiger Leistungsdichte $Φ_N(f) = N_0/2$ zu modellieren, wobei $B = 1/(2T_A)$ gelten muss ⇒ „Abtasttheorem”.

Beim Modell gemäß der oberen Grafik auf der letzten Seite gehen wir von einer unendlichen Folge $〈X_ν〉$ von Gaußschen Zufallsgrößen aus, die einem [[Signaldarstellung/Zeitdiskrete_Signaldarstellung#Zeitbereichsdarstellung|Diracpuls]] $p_δ(t)$ eingeprägt werden. Das resultierende zeitdiskrete Signal lautet somit:

$$X_{\delta}(t) = T_{\rm A} \cdot \hspace{-0.1cm} \sum_{\nu = - \infty }^{+\infty} X_{\nu} \cdot
\delta(t- \nu \cdot T_{\rm A}
)\hspace{0.05cm}.$$

Der Abstand aller (gewichteten) Diracfunktionen ist einheitlich $T_A$.
Durch das Interpolationsfilter mit der Impulsantwort $h(t)$ sowie dem Frequenzgang $H(f)$, wobei

$$h(t) = 1/T_{\rm A} \cdot {\rm si}(\pi \cdot t/T_{\rm A}) \quad \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet \quad H(f) =
\left\{ \begin{array}{c} 1 \\ 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| \le B, \\ {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| > B, \\ \end{array}
\hspace{0.5cm} B = \frac{1}{T_{\rm A}}$$

gelten muss, entsteht das zeitkontinuierliche Signal $X(t)$ mit folgenden Eigenschaften:
*Die Abtastwerte $X(ν·T_A)$ sind für alle ganzzahligen $ν$ identisch mit den Eingangswerten $X_ν$, was mit den äquidistanten Nullstellen der [[Signaldarstellung/Einige_Sonderfälle_impulsartiger_Signale#Rechteckimpuls|Spaltfunktion]] ⇒ $\text{si}(x) = \sin(x)/x$ begründet werden kann.
*Gemäß dem Abtasttheorem ist $X(t)$ auf den Spektralbereich $±B$ ideal bandbegrenzt, wie die obige Rechnung gezeigt hat ⇒ rechteckförmiger Frequenzgang $H(f)$ der einseitigen Bandbreite $B$.

Nach der Addition der Störung $N(t)$ mit der (zweiseitigen) Leistungsdichte $Φ_N(t) = N_0/2$ folgt das Matched–Filter mit si–förmiger Impulsantwort. Für die Störleistung am MF–Ausgang erhält man:

$$P_N = {\rm E}[N_\nu^2] = \frac{N_0}{2T_{\rm A}} = N_0 \cdot B\hspace{0.05cm}.$$

{{Box}}
'''Beweis''': Mit $B = 1/(2T_A)$ erhält man für die Impulsantwort $h_E(t)$ und die Spektralfunktion $H_E(f)$:

$$h_{\rm E}(t) = 2B \cdot {\rm si}(2\pi \cdot B \cdot t) \quad \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet \quad H_{\rm E}(f) =
\left\{ \begin{array}{c} 1 \\ 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| \le B, \\ {\rm{f\ddot{u}r}} \hspace{0.3cm} |f| > B. \\ \end{array} $$

Daraus folgt entsprechend den Erkenntnissen der [[Stochastische_Signaltheorie/Stochastische_Systemtheorie#Problemstellung|Stochastischen Systemtheorie]]:

$$P_N =
\int_{-\infty}^{+\infty}
\hspace{-0.3cm} {\it \Phi}_N (f) \cdot |H_{\rm E}(f)|^2
\hspace{0.15cm}{\rm d}f = \int_{-B}^{+B}
\hspace{-0.3cm} {\it \Phi}_N (f)
\hspace{0.15cm}{\rm d}f = \frac{N_0}{2} \cdot 2B = N_0 \cdot B
\hspace{0.05cm}.$$

{{end}}

*Tastet man das MF–Ausgangssignal in äquidistanten Abständen $T_A$ ab, so ergibt sich für die Zeitpunkte $ν·T_A$ die gleiche Konstellation wie bisher: $Y_ν = X_ν + N_ν$.
*Der Störanteil $N_ν$ im zeitdiskreten Ausgangssignal $Y_ν$ ist somit „bandbegrenzt” und „weiß”. Die Kanalkapazitätsgleichung muss somit nur geringfügig angepasst werden;

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {P_X}{N_0 \cdot B})
= \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {2 \cdot P_X \cdot T_{\rm A}}{N_0})
= \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac {2 \cdot E_{\rm S}}{N_0})
\hspace{0.05cm}.$$

$E_S$ ist die Sende–Energie innerhalb einer Symboldauer $T_A$ ⇒ '''Energie pro Symbol'''.

==Die Kanalkapazität $C$ als Funktion von $E_S/N_0$ ==

Die obere Grafik zeigt den Verlauf der AWGN–Kanalkapazität in Abhängigkeit des Quotienten $E_S/N_0$, wobei die linke Koordinatenachse und die roten Beschriftungen gültig sind:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel\hspace{0.05cm}use)}
\hspace{0.05cm}.$$

Die Einheit wird manchmal auch mit „bit/Quellensymbol” oder kurz „bit/Symbol” bezeichnet.

[[File:P_ID2934__Inf_T_4_3_S2a.png| Kanalkapazitäten C und C∗ über ES/N0]]

Die rechte (blaue) Achsenbeschriftung berücksichtigt die Beziehung $B = 1/(2T_A)$ und liefert somit eine obere Schranke für die Bitrate eines Digitalsystems, die bei diesem AWGN–Kanal noch möglich ist.

$$C^{\hspace{0.05cm}*} = \frac{C}{T_{\rm A}} = B \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{1.0cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Sekunde}
\hspace{0.05cm}.$$

Meist gibt man den Quotienten aus Symbolenergie $(E_S)$ und AWGN–Rauschleistungsdichte $(N_0)$ in logarithmischer Form an. Die untere Grafik zeigt die Kanalkapazitäten $C$ bzw. $C*$ als Funktion von 10 · lg $(E_S/N_0)$ im Bereich von –20 dB bis +30 dB. Ab etwa 10 dB ergibt sich ein (nahezu) linearer Verlauf.

[[File:P_ID2935__Inf_T_4_3_S2b.png|AWGN–Kanalkapazität als Funktion von 10 · lg (ES/N0) ]]

==Systemmodell zur Interpretation der AWGN–Kanalkapazität==

Um das [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung#Definition_und_Bedeutung_der_Kanalkapazit.C3.A4t|Kanalcodierungstheorem]] im Zusammenhang mit dem AWGN–Kanal besprechen zu können, benötigen wir noch eine Codiervorrichtung, die informationstheoretisch vollständig durch die Coderate $R$ gekennzeichnet wird.

[[File:P_ID2937__Inf_T_4_3_S3_neu.png|Modell zur Interpretation der AWGN–Kanalkapazität]]

Die Grafik beschreibt das von Shannon betrachtete Nachrichtensystem mit den Blöcken Quelle, Coder, (AWGN–)Kanal, Decoder und Empfänger. Im Hintergrund erkennt man ein Originalbild aus einem Shannon–Aufsatz zu diesem Thema. Rot eingezeichnet sind einige Bezeichnungen und Erläuterungen für den folgenden Text:
*Das Quellensymbol $U$ entstammt einem Alphabet mit $M_U = |U| = 2^k$ Symbolen und kann durch $k$ gleichwahrscheinliche statistisch unabhängige Binärsymbole repräsentiert werden.
*Das Alphabet des Codesymbols $X$ hat den Symbolumfang $M_X = |X| = 2^n$, wobei sich $n$ aus der Coderate $R = k/n$ ergibt. Für $R = 1$ gilt somit $n = k$.
*Der Fall $n > k$ führt zu einer Coderate $R < 1$ und aus $n < k$ folgt für die Coderate $R > 1$.

Das '''Kanalcodierungstheorem''' besagt, dass es (mindestens) einen Code der Rate $R$ gibt, der zur Symbolfehlerwahrscheinlichkeit $p_S = \text{Pr}(V ≠ U) = 0$ führt, falls folgende Bedingungen erfüllt sind:
*Die Coderate $R$ ist nicht größer als die Kanalkapazität $C$.
*Ein solcher geeigneter Code ist unendlich lang: $n → ∞$, das heißt, dass die Zufallsgröße $X$ am Kanaleingang wertkontinuierlich ist. Gleiches gilt für $U$ sowie für die Zufallsgrößen $Y$ und $V$ nach dem AWGN–Kanal.
*Wegen $n → ∞$ ist auch tatsächlich eine Gaußverteilung $f_X(x)$ am Kanaleingang möglich, die der bisherigen Berechnung der AWGN–Kanalkapazität stets zugrunde gelegt wurde:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel \hspace{0.05cm}use)}
\hspace{0.05cm}.$$

*Für einen Systemvergleich ist die Energie pro Symbol $(E_S)$ ungeeignet. Ein Vergleich sollte vielmehr auf der Energie $E_B$ pro Informationsbit basieren. Mit $E_B = E_S/R$ gilt somit auch:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot R \cdot E_{\rm B}}{N_0})
\hspace{0.2cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.1cm} (englisch\hspace{-0.15cm}: \hspace{0.05cm}bit/channel \hspace{0.05cm}use)}
\hspace{0.05cm}.$$

Diese beiden Gleichungen werden auf der nächsten Seite diskutiert.

==Die Kanalkapazität $C$ als Funktion von $E_B/N_0$==

Die folgende Grafik zeigt die AWGN–Kanalkapazität $C$ als Funktion von
*10 · lg $(E_S/N_0)$ ⇒ roter Kurvenverlauf:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot E_{\rm S}}{N_0})
\hspace{0.5cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.15cm} (oder\hspace{-0.15cm}: \hspace{0.05cm}bit/Symbol)}
\hspace{0.05cm}.$$

Rote Zahlen: Kapazität $C$ in „bit/Symbol” für 10 · lg $(E_S/N_0)$ = –20 dB, –15 dB, ... , +30dB.
*10 · lg $(E_B/N_0)$ ⇒ grüner Kurvenverlauf:

$$C = \frac{1}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac { 2 \cdot R \cdot E_{\rm B}}{N_0})
\hspace{0.2cm}{\rm Einheit\hspace{-0.15cm}: \hspace{0.05cm}bit/Kanalzugriff\hspace{0.1cm} (oder \hspace{-0.15cm}: \hspace{0.05cm}bit/Symbol)}
\hspace{0.05cm}.$$

Grüne Zahlen: Erforderliches 10 · lg $(E_B/N_0)$ in „dB” für $C$ = 0, 1, ... , 5 in „bit/Symbol”.

[[File:P_ID2938__Inf_T_4_3_S4.png|Die AWGN–Kanalkapazität in zwei unterschiedlichen Darstellungen]]

Die $C(E_B/N_0)$–Berechnung finden Sie in der Aufgabe A4.8 und der zugehörigen Musterlösung. Im Folgenden interpretieren wir das Ergebnis im Vergleich zur [[Informationstheorie/AWGN–Kanalkapazität_bei_wertdiskretem_Eingang#Die_Kanalkapazit.C3.A4t_.7FUNIQ-MathJax74-QINU.7F_als_Funktion_von_.7FUNIQ-MathJax75-QINU.7F|C(E_S/N_0)–Kurve]]:
*Wegen $E_S = R · E_B$ liegt der Schnittpunkt beider Kurven bei $C$ (= $R$) = 1 [bit/Symbol]. Erforderlich sind dazu 10 · lg $(E_S/N_0)$ = 1.76 dB bzw. 10 · lg $(E_B/N_0)$ = 1.76 dB.
*Im Bereich $C$ > 1 liegt die grüne Kurve stets über der roten. Beispielsweise ergibt sich für 10 · lg $(E_B/N_0)$ = 20 dB die Kanalkapazität $C$ ≈ 5, für 10 · lg $(E_S/N_0)$ = 20 dB nur $C$ = 3.83.
*Ein Vergleich in horizontaler Richtung zeigt, dass die Kanalkapazität $C$ = 3 bit/Symbol schon mit 10 · lg $(E_B/N_0)$ ≈ 10 dB erreichbar ist, man aber 10 · lg $(E_S/N_0)$ ≈ 15 dB benötigt.
*Im Bereich $C$ < 1 liegt die rote Kurve stets über der grünen. Für $E_S/N_0$ > 0 gilt auch $C$ > 0. Bei logarithmischer Abszisse reicht somit die rote Kurve bis ins „Minus–Unendliche”.
*Dagegen endet die grüne Kurve bei $E_B/N_0$ = ln (2) = 0.693 ⇒ 10 · lg $(E_B/N_0)$ = –1.59 dB ⇒ absolute Grenze für die (fehlerfreie) Übertragung über den AWGN–Kanal.

==AWGN–Kanalkapazität für binäre Eingangssignale ==

Auf den bisherigen Seiten des Kapitels 4.3 wurde stets entsprechend der Shannon–Theorie von einem gaußverteilten und damit wertkontinuierlichem AWGN–Eingang $X$ ausgegangen. Nun betrachten wir den binären Fall und werden somit der Überschrift „''AWGN–Kanalkapazität bei wertdiskretem Eingang''” dieses Kapitels gerecht.

[[File:P_ID2941__Inf_T_4_3_S5a_neu.png|Zur Berechnung der AWGN–Kanalkapazität für BPSK]]

Die Grafik zeigt das zugrundeliegende Blockschaltbild für [[Digitalsignalübertragung/Lineare_digitale_Modulation_–_Kohärente_Demodulation#Gemeinsames_Blockschaltbild_f.C3.BCr_ASK_und_BPSK|Binary Phase Shift Keying]] (BPSK) mit binärem Eingang $U$ und ebenfalls binärem Ausgang $V$. Durch eine bestmögliche Codierung soll erreicht werden, dass die Fehlerwahrscheinlichkeit $\text{Pr}(V ≠ U)$ verschwindend klein wird.
*Der Coderausgang ist gekennzeichnet durch die binäre Zufallsgröße $X ' = \{0, 1\} ⇒ M_{X'} = 2$, während der Ausgang $Y$ des AWGN–Kanals weiterhin wertkontinuierlich ist: $M_Y → ∞$.
*Durch das Mapping $X = 1 – 2X '$ kommt man von der unipolaren Darstellung zu der für BPSK besser geeigneten bipolaren (antipodalen) Beschreibung: $X ' = 0 → X = +1; X ' = 1 → X = –1$.

[[File:P_ID2942__Inf_T_4_3_S5b_neu.png|Bedingte Wahrscheinlichkeitsdichtefunktionen]]

*Der AWGN–Kanal ist hier durch die beiden bedingten Wahrscheinlichkeitsdichtefunktionen charakterisiert:

$$\begin{align*}f_{Y|\hspace{0.03cm}{X}}(y|\hspace{0.03cm}{X}=+1) \hspace{-0.15cm} & = \hspace{-0.15cm} \frac{1}{\sqrt{2\pi\sigma^2}} \cdot {\rm exp}\left [-\frac{(y - 1)^2} { 2 \sigma^2})\right ] \hspace{0.05cm}\hspace{0.05cm},\\
f_{Y|\hspace{0.03cm}{X}}(y|\hspace{0.03cm}{X}=-1) \hspace{-0.15cm} & = \hspace{-0.15cm} \frac{1}{\sqrt{2\pi\sigma^2}} \cdot {\rm exp}\left [-\frac{(y + 1)^2} { 2 \sigma^2})\right ] \hspace{0.05cm}
\hspace{0.05cm}. \end{align*}$$

In Kurzform: $f_{Y | X} (y | +1)$ bzw. $f_{Y | X} (y | –1)$.
*Da hier das Nutzsignal $X$ auf ±1 normiert ist ⇒ Leistung 1 anstelle von $P_X$, muss die Varianz des AWGN–Rauschens $N$ in gleicher Weise normiert werden: $σ^2 = P_N/P_X$.
*Der Empfänger trifft aus der reellwertigen Zufallsgröße $Y$ (am AWGN–Kanalausgang) eine [[Kanalcodierung/Klassifizierung_von_Signalen#ML.E2.80.93Entscheidung_beim_AWGN.E2.80.93Kanal|Maximum–Likelihood–Entscheidung]]. Der Empfängerausgang $V$ ist binär (0 oder 1).

Ausgehend von diesem Modell wird auf der nächsten Seite die Kanalkapazität berechnet.

Die Kanalkapazität des AWGN–Kanals unter der Nebenbedingung einer binären Eingangsgröße $X$ lautet allgemein unter Berücksichtigung von $\text{Pr}(X = –1) = 1 – \text{Pr}(X = +1)$:

$$C_{\rm BPSK} = \max_{ {\rm Pr}({X} =+1)} \hspace{-0.15cm} I(X;Y)
\hspace{0.05cm}.$$

Aufgrund des symmetrischen Kanals ist offensichtlich, dass die Eingangswahrscheinlichkeiten

$${\rm Pr}({{X}} =+1) = {\rm Pr}({{X} =-1)} = 0.5 $$

zum Optimum führen werden. Gemäß [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Transinformationsberechnung_bei_additiver_St.C3.B6rung|Kapitel 4.2]] gibt es mehrere Berechnungsmöglichkeiten:

$$ \begin{align*}C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(X) + h(Y) - h(XY)\hspace{0.05cm},\\
C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(Y) - h(Y|X)\hspace{0.05cm},\\
C_{\rm BPSK} \hspace{-0.15cm} & = \hspace{-0.15cm} h(X) - h(X|Y)\hspace{0.05cm}. \end{align*}$$

Alle Ergebnisse sind noch um die Pseudo–Einheit „bit” zu ergänzen. Wir wählen hier die mittlere Gleichung:
*Die hierfür benötigte bedingte differentielle Entropie ist gleich

$$h(Y|X) = h(N) = 1/2 \cdot {\rm log}_2 \hspace{0.1cm}(2\pi{\rm e}\cdot \sigma^2)
\hspace{0.05cm}. $$

*Die differentielle Entropie $h(Y)$ ist vollständig durch die WDF $f_Y(y)$ gegeben. Mit den vorne definierten und skizzierten bedingten Wahrscheinlichkeitsdichtefunktionen erhält man:

$$f_Y(y) = \frac{1}{2} \cdot \left [ f_{Y|{X}}(y\hspace{0.05cm}|{X}=-1) + f_{Y|{X}}(y\hspace{0.05cm}|{X}=+1) \right ]$$

$$\Rightarrow \hspace{0.3cm} h(Y) \hspace{-0.01cm}=\hspace{0.05cm}
-\hspace{-0.7cm} \int\limits_{y \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}(f_Y)} \hspace{-0.65cm} f_Y(y) \cdot {\rm log}_2 \hspace{0.1cm} [f_Y(y)] \hspace{0.1cm}{\rm d}y
\hspace{0.05cm}.$$

Es ist offensichtlich, dass $h(Y)$ nur durch numerische Integration ermittelt werden kann, insbesondere, wenn man berücksichtigt, dass sich im Überlappungsbereich $f_Y(y)$ aus der Summe der beiden bedingten Gauß–Funktionen ergibt.

[[File:P_ID2944__Inf_T_4_3_S5d.png|CBPSK und CGauß im Vergleich]]

Das skizzierte Ergebnis wird auf der nächsten Seite diskutiert.

In der folgenden Grafik sind über der Abszisse 10 · lg $(E_B/N_0)$ drei Kurven dargestellt:
*die Kanalkapazität $C_{\rm Gauß}$, gültig für eine Gaußsche Eingangsgröße $X ⇒ M_X → ∞$,
*die Kanalkapazität $C_{\rm BPSK}$ für die Zufallsgröße $X = (+1, –1)$, sowie
*die mit „BPSK ohne Codierung” bezeichnete Horizontale.

[[File:P_ID2946__Inf_T_4_3_S5c_neu.png|CBPSK und CGauß im Vergleich]]

Diese Kurvenverläufe sind wie folgt zu interpretieren:
*Die grüne Kurve $C_{\rm BPSK}$ gibt die maximal zulässige Coderate $R$ einer BPSK an, bei der für das gegebene $E_B/N_0$ durch bestmögliche Codierung die Bitfehlerwahrscheinlichkeit $p_B$ = 0 möglich ist.
*Für alle BPSK–Systeme mit den Koordinaten (10 · lg $E_B/N_0$, $R$) im „grünen Bereich” ist $p_B$ = 0 prinzipiell erreichbar. Aufgabe der Nachrichtentechniker ist es, hierfür geeignete Codes zu finden.
*Die BPSK–Kurve liegt stets unter der absoluten Shannon–Grenzkurve $C_{\rm Gauß}$ für $M_X → ∞$. Im unteren Bereich gilt $C_{\rm BPSK} ≈ C_{\rm Gauß}$. Zum Beispiel muss ein BPSK–System mit $R$ = 1/2 nur ein um 0.1 dB größeres $E_B/N_0$ bereitstellen, als es die (absolute) Kanalkapazität $C_{\rm Gauß}$ fordert.
*Ist $E_B/N_0$ endlich, so gilt stets $C_{\rm BPSK}$ < 1 ⇒ siehe Aufgabe Z4.9. Eine BPSK mit $R$ = 1 (und somit ohne Codierung) wird stets eine Bitfehlerwahrscheinlichkeit $p_B$ > 0 zur Folge haben.
*Die Fehlerwahrscheinlichkeiten eines solchen BPSK–Systems ohne Codierung ( $R$ = 1 ) sind auf der roten Horizontalen angegeben. Um $p_B ≤ 10^{–5}$ zu erreichen, benötigt man mindestens 10 · lg $(E_B/N_0)$ = 9.6 dB.

Die Wahrscheinlichkeiten ergeben sich gemäß [[Digitalsignalübertragung/Lineare_digitale_Modulation_–_Kohärente_Demodulation#Fehlerwahrscheinlichkeit_des_optimalen_BPSK.E2.80.93Systems_.282.29|Kapitel 1.5]] im Buch [[Digitalsignalübertragung]] zu

$$p_{\rm B} = {\rm Q} \left ( \sqrt{S \hspace{-0.06cm}N\hspace{-0.06cm}R}\right ) \hspace{0.45cm} {\rm mit } \hspace{0.45cm}
S\hspace{-0.06cm}N\hspace{-0.06cm}R = 2\cdot E_{\rm B}/{N_0}
\hspace{0.05cm}. $$

''Hinweis'': In obiger Grafik ist 10 · lg (SNR) als zweite, zusätzliche Abszissenachse eingezeichnet. Die Funktion Q(x) bezeichnet man als die komplementäre Gaußsche Fehlerfunktion.

==Vergleich zwischen Theorie und Praxis==

Anhand zweier Grafiken soll gezeigt werden, in wie weit sich etablierte Kanalcodes der BPSK–Kanalkapazität (grüne Kurve) annähern. Als Ordinate aufgetragen ist die Rate $R = k/n$ dieser Codes bzw. die Kapazität $C$ (wenn noch die Pseudo–Einheit „bit/Kanalzugriff” hinzugefügt wird). Vorausgesetzt ist:
*der AWGN–Kanal, gekennzeichnet durch 10 · lg $(E_B/N_0)$ in dB, und
*für die durch Kreuze markierten realisierten Codes eine Bitfehlerrate (BER) von $10^{–5}$.

Zu beachten ist, dass die Kanalkapazitätskurven stets für $n → ∞$ und BER = 0 gelten. Würde man diese strenge Forderung „feherfrei” auch an die betrachteten Kanalcodes endlicher Codelänge $n$ anlegen, so wäre hierfür stets 10 · $E_B/N_0 → ∞$ erforderlich. Dies ist aber ein eher akademisches Problem, das für die Praxis weniger Bedeutung hat. Für $\text{BER} = 10^{–10}$ ergäbe sich eine qualitativ ähnliche Grafik.

[[File:P_ID2949__Inf_T_4_3_S6a.png|Raten und erforderliches EB/N0 verschiedener Kanalcodes]]

Es folgen einige Erläuterungen zu den Daten, die der Vorlesung <ref>Liva, G.: ''Channel Coding''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, TU München und DLR Oberpfaffenhofen, 2010.</ref> entnommen wurden. Die folgenden Links beziehen sich oft auf das Buch [[Kanalcodierung]].
*Die Punkte '''A''', '''B''' und '''C''' markieren [[Kanalcodierung/Beispiele_binärer_Blockcodes#Hamming.E2.80.93Codes_.281.29|Hamming–Codes]] der Raten $R$ = 4/7 ≈ 0.57, $R$ ≈ 0.73 bzw. $R$ ≈ 0.84. Für $\text{BER} = 10^{–5}$ benötigen diese sehr frühen Codes (aus dem Jahr 1950) alle 10 · lg $(E_B/N_0)$ > 8 dB.
*Die Markierung '''D''' kennzeichnet den binären [https://de.wikipedia.org/wiki/Golay-Code Golay–Code] mit der Rate 1/2 und der Punkt '''E''' einen [https://de.wikipedia.org/wiki/Reed-Muller-Code Reed–Muller–Code]. Dieser sehr niederratige Code kam bereits 1971 bei der Raumsonde Mariner 9 zum Einsatz.
*Die [[Kanalcodierung/Definition_und_Eigenschaften_von_Reed–Solomon–Codes#Konstruktion_von_Reed.E2.80.93Solomon.E2.80.93Codes_.281.29|Reed–Solomon–Codes]] (RS–Codes, ca. 1960) sind eine Klasse zyklischer Blockcodes. '''F''' markiert einen RS–Code der Rate 223/255 > 0.9 und einem erforderlichen $E_B/N_0$ < 6 dB.
*Die Punkte '''G''' und '''H''' bezeichnen zwei Faltungscodes (englisch: ''Convolutional Codes'', CC) mittlerer Rate. Der Code '''G''' wurde schon 1972 bei der Pioneer10–Mission eingesetzt.
*Die Kanalcodierung der Voyager–Mission Ende der 1970er Jahre ist mit '''I''' markiert. Es handelt sich um die Verkettung eines (2, 1, 7)–Faltungscodes mit einem RS–Code.

Anzumerken ist, dass bei den Faltungscodes der dritte Kennungsparameter eine andere Bedeutung hat als bei den Blockcodes. (2, 1, 32) weist beispielsweise auf das Memory $m$ = 32 hin.
Auf der nächsten Seite folgen noch die Kenndaten von Systemen mit iterativer Decodierung.

Die frühen Kanalcodes der letzten Seite liegen noch relativ weit von der Kanalkapazitätskurve entfernt. Dies war wahrscheinlich auch ein Grund, warum dem Autor die auch große praktische Bedeutung der Informationstheorie verschlossen blieb, als er diese Anfang der 1970er Jahre im Studium kennenlernte.

Diese Sichtweise hat sich deutlich verändert, als in den 1990er Jahren sehr lange Kanalcodes zusammen mit iterativer Decodierung aufkamen. Die neuen Markierungspunkte liegen näher an der Kapazitätskurve.

[[File:P_ID2950__Inf_T_4_3_S6b.png|Raten und erforderliches EB/N0 für iterative Codierverfahren ]]

Hier noch einige Erläuterungen zu dieser Grafik:
*Rote Kreuze markieren sog. [https://de.wikipedia.org/wiki/Turbo-Code Turbo–Codes] nach CCSDS (''Consultative Committee for Space Data Systems'') mit jeweils $k$ = 6920 Informationsbits und unterschiedlichen Codelängen $n = k/R$. Diese von [https://de.wikipedia.org/wiki/Claude_Berrou Claude Berrou] um 1990 erfundenen Codes können iterativ decodiert werden. Die (roten) Markierungen liegen jeweils weniger als 1 dB von der Shannon–Grenze entfernt.
*Ähnlich verhalten sich die [https://en.wikipedia.org/wiki/Low-density_parity-check_code LDPC–Codes] (''Low Density Parity–check Codes'') mit konstanter Codelänge $n$ = 64800 ⇒ weiße Rechtecke). Sie werden seit 2006 bei DVB–S2 (''Digital Video Broadcast over Satellite'') eingesetzt und eignen sich aufgrund der spärlichen Einsen–Belegung der Prüfmatrix sehr gut für die iterative Decodierung mittels [https://en.wikipedia.org/wiki/Factor_graph Faktor–Graphen] und Exit Charts.
*Schwarze Punkte markieren die von CCSDS spezifizierten LDPC–Codes mit konstanter Anzahl an Informationsbits ( $k$ = 16384 ) und variabler Codewortlänge $n = k/R$. Diese Codeklasse erfordert ein ähnliches $E_B/N_0$ wie die roten Kreuze und die weißen Rechtecke.

Um die Jahrhundertwende hatten viele Forscher den Ehrgeiz, sich der Shannon–Grenze bis auf Bruchteile von einem dB anzunähern. Das gelbe Kreuz markiert ein derartiges Ergebnis (0.0045 dB) von Chung et al. aus dem Jahr 2001. Verwendet wurde ein irregulärer LDPC–Code mit Rate $1/2$ und Codelänge $10^7$.
An dieser Stelle soll nochmals die Brillianz und der Weitblick von [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] hervorgehoben werden. Er hat 1948 eine bis dahin nicht bekannte Theorie entwickelt, mit der die Möglichkeiten, aber auch die Grenzen der Digitalsignalübertragung aufgezeigt werden. Zu dieser Zeit waren die ersten Überlegungen zur digitalen Nachrichtenübertragung gerade mal zehn Jahre alt ⇒ Pulscodemodulation (Alec Reeves, 1938) und selbst der Taschenrechner kam erst mehr als 20 Jahre später. Shannon's Arbeiten zeigen uns, dass man auch ohne gigantische Computer Großes leisten kann.

== Kanalkapazität des komplexen AWGN–Kanals==

Höherstufige Modulationsverfahren wie
*[[Modulationsverfahren/Quadratur–Amplitudenmodulation#QAM.E2.80.93Signalraumkonstellationen|M–QAM]] ⇒ Quadraturamplitudenmodulation; $M$ ≥ 4 quadratische Signalraumpunkte
*[[Modulationsverfahren/Quadratur–Amplitudenmodulation#Weitere_Signalraumkonstellationen|M–PSK]] ⇒ $M$ ≥ 4 Signalraumpunkte in kreisförmiger Anordnung

können jeweils durch eine Inphase– und eine Quadraturkomponente dargestellt werden. Die beiden Komponenten lassen sich im [[Signaldarstellung/Äquivalentes_Tiefpass-Signal_und_zugehörige_Spektralfunktion#Motivation|äquivalenten Tiefpassbereich]] auch als ''Realteil'' bzw. ''Imaginärteil'' eines komplexen Rauschterms $N$ beschreiben.
Alle oben genannten Verfahren sind zweidimensional. Der (komplexe) AWGN–Kanal stellt somit $K$ = 2 voneinander unabhängige Gaußkanäle zur Verfügung. Entsprechend [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Parallele_Gau.C3.9Fsche_Kan.C3.A4le|Kapitel 4.2]] ergibt sich deshalb für die Kapazität dieses Kanals:

$$C_{\rm Gau\ss, \hspace{0.1cm}komplex}= C_{\rm Gesamt} ( K=2)
= {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X/2}{\sigma^2})
\hspace{0.05cm}.$$

*Die gesamte Nutzleistung von Inphase– und Quadraturkomponente wird mit $P_X$ bezeichnet.
*Dagegen bezieht sich die Varianz $σ^2$ der Störung nur auf eine Dimension: $σ^2 = σ_I^2 = σ_Q^2$.

[[File:P_ID2955__Inf_T_4_3_S7.png|2D–WDF des Komplexen Gaußschen Rauschens]]

Die rechte Abbildung zeigt die 2D–WDF $f_N(n)$ des Gaußschen Rauschprozesses $N$ über den beiden Achsen
* $N_I$ (Inphase–Anteil, Realteil) und
* $N_Q$ (Quadraturanteil, Imaginärteil).

Dunklere Bereiche der rotationssymmetrischen WDF $f_N(n)$ um den Nullpunkt weisen auf mehr Störanteile hin. Für die Varianz des komplexen Gaußschen Rauschens $N$ gilt aufgrund der Rotationsinvarianz $(σ_R = σ_I)$ folgender Zusammenhang:

$$\sigma_N^2 = \sigma_{\rm I}^2 + \sigma_{\rm Q}^2 = 2\cdot \sigma^2
\hspace{0.05cm}.$$

Damit lässt sich die Kanalkapazität auch wie folgt ausdrücken:

$$C_{\rm Gau\ss, \hspace{0.1cm}komplex}= {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X}{\sigma_N^2}) = {\rm log}_2 \hspace{0.1cm} ( 1 + SNR)
\hspace{0.05cm}.$$

Diese Gleichung wird auf der nächsten Seite numerisch ausgewertet. Bereits aus dieser Gleichung ist zu ersehen, dass für das Signal–zu–Störleistungsverhältnis gilt:

$$SNR = {P_X}/{\sigma_N^2}
\hspace{0.05cm}.$$

==Maximale Coderate für QAM–Strukturen==

In der Grafik ist die Kanalkapazität des komplexen AWGN–Kanals als rote Kurve dargestellt:

$$C_{\rm Gau\ss, \hspace{0.1cm}komplex}= {\rm log}_2 \hspace{0.1cm} ( 1 + SNR)
\hspace{0.05cm}.$$

Die Einheit dieser Kanalkapazität ist wieder „bit/Kanalzugriff” oder „bit/Quellensymbol”. Als Abszisse ist der Signal–zu–Störleistungsverhältnis 10 · log (SNR) mit $\text{SNR} = P_X/σ_N^2$ aufgetragen.
Die rote Kurve basiert entsprechend der Shannon–Theorie wieder auf einer Gaußverteilung $f_X(x)$ am Eingang. Zusätzlich eingezeichnet sind zehn weitere Kapazitätskurven für wertdiskreten Eingang:

[[File:P_ID2956__Inf_T_4_3_S8_neu.png|Kanalkapazität von BPSK und M–QAM]]

*die BPSK (mit „1” markiert),
*die M–QAM, ( $M$ = 22, ..., 210 ).

Diese Grafik wurde der Dissertation <ref>Göbel, B.: ''Information–Theoretic Aspects of Fiber–Optic Communication Channels''. Dissertation. TU München. Verlag Dr. Hut, Reihe Informationstechnik, ISBN 978-3-86853-713-0, 2010.</ref> entnommen. Wir danken unserem ehemaligen Kollegen am LNT, Dr.-Ing. Bernhard Göbel, für sein Einverständnis, diese Abbildung verwenden zu dürfen, sowie für seine Unterstützung unseres Lerntutorials.

Man erkennt aus dieser Darstellung:
*Die BPSK–Kurve sowie alle $M$–QAM–Kurven liegen rechts von der Shannon–Grenzkurve. Bei kleinem SNR sind alle Kurven von der roten Kurve fast nicht mehr zu unterscheiden.
*Der Endwert aller Kurven für wertdiskrete Eingangssignale ist $\log_2 (M)$. Für SNR → $∞$ erhält man beispielsweise $C_{\rm BPSK}$ = 1 bit/Symbol sowie $C_{\rm 4-QAM}$ = $C_{\rm QPSK}$ = 2 bit/Symbol.
*Die blauen Markierungen zeigen, dass eine $2^{10}$–QAM mit 10 · lg (SNR) ≈ 27 dB eine Coderate von $R$ ≈ 8,2 ermöglicht. Der Abstand zur Shannon–Kurve beträgt hier 1.53 dB.
*Man spricht hier von einem ''Shaping Gain'' von 10 · lg $(πe$/6) = 1.53 dB. Diese Verbesserung lässt sich erzielen, wenn man die Lage der $32^2$ quadratisch angeordneten Signalraumpunkte so ändern würde, dass sich eine gaußähnliche Eingangs–WDF ergibt ⇒ ''Signal Shaping''.

In der Aufgabe A4.10 werden die AWGN–Kapazitätskurven von BPSK und QPSK diskutiert:
*Ausgehend von der Abszisse 10 · lg $(E_B/N_0)$ mit der Energie $E_B$ pro Informationsbit kommt man zur QPSK–Kurve durch Verdopplung der BPSK–Kurve:

$$C_{\rm QPSK}(10 \cdot {\rm lg} \hspace{0.1cm}(E_{\rm B}/{N_0}))
=
2 \cdot C_{\rm BPSK}(10 \cdot {\rm lg} \hspace{0.1cm}(E_{\rm B}/{N_0}) ) .$$

*Vergleicht man aber BPSK und QPSK bei gleicher Energie pro Informationssymbol $(E_S)$, so gilt:

$$C_{\rm QPSK}(10 \cdot {\rm lg} \hspace{0.1cm}E_{\rm S}/{N_0})
=
2 \cdot C_{\rm BPSK}(10 \cdot {\rm lg} \hspace{0.1cm}E_{\rm S}/{N_0} - 3\,{\rm dB}) .$$

Hierbei ist berücksichtigt, dass bei QPSK die Energie in einer Dimension nur $E_S$/2 beträgt.

== Aufgaben zu Kapitel 4.3 ==

{{Display}}

Information Theory/AWGN Channel Capacity for Continuous-Valued Input

2017-02-05T19:07:26Z

LukasWolf:

{{Header
|Untermenü=Wertkontinuierliche Informationstheorie
|Vorherige Seite=Differentielle Entropie
|Nächste Seite=AWGN–Kanalkapazität bei wertdiskretem Eingang
}}

==Transinformation zwischen wertkontinuierlichen Zufallsgrößen ==

Im Kapitel 3.3 wurde die Transinformation (englisch: ''Mutual Information'') zwischen den beiden wertdiskreten Zufallsgrößen $X$ und $Y$ unter Anderem in folgender Form angegeben:

$$I(X;Y) = \hspace{-0.4cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp}\hspace{0.05cm} (P_{XY}\hspace{-0.08cm})}
\hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \frac{ P_{XY}(x, y)}{P_{X}(x) \cdot P_{Y}(y)} \hspace{0.05cm}.$$

Diese Gleichung entspricht gleichzeitig der Kullback–Leibler–Distanz (kurz KLD) zwischen der Verbundwahrscheinlichkeitsfunktion $P_{XY}$ und dem Produkt der beiden Einzel–PMFs $P_X$ und $P_Y$ :

$$I(X;Y) = D(P_{XY} \hspace{0.05cm} || \hspace{0.05cm}P_{X} \cdot P_{Y}) \hspace{0.05cm}.$$

Um daraus die Transinformation $I(X; Y)$ zwischen zwei wertkontinuierlichen Zufallsgrößen $X$ und $Y$ abzuleiten, geht man wie folgt vor (Hochkommata weisen auf quantisierte Größen hin):
*Man quantisiert die Zufallsgrößen $X$ und $Y$ (mit den Quantisierungsintervallen $Δx$ und $Δy$) und erhält so die Wahrscheinlichkeitsfunktionen $P_{X′}$ und $P_{Y′}$ .
*Die „Vektoren” $P_{X′}$ und $P_{Y′}$ werden nach den Grenzübergängen $Δx → 0, Δy → 0$ unendlich lang, und auch die Verbund–PMF $P_{X′Y′}$ ist in der Fläche unendlich weit ausgedehnt.
*Durch diese Grenzübergänge ergeben sich die Wahrscheinlichkeitsdichtefunktionen der drei kontinuierlichen Zufallsgrößen entsprechend den folgenden Gleichungen:

$$f_X(x_{\mu}) = \frac{P_{X'}(x_{\mu})}{{\it \Delta_x}} \hspace{0.05cm},
\hspace{0.3cm}f_Y(y_{\mu}) = \frac{P_{Y'}(y_{\mu})}{{\it \Delta_y}} \hspace{0.05cm},
\hspace{0.3cm}f_{XY}(x_{\mu}\hspace{0.05cm}, y_{\mu}) = \frac{P_{X'Y'}(x_{\mu}\hspace{0.05cm}, y_{\mu})}{{\it \Delta_x} \cdot {\it \Delta_y}} \hspace{0.05cm}.$$

*Aus der Doppelsumme in der obigen Gleichung wird nach der Umbenennung $Δx → d_x$ bzw. $Δy → d_y$ die für wertkontinuierliche Zufallsgrößen gültige Gleichung:

$$I(X;Y) = \hspace{0.2cm} \int \hspace{-0.9cm} \int\limits_{\hspace{-0.4cm}(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} \hspace{0.03cm} (\hspace{-0.03cm}f_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} f_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \frac{ f_{XY}(x, y) }
{f_{X}(x) \cdot f_{Y}(y)}
\hspace{0.15cm}{\rm d}x\hspace{0.15cm}{\rm d}y \hspace{0.05cm}.$$

Durch Aufspaltung dieses Doppelintegrals lässt für die Transinformation auch schreiben:

$$I(X;Y) = h(X) + h(Y) - h(XY)\hspace{0.05cm}.$$

Verwendet ist hierbei die ''differentielle Verbund–Entropie''

$$h(XY) = -\hspace{0.2cm} \int \hspace{-0.9cm} \int\limits_{\hspace{-0.4cm}(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} \hspace{0.03cm} (\hspace{-0.03cm}f_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} f_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} [f_{XY}(x, y) ]
\hspace{0.15cm}{\rm d}x\hspace{0.15cm}{\rm d}y$$

sowie die beiden ''differentiellen Einzel–Entropien''

$$h(X) = -\hspace{-0.7cm} \int\limits_{x \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}\hspace{0.03cm} (\hspace{-0.03cm}f_X)} \hspace{-0.35cm} f_X(x) \cdot {\rm log} \hspace{0.1cm} [f_X(x)] \hspace{0.1cm}{\rm d}x
\hspace{0.05cm},\hspace{0.5cm}
h(Y) = -\hspace{-0.7cm} \int\limits_{y \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}\hspace{0.03cm} (\hspace{-0.03cm}f_Y)} \hspace{-0.35cm} f_Y(y) \cdot {\rm log} \hspace{0.1cm} [f_Y(y)] \hspace{0.1cm}{\rm d}y
\hspace{0.05cm}.$$

Wir gehen weiter von der wertkontinuierlichen Transinformationsgleichung aus:

$$I(X;Y) = h(X) + h(Y) - h(XY)\hspace{0.05cm}.$$

Diese Darstellung findet sich auch im folgenden Schaubild (linke Grafik, über alle Zeilen).

[[File:P_ID2882__Inf_T_4_2_S2neu.png|Darstellung der Transinformation für wertkontinuierliche Zufallsgrößen]]

Daraus erkennt man, dass die Transinformation auch noch wie folgt dargestellt werden kann:

$$I(X;Y) = h(Y) - h(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) =h(X) - h(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y)\hspace{0.05cm}.$$

Diese fundamentalen informationstheoretischen Zusammenhänge kann man auch aus der rechten Grafik ablesen. Diese gerichtete Darstellung ist für Nachrichtenübertragungssysteme besonders geeignet. Die abfließende bzw. zufließende differentielle Entropie kennzeichnet
*die '''Äquivokation''' (englisch: ''Equivocation''):

$$h(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) =\hspace{0.2cm} -\int \hspace{-0.9cm} \int\limits_{\hspace{-0.4cm}(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp}\hspace{0.03cm} (\hspace{-0.03cm}f_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} f_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \left [{f_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)} \right]
\hspace{0.15cm}{\rm d}x\hspace{0.15cm}{\rm d}y\hspace{0.05cm},$$

*die '''Irrelevanz''' (englisch: ''Irrelevance''):

$$h(Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) =\hspace{0.2cm}- \int \hspace{-0.9cm} \int\limits_{\hspace{-0.4cm}(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp}\hspace{0.03cm} (\hspace{-0.03cm}f_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} f_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \left [{f_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (y \hspace{-0.05cm}\mid \hspace{-0.05cm} x)} \right]
\hspace{0.15cm}{\rm d}x\hspace{0.15cm}{\rm d}y\hspace{0.05cm}.$$

Auf die Bedeutung dieser beiden informationstheoretischen Größen wird in Aufgabe Z4.5 noch genauer eingegangen. Vergleicht man die grafischen Darstellungen der Transinformation bei
*wertdiskreten Zufallsgrößen im [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung|Kapitel 3.3]] und
*wertkontinuierlichen Zufallsgrößen entsprechend obiger Grafik,

so erkennt man als einziges Unterscheidungsmerkmal, dass jedes „$H$” (Entropie; größer/gleich Null) durch ein „$h$” (differentielle Entropie, kann positiv, negativ oder 0 sein) ersetzt wurde. Ansonsten ist die Transinformation in beiden Darstellungen gleich und es gilt stets $I(X; Y) ≥ 0$.
Im Folgenden verwenden wir meist den ''Logarithmus dualis'' ⇒ „log2” und erhalten somit die Transinformation in „bit”.

==Transinformationsberechnung bei additiver Störung ==

Wir betrachten nun ein sehr einfaches Modell der Nachrichtenübertragung.
*Die Zufallsgröße $X$ steht für das (mittelwertfreie) Sendesignal und ist durch die WDF $f_X(x)$ und die Varianz $σ_X^2$ gekennzeichnet. Die Sendeleistung $P_X$ ist identisch mit $σ_X^2$.
*Die additive Störung $N$ ist durch die WDF $f_N(n)$ und die Störleistung $P_N$ = $σ_N^2$ gegeben. Da $X$ und $N$ als statistisch unabhängig angenommen werden, gilt $\text{E}[X · N] = \text{E}[X] · \text{E}[N] = 0$ .
*Das Empfangssignal ist $Y = X + N$ Die Ausgangs–WDF $f_Y(y)$ ist mit der [[Signaldarstellung/Faltungssatz_und_Faltungsoperation#Faltung_im_Zeitbereich|Faltungsoperation]] berechenbar ⇒ $f_Y(y) = f_X(x) ∗ f_N(n)$ und für die Empfangsleistung (Varianz) gilt:

$$P_Y = \sigma_Y^2 = {\rm E}[Y^2] = {\rm E}[(X+N)^2] = {\rm E}[X^2] + {\rm E}[N^2] = \sigma_X^2 + \sigma_N^2 = P_X + P_N
\hspace{0.05cm}.$$

Die in der nachfolgenden Grafik eingezeichneten Dichtefunktionen (rechteck– bzw. trapezförmig) sollen nur den Rechengang verdeutlichen und haben keine praktische Relevanz.

[[File:P_ID2883__Inf_T_4_2_S3_neu.png|Nachrichtenübertragungssystem mit additiver Störung]]

Zur Berechnung der Transinformation zwischen dem Eingang $X$ und dem Ausgang $Y$ gibt es entsprechend dem [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Transinformation_zwischen_wertkontinuierlichen_Zufallsgr.C3.B6.C3.9Fen|Schaubild]] auf der vorherigen Seite drei Möglichkeiten:
$$I(X, Y) = h(X) + h(Y) – h(XY):$$
Die beiden ersten Terme sind aus $f_X(x)$ bzw. $f_Y(y)$ in einfacher Weise berechenbar. Problematisch ist die differentielle Verbundentropie $h(XY)$. Hierzu benötigt man die 2D–Verbund–WDF $f_{XY}(x, y)$, die meist nicht direkt gegeben ist.
$$I(X, Y) = h(Y) – h(Y|X):$$
$h(Y|X)$ bezeichnet die differentielle Streuentropie. Es gilt $h(Y|X) = h(X + N|X) = h(N)$, so dass $I(X; Y)$ bei Kenntnis von $f_X(x)$ und $f_N(n)$ über die Gleichung $f_Y(y) = f_X(x) ∗ f_N(n)$ sehr einfach zu berechnen ist.
$$I(X, Y) = h(X) – h(X|Y):$$
Nach dieser Gleichung benötigt man allerdings die differentielle Rückschlussentropie $h(X|Y)$, die schwieriger angebbar ist als $h(Y|X)$.

{{Box}}
'''Resümée''': Im Folgenden schreiben wir für die '''Transinformation''' zwischen dem Eingang $X$ und dem Ausgang $Y$ eines '''Nachrichtenübertragungssystems''' bei additiver und unkorrelierter Störung $N$:

$$I(X;Y) \hspace{-0.05cm} = \hspace{-0.01cm} h(Y) \hspace{-0.01cm}- \hspace{-0.01cm}h(N) \hspace{-0.01cm}=\hspace{-0.05cm}
-\hspace{-0.7cm} \int\limits_{y \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}(f_Y)} \hspace{-0.65cm} f_Y(y) \cdot {\rm log} \hspace{0.1cm} [f_Y(y)] \hspace{0.1cm}{\rm d}y
+\hspace{-0.7cm} \int\limits_{n \hspace{0.05cm}\in \hspace{0.05cm}{\rm supp}(f_N)} \hspace{-0.65cm} f_N(n) \cdot {\rm log} \hspace{0.1cm} [f_N(n)] \hspace{0.1cm}{\rm d}n\hspace{0.05cm}.$$

{{end}}

==Kanalkapazität des AWGN–Kanals==

Spezifiziert man im bisherigen [[Informationstheorie/AWGN–Kanalkapazität_bei_wertkontinuierlichem_Eingang#Kanalkapazit.C3.A4t_des_AWGN.E2.80.93Kanals|Systemmodell]] die Wahrscheinlichkeitsdichtefunktion der Störung (bzw. des Rauschens) zu

$$f_N(n) = \frac{1}{\sqrt{2\pi \sigma_N^2}} \cdot {\rm exp}\left [
- \hspace{0.05cm}\frac{n^2}{2 \sigma_N^2} \right ] \hspace{0.5cm}
{\rm mit } \hspace{0.5cm}\sigma_N^2 = P_N\hspace{0.05cm}, $$

so erhalten wir das folgende Modell zur Berechnung der Kanalkapazität des [[Modulationsverfahren/Qualitätskriterien#Einige_Anmerkungen_zum_AWGN.E2.80.93Kanalmodell|AWGN–Kanals]] (''Additive White Gaussian Noise'').

[[File:P_ID2884__Inf_T_4_2_S4_neu.png|Zur Herleitung der AWGN–Kanalkapazität]]

Die [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung#Definition_und_Bedeutung_der_Kanalkapazit.C3.A4t|Kanalkapazität]] $C$ gibt die maximale Transinformation $I(X; Y)$ zwischen der Eingangsgröße $X$ und der Ausgangsgröße $Y$ des AWGN–Kanals an. Die Maximierung bezieht sich dabei auf die bestmögliche Eingangs–WDF. Somit gilt unter der Nebenbedingung der [[Informationstheorie/Differentielle_Entropie#Differentielle_Entropie_einiger_leistungsbegrenzter_Zufallsgr.C3.B6.C3.9Fen|Leistungsbegrenzung]]:

$$C = \max_{f_X:\hspace{0.05cm} {\rm E}[X^2] \le P_X} \hspace{-0.35cm} I(X;Y)
= -h(N) + \max_{f_X:\hspace{0.05cm} {\rm E}[X^2] \le P_X} \hspace{-0.35cm} h(Y)
\hspace{0.05cm}.$$

Hier ist bereits berücksichtigt, dass sich die Maximierung allein auf $h(Y)$ ⇒ WDF $f_Y(y)$ bezieht. Bei gegebener Störleistung $P_N$ ist nämlich $h(N) = 1/2 · \log2_ (2πe · P_N)$ eine Konstante.
*Das Maximum für $h(Y)$ erhält man für eine Gaußsche WDF $f_Y(y)$, wobei $P_Y = P_X + P_N$ zu setzen ist, siehe [[Informationstheorie/Differentielle_Entropie#WDF.E2.80.93Herleitung_f.C3.BCr_maximale_differentielle_Entropie|Kapitel 4.1]] ⇒ Max $[h(Y)] = 1/2 · \log_2 [2πe · (P_X + P_N)]$.
*Die Ausgangs–WDF $f_Y(y) = f_X(x) ∗ f_N(n)$ ist aber nur dann gaußförmig, wenn sowohl $f_X(x)$ als auch $f_N(n)$ Gaußfunktionen sind. Ein plakativer Merkspruch zur Faltungsoperation lautet nämlich: „''Gauß bleibt Gauß, und Nicht–Gauß wird nie (exakt) Gauß''”.

{{Box}}
'''Resümée''': Beim '''AWGN–Kanal''' ⇒ Gaußsche WDF $f_N(n)$ ergibt sich die '''Kanalkapazität''' $C$ genau dann, wenn die Eingangs–WDF $f_X(x)$ ebenfalls gaußförmig ist:

$$C_{\rm AWGN} = h_{\rm max}(Y) - h(N) = 1/2 \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_Y}{P_N}
= 1/2 \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X}{P_N})
\hspace{0.05cm}.$$

{{end}}

Die folgende Tabelle zeigt die AWGN–Kanalkapazität für verschiedene Quotienten $P_X/P_N$.

[[File:P_ID2885__Inf_T_4_2_S4b_neu.png|AWGN–Kanalkapazität]]

==Parallele Gaußsche Kanäle ==

[[File:P_ID2891__Inf_T_4_2_S4c_neu.png|Parallele AWGN–Kanäle]]

Wir betrachten nun $K$ parallele Gaußkanäle entsprechend der nebenstehenden Grafik
*von $X_1 → Y_1$, ... , von $X_k → Y_k$, ... , von $X_K → Y_K$.
*Die Sendeleistungen in den $K$ Kanälen nennen wir $P_1 = \text{E}[X_1^2], ... , P_k = \text{E}[X_k^2], ... , P_K = \text{E}[X_K^2]$.
*Die $K$ Störleistungen $σ_1^2, ... , σ_k^2, ... , σ_K^2$ können ebenfalls unterschiedlich sein.
Gesucht ist nun die maximale Transinformation

$$I(X_1, ... \hspace{0.05cm}, X_K\hspace{0.05cm};\hspace{0.05cm}Y_1, ... \hspace{0.05cm}, Y_K) $$

*zwischen den $K$ Eingangsgrößen $X_1, ... , X_K$, sowie
*den $K$ Ausgangsgrößen $Y_1, ... , Y_K$,
die wir als die ''Gesamt–Kanalkapazität'' dieser AWGN–Konfiguration bezeichnen. Dabei gehen wir von Leistungsbegrenzung des Gesamtsystems aus, das heißt, dass die Summe aller Leistungen $P_k$ in den $K$ Einzelkanälen den vorgegebenen Wert $P_X$ nicht überschreiten darf:

$$P_1 + ... \hspace{0.05cm}+ P_K = \hspace{0.1cm} \sum_{k= 1}^K
\hspace{0.1cm}{\rm E} \left [ X_k^2\right ] \le P_{X} \hspace{0.05cm}.$$

Unter der nur wenig einschränkenden Annahme unabhängiger Störquellen $N_1, ... , N_K$ kann für die Transinformation nach einigen Zwischenschritten geschrieben werden:

$$I(X_1, ... \hspace{0.05cm}, X_K\hspace{0.05cm};\hspace{0.05cm}Y_1, ... \hspace{0.05cm}, Y_K) = h(Y_1, ... \hspace{0.05cm}, Y_K ) - \hspace{0.1cm} \sum_{k= 1}^K
\hspace{0.1cm} h(N_k)\hspace{0.05cm}.$$

Dafür kann folgende obere Schranke angegeben werden:

$$I(X_1, ... \hspace{0.05cm}, X_K\hspace{0.05cm};\hspace{0.05cm}Y_1, ... \hspace{0.05cm}, Y_K)
\hspace{0.2cm} \le \hspace{0.1cm} \hspace{0.1cm} \sum_{k= 1}^K \hspace{0.1cm} [h(Y_k - h(N_k)]
\hspace{0.2cm} \le \hspace{0.1cm} 1/2 \cdot \sum_{k= 1}^K \hspace{0.1cm} {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_k}{\sigma_k^2})
\hspace{0.05cm}.$$

*Das Gleichheitszeichen (Identität) gilt bei mittelwertfreien Gaußschen Eingangsgrößen $X_k$ sowie bei statistisch voneinander unabhängigen Störungen $N_k$.
*Man kommt von dieser Gleichung zur maximalen ''Transinformation'' ⇒ ''Kanalkapazität'', wenn man die gesamte Sendeleistung $P_X$ unter Berücksichtigung der unterschiedlichen Störungen in den einzelnen Kanälen ( $σ_k^2$ ) bestmöglich aufteilt.
*Dieses Optimierungsproblem lässt sich wieder mit dem Verfahren der ''Lagrange–Multiplikatoren'' elegant lösen. Das Beispiel auf der nächsten Seite erläutert nur das Ergebnis.

{{Beispiel}}

[[File:P_ID2894__Inf_T_4_2_S4d.png|Bestmögliche Leistungsaufteilung auf K = 4 Kanäle („Water–Filling”)]]
Wir betrachten $K$ = 4 parallele Gaußkanäle mit unterschiedlichen Störleistungen ( $σ_1^2, ... , σ_4^2$ ) gemäß der nebenstehenden Abbildung. Gesucht ist die bestmögliche Aufteilung der Sendeleistung auf die vier Kanäle.
Würde man dieses Profil langsam mit Wasser auffüllen, so würde das Wasser zunächst nur in den Kanal 2 fließen. Gießt man weiter, so sammelt sich auch im Kanal 1 etwas Wasser an und später auch im Kanal 4.
Die eingezeichnete „Wasserhöhe” H beschreibt genau den Zeitpunkt, zu dem die Summe $(P_1 + P_2 + P_4)$ der insgesamt zur Verfügung stehenden Sendeleistung $P_X$ entspricht.
Die optimale Leistungsaufteilung für dieses Beispiel ergibt $P_2 > P_1 > P_4$ sowie $P_3 = 0$. Erst bei größerer Sendeleistung $P_X$ würde auch dem dritten Kanal eine kleine Leistung $P_3$ zugewiesen.
Man bezeichnet dieses Allokationsverfahren als '''Water–Filling–Algorithmus'''.

{{end}}

Werden alle $K$ Gaußkanäle in gleicher Weise gestört ⇒ $σ_1^2 = ... = σ_K^2 = P_N$, so sollte man natürlich die gesamte zur Verfügung stehende Sendeleistung $P_X$ gleichmäßig auf alle Kanäle verteilen: $P_k = P_X/K$. Für die Gesamtkapazität erhält man dann:

[[File:P_ID2939__Inf_T_4_2_S5_neu.png|Kanalkapazität bei K parallelen Kanälen]]

$$C_{\rm Gesamt}
= \frac{ K}{2} \cdot {\rm log}_2 \hspace{0.1cm} ( 1 + \frac{P_X}{K \cdot P_N})
\hspace{0.05cm}.$$

Die rechte Grafik zeigt die Gesamtkapazität als Funktion des Quotienten $P_X/P_N$ für $K$ = 1, $K$ = 2 und $K$ = 3.
*Bei $P_X/P_N = 10 ⇒ 10 · \text{lg} (P_X/P_N) = 10 \text{dB}$ wird die Gesamtkapazität um ca. 50% größer, wenn man die Gesamtleistung auf zwei Kanäle gleichmäßig aufteilt.
*Im Grenzfall $P_X/P_N → ∞$ nimmt die Gesamtkapazität um den Faktor $K$ zu ⇒ Verdoppelung mit $K$ = 2.

Die beiden identischen und voneinander unabhängigen Kanäle kann man auf unterschiedliche Weise realisieren, zum Beispiel durch Zeit–, Frequenz– oder Raummultiplexverfahren.
Der Fall $K$ = 2 lässt sich aber auch durch die Verwendung orthogonaler Basisfunktionen wie „Cosinus” und „Sinus” verwirklichen wie zum Beispiel bei der [[Modulationsverfahren/Quadratur–Amplitudenmodulation|Quadratur–Amplitudenmodulation]] (QAM) oder einer [[Modulationsverfahren/Quadratur–Amplitudenmodulation#Weitere_Signalraumkonstellationen|mehrstufigen Phasenmodulation]] wie QPSK oder 8–PSK.

==Aufgaben zu Kapitel 4.2 ==

{{Display}}

Information Theory/Differential Entropy

2017-02-05T18:57:34Z

LukasWolf:

{{Header
|Untermenü=Wertkontinuierliche Informationstheorie
|Vorherige Seite=Anwendung auf die Digitalsignalübertragung
|Nächste Seite=AWGN–Kanalkapazität bei wertkontinuierlichem Eingang
}}

==Eigenschaften wertkontinuierlicher Zufallsgrößen==

Bisher wurden stets ''wertdiskrete Zufallsgrößen'' der Form $X = \{x_1, x_2, ... , x_μ, ... , x_M\}$ betrachtet, die aus informationstheoretischer Sicht vollständig durch ihre [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Wahrscheinlichkeitsfunktion_und_Wahrscheinlichkeitsdichtefunktion|Wahrscheinlichkeitsfunktion]] (englisch: ''Probability Mass Function'', PMF) $P_X(X)$ charakterisiert werden:

$$P_X(X) = \left [ \hspace{0.1cm}
p_1, p_2, \hspace{0.05cm}... \hspace{0.15cm}, p_{\mu},\hspace{0.05cm} ...\hspace{0.15cm}, p_M \hspace{0.1cm}\right ]
\hspace{0.3cm}{\rm mit} \hspace{0.3cm} p_{\mu}= P_X(x_{\mu})= {\rm Pr}( X = x_{\mu})
\hspace{0.05cm}.$$

Eine '''wertkontinuierliche Zufallsgröße''' kann dagegen – zumindest in endlichen Intervallen – jeden beliebigen Wert annehmen. Aufgrund des nicht abzählbaren Wertevorrats ist in diesem Fall die Beschreibung durch eine Wahrscheinlichkeitsfunktion nicht möglich oder zumindest nicht sinnvoll: Es ergäbe sich nämlich $M$ → $∞$ sowie $p_1$ → 0, $p_2$ → 0, usw.

[[File:P_ID2850__Inf_T_4_1_S1b.png|WDF und VTF einer kontinuierlichen Zufallsgröße]]

Nomenklaturhinweise
zu WDF und VTF

Man verwendet zur Beschreibung wertkontinuierlicher Zufallsgrößen gemäß den Definitionen im Buch [[Stochastische Signaltheorie]] gleichermaßen (beachten Sie die Einträge in der Grafik):
* [[Stochastische_Signaltheorie/Wahrscheinlichkeitsdichtefunktion_(WDF)|Wahrscheinlichkeitsdichtefunktion]] (WDF, englisch: ''Probability Density Function'', PDF):

$$f_X(x_0)= \lim_{{\rm \Delta} x\to \rm 0}\frac{p_{{\rm \Delta} x}}{{\rm \Delta} x} = \lim_{{\rm \Delta} x\to \rm 0}\frac{{\rm Pr} \{ x_0- {\rm \Delta} x/\rm 2 \le \it X \le x_{\rm 0} +{\rm \Delta} x/\rm 2\}}{{\rm \Delta} x}.$$

In Worten: Der WDF–Wert bei $x_0$ gibt die Wahrscheinlichkeit $p_{Δx}$ an, dass die Zufallsgröße $X$ in einem (unendlich kleinen) Intervall der Breite $Δx$ um $x_0$ liegt, dividiert durch $Δx$.
* [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente#Berechnung_als_Scharmittelwert|Mittelwert]] (Moment erster Ordnung, englisch: ''Mean Value'' bzw. ''Expectation Value''):

$$m_1 = {\rm E}[ X]= \int_{-\infty}^{+\infty} \hspace{-0.1cm} x \cdot f_X(x) \hspace{0.1cm}{\rm d}x
\hspace{0.05cm}.$$

*[[Stochastische_Signaltheorie/Erwartungswerte_und_Momente#Berechnung_als_Scharmittelwert|Varianz]] (Zentralmoment zweiter Ordnung, englisch: ''Variance''):

$$\sigma^2 = {\rm E}[(X- m_1 )^2]= \int_{-\infty}^{+\infty} \hspace{-0.1cm} (x- m_1 )^2 \cdot f_X(x- m_1 ) \hspace{0.1cm}{\rm d}x
\hspace{0.05cm}.$$

*[[Stochastische_Signaltheorie/Verteilungsfunktion_(VTF)|Verteilungsfunktion]] (VTF, englisch: ''Cumulative Distribution Function'', CDF):

$$F_X(x) = \int_{-\infty}^{x} \hspace{-0.1cm}f_X(\xi) \hspace{0.1cm}{\rm d}\xi
\hspace{0.2cm} = \hspace{0.2cm}
{\rm Pr}(X \le x)\hspace{0.05cm}.$$

Beachten Sie, dass sowohl die WDF–Fläche als auch der VTF–Endwert stets gleich 1 sind.

Wir betrachten nun mit der Gleichverteilung einen wichtigen Sonderfall. Die Grafik zeigt den Verlauf zweier gleichverteilter Größen, die alle Werte zwischen 1 und 5 (Mittelwert $m_1$ = 3) mit gleicher Wahrscheinlichkeit annehmen können. Links ist das Ergebnis eines Zufallsprozesses dargestellt, rechts ein deterministisches Signal („Sägezahn”) mit gleicher Amplitudenverteilung.

[[File:P_ID2849__Inf_T_4_1_S1.png|Zwei Analogsignale als Beispiele für wertkontinuierliche Zufallsgrößen]]

Die ''Wahrscheinlichkeitsdichtefunktion'' der Gleichverteilung hat den unten skizzierten Verlauf:

$$f_X(x) = \left\{ \begin{array}{c} \hspace{0.25cm}(x_{\rm max} - x_{\rm min})^{-1} \\ (x_{\rm max} - x_{\rm min})^{-1}/2 \\ \hspace{0.25cm} 0 \\ \end{array} \right. \begin{array}{*{20}c} {\rm{f\ddot{u}r}} \\ {\rm{f\ddot{u}r}} \\ {\rm{f\ddot{u}r}} \\ \end{array}
\begin{array}{*{20}l} {x_{\rm min} < x < x_{\rm max},} \\ x ={x_{\rm min} \hspace{0.1cm}{\rm und}\hspace{0.1cm}x = x_{\rm max},} \\ x > x_{\rm max}. \\ \end{array}$$

[[File:P_ID2870__Inf_A_4_1a.png|WDF und VTF einer gleichverteilten Zufallsgröße]]

Es ergeben sich hier für den Mittelwert $m_1$ = ${\rm E}[X]$ und die Varianz $σ_2$ = ${\rm E}[(X – m_1)^2]$ folgende Gleichungen:

$$m_1 = \frac{x_{{\rm max}} + x_{{\rm min}}}{2}\hspace{0.05cm}, \hspace{0.5cm}
\sigma^2 = \frac{(x_{{\rm max}} - x_{{\rm min}})^2}{12}\hspace{0.05cm}.$$

Unten dargestellt ist die ''Verteilungsfunktion'' (VTF):

$$F_X(x) = \int_{-\infty}^{x} \hspace{-0.1cm}f_X(\xi) \hspace{0.1cm}{\rm d}\xi
\hspace{0.2cm} = \hspace{0.2cm}
{\rm Pr}(X \le x)\hspace{0.05cm}.$$

Diese ist für $x ≤ x_{\rm min}$ identisch 0, steigt danach linear an und erreicht bei $x$ = $x_{\rm max}$ den VTF–Endwert 1.
Die Wahrscheinlichkeit, dass die Zufallgröße $X$ einen Wert zwischen 3 und 4 annimmt, kann sowohl aus der WDF als auch aus der VTF ermittelt werden:

$${\rm Pr}(3 \le X \le 4) = \int_{3}^{4} \hspace{-0.1cm}f_X(\xi) \hspace{0.1cm}{\rm d}\xi = 0.25\hspace{0.05cm}\hspace{0.05cm},$$

$${\rm Pr}(3 \le X \le 4) = F_X(4) - F_X(3) = 0.25\hspace{0.05cm}.$$

Weiterhin ist zu beachten:
*Das Ergebnis $X$ = 0 ist bei dieser Zufallsgröße ausgeschlossen ⇒ Pr($X$ = 0) = 0.
*Das Ergebnis $X$ = 4 ist dagegen durchaus möglich. Trotzdem gilt auch hier Pr($X$ = 4) = 0.

==Entropie wertkontinuierlicher Zufallsgrößen nach Quantisierung ==

Wir betrachten nun eine wertkontinuierliche Zufallsgröße $X$ im Bereich von 0 bis 1.
*Wir quantisieren die kontinuierliche Zufallsgröße $X$, um die bisherige Entropieberechnung weiter anwenden zu können. Die so entstehende diskrete (quantisierte) Größe nennen wir $Z$.
*Die Quantisierungsstufenzahl sei $M$, so dass jedes Quantisierungsintervall $μ$ bei der vorliegenden WDF die Breite $Δ = 1/M$ aufweist. Die Intervallmitten bezeichnen wir mit $x_μ$.
*Die Wahrscheinlichkeit $p_μ$ = Pr($Z$ = $z_μ$) bezüglich $Z$ ist gleich der Wahrscheinlichkeit, dass die kontinuierliche Zufallsgröße $X$ einen Wert zwischen $x_μ – Δ/2$ und $x_μ + Δ/2$ besitzt.
*Zunächst setzen wir $M$ = 2 und verdoppeln anschließend $M$ in jeder Iteration. Dadurch wird die Quantisierung zunehmend feiner. Im $n$–ten Versuch gilt dann $M$ = $2^n$ und $Δ$ = $2^{–n}$.

{{Beispiel}}
Die Grafik zeigt die Ergebnisse der ersten drei Versuche für eine dreieckförmige WDF (zwischen 0 und 1):
* $n = 1 ⇒ M = 2 ⇒ Δ = 1/2: H(Z) = 0.811$ bit,
* $n = 2 ⇒ M = 4 ⇒ Δ = 1/4: H(Z) = 1.749$ bit,
* $n = 3 ⇒ M = 8 ⇒ Δ = 1/8: H(Z) = 2.729$ bit.

[[File:P_ID2851__Inf_T_4_1_S2.png|Entropiebestimmung der Dreieck–WDF nach Quantisierung]]

Zudem können der Grafik noch folgende Größen entnommen werden, zum Beispiel für $Δ = 1/8$:
*Die Intervallmitten liegen bei $x_1 = 1/16, x_2 = 3/16, ... , x_8 = 15/16 ⇒ x_μ = Δ · (μ – 1/2)$.
*Die Intervallflächen ergeben sich zu $p_μ = Δ · f_X(x_μ) ⇒ p_8 = 1/8 · (7/8+1)/2 = 15/64$.
*Damit erhält man $P_Z(Z) = (1/64, 3/64, 5/64, 7/64, 9/64, 11/64, 13/64, 15/64)$.

{{end}}

Die Ergebnisse dieses Experiments interpretieren wir wie folgt:
*Die Entropie $H(Z)$ nimmt mit steigendem $M$ immer mehr zu.
*Der Grenzwert von $H(Z)$ für $M → ∞ ⇒ Δ → 0$ ist unendlich.
*Damit ist auch die Entropie $H(X)$ der wertkontinuierlichen Zufallsgröße $X$ unendlich groß.
*Daraus folgt: Die bisherige Entropie–Definition versagt hier.

Zur Verifizierung unseres empirischen Ergebnisses gehen wir von folgender Gleichung aus:

$$H(Z) = \hspace{0.2cm} \sum_{\mu = 1}^{M} \hspace{0.2cm} p_{\mu} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\mu}}= \hspace{0.2cm} \sum_{\mu = 1}^{M} \hspace{0.2cm} {\it \Delta} \cdot f_X(x_{\mu} ) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{{\it \Delta} \cdot f_X(x_{\mu} )}\hspace{0.05cm}.$$

*Wir spalten nun $H(Z) = S_1 + S_2$ in zwei Summen auf:

$$\begin{align*}S_1 \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm log}_2 \hspace{0.1cm} \frac{1}{{\it \Delta} } \cdot \hspace{0.2cm} \sum_{\mu = 1}^{M} \hspace{0.02cm} {\it \Delta} \cdot f_X(x_{\mu} ) \approx - {\rm log}_2 \hspace{0.1cm}{{\it \Delta}} \hspace{0.05cm},\\
S_2 \hspace{-0.15cm} & = \hspace{-0.15cm} \hspace{0.05cm} \sum_{\mu = 1}^{M} \hspace{0.2cm} f_X(x_{\mu} ) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{ f_X(x_{\mu} ) } \cdot {\it \Delta} \hspace{0.2cm}\approx
\hspace{0.2cm} \int_{0}^{1} \hspace{0.05cm} f_X(x) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{ f_X(x) } \hspace{0.1cm}{\rm d}x \hspace{0.05cm}.\end{align*}$$

Die Näherung $S_1 ≈ –\log_2 Δ$ gilt exakt nur im Grenzfall $Δ → 0$. Die angegebene Näherung für $S_2$ gilt ebenfalls nur für kleine $Δ → {\rm d}x$, so dass man die Summe durch das Integral ersetzen kann.

{{Box}}
'''Verallgemeinerung''': Nähert man die wertkontinuierliche Zufallsgröße $X$ mit der WDF $f_X(x)$ durch eine wertdiskrete Zufallsgröße $Z$ an, indem man eine (feine) Quantisierung mit der Intervallbreite $Δ$ durchführt, so erhält man für die Entropie der Zufallsgröße $Z$:

$$H(Z) \approx - {\rm log}_2 \hspace{0.1cm}{{\it \Delta}} \hspace{0.2cm}+
\hspace{-0.35cm} \int\limits_{{\rm supp}(f_X)} \hspace{-0.35cm} f_X(x) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{ f_X(x) } \hspace{0.1cm}{\rm d}x = - {\rm log}_2 \hspace{0.1cm}{{\it \Delta}} \hspace{0.2cm} + h(X) \hspace{0.5cm}[{\rm in \hspace{0.15cm}bit}] \hspace{0.05cm}.$$

Das Integral beschreibt die [[Informationstheorie/Differentielle_Entropie#Definition_und_Eigenschaften_der_differentiellen_Entropie|differentielle Entropie]] $h(X)$ der wertkontinuierlichen Zufallsgröße $X$. Für den Sonderfall $Δ = 1/M = 2^{–n}$ kann die obige Gleichung auch wie folgt geschrieben werden:

$$H(Z) = n + h(X) \hspace{0.5cm}[{\rm in \hspace{0.15cm}bit}] \hspace{0.05cm}.$$

*Im Grenzfall $Δ → 0 ⇒ M → ∞ ⇒ n → ∞$ ist auch die Entropie der wertkontinuierlichen Zufallsgröße unendlich groß: $H(X) → ∞$.
*Auch bei kleinerem $n$ stellt diese Gleichung lediglich eine Näherung für $H(Z)$ dar, wobei die differentielle Entropie $h(X)$ der wertkontinuierlichen Größe als Korrekturfaktor dient.

{{end}}

{{Beispiel}}
Wir betrachten wie im letzten Beispiel eine Dreieck–WDF (zwischen 0 und 1). Deren differentielle Entropie ergibt sich zu $h(X)$ = –0.279 bit – siehe Aufgabe A4.2. In der Tabelle ist die Entropie $H(Z)$ der mit $n$ Bit quantisierten Größe $Z$ angegeben. Man erkennt bereits für $n$ = 3 eine gute Übereinstimmung zwischen der Näherung (untere Zeile) und der exakten Berechnung.

[[File:P_ID2852__Inf_T_4_1_S2c.png|Entropie der Dreieck–WDF nach Quantisierung ]]

{{end}}

==Definition und Eigenschaften der differentiellen Entropie ==

{{Definition}}
Die differentielle Entropie $h(X)$ einer wertkontinuierlichen Zufallsgröße $X$ lautet mit der Wahrscheinlichkeitsdichtefunktion $f_X(x)$:

$$h(X) =
\hspace{0.1cm} - \hspace{-0.45cm} \int\limits_{{\rm supp}(f_X)} \hspace{-0.35cm} f_X(x) \cdot {\rm log} \hspace{0.1cm} [ f_X(x) ] \hspace{0.1cm}{\rm d}x
\hspace{0.6cm}{\rm mit}\hspace{0.6cm} {\rm supp}(f_X) = \{ x: f_X(x) > 0 \}
\hspace{0.05cm}.$$

Hinzugefügt werden muss jeweils eine Pseudo–Einheit:
*„nat” bei Verwendung von „ln” ⇒ natürlicher Logarithmus,
*„bit” bei Verwendung von „log2” ⇒ Logarithmus dualis.

{{end}}

Während für die (herkömmliche) Entropie einer wertdiskreten Zufallsgröße $X$ stets $H(X) ≥ 0$ gilt, kann die differentielle Entropie $h(X)$ einer wertkontinuierlichen Zufallsgröße auch negativ sein. Daraus ist bereits ersichtlich, dass $h(X)$ im Gegensatz zu $H(X)$ nicht als „Unsicherheit” interpretiert werden kann.

{{Beispiel}}

[[File:P_ID2854__Inf_T_4_1_S3a_neu.png|WDF einer gleichverteilten Zufallsgröße]]
Die Grafik zeigt die Wahrscheinlichkeitsdichte einer zwischen $x_{\rm min}$ und $x_{\rm max}$ gleichverteilten Zufallsgröße $X$. Für deren differentielle Entropie erhält man in „nat”:

$$\begin{align*}h(X) \hspace{-0.18cm} & = \hspace{-0.18cm} - \hspace{-0.18cm}\int\limits_{x_{\rm min}}^{x_{\rm max}} \hspace{-0.28cm} \frac{1}{x_{\rm max}\hspace{-0.05cm} - \hspace{-0.05cm}x_{\rm min}} \cdot {\rm ln} \hspace{0.1cm} [ \frac{1}{x_{\rm max}\hspace{-0.05cm} - \hspace{-0.05cm}x_{\rm min}} ] \hspace{0.1cm}{\rm d}x & = \hspace{-0.18cm}
{\rm ln} \hspace{0.1cm} [ {x_{\rm max}\hspace{-0.05cm} - \hspace{-0.05cm}x_{\rm min}} ] \cdot [ \frac{1}{x_{\rm max}\hspace{-0.05cm} - \hspace{-0.05cm}x_{\rm min}} ]_{x_{\rm min}}^{x_{\rm max}}={\rm ln} \hspace{0.1cm} [ {x_{\rm max}\hspace{-0.05cm} - \hspace{-0.05cm}x_{\rm min}} ]\hspace{0.05cm}.\end{align*} $$

Die Gleichung für die differentielle Entropie in „bit” lautet: $h(X) = \log_2 [x_{\rm max} – x_{ \rm min}]$.

[[File:P_ID2855__Inf_T_4_1_S3b_neu.png|h(X) für verschiedene rechteckförmige Dichtefunktionen]]

Die Grafik zeigt anhand einiger Beispiele die numerische Auswertung des obigen Ergebnisses. Auf der nächsten Seite wird auf die Größen $h_1(X), ... , h_6(X)$ näher eingegangen.

{{end}}

{{Box}}
Aus den Skizzen des letzten Beispiels lassen sich wichtige Eigenschaften der differentiellen Entropie $h(X)$ ablesen:
*Die differentielle Entropie wird durch eine WDF–Verschiebung (um $k$) nicht verändert:

$$h(X + k) = h(X) \hspace{1.7cm}\Rightarrow \hspace{0.2cm}
h_3(X) = h_4(X) = h_5(X)
\hspace{0.05cm}.$$

* $h(X)$ ändert sich durch Stauchung/Spreizung der WDF um den Faktor $k ≠ 0$ wie folgt:

$$h( k\hspace{-0.05cm} \cdot \hspace{-0.05cm}X) = h(X) + {\rm log}_2 \hspace{0.05cm} |k|\hspace{0.15cm}\Rightarrow \hspace{0.15cm}
h_6(X) = h_5(AX) = h_5(X) + {\rm log}_2 \hspace{0.05cm} (A) =
{\rm log}_2 \hspace{0.05cm} (2A)
\hspace{0.05cm}.$$

{{end}}

Des Weiteren gelten viele der in [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen|Kapitel 3]] für den wertdiskreten Fall hergeleitete Gleichungen auch für wertkontinuierliche Zufallsgrößen. Aus der folgenden Zusammenstellung erkennt man, dass oft nur das „$H$” durch ein „$h$” sowie die PMF durch die entsprechende WDF zu ersetzen ist.

* '''Bedingte differentielle Entropie''' (englisch: ''Conditional Differential Entropy''):

$$H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log} \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ]=\hspace{-0.4cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} \hspace{0.03cm}(\hspace{-0.03cm}P_{XY}\hspace{-0.08cm})}
\hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)}
\hspace{0.05cm}$$

$$\Rightarrow \hspace{0.3cm}h(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log} \hspace{0.1cm}\frac{1}{f_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ]=\hspace{0.2cm} \int \hspace{-0.9cm} \int\limits_{\hspace{-0.4cm}(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp}\hspace{0.03cm}(\hspace{-0.03cm}f_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} f_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \frac{1}{f_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)}
\hspace{0.15cm}{\rm d}x\hspace{0.15cm}{\rm d}y\hspace{0.05cm}.$$

* '''Differentielle Verbundentropie''' (englisch: ''Joint Differential Entropy''):

$$H(XY) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.4cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} \hspace{0.03cm}(\hspace{-0.03cm}P_{XY}\hspace{-0.08cm})}
\hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \frac{1}{ P_{XY}(x, y)} \hspace{0.05cm}$$

$$\Rightarrow \hspace{0.3cm}h(XY) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{f_{XY}(X, Y)}\right ] =\hspace{0.2cm} \int \hspace{-0.9cm} \int\limits_{\hspace{-0.4cm}(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} \hspace{0.03cm}(\hspace{-0.03cm}f_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} f_{XY}(x, y) \cdot {\rm log} \hspace{0.1cm} \frac{1}{ f_{XY}(x, y) }
\hspace{0.15cm}{\rm d}x\hspace{0.15cm}{\rm d}y\hspace{0.05cm}.$$

* '''Kettenregel''' der differentiellen Entropie:

$$H(X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_n) =\sum_{i = 1}^{n}
H(X_i | X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_{i-1})
\le \sum_{i = 1}^{n}
H(X_i)
\hspace{0.05cm}$$

$$\Rightarrow \hspace{0.3cm}
h(X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_n) =\sum_{i = 1}^{n}
h(X_i | X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_{i-1})
\le \sum_{i = 1}^{n}
h(X_i)
\hspace{0.05cm}.$$

* '''Kullback–Leibler–Distanz''' zwischen den Zufallsgrößen $X$ und $Y$:

$$D(P_X \hspace{0.05cm} || \hspace{0.05cm}P_Y) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{P_X(X)}{P_Y(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} \hspace{0.03cm}(\hspace{-0.03cm}P_{X})\hspace{-0.8cm}}
P_X(x) \cdot {\rm log} \hspace{0.1cm} \frac{P_X(x)}{P_Y(x)}
\ge 0$$

$$\Rightarrow \hspace{0.3cm}D(f_X \hspace{0.05cm} || \hspace{0.05cm}f_Y) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{f_X(X)}{f_Y(X)}\right ] \hspace{0.2cm}= \hspace{-0.4cm}\int\limits_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp}\hspace{0.03cm}(\hspace{-0.03cm}f_{X}\hspace{-0.08cm})} \hspace{-0.4cm}
f_X(x) \cdot {\rm log} \hspace{0.1cm} \frac{f_X(x)}{f_Y(x)} \hspace{0.15cm}{\rm d}x \ge 0
\hspace{0.05cm}.$$

==Differentielle Entropie einiger spitzenwertbegrenzter Zufallsgrößen ==

Die Tabelle zeigt die Ergebnisse für drei beispielhafte Wahrscheinlichkeitsdichtefunktionen $f_X(x)$. Diese sind alle spitzenwertbegrenzt, das heißt, es gilt jeweils $|X| ≤ A$.

[[File: P_ID2867__Inf_A_4_1.png|Differentielle Entropie spitzenwertbegrenzter Zufallsgrößen]]

Bei ''Spitzenwertbegrenzung'' kann man die differentielle Entropie stets wie folgt darstellen:

$$h(X) = {\rm log}\,\, ({\it \Gamma}_{\rm A} \cdot A).$$

Das Argument $Γ_A · A$ ist unabhängig davon, welchen Logarithmus man verwendet. Anzufügen ist
*bei Verwendung von „ln” ist die Pseudo–Einheit „nat”,
*bei Verwendung von „log2” ist die Pseudo–Einheit „bit”.

{{Box}}
'''Theorem''': Unter der Nebenbedingung '''Spitzenwertbegrenzung''' (englisch: ''Peak Constraint'') ⇒ also WDF $f_X(x) = 0$ für $|x| > A$ – führt die '''Gleichverteilung''' zur maximalen differentiellen Entropie:

$$h_{\rm max}(X) = {\rm log} \hspace{0.1cm} (2A)\hspace{0.05cm}.$$

[[Informationstheorie/Differentielle_Entropie#WDF.E2.80.93Herleitung_f.C3.BCr_maximale_differentielle_Entropie|Beweis]]
{{end}}

Das Theorem bedeutet gleichzeitig, dass bei jeder anderen spitzenwertbegrenzten WDF (außer der Gleichverteilung) der Kennparameter $Γ_A$ kleiner als 2 sein wird.
*Für die symmetrische Dreieckverteilung ergibt sich nach obiger Tabelle $Γ_A = e^{1/2} ≈ 1.649$.
*Beim einseitigen Dreieck (zwischen 0 und $A$) ist demgegenüber $Γ_A$ nur halb so groß.
*Auch für jedes andere Dreieck (Breite $A$, Spitze beliebig zwischen 0 und $A$) gilt $Γ_A ≈ 0.824$.

Die jeweils zweite $h(X)$–Angabe und die Kenngröße $Γ_L$ eignet sich dagegen für den Vergleich von Zufallsgrößen bei Leistungsbegrenzung – siehe nächste Seite. Unter dieser Nebenbedingung ist die symmetrische Dreieckverteilung $(Γ_L ≈ 16.31)$ besser als die Gleichverteilung $(Γ_L = 12)$.

==Differentielle Entropie einiger leistungsbegrenzter Zufallsgrößen ==

Die differentielle Entropie $h(X)$ für drei beispielhafte Dichtefunktionen $f_X(x)$, die alle die gleiche Varianz $σ_2 = {\rm E}[|X –m_x|^2]$ ⇒ Streuung $σ$ aufweisen, sind der folgenden Tabelle zu entnehmen:
*''Gaußverteilung'' ⇒ siehe Buch [[Stochastische Signaltheorie]], Kapitel 3.5,
*''Laplaceverteilung'' ⇒ siehe Buch [[Stochastische Signaltheorie]], Kapitel 3.6,
*''Exponentialverteilung'' ⇒ siehe Buch [[Stochastische Signaltheorie]], Kapitel 3.6.

[[File:P_ID2873__Inf_T_4_1_S5a_neu.png|Differentielle Entropie leistungsbegrenzter Zufallsgrößen]]

Die differentielle Entropie lässt sich bei allen diesen Beispielen als

$$h(X) = 1/2 \cdot {\rm log} \hspace{0.1cm} ({\it \Gamma}_{\rm L} \cdot \sigma^2)$$

darstellen. Das Ergebnis unterscheidet sich nur durch die Pseudo–Einheit „nat” bei Verwendung von „ln” bzw. „bit” bei Verwendung von „log2”.

{{Box}}
'''Theorem''': Unter der Nebenbedingung der '''Leistungsbegrenzung''' (englisch: ''Power Constraint'') führt die '''Gaußverteilung'''

$$f_X(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \cdot {\rm exp} \left [
- \hspace{0.05cm}\frac{(x - m_1)^2}{2 \sigma^2}\right ]$$

unabhängig vom Mittelwert $m_1$ zur maximalen differentiellen Entropie:

$$h(X) = 1/2 \cdot {\rm log} \hspace{0.1cm} (2\pi{\rm e} \cdot \sigma^2)\hspace{0.05cm}.$$

Beweis

{{end}}

Dies bedeutet gleichzeitig, dass für jede andere WDF als die Gaußverteilung $Γ_L < 2πe ≈ 17.08$ gelten muss. Beispielsweise ergibt sich der Kennwert $Γ_L = 6e ≈ 16.31$ für die Dreieckverteilung, $Γ_L = 2e^2 ≈ 14.78$ für die Laplaceverteilung und $Γ_L = 12$ für die Gleichverteilung.

==WDF–Herleitung für maximale differentielle Entropie ==

'''Beweis für Spitzenwertbegrenzung''' ⇒ $\mathbf{|X| ≤ A}$:
Unter der Nebenbedingung des Spitzenwertbegrenzung gilt für die differentielle Entropie:

$$h(X) = \hspace{0.1cm} \hspace{0.05cm} \int_{-A}^{+A} \hspace{0.05cm} f_X(x) \cdot {\rm log} \hspace{0.1cm} \frac{1}{ f_X(x) } \hspace{0.1cm}{\rm d}x
\hspace{0.05cm}.$$

Von allen möglichen Wahrscheinlichkeitsdichtefunktionen $f_X(x)$, die die Bedingung

$$\int_{-A}^{+A} \hspace{0.05cm} f_X(x) \hspace{0.1cm}{\rm d}x = 1$$

erfüllen, ist nun diejenige Funktion $g_X(x)$ gesucht, die zur maximalen differentiellen Entropie $h(X)$ führt. Zur Herleitung benutzen wir das Verfahren der [[https://de.wikipedia.org/wiki/Lagrange-Multiplikator|Lagrange–Multiplikatoren]]:
*Wir definieren die Lagrange–Kenngröße $L$ in der Weise, dass darin sowohl $h(X)$ als auch die Nebenbedingung $|X| ≤ A$ enthalten sind:

$$L= \hspace{0.1cm} \hspace{0.05cm} \int_{-A}^{+A} \hspace{0.05cm} f_X(x) \cdot {\rm log} \hspace{0.1cm} \frac{1}{ f_X(x) } \hspace{0.1cm}{\rm d}x \hspace{0.5cm}+ \hspace{0.5cm}
\lambda \cdot
\int_{-A}^{+A} \hspace{0.05cm} f_X(x) \hspace{0.1cm}{\rm d}x
\hspace{0.05cm}.$$

*Wir setzen allgemein $f_X(x) = g_X(x) + ε · ε_X(x)$, wobei $ε_X(x)$ eine beliebige Funktion darstellt, mit der Einschränkung, dass die WDF–Fläche gleich 1 sein muss. Damit erhalten wir:

$$\begin{align*}L \hspace{-0.15cm} & = \hspace{-0.15cm} \hspace{0.1cm} \hspace{0.05cm} \int_{-A}^{+A} \hspace{0.05cm} [ g_X(x) + \varepsilon \cdot \varepsilon_X(x) ] \cdot {\rm log} \hspace{0.1cm} \frac{1}{ g_X(x) + \varepsilon \cdot \varepsilon_X(x) } \hspace{0.1cm}{\rm d}x + \\
& + \hspace{-0.15cm}\lambda \cdot
\int_{-A}^{+A} \hspace{0.05cm} [ g_X(x) + \varepsilon \cdot \varepsilon_X(x) ] \hspace{0.1cm}{\rm d}x
\hspace{0.05cm}.\end{align*}$$

*Die bestmögliche Funktion ergibt sich dann, wenn es für $ε = 0$ eine stationäre Lösung gibt:

$$\left [\frac{{\rm d}L}{{\rm d}\varepsilon} \right ]_{\varepsilon \hspace{0.05cm}= \hspace{0.05cm}0}=\hspace{0.1cm} \hspace{0.05cm} \int_{-A}^{+A} \hspace{0.05cm} \varepsilon_X(x) \cdot \left [ {\rm log} \hspace{0.1cm} \frac{1}{ g_X(x) } -1 \right ]\hspace{0.1cm}{\rm d}x \hspace{0.3cm} + \hspace{0.3cm}\lambda \cdot
\int_{-A}^{+A} \hspace{0.05cm} \varepsilon_X(x) \hspace{0.1cm}{\rm d}x \stackrel{!}{=} 0
\hspace{0.05cm}.$$

*Diese Bedingungsgleichung ist unabhängig von $ε_X$ nur dann zu erfüllen, wenn gilt:

$${\rm log} \hspace{0.1cm} \frac{1}{ g_X(x) } -1 + \lambda = 0 \hspace{0.4cm}
\forall x \in [-A, +A]\hspace{0.3cm} \Rightarrow\hspace{0.3cm}
g_X(x) = {\rm const.}\hspace{0.4cm}
\forall x \in [-A, +A]\hspace{0.05cm}.$$

{{Box}}
'''Resümee''': Die maximale differentielle Entropie ergibt sich unter der '''Nebenbedingung''' $\mathbf{|X| ≤ A}$ für die gleichverteilte Zufallsgröße (englisch: ''Uniform PDF''):

$$h_{\rm max}(X) = {\rm log} \hspace{0.1cm} ({\it \Gamma}_{\rm A} \cdot A) = {\rm log} \hspace{0.1cm} (2A) \hspace{0.5cm} \Rightarrow\hspace{0.5cm} {\it \Gamma}_{\rm A} = 2
\hspace{0.05cm}.$$

Jede andere Zufallsgröße mit der WDF–Eigenschaft $f_X(|x| > A)$ = 0 führt zu einer kleineren differentiellen Entropie, gekennzeichnet durch den Parameter $Γ_A$ < 2.

{{end}}

'''Beweis für Leistungsbegrenzung''' ⇒ $\mathbf{{\rm E}[|X – m_1|^2] ≤ σ^2}$:
Vorneweg zur Begriffserklärung: Eigentlich wird nicht die Leistung ⇒ das [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente|zweite Moment]] $m_2$ begrenzt, sondern das [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente#Zentralmomente|zweite Zentralmoment]] ⇒ Varianz $μ_2 = σ^2$. Lassen wir nur mittelwertfreie Zufallsgrößen zu, so umgehen wir das Problem. Damit lautet die Laplace–Kenngröße:

$$L= \hspace{0.1cm} \hspace{0.05cm} \int_{-\infty}^{+\infty} \hspace{-0.1cm} f_X(x) \cdot {\rm log} \hspace{0.1cm} \frac{1}{ f_X(x) } \hspace{0.1cm}{\rm d}x \hspace{0.1cm}+ \hspace{0.1cm}
\lambda_1 \cdot
\int_{-\infty}^{+\infty} \hspace{-0.1cm} f_X(x) \hspace{0.1cm}{\rm d}x
\hspace{0.1cm}+ \hspace{0.1cm}
\lambda_2 \cdot
\int_{-\infty}^{+\infty}\hspace{-0.1cm} x^2 \cdot f_X(x) \hspace{0.1cm}{\rm d}x \hspace{0.05cm}.$$

Nach ähnlichem Vorgehen wie im Fall der [[Informationstheorie/Differentielle_Entropie#Differentielle_Entropie_einiger_spitzenwertbegrenzter_Zufallsgr.C3.B6.C3.9Fen|Spitzenwertbegrenzung]] erhält man das Ergebnis, dass die „bestmögliche” WDF $g_X(x)$ proportinonal zu ${\rm exp}(–λ_2 · x^2)$ sein muss ⇒ [[Stochastische_Signaltheorie/Gaußverteilte_Zufallsgröße|Gaußverteilung]]:

$$g_X(x) ={1}/{\sqrt{2\pi \sigma^2}} \cdot {\rm exp} \left (
- \hspace{0.05cm}{x^2}/{(2 \sigma^2)}\right )\hspace{0.05cm}.$$

Wir verwenden hier aber für den expliziten Beweis zur Abwechslung die [[Informationstheorie/Differentielle_Entropie#Definition_und_Eigenschaften_der_differentiellen_Entropie|Kullback–Leibler–Distanz]] zwischen einer geeigneten allgemeinen WDF $f_X(x)$ und der Gauß–WDF $g_X(x)$:

$$D(f_X \hspace{0.05cm} || \hspace{0.05cm}g_X) = \int_{-\infty}^{+\infty} \hspace{0.02cm}
f_X(x) \cdot {\rm ln} \hspace{0.1cm} \frac{f_X(x)}{g_X(x)} \hspace{0.1cm}{\rm d}x = -h(X) - I_2$$

$$\Rightarrow\hspace{0.3cm}I_2 = \int_{-\infty}^{+\infty} \hspace{0.02cm}
f_X(x) \cdot {\rm ln} \hspace{0.1cm} {g_X(x)} \hspace{0.1cm}{\rm d}x \hspace{0.05cm}.$$

Zur Vereinfachung wurde hier der natürliche Logarithmus verwendet. Damit erhalten wir:

$$I_2 = - \frac{1}{2} \cdot {\rm ln} \hspace{0.1cm} (2\pi\sigma^2) \cdot \hspace{-0.1cm}\int_{-\infty}^{+\infty} \hspace{-0.4cm} f_X(x) \hspace{0.1cm}{\rm d}x
\hspace{0.3cm}- \hspace{0.3cm}
\frac{1}{2\sigma^2} \cdot \hspace{-0.1cm}\int_{-\infty}^{+\infty} \hspace{0.02cm} x^2 \cdot f_X(x) \hspace{0.1cm}{\rm d}x
\hspace{0.05cm}.$$

Das erste Integral ist definitionsgemäß gleich 1 und das zweite Integral ergibt $σ^2$:

$$I_2 = - {1}/{2} \cdot {\rm ln} \hspace{0.1cm} (2\pi\sigma^2) - {1}/{2} \cdot [{\rm ln} \hspace{0.1cm} ({\rm e})] = - {1}/{2} \cdot {\rm ln} \hspace{0.1cm} (2\pi{\rm e} \cdot \sigma^2)$$

$$\Rightarrow\hspace{0.3cm} D(f_X \hspace{0.05cm} || \hspace{0.05cm}g_X) = -h(X) - I_2 =
-h(X) + {1}/{2} \cdot {\rm ln} \hspace{0.1cm} (2\pi{\rm e} \cdot \sigma^2)\hspace{0.05cm}.$$

Da auch bei wertkontinuierlichen Zufallsgrößen die Kullback–Leibler–Distanz größer oder gleich 0 ist, erhält man nach Verallgemeinerung (ln ⇒ log):

$$h(X) \le {1}/{2} \cdot {\rm log} \hspace{0.1cm} (2\pi{\rm e} \cdot \sigma^2)\hspace{0.05cm}.$$

Das Gleichzeichen gilt nur, wenn die Zufallsgröße $X$ gaußverteilt ist.

{{Box}}
'''Resümee''': Die maximale differentielle Entropie unter der '''Nebenbedingung''' $\mathbf{|X – m_1|^2 ≤ σ^2}$ ergibt sich für die '''Gaußverteilung''' (englisch: ''Gaussian PDF'') unabhängig vom Mittelwert $m_1$:

$$h_{\rm max}(X) = {1}/{2} \cdot {\rm log} \hspace{0.1cm} ({\it \Gamma}_{\hspace{-0.1cm} \rm L} \cdot \sigma^2) =
{1}/{2} \cdot {\rm log} \hspace{0.1cm} (2\pi{\rm e} \cdot \sigma^2) \hspace{0.5cm} \Rightarrow\hspace{0.5cm} {\it \Gamma}_{\rm L} = 2\pi{\rm e}
\hspace{0.05cm}.$$

Jede andere wertkontinuierliche Zufallsgröße $X$ mit Varianz ${\rm E}[|X – m_1|^2] ≤ σ^2$ führt zu einer kleineren differentiellen Entropie, gekennzeichnet durch die Kenngröße $Γ_L < 2πe$.

{{end}}

==Aufgaben zu Kapitel 4.1 ==

{{Display}}

Information Theory/Application to Digital Signal Transmission

2017-02-05T18:43:58Z

LukasWolf:

{{Header
|Untermenü=Information zwischen zwei wertdiskreten Zufallsgrößen
|Vorherige Seite=Verschiedene Entropien zweidimensionaler Zufallsgrößen
|Nächste Seite=Differentielle Entropie
}}

==Informationstheoretisches Modell der Digitalsignalübertragung ==

Die bisher allgemein definierten Entropien werden nun auf die Digitalsignalübertragung angewendet, wobei wir von einem '''digitalen Kanalmodell ohne Gedächtnis''' (englisch: ''Discrete Memoryless Channel'', DMC) entsprechend der nachfolgenden Grafik ausgehen:

[[File:P_ID2779__Inf_T_3_3_S1a_neu.png|Betrachtetes Modell der Digitalsignalübertragung]]

*Die Menge der möglichen Quellensymbole wird durch die diskrete Zufallsgröße $X$ charakterisiert, wobei $|X|$ den Quellensymbolumfang angibt:

$$X = \{\hspace{0.05cm}x_1\hspace{0.05cm}, \hspace{0.05cm} x_2\hspace{0.05cm},\hspace{0.05cm} ...\hspace{0.1cm} ,\hspace{0.05cm} x_{\mu}\hspace{0.05cm}, \hspace{0.05cm}...\hspace{0.1cm} , \hspace{0.05cm} x_{|X|}\hspace{0.05cm}\}\hspace{0.05cm}.$$

*Entsprechend kennzeichnet $Y$ die Menge der Sinkensymbole mit dem Symbolvorrat $|Y|$:

$$Y = \{\hspace{0.05cm}y_1\hspace{0.05cm}, \hspace{0.05cm} y_2\hspace{0.05cm},\hspace{0.05cm} ...\hspace{0.1cm} ,\hspace{0.05cm} y_{\kappa}\hspace{0.05cm}, \hspace{0.05cm}...\hspace{0.1cm} , \hspace{0.05cm} Y_{|Y|}\hspace{0.05cm}\}\hspace{0.05cm}.$$

*Meist gilt $|Y|$ = $|X|$. Möglich ist aber auch $|Y|$ > $|X|$, zum Beispiel beim Binary Erasure Channel (BEC) mit $X$ = {0, 1} und $Y$ = {0, 1, E} ⇒ $|X|$ = 2, $|Y|$ = 3.
*Das Sinkensymbol $E$ kennzeichnet eine Auslöschung (englisch: ''Erasure''). Das Ereignis $Y$ = $E$ gibt an, dass eine Entscheidung für 0 oder für 1 zu unsicher wäre.
*Die Symbolwahrscheinlichkeiten der Quelle und der Sinke sind in der oberen Grafik durch die Wahrscheinlichkeitsfunktionen $P_X(X)$ und $P_Y(Y)$ berücksichtigt, wobei gilt:

$$P_X(x_{\mu}) = {\rm Pr}( X = x_{\mu})\hspace{0.05cm}, \hspace{0.3cm}
P_Y(y_{\kappa}) = {\rm Pr}( Y = y_{\kappa})\hspace{0.05cm}.$$

*Es gelte: $P_X(X)$ und $P_Y(Y)$ enthalten keine Nullen ⇒ $\text{supp}(P_X)$ = $P_X$, $\text{supp}(P_Y)$ = $P_Y$. Diese Voraussetzung erleichtert die Modellbeschreibung, ohne Verlust an Allgemeingültigkeit.
*Alle Übergangswahrscheinlichkeiten des digitalen gedächtnislosen Kanals (DMC) werden durch die ''bedingte Wahrscheinlichkeitsfunktion'' $P_{Y|X}(Y|X)$ erfasst. Mit $x_μ ∈ X$ und $y_κ ∈ Y$ gelte hierfür folgende Definition:

$$P_{Y\hspace{0.01cm}|\hspace{0.01cm}X}(y_{\kappa}\hspace{0.01cm} |\hspace{0.01cm} x_{\mu}) = {\rm Pr}(Y\hspace{-0.1cm} = y_{\kappa}\hspace{0.03cm} | \hspace{0.03cm}X \hspace{-0.1cm}= x_{\mu})\hspace{0.05cm}.$$

In obiger Grafik ist $P_{Y|X}(⋅)$ als ein Block mit $|X|$ Eingängen und $|Y|$ Ausgängen dargestellt. Die blauen Verbindungen markieren die Übergangswahrscheinlichkeiten $\text{Pr}(y_i | x_μ)$ ausgehend von $x_μ$ mit 1 ≤ $i$ ≤ $|Y|$, während alle roten Verbindungen bei $y_κ$ enden: $\text{Pr}(y_κ | x_i)$ mit 1 ≤ $i$ ≤ $|X|$.

Bevor wir die Entropien für die einzelnen Wahrscheinlichkeitsfunktionen angeben, nämlich
$P_X(X) ⇒ H(X)$, $P_Y(Y) ⇒ H(Y)$, $P_{XY}(X) ⇒ H(XY)$, $P_Y|X(Y|X) ⇒ H(Y|X)$, $P_{X|Y}(X|Y) ⇒ H(X|Y)$,
sollen die Aussagen der letzten Seite an einem Beispiel verdeutlicht werden.

{{Beispiel}}

[[File:P_ID2780__Inf_T_3_3_S1b_neu.png|Digitales Kanalmodell Binary Erasure Channel]]
Im Buch [[Kanalcodierung]] behandeln wir den Binary Erasure Channel (BEC), der rechts in etwas modifizierter Form skizziert ist.

Dabei gelten folgende Voraussetzungen:
*Das Eingangsalphabet ist binär: $X$ = (0, 1) ⇒ $|X|$ = 2, während am Ausgang drei Werte möglich sind: $Y$ = (0, 1, $E$) ⇒ $|Y|$ = 3.
*„E” kennzeichnet den Fall, dass sich der Empfänger aufgrund von zu großen Kanalstörungen nicht für eines der Binärsymbole 0 oder 1 entscheiden kann. „E” steht hierbei für ''Erasure'' (Auslöschung).
*Beim BEC gemäß obiger Skizze werden sowohl eine gesendete „0” als auch eine „1” mit der Wahrscheinlichkeit $λ$ ausgelöscht, während die Wahrscheinlichkeit einer richtigen Übertragung jeweils 1 – $λ$ beträgt.
*Dagegen werden Übertragungsfehler durch das BEC–Modell ausgeschlossen ⇒ die bedingten Wahrscheinlichkeiten Pr( $Y$ = 1 | $X$ = 0 ) sowie Pr( $Y$ = 0 | $X$ = 1) sind jeweils 0.

Beim Sender seien die Nullen und Einsen nicht unbedingt gleichwahrscheinlich. Vielmehr verwenden wir die beiden Wahrscheinlichkeitsfunktionen

$$\begin{align*}P_X(X) \hspace{-0.15cm} & = \hspace{-0.15cm} \big ( {\rm Pr}( X = 0)\hspace{0.05cm}, {\rm Pr}( X = 1) \big )\hspace{0.05cm},\\
P_Y(Y) \hspace{-0.15cm} & = \hspace{-0.15cm} \big ( {\rm Pr}( Y = 0)\hspace{0.05cm}, {\rm Pr}( Y = 1)\hspace{0.05cm}, {\rm Pr}( Y = {\rm E}) \big )\hspace{0.05cm}.\end{align*}$$

Aus obigem Modell erhalten wir dann:

$$\begin{align*}P_Y(0) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}( Y \hspace{-0.1cm} = 0) = P_X(0) \cdot ( 1 - \lambda)\hspace{0.05cm}, \\
P_Y(1) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}( Y \hspace{-0.1cm} = 1) = P_X(1) \cdot ( 1 - \lambda)\hspace{0.05cm}, \\
P_Y({\rm E}) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}( Y \hspace{-0.1cm} = {\rm E}) = P_X(0) \cdot \lambda \hspace{0.1cm}+\hspace{0.1cm} P_X(1) \cdot \lambda \hspace{0.05cm}.\end{align*}$$

Fassen wir nun $P_X(X)$ und $P_Y(Y)$ als Vektoren auf, so lässt sich das Ergebnis wie folgt darstellen:

$$P_{\hspace{0.05cm}Y}(Y) = P_X(X) \cdot P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) \hspace{0.05cm},$$

wobei die Übergangswahrscheinlichkeiten $\text{Pr}(y_κ | x_μ)$ durch folgende Matrix berücksichtigt sind:

$$P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) =
\begin{pmatrix}
1 - \lambda 0 \lambda\\
0 1 - \lambda \lambda
\end{pmatrix}\hspace{0.05cm}.$$

Beachten Sie: Wir haben diese Darstellung nur gewählt, um die Beschreibung zu vereinfachen. $P_X(X)$ und $P_Y(Y)$ sind keine Vektoren im eigentlichen Sinne und $P_{Y|X}(Y|X)$ ist keine Matrix.

{{end}}

Alle in Kapitel 3.2 definierten Entropien gelten auch für die Digitalsignalübertragung. Es ist aber zweckmäßig, anstelle des bisher verwendeten Schaubildes (linke Grafik) die rechte Darstellung zu wählen, bei der die Richtung von der Quelle $X$ zur Sinke $Y$ erkennbar ist.

[[File:P_ID2781__Inf_T_3_3_S2.png|Zwei informationstheoretische Modelle für die Digitalsignalübertragung]]

Interpretieren wir nun ausgehend vom allgemeinen DMC–Kanalmodell die rechte Grafik:
*Die '''Quellenentropie''' (englisch: ''Source Entropy'') $H(X)$ bezeichnet den mittleren Informationsgehalt der Quellensymbolfolge. Mit dem Symbolumfang $|X|$ gilt:

$$H(X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(X)}\right ] \hspace{0.1cm}
= -{\rm E} \left [ {\rm log}_2 \hspace{0.1cm}{P_X(X)}\right ] \hspace{0.2cm}
=\hspace{0.2cm} \sum_{\mu = 1}^{|X|}
P_X(x_{\mu}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(x_{\mu})} \hspace{0.05cm}.$$

*Die '''Äquivokation''' (auch Rückschlussentropie genannt, englisch: ''Equivocation'') $H(X|Y)$ gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Sinke $Y$ genau Bescheid weiß, durch Beobachtung der Quelle $X$ gewinnt:

$$H(X|Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{-0.01cm}Y}(X\hspace{-0.01cm} |\hspace{0.03cm} Y)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{0.03cm}Y}
(\hspace{0.05cm}x_{\mu}\hspace{0.03cm} |\hspace{0.05cm} y_{\kappa})}
\hspace{0.05cm}.$$

*Die Äquivokation ist der Anteil der Quellenentropie $H(X)$, der durch Kanalstörungen (bei digitalem Kanal: Übertragungsfehler) verloren geht. Es verbleibt die '''Transinformation''' (englisch: ''Mutual Information'') $I(X; Y)$, die zur Sinke gelangt:

$$I(X;Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_{XY}(X, Y)}{P_X(X) \cdot P_Y(Y)}\right ] \hspace{0.2cm} = H(X) - H(X|Y) \hspace{0.05cm}.$$

*Die '''Irrelevanz''' (manchmal auch ''Streuentropie'' genannt, englisch: ''Irrelevance'') $H(Y|X)$ gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Quelle $X$ genau Bescheid weiß, durch Beobachtung der Sinke $Y$ gewinnt:

$$H(Y|X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{0.03cm} X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{0.03cm}X}
(\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu})}
\hspace{0.05cm}.$$

*Die '''Sinkenentropie''' $H(Y)$, der mittlere Informationsgehalt der Sinke, ist die Summe aus der nützlichen Transinformation $I(X; Y)$ und der Irrelevanz $H(Y|X)$, die ausschließlich von Kanalfehlern herrührt:

$$H(Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_Y(Y)}\right ] \hspace{0.1cm}
= -{\rm E} \left [ {\rm log}_2 \hspace{0.1cm}{P_Y(Y)}\right ] \hspace{0.2cm} =I(X;Y) + H(Y|X)
\hspace{0.05cm}.$$

==Transinformationsberechnung für den Binärkanal==

Die Definitionen der letzten Seite sollen nun an einem Beispiel verdeutlicht werden, wobei wir bewusst vermeiden, die Berechnungen durch die Ausnutzung von Symmetrien zu vereinfachen.

{{Beispiel}}

[[File:P_ID2782__Inf_T_3_3_S3a.png|Allgemeines Modell des Binärkanals]]
Wir betrachten den allgemeinen Binärkanal (englisch: ''Binary Channel'') ohne Gedächtnis gemäß der Skizze mit den Verfälschungswahrscheinlichkeiten.

$$\begin{align*}\varepsilon_0 \hspace{-0.15cm} & = \hspace{-0.15cm}{\rm Pr}(Y\hspace{-0.1cm} = 1\hspace{0.05cm} | X \hspace{-0.1cm}= 0) = 0.01\hspace{0.05cm},\\
\varepsilon_1 \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}(Y\hspace{-0.1cm} = 0\hspace{0.05cm} | X \hspace{-0.1cm}= 1) = 0.2\hspace{0.05cm}\end{align*}$$

$$\Rightarrow \hspace{0.3cm} P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) =
\begin{pmatrix}
1 - \varepsilon_0 & \varepsilon_0\\
\varepsilon_1 & 1 - \varepsilon_1
\end{pmatrix} =
\begin{pmatrix}
0.99 & 0.01\\
0.2 & 0.8
\end{pmatrix} \hspace{0.05cm}.$$

Außerdem gehen wir von nicht gleichwahrscheinlichen Quellensymbolen aus:

$$P_X(X) = \big ( p_0, p_1 \big )=
\big ( 0.1, 0.9 \big )
\hspace{0.05cm}.$$

Mit der binären Entropiefunktion erhält man so für die Quellenentropie:

$$H(X) = H_{\rm bin} (0.1) = 0.4690 \,{\rm bit}
\hspace{0.05cm}.$$

Für die Wahrscheinlichkeitsfunktion der Sinke sowie für die Sinkenentropie ergibt sich somit:

$$P_Y(Y) = \big ( {\rm Pr}( Y\hspace{-0.1cm} = 0)\hspace{0.05cm}, {\rm Pr}( Y \hspace{-0.1cm}= 1) \big ) = \big ( p_0\hspace{0.05cm}, p_1 \big ) \cdot
\begin{pmatrix}
1 - \varepsilon_0 & \varepsilon_0\\
\varepsilon_1 & 1 - \varepsilon_1
\end{pmatrix} $$

$$\begin{align*}\Rightarrow \hspace{0.3cm} {\rm Pr}( Y \hspace{-0.1cm}= 0)\hspace{-0.15cm} & = \hspace{-0.15cm}
p_0 \cdot (1 - \varepsilon_0) + p_1 \cdot \varepsilon_1 =
0.1 \cdot 0.99 + 0.9 \cdot 0.2 = 0.279\hspace{0.05cm},\\
{\rm Pr}( Y \hspace{-0.1cm}= 1)\hspace{-0.15cm} & = \hspace{-0.15cm} 1 - {\rm Pr}( Y \hspace{-0.1cm}= 0) = 0.721\end{align*}$$

$$\Rightarrow \hspace{0.2cm}
H(Y) = H_{\rm bin} (0.279) = 0.8541 \,{\rm bit}
\hspace{0.05cm}. $$

Auf der nächsten Seite werden noch berechnet:
*die Verbundentropie $H(XY)$,
*die Transinformation $I(X; Y)$,
*die Rückschlussentropie $H(X|Y)$ ⇒ Äquivokation,
*die Streuentropie $H(Y|X)$ ⇒ Irrelevanz.
Diese Ergebnisse sind in der folgenden zusammenfassenden Grafik bereits mit aufgenommen.

[[File:P_ID2783__Inf_T_3_3_S3b_neu.png|Informationstheoretisches Modell des betrachteten Binärkanals]]

[[File:P_ID2782__Inf_T_3_3_S3a.png|Allgemeines Modell des Binärkanals]]

Wir betrachten weiter den allgemeinen Binärkanal (englisch: ''Binary Channel'') ohne Gedächtnis gemäß der Skizze, und es gelte weiterhin:

$$P_X(X) = \big ( p_0, p_1 \big )=
\big ( 0.1, 0.9 \big )
\hspace{0.05cm},$$

$$\varepsilon_0 = {\rm Pr}(Y\hspace{-0.1cm} = 1\hspace{0.05cm} | X \hspace{-0.1cm}= 0) = 0.01\hspace{0.05cm}, \hspace{0.3cm}
\varepsilon_1 ={\rm Pr}(Y\hspace{-0.1cm} = 0\hspace{0.05cm} | X \hspace{-0.1cm}= 1) = 0.2\hspace{0.05cm}.$$

Die Verbundwahrscheinlichkeiten $p_{\{μκ\}}$ = $\text{Pr}[(X = μ) ∩ (Y = κ)]$ zwischen Quelle und Sinke sind:

$$\begin{align*}p_{00}\hspace{-0.15cm} & = \hspace{-0.15cm} p_0 \cdot (1 - \varepsilon_0) = 0.099\hspace{0.05cm},\hspace{0.5cm}p_{01}= p_0 \cdot \varepsilon_0 = 0.001\hspace{0.05cm},\\
p_{10}\hspace{-0.15cm} & = \hspace{-0.15cm} p_1 \cdot (1 - \varepsilon_1) = 0.180\hspace{0.05cm},\hspace{0.5cm}p_{11}= p_1 \cdot \varepsilon_1 = 0.720\hspace{0.05cm}.\end{align*}$$

Daraus erhält man für
*die '''Verbundentropie''' (englisch ''Joint Entropy''):

$$H(XY) = p_{00}\hspace{-0.05cm} \cdot \hspace{-0.05cm}{\rm log}_2 \hspace{0.05cm} \frac{1}{p_{00}} +
p_{01} \hspace{-0.05cm} \cdot \hspace{-0.05cm}{\rm log}_2 \hspace{0.05cm} \frac{1}{p_{01}} +
p_{10}\hspace{-0.05cm} \cdot \hspace{-0.05cm} {\rm log}_2 \hspace{0.05cm} \frac{1}{p_{10}} +
p_{11} \hspace{-0.05cm} \cdot \hspace{-0.05cm} {\rm log}_2\hspace{0.05cm} \frac{1}{p_{11}} = 1.1268\,{\rm bit} \hspace{0.05cm},$$

*die '''Transinformation''' (englisch ''Mutual Information''):

$$I(X;Y) = H(X) + H(Y) - H(XY) = 0.4690 + 0.8541 - 1.1268 = 0.1963\,{\rm bit}
\hspace{0.05cm},$$

*die '''Äquivokation''' (oder Rückschlussentropie):

$$H(X|Y) = H(X) - I(X;Y) = 0.4690 - 0.1963 = 0.2727\,{\rm bit}
\hspace{0.05cm},$$

*die '''Irrelevanz''' (oder Streuentropie):

$$H(Y|X) = H(Y) - I(X;Y) = 0.8541 - 0.1963 = 0.6578\,{\rm bit}
\hspace{0.05cm}.$$

Die Ergebnisse sind in der folgenden Grafik nochmals zusammengefasst.

[[File:P_ID2785__Inf_T_3_3_S3b_neu.png|Informationstheoretisches Modell des betrachteten Binärkanals]]

{{end}}

''Anmerkung'': Äquivokation und Irrelevanz hätte man auch direkt (aber mit Mehraufwand) aus den entsprechenden Wahrscheinlichkeitsfunktionen berechnen können. Zum Beispiel die Irrelevanz:

$$H(Y|X) = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.05cm}\in \hspace{0.05cm}XY} \hspace{-0.2cm} P_{XY}(x,\hspace{0.05cm}y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{0.03cm}X}
(\hspace{0.05cm}y\hspace{0.03cm} |\hspace{0.05cm} x)}=$$

$$.\hspace{0.3cm} = p_{00} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{1 - \varepsilon_0} +
p_{01} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{\varepsilon_0} +
p_{10} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{1 - \varepsilon_1} +
p_{11} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{\varepsilon_1} = 0.6578\,{\rm bit} \hspace{0.05cm}.$$

==Definition und Bedeutung der Kanalkapazität ==

Wir betrachten weiter einen diskreten gedächtnislosen Kanal (englisch: ''Discrete Memoryless Channel'', kurz DMC) mit einer endlichen Anzahl an Quellensymbolen ⇒ $|X|$ und ebenfalls nur endlich vielen Sinkensymbolen ⇒ $|Y|$, wie im ersten Abschnitt dieses Kapitels dargestellt. Berechnet man die Transinformation $I(X, Y)$ wie zuletzt an einem Beispiel ausgeführt, so hängt diese auch von der Quellenstatistik ⇒ $P_X(X)$ ab. Ergo: $I(X, Y)$ ist keine reine Kanalkenngröße.

{{Definition}}
Die von [https://de.wikipedia.org/wiki/Claude_Shannon|Claude E. Shannon] eingeführte '''Kanalkapazität''' (englisch: ''Channel Capacity'') lautet entsprechend seinem Standardwerk <ref>Shannon, C.E.: ''A Mathematical Theory of Communication''. In: Bell Syst. Techn. J. 27 (1948), S. 379-423 und S. 623-656.</ref>:

$$C = \max_{P_X(X)} \hspace{0.15cm} I(X;Y) \hspace{0.05cm}.$$

Da nach dieser Definition stets die bestmögliche Quellenstatistik zugrunde liegt, hängt $C$ nur von den Kanaleigenschaften ⇒ $P_{Y|X}(Y|X)$ ab, nicht jedoch von $P_X(X)$. Oft wird die Zusatzeinheit „bit/Kanalzugriff” hinzugefügt, bei englischen Texten „bit/use”.

{{end}}

C. E. Shannon benötigte diese Kanalbeschreibungsgröße $C$, um das Kanalcodierungstheorem formulieren zu können – eines der Highlights der von ihm begründeten Informationstheorie.

{{Definition}}
'''Shannons Kanalcodierungstheorem''': Zu jedem Übertragungskanal mit der Kanalkapazität $C$ > 0 existiert (mindestens) ein $(k, n)$–Blockcode, dessen (Block–)Fehlerwahrscheinlichkeit gegen Null geht, so lange die Coderate $R$ = $k/n$ kleiner oder gleich der Kanalkapazität ist: $R ≤ C$. Voraussetzung hierfür ist allerdings, dass für die Blocklänge dieses Codes gilt: $n → ∞$.

{{end}}

Den Beweis dieses Theorems finden Sie zum Beispiel in <ref name="CT06">Cover, T.M.; Thomas, J.A.: ''Elements of Information Theory''. West Sussex: John Wiley & Sons, 2nd Edition, 2006.</ref>, <ref name="Kra13">Kramer, G.: ''Information Theory''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, Technische Universität München, 2013.</ref> und <ref name="Meck09">Mecking, M.: ''Information Theory''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, Technische Universität München, 2009.</ref>. Der Beweis würde den Rahmen unseres Lerntutorials sprengen.

Im [[Informationstheorie/AWGN–Kanalkapazität_bei_wertdiskretem_Eingang#AWGN.E2.80.93Modell_f.C3.BCr_zeitdiskrete_bandbegrenzte_Signale|Kapitel 4.3]] wird im Zusammenhang mit dem wertkontinuierlichen [[Kanalcodierung/Klassifizierung_von_Signalen#AWGN.E2.80.93Kanal_bei_bin.C3.A4rem_Eingang|AWGN–Kanalmodell]] ausgeführt, welche phänomenal große Bedeutung Shannons informationstheoretisches Theorem für die gesamte Informationstechnik besitzt, nicht nur für ausschließlich theoretisch Interessierte, sondern ebenso auch für Praktiker.
Wie in [[Aufgaben:3.12_Coderate_und_Zuverlässigkeit|Aufgabe A3.12]] gezeigt werden soll, gilt auch der Umkehrschluss:

Ist die Rate des verwendeten ( $n$, $k$ )–Blockcodes größer als die Kanalkapazität ⇒ $\mathbf{R = k/n > C}$, so kann '''niemals eine beliebig kleine Blockfehlerwahrscheinlichkeit''' erreicht werden.

Auch diesen Beweis finden Sie zum Beispiel wieder in <ref name="CT06" />, <ref name="Kra13" /> und <ref name="Meck09" />.

==Kanalkapazität eines Binärkanals==

[[File:P_ID2786__Inf_T_3_3_S3a.png|Allgemeines Modell des Binärkanals]]
Die Transinformation des allgemeinen (unsymmetrischen) Binärkanals gemäß der nebenstehenden Grafik wurde im letzten Abschnitt berechnet. Bei diesem Modell werden die Eingangssymbole „0” und „1” unterschiedlich stark verfälscht:

$$P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) =
\begin{pmatrix}
1 - \varepsilon_0 & \varepsilon_0\\
\varepsilon_1 & 1 - \varepsilon_1
\end{pmatrix} \hspace{0.05cm}.$$

Die Transinformation lässt sich mit $P_X(X)$ = $(p_0, p_1)$ in folgender Form kompakt darstellen:

$$\begin{align*}I(X ;Y) = \sum_{\mu = 1}^{2} \hspace{0.1cm}\sum_{\kappa = 1}^{2} \hspace{0.2cm}
{\rm Pr} (\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu}) \cdot
{\rm Pr} (\hspace{0.05cm}x_{\mu}\hspace{0.05cm})\cdot {\rm log}_2 \hspace{0.1cm} \frac{{\rm Pr}
(\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu})}{{\rm Pr}
(\hspace{0.05cm}y_{\kappa})} = \\
& = \hspace{-0.15cm} (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0) \cdot p_0 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0}{(1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0) \cdot p_0 + \varepsilon_1 \cdot p_1} +
\varepsilon_0 \cdot p_0 \cdot {\rm log}_2 \hspace{0.1cm} \frac{\varepsilon_0}{(1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0) \cdot p_0 + \varepsilon_1 \cdot p_1} + \\
& + \hspace{-0.15cm} \varepsilon_1 \cdot p_1 \cdot {\rm log}_2 \hspace{0.1cm} \frac{\varepsilon_1}{\varepsilon_0 \cdot p_0 + (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1) \cdot p_1} + (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1) \cdot p_1 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1}{\varepsilon_0 \cdot p_0 + (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1) \cdot p_1}
\hspace{0.05cm}.\end{align*}$$

[[File:P_ID2788__Inf_T_3_3_S4a.png|Ergebnisse für den Binary Channel]]

Im Folgenden setzen wir $ε_0$ = 0.01 und $ε_1$ = 0.2. In der vierten Spalte der nebenstehenden Tabelle (grün hinterlegt) ist die Transinformation $I(X; Y)$ dieses unsymmetrischen Binärkanals abhängig von der Quellensymbolwahrscheinlichkeit $p_0$ = Pr( $X$ = 0 ) angegeben. Man erkennt:
*Die Transinformation $I(X; Y)$ hängt von den Symbolwahrscheinlichkeiten $p_0$ und $p_1$ = 1 – $p_0$ ab.
*Der Maximalwert der Transinformation ergibt sich für $p_0$ ≈ 0.55 ⇒ $p_1$ ≈ 0.45.
*Das Optimierungsergebnis $p_0 > p_1$ folgt aus der Relation $ε_0 < ε_1$ (die „0” wird weniger verfälscht).
*Die Kanalkapazität ist somit für $ε_0$ = 0.01, $ε_1$ = 0.2 gleich $C$ = 0.5779 bit/Kanalzugriff.
In obiger Gleichung ist als Sonderfall auch der [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Symmetric_Channel_.E2.80.93_BSC|Binary Symmetric Channel]] (BSC) mit dem Parameter $ε$ = $ε_0$ = $ε_1$ mitenthalten. In [[Aufgaben:3.09_Transinformation_beim_BSC|Aufgabe A3.9]] wird die Transinformation des BSC–Kanals für $ε$ = 0.1, $p_0$ = 0.2 berechnet und in [[Aufgaben:3.09Z_BSC–Kanalkapazität|Aufgabe Z3.9]] seine Kanalkapazität wie folgt angegeben:

$$C_{\rm BSC} = 1 - H_{\rm bin} (\varepsilon) \hspace{0.05cm}.$$

==Eigenschaften symmetrischer Kanäle ==

Die Kapazitätsberechnung des (allgemeinen) [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung#Informationstheoretisches_Modell_der_Digitalsignal.C3.BCbertragung|diskreten gedächtnislosen Kanals]] ist oftmals aufwändig. Sie vereinfacht sich entscheidend, wenn Symmetrien des Kanals ausgenutzt werden. Die Grafik zeigt zwei Beispiele.

[[File:P_ID2793__Inf_T_3_3_S6a.png|Beispiele symmetrischer Kanäle]]

*Beim ''gleichmäßig dispersiven'' Kanal (englisch: ''Uniformly Dispersive Channel'') ergibt sich für alle Quellensymbole $x ∈ X$ die genau gleiche Menge an Übergangswahrscheinlichkeiten ⇒ $\{P_Y|X(y_κ|x)\}$ mit 1 ≤ $κ$ ≤ $|Y|$. In der linken Grafik ist dies durch die Werte $q$, $r$ und $s$ mit $q + r + s$ = 1 angedeutet.
*Beim gleichmäßig fokussierenden Kanal (englisch: ''Uniformely Focusing Channel'') ergibt sich für alle Sinkensymbole $y ∈ Y$ die gleiche Menge an Übergangswahrscheinlichkeiten ⇒ $\{P_Y|X(y|x_μ)\}$ mit 1 ≤ $μ$ ≤ $|X|$. Hier muss nicht notwendigerweise $t + u + v$ = 1 gelten (siehe rechte Grafik).

{{Definition}}
Ist ein diskreter gedächtnisloser Kanal sowohl gleichmäßig dispersiv als auch gleichmäßig fokussierend, so liegt ein '''streng symmetrischer Kanal''' (englisch: ''Strongly Symmetric Channel'') vor. Bei gleichverteiltem Quellenalphabet besitzt dieser die Kapazität

$$C = {\rm log}_2 \hspace{0.1cm} |Y| + \sum_{y \hspace{0.05cm}\in\hspace{0.05cm} Y} \hspace{0.1cm} P_{\hspace{0.01cm}Y \mid \hspace{0.01cm} X}(y|x) \cdot
{\rm log}_2 \hspace{0.1cm}P_{\hspace{0.01cm}Y \mid \hspace{0.01cm} X}(y|x)
\hspace{0.05cm}.$$

Für diese Gleichung kann jedes beliebige $x ∈ X$ herangezogen werden.

{{end}}

Diese Definition soll durch ein Beispiel verdeutlicht werden.

{{Beispiel}}
[[File:P_ID2794__Inf_T_3_3_S6b.png|Streng symmetrischer Kanal mit |X| = |Y| = 3]]
Beim betrachteten Kanal bestehen Verbindungen zwischen allen $|X|$ = 3 Eingängen und allen $|Y|$ = 3 Ausgängen:
*Eine rote Verbindung steht für $P_{Y|X}(y_κ|x_μ)$ = 0.7.
*Eine blaue Verbindung steht für $P_{Y|X}(y_κ|x_μ)$ = 0.2.
*Eine grüne Verbindung steht für $P_{Y|X}(y_κ|x_μ)$ = 0.1.

Nach obiger Gleichung gilt dann für die Kanalkapazität:

$$C = {\rm log}_2 \hspace{0.1cm} (3) + 0.7 \cdot {\rm log}_2 \hspace{0.1cm} (0.7)
+ 0.2 \cdot {\rm log}_2 \hspace{0.1cm} (0.2) + 0.1 \cdot {\rm log}_2 \hspace{0.1cm} (0.1) = 0.4282 \,\,{\rm bit} \hspace{0.05cm}.$$

''Hinweis'': Der Zusatz „die gleiche Menge an Übergangswahrscheinlichkeiten” bedeutet nicht, dass $P_Y|X(y_κ|x_1)$ = $P_Y|X(y_κ|x_2)$ = $P_Y|X(y_κ|x_3)$ gelten muss. Vielmehr geht in diesem Beispiel von jedem Eingang ein roter, ein blauer und ein grüner Pfeil ab und an jeden Ausgang kommt ein roter, ein blauer und ein grüner Pfeil an. Die jeweiligen Reihenfolgen permutieren. R – G – B, B – R – G, G – B – R.

{{end}}

Ein Beispiel für einen streng symmetrischen Kanal ist der [[Kanalcodierung/Klassifizierung_von_Signalen#/media/File:P_ID2341_KC_T_1_2_S2_v2.png|Binary Symmetric Channel]] (BSC). Dagegen ist der [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Erasure_Channel_.E2.80.93_BEC|Binary Erasure Channel]] (BEC) nicht streng symmetrisch, da er
*zwar gleichmäßig dispersiv ist,
*aber nicht gleichmäßig fokussierend.

Nachfolgende Definition ist weniger restriktiv als die vorherige des streng symmetrischen Kanals.

{{Definition}}
Ein '''symmetrischer Kanal''' (englisch: ''Symmetric Channel'') liegt vor, wenn er in mehrere (allgemein $L$) streng symmetrische Teilkanäle aufgeteilt werden kann, indem das Ausgangsalphabet $Y$ in $L$ Teilmengen $Y_1$, ..., $Y_L$ aufgespalten wird. Ein solcher symmetrischer Kanal besitzt folgende Kapazität:

$$C = \sum_{l \hspace{0.05cm}=\hspace{0.05cm} 1}^{L} \hspace{0.1cm} p_l \cdot C_l \hspace{0.05cm}.$$

Hierbei sind folgende Bezeichnungen verwendet:
* $p_l$ gibt die Wahrscheinlichkeit an, dass der $l$–te Teilkanal ausgewählt wird,
* $C_l$ ist die Kanalkapazität dieses $l$–ten Teilkanals.

{{end}}

Die Grafik verdeutlicht diese Definition für $L$ = 2, wobei die Teilkanäle mit A und B bezeichnet sind. An den unterschiedlich gezeichneten Übergängen (gestrichelt oder gepunktet) erkennt man, dass die zwei Teilkanäle durchaus verschieden sind, so dass $C_A$ ≠ $C_B$ gelten wird.

[[File:P_ID2795__Inf_T_3_3_S6c_neu.png|Symmetrischer Kanal, bestehend aus zwei streng symmetrischen Teilkanälen A und B]]

Für die Kapazität des Gesamtkanals erhält man somit allgemein:

$$C = p_{\rm A} \cdot C_{\rm A} + p_{\rm B} \cdot C_{\rm B} \hspace{0.05cm}.$$

Über die Struktur der beiden Teilkanäle wird hier keine Aussage gemacht. Im Beispiel auf der nächsten Seite wird sich zeigen, dass auch der BEC durch diese Grafik grundsätzlich beschreibbar ist. Allerdings müssen dann die zwei Ausgangssysmbole $y_3$ und $y_4$ zu einem einzigen Symbol zusammengefasst werden.

{{Beispiel}}
Die linke Grafik zeigt den [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Erasure_Channel_.E2.80.93_BEC|Binary Erasure Channel]] (BEC) mit Eingang $X$ = {0, 1} und Ausgang $Y$ = {0, 1, $E$}, wie er meistens gezeichnet wird. Teilt man diesen entsprechend der rechten Grafik auf in
einen idealen Kanal $(y = x)$ mit $y ∈ Y_A$ = {0, 1} ⇒ $C_A$ = 1 bit,
einen Auslöschungskanal mit $y ∈ Y_B$ = $\{E \}$ ⇒ $C_B$ = 0,
so ergibt sich mit den Teilkanalgewichtungen $p_A$ = 1 – $λ$ und $p_B$ = $λ$ für die Kanalkapazität:

$$C_{\rm BEC} = p_{\rm A} \cdot C_{\rm A} = 1 - \lambda \hspace{0.05cm}.$$

[[File:P_ID2796__Inf_T_3_3_S6d.png|BEC in zwei verschiedenen Darstellungen]]

Beide Kanäle sind streng symmetrisch. Für den (idealen) Kanal A gilt gleichermaßen
*für $X = 0$ und $X = 1$: $\text{Pr}(Y = 0|X) = \text{Pr}(Y = 1|X) = 1 – λ$ ⇒ gleichmäßig dispersiv,
*für $Y = 0$ und $Y = 1$: $\text{Pr}(Y|X = 0) = Pr(Y|X = 1) = 1 – λ$ ⇒ gleichmäßig fokussierend.

Entsprechendes gilt für den Auslöschungskanal B.

{{end}}

In [[Aufgaben:3.11_Streng_symmetrische_Kanäle|Aufgabe A3.11]] wird sich zeigen, dass die Kapazität des Kanalmodells [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Symmetric_Error_.26_Erasure_Channel_.E2.80.93_BSEC|Binary Symmetric Error & Erasure Channel]] (BSEC) in gleicher Weise berechnet werden kann. Mit
*der Verfälschungswahrscheinlichkeit $ε$ und
*der Auslöschungswahrscheinlichkeit $λ$

erhält man in diesem Fall:

$$C_{\rm BSEC} = (1- \lambda) \cdot \left [ 1 - H_{\rm bin}(\frac{\varepsilon}{1- \lambda}) \right ]\hspace{0.05cm}.$$

==Einige Grundlagen der Kanalcodierung ==

Um das Kanalcodierungstheorem richtig interpretieren zu können, sind einige Grundlagen der Kanalcodierung (englisch: ''Channel Coding'') erforderlich. Dieses äußerst wichtige Gebiet der Nachrichtentechnik wird in einem eigenen Buch [[Kanalcodierung]] behandelt. Die nachfolgende Beschreibung bezieht sich auf das stark vereinfachte Modell für binäre Blockcodes:

[[File:P_ID2797__Inf_T_3_3_S7a.png|Modell für die codierte Informationsübertragung]]

Zu diesem Blockschaltbild ist anzumerken:
*Die unendlich lange Quellensymbolfolge $\underline{u}$ (hier nicht dargestellt) wird in Blöcke zu jeweils $k$ bit unterteilt. Wir bezeichnen den Informationsblock mit der laufenden Nummerierung $j$ mit $\underline{u}_j^{(k)}$.
*Jeder Informationsblock $j$ mit $\underline{u}_j^{(k)}$ wird durch den gelb hinterrlegten Kanalcoder in ein Codewort $\underline{x}_j^{(n)}$ umgesetzt, wobei $n > k$ gelten soll. Das Verhältnis $R = k/n$ bezeichnet man als die Coderate.
*Der Discrete Memoryless Channel (DMC) wird durch die Übergangswahrscheinlichkeit $P_{Y|X}(⋅)$ berücksichtigt. Dieser grün hinterlegte Block bewirkt Fehler auf Bitebene ⇒ $y_{j, i} ≠ x_{j, i}$.
*Damit unterscheiden sich auch die aus $n$ Bit bestehenden Empfangsblöcke $\underline{y}_j^{(n)}$ von den Codeworten $\underline{x}_j^{(n)}$. Ebenso gilt im allgemeinen für die Blöcke nach dem Deoder: $\underline{v}_j^{(k)} ≠ \underline{u}_j^{(k)}$.

[[File:P_ID2798__Inf_T_3_3_S7b_neu.png|Zur Bitbezeichnung von Informationsblock und Codewort]]

Die Grafik soll die hier verwendete Nomenklatur am Beispiel $k$ = 3, $n$ = 4 verdeutlichen. Dargestellt sind die jeweils ersten acht Blöcke der Informationssequenz $\underline{u}$ und der Codesequenz $\underline{x}$. Man erkennt folgende Zuordnung zwischen der geblockten und der ungeblockten Beschreibung:
*Bit 3 des 1. Info–Blocks ⇒ $u_{1, 3}$ entspricht dem Symbol u3 in ungeblockter Darstellung.
*Bit 1 des 2. Info–Blocks ⇒ $u_{2, 1}$ entspricht dem Symbol $u_4$ in ungeblockter Darstellung.
*Bit 2 des 6. Info–Blocks ⇒ $u_{6, 2}$ entspricht dem Symbol $u_{17}$ in ungeblockter Darstellung.
*Bit 4 des 1. Codewortes ⇒ $x_{1, 4}$ entspricht dem Symbol $x_4$ in ungeblockter Darstellung.
*Bit 1 des 2. Codewortes ⇒ $x_{2, 1}$ entspricht dem Symbol $x_5$ in ungeblockter Darstellung.
*Bit 2 des 6. Codewortes ⇒ $x_{6, 2}$ entspricht dem Symbol $x_{22}$ in ungeblockter Darstellung.

Zur Interpretation des Kanalcodierungstheorems benötigen wir noch verschiedene Definitionen für „Fehlerwahrscheinlichkeiten”. Aus dem Systemmodell lassen sich folgende Größen ableiten:
*Die '''Kanalfehlerwahrscheinlichkeit''' ergibt sich beim vorliegenden Kanalmodell zu

$${\rm Pr(Kanalfehler)} = {\rm Pr} \left ({y}_{j,\hspace{0.05cm} i} \ne {x}_{j,\hspace{0.05cm} i}
\right )\hspace{0.05cm}.$$

Beispielsweise ist beim BSC–Modell Pr(Kanalfehler) = $ε$ für alle $j$ = 1, 2, ... und 1 ≤ $i$ ≤ $n$.
*Die '''Blockfehlerwahrscheinlichkeit''' bezieht sich auf die zugeordneten Informationsblöcke am Codereingang ⇒ $\underline{u}_j^{(k)}$ und am Decoderausgang ⇒ $\underline{v}_j^{(k)}$, jeweils in Blöcken zu $k$ Bit:

$${\rm Pr(Blockfehler)} = {\rm Pr} \left (\underline{\upsilon}_j^{(k)} \ne \underline{u}_j^{(k)}
\right )\hspace{0.05cm}.$$

*Die '''Bitfehlerwahrscheinlichkeit''' bezieht sich ebenfalls auf den Eingang und den Ausgang des betrachteten Codiersystems, allerdings auf Bitebene:

$${\rm Pr(Bitfehler)} = {\rm Pr} \left ({\upsilon}_{j,\hspace{0.05cm} i} \ne {u}_{j,\hspace{0.05cm} i}
\right )\hspace{0.05cm}.$$

Hierbei ist vereinfachend vorausgesetzt, dass alle $k$ Bit $u_{j,i}$ des Informationsblockes $j$ mit gleicher Wahrscheinlichkeit verfälscht werden (1 ≤ $i$ ≤ $k$). Andernfalls müsste über die $k$ Bit gemittelt werden.

Zwischen Blockfehler– und Bitfehlerwahrscheinlichkeit besteht allgemein der Zusammenhang:

$${1}/{k} \cdot {\rm Pr(Blockfehler)} \le {\rm Pr(Bitfehler)} \le {\rm Pr(Blockfehler)}
\hspace{0.05cm}.$$

*Die untere Schranke ergibt sich, wenn bei allen fehlerhaften Blöcken alle Bit falsch sind.
*Gibt es in jedem fehlerhaften Block genau nur einen einzigen Bitfehler, dann ist die Bitfehlerwahrscheinlichkeit Pr(Bitfehler) identisch mit der Blockfehlerwahrscheinlichkeit Pr(Blockfehler).

{{Beispiel}}
Die Grafik zeigt oben die ersten acht Empfangsblöcke $\underline{y}_j^{(n)}$ mit $n$ = 4. Kanalfehler sind grün schraffiert. Unten ist die Ausgangsfolge $\underline{v}$ skizziert, unterteilt in Blöcke $\underline{v}_j^{(k)}$ zu je $k$ = 3 Bit:
*Bitfehler sind im unteren Diagramm rot schraffiert.
*Blockfehler erkennt man an der blauen Umrahmung.

[[File:P_ID2823__Inf_T_3_3_S7c_neu.png|Zur Definition verschiedener Fehlerwahrscheinlichkeiten]]

Hierzu einige (aufgrund der kurzen Folge) vage Angaben zu den Fehlerwahrscheinlichkeiten:
*Die Hälfte der Empfangsbits sind grün schraffiert. Daraus folgt:

$${\rm Pr(Kanalfehler)} = 16/32 = 1/2.$$

*Die Bitfehlerwahrscheinlichkeit lautet mit der beispielhaften Codierung & Decodierung:

$${\rm Pr(Bitfehler)} = 8/24 = 1/3.$$

*Dagegen würde bei uncodierter Übertragung gelten:

$${\rm Pr(Bitfehler)} = {\rm Pr(Kanalfehler)} = 1/2.$$

*Die Hälfte der decodierten Blöcke sind blau umrandet. Daraus folgt:

$${\rm Pr(Blockfehler)} = 4/8 = 1/2.$$

Mit Pr(Blockfehler) = 1/2 und k = 3 liegt die Bitfehlerwahrscheinlichkeit in folgendem Bereich:

$$1/6 \le {\rm Pr(Bitfehler)} \le 1/2
\hspace{0.05cm}.$$

*Die obere Schranke ergibt sich, wenn in jedem der vier verfälschten Blöcke alle Bit falsch sind: Pr(Bitfehler) = 12/24 = 1/2.
*Die untere Schranke beschreibt den Fall, dass in jedem der vier verfälschten Blöcke jeweils nur ein Bit falsch ist: Pr(Bitfehler) = 4/24 = 1/6.

{{end}}

==Rate, Kanalkapazität und Bitfehlerwahrscheinlichkeit==

Durch Kanalcodierung wird die Zuverlässigkeit (englisch: ''Reliability'') der Datenübertragung von der Quelle zur Sinke erhöht. Vermindert man die Coderate $R = k/n$ und erhöht so die hinzugefügte Redundanz (1 – $R$), so wird im allgemeinen die Datensicherheit verbessert und damit die Bitfehlerwahrscheinlichkeit herabgesetzt, die wir im Weiteren kurz $p_B$ nennen:

$$p_{\rm B} = {\rm Pr(Bitfehler)} = {\rm Pr} \left ({\upsilon}_{j,\hspace{0.05cm} i} \ne {u}_{j,\hspace{0.05cm} i}
\right )\hspace{0.05cm}.$$

Das folgende Theorem basiert auf dem Data Processing Theorem und ''Fano's Lemma''. Die Herleitung kann in den Standardwerken zur Informationstheorie nachgelesen werden, zum Beispiel in <ref>Cover, T.M.; Thomas, J.A.: ''Elements of Information Theory''. West Sussex: John Wiley & Sons, 2nd Edition, 2006.</ref>:

{{Definition}}
'''Umkehrung des Shannonschen Kanalcodierungstheorems''':
Benutzt man zur Datenübertragung mit Rate $R$ einen Kanal mit unzureichender Kanalkapazität $C < R$, so kann auch bei bestmöglicher Kanalcodierung die Bitfehlerwahrscheinlichkeit $p_B$ eine untere Schranke nicht unterschreiten:

$$p_{\rm B} \ge H_{\rm bin}^{-1} \cdot \left ( 1 - {C}/{R}\right ) > 0\hspace{0.05cm}.$$

$H_{\rm bin}(⋅)$ bezeichnet hierbei die binäre Entropiefunktion.
{{end}}

Da die Wahrscheinlichkeit der Blockfehler nie kleiner sein kann als die der Bitfehler, ist für $R > C$ auch die Blockfehlerwahrscheinlichkeit „0” nicht möglich. Aus dem angegebenen Bereich für die Bitfehler,

$${1}/{k} \cdot {\rm Pr}({\rm Blockfehler}) \le {\rm Pr}({\rm Bitfehler}) \le {\rm Pr}({\rm Blockfehler})\hspace{0.05cm},$$

lässt sich auch ein Bereich für die Blockfehlerwahrscheinlichkeit angeben:

$$ {\rm Pr}({\rm Bitfehler}) \le {\rm Pr}({\rm Blockfehler}) \le k \cdot {\rm Pr}({\rm Bitfehler})\hspace{0.05cm}.$$

{{Beispiel}}
Verwendet man einen Kanal mit der Kapazität $C$ = 1/3 (bit) zur Datenübertragung mit der Coderate $R$ < 1/3, so ist prinzipiell die Bitfehlerwahrscheinlichkeit $p_B$ = 0 möglich.
*Allerdings ist aus dem Kanalcodierungstheorem der spezielle ( $k$, $n$ )–Blockcode nicht bekannt, der dieses Wunschergebnis ermöglicht. Shannon macht hierzu keine Aussagen.
*Bekannt ist nur, dass ein solcher bestmöglicher Code mit unendlich langen Blöcken arbeitet. Bei gegebener Coderate $R$ = $k/n$ gilt somit sowohl $k → ∞$ als auch $n → ∞$.
*Deshalb ist die Aussage „Die Bitfehlerwahrscheinlichkeit ist 0” nicht identisch mit „Es treten keine Bitfehler auf”: Auch bei endlich vielen Bitfehlern und $k → ∞$ gilt $p_B$ = 0.

Mit der Coderate $R$ = 1 (uncodierte Übertragung) erhält man:

$$p_{\rm B} \ge H_{\rm bin}^{-1} \cdot \left ( 1 - \frac{1/3}{1.0}\right )
= H_{\rm bin}^{-1}(2/3) \approx 0.174
> 0\hspace{0.05cm}.$$

Mit der Coderate $R$ = 1/2 > $C$ ist die Bitfehlerwahrscheinlichkeit zwar kleiner, aber nicht 0:

$$p_{\rm B} \ge H_{\rm bin}^{-1} \cdot \left ( 1 - \frac{1/3}{1/2}\right )
= H_{\rm bin}^{-1}(1/3) \approx 0.062
> 0\hspace{0.05cm}.$$

Aufgabenhinweis: [[Aufgaben:3.12_Coderate_und_Zuverlässigkeit|A3.12: Coderate und Zuverlässigkeit]] – [[Aufgaben:3.13_Kanalcodierungstheorem|A3.13: Kanalcodierungstheorem]]

{{end}}
==Aufgaben zu Kapitel 3.3 ==
==Quellenverzeichnis==
<references/>
{{Display}}

Information Theory/Application to Digital Signal Transmission

2017-02-05T18:42:59Z

LukasWolf:

{{Header
|Untermenü=Information zwischen zwei wertdiskreten Zufallsgrößen
|Vorherige Seite=Verschiedene Entropien zweidimensionaler Zufallsgrößen
|Nächste Seite=Differentielle Entropie
}}

==Informationstheoretisches Modell der Digitalsignalübertragung ==

Die bisher allgemein definierten Entropien werden nun auf die Digitalsignalübertragung angewendet, wobei wir von einem '''digitalen Kanalmodell ohne Gedächtnis''' (englisch: ''Discrete Memoryless Channel'', DMC) entsprechend der nachfolgenden Grafik ausgehen:

[[File:P_ID2779__Inf_T_3_3_S1a_neu.png|Betrachtetes Modell der Digitalsignalübertragung]]

*Die Menge der möglichen Quellensymbole wird durch die diskrete Zufallsgröße $X$ charakterisiert, wobei $|X|$ den Quellensymbolumfang angibt:

$$X = \{\hspace{0.05cm}x_1\hspace{0.05cm}, \hspace{0.05cm} x_2\hspace{0.05cm},\hspace{0.05cm} ...\hspace{0.1cm} ,\hspace{0.05cm} x_{\mu}\hspace{0.05cm}, \hspace{0.05cm}...\hspace{0.1cm} , \hspace{0.05cm} x_{|X|}\hspace{0.05cm}\}\hspace{0.05cm}.$$

*Entsprechend kennzeichnet $Y$ die Menge der Sinkensymbole mit dem Symbolvorrat $|Y|$:

$$Y = \{\hspace{0.05cm}y_1\hspace{0.05cm}, \hspace{0.05cm} y_2\hspace{0.05cm},\hspace{0.05cm} ...\hspace{0.1cm} ,\hspace{0.05cm} y_{\kappa}\hspace{0.05cm}, \hspace{0.05cm}...\hspace{0.1cm} , \hspace{0.05cm} Y_{|Y|}\hspace{0.05cm}\}\hspace{0.05cm}.$$

*Meist gilt $|Y|$ = $|X|$. Möglich ist aber auch $|Y|$ > $|X|$, zum Beispiel beim Binary Erasure Channel (BEC) mit $X$ = {0, 1} und $Y$ = {0, 1, E} ⇒ $|X|$ = 2, $|Y|$ = 3.
*Das Sinkensymbol $E$ kennzeichnet eine Auslöschung (englisch: ''Erasure''). Das Ereignis $Y$ = $E$ gibt an, dass eine Entscheidung für 0 oder für 1 zu unsicher wäre.
*Die Symbolwahrscheinlichkeiten der Quelle und der Sinke sind in der oberen Grafik durch die Wahrscheinlichkeitsfunktionen $P_X(X)$ und $P_Y(Y)$ berücksichtigt, wobei gilt:

$$P_X(x_{\mu}) = {\rm Pr}( X = x_{\mu})\hspace{0.05cm}, \hspace{0.3cm}
P_Y(y_{\kappa}) = {\rm Pr}( Y = y_{\kappa})\hspace{0.05cm}.$$

*Es gelte: $P_X(X)$ und $P_Y(Y)$ enthalten keine Nullen ⇒ $\text{supp}(P_X)$ = $P_X$, $\text{supp}(P_Y)$ = $P_Y$. Diese Voraussetzung erleichtert die Modellbeschreibung, ohne Verlust an Allgemeingültigkeit.
*Alle Übergangswahrscheinlichkeiten des digitalen gedächtnislosen Kanals (DMC) werden durch die ''bedingte Wahrscheinlichkeitsfunktion'' $P_{Y|X}(Y|X)$ erfasst. Mit $x_μ ∈ X$ und $y_κ ∈ Y$ gelte hierfür folgende Definition:

$$P_{Y\hspace{0.01cm}|\hspace{0.01cm}X}(y_{\kappa}\hspace{0.01cm} |\hspace{0.01cm} x_{\mu}) = {\rm Pr}(Y\hspace{-0.1cm} = y_{\kappa}\hspace{0.03cm} | \hspace{0.03cm}X \hspace{-0.1cm}= x_{\mu})\hspace{0.05cm}.$$

In obiger Grafik ist $P_{Y|X}(⋅)$ als ein Block mit $|X|$ Eingängen und $|Y|$ Ausgängen dargestellt. Die blauen Verbindungen markieren die Übergangswahrscheinlichkeiten $\text{Pr}(y_i | x_μ)$ ausgehend von $x_μ$ mit 1 ≤ $i$ ≤ $|Y|$, während alle roten Verbindungen bei $y_κ$ enden: $\text{Pr}(y_κ | x_i)$ mit 1 ≤ $i$ ≤ $|X|$.

Bevor wir die Entropien für die einzelnen Wahrscheinlichkeitsfunktionen angeben, nämlich
$P_X(X) ⇒ H(X)$, $P_Y(Y) ⇒ H(Y)$, $P_{XY}(X) ⇒ H(XY)$, $P_Y|X(Y|X) ⇒ H(Y|X)$, $P_{X|Y}(X|Y) ⇒ H(X|Y)$,
sollen die Aussagen der letzten Seite an einem Beispiel verdeutlicht werden.

{{Beispiel}}

[[File:P_ID2780__Inf_T_3_3_S1b_neu.png|Digitales Kanalmodell Binary Erasure Channel]]
Im Buch [[Kanalcodierung]] behandeln wir den Binary Erasure Channel (BEC), der rechts in etwas modifizierter Form skizziert ist.

Dabei gelten folgende Voraussetzungen:
*Das Eingangsalphabet ist binär: $X$ = (0, 1) ⇒ $|X|$ = 2, während am Ausgang drei Werte möglich sind: $Y$ = (0, 1, $E$) ⇒ $|Y|$ = 3.
*„E” kennzeichnet den Fall, dass sich der Empfänger aufgrund von zu großen Kanalstörungen nicht für eines der Binärsymbole 0 oder 1 entscheiden kann. „E” steht hierbei für ''Erasure'' (Auslöschung).
*Beim BEC gemäß obiger Skizze werden sowohl eine gesendete „0” als auch eine „1” mit der Wahrscheinlichkeit $λ$ ausgelöscht, während die Wahrscheinlichkeit einer richtigen Übertragung jeweils 1 – $λ$ beträgt.
*Dagegen werden Übertragungsfehler durch das BEC–Modell ausgeschlossen ⇒ die bedingten Wahrscheinlichkeiten Pr( $Y$ = 1 | $X$ = 0 ) sowie Pr( $Y$ = 0 | $X$ = 1) sind jeweils 0.

Beim Sender seien die Nullen und Einsen nicht unbedingt gleichwahrscheinlich. Vielmehr verwenden wir die beiden Wahrscheinlichkeitsfunktionen

$$\begin{align*}P_X(X) \hspace{-0.15cm} & = \hspace{-0.15cm} \big ( {\rm Pr}( X = 0)\hspace{0.05cm}, {\rm Pr}( X = 1) \big )\hspace{0.05cm},\\
P_Y(Y) \hspace{-0.15cm} & = \hspace{-0.15cm} \big ( {\rm Pr}( Y = 0)\hspace{0.05cm}, {\rm Pr}( Y = 1)\hspace{0.05cm}, {\rm Pr}( Y = {\rm E}) \big )\hspace{0.05cm}.\end{align*}$$

Aus obigem Modell erhalten wir dann:

$$\begin{align*}P_Y(0) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}( Y \hspace{-0.1cm} = 0) = P_X(0) \cdot ( 1 - \lambda)\hspace{0.05cm}, \\
P_Y(1) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}( Y \hspace{-0.1cm} = 1) = P_X(1) \cdot ( 1 - \lambda)\hspace{0.05cm}, \\
P_Y({\rm E}) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}( Y \hspace{-0.1cm} = {\rm E}) = P_X(0) \cdot \lambda \hspace{0.1cm}+\hspace{0.1cm} P_X(1) \cdot \lambda \hspace{0.05cm}.\end{align*}$$

Fassen wir nun $P_X(X)$ und $P_Y(Y)$ als Vektoren auf, so lässt sich das Ergebnis wie folgt darstellen:

$$P_{\hspace{0.05cm}Y}(Y) = P_X(X) \cdot P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) \hspace{0.05cm},$$

wobei die Übergangswahrscheinlichkeiten $\text{Pr}(y_κ | x_μ)$ durch folgende Matrix berücksichtigt sind:

$$P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) =
\begin{pmatrix}
1 - \lambda 0 \lambda\\
0 1 - \lambda \lambda
\end{pmatrix}\hspace{0.05cm}.$$

Beachten Sie: Wir haben diese Darstellung nur gewählt, um die Beschreibung zu vereinfachen. $P_X(X)$ und $P_Y(Y)$ sind keine Vektoren im eigentlichen Sinne und $P_{Y|X}(Y|X)$ ist keine Matrix.

{{end}}

Alle in Kapitel 3.2 definierten Entropien gelten auch für die Digitalsignalübertragung. Es ist aber zweckmäßig, anstelle des bisher verwendeten Schaubildes (linke Grafik) die rechte Darstellung zu wählen, bei der die Richtung von der Quelle $X$ zur Sinke $Y$ erkennbar ist.

[[File:P_ID2781__Inf_T_3_3_S2.png|Zwei informationstheoretische Modelle für die Digitalsignalübertragung]]

Interpretieren wir nun ausgehend vom allgemeinen DMC–Kanalmodell die rechte Grafik:
*Die '''Quellenentropie''' (englisch: ''Source Entropy'') $H(X)$ bezeichnet den mittleren Informationsgehalt der Quellensymbolfolge. Mit dem Symbolumfang $|X|$ gilt:

$$H(X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(X)}\right ] \hspace{0.1cm}
= -{\rm E} \left [ {\rm log}_2 \hspace{0.1cm}{P_X(X)}\right ] \hspace{0.2cm}
=\hspace{0.2cm} \sum_{\mu = 1}^{|X|}
P_X(x_{\mu}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(x_{\mu})} \hspace{0.05cm}.$$

*Die '''Äquivokation''' (auch Rückschlussentropie genannt, englisch: ''Equivocation'') $H(X|Y)$ gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Sinke $Y$ genau Bescheid weiß, durch Beobachtung der Quelle $X$ gewinnt:

$$H(X|Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{-0.01cm}Y}(X\hspace{-0.01cm} |\hspace{0.03cm} Y)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{0.03cm}Y}
(\hspace{0.05cm}x_{\mu}\hspace{0.03cm} |\hspace{0.05cm} y_{\kappa})}
\hspace{0.05cm}.$$

*Die Äquivokation ist der Anteil der Quellenentropie $H(X)$, der durch Kanalstörungen (bei digitalem Kanal: Übertragungsfehler) verloren geht. Es verbleibt die '''Transinformation''' (englisch: ''Mutual Information'') $I(X; Y)$, die zur Sinke gelangt:

$$I(X;Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_{XY}(X, Y)}{P_X(X) \cdot P_Y(Y)}\right ] \hspace{0.2cm} = H(X) - H(X|Y) \hspace{0.05cm}.$$

*Die '''Irrelevanz''' (manchmal auch ''Streuentropie'' genannt, englisch: ''Irrelevance'') $H(Y|X)$ gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Quelle $X$ genau Bescheid weiß, durch Beobachtung der Sinke $Y$ gewinnt:

$$H(Y|X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{0.03cm} X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{0.03cm}X}
(\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu})}
\hspace{0.05cm}.$$

*Die '''Sinkenentropie''' $H(Y)$, der mittlere Informationsgehalt der Sinke, ist die Summe aus der nützlichen Transinformation $I(X; Y)$ und der Irrelevanz $H(Y|X)$, die ausschließlich von Kanalfehlern herrührt:

$$H(Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_Y(Y)}\right ] \hspace{0.1cm}
= -{\rm E} \left [ {\rm log}_2 \hspace{0.1cm}{P_Y(Y)}\right ] \hspace{0.2cm} =I(X;Y) + H(Y|X)
\hspace{0.05cm}.$$

==Transinformationsberechnung für den Binärkanal==

Die Definitionen der letzten Seite sollen nun an einem Beispiel verdeutlicht werden, wobei wir bewusst vermeiden, die Berechnungen durch die Ausnutzung von Symmetrien zu vereinfachen.

{{Beispiel}}

[[File:P_ID2782__Inf_T_3_3_S3a.png|Allgemeines Modell des Binärkanals]]
Wir betrachten den allgemeinen Binärkanal (englisch: ''Binary Channel'') ohne Gedächtnis gemäß der Skizze mit den Verfälschungswahrscheinlichkeiten.

$$\begin{align*}\varepsilon_0 \hspace{-0.15cm} & = \hspace{-0.15cm}{\rm Pr}(Y\hspace{-0.1cm} = 1\hspace{0.05cm} | X \hspace{-0.1cm}= 0) = 0.01\hspace{0.05cm},\\
\varepsilon_1 \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm Pr}(Y\hspace{-0.1cm} = 0\hspace{0.05cm} | X \hspace{-0.1cm}= 1) = 0.2\hspace{0.05cm}\end{align*}$$

$$\Rightarrow \hspace{0.3cm} P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) =
\begin{pmatrix}
1 - \varepsilon_0 & \varepsilon_0\\
\varepsilon_1 & 1 - \varepsilon_1
\end{pmatrix} =
\begin{pmatrix}
0.99 & 0.01\\
0.2 & 0.8
\end{pmatrix} \hspace{0.05cm}.$$

Außerdem gehen wir von nicht gleichwahrscheinlichen Quellensymbolen aus:

$$P_X(X) = \big ( p_0, p_1 \big )=
\big ( 0.1, 0.9 \big )
\hspace{0.05cm}.$$

Mit der binären Entropiefunktion erhält man so für die Quellenentropie:

$$H(X) = H_{\rm bin} (0.1) = 0.4690 \,{\rm bit}
\hspace{0.05cm}.$$

Für die Wahrscheinlichkeitsfunktion der Sinke sowie für die Sinkenentropie ergibt sich somit:

$$P_Y(Y) = \big ( {\rm Pr}( Y\hspace{-0.1cm} = 0)\hspace{0.05cm}, {\rm Pr}( Y \hspace{-0.1cm}= 1) \big ) = \big ( p_0\hspace{0.05cm}, p_1 \big ) \cdot
\begin{pmatrix}
1 - \varepsilon_0 & \varepsilon_0\\
\varepsilon_1 & 1 - \varepsilon_1
\end{pmatrix} $$

$$\begin{align*}\Rightarrow \hspace{0.3cm} {\rm Pr}( Y \hspace{-0.1cm}= 0)\hspace{-0.15cm} & = \hspace{-0.15cm}
p_0 \cdot (1 - \varepsilon_0) + p_1 \cdot \varepsilon_1 =
0.1 \cdot 0.99 + 0.9 \cdot 0.2 = 0.279\hspace{0.05cm},\\
{\rm Pr}( Y \hspace{-0.1cm}= 1)\hspace{-0.15cm} & = \hspace{-0.15cm} 1 - {\rm Pr}( Y \hspace{-0.1cm}= 0) = 0.721\end{align*}$$

$$\Rightarrow \hspace{0.2cm}
H(Y) = H_{\rm bin} (0.279) = 0.8541 \,{\rm bit}
\hspace{0.05cm}. $$

Auf der nächsten Seite werden noch berechnet:
*die Verbundentropie $H(XY)$,
*die Transinformation $I(X; Y)$,
*die Rückschlussentropie $H(X|Y)$ ⇒ Äquivokation,
*die Streuentropie $H(Y|X)$ ⇒ Irrelevanz.
Diese Ergebnisse sind in der folgenden zusammenfassenden Grafik bereits mit aufgenommen.

[[File:P_ID2783__Inf_T_3_3_S3b_neu.png|Informationstheoretisches Modell des betrachteten Binärkanals]]

[[File:P_ID2782__Inf_T_3_3_S3a.png|Allgemeines Modell des Binärkanals]]

Wir betrachten weiter den allgemeinen Binärkanal (englisch: ''Binary Channel'') ohne Gedächtnis gemäß der Skizze, und es gelte weiterhin:

$$P_X(X) = \big ( p_0, p_1 \big )=
\big ( 0.1, 0.9 \big )
\hspace{0.05cm},$$

$$\varepsilon_0 = {\rm Pr}(Y\hspace{-0.1cm} = 1\hspace{0.05cm} | X \hspace{-0.1cm}= 0) = 0.01\hspace{0.05cm}, \hspace{0.3cm}
\varepsilon_1 ={\rm Pr}(Y\hspace{-0.1cm} = 0\hspace{0.05cm} | X \hspace{-0.1cm}= 1) = 0.2\hspace{0.05cm}.$$

Die Verbundwahrscheinlichkeiten $p_{\{μκ\}}$ = $\text{Pr}[(X = μ) ∩ (Y = κ)]$ zwischen Quelle und Sinke sind:

$$\begin{align*}p_{00}\hspace{-0.15cm} & = \hspace{-0.15cm} p_0 \cdot (1 - \varepsilon_0) = 0.099\hspace{0.05cm},\hspace{0.5cm}p_{01}= p_0 \cdot \varepsilon_0 = 0.001\hspace{0.05cm},\\
p_{10}\hspace{-0.15cm} & = \hspace{-0.15cm} p_1 \cdot (1 - \varepsilon_1) = 0.180\hspace{0.05cm},\hspace{0.5cm}p_{11}= p_1 \cdot \varepsilon_1 = 0.720\hspace{0.05cm}.\end{align*}$$

Daraus erhält man für
*die '''Verbundentropie''' (englisch ''Joint Entropy''):

$$H(XY) = p_{00}\hspace{-0.05cm} \cdot \hspace{-0.05cm}{\rm log}_2 \hspace{0.05cm} \frac{1}{p_{00}} +
p_{01} \hspace{-0.05cm} \cdot \hspace{-0.05cm}{\rm log}_2 \hspace{0.05cm} \frac{1}{p_{01}} +
p_{10}\hspace{-0.05cm} \cdot \hspace{-0.05cm} {\rm log}_2 \hspace{0.05cm} \frac{1}{p_{10}} +
p_{11} \hspace{-0.05cm} \cdot \hspace{-0.05cm} {\rm log}_2\hspace{0.05cm} \frac{1}{p_{11}} = 1.1268\,{\rm bit} \hspace{0.05cm},$$

*die '''Transinformation''' (englisch ''Mutual Information''):

$$I(X;Y) = H(X) + H(Y) - H(XY) = 0.4690 + 0.8541 - 1.1268 = 0.1963\,{\rm bit}
\hspace{0.05cm},$$

*die '''Äquivokation''' (oder Rückschlussentropie):

$$H(X|Y) = H(X) - I(X;Y) = 0.4690 - 0.1963 = 0.2727\,{\rm bit}
\hspace{0.05cm},$$

*die '''Irrelevanz''' (oder Streuentropie):

$$H(Y|X) = H(Y) - I(X;Y) = 0.8541 - 0.1963 = 0.6578\,{\rm bit}
\hspace{0.05cm}.$$

Die Ergebnisse sind in der folgenden Grafik nochmals zusammengefasst.

[[File:P_ID2785__Inf_T_3_3_S3b_neu.png|Informationstheoretisches Modell des betrachteten Binärkanals]]

{{end}}

''Anmerkung'': Äquivokation und Irrelevanz hätte man auch direkt (aber mit Mehraufwand) aus den entsprechenden Wahrscheinlichkeitsfunktionen berechnen können. Zum Beispiel die Irrelevanz:

$$H(Y|X) = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.05cm}\in \hspace{0.05cm}XY} \hspace{-0.2cm} P_{XY}(x,\hspace{0.05cm}y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{0.03cm}X}
(\hspace{0.05cm}y\hspace{0.03cm} |\hspace{0.05cm} x)}=$$

$$.\hspace{0.3cm} = p_{00} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{1 - \varepsilon_0} +
p_{01} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{\varepsilon_0} +
p_{10} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{1 - \varepsilon_1} +
p_{11} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{\varepsilon_1} = 0.6578\,{\rm bit} \hspace{0.05cm}.$$

==Definition und Bedeutung der Kanalkapazität ==

Wir betrachten weiter einen diskreten gedächtnislosen Kanal (englisch: ''Discrete Memoryless Channel'', kurz DMC) mit einer endlichen Anzahl an Quellensymbolen ⇒ $|X|$ und ebenfalls nur endlich vielen Sinkensymbolen ⇒ $|Y|$, wie im ersten Abschnitt dieses Kapitels dargestellt. Berechnet man die Transinformation $I(X, Y)$ wie zuletzt an einem Beispiel ausgeführt, so hängt diese auch von der Quellenstatistik ⇒ $P_X(X)$ ab. Ergo: $I(X, Y)$ ist keine reine Kanalkenngröße.

{{Definition}}
Die von [[https://de.wikipedia.org/wiki/Claude_Shannon|Claude E. Shannon]] eingeführte '''Kanalkapazität''' (englisch: ''Channel Capacity'') lautet entsprechend seinem Standardwerk <ref>Shannon, C.E.: ''A Mathematical Theory of Communication''. In: Bell Syst. Techn. J. 27 (1948), S. 379-423 und S. 623-656.</ref>:

$$C = \max_{P_X(X)} \hspace{0.15cm} I(X;Y) \hspace{0.05cm}.$$

Da nach dieser Definition stets die bestmögliche Quellenstatistik zugrunde liegt, hängt $C$ nur von den Kanaleigenschaften ⇒ $P_{Y|X}(Y|X)$ ab, nicht jedoch von $P_X(X)$. Oft wird die Zusatzeinheit „bit/Kanalzugriff” hinzugefügt, bei englischen Texten „bit/use”.

{{end}}

C. E. Shannon benötigte diese Kanalbeschreibungsgröße $C$, um das Kanalcodierungstheorem formulieren zu können – eines der Highlights der von ihm begründeten Informationstheorie.

{{Definition}}
'''Shannons Kanalcodierungstheorem''': Zu jedem Übertragungskanal mit der Kanalkapazität $C$ > 0 existiert (mindestens) ein $(k, n)$–Blockcode, dessen (Block–)Fehlerwahrscheinlichkeit gegen Null geht, so lange die Coderate $R$ = $k/n$ kleiner oder gleich der Kanalkapazität ist: $R ≤ C$. Voraussetzung hierfür ist allerdings, dass für die Blocklänge dieses Codes gilt: $n → ∞$.

{{end}}

Den Beweis dieses Theorems finden Sie zum Beispiel in <ref name="CT06">Cover, T.M.; Thomas, J.A.: ''Elements of Information Theory''. West Sussex: John Wiley & Sons, 2nd Edition, 2006.</ref>, <ref name="Kra13">Kramer, G.: ''Information Theory''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, Technische Universität München, 2013.</ref> und <ref name="Meck09">Mecking, M.: ''Information Theory''. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, Technische Universität München, 2009.</ref>. Der Beweis würde den Rahmen unseres Lerntutorials sprengen.

Im [[Informationstheorie/AWGN–Kanalkapazität_bei_wertdiskretem_Eingang#AWGN.E2.80.93Modell_f.C3.BCr_zeitdiskrete_bandbegrenzte_Signale|Kapitel 4.3]] wird im Zusammenhang mit dem wertkontinuierlichen [[Kanalcodierung/Klassifizierung_von_Signalen#AWGN.E2.80.93Kanal_bei_bin.C3.A4rem_Eingang|AWGN–Kanalmodell]] ausgeführt, welche phänomenal große Bedeutung Shannons informationstheoretisches Theorem für die gesamte Informationstechnik besitzt, nicht nur für ausschließlich theoretisch Interessierte, sondern ebenso auch für Praktiker.
Wie in [[Aufgaben:3.12_Coderate_und_Zuverlässigkeit|Aufgabe A3.12]] gezeigt werden soll, gilt auch der Umkehrschluss:

Ist die Rate des verwendeten ( $n$, $k$ )–Blockcodes größer als die Kanalkapazität ⇒ $\mathbf{R = k/n > C}$, so kann '''niemals eine beliebig kleine Blockfehlerwahrscheinlichkeit''' erreicht werden.

Auch diesen Beweis finden Sie zum Beispiel wieder in <ref name="CT06" />, <ref name="Kra13" /> und <ref name="Meck09" />.

==Kanalkapazität eines Binärkanals==

[[File:P_ID2786__Inf_T_3_3_S3a.png|Allgemeines Modell des Binärkanals]]
Die Transinformation des allgemeinen (unsymmetrischen) Binärkanals gemäß der nebenstehenden Grafik wurde im letzten Abschnitt berechnet. Bei diesem Modell werden die Eingangssymbole „0” und „1” unterschiedlich stark verfälscht:

$$P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{-0.01cm} X) =
\begin{pmatrix}
1 - \varepsilon_0 & \varepsilon_0\\
\varepsilon_1 & 1 - \varepsilon_1
\end{pmatrix} \hspace{0.05cm}.$$

Die Transinformation lässt sich mit $P_X(X)$ = $(p_0, p_1)$ in folgender Form kompakt darstellen:

$$\begin{align*}I(X ;Y) = \sum_{\mu = 1}^{2} \hspace{0.1cm}\sum_{\kappa = 1}^{2} \hspace{0.2cm}
{\rm Pr} (\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu}) \cdot
{\rm Pr} (\hspace{0.05cm}x_{\mu}\hspace{0.05cm})\cdot {\rm log}_2 \hspace{0.1cm} \frac{{\rm Pr}
(\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu})}{{\rm Pr}
(\hspace{0.05cm}y_{\kappa})} = \\
& = \hspace{-0.15cm} (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0) \cdot p_0 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0}{(1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0) \cdot p_0 + \varepsilon_1 \cdot p_1} +
\varepsilon_0 \cdot p_0 \cdot {\rm log}_2 \hspace{0.1cm} \frac{\varepsilon_0}{(1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_0) \cdot p_0 + \varepsilon_1 \cdot p_1} + \\
& + \hspace{-0.15cm} \varepsilon_1 \cdot p_1 \cdot {\rm log}_2 \hspace{0.1cm} \frac{\varepsilon_1}{\varepsilon_0 \cdot p_0 + (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1) \cdot p_1} + (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1) \cdot p_1 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1}{\varepsilon_0 \cdot p_0 + (1 \hspace{-0.08cm}- \hspace{-0.08cm}\varepsilon_1) \cdot p_1}
\hspace{0.05cm}.\end{align*}$$

[[File:P_ID2788__Inf_T_3_3_S4a.png|Ergebnisse für den Binary Channel]]

Im Folgenden setzen wir $ε_0$ = 0.01 und $ε_1$ = 0.2. In der vierten Spalte der nebenstehenden Tabelle (grün hinterlegt) ist die Transinformation $I(X; Y)$ dieses unsymmetrischen Binärkanals abhängig von der Quellensymbolwahrscheinlichkeit $p_0$ = Pr( $X$ = 0 ) angegeben. Man erkennt:
*Die Transinformation $I(X; Y)$ hängt von den Symbolwahrscheinlichkeiten $p_0$ und $p_1$ = 1 – $p_0$ ab.
*Der Maximalwert der Transinformation ergibt sich für $p_0$ ≈ 0.55 ⇒ $p_1$ ≈ 0.45.
*Das Optimierungsergebnis $p_0 > p_1$ folgt aus der Relation $ε_0 < ε_1$ (die „0” wird weniger verfälscht).
*Die Kanalkapazität ist somit für $ε_0$ = 0.01, $ε_1$ = 0.2 gleich $C$ = 0.5779 bit/Kanalzugriff.
In obiger Gleichung ist als Sonderfall auch der [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Symmetric_Channel_.E2.80.93_BSC|Binary Symmetric Channel]] (BSC) mit dem Parameter $ε$ = $ε_0$ = $ε_1$ mitenthalten. In [[Aufgaben:3.09_Transinformation_beim_BSC|Aufgabe A3.9]] wird die Transinformation des BSC–Kanals für $ε$ = 0.1, $p_0$ = 0.2 berechnet und in [[Aufgaben:3.09Z_BSC–Kanalkapazität|Aufgabe Z3.9]] seine Kanalkapazität wie folgt angegeben:

$$C_{\rm BSC} = 1 - H_{\rm bin} (\varepsilon) \hspace{0.05cm}.$$

==Eigenschaften symmetrischer Kanäle ==

Die Kapazitätsberechnung des (allgemeinen) [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung#Informationstheoretisches_Modell_der_Digitalsignal.C3.BCbertragung|diskreten gedächtnislosen Kanals]] ist oftmals aufwändig. Sie vereinfacht sich entscheidend, wenn Symmetrien des Kanals ausgenutzt werden. Die Grafik zeigt zwei Beispiele.

[[File:P_ID2793__Inf_T_3_3_S6a.png|Beispiele symmetrischer Kanäle]]

*Beim ''gleichmäßig dispersiven'' Kanal (englisch: ''Uniformly Dispersive Channel'') ergibt sich für alle Quellensymbole $x ∈ X$ die genau gleiche Menge an Übergangswahrscheinlichkeiten ⇒ $\{P_Y|X(y_κ|x)\}$ mit 1 ≤ $κ$ ≤ $|Y|$. In der linken Grafik ist dies durch die Werte $q$, $r$ und $s$ mit $q + r + s$ = 1 angedeutet.
*Beim gleichmäßig fokussierenden Kanal (englisch: ''Uniformely Focusing Channel'') ergibt sich für alle Sinkensymbole $y ∈ Y$ die gleiche Menge an Übergangswahrscheinlichkeiten ⇒ $\{P_Y|X(y|x_μ)\}$ mit 1 ≤ $μ$ ≤ $|X|$. Hier muss nicht notwendigerweise $t + u + v$ = 1 gelten (siehe rechte Grafik).

{{Definition}}
Ist ein diskreter gedächtnisloser Kanal sowohl gleichmäßig dispersiv als auch gleichmäßig fokussierend, so liegt ein '''streng symmetrischer Kanal''' (englisch: ''Strongly Symmetric Channel'') vor. Bei gleichverteiltem Quellenalphabet besitzt dieser die Kapazität

$$C = {\rm log}_2 \hspace{0.1cm} |Y| + \sum_{y \hspace{0.05cm}\in\hspace{0.05cm} Y} \hspace{0.1cm} P_{\hspace{0.01cm}Y \mid \hspace{0.01cm} X}(y|x) \cdot
{\rm log}_2 \hspace{0.1cm}P_{\hspace{0.01cm}Y \mid \hspace{0.01cm} X}(y|x)
\hspace{0.05cm}.$$

Für diese Gleichung kann jedes beliebige $x ∈ X$ herangezogen werden.

{{end}}

Diese Definition soll durch ein Beispiel verdeutlicht werden.

{{Beispiel}}
[[File:P_ID2794__Inf_T_3_3_S6b.png|Streng symmetrischer Kanal mit |X| = |Y| = 3]]
Beim betrachteten Kanal bestehen Verbindungen zwischen allen $|X|$ = 3 Eingängen und allen $|Y|$ = 3 Ausgängen:
*Eine rote Verbindung steht für $P_{Y|X}(y_κ|x_μ)$ = 0.7.
*Eine blaue Verbindung steht für $P_{Y|X}(y_κ|x_μ)$ = 0.2.
*Eine grüne Verbindung steht für $P_{Y|X}(y_κ|x_μ)$ = 0.1.

Nach obiger Gleichung gilt dann für die Kanalkapazität:

$$C = {\rm log}_2 \hspace{0.1cm} (3) + 0.7 \cdot {\rm log}_2 \hspace{0.1cm} (0.7)
+ 0.2 \cdot {\rm log}_2 \hspace{0.1cm} (0.2) + 0.1 \cdot {\rm log}_2 \hspace{0.1cm} (0.1) = 0.4282 \,\,{\rm bit} \hspace{0.05cm}.$$

''Hinweis'': Der Zusatz „die gleiche Menge an Übergangswahrscheinlichkeiten” bedeutet nicht, dass $P_Y|X(y_κ|x_1)$ = $P_Y|X(y_κ|x_2)$ = $P_Y|X(y_κ|x_3)$ gelten muss. Vielmehr geht in diesem Beispiel von jedem Eingang ein roter, ein blauer und ein grüner Pfeil ab und an jeden Ausgang kommt ein roter, ein blauer und ein grüner Pfeil an. Die jeweiligen Reihenfolgen permutieren. R – G – B, B – R – G, G – B – R.

{{end}}

Ein Beispiel für einen streng symmetrischen Kanal ist der [[Kanalcodierung/Klassifizierung_von_Signalen#/media/File:P_ID2341_KC_T_1_2_S2_v2.png|Binary Symmetric Channel]] (BSC). Dagegen ist der [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Erasure_Channel_.E2.80.93_BEC|Binary Erasure Channel]] (BEC) nicht streng symmetrisch, da er
*zwar gleichmäßig dispersiv ist,
*aber nicht gleichmäßig fokussierend.

Nachfolgende Definition ist weniger restriktiv als die vorherige des streng symmetrischen Kanals.

{{Definition}}
Ein '''symmetrischer Kanal''' (englisch: ''Symmetric Channel'') liegt vor, wenn er in mehrere (allgemein $L$) streng symmetrische Teilkanäle aufgeteilt werden kann, indem das Ausgangsalphabet $Y$ in $L$ Teilmengen $Y_1$, ..., $Y_L$ aufgespalten wird. Ein solcher symmetrischer Kanal besitzt folgende Kapazität:

$$C = \sum_{l \hspace{0.05cm}=\hspace{0.05cm} 1}^{L} \hspace{0.1cm} p_l \cdot C_l \hspace{0.05cm}.$$

Hierbei sind folgende Bezeichnungen verwendet:
* $p_l$ gibt die Wahrscheinlichkeit an, dass der $l$–te Teilkanal ausgewählt wird,
* $C_l$ ist die Kanalkapazität dieses $l$–ten Teilkanals.

{{end}}

Die Grafik verdeutlicht diese Definition für $L$ = 2, wobei die Teilkanäle mit A und B bezeichnet sind. An den unterschiedlich gezeichneten Übergängen (gestrichelt oder gepunktet) erkennt man, dass die zwei Teilkanäle durchaus verschieden sind, so dass $C_A$ ≠ $C_B$ gelten wird.

[[File:P_ID2795__Inf_T_3_3_S6c_neu.png|Symmetrischer Kanal, bestehend aus zwei streng symmetrischen Teilkanälen A und B]]

Für die Kapazität des Gesamtkanals erhält man somit allgemein:

$$C = p_{\rm A} \cdot C_{\rm A} + p_{\rm B} \cdot C_{\rm B} \hspace{0.05cm}.$$

Über die Struktur der beiden Teilkanäle wird hier keine Aussage gemacht. Im Beispiel auf der nächsten Seite wird sich zeigen, dass auch der BEC durch diese Grafik grundsätzlich beschreibbar ist. Allerdings müssen dann die zwei Ausgangssysmbole $y_3$ und $y_4$ zu einem einzigen Symbol zusammengefasst werden.

{{Beispiel}}
Die linke Grafik zeigt den [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Erasure_Channel_.E2.80.93_BEC|Binary Erasure Channel]] (BEC) mit Eingang $X$ = {0, 1} und Ausgang $Y$ = {0, 1, $E$}, wie er meistens gezeichnet wird. Teilt man diesen entsprechend der rechten Grafik auf in
einen idealen Kanal $(y = x)$ mit $y ∈ Y_A$ = {0, 1} ⇒ $C_A$ = 1 bit,
einen Auslöschungskanal mit $y ∈ Y_B$ = $\{E \}$ ⇒ $C_B$ = 0,
so ergibt sich mit den Teilkanalgewichtungen $p_A$ = 1 – $λ$ und $p_B$ = $λ$ für die Kanalkapazität:

$$C_{\rm BEC} = p_{\rm A} \cdot C_{\rm A} = 1 - \lambda \hspace{0.05cm}.$$

[[File:P_ID2796__Inf_T_3_3_S6d.png|BEC in zwei verschiedenen Darstellungen]]

Beide Kanäle sind streng symmetrisch. Für den (idealen) Kanal A gilt gleichermaßen
*für $X = 0$ und $X = 1$: $\text{Pr}(Y = 0|X) = \text{Pr}(Y = 1|X) = 1 – λ$ ⇒ gleichmäßig dispersiv,
*für $Y = 0$ und $Y = 1$: $\text{Pr}(Y|X = 0) = Pr(Y|X = 1) = 1 – λ$ ⇒ gleichmäßig fokussierend.

Entsprechendes gilt für den Auslöschungskanal B.

{{end}}

In [[Aufgaben:3.11_Streng_symmetrische_Kanäle|Aufgabe A3.11]] wird sich zeigen, dass die Kapazität des Kanalmodells [[Kanalcodierung/Klassifizierung_von_Signalen#Binary_Symmetric_Error_.26_Erasure_Channel_.E2.80.93_BSEC|Binary Symmetric Error & Erasure Channel]] (BSEC) in gleicher Weise berechnet werden kann. Mit
*der Verfälschungswahrscheinlichkeit $ε$ und
*der Auslöschungswahrscheinlichkeit $λ$

erhält man in diesem Fall:

$$C_{\rm BSEC} = (1- \lambda) \cdot \left [ 1 - H_{\rm bin}(\frac{\varepsilon}{1- \lambda}) \right ]\hspace{0.05cm}.$$

==Einige Grundlagen der Kanalcodierung ==

Um das Kanalcodierungstheorem richtig interpretieren zu können, sind einige Grundlagen der Kanalcodierung (englisch: ''Channel Coding'') erforderlich. Dieses äußerst wichtige Gebiet der Nachrichtentechnik wird in einem eigenen Buch [[Kanalcodierung]] behandelt. Die nachfolgende Beschreibung bezieht sich auf das stark vereinfachte Modell für binäre Blockcodes:

[[File:P_ID2797__Inf_T_3_3_S7a.png|Modell für die codierte Informationsübertragung]]

Zu diesem Blockschaltbild ist anzumerken:
*Die unendlich lange Quellensymbolfolge $\underline{u}$ (hier nicht dargestellt) wird in Blöcke zu jeweils $k$ bit unterteilt. Wir bezeichnen den Informationsblock mit der laufenden Nummerierung $j$ mit $\underline{u}_j^{(k)}$.
*Jeder Informationsblock $j$ mit $\underline{u}_j^{(k)}$ wird durch den gelb hinterrlegten Kanalcoder in ein Codewort $\underline{x}_j^{(n)}$ umgesetzt, wobei $n > k$ gelten soll. Das Verhältnis $R = k/n$ bezeichnet man als die Coderate.
*Der Discrete Memoryless Channel (DMC) wird durch die Übergangswahrscheinlichkeit $P_{Y|X}(⋅)$ berücksichtigt. Dieser grün hinterlegte Block bewirkt Fehler auf Bitebene ⇒ $y_{j, i} ≠ x_{j, i}$.
*Damit unterscheiden sich auch die aus $n$ Bit bestehenden Empfangsblöcke $\underline{y}_j^{(n)}$ von den Codeworten $\underline{x}_j^{(n)}$. Ebenso gilt im allgemeinen für die Blöcke nach dem Deoder: $\underline{v}_j^{(k)} ≠ \underline{u}_j^{(k)}$.

[[File:P_ID2798__Inf_T_3_3_S7b_neu.png|Zur Bitbezeichnung von Informationsblock und Codewort]]

Die Grafik soll die hier verwendete Nomenklatur am Beispiel $k$ = 3, $n$ = 4 verdeutlichen. Dargestellt sind die jeweils ersten acht Blöcke der Informationssequenz $\underline{u}$ und der Codesequenz $\underline{x}$. Man erkennt folgende Zuordnung zwischen der geblockten und der ungeblockten Beschreibung:
*Bit 3 des 1. Info–Blocks ⇒ $u_{1, 3}$ entspricht dem Symbol u3 in ungeblockter Darstellung.
*Bit 1 des 2. Info–Blocks ⇒ $u_{2, 1}$ entspricht dem Symbol $u_4$ in ungeblockter Darstellung.
*Bit 2 des 6. Info–Blocks ⇒ $u_{6, 2}$ entspricht dem Symbol $u_{17}$ in ungeblockter Darstellung.
*Bit 4 des 1. Codewortes ⇒ $x_{1, 4}$ entspricht dem Symbol $x_4$ in ungeblockter Darstellung.
*Bit 1 des 2. Codewortes ⇒ $x_{2, 1}$ entspricht dem Symbol $x_5$ in ungeblockter Darstellung.
*Bit 2 des 6. Codewortes ⇒ $x_{6, 2}$ entspricht dem Symbol $x_{22}$ in ungeblockter Darstellung.

Zur Interpretation des Kanalcodierungstheorems benötigen wir noch verschiedene Definitionen für „Fehlerwahrscheinlichkeiten”. Aus dem Systemmodell lassen sich folgende Größen ableiten:
*Die '''Kanalfehlerwahrscheinlichkeit''' ergibt sich beim vorliegenden Kanalmodell zu

$${\rm Pr(Kanalfehler)} = {\rm Pr} \left ({y}_{j,\hspace{0.05cm} i} \ne {x}_{j,\hspace{0.05cm} i}
\right )\hspace{0.05cm}.$$

Beispielsweise ist beim BSC–Modell Pr(Kanalfehler) = $ε$ für alle $j$ = 1, 2, ... und 1 ≤ $i$ ≤ $n$.
*Die '''Blockfehlerwahrscheinlichkeit''' bezieht sich auf die zugeordneten Informationsblöcke am Codereingang ⇒ $\underline{u}_j^{(k)}$ und am Decoderausgang ⇒ $\underline{v}_j^{(k)}$, jeweils in Blöcken zu $k$ Bit:

$${\rm Pr(Blockfehler)} = {\rm Pr} \left (\underline{\upsilon}_j^{(k)} \ne \underline{u}_j^{(k)}
\right )\hspace{0.05cm}.$$

*Die '''Bitfehlerwahrscheinlichkeit''' bezieht sich ebenfalls auf den Eingang und den Ausgang des betrachteten Codiersystems, allerdings auf Bitebene:

$${\rm Pr(Bitfehler)} = {\rm Pr} \left ({\upsilon}_{j,\hspace{0.05cm} i} \ne {u}_{j,\hspace{0.05cm} i}
\right )\hspace{0.05cm}.$$

Hierbei ist vereinfachend vorausgesetzt, dass alle $k$ Bit $u_{j,i}$ des Informationsblockes $j$ mit gleicher Wahrscheinlichkeit verfälscht werden (1 ≤ $i$ ≤ $k$). Andernfalls müsste über die $k$ Bit gemittelt werden.

Zwischen Blockfehler– und Bitfehlerwahrscheinlichkeit besteht allgemein der Zusammenhang:

$${1}/{k} \cdot {\rm Pr(Blockfehler)} \le {\rm Pr(Bitfehler)} \le {\rm Pr(Blockfehler)}
\hspace{0.05cm}.$$

*Die untere Schranke ergibt sich, wenn bei allen fehlerhaften Blöcken alle Bit falsch sind.
*Gibt es in jedem fehlerhaften Block genau nur einen einzigen Bitfehler, dann ist die Bitfehlerwahrscheinlichkeit Pr(Bitfehler) identisch mit der Blockfehlerwahrscheinlichkeit Pr(Blockfehler).

{{Beispiel}}
Die Grafik zeigt oben die ersten acht Empfangsblöcke $\underline{y}_j^{(n)}$ mit $n$ = 4. Kanalfehler sind grün schraffiert. Unten ist die Ausgangsfolge $\underline{v}$ skizziert, unterteilt in Blöcke $\underline{v}_j^{(k)}$ zu je $k$ = 3 Bit:
*Bitfehler sind im unteren Diagramm rot schraffiert.
*Blockfehler erkennt man an der blauen Umrahmung.

[[File:P_ID2823__Inf_T_3_3_S7c_neu.png|Zur Definition verschiedener Fehlerwahrscheinlichkeiten]]

Hierzu einige (aufgrund der kurzen Folge) vage Angaben zu den Fehlerwahrscheinlichkeiten:
*Die Hälfte der Empfangsbits sind grün schraffiert. Daraus folgt:

$${\rm Pr(Kanalfehler)} = 16/32 = 1/2.$$

*Die Bitfehlerwahrscheinlichkeit lautet mit der beispielhaften Codierung & Decodierung:

$${\rm Pr(Bitfehler)} = 8/24 = 1/3.$$

*Dagegen würde bei uncodierter Übertragung gelten:

$${\rm Pr(Bitfehler)} = {\rm Pr(Kanalfehler)} = 1/2.$$

*Die Hälfte der decodierten Blöcke sind blau umrandet. Daraus folgt:

$${\rm Pr(Blockfehler)} = 4/8 = 1/2.$$

Mit Pr(Blockfehler) = 1/2 und k = 3 liegt die Bitfehlerwahrscheinlichkeit in folgendem Bereich:

$$1/6 \le {\rm Pr(Bitfehler)} \le 1/2
\hspace{0.05cm}.$$

*Die obere Schranke ergibt sich, wenn in jedem der vier verfälschten Blöcke alle Bit falsch sind: Pr(Bitfehler) = 12/24 = 1/2.
*Die untere Schranke beschreibt den Fall, dass in jedem der vier verfälschten Blöcke jeweils nur ein Bit falsch ist: Pr(Bitfehler) = 4/24 = 1/6.

{{end}}

==Rate, Kanalkapazität und Bitfehlerwahrscheinlichkeit==

Durch Kanalcodierung wird die Zuverlässigkeit (englisch: ''Reliability'') der Datenübertragung von der Quelle zur Sinke erhöht. Vermindert man die Coderate $R = k/n$ und erhöht so die hinzugefügte Redundanz (1 – $R$), so wird im allgemeinen die Datensicherheit verbessert und damit die Bitfehlerwahrscheinlichkeit herabgesetzt, die wir im Weiteren kurz $p_B$ nennen:

$$p_{\rm B} = {\rm Pr(Bitfehler)} = {\rm Pr} \left ({\upsilon}_{j,\hspace{0.05cm} i} \ne {u}_{j,\hspace{0.05cm} i}
\right )\hspace{0.05cm}.$$

Das folgende Theorem basiert auf dem Data Processing Theorem und ''Fano's Lemma''. Die Herleitung kann in den Standardwerken zur Informationstheorie nachgelesen werden, zum Beispiel in <ref>Cover, T.M.; Thomas, J.A.: ''Elements of Information Theory''. West Sussex: John Wiley & Sons, 2nd Edition, 2006.</ref>:

{{Definition}}
'''Umkehrung des Shannonschen Kanalcodierungstheorems''':
Benutzt man zur Datenübertragung mit Rate $R$ einen Kanal mit unzureichender Kanalkapazität $C < R$, so kann auch bei bestmöglicher Kanalcodierung die Bitfehlerwahrscheinlichkeit $p_B$ eine untere Schranke nicht unterschreiten:

$$p_{\rm B} \ge H_{\rm bin}^{-1} \cdot \left ( 1 - {C}/{R}\right ) > 0\hspace{0.05cm}.$$

$H_{\rm bin}(⋅)$ bezeichnet hierbei die binäre Entropiefunktion.
{{end}}

Da die Wahrscheinlichkeit der Blockfehler nie kleiner sein kann als die der Bitfehler, ist für $R > C$ auch die Blockfehlerwahrscheinlichkeit „0” nicht möglich. Aus dem angegebenen Bereich für die Bitfehler,

$${1}/{k} \cdot {\rm Pr}({\rm Blockfehler}) \le {\rm Pr}({\rm Bitfehler}) \le {\rm Pr}({\rm Blockfehler})\hspace{0.05cm},$$

lässt sich auch ein Bereich für die Blockfehlerwahrscheinlichkeit angeben:

$$ {\rm Pr}({\rm Bitfehler}) \le {\rm Pr}({\rm Blockfehler}) \le k \cdot {\rm Pr}({\rm Bitfehler})\hspace{0.05cm}.$$

{{Beispiel}}
Verwendet man einen Kanal mit der Kapazität $C$ = 1/3 (bit) zur Datenübertragung mit der Coderate $R$ < 1/3, so ist prinzipiell die Bitfehlerwahrscheinlichkeit $p_B$ = 0 möglich.
*Allerdings ist aus dem Kanalcodierungstheorem der spezielle ( $k$, $n$ )–Blockcode nicht bekannt, der dieses Wunschergebnis ermöglicht. Shannon macht hierzu keine Aussagen.
*Bekannt ist nur, dass ein solcher bestmöglicher Code mit unendlich langen Blöcken arbeitet. Bei gegebener Coderate $R$ = $k/n$ gilt somit sowohl $k → ∞$ als auch $n → ∞$.
*Deshalb ist die Aussage „Die Bitfehlerwahrscheinlichkeit ist 0” nicht identisch mit „Es treten keine Bitfehler auf”: Auch bei endlich vielen Bitfehlern und $k → ∞$ gilt $p_B$ = 0.

Mit der Coderate $R$ = 1 (uncodierte Übertragung) erhält man:

$$p_{\rm B} \ge H_{\rm bin}^{-1} \cdot \left ( 1 - \frac{1/3}{1.0}\right )
= H_{\rm bin}^{-1}(2/3) \approx 0.174
> 0\hspace{0.05cm}.$$

Mit der Coderate $R$ = 1/2 > $C$ ist die Bitfehlerwahrscheinlichkeit zwar kleiner, aber nicht 0:

$$p_{\rm B} \ge H_{\rm bin}^{-1} \cdot \left ( 1 - \frac{1/3}{1/2}\right )
= H_{\rm bin}^{-1}(1/3) \approx 0.062
> 0\hspace{0.05cm}.$$

Aufgabenhinweis: [[Aufgaben:3.12_Coderate_und_Zuverlässigkeit|A3.12: Coderate und Zuverlässigkeit]] – [[Aufgaben:3.13_Kanalcodierungstheorem|A3.13: Kanalcodierungstheorem]]

{{end}}
==Aufgaben zu Kapitel 3.3 ==
==Quellenverzeichnis==
<references/>
{{Display}}

Information Theory/Different Entropy Measures of Two-Dimensional Random Variables

2017-02-05T18:25:01Z

LukasWolf:

{{Header
|Untermenü=Information zwischen zwei wertdiskreten Zufallsgrößen
|Vorherige Seite=Einige Vorbemerkungen zu zweidimensionalen Zufallsgrößen
|Nächste Seite=Anwendung auf die Digitalsignalübertragung
}}

==Definition der Entropie unter Verwendung von supp(PXY)==
Wir fassen die Ergebnisse des letzten Abschnitts nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße $XY$ mit der Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$ ausgehen. Gleichzeitig verwenden wir die Schreibweise

$${\rm supp} (P_{XY}) = \big \{ \hspace{0.05cm}(x, y) \in XY \hspace{0.05cm},
\hspace{0.3cm} {\rm wobei} \hspace{0.15cm} P_{XY}(X, Y) \ne 0 \hspace{0.05cm} \big \} \hspace{0.05cm}.$$

Mit dieser Teilmenge $\text{supp}(P_{XY}) ⊂ P_{XY}$ gilt für
*die '''Verbundentropie''' (englisch: ''Joint Entropy''):

$$H(XY) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.05cm})}
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(x, y)} \hspace{0.05cm}.$$

*die '''Entropien der 1D–Zufallsgrößen''' $X$ und $Y$:

$$H(X) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(X)}\right ] =\hspace{-0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{X})}
\hspace{-0.2cm} P_{X}(x) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(x)} \hspace{0.05cm},$$

$$H(Y) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(Y)}\right ] =\hspace{-0.2cm} \sum_{y \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Y})}
\hspace{-0.2cm} P_{Y}(y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(y)} \hspace{0.05cm}.$$

{{Beispiel}}
Bei der zweidimensionalen (2D) [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Wahrscheinlichkeitsfunktion]] PRS(R, S) unseres Würfel–Experimentes mit
* $R$: Augenzahl des roten Würfels,
* $S$: Summe der beiden Würfel $R$ und $B$
gibt es 6 · 11 = 66 Felder, von denen viele leer sind ⇒ Wahrscheinlichkeit 0. Die Teilmenge $\text{supp}(P_{RS})$ beinhaltet dagegen nur die 36 schraffierten Felder mit von 0 verschiedenen Wahrscheinlichkeiten.
Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von $P_{RS}$ oder nur über die Elemente von $\text{supp}(P_{RS})$ erstreckt, da $x · \log_2 (\frac{1}{x})$ für $x$ → 0 gleich 0 ergibt.
Dagegen sind bei der 2D–Wahrscheinlichkeitsfunktion $P_{RB}(R, B)$ mit
* $R$: Augenzahl des roten Würels,
* $B$: Augenzahl des blauen Würfels
die Mengen $P_{RB}$ und $\text{supp}(P_{RB})$ identisch. Hier sind alle $6^2 = 36$ Felder mit Werten ≠ 0 belegt.

{{end}}

==Bedingte Wahrscheinlichkeit und bedingte Entropie ==

Im Buch [[Stochastische Signaltheorie]] wurden für den Fall zweier Ereignisse $X$ und $Y$ die folgenden [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#Bedingte_Wahrscheinlichkeit_.281.29|bedingten Wahrscheinlichkeiten]] angegeben ⇒ Satz von Bayes:

$${\rm Pr} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = \frac{{\rm Pr} (X \cap Y)}{{\rm Pr} (Y)} \hspace{0.05cm}, \hspace{0.5cm}
{\rm Pr} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) = \frac{{\rm Pr} (X \cap Y)}{{\rm Pr} (X)} \hspace{0.05cm}.$$

Angewendet auf Wahrscheinlichkeitsfunktionen erhält man somit:

$$P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = \frac{P_{XY}(X, Y)}{P_{Y}(Y)} \hspace{0.05cm}, \hspace{0.5cm}
P_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) = \frac{P_{XY}(X, Y)}{P_{X}(X)} \hspace{0.05cm}.$$

Analog zur [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Definition_der_Entropie_unter_Verwendung_von_supp.28PXY.29|Verbundentropie]] $H(XY)$ lassen sich hier folgende Entropiefunktionen ableiten:

{{Definition}}
Die '''bedingte Entropie''' (englisch: ''Conditional Entropy'') der Zufallsgröße $X$ lautet unter der Bedingung $Y$:

$$\begin{align*}H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ] \hspace{-0.15cm}&=\hspace{-0.15cm}\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)}=\\
&=\hspace{-0.15cm}\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{Y}(y)}{P_{XY}(x, y)}
\hspace{0.05cm}.\end{align*}$$

In gleicher Weise erhält man für die zweite bedingte Entropie:

$$\begin{align*}H(Y \hspace{-0.1cm}\mid \hspace{-0.05cm} X) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}Y\hspace{0.03cm} \mid \hspace{0.01cm} X} (Y \hspace{-0.08cm}\mid \hspace{-0.05cm}X)}\right ] \hspace{-0.15cm}&=\hspace{-0.15cm}\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}Y\hspace{-0.03cm} \mid \hspace{-0.01cm} X} (y \hspace{-0.05cm}\mid \hspace{-0.05cm} x)}=\\
&=\hspace{-0.15cm}\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{X}(x)}{P_{XY}(x, y)}
\hspace{0.05cm}.\end{align*}$$

{{end}}

Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion ⇒ $P_{X|Y}(·)$ bzw. $P_{Y|X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit $P_{XY}(·)$ benötigt wird.
Für die bedingten Entropien gibt es folgende Begrenzungen:
*Sowohl $H(X|Y)$ als auch $H(Y|X)$ sind stets größer oder gleich 0. Aus $H(X|Y)$ = 0 folgt direkt auch $H(Y|X)$ = 0. Beides ist nur für [[Stochastische_Signaltheorie/Mengentheoretische_Grundlagen#Disjunkte_Mengen|disjunkte Mengen]] $X$ und $Y$ möglich.
*Es gilt stets $H(X|Y) ≤ H(X)$ sowie $H(Y|X) ≤ H(Y)$. Diese Aussage ist einleuchtend, wenn man sich bewusst macht, dass man für Entropie synonym auch Unsicherheit verwenden kann.
*Denn: Die Unsicherheit bezüglich $X$ kann nicht dadurch größer werden, dass man $Y$ kennt. Außer bei statistischer Unabhängigkeit ⇒ $H(X|Y)$ = $H(X)$ gilt stets $H(X|Y) < H(X)$.
*Wegen $H(X) ≤ H(XY)$, $H(Y) ≤ H(XY)$ gilt somit auch $H(X|Y) ≤ H(XY)$ und $H(Y|X) ≤ H(XY)$. Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.

{{Beispiel}}

''Beispiel F'': Wir betrachten die Verbundwahrscheinlichkeiten $P_{RS}(·)$ unseres Würfelexperiments, die im Beispiel D ermittelt wurden. In der Mitte der folgenden Grafik ist $P_{RS}(·)$ nochmals angegeben.

[[File:P_ID2764__Inf_T_3_2_S3.png|Bedingte Wahrscheinlichkeitsfunktionen PS|R und PR|S]]

Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen gezeichnet:
*Links dargestellt ist die bedingte Wahrscheinlichkeitsfunktion $P_{S|R}(⋅)$ = $P_{SR}(⋅)/P_R(⋅)$. Wegen $P_R(R)$ = [1/6, 1/6, 1/6, 1/6, 1/6, 1/6] steht hier in allen schraffierten Feldern ⇒ $\text{supp}(P_{S|R})$ = $\text{supp}(P_{R|S})$ der gleiche Wahrscheinlichkeitswert 1/6. Daraus folgt für die bedingte Entropie:

$$H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = \hspace{-0.2cm} \sum_{(r, s) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{RS})}
\hspace{-0.6cm} P_{RS}(r, s) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}S \hspace{0.03cm} \mid \hspace{0.03cm} R} (s \hspace{-0.05cm}\mid \hspace{-0.05cm} r)} =
36 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit}
\hspace{0.05cm}.$$

*Für die andere bedingte Wahrscheinlichkeitsfunktion $P_{R|S}(⋅)$ = $P_{RS}(⋅)/P_S(⋅)$ mit $P_S(⋅)$ gemäß Beispiel D ergeben sich die gleichen Felder ungleich 0 ⇒ $\text{supp}(P_{R|S})$ = $\text{supp}(P_{S|R})$. Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte (1/6) zu den Rändern hin bis zur Wahrscheinlichkeit 1 in den Ecken kontinuierlich zu. Daraus folgt:

$$H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} S) = \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) +
\frac{2}{36} \cdot \sum_{i=1}^5 \left [ i \cdot {\rm log}_2 \hspace{0.1cm} (i) \right ]= 1.896\,{\rm bit} \hspace{0.05cm}.$$

Dagegen ergibt sich für die Zufallsgröße $RB$ gemäß Beispiel C wegen $P_{RB}(⋅)$ = $P_R(⋅) · P_B(⋅)$:

$$\begin{align*}H(B \hspace{-0.1cm}\mid \hspace{-0.13cm} R) \hspace{-0.15cm} & = \hspace{-0.15cm} H(B) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit} \hspace{0.05cm},\\
H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} B) \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit} \hspace{0.05cm}.\end{align*}$$

{{end}}

==Transinformation zwischen zwei Zufallsgrößen ==

Wir betrachten die Zufallsgröße $XY$ mit der 2D–Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$. Bekannt seien auch die 1D–Funktionen $P_X(X)$ und $P_Y(Y)$. Nun stellen sich folgende Fragen:
*Wie vermindert die Kenntnis der Zufallsgröße $Y$ die Unsicherheit bezüglich $X$?
*Wie vermindert die Kenntnis der Zufallsgröße $X$ die Unsicherheit bezüglich $Y$?
Zur Beantwortung benötigen wir eine für die Informationstheorie substantielle Definition:

{{Definition}}
Die '''Transinformation''' (englisch: ''Mutual Information'') zwischen den Zufallsgrößen $X$ und $Y$ – beide über dem gleichen Alphabet – ist gegeben durch den Ausdruck

$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(X, Y)}
{P_{X}(X) \cdot P_{Y}(Y) }\right ] =\hspace{-0.25cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY})}
\hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(x, y)}
{P_{X}(x) \cdot P_{Y}(y) } \hspace{0.01cm}.$$

Ein Vergleich mit [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|Kapitel 3.1]] zeigt, dass die Transinformation auch als [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Relative_Entropie_.E2.80.93_Kullback.E2.80.93Leibler.E2.80.93Distanz|Kullback–Leibler–Distanz]] zwischen der 2D–PMF $P_{XY}(⋅)$ und dem Produkt $P_X(⋅) · P_Y(⋅)$ geschrieben werden kann:

$$I(X;Y) = D(P_{XY} \hspace{0.05cm}|| \hspace{0.05cm} P_X \cdot P_Y) \hspace{0.05cm}.$$

Es ist offensichtlich, dass stets $I(X; Y)$ ≥ 0 gilt. Wegen der Symmetrie ist auch $I(Y; X)$ = $I(X; Y)$.

{{end}}

Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”. Und ebenso sind in Fachbüchern für $I(X; Y)$ auch die Bezeichnungen ''gemeinsame Entropie'' und ''gegenseitige Entropie'' üblich. Wir sprechen aber im Folgenden durchgängig von der ''Transinformation'' $I(X; Y)$ und interpretieren nun diese Größe:
*Durch Aufspalten des log2–Arguments entsprechend

$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{1}
{P_{X}(X) }\right ] - {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac
{P_{Y}(Y) }{P_{XY}(X, Y)} \right ] $$

erhält man unter Verwendung von $P_{X|Y}(⋅)$ = $P_{XY}(⋅)/_PY(Y)$:

$$I(X;Y) = H(X) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) \hspace{0.05cm}.$$

Das heißt: Die Unsicherheit hinsichtlich der Zufallsgröße $X$ ⇒ Entropie $H(X)$ vermindert sich bei Kenntnis von $Y$ um den Betrag $H(X|Y)$. Der Rest ist die Transinformation $I(X; Y)$.
*Bei anderer Aufspaltung kommt man zum Ergebnis:

$$I(X;Y) = H(Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$

Ergo: Die Transinformation $I(X; Y)$ ist symmetrisch: $X$ sagt genau so viel über $Y$ aus wie $Y$ über $X$ ⇒ gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.

Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen. Daraus erkennt man, dass auch folgende Gleichungen zutreffen:

$$\begin{align*}I(X;Y) \hspace{-0.15cm} & = \hspace{-0.15cm} H(X) + H(Y) - H(XY) \hspace{0.05cm},\\
I(X;Y) \hspace{-0.15cm} & = \hspace{-0.15cm} H(XY) -
H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X)
\hspace{0.05cm}.\end{align*}$$

{{Beispiel}}
''Beispiel F'': Wir kommen nochmals auf das [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|Würfel–Experiment]] mit dem roten $(R)$ und dem blauen $(B)$ Würfel zurück. Die Zufallsgröße $S$ gibt die Summe der beiden Würfel an: $S = R + B$.
Wir betrachten hier die 2D–Zufallsgröße RS. In früheren Beispielen haben wir berechnet:
*die Entropien $H(R)$ = 2.585 bit und $H(S)$ = 3.274 bit ⇒ Beispiel D,
*die Verbundentropie $H(RS)$ = 5.170 bit ⇒ Beispiel D,
*die bedingten Entropien $H(S|R)$ = 2.585 bit und $H(R|S)$ = 1.896 bit ⇒ Beispiel F.

[[File:P_ID2765__Inf_T_3_2_S3_neu.png|Schaubild aller Entropien des „Würfelexperiments” ]]

Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße $R$ durch die Grundfarbe „Rot” und die Summe $S$ durch die Grundfarbe „grün” markiert sind. Bedingte Entropien sind schraffiert.
Man erkennt aus dieser Darstellung:
*Hier ist $H(R)$ = $\log_2 $(6) = 2.585 bit genau halb so groß wie die Verbundentropie $H(RS)$. Kennt man $R$, so liefert $S$ genau die gleiche Information wie die Zufallsgröße $B$, nämlich $H(S|R)$ = $H(B)$ = $\log_2(6)$ = 2.585 bit. Hinweis: $H(R)$ = $H(S|R)$ gilt nicht allgemein.
*Die Entropie $H(S)$ = 3.274 bit ist im vorliegenden Beispiel erwartungsgemäß größer als $H(R)$. Wegen $H(S) + H(R|S) = H(R) + H(S|R)$ muss deshalb $H(R|S)$ gegenüber $H(S|R)$ um den gleichen Betrag $I(R; S)$ = 0.689 bit kleiner sein wie $H(R)$ gegenüber $H(S)$.
*Die Transinformation (englisch: ''Mutual Information'') zwischen den Zufallsgrößen $R$ und $S$ ergibt sich aber auch aus der Gleichung

$$\begin{align*}I(R;S) \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) + H(S) - H(RS) =\\
& = \hspace{-0.15cm} 2.585\,{\rm bit} + 3.274\,{\rm bit} -
5.170\,{\rm bit} = 0.689\,{\rm bit}
\hspace{0.05cm}. \end{align*}$$

{{end}}

==Bedingte Transinformation ==

Wir betrachten nun drei Zufallsgrößen $X$, $Y$ und $Z$, die zueinander in Beziehung stehen (können).

{{Definition}}
Die '''bedingte Transinformation''' (englisch: ''Conditional Mutual Information'') zwischen den Zufallsgrößen $X$ und $Y$ bei gegebenem Z = z lautet:

$$I(X;Y \hspace{0.05cm}|\hspace{0.05cm} Z = z) = H(X\hspace{0.05cm}|\hspace{0.05cm} Z = z) - H(X|\hspace{0.05cm}Y ,\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$

Dagegen bezeichnet man als die '''bedingte Transinformation''' zwischen den Zufallsgrößen $X$ und $Y$ bei gegebener '''Zufallsgröße Z''':

$$I(X;Y \hspace{0.05cm}|\hspace{0.05cm} Z ) = H(X\hspace{0.05cm}|\hspace{0.05cm} Z ) - H(X|\hspace{0.05cm}Y Z )= \hspace{-0.3cm}
\sum_{z \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Z})} \hspace{-0.25cm} P_{Z}(z) \cdot
I(X;Y \hspace{0.05cm}|\hspace{0.05cm} Z = z)
\hspace{0.05cm}.$$

Hierbei ist $P_Z(Z)$ die Wahrscheinlichkeitsfunktion der neben $X$ und $Y$ betrachteten Zufallsgröße $Z$ und $P_Z(z)$ die Wahrscheinlichkeit für $Z = z$.

{{end}}

Bitte beachten Sie: Für die bedingte Entropie gilt bekanntlich die Größenrelation $H(X|Z) ≤ H(X)$. Für die Transinformation gilt diese Größenrelation nicht unbedingt:
: $I(X; Y|Z)$ kann kleiner, gleich, aber auch größer sein als $I(X; Y)$.

{{Beispiel}}
Wir betrachten die binären Zufallsgrößen $X$, $Y$ und $Z$ mit folgenden Eigenschaften:
* $X$ und $Y$ seien statistisch unabhängig und für ihre Wahrscheinlichkeitsfunktionen gelte: $P_X(X)$ = [1/2, 1/2], $P_Y(Y)$ = [1– $p$, $p$] ⇒ $H(X)$ = 1 (bit), $H(Y)$ = $H_{\text{bin}}(p)$.

[[File:P_ID2824__Inf_T_3_2_S4a.png|Wahrscheinlichkeitsfunktion PXZ ]]

* $Z$ ist die Modulo–2–Summe von $X$ und $Y$: $Z = X ⊕ Y$.

Aus der Verbund–PMF $P_{XZ}$ gemäß der oberen Grafik folgt:
*Durch Summation der Spalten–Wahrscheinlichkeiten ergibt sich $P_Z(Z)$ = [1/2; 1/2] ⇒ $H(Z)$ = 1.
* $X$ und $Z$ sind ebenfalls statistisch unabhängig, da für die 2D–PMF $P_{XZ}(X, Z)$ = $P_X(X) · P_Z(Z)$ gilt.
*Daraus folgt: $H(Z|X)$ = $H(Z)$, $H(X|Z)$ = $H(X)$, $I(X; Z)$ = 0.

[[File:P_ID2826__Inf_T_3_2_S4b.png|Bedingte Wahrscheinlichkeitsfunktion PX|ZY]]

Aus der bedingten Wahrscheinlichkeitsfunktion $P_{X|YZ}$ gemäß der unteren Grafik lassen sich berechnen:
* $H(X|YZ)$ = 0, da alle $P_{X|YZ}$–Einträge entweder 0 oder 1 ⇒ ''bedingte Entropie'',
* $I(X; YZ)$ = $H(X)$ – $H(X|YZ)$ = $H(X)$ ⇒ ''Transinformation'',
* $I(X; Y|Z)$ = $H(X|Z)$ = $H(X)$ ⇒ ''bedingte Transinformation''.
Im vorliegenden Beispiel ist also $I(X; Y|Z)$ = 1 (bit) größer als $I(X; Y)$ = 0 (bit).

{{end}}

==Kettenregel der Transinformation ==

Bisher haben wir die Transinformation nur zwischen zwei eindimensionalen Zufallsgrößen betrachtet. Nun erweitern wir die Definition auf insgesamt $n$ + 1 Zufallsgrößen, die wir aus Darstellungsgründen mit $X_1$, ..., $X_n$ sowie $Z$ bezeichnen. Dann gilt

{{Definition}}
''Kettenregel der Transinformation'':
Die Transinformation zwischen der $n$–dimensionalen Zufallsgröße $X_1 X_2 ... X_n$ und der Zufallsgröße $Z$ lässt sich wie folgt darstellen und berechnen:

$$\begin{align*}I(X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_n;Z) \hspace{-0.15cm} & = \hspace{-0.15cm}
I(X_1;Z) + I(X_2;Z | X_1) + ... \hspace{0.1cm}+
I(X_n;Z | X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_{n-1}) = \\
& = \hspace{-0.15cm} \sum_{i = 1}^{n}
I(X_i;Z | X_1\hspace{0.05cm}X_2\hspace{0.05cm}... \hspace{0.1cm}X_{i-1})
\hspace{0.05cm}.\end{align*}$$

{{end}}

Für den Beweis beschränken wir uns hier auf den Fall $n$ = 2, also auf insgesamt drei Zufallsgrößen, und ersetzen $X_1$ und $X_2$ durch $X$ und $Y$. Damit erhalten wir:

$$\begin{align*}I(X\hspace{0.05cm}Y;Z) \hspace{-0.15cm} & = & \hspace{-0.15cm} H(XY) - H(XY|Z) = \\
& = \hspace{-0.15cm} \big [ H(X)+ H(Y|X)\big ] - \big [ H(X|Z) + H(Y|XZ)\big ] =\\
& = \hspace{-0.15cm} \big [ H(X)- H(X|Z)\big ] - \big [ H(Y|X) + H(Y|XZ)\big ]=\\
& = \hspace{-0.15cm} I(X;Z) + I(Y;Z | X)
\hspace{0.05cm}.\end{align*}$$

Aus dieser Gleichung erkennt man, dass die die Größenrelation $I(X Y; Z) ≥ I(X; Z)$ immer gegeben ist. Gleichheit ergibt sich für die bedingte Transinformation $I(Y; Z|X)$ = 0, also dann, wenn die Zufallsgrößen $Y$ und $Z$ für ein gegebenes $X$ statistisch unabhängig sind.

{{Beispiel}}
Wir betrachten die [[Stochastische_Signaltheorie/Markovketten|Markovkette]] $X → Y → Z$. Für eine solche Konstellation gilt stets das ''Data Processing Theorem'' mit der folgenden Konsequenz, die sich aus der Kettenregel der Transinformation ableiten lässt:

$$I(X;Z) \hspace{-0.15cm} \le \hspace{-0.15cm}I(X;Y ) \hspace{0.05cm},\\
I(X;Z) \hspace{-0.15cm} \le \hspace{-0.15cm} I(Y;Z ) \hspace{0.05cm}.$$

Das Theorem besagt somit:
*Man kann durch Manipulation (''Processing Z'') der Daten $Y$ keine zusätzliche Information über den Eingang $X$ gewinnen.
*Die Datenverarbeitung $Y → Z$ (durch einen zweiten Prozessor) dient nur dem Zweck, die Information über $X$ besser sichtbar zu machen.

Weitere Informationen zum ''Data Processing Theorem'' finden Sie in der [[Aufgaben:3.14_Data_Processing_Theorem|Aufgabe A3.14]].

{{end}}

== Aufgaben zu Kapitel 3.2 ==

{{Display}}

Information Theory/Some Preliminary Remarks on Two-Dimensional Random Variables

2017-02-05T18:15:28Z

LukasWolf:

{{Header
|Untermenü=Information zwischen zwei wertdiskreten Zufallsgrößen
|Vorherige Seite=Weitere Quellencodierverfahren
|Nächste Seite=Verschiedene Entropien zweidimensionaler Zufallsgrößen
}}

==Einführungsbeispiel zur statistischen Abhängigkeit von Zufallsgrößen ==
Wir gehen vom Experiment „Würfeln mit zwei Würfeln” aus, wobei beide Würfel unterscheidbar sind. Die untere Tabelle zeigt als Ergebnis die ersten $N$ = 18 Wurfpaare dieses exemplarischen Zufallsexperiments:
*In Zeile 2 sind die Augenzahlen des roten Würfels ( $R$ ) angegeben. Der Mittelwert dieser begrenzten Folge $〈R_1, ... , R_{18}〉$ ist mit 3.39 etwas kleiner als der Erwartungswert E[R] = 3.5.
*Die Zeile 3 zeigt die Augenzahlen des blauen Würfels ( $B$ ). Die Folge $〈B_1, ... , B_{18}〉$ hat mit 3.61 einen etwas größeren Mittelwert als die unbegrenzte Folge ⇒ $\text{E}[B]$ = 3.5.
*Zeile 4 beinhaltet die Summe $S_ν = R_ν + B_ν$. Der Mittelwert der Folge $〈S_1, ... , S_{18}〉$ ist 3.39 + 3.61 = 7. Dieser ist hier (zufällig) gleich dem Erwartungswert $\text{E}[S] = \text{E}[R] + \text{E}[B]$.

''Hinweis'': Entsprechend der im nachfolgendem Abschnitt erklärten Nomenklatur sind hier $R_ν$, $B_ν$ und $S_ν$ als Zufallsgrößen zu verstehen. Die Zufallsgröße $R_3$ = {1, 2, 3, 4, 5, 6} gibt beispielsweise die Augenzahl des roten Würfels beim dritten Wurf als Wahrscheinlichkeitsereignis an. Die Angabe „ $R_3$ = 6” sagt aus, dass bei der dokumentierten Realisierung der rote Würfel im dritten Wurf eine „6” gezeigt hat.

[[File:P_ID2741__Inf_T_3_1_S1_neu.png|Ergebnisprotokoll unseres Zufallsexperiments „Würfeln mit zwei Würfeln”]]

Nun stellt sich die Frage, zwischen welchen Zufallsgrößen es statistische Abhängigkeiten gibt:
*Setzt man faire Würfel voraus, so bestehen zwischen den Folgen $〈R〉$ und $〈B〉$ – ob begrenzt oder unbegrenzt – keine statistischen Bindungen: Auch wenn man $R_ν$ kennt, sind für $B_ν$ weiterhin alle möglichen Augenzahlen 1, ... , 6 gleichwahrscheinlich.
*Kennt man aber $S_ν$, so sind sowohl Aussagen über $R_ν$ als auch über $B_ν$ möglich. Aus $S_{11}$ = 12 (siehe obige Tabelle) folgt direkt $R_{11}$ = $B_{11}$ = 6 und die Summe $S_{15}$ = 2 zweier Würfel ist nur mit zwei Einsen möglich. Solche Abhängigkeiten bezeichnet man als deterministisch.
*Aus $S_7$ = 10 lassen sich zumindest Bereiche für $R_7$ und $B_7$ angeben: $R_7$ ≥ 4, $B_7$ ≥ 4. Möglich sind dann nur die drei Wertepaare ( $R_7$ = 4 ) ∩ ( $B_7$ = 6 ), ( $R_7$ = 5 ) ∩ ( $B_7$ = 5 ) sowie ( $R_7$ = 6 ) ∩ ( $B_7$ = 4 ). Hier besteht zwar kein deterministischer Zusammenhang zwischen den Zufallsgrößen $S_ν$ und $R_ν$ (bzw. $B_ν$), aber eine so genannte statistische Abhängigkeit.
*Solche statistische Abhängigkeiten gibt es für alle $S_ν$ ∈ {3, 4, 5, 6, 8, 9, 10, 11}. Ist dagegen die Summe $S_ν$ = 7, so kann daraus nicht auf $R_ν$ und $B_ν$ zurückgeschlossen werden. Für beide Würfel sind dann alle möglichen Augenzahlen (1, ... , 6) gleichwahrscheinlich. In diesem Fall bestehen auch keine statistischen Bindungen zwischen $S_ν$ und $R_ν$ bzw. $S_ν$ und $B_ν$.

== Voraussetzungen und Nomenklatur ==
Im gesamten Kapitel 3 betrachten wir wertdiskrete Zufallsgrößen der Form

$$X = \{ x_1, x_2, \hspace{0.05cm}... \hspace{0.15cm}, x_{\mu},\hspace{0.05cm} ...\hspace{0.15cm}, x_M \} \hspace{0.05cm},$$

und verwenden folgende Nomenklatur:
*Die Zufallsgröße selbst wird stets mit einem Großbuchstaben bezeichnet, und der Kleinbuchstabe $x$ weist auf eine mögliche Realisierung der Zufallsgröße $X$ hin.
*Alle Realisierungen $x_μ$ (mit $μ$ = 1, ... , $M$) sind reellwertig. $M$ gibt den Symbolumfang (englisch: Symbol Set Size) von $X$ an. Anstelle von $M$ verwenden wir manchmal auch $|X|$.
Die Zufallsgröße $X$ kann zum Beispiel durch die Transformation $\Omega → X$ entstanden sein, wobei $\Omega$ für den Wahrscheinlichkeitsraum eines Zufallsexperiments steht. Die nachfolgende Grafik verdeutlicht eine solche Transformation:

$${\it \Omega} = \{ \omega_1, \omega_2, \omega_3, ... \hspace{0.15cm} \}
\hspace{0.25cm} \longmapsto \hspace{0.25cm}
X = \{ x_1, x_2, x_3, x_4\}
\subset \cal{R}\hspace{0.05cm}.$$

Jedes Zufallsereignis $ω_i ∈ Ω$ wird eindeutig einem reellen Zahlenwert $x_μ ∈ X ⊂ ℝ$ zugeordnet. Im betrachteten Beispiel gilt für die Laufvariable 1 ≤ $μ$ ≤ 4, das heißt, der Symbolumfang beträgt $M$ = $|X|$ = 4. Die Abbildung ist aber nicht eineindeutig: Die Realisierung $x_3 ∈ X$ könnte sich im Beispiel aus dem Elementarereignis $ω_4$ ergeben haben, aber auch aus $ω_6$ (oder aus einem anderen der unendlich vielen, in der Grafik nicht eingezeichneten Elementarereignisse $ω_i$).

[[File:P_ID2743__Inf_T_3_1_S2.png|Zusammenhang zwischen Wahrscheinlichkeitsraum und Zufallsgröße]]

Oft verzichtet man auf die Indizierung sowohl der Elementarereignisse $ω_i$ als auch der Realisierungen $x_μ$. Damit ergeben sich beispielsweise folgende Kurzschreibweisen:

$$ \{ X = x \}
\hspace{0.05cm} \equiv \hspace{0.05cm}
\{ \omega \in {\it \Omega} : \hspace{0.4cm} X(\omega) = x \}
\hspace{0.05cm},\\
\{ X \le x \}
\hspace{0.05cm} \equiv \hspace{0.05cm}
\{ \omega \in {\it \Omega} : \hspace{0.4cm} X(\omega) \le x \}
\hspace{0.05cm}.$$

Mit dieser Vereinbarung gilt für die Wahrscheinlichkeiten der diskreten Zufallsgröße:

$${\rm Pr}( X = x_{\mu}) = \hspace{-0.2cm} \sum_{\omega \hspace{0.1cm} \in \{ X = x_{\mu} \}}
\hspace{-0.2cm}{\rm Pr} \left ( \{ \omega \} \right )
\hspace{0.05cm}.$$

==Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsdichtefunktion==
{{Definition}}
Fasst man die $M$ Wahrscheinlichkeiten einer diskreten Zufallsgröße $X$ ⇒ Pr( $X$ = $x_μ$ ) ähnlich wie bei einem Vektor zusammen, so kommt man zur Wahrscheinlichkeitsfunktion (englisch: ''Probability Mass Function'', PMF):

$$P_X(X) = \left [ \hspace{0.1cm} P_X(x_1), P_X(x_2), \hspace{0.05cm}... \hspace{0.15cm}, P_X(x_{\mu}),\hspace{0.05cm} ...\hspace{0.15cm}, P_X(x_M) \hspace{0.1cm} \right ] \hspace{0.05cm}.$$

Das $μ$–te Element dieses „Vektors” gibt dabei die folgende Wahrscheinlichkeit an:

$$P_X(x_{\mu}) = {\rm Pr}( X = x_{\mu})
\hspace{0.05cm}.$$

{{end}}

Im Buch [[Stochastische Signaltheorie]] haben wir mit der [[Stochastische_Signaltheorie/Wahrscheinlichkeitsdichtefunktion_(WDF)#Definition_der_Wahrscheinlichkeitsdichtefunktion|Wahrscheinlichkeitsdichtefunktion]] (WDF, englisch: ''Probability Density Function'', PDF) eine ähnliche Beschreibungsgröße definiert und diese mit $f_X(x)$ bezeichnet.
Zu beachten ist aber:
*Die PDF eignet sich eher zur Charakterisierung kontinuierlicher Zufallsgrößen, wie zum Beispiel bei einer Gaußverteilung oder einer Gleichverteilung. Erst durch die Verwendung von Diracfunktionen wird die PDF auch für diskrete Zufallsgrößen anwendbar.
*Die PMF liefert weniger Information über die Zufallsgröße als die PDF und kann zudem nur für diskrete Größen angegeben werden. Für die wertdiskrete Informationstheorie ist sie ausreichend.

{{Beispiel}}
Wir betrachten eine Wahrscheinlichkeitsdichtefunktion (abgekürzt WDF bzw. PDF) ohne großen Praxisbezug:

$$f_X(x) = 0.2 \cdot (x+2) + 0.3 \cdot (x-1.5)+0.5 \cdot (x-{\rm \pi}) \hspace{0.05cm}. $$

Für die diskrete Zufallsgröße gilt somit $x ∈ X$ = {–2, +1.5, +π} ⇒ Symbolumfang $M$ = $|X|$ = 3, und die Wahrscheinlichkeitsfunktion (PMF) lautet:

$$P_X(X) = \left [ \hspace{0.1cm}0.2\hspace{0.05cm}, 0.3\hspace{0.05cm}, 0.5 \hspace{0.1cm} \right ] \hspace{0.05cm}. $$

Man erkennt:
*Die PMF liefert nur Informationen über die Wahrscheinlichkeiten $\text{Pr}(x_1)$, $\text{Pr}(x_2)$, $\text{Pr}(x_3)$. Aus der PDF sind dagegen auch die möglichen Realisierungen $x_1$, $x_2$, $x_3$ der Zufallsgröße $X$ ablesbar.
*Die einzige Voraussetzung für die Zufallsgröße ist, dass sie reellwertig ist. Die möglichen Werte $x_μ$ müssen weder positiv, ganzzahlig, äquidistant noch rational sein.

{{end}}

==Wahrscheinlichkeitsfunktion und Entropie==

In der wertdiskreten Informationstheorie genügt im Gegensatz zu übertragungstechnischen Problemen schon die Kenntnis der Wahrscheinlichkeitsfunktion PX(X), zum Beispiel zur Berechnung der [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Informationsgehalt_und_Entropie|Entropie]].

{{Definition}}
Die '''Entropie''' einer diskreten Zufallsgröße $X$ – also deren Unsicherheit für einen Beobachter – kann man mit der Wahrscheinlichkeitsfunktion $P_X(X)$ wie folgt darstellen:

$$H(X) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{P_X(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{M}
P_X(x_{\mu}) \cdot {\rm log} \hspace{0.1cm} \frac{1}{P_X(x_{\mu})} \hspace{0.05cm}.$$

Verwendet man den Logarithmus zur Basis 2, also $\log_2$ (...) = ld (...) ⇒ ''Logarithmus dualis'', so wird der Zahlenwert mit der Pseudo–Einheit „bit” versehen. E[...] gibt den ''Erwartungswert'' an.

{{end}}

Beispielsweise erhält man
*für PX(X) = [0.2, 0.3, 0.5]:

$$H(X) = 0.2 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.2} +
0.3 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.3}
+0.5 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{0.5}
\approx 1.485\,{\rm bit}\hspace{0.05cm},$$

*für PX(X) = [1/3, 1/3, 1/3]:

$$H(X) = 3 \cdot 1/3 \cdot {\rm log}_2 \hspace{0.1cm} (3) = {\rm log}_2 \hspace{0.1cm} (3)
\approx 1.585\,{\rm bit}\hspace{0.05cm}.$$

Das zweite Beispiel liefert das Maximum der Entropiefunktion für den Symbolumfang $M$ = 3. Für ein allgemeines $M$ lässt sich dieses Ergebnis beispielsweise wie folgt herleiten – siehe <ref>Mecking, M.: Information Theory. Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik, Technische Universität München, 2009.</ref>:

$$H(X) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{P_X(X)}\right ] \hspace{0.2cm} \le \hspace{0.2cm} {\rm log} \left [ {\rm E} \hspace{0.1cm} \left [\frac{1}{P_X(X)}\right ] \right ] \hspace{0.05cm}.$$

Diese Abschätzung (Jensens's Ungleichung) ist zulässig, da der Logarithmus eine konkave Funktion ist. Entsprechend [[Aufgaben:3.02_Erwartungswertberechnungen|Aufgabe A3.2]] gilt:

$${\rm E} \left [ \frac{1}{P_X(X)}\right ] \hspace{0.1cm} \le \hspace{0.1cm} M \hspace{0.3cm} \Rightarrow \hspace{0.3cm}
H(X) \le {\rm log} \hspace{0.1cm} (M) \hspace{0.05cm}.$$

Das Gleichheitszeichen ergibt sich nach der oberen Rechnung für gleiche Wahrscheinlichkeiten, also für $P_X(x_μ)$ = $\frac{1}{M}$ für alle $μ$. In der [[Aufgaben:3.03_Entropie_von_Ternärgrößen|Aufgabe A3.3]] soll der gleiche Sachverhalt unter Verwendung der Abschätzung

$${\rm ln} \hspace{0.1cm} (x) \le x-1$$

nachgewiesen werden. Das Gleichheitszeichen gilt nur für $x$ = 1.
Ist eine der $M$ Wahrscheinlichkeiten $P_X(x_μ)$ der Wahrscheinlichkeitsfunktion $P_X(X)$ gleich 0 ist, so lässt sich für die Entropie eine engere Schranke angeben:

$$H(X) \le {\rm log} \hspace{0.1cm} (M-1) \hspace{0.05cm}.$$

Für das folgende Beispiel und die nächsten Seiten vereinbaren wir die folgende Nomenklatur:
*Die Entropie $H(X)$ bezieht sich stets auf die tatsächliche Wahrscheinlichkeitsfunktion $P_X(X)$ der diskreten Zufallsgröße. Experimentell erhält man diese Größen erst nach $N → ∞$ Versuchen.
*Ermittelt man die Wahrscheinlichkeitsfunktion aus einer endlichen Zufallsfolge, so bezeichnen wir diese mit $Q_X(X)$ und die daraus resultierende Entropie versehen wir mit dem Zusatz „ $N$ = ...”.
*Diese Entropie–Näherung basiert nicht auf Wahrscheinlichkeiten, sondern nur auf den [[Stochastische_Signaltheorie/Wahrscheinlichkeit_und_relative_Häufigkeit#Bernoullisches_Gesetz_der_gro.C3.9Fen_Zahlen|relativen Häufigkeiten]]. Erst für $N → ∞$ stimmt diese Näherung mit $H(X)$ überein.

{{Beispiel}}
Kommen wir auf unser ''Würfel–Experiment'' zurück. Die nachfolgende Tabelle zeigt die Wahrscheinlichkeitsfunktionen $P_R(R)$ und $P_B(B)$ für den roten und den blauen Würfel sowie die Näherungen $Q_R(R)$ und $Q_B(B)$, jeweils basierend auf dem Zufallsexperiment mit $N$ = 18 Würfen. Die relativen Häufigkeiten $Q_R(R)$ und $Q_B(B)$ ergeben sich aus den beispielhaften Zufallsfolgen vom Beginn dieses Kapitels.

[[File:P_ID2744__Inf_T_3_1_S3_neu.png|Wahrscheinlichkeitsfunktionen unseres Würfelexperiments]]

Für die Zufallsgröße $R$ gilt mit dem Logarithmus dualis (zur Basis 2):

$$H(R) = H(R) \big |_{N \hspace{0.05cm}\rightarrow \hspace{0.05cm}\infty} = \sum_{\mu = 1}^{6} 1/6 \cdot {\rm log}_2 \hspace{0.1cm} (6) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\,{\rm bit} \hspace{0.05cm},$$

$$H(R) \big |_{N \hspace{0.05cm} = \hspace{0.05cm}18} = 2 \cdot \frac{2}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{2} \hspace{0.1cm} +\hspace{0.1cm} 2 \cdot \frac{3}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{3} \hspace{0.1cm} +\hspace{0.1cm} 2 \cdot \frac{4}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{4} \hspace{0.1cm}= 2.530\,{\rm bit} \hspace{0.05cm}.$$

Der blaue Würfel hat natürlich die gleiche Entropie: $H(B)$ = $H(R)$ = 2.585 bit. Hier erhält man für die auf $N$ = 18 basierende Näherung einen etwas größeren Wert, da nach obiger Tabelle $Q_B(B)$ von der diskreten ( $M$=6 )–Gleichverteilung $P_B(B)$ weniger abweicht als $Q_R(R)$ von $P_R(R)$.

$$H(B) \big |_{N \hspace{0.05cm} = \hspace{0.05cm}18} = 1 \cdot \frac{2}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{2} \hspace{0.1cm} +\hspace{0.1cm} 4 \cdot \frac{3}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{3} \hspace{0.1cm} +\hspace{0.1cm} 1 \cdot \frac{4}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{4} \hspace{0.1cm}= 2.558\,{\rm bit} \hspace{0.05cm}.$$

Man erkennt aus den angegebenen Zahlenwerten, dass trotz des eigentlich viel zu kleinen Experimentparameters $N$ die Verfälschungen hinsichtlich der Entropie nicht sehr groß sind.
Es soll nochmals erwähnt werden, dass bei endlichem $N$ stets gilt:

$$ H(R) \big |_{N } < H(R) = {\rm log}_2 \hspace{0.1cm} (6) \hspace{0.05cm}, \hspace{0.5cm}
H(B) \big |_{N } < H(B) = {\rm log}_2 \hspace{0.1cm} (6)\hspace{0.05cm}.$$

{{end}}

==Relative Entropie – Kullback–Leibler–Distanz ==
Wir betrachten die beiden Wahrscheinlichkeitsfunktionen $P_X(·)$ und $P_Y(·)$ über dem gleichen Alphabet $X$ = { $x_1$, $x_2$, ... , $x_M$ }, und definieren nun die '''relative Entropie''' (englisch: ''Informational Divergence'') zwischen diesen:

$$D(P_X \hspace{0.05cm} || \hspace{0.05cm}P_Y) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{P_X(X)}{P_Y(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{M}
P_X(x_{\mu}) \cdot {\rm log} \hspace{0.1cm} \frac{P_X(x_{\mu})}{P_Y(x_{\mu})} \hspace{0.05cm}.$$

Bei Verwendung des Logarithmus zur Basis 2 ist wieder die Pseudo–Einheit „bit” hinzuzufügen. Man bezeichnet D(PX || PY) auch als die '''Kullback–Leibler–Distanz''' (kurz KL–Distanz). Diese liefert ein Maß für die „Ähnlichkeit” zwischen den beiden Wahrscheinlichkeitsfunktionen $P_X(·)$ und $P_Y(·)$:
In ähnlicher Weise lässt sich auch eine zweite Variante der Kullback–Leibler–Distanz angeben:

$$D(P_Y \hspace{0.05cm} || \hspace{0.05cm}P_X) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{P_Y(X)}{P_X(X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{M}
P_Y(x_{\mu}) \cdot {\rm log} \hspace{0.1cm} \frac{P_Y(x_{\mu})}{P_X(x_{\mu})} \hspace{0.05cm}.$$

Gegenüber der ersten Variante ist jede Funktion $P_X(·)$ durch $P_Y(·)$ ersetzt und umgekehrt. Da sich im allgemeinen $D(P_X || P_Y)$ und $D(P_Y || P_X)$ unterscheiden, ist der Begriff „Distanz” eigentlich irreführend. Wir wollen es aber bei dieser Namensgebung belassen.
Wertet man die beiden obigen Gleichungen aus, so erkennt man folgende Eigenschaften:
*Liegt genau die gleiche Verteilung vor ⇒ $P_Y(·) ≡ P_X(·)$, so ist $D(P_X || P_Y)$ = 0. In allen anderen Fällen ist $D(P_X || P_Y)$ > 0. Gleiches gilt für die zweite Variante $D(P_Y || P_X)$.
*Gilt $P_X(x_μ)$ ≠ 0 und $P_Y(x_μ)$ = 0 (es genügt ein einziges und ein beliebiges $μ$), so ergibt sich für die Kullback–Leibler–Distanz $D(P_X || P_Y)$ ein unendlich großer Wert.
*In diesem Fall ist $D(P_Y || P_X)$ nicht notwendigerweise ebenfalls unendlich. Diese Aussage macht nochmals deutlich, dass im allgemeinen $D(P_X || P_Y)$ ungleich $D(P_Y || P_X)$ sein wird.
Auf der nächsten Seite werden diese beiden Definitionen an unserem Standardbeispiel ''Würfel–Experiment'' verdeutlicht. Gleichzeitig verweisen wir auf folgende Aufgaben:

[[Aufgaben:3.04_KLD_%26_Binominalverteilung|A3.4: Kullback–Leibler–Distanz zur Binomialverteilung]]
[[Aufgaben:3.04Z_Nochmals_KL–Distanz|Z3.4: Nochmals Kullback–Leibler–Distanz]]
[[Aufgaben:3.05_Partitionierungsungleichung|A3.5: Partitionierungsungleichung]]

{{Beispiel}}
Für unser Würfel–Experiment haben wir folgende Wahrscheinlichkeitsfunktionen $P_R(·)$ und $P_B(·)$ sowie deren Näherungen $Q_R(·)$ und $Q_B(·)$ definiert. Die Zufallsgröße $R$ bezeichnet hierbei die Augenzahl des roten Würfels und $B$ die Augenzahl des blauen Würfels. Die Näherungen $Q_R(·)$ und $Q_B(·)$ ergeben sich aus dem früher beschriebenen Experiment mit lediglich $N$ = 18 Doppelwürfen.

[[File:P_ID2745__Inf_T_3_1_S3_neu.png|Wahrscheinlichkeitsfunktionen unseres Würfelexperiments]]

*Da die Wahrscheinlichkeitsfunktionen $P_R(·)$ und $P_B(·)$ identisch sind, erhält man für die oben definierten Kullback–Leibler–Distanzen $D(P_R || P_B)$ und $D(P_B || P_R)$ jeweils 0.
*Der Vergleich von $P_R(·)$, $Q_R(·)$ ergibt für die erste Variante der Kullback–Leibler–Distanz

$$\begin{align*}D(P_R \hspace{0.05cm}|| \hspace{0.05cm} Q_R) \hspace{-0.15cm} & = \hspace{-0.15cm}
{\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_R(\cdot)}{Q_R(\cdot)}\right ]
\hspace{0.1cm} = \sum_{\mu = 1}^{6}
P_R(r_{\mu}) \cdot {\rm log} \hspace{0.1cm} \frac{P_R(r_{\mu})}{Q_R(r_{\mu})} \hspace{0.05cm} = \\
\hspace{-0.15cm} & = \hspace{-0.15cm}\frac{1}{6} \cdot \left [
2 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1/6}{2/18} \hspace{0.1cm} +
2 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1/6}{3/18} \hspace{0.1cm} +
2 \cdot {\rm log}_2 \hspace{0.1cm} \frac{1/6}{4/18} \hspace{0.1cm}
\right ] =\\
\hspace{-0.15cm} & = \hspace{-0.15cm} 1/6 \cdot \big [
2 \cdot 0.585 + 2 \cdot 0 - 2 \cdot 0.415 \big ] \approx 0.0570\,{\rm bit} \hspace{0.05cm}.\end{align*}$$

Hierbei wurde bei der vorzunehmenden Erwartungswertbildung die Tatsache ausgenutzt, dass wegen $P_R(r_1)$ = ... = $P_R(r_6)$ der Faktor 1/6 ausgeklammert werden kann. Da hier der Logarithmus zur Basis 2 verwendet wurde, ist die Pseudo–Einheit „bit” angefügt.
*Für die zweite Variante der Kullback–Leibler–Distanz ergibt sich ein etwas anderer Wert:

$$\begin{align*}D(Q_R \hspace{0.05cm}|| \hspace{0.05cm} P_R) \hspace{-0.15cm} & = \hspace{-0.15cm}
{\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{Q_R(\cdot)}{P_R(\cdot)}\right ]
\hspace{0.1cm} = \sum_{\mu = 1}^{6}
Q_R(r_{\mu}) \cdot {\rm log} \hspace{0.1cm} \frac{Q_R(r_{\mu})}{P_R(r_{\mu})} \hspace{0.05cm} = \\
\hspace{-0.15cm} & = \hspace{-0.15cm}2 \cdot \frac{2}{18} \cdot {\rm log}_2 \hspace{0.1cm} \frac{2/18}{1/6} \hspace{0.1cm} +
2 \cdot \frac{3}{18} \cdot {\rm log}_2 \hspace{0.1cm} \frac{3/18}{1/6} \hspace{0.1cm} +
2 \cdot \frac{4}{18} \cdot {\rm log}_2 \hspace{0.1cm} \frac{4/18}{1/6}
=\\
& = \hspace{-0.15cm}
4/18 \cdot (-0.585) + 3/18 \cdot 0 +8/18 \cdot 0.415 \approx 0.0544\,{\rm bit} \hspace{0.05cm}.\end{align*}$$

*Für den blauen Würfel erhält man $D(P_B || Q_B)$ ≈ 0.0283 bit und $D(Q_B || P_B)$ ≈ 0.0271 bit, also etwas kleinere KL–Distanzen, da sich die Approximation $Q_B(·)$ von $P_B(·)$ weniger unterscheidet als $Q_R(·)$ von $P_R(·)$.
*Vergleicht man die Häufigkeiten $Q_R(·)$ und $Q_B(·)$, so erhält man $D(Q_R || Q_B)$ ≈ 0.0597 bit und $D(Q_B || Q_R)$ ≈ 0.0608 bit. Hier sind die Distanzen am größten, da die Unterschiede zwischen $Q_B$ und $Q_R$ größer sind als zwischen $Q_R$ und $P_R $oder zwischen $Q_B$ und $P_B$.

{{end}}

==Verbundwahrscheinlichkeit und Verbundentropie ==
Für den Rest von Kapitel 3 betrachten wir stets zwei diskrete Zufallsgrößen $X$ = { $x_1$, $x_2$, ... , $x_M$ } und $Y$ = { $y_1$, $y_2$, ... , $y_K$ }, deren Wertebereiche nicht notwendigerweise übereinstimmen müssen. Das heißt: $K ≠ M$ (in anderer Notation: $|Y| ≠ |X|$) ist durchaus erlaubt.
Die Wahrscheinlichkeitsfunktion hat somit eine $K × M$–Matrixform mit den Elementen

$$P_{XY}(X = x_{\mu}\hspace{0.05cm}, Y = y_{\kappa}) = {\rm Pr} \big [( X = x_{\mu})\hspace{0.05cm}\cap \hspace{0.05cm} (Y = y_{\kappa}) \big ] \hspace{0.05cm}.$$

Als Kurzschreibweise verwenden wir $P_{XY}(X, Y)$, wobei $XY$ als neue Zufallsgröße zu interpretieren ist, die sowohl die Eigenschaften von $X$ als auch diejenigen von $Y$ beinhaltet.

{{Definition}}
Die '''Verbundentropie''' (englisch: ''Joint Entropy'') lässt sich als ein Erwartungswert mit der 2D–Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$ wie folgt darstellen:

$$H(XY) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] = \sum_{\mu = 1}^{M} \hspace{0.1cm} \sum_{\kappa = 1}^{K} \hspace{0.1cm}
P_{XY}(x_{\mu}\hspace{0.05cm}, y_{\kappa}) \cdot {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(x_{\mu}\hspace{0.05cm}, y_{\kappa})} \hspace{0.05cm}.$$

{{end}}

Im Folgenden verwenden wir durchgehend den Logarithmus zur Basis 2 ⇒ $\log(x) → \log_2(x)$ = $\text{ld}(x)$ ⇒ Logarithmus dualis. Der Zahlenwert ist somit mit der Pseudo–Einheit „bit” zu versehen.
Allgemein kann für die Verbundentropie die folgende '''obere Schranke''' angegegeben werden:

$$H(XY) \le H(X) + H(Y) \hspace{0.05cm}.$$

Diese Ungleichung drückt folgenden Sachverhalt aus:
*Das Gleichheitszeichen gilt nur für den Sonderfall statistisch unabhängiger Zufallsgrößen, wie im Beispiel C im nächsten Abschnitt anhand der Zufallsgrößen $R$ und $B$ demonstriert wird. Hierbei bezeichnen $R$ und $B$ die Augenzahlen eines roten und eines blauen Würfels.
*Gibt es dagegen statistische Abhängigkeiten wie im Beispiel D zwischen den Zufallsgrößen $R$ und $S$ = $R + B$, so gilt in obiger Gleichung das „<”–Zeichen: $H(RS) < H(R) + H(S)$.

In den Beispielen wird auch gezeigt, in wie weit sich die Verbundentropien $H(RB)$ und $H(RS)$ ändern, wenn man beim Würfel–Experiment nicht unendlich viele Wurfpaare ermittelt, sondern lediglich $N$ = 18.

{{Beispiel}}
Wir kommen wieder auf das [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|Würfel–Experiment]] zurück: Die Zufallsgrößen sind die Augenzahlen des roten und des blauen Würfels: $R$ = {1, 2, 3, 4, 5, 6}, $B$ = {1, 2, 3, 4, 5, 6}.

[[File:P_ID2747__Inf_T_3_1_S5a.png|2D–PMF PRB und Näherung QRB]]

Die linke Grafik zeigt die Wahrscheinlichkeiten $P_{RB}(·)$, die sich für alle $μ$ = 1, ... , 6 und für alle $κ$ = 1, ... , 6 gleichermaßen zu 1/36 ergeben. Damit erhält man für die Verbundentropie:

$$H(RB) = H(RB) \big |_{N \hspace{0.05cm}\rightarrow \hspace{0.05cm}\infty} = {\rm log}_2 \hspace{0.1cm} (36) = 5.170\,{\rm bit} \hspace{0.05cm}.$$

Man erkennt aus obiger Grafik und der hier angegebenen Gleichung:
*Da $R$ und $B$ statistisch voneinander unabhängig sind, gilt $P_{RB}(R, B)$ = $P_R(R) · P_B(B)$.
*Die Verbundentropie ist die Summe der beiden Einzelentropien: $H(RB) = H(R) + H(B)$.
Die rechte Grafik zeigt die angenäherte 2D–Wahrscheinlichkeitsfunktion $Q_{RB}(·)$, basierend auf den nur $N$ = 18 Wurfpaaren unseres Experiments:
*Hier ergibt sich keine quadratische Form der Verbundwahrscheinlichkeit $Q_{RB}(·)$, und die daraus abgeleitete Verbundentropie ist deutlich kleiner als $H(RB)$:

$$H(RB) \big |_{N \hspace{0.05cm} = \hspace{0.05cm}18} = 16 \cdot \frac{1}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{1} \hspace{0.1cm} +\hspace{0.1cm} 1 \cdot \frac{2}{18}\cdot {\rm log}_2 \hspace{0.1cm} \frac{18}{2} \hspace{0.1cm}= 4.059\,{\rm bit} \hspace{0.05cm}.$$

{{end}}

{{Beispiel}}
Bei unserem Würfel–Experiment haben wir neben den beiden Zufallsgrößen $R$ (roter Würfel) und $B$ (blauer Würfel) auch die Summe $S$ = $R + B$ betrachtet. Die linke Grafik zeigt, dass $P_{RS}(·)$ nicht als Produkt von $P_R(·)$ und $P_S(·)$ geschrieben werden kann. Mit den Wahrscheinlichkeitsfunktionen

$$\begin{align*}P_R(R) \hspace{-0.15cm} & = \hspace{-0.15cm} \left [ \hspace{0.1cm} 1/6\hspace{0.05cm}, 1/6\hspace{0.05cm}, 1/6\hspace{0.05cm}, 1/6\hspace{0.05cm}, 1/6\hspace{0.05cm}, 1/6 \hspace{0.1cm} \right ] \hspace{0.05cm},\\
P_S(S) \hspace{-0.15cm} & = \hspace{-0.15cm} \left [ \hspace{0.1cm} 1/36\hspace{0.05cm},2/36\hspace{0.05cm}, 3/36\hspace{0.05cm}, 4/36\hspace{0.05cm}, 5/36\hspace{0.05cm}, 6/36\hspace{0.05cm}, 5/36\hspace{0.05cm}, 4/36\hspace{0.05cm}, 3/36\hspace{0.05cm}, 2/36\hspace{0.05cm}, 1/36\hspace{0.1cm} \right ] \hspace{0.05cm} \end{align*}$$

erhält man für die Entropien:

$$\begin{align*}H(R) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm log}_2 \hspace{0.1cm} (6) \approx 2.585\,{\rm bit} \hspace{0.05cm},\\
H(S) \hspace{-0.15cm} & = & \hspace{-0.15cm} 2 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.05cm} \frac{36}{1} \hspace{0.05cm} + 2 \cdot \frac{2}{36} \cdot {\rm log}_2 \hspace{0.05cm} \frac{36}{2} \hspace{0.05cm} + 2 \cdot \frac{3}{36} \cdot {\rm log}_2 \hspace{0.05cm} \frac{36}{3} \hspace{0.05cm} + 2 \cdot \frac{4}{36} \cdot {\rm log}_2 \hspace{0.05cm} \frac{36}{4} \hspace{0.05cm} +\\
& + \hspace{-0.15cm} 2 \cdot \frac{5}{36} \cdot {\rm log}_2 \hspace{0.05cm} \frac{36}{5}
+ 1 \cdot \frac{6}{36} \cdot {\rm log}_2 \hspace{0.05cm} \frac{36}{6} \approx 3.274\,{\rm bit} \hspace{0.05cm},
\\
H(RS) \hspace{-0.15cm} & = \hspace{-0.15cm} {\rm log}_2 \hspace{0.1cm} (36) \approx 5.170\,{\rm bit} \hspace{0.05cm}.\end{align*}$$

[[File:P_ID2748__Inf_T_3_1_S5b_neu.png|2D–PMF PRS und Näherung QRS]]

Aus diesen Zahlenwerten erkennt man:
*Aufgrund der statistischen Abhängigkeit zwischen dem roten Würfel und der Summe ist die Verbundentropie $H(RS)$ ≈ 5.170 bit kleiner als $H(R)$ + $H(S)$ ≈ 5.877 bit.
*Der Vergleich mit Beispiel C zeigt, dass $H(RS)$ gleich $H(RB)$ ist. Der Grund ist, dass bei Kenntnis von $R$ die Zufallsgrößen $B$ und $S$ genau die gleichen Informationen liefern.

Rechts dargestellt ist der Fall, dass die 2D–PMF aus nur $N$ = 18 Wurfpaaren empirisch ermittelt wurde ⇒ $Q_{RS}(·)$. Obwohl sich aufgrund des sehr kleinen $N$–Wertes ein völlig anderes Bild ergibt, liefert die Näherung für $H(RS)$ den exakt gleichen Wert wie die Näherung für $H(RB)$:

$$H(RS) \big |_{N \hspace{0.05cm} = \hspace{0.05cm}18} = H(RB) \big |_{N \hspace{0.05cm} = \hspace{0.05cm}18} = 4.059\,{\rm bit} \hspace{0.05cm}.$$

{{end}}

==Aufgaben zu Kapitel 3.1==

{{Display}}

Information Theory/Further Source Coding Methods

2017-02-05T18:02:17Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Entropiecodierung nach Huffman
|Nächste Seite=Einige Vorbemerkungen zu zweidimensionalen Zufallsgrößen
}}

==Der Shannon–Fano–Algorithmus==

Die Huffman–Codierung aus dem Jahr 1952 ist ein Sonderfall der '''Entropiecodierung'''. Dabei wird versucht, das Quellensymbol $q_μ$ durch ein Codesymbol $c_μ$ der Länge $L_μ$ darzustellen, wobei folgende Konstruktionsvorschrift angestrebt wird:

$$L_{\mu} \approx {\rm log}_2\hspace{0.15cm}({1}/{p_{\mu}})
\hspace{0.05cm}.$$

Da $L_μ$ im Gegensatz zu log2(1/ $p_μ$) ganzzahlig ist, gelingt dies nicht immer.
Bereits drei Jahre vor David A. Huffman haben [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] und [https://de.wikipedia.org/wiki/Robert_Fano Robert Fano] einen ähnlichen Algorithmus angegeben, nämlich:
#Man ordne die Quellensymbole nach fallenden Auftrittswahrscheinlichkeiten (identisch mit Huffman).
#Man teile die sortierten Zeichen in zwei möglichst gleichwahrscheinliche Gruppen.
#Der ersten Gruppe wird das Binärsymbol '''1''' zugeordnet, der zweiten die '''0''' (oder umgekehrt).
#Sind in einer Gruppe mehr als ein Zeichen, so ist auf diese der Algorithmus rekursiv anzuwenden.

{{Beispiel}}
Wir gehen wie im Einführungsbeispiel für den Huffman–Algorithmus zu Beginn von Kapitel 2.3 von $M$ = 6 Symbolen und den folgenden Wahrscheinlichkeiten aus:

$$p_{\rm A} = 0.30 \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = 0.24 \hspace{0.05cm},\hspace{0.2cm}p_{\rm C} = 0.20 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 0.12 \hspace{0.05cm},\hspace{0.2cm}p_{\rm E} = 0.10 \hspace{0.05cm},\hspace{0.2cm}p_{\rm F} = 0.04
\hspace{0.05cm}.$$

Dann lautet der Shannon–Fano–Algorithmus:
# '''AB → 1'''x (Wahrscheinlichkeit 0.54), '''CDEF → 0'''x (Wahrscheinlichkeit 0.46),
# '''A → 11''', '''B ⇒ 10''',
# '''C → 01''', (Wahrscheinlichkeit 0.20), '''DEF → 00'''x, (Wahrscheinlichkeit 0.26),
# '''D → D''', (Wahrscheinlichkeit 0.12), '''EF → 000'''x (Wahrscheinlichkeit 0.14),
# '''E → 0001''', '''F → 0000'''.

''Anmerkung'': Ein „x” weist wieder darauf hin, dass in nachfolgenden Codierschritten noch Bits hinzugefügt werden müssen.
Es ergibt sich hier zwar eine andere Zuordnung als bei der [[Informationstheorie/Entropiecodierung_nach_Huffman#Der_Huffman.E2.80.93Algorithmus|Huffman–Codierung]], aber genau die gleiche mittlere Codewortlänge:

$$L_{\rm M} = (0.30\hspace{-0.05cm}+\hspace{-0.05cm} 0.24\hspace{-0.05cm}+ \hspace{-0.05cm}0.20) \hspace{-0.05cm}\cdot\hspace{-0.05cm} 2 + 0.12\hspace{-0.05cm} \cdot \hspace{-0.05cm} 3 + (0.10\hspace{-0.05cm}+\hspace{-0.05cm}0.04) \hspace{-0.05cm}\cdot \hspace{-0.05cm}4 = 2.4\,{\rm bit/Quellensymbol}\hspace{0.05cm}.$$

{{end}}

Mit den Wahrscheinlichkeiten entsprechend dem Beispiel 1 (im letztem Abschnitt) der Shannon–Fano–Algorithmus zur gleichen mittleren Codewortlänge wie die Huffman–Codierung. Ebenso sind bei vielen (eigentlich: den meisten) anderen Wahrscheinlichkeitsprofilen Huffman und Shannon–Fano aus informationstheoretischer Sicht äquivalent. Es gibt aber durchaus Fälle, bei denen sich beide Verfahren hinsichtlich der (mittleren) Codewortlänge unterscheiden, wie das folgende Beispiel zeigt.

{{Beispiel}}
Wir betrachten $M$ = 5 Symbole mit folgenden Wahrscheinlichkeiten:

$$p_{\rm A} = 0.38 \hspace{0.05cm}, \hspace{0.2cm}p_{\rm B}= 0.18 \hspace{0.05cm}, \hspace{0.2cm}p_{\rm C}= 0.16 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D}= 0.15 \hspace{0.05cm}, \hspace{0.2cm}p_{\rm E}= 0.13$$

$$\Rightarrow\hspace{0.3cm} H = 2.19\,{\rm bit/Quellensymbol}
\hspace{0.05cm}. $$

[[File:P_ID2461__Inf_T_2_4_S1_ganz_neu.png|Baumstrukturen nach Shannon–Fano bzw. Huffman]]

Die Grafik zeigt die jeweiligen Codebäume für Shannon–Fano (links) bzw. Huffman (rechts). Die Ergebnisse lassen sich wie folgt zusammenfassen:
* Der '''Shannon–Fano–Algorithmus''' führt zum Code '''A → 11''', '''B → 10''', '''C → 01''', '''D → 001''', '''E → 000''' und damit zur mittleren Codewortlänge

$$L_{\rm M} = (0.38 + 0.18 + 0.16) \cdot 2 + (0.15 + 0.13) \cdot 3 = 2.28\,\,{\rm bit/Quellensymbol}\hspace{0.05cm}.$$

*Mit dem '''Huffman–Algorithmus''' erhält man '''A → 1''', '''B → 001''', '''C → 010''', '''D → 001''' sowie '''E → 000''' und eine etwas kleinere mittlere Codewortlänge:

$$L_{\rm M} = 0.38 \cdot 1 + (1-0.38) \cdot 3 = 2.24\,\,{\rm bit/Quellensymbol}\hspace{0.05cm}. $$

*Es gibt keinen Satz von Wahrscheinlichkeiten, bei denen Shannon–Fano ein besseres Ergebnis liefert als der Huffman–Algorithmus, der den bestmöglichen Entropiecodierer bereitstellt.
*Die Grafik zeigt zudem, dass die Algorithmen im Baumdiagramm in unterschiedlichen Richtungen vorgehen, nämlich einmal von der Wurzel zu den Einzelsymbolen (Shannon–Fano), zum anderen von den Einzelsymbolen zur Wurzel (Huffman).

{{end}}

==Arithmetische Codierung ==

Eine weitere Form der Entropiecodierung ist die arithmetische Codierung. Auch bei dieser müssen die Symbolwahrscheinlichkeiten $p_μ$ bekannt sein. Für den Index gelte weiter $μ$ = 1, ... , $M$.
Hier nun ein kurzer Abriss über die Vorgehensweise:
*Im Gegensatz zur Huffman– und Shannon–Fano–Codierung wird bei arithmetischer Codierung eine Symbolfolge der Länge N gemeinsam codiert. Wir schreiben abkürzend $Q = 〈q_1, q_2, ... , q_N〉$.
*Jeder solchen Symbolfolge $Q_i$ wird ein reelles Zahlenintervall $I_i$ zugewiesen, das durch den Beginn $B_i$ und die Intervallbreite $Δ_i$ gekennzeichnet ist.
*Der „Code” für die gesamte Folge $Q_i$ ist die Binärdarstellung eines reellen Zahlenwertes aus diesem Intervall: $r_i ∈ I_i = [B_i, B_i + Δ_i)$. Diese Notation besagt, dass zwar $B_i$ zum Intervall $I_i$ gehört (eckige Klammer), aber $B_i + Δ_i$ gerade nicht mehr (runde Klammer).
*Es gilt stets 0 ≤ $r_i$ < 1. Sinnvollerweise wählt man $r_i$ aus dem Intervall $I_i$ derart, dass der Wert mit möglichst wenigen Bits darstellbar ist. Es gibt aber eine Mindestbitanzahl, die von der Intervallbreite $Δ_i$ abhängt.

Der Algorithmus zur Bestimmung der Intervallparameter $B_i$ und $Δ_i$ wird auf der nächsten Seite an einem Beispiel erläutert, ebenso eine Decodiermöglichkeit. Zunächst folgt ein kurzes Beispiel zur Auswahl der reellen Zahl $r_i$ in Hinblick auf minimale Bitanzahl. Genauere Informationen hierzu finden Sie zum Beispiel in <ref> Bodden, E.; Clasen, M.; Kneis, J.: ''Algebraische Kodierung''. Proseminar, Lehrstuhl für Informatik IV, RWTH Aachen, 2002.</ref> und bei der Beschreibung zur Aufgabe A1.12.

{{Beispiel}}
Für folgende Parameter des arithmetischen Codieralgorithmus ergeben sich folgende reelle Ergebnisse $r_i$ und folgende Codes, die zum zugehörigen Intervall $I_i$ gehören:
* $B_i = 0.25, Δ_i = 0.10 ⇒ I_i = [0.25, 0.35):$

$$r_i = 0 \cdot 2^{-1} + 1 \cdot 2^{-2} = 0.25 \hspace{0.3cm}\Rightarrow\hspace{0.3cm}
{\rm Code} \hspace{0.15cm} \boldsymbol{{\rm 01}} \in I_i
\hspace{0.05cm},$$

* $B_i = 0.65, Δ_i = 0.10 ⇒ I_i = [0.65, 0.75);$ zu beachten: 0.75 gehört nicht zum Intervall:

$$r_i = 1 \cdot 2^{-1} + 0 \cdot 2^{-2} + 1 \cdot 2^{-3} + 1 \cdot 2^{-4} = 0.6875 \hspace{0.3cm}\Rightarrow\hspace{0.3cm}
{\rm Code} \hspace{0.15cm} \boldsymbol{{\rm 1011}} \in I_i\hspace{0.05cm}. $$

Um den sequentiellen Ablauf zu organisieren, wählt man allerdings die Bitanzahl konstant zu

$$N_{\rm Bit} = \left\lceil {\rm log}_2 \hspace{0.15cm} ({1}/{\it \Delta_i})\right\rceil+1\hspace{0.05cm}. $$

Mit der Intervallbreite $Δ_i$ = 0.10 ergibt sich $N_{\rm Bit}$ = 5. Die tatsächlichen arithmetischen Codes wären also '''01000''' bzw. '''10110'''.

{{end}}

Die Aussagen der letzten Seite sollen nun an einem weiteren Beispiel verdeutlicht werden. Im Folgenden sei der Symbolumfang $M$ = 3. Um Verwechslungen zu vermeiden, nennen wir die Symbole '''X''', '''Y''' und '''Z''':
*Übertragen werden soll die Zeichenfolge '''XXYXZ''' ⇒ Folgenlänge $N$ = 5.
*Auszugehen ist von den Wahrscheinlichkeiten $p_X$ = 0.6, $p_Y$ = 0.2, $p_Z$ = 0.2.

[[File:P_ID2467__Inf_T_2_4_S2_neu.png|Zum arithmetischen Codieralgorithmus]]

Die Grafik zeigt den Algorithmus zur Bestimmung der Intervallgrenzen.
*Man teilt zunächst den gesamten Wahrscheinlichkeitsbereich (zwischen 0 und 1) gemäß den Symbolwahrscheinlichkeiten $p_X$, $p_Y$ und $p_Z$ in drei Bereiche mit den Grenzen $B_0$, $C_0$, $D_0$ und $E_0$.
*Das erste Symbol ist '''X'''. Deshalb wird im nächsten Schritt der Wahrscheinlichkeitsbereich von $B_1$ = $B_0$ = 0 bis $E_1$ = $C_0$ = 0.6 wiederum im Verhältnis 0.6 : 0.2 : 0.2 aufgeteilt.
*Nach dem zweiten Symbol '''X''' liegen die Bereichsgrenzen bei $B_2$ = 0, $C_2$ = 0.216, $D_2$ = 0.288 und $E_2$ = 0.36. Da nun das Symbol '''Y''' ansteht, erfolgt die Unterteilung des Bereiches 0.216 ... 0.288.
*Nach dem fünften Symbol '''Z''' liegt das Intervall $I_i$ für die betrachtete Symbolfolge $Q_i$ = '''XXYXZ''' fest. Es muss nun eine reelle Zahl $r_i$ gefunden werden, für die gilt: 0.25056 ≤ $r_i$ < 0.2592.
*Die einzige reelle Zahl im Intervall $I_i$ = [0.25056, 0.2592), die man mit 7 Bit darstellen kann, ist $r_i = 1 · 2^{–2} + 1 · 2^{–7} = 0.2578125$. Damit liegt die Coderausgabe fest: '''0100001'''.

Für diese $N$ = 5 Symbole werden also 7 Bit benötigt, genau so viele wie bei Huffman–Codierung mit der Zuordnung '''X → 1''', '''Y → 00''', '''Z → 01'''. Die arithmetische Codierung ist allerdings dann dem Huffman–Code überlegen, wenn die tatsächlich bei Huffman verwendete Bitanzahl noch mehr von der optimalen Verteilung abweicht, zum Beispiel, wenn ein Zeichen extrem häufig vorkommt.
Oft wird aber die Intervallmitte – im Beispiel 0.25488 – binär dargestellt: 0.01000010011 .... Die Bitanzahl erhält man daraus mit $Δ_5$ = 0.2592 - 0.25056 = 0.00864 wie folgt:

$$N_{\rm Bit} = \left\lceil {\rm log}_2 \hspace{0.15cm} \frac{1}{0.00864} \right\rceil + 1\hspace{0.15cm} =
\left\lceil {\rm log}_2 \hspace{0.15cm} 115.7 \right\rceil + 1 = 8
\hspace{0.05cm}.$$

Damit lautet der arithmetische Code für dieses Beispiel mit $N$ = 5 Eingangszeichen: '''01000010'''.
Der Decodiervorgang lässt sich ebenfalls anhand der obigen Grafik erklären. Die ankommende Bitsequenz '''0100001''' wird zu $r$ = 0.2578125 gewandelt. Dieser liegt im ersten und zweiten Schritt jeweils im ersten Bereich ⇒ Symbol '''X''', im dritten Schritt in zweiten Bereich ⇒ Symbol '''Y''', usw.
Weitere Informationen zu diesem Thema finden Sie in [https://de.wikipedia.org/wiki/Arithmetisches_Kodieren WIKIPEDIA ]sowie in <ref>Bodden, E.; Clasen, M.; Kneis, J.: ''Algebraische Kodierung''.
Proseminar, Lehrstuhl für Informatik IV, RWTH Aachen, 2002.</ref>.

==Lauflängencodierung – Run–Length Coding ==

Wir betrachten eine Binärquelle $(M = 2)$ mit dem Symbolvorrat {'''A''', '''B'''}, wobei ein Symbol sehr viel häufiger auftritt als das andere. Beispielsweise sei $p_A$ sehr viel größer als $p_B$.

Eine Entropiecodierung macht hier nur dann Sinn, wenn man diese auf k–Tupel anwendet. Eine zweite Möglichkeit bietet die '''Lauflängencodierung''' (englisch: ''Run–Length Coding'', RLC), die das seltenere Zeichen '''B''' als Trennzeichen betrachtet und die Längen $L_i$ der einzelnen Substrings als Ergebnis liefert.

{{Beispiel}}
Die Grafik zeigt eine beispielhafte Binärfolge mit den Wahrscheinlichkeiten $p_A$ = 0.9 und $p_B$ = 0.1, woraus sich die Quellenentropie $H$ = 0.469 bit/Quellensymbol ergibt. Die Beispielfolge der Länge $N$ = 100 beinhaltet genau zehnmal das Symbol '''B''' und neunzigmal das Symbol '''A''', das heißt, die relativen Häufigkeiten stimmen exakt mit den Wahrscheinlichkeiten überein.

[[File:P_ID2470__Inf_T_2_4_S4_neu.png|Zur Verdeutlichung der Lauflängencodierung]]

Man erkennt an diesem Beispiel:
*Die Binärfolge hat die Länge $N$ = 100. Die Lauflängencodierung dieser Folge ergibt in Dezimalschreibweise die Folge 6, 14, 26, 11, 4, 10, 3, 9, 1, 16.
*Stellt man die Längen $L_1$, ... , $L_{10}$ mit jeweils 5 Bit dar, so benötigt man 5 · 10 = 50 Bit. Die Datenkomprimierung ist nicht viel schlechter als der theoretische Grenzwert, der sich durch die Quellenentropie $H$ ergibt ($H · N$ ≈ 47 Bit).
*Die direkte Anwendung einer Entropiecodierung – zum Beispiel nach Huffman – hätte hier keine Datenkomprimierung zur Folge; man benötigt weiterhin 100 Bit. Auch bei der Bildung von Dreiertupeln würde man mit Huffman noch mehr Bit benötigen als durch RLC, nämlich 54 Bit.

{{end}}

Das Beispiel zeigt aber auch zwei Probleme der Lauflängencodierung:
*Die Längen $L_i$ der Substrings sind nicht begrenzt. Hier muss man besondere Maßnahmen treffen, wenn eine Länge $L_i$ größer ist als $2^5 = 32$ (falls $N_{Bit}$ = 5), zum Beispiel die Variante ''Run–Length Limited Coding'' (RLLC). Siehe auch <ref>Mecking, M.: Information Theory. ''Vorlesungsmanuskript, Lehrstuhl für Nachrichtentechnik'', Technische Universität München, 2009.</ref> und [[Aufgaben:2.13_Run–Length_Coding_und_RLLC|Aufgabe A2.13]].
*Endet die Folge nicht mit einem '''B''' – was bei kleiner Wahrscheinlichkeit $p_B$ eher der Normalfall ist, so muss auch für das Dateiende eine Sonderbehandlung vorgesehen werden.

==Burrows–Wheeler–Transformation==

Zum Abschluss dieses Quellencodier–Kapitels behandeln wir noch kurz den 1994 von Michael Burrows und [https://de.wikipedia.org/wiki/David_Wheeler David J. Wheeler] veröffentlichten Algorithmus <ref>Burrows, M.; Wheeler, D.J.: ''A Block-sorting Lossless Data Compression Algorithm.'' Technical Report. Digital Equipment Corporation Communications, Palo Alto, 1994.</ref>,
*der zwar alleine keinerlei Komprimierungspotenzial besitzt,
*aber die Komprimierungsfähigkeit anderer Verfahren stark verbessert.

Die Burrows–Wheeler–Transformation bewerkstelligt eine blockweise Sortierung von Daten, die in der folgenden Grafik am Beispiel des Textes '''ANNAS_ANANAS''' der Länge $N$ = 12 verdeutlicht werden:

[[File:P_ID2475__Inf_T_2_4_S3_neu.png|Beispiel zur BWT (Hintransformation)]]

*Zunächst wird aus dem String der Länge $N$ eine $N×N$–Matrix erzeugt, wobei sich jede Zeile aus der Vorgängerzeile durch zyklische Linksverschiebung ergibt.
*Danach wird die BWT–Matrix lexikografisch sortiert. Das Ergebnis der Transformation ist die letzte Spalte ⇒ L–Spalte. Im Beispiel ergibt sich der String _'''NSNNAANAAAS'''.
*Des Weiteren muss auch der Primärindex I weitergegeben werden. Dieser gibt die Zeile der sortierten BWT–Matrix an, die den Originaltext enthält (in der Grafik rot markiert).

Zur Bestimmung von L–Spalte und Primärindex $I$ sind natürlich keine Matrixoperationen erforderlich. Vielmehr findet man das BWT–Ergebnis mit Zeigertechnik sehr schnell.
Außerdem ist zum BWT–Verfahren noch anzumerken:
*Ohne Zusatzmaßnahme ⇒ eine nachgeschaltete „echte Kompression” – führt die BWT zu keiner Datenkomprimierung: Vielmehr ergibt sich sogar eine geringfügige Erhöhung der Datenmenge, da außer den $N$ Zeichen nun auch der Primärindex $I$ übermittelt werden muss.
*Bei längeren Texten ist dieser Effekt aber vernachlässigbar. Geht man von 8 Bit–ASCII–Zeichen (jeweils ein Byte) und der Blocklänge $N$ = 256 aus, so erhöht sich die Byte–Anzahl pro Block nur von 256 auf 257, also lediglich um 0.4%.

Wir verweisen auf die ausführlichen Beschreibungen zur BWT in <ref>Abel, J.: ''Grundlagen des Burrows-Wheeler-Kompressionsalgorithmus''. PDF–Internetdokument</ref>.

Abschließend soll noch dargestellt werden, wie der Ursprungstext aus der L–Spalte der BWT–Matrix rekonstruiert werden kann. Dazu benötigt man noch den Primärindex $I$, sowie die erste Spalte der BWT–Matrix. Diese F–Spalte (von „First”) muss nicht übertragen werden, sondern ergibt sich aus der L–Spalte sehr einfach durch lexikografische Sortierung.

[[File: P_ID2476__Inf_T_2_4_S3b_neu.png|Beispiel zur BWT (Rücktransformation)]]

Die Grafik zeigt die Vorgehensweise für das betrachtete Beispiel:
*Man beginnt in der Zeile mit dem Primärindex $I$. Als erstes Zeichen wird das rot markierte '''A''' in der F–Spalte ausgegeben. Dieser Schritt ist in der Grafik mit einer gelben (1) gekennzeichnet.
*Dieses '''A''' ist das dritte '''A'''–Zeichen in der F–Spalte. Man sucht nun das dritte '''A''' in der L–Spalte, findet dieses in der mit (2) markierten Zeile und gibt das zugehörige '''N''' der F–Spalte aus.
*Das letzte '''N''' der L–Spalte findet man in der mit (3) gekennzeichneten Zeile. Ausgegeben wird das Zeichen der F–Spalte in der gleichen Zeile, also wieder ein '''N''':

Nach $N$ = 12 Decodierschritten ist die Rekonstruktion abgeschlossen. Dieses Beispiel hat gezeigt, dass die BWT nichts anderes ist als ein Sortieralgorithmus für Texte.
Das Besondere daran ist, dass die Sortierung eindeutig umkehrbar ist. Diese Eigenschaft und zusätzlich seine innere Struktur sind die Grundlage dafür, dass man das BWT–Ergebnis mittels bekannter und effizienter Verfahren wie Huffman (eine Form der Entropiecodierung) und [[Informationstheorie/Weitere_Quellencodierverfahren#Laufl.C3.A4ngencodierung_.E2.80.93_Run.E2.80.93Length_Coding|RLC ]](''Run–Length Coding'') komprimieren kann.

==Anwendungsszenario für BWT==

Als Beispiel für die Einbettung der [[Informationstheorie/Weitere_Quellencodierverfahren#Burrows.E2.80.93Wheeler.E2.80.93Transformation|Burrows–Wheeler–Transformation]] (BWT) in eine Kette von Quellencodierverfahren wählen wir eine in <ref>Abel, J.: ''Verlustlose Datenkompression auf Grundlage der Burrows-Wheeler-Transformation.''
PDF–Internetdokument</ref> vorgeschlagene Struktur:

[[File:P_ID2477__Inf_T_2_4_S5_neu.png|Schema für die Burrows–Wheeler–Datenkompression]]

Wir verwenden dabei das gleiche Textbeispiel '''ANNAS_ANANAS''' wie auf der letzten Seite. Die entsprechenden Strings nach den einzelnen Blöcken sind in der Grafik ebenfalls angegeben.
*Das Ergebnis der '''BWT''' lautet: '''_NSNNAANAAAS'''. An der Textlänge $N$ = 12 hat die BWT nichts verändert, doch gibt es jetzt vier Zeichen, die identisch mit ihren Vorgängerzeichen sind (in der Grafik rot hervorgehoben). Im Originaltext war dies nur einmal der Fall.
*Im nächsten Block '''MTF''' (''Move–To–Front'') wird aus jedem Eingangszeichen aus der Menge {'''A, N, S, _'''} ein Index $I$ ∈ {'''0, 1, 2, 3'''}. Es handelt sich hierbei aber nicht um ein einfaches Mapping, sondern um einen Algorithmus, der in [[Aufgaben:2.14Z_Kombination_BWT_%26_MTF|Aufgabe Z1.14]] angegeben ist.
*Für unser Beispiel lautet die MTF–Ausgangsfolge '''323303011002''', ebenfalls mit der Länge $N$ = 12. Die vier Nullen in der MTF–Folge (in der Grafik ebenfalls mit roter Schrift) geben an, dass an diesen Stellen das BWT–Zeichen jeweils gleich ist wie sein Vorgänger.
*Bei großen ASCII–Dateien kann die Häufigkeit der '''0''' durchaus >50% betragen, während die anderen 255 Indizes nur selten auftreten. Zur Komprimierung einer solchen Textstruktur eignet sich eine Lauflängencodierung (englisch: ''Run–Length Coding'', RLC) hervorragend.
*Der Block '''RLC0''' in obiger Codierungskette bezeichnet eine spezielle [[Informationstheorie/Weitere_Quellencodierverfahren#Laufl.C3.A4ngencodierung_.E2.80.93_Run.E2.80.93Length_Coding|Lauflängencodierung]] für Nullen. Die graue Schattierung der Nullen soll andeuten, dass hier eine lange Nullsequenz durch eine spezifische Bitfolge (kürzer als die Nullsequenz) maskiert wurde.
*Der Entropiecodierer ( '''EC''', z.B. Huffman ) sorgt für eine weitere Komprimierung. BWT und MTF haben in der Codierungskette nur die Aufgabe, durch eine Zeichenvorverarbeitung die Effizienz von RLC0 und EC zu steigern. Die Ausgangsdatei ist wieder binär.

==Quellenverzeichnis==
<references />

==Aufgaben zu Kapitel 2.4 ==

{{Display}}

Information Theory/Entropy Coding According to Huffman

2017-02-05T17:52:38Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Komprimierung nach Lempel, Ziv und Welch
|Nächste Seite=Weitere Quellencodierverfahren
}}

==Der Huffman–Algorithmus==

Wir setzen nun voraus, dass die Quellensymbole qν einem Alphabet $\{q_μ\}$ = {'''A''', '''B''', '''C''', ...} mit dem Symbolumfang M entstammen und statistisch voneinander unabhängig seien.
Beispielsweise gelte für den Symbolumfang $M$ = 8:

$$\{ \hspace{0.05cm}q_{\mu} \} = \{ \boldsymbol{\rm A} \hspace{0.05cm}, \boldsymbol{\rm B}\hspace{0.05cm}, \boldsymbol{\rm C}\hspace{0.05cm}, \boldsymbol{\rm D}\hspace{0.05cm}, \boldsymbol{\rm E}\hspace{0.05cm}, \boldsymbol{\rm F}\hspace{0.05cm}, \boldsymbol{\rm G}\hspace{0.05cm}, \boldsymbol{\rm H}\hspace{0.05cm}
\}\hspace{0.05cm}.$$

[https://de.wikipedia.org/wiki/David_A._Huffman David A. Huffman] hat 1952 – also kurz nach Shannons bahnbrechenden Veröffentlichungen – einen Algorithmus zur Konstruktion von optimalen präfixfreien Codes angegeben.
Dieser ''Huffman–Algorithmus'' soll hier ohne Herleitung und Beweis angegeben werden, wobei wir uns hier auf Binärcodes beschränken. Das heißt: Für die Codesymbole gelte stets $c_ν$ ∈ {'''0''', '''1'''}. Hier ist das Rezept:
*Man ordne die Symbole nach fallenden Auftrittswahrscheinlichkeiten.
*Man fasse die zwei unwahrscheinlichsten Symbole zu einem neuen Symbol zusammen.
*Man wiederhole (1) und (2), bis nur mehr zwei (zusammengefasste) Symbole übrig bleiben.
*Man codiert die wahrscheinlichere Symbolmenge mit '''1''' und die andere Menge mit '''0'''.
*Man ergänzt in Gegenrichtung (also von unten nach oben) die jeweiligen Binärcodes der aufgespaltenen Teilmengen entsprechend den Wahrscheinlichkeiten mit '''1''' bzw. '''0'''.

{{Beispiel}}
Ohne Einschränkung der Allgemeingültigkeit setzen wir voraus, dass die $M$ = 6 Symbole '''A''', ... , '''F''' bereits entsprechend ihren Wahrscheinlichkeiten geordnet sind:

$$p_{\rm A} = 0.30 \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = 0.24 \hspace{0.05cm},\hspace{0.2cm}p_{\rm C} = 0.20 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 0.12 \hspace{0.05cm},\hspace{0.2cm}p_{\rm E} = 0.10 \hspace{0.05cm},\hspace{0.2cm}p_{\rm F} = 0.04
\hspace{0.05cm}.$$

Durch paarweises Zusammenfassen und anschießendem Sortieren erhält man in fünf Schritten die folgenden Symbolkombinationen (resultierende Wahrscheinlichkeiten in Klammern):
:1. '''A''' (0.30), '''B''' (0.24), '''C''' (0.20), '''EF''' (0.14), '''D''' (0.12),
:2. '''A''' (0.30), '''EFD''' (0.26), '''B''' (0.24), '''C''' (0.20),
:3. '''BC''' (0.44), '''A''' (0.30), '''EFD''' (0.26),
:4. '''AEFD''' (0.56), '''BC''' (0.44),
:5. Root '''AEFDBC''' (1.00).
Rückwärts (gemäß den Schritten 5 bis 1) erfolgt dann die Zuordnung zu Binärsymbolen. Ein „x” weist darauf hin, dass in den nächsten Schritten noch Bits hinzugefügt werden müssen:
:5. '''AEFD → 1'''x, '''BC → 0'''x,
:4. '''A → 11''', '''EFD → 10'''x,
:3. '''B → 01''', '''C → 00''',
:2. '''EF → 101'''x, '''D → 100''',
:1. '''E → 1011''', '''F → 1010'''.
Die Unterstreichungen markieren die endgültige Binärcodierung.

{{end}}

==Zum Begriff „Entropiecodierung”==

Wir gehen weiterhin von den Wahrscheinlichkeiten und Zuordnungen des letzten Beispiels aus:

$$p_{\rm A} = 0.30 \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = 0.24 \hspace{0.05cm},\hspace{0.2cm}p_{\rm C} = 0.20 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 0.12 \hspace{0.05cm},\hspace{0.2cm}p_{\rm E} = 0.10 \hspace{0.05cm},\hspace{0.2cm}p_{\rm F} = 0.04
\hspace{0.05cm};$$

$$\boldsymbol{\rm A} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 11} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm B} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 01} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm C} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 00} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm D} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 100} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm E} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 1011} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm F} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 1010} \hspace{0.05cm}.$$

Von den sechs Quellensymbolen werden also drei mit je zwei Bit, eines mit drei Bit und zwei Symbole ( '''E''' und '''F''' ) mit vier Bit codiert. Die mittlere Codewortlänge ergibt sich damit zu

$$L_{\rm M} = (0.30 \hspace{-0.05cm}+ \hspace{-0.05cm}0.24 \hspace{-0.05cm}+ \hspace{-0.05cm} 0.20) \cdot 2 + 0.12 \cdot 3 + (0.10 \hspace{-0.05cm}+ \hspace{-0.05cm} 0.04 ) \cdot 4 = 2.4 \,{\rm bit/Quellensymbol}
\hspace{0.05cm}.$$

Aus dem Vergleich mit der Quellenentropie $H$ = 2.365 bit/Quellensymbol erkennt man die Effizienz der Huffman–Codierung.

{{Definition}}
Es gibt keinen präfixfreien (⇒ sofort decodierbaren) Code, der allein unter Ausnutzung der Auftrittswahrscheinlichkeiten zu einer kleineren mittleren Codewortlänge führt als der Huffman–Code.

{{end}}

In diesem Sinne ist der Huffman–Code optimal. Wären die Symbolwahrscheinlichkeiten

$$p_{\rm A} = p_{\rm B} = p_{\rm C} = 1/4 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 1/8 \hspace{0.05cm},\hspace{0.2cm}p_{\rm E} = p_{\rm F} = 1/16
\hspace{0.05cm},$$

so würde für die Entropie und für die mittlere Codewortlänge gleichermaßen gelten:

$$\begin{align*}H \hspace{-0.15cm}& = \hspace{-0.15cm} 3 \cdot 1/4 \cdot {\rm ld}\hspace{0.1cm}(4) + 1/8 \cdot {\rm ld}\hspace{0.1cm}(8) + 2 \cdot 1/16 \cdot {\rm ld}\hspace{0.1cm}(16) = 2.375 \,{\rm bit/Quellensymbol}\hspace{0.05cm},\\
L_{\rm M} \hspace{-0.15cm}& = \hspace{-0.15cm} 3 \cdot 1/4 \cdot 2 + 1/8 \cdot 3 + 2 \cdot 1/16 \cdot 4 = 2.375 \,{\rm bit/Quellensymbol}
\hspace{0.05cm}.\end{align*}$$

''Hinweis'': Aus Platzgründen ist hier der ''Logarithmus dualis'' „log2” mit „ld” bezeichnet.
Aus dieser Eigenschaft erklärt sich der Begriff '''Entropiecodierung'''. Man versucht bei dieser Form von Quellencodierung, die Länge $L_μ$ der Binärfolge (bestehend aus Nullen und Einsen) für das Symbol $q_μ$ gemäß der Entropieberechnung wie folgt an dessen Auftrittswahrscheinlichkeit $p_μ$ anzupassen:

$$L_{\mu} = {\rm log}_2\hspace{0.1cm}(1/p_{\mu} ) \hspace{0.05cm}.$$

Natürlich gelingt das nicht immer, sondern nur dann, wenn alle Auftrittswahrscheinlichkeiten $p_μ$ in der Form $2^{–k}$ ( $k$ = 1, 2, 3, ... ) dargestellt werden können. In diesem Sonderfall – und nur in diesem – stimmt die mittlere Codewortlänge $L_M$ exakt mit der Quellenentropie $H$ überein (siehe zweites Zahlenbeispiel). Nach dem [[Informationstheorie/Allgemeine_Beschreibung#Quellencodierungstheorem|Quellencodierungstheorem]] gibt es keinen (decodierbaren) Code, der im Mittel mit weniger Binärzeichen pro Quellensymbol auskommt.

==Darstellung des Huffman–Codes als Baumdiagramm==

Häufig wird für die Konstruktion des Huffman–Codes eine '''Baumstruktur''' verwendet.Für das bisher betrachtete Beispiel zeigt diese die folgende Grafik:

[[File:P_ID2418__Inf_T_2_3_S3_neu.png|Baumdarstellung der Huffman–Codierung]]

Man erkennt:
*Bei jedem Schritt des Huffman–Algorithmus werden die beiden Zweige mit den jeweils kleinsten Wahrscheinlichkeiten zusammengefasst. Der Knoten im Schritt 1 fasst die zwei Symbole '''E''' und '''F''' mit den aktuell kleinsten Wahrscheinlichkeiten zusammen. Dieser Knoten ist mit $p_E$ + $p_F$ = 0.14 beschriftet.
*Der vom Symbol mit der kleineren Wahrscheinlichkeit (hier '''F''') zum Summenknoten verlaufende Zweig ist blau eingezeichnet, der andere rot.

Nach fünf Schritten ist man bei der Baumwurzel („Root”) mit der Gesamtwahrscheinlichkeit 1 angelangt. Verfolgt man nun den Verlauf von der Wurzel (in obiger Grafik mit gelber Füllung) zu den einzelnen Symbolen zurück, so kann man aus den Farben der einzelnen Zweige die Symbolzuordnung ablesen. Mit den Zuordnungen „rot” → '''1''' und „blau” → '''0''' ergibt sich beispielsweise von der Wurzel zu Symbol
* '''A''': rot, rot → '''11''',
*'''B''': blau, rot → '''01''',
*'''C''': blau, blau → '''00''',
*'''D''': rot, blau, blau → '''100''',
*'''E''': rot, blau, rot, rot → '''1011''',
*'''F''': rot, blau, rot, blau → '''1010'''.
Die Zuordnung „rot” → 0 und „blau” → 1 würde ebenfalls zu einem optimalen präfixfreien Huffman–Code führen.

Die folgende Grafik zeigt die Huffman–Codierung von 49 Symbolen $q_ν$ ∈ { '''A''', '''B''', '''C''', '''D''', '''E''', '''F'''} mit der auf der letzten Seite hergeleiteten Zuordnung. Die binäre Codesymbolfolge weist die mittlere Codewortlänge $L_M$ = 125/49 = 2.551 auf. Die Farben dienen ausschließlich zur besseren Orientierung.

[[File: P_ID2419__Inf_T_2_3_S3b_neu.png|Beispielfolgen bei Huffman–Codierung]]

Aufgrund der kurzen Quellensymbolfolge ( $N$ = 49 ) weichen die Auftrittshäufigkeiten $h_A$, ... , $h_F$ der simulierten Folgen signifikant von den vorgegebenen Wahrscheinlichkeiten $p_A$, ... , $p_F$ ab:

$$\begin{align*}p_{\rm A} \hspace{-0.2cm}& = \hspace{-0.2cm} 0.30 \hspace{0.05cm} \Rightarrow \hspace{0.05cm} h_{\rm A} = 16/49 \approx 0.326 \hspace{0.05cm},\hspace{0.4cm}p_{\rm B} = 0.24 \hspace{0.05cm} \Rightarrow \hspace{0.05cm} h_{\rm B} = 7/49 \approx 0.143 \hspace{0.05cm},\\
p_{\rm C} \hspace{-0.2cm}& = \hspace{-0.2cm} 0.24 \hspace{0.05cm} \Rightarrow \hspace{0.05cm} h_{\rm C}= 9/49 \approx 0.184 \hspace{0.05cm},\hspace{0.6cm}p_{\rm D} = 0.12 \hspace{0.05cm} \Rightarrow \hspace{0.05cm} h_{\rm D} = 7/49 \approx 0.143 \hspace{0.05cm},\\
p_{\rm E} \hspace{-0.2cm}& = \hspace{-0.2cm} 0.10 \hspace{0.05cm} \Rightarrow \hspace{0.05cm} h_{\rm E} = 5/49 \approx 0.102 \hspace{0.05cm},\hspace{0.6cm}p_{\rm F} = 0.04 \hspace{0.05cm} \Rightarrow \hspace{0.05cm} h_{\rm E} = 5/49 \approx 0.102
\hspace{0.05cm}.\end{align*}$$

Damit ergibt sich ein etwas größerer Entropiewert:

$$H ({\rm bez\ddot{u}glich }\hspace{0.15cm}p_{\mu}) = 2.365 \,{\rm bit/Quellensymbol}$$

$$\Rightarrow \hspace{0.3cm}
H ({\rm bez\ddot{u}glich }\hspace{0.15cm}h_{\mu}) = 2.451 \,{\rm bit/Quellensymbol}
\hspace{0.05cm}.$$

Würde man den Huffman–Code mit diesen „neuen” Wahrscheinlichkeiten $h_A$, ... , $h_F$ bilden, so ergäben sich folgende Zuordnungen:

$$\boldsymbol{\rm A} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 11} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm B} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 100} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm C} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 00} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm D} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 101} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm E} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 010} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm F} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 011} \hspace{0.05cm}.$$

Nun würden nur '''A''' und '''C''' mit zwei Bit dargestellt, die anderen vier Symbole durch jeweils drei Bit. Die Codesymbolfolge hätte dann eine Länge von (16 + 9) · 2 + (7 + 7 + 5 + 5) · 3 = 122 Bit, wäre also um drei Bit kürzer als nach der bisherigen Codierung. Die mittlere Codewortlänge wäre dann $L_M$ = 122/49 ≈ 2.49 bit/Quellensymbol anstelle von $L_M$ ≈ 2.55 bit/Quellensymbol.
Dieses Beispiel lässt sich wie folgt interpretieren:
*Die Huffman–Codierung lebt von der (genauen) Kenntnis der Symbolwahrscheinlichkeiten. Sind diese sowohl dem Sender als auch dem Empfänger bekannt, so ist die mittlere Codewortlänge $L_M$ oft nur unwesentlich größer als die Quellenentropie $H$.
*Insbesondere bei kleinen Dateien kann es zu Abweichungen zwischen den (erwarteten) Symbolwahrscheinlichkeiten $p_μ$ und den (tatsächlichen) Symbolhäufigkeiten $h_μ$ kommen. Besser wäre es hier, für jede Datei einen eigenen Huffman–Code zu generieren, der auf den tatsächlichen Gegebenheiten ( $h_μ$ ) basiert.
*In diesem Fall muss aber dem Decoder auch der spezifische Huffman–Code mitgeteilt werden. Dies führt zu einem gewissen Overhead, der nur wieder bei längeren Dateien vernachlässigt werden kann. Bei kleinen Dateien lohnt sich dieser Aufwand nicht.

==Einfluss von Übertragungsfehlern auf die Decodierung ==

Der Huffman–Code ist aufgrund der Eigenschaft „präfixfrei” verlustlos. Das bedeutet: Aus der binären Codesymbolfolge lässt sich die Quellensymbolfolge vollständig rekonstruieren. Kommt es aber bei der Übertragung zu einem Fehler (aus einer '''0''' wird eine '''1''' bzw. aus einer '''1''' eine '''0'''), so stimmt natürlich auch die Sinkensymbolfolge $〈υ_ν〉$ nicht mit der Quellensymbolfolge $〈q_ν〉$ überein.
Die folgenden Beispiele zeigen, dass ein einziger Übertragungsfehler manchmal eine Vielzahl von Fehlern hinsichtlich des Ursprungstextes zur Folge haben kann.

{{Beispiel}}
Wir betrachten die gleiche Quellensymbolfolge und den gleichen Huffman–Code wie auf der vorherigen Seite. Die obere Grafik zeigt, dass bei fehlerfreier Übertragung aus der Binärfolge '''111011''' ... wieder die Folge '''AEBFCC''' ... rekonstruiert werden kann.

[[File:P_ID2420__Inf_T_2_3_S4b_neu.png|Zum Einfluss von Übertragungsfehlern bei Huffman–Codierung]]

*Wird aber das 6. Bit verfälscht (von '''1''' auf '''0''', rote Markierung in der mittlere Grafik), so wird aus dem Quellensymbol $q_2$ = '''E''' das Sinkensymbol $v_2$ = '''F'''.
*Eine Verfälschung von Bit 13 (von '''0''' auf '''1''', rote Markierung in der unteren Grafik) führt dagegen zu einer Verfälschung von vier Quellensymbolen: '''CCEC''' ⇒ '''DBBD'''.

{{end}}

Die nächste Seite zeigt ein weiteres Beispiel zum Einfluss von Übertragungsfehlern bei Huffman.

{{Beispiel}}
Eine zweite Nachrichtenquelle – ebenfalls mit Symbolumfang $M$ = 6 – ist durch folgende Symbolwahrscheinlichkeiten gekennzeichnet:

$$p_{\rm A} = 0.50 \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = 0.19 \hspace{0.05cm},\hspace{0.2cm}p_{\rm C} = 0.11 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 0.09 \hspace{0.05cm},\hspace{0.2cm}p_{\rm E} = 0.06 \hspace{0.05cm},\hspace{0.2cm}p_{\rm F} = 0.05
\hspace{0.05cm}.$$

Hier führt der Huffman–Algorithmus zu folgender Zuordnung:

$$\boldsymbol{\rm A} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 0} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm B} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 111} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm C} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 101} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm D} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 100} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm E} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 1101} \hspace{0.05cm},\hspace{0.2cm}
\boldsymbol{\rm F} \hspace{0.05cm} \rightarrow \hspace{0.05cm} \boldsymbol{\rm 1100} \hspace{0.05cm}.$$

Die Quellensymbolfolge '''ADABD''' ... (siehe Grafik) wird somit durch die Codesymbolfolge '''0'100'0'111'100' '''... dargestellt. Die Hochkommata dienen hierbei nur der Orientierung.

[[File:P_ID2423__Inf_T_2_3_S4c_neu.png|Zur Fehlerfortpflanzung der Huffman–Codierung]]

Bei der Übertragung wird nun das erste Bit verfälscht: Anstelle von '''01000111100'''... empfängt man somit '''11000111100'''... Aus den beiden ersten Quellensymbolen '''AD → 0100''' wird dann nach der Decodierung das Sinkensymbol '''F → 1100'''. Die weiteren Symbole werden dann wieder richtig detektiert, aber nun nicht mehr beginnend bei $ν$ = 3, sondern bei $ν$ = 2.
Je nach Anwendung sind die Auswirkungen unterschiedlich:
*Handelt es sich bei der Quelle um einen natürlichen Text und bei der Sinke um einen Menschen, so bleibt der Großteil des Textes für den Leser verständlich.
*Ist die Sinke jedoch ein Automat, der sukzessive alle $v_ν$ mit den entsprechenden $q_ν$ vergleicht, so ergibt sich eine Verfälschungshäufigkeit von deutlich über 50%.
*Nur die blauen Symbole der Sinkensymbolfolge $〈v_ν〉$ stimmen dann (zufällig) mit den entsprechenden Quellensymbolen überein, während rote Symbole auf Fehler hinweisen.

{{end}}

==Anwendung der Huffman–Codierung auf k–Tupel ==

Der Huffman–Algorithmus in seiner Grundform liefert dann unbefriedigende Ergebnisse, wenn
*eine Binärquelle ( $M$ = 2 ) vorliegt, zum Beispiel mit dem Symbolvorrat {'''X''', '''Y'''},
*es statistische Bindungen zwischen den Symbolen der Eingangsfolge gibt,
*die Wahrscheinlichkeit des häufigsten Symbols deutlich größer ist als 50%.
Abhilfe schafft man in diesen Anwendungsfällen, in dem man mehrere Symbole zusammenfasst und den Huffman–Algorithmus auf einen neuen Symbolvorrat {'''A''', '''B''', '''C''', '''D''', ... } anwendet.

Bildet man $k$–Tupel, so steigt der Symbolumfang von $M$ auf $M ′$ = $M^k$. Wir wollen im folgenden Beispiel die Vorgehensweise anhand einer Binärquelle ( $M$ = 2 ) verdeutlichen. Weitere Beispiele finden Sie in [[Aufgaben:2.07_Zweiertupel_-_Huffman|Aufgabe A2.7]], [[Aufgaben:2.07Z_Ternärquelle-Zweiertupel|Aufgabe Z2.7]] und [[Aufgaben:2.08_Markovquelle_und_Huffman|Aufgabe A2.8]].

{{Beispiel}}
Gegeben sei eine gedächtnislose Binärquelle ( $M$ = 2 ) mit den Symbolen {'''X''', '''Y'''}:
*Die Symbolwahrscheinlichkeiten seien $p_X$ = 0.8 und $p_Y$ = 0.2.
*Damit ergibt sich die Quellenentropie zu $H$ = 0.722 bit/Quellensymbol.
*Wir betrachten die Symbolfolge '''XXXYXXXXXXXXYYXXXXXYYXXYXYXXYX''' ....

Der Huffman–Algorithmus kann auf diese Quelle direkt nicht angewendet werden, das heißt, man benötigt ohne weitere Maßnahme für jedes binäre Quellensymbol auch ein Bit. Aber:
*Fasst man jeweils zwei binäre Symbole zu einem Zweiertupel ( $k$ = 2 ) entsprechend '''XX''' → '''A''', '''XY''' → '''B''', '''YX''' → '''C''', '''YY''' → '''D''' zusammen, so kann man „Huffman” auf die resultierende Folge '''ABAACADAABCBBAC''' ... mit $M′$ = 4 anwenden. Wegen

$$p_{\rm A}= 0.8^2 = 0.64 \hspace{0.05cm}, \hspace{0.2cm}p_{\rm B}= 0.8 \cdot 0.2 = 0.16 = p_{\rm C} \hspace{0.05cm}, \hspace{0.2cm}
p_{\rm D}= 0.2^2 = 0.04$$

erhält man '''A''' → 1, '''B''' → '''00''', '''C''' → '''011''', '''D''' → '''010''' sowie

$$L_{\rm M}' = 0.64 \cdot 1 + 0.16 \cdot 2 + 0.16 \cdot 3 + 0.04 \cdot 3 =1.56\,{\rm bit/Zweiertupel} $$

$$\Rightarrow\hspace{0.3cm}L_{\rm M} = {L_{\rm M}'}/{2} = 0.78\,{\rm bit/Quellensymbol}\hspace{0.05cm}.$$

*Nun bilden wir Dreiertupel ( $k$ = 3 ). Mit den Kombinationen '''XXX''' → '''A''', '''XXY''' → '''B''', '''XYX''' → '''C''', '''XYY''' → '''D''', '''YXX''' → '''E''', '''YXY''' → '''F''', '''YYX''' → '''G''', '''YYY''' → '''H''' kommt man für die oben angegebene Eingangsfolge zur äquivalenten Folge '''AEBAGADBCC'''... (basierend auf dem neuen Symbolumfang $M′$ = 8) und zu folgenden Wahrscheinlichkeiten:

$$\begin{align*}p_{\rm A}\hspace{-0.2cm}& = \hspace{-0.2cm} 0.8^3 = 0.512 \hspace{0.05cm}, \hspace{0.2cm}p_{\rm B}= p_{\rm C}= p_{\rm E} = 0.8^2 \cdot 0.2 = 0.128\hspace{0.05cm},\\
p_{\rm D}\hspace{-0.2cm}& = \hspace{-0.2cm} p_{\rm F}= p_{\rm G} = 0.8 \cdot 0.2^2 = 0.032 \hspace{0.05cm}, \hspace{0.2cm}p_{\rm H}= 0.2^3 = 0.008\hspace{0.05cm}. \end{align*}$$

Die Huffman–Codierung lautet somit: '''A''' → '''1''', '''B''' → '''011''', '''C''' → '''010''', '''D''' → '''00011''', '''E''' → '''001''', '''F''' → '''00010''', '''G''' → '''00001''', '''H''' → '''00000'''. Damit erhält man für die mittlere Codewortlänge:

$$L_{\rm M}' = 0.512 \cdot 1 + 3 \cdot 0.128 \cdot 3 + (3 \cdot 0.032 + 0.008) \cdot 5 =2.184 \,{\rm bit/Dreiertupel} $$

$$\Rightarrow\hspace{0.3cm}L_{\rm M} = {L_{\rm M}'}/{3} = 0.728\,{\rm bit/Quellensymbol}\hspace{0.05cm}.$$

Bereits mit $k$ = 3 wird also in diesem Beispiel die Quellenentropie $H$ = 0.722 fast erreicht.

{{end}}

==Aufgaben zu Kapitel 2.3 ==

{{Display}}

Information Theory/Compression According to Lempel, Ziv and Welch

2017-02-05T17:47:26Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Allgemeine Beschreibung
|Nächste Seite=Entropiecodierung nach Huffman
}}

==Statische und dynamische Wörterbuchtechniken ==

Viele Datenkomprimierungsverfahren verwenden Wörterbücher. Die Idee ist dabei die Folgende: Man konstruiere eine Liste der Zeichenmuster, die im Text vorkommen, und codiere diese Muster als Indizes der Liste. Besonders effizient ist diese Vorgehensweise, wenn sich bestimmte Muster im Text häufig wiederholen und dies bei der Codierung auch berücksichtigt wird. Hierbei unterscheidet man:
*Verfahren mit statischem Wörterbuch,
*Verfahren mit dynamischem Wörterbuch (Beschreibung auf der nächsten Seite).

'''Verfahren mit statischem Wörterbuch'''
Ein statisches Wörterbuch ist nur für ganz spezielle Anwendungen sinnvoll, zum Beispiel für eine Datei der folgenden Form:

[[File:P_ID2424__Inf_T_2_2_S1a.png|Anwendungsbeispiele für ein statisches Wörterbuch]]

Beispielsweise ergibt sich mit den Zuordnungen

$$"\boldsymbol{\rm 0}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 000000} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm 9}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001001} \hspace{0.05cm},
"\hspace{-0.03cm}\_\hspace{-0.03cm}\_\hspace{0.03cm}" \hspace{0.1cm}{\rm (Blank)}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001010} \hspace{0.05cm},$$

$$"\hspace{-0.01cm}.\hspace{-0.01cm}" \hspace{0.1cm}{\rm (Punkt)}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001011} \hspace{0.05cm},
"\hspace{-0.01cm},\hspace{-0.01cm}" \hspace{0.1cm}{\rm (Komma)}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001011} \hspace{0.05cm},
" {\rm end\hspace{-0.1cm}-\hspace{-0.1cm}of\hspace{-0.1cm}-\hspace{-0.1cm}line}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001101} \hspace{0.05cm},$$

$$"\boldsymbol{\rm A}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 100000} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm E}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 100100} \hspace{0.05cm},
\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm L}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 101011} \hspace{0.05cm},\hspace{0.15cm}"\boldsymbol{\rm M}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 101100} \hspace{0.05cm},$$

$$"\boldsymbol{\rm O}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 101110} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm U}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 110100} \hspace{0.05cm},
"\boldsymbol{\rm Name\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 010000} \hspace{0.05cm},\hspace{0.05cm}$$

$$"\boldsymbol{\rm ,\_\hspace{-0.03cm}\_Vorname\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 010001} \hspace{0.05cm},\hspace{0.05cm}
"\boldsymbol{\rm ,\_\hspace{-0.03cm}\_Wohnort\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 010010} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm}$$

für die mit 6 Bit pro Zeichen binär–quellencodierte erste Zeile des obigen Textes:

$$\boldsymbol{010000} \hspace{0.15cm}\boldsymbol{100000} \hspace{0.15cm}\boldsymbol{100001} \hspace{0.15cm}\boldsymbol{100100} \hspace{0.15cm}\boldsymbol{101011} \hspace{0.3cm}
\Rightarrow \hspace{0.3cm}
\boldsymbol{(\rm Name\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_)
\hspace{0.05cm}(A)\hspace{0.05cm}(B)\hspace{0.05cm}(E)\hspace{0.05cm}(L)}$$

$$\boldsymbol{010001} \hspace{0.15cm}\boldsymbol{101011}\hspace{0.15cm} \boldsymbol{100100} \hspace{0.15cm}\boldsymbol{101110}
\hspace{0.3cm}
\Rightarrow \hspace{0.3cm}
\boldsymbol{(,\hspace{-0.05cm}\_\hspace{-0.03cm}\_\rm Vorname\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_)
\hspace{0.05cm}(L)\hspace{0.05cm}(E)\hspace{0.05cm}(O)}$$

$$\boldsymbol{010010} \hspace{0.15cm}\boldsymbol{110100} \hspace{0.15cm}\boldsymbol{101011} \hspace{0.15cm}\boldsymbol{101100}
\hspace{0.3cm}\Rightarrow \hspace{0.3cm}
\boldsymbol{(,\hspace{-0.05cm}\_\hspace{-0.03cm}\_\rm Wohnort\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_)
\hspace{0.05cm}(U)\hspace{0.05cm}(L)\hspace{0.05cm}(M)}
\hspace{0.05cm} $$

$$\boldsymbol{001101}
\hspace{0.3cm}\Rightarrow \hspace{0.3cm}
({\rm end\hspace{-0.1cm}-\hspace{-0.1cm}of\hspace{-0.1cm}-\hspace{-0.1cm}line})
\hspace{0.05cm}$$

Bei dieser spezifischen Anwendung lässt sich die erste Zeile mit 14 · 6 = 84 Bit darstellen. Dagegen würde man bei herkömmlicher Binärcodierung 39 · 7 = 273 Bit benötigen (aufgrund der Kleinbuchstaben im Text reichen hier 6 Bit pro Zeichen nicht aus). Für den gesamten Text ergeben sich 103 · 6 = 618 Bit gegenüber 196 · 7 = 1372 Bit. Allerdings muss die Codetabelle auch dem Empfänger bekannt sein.

'''Verfahren mit dynamischem Wörterbuch'''
Alle relevanten Komprimierungsverfahren arbeiten allerdings nicht mit statischem Wörterbuch, sondern mit dynamischen Wörterbüchern, die erst während der Codierung sukzessive entstehen:
*Solche Verfahren sind flexibel einsetzbar und müssen nicht an die Anwendung adaptiert werden. Man spricht von universellen Quellencodierverfahren.
*Es genügt dann ein einziger Durchlauf, während bei Verfahren mit statischem Wörterbuch die Datei vor dem Codiervorgang erst analysiert werden muss.
*An der Sinke wird das dynamische Wörterbuch in gleicher Weise generiert wie bei der Quelle. Damit entfällt die Übertragung des Wörterbuchs.

{{Beispiel}}
Die Grafik zeigt einen kleinen Ausschnitt von 80 Byte einer [[Digitalsignalübertragung/Anwendungen_bei_Multimedia–Dateien#Bilder_im_BMP.E2.80.93Format_.281.29|BMP–Datei]] in Hexadezimaldarstellung. Es handelt sich um die unkomprimierte Darstellung eines natürlichen Bildes.

[[File:P_ID2926__Inf_T_2_2_S1b_neu.png|Auszug aus dem Hexdump eines natürlichen Bildes im BMP–Format]]

Man erkennt, dass in diesem kleinen Ausschnitt einer Landschaftsaufnahme die Bytes '''FF''', '''55''' und '''47''' sehr häufig auftreten. Eine Datenkomprimierung ist deshalb erfolgversprechend. Da aber an anderen Stellen der 4 MByte–Datei oder bei anderem Bildinhalt andere Bytekombinationen dominieren, wäre hier die Verwendung eines statischen Wörterbuchs nicht zielführend.

{{end}}

{{Beispiel}}
Bei einer künstlich erzeugten Grafik – zum Beispiel bei einem Formular – könnte man dagegen durchaus mit einem statischen Wörterbuch arbeiten. Wir betrachten hier ein S/W–Bild mit 27 × 27 Pixeln, wobei die Zuordnung „Schwarz” ⇒ '''0''' und „Weiß” ⇒ '''1''' vereinbart wurde.

[[File:P_ID2927__Inf_T_2_2_S1c_GANZ_neu.png|Mögliche Codierung einer einfachen Grafik]]

*Im oberen Bereich (schwarze Markierung) wird jede Zeile durch 27 Nullen beschrieben.
*In der Mitte (blaue Markierung) wechseln sich jeweils drei Nullen und drei Einsen ab.
*Unten (rote Markierung) werden pro Zeile 25 Einsen durch zwei Nullen begrenzt.

{{end}}

==LZ77 – die Grundform der Lempel–Ziv–Algorithmen ==

Die wichtigsten Verfahren zur Datenkomprimierung mit dynamischem Wörterbuch gehen auf [https://de.wikipedia.org/wiki/Abraham_Lempel Abraham Lempel] und [https://de.wikipedia.org/wiki/Jacob_Ziv Jacob Ziv] zurück. Die gesamte Lempel–Ziv–Familie (im Folgenden verwenden wir hierfür kurz: LZ–Verfahren) kann wie folgt charakterisiert werden:
*Lempel–Ziv–Verfahren nutzen die Tatsache, dass in einem Text oft ganze Wörter – oder zumindest Teile davon – mehrfach vorkommen. Man sammelt alle Wortfragmente, die man auch als ''Phrasen'' bezeichnet, in einem ausreichend großen Wörterbuch.
*Im Gegensatz zur vorher entwickelten Entropiecodierung (z.B. von Shannon und Huffman) ist hier nicht die Häufigkeit einzelner Zeichen oder Zeichenfolgen die Grundlage der Komprimierung, so dass die LZ–Verfahren auch ohne Kenntnis der Quellenstatistik angewendet werden können.
*LZ–Komprimierungsverfahren kommen dementsprechend mit einem einzigen Durchgang aus und auch der Quellensymbolumfang $M$ und die Symbolmenge { $q_μ$, $μ$ = 1, ... , $M$ } muss nicht bekannt sein. Man spricht von universeller Quellencodierung (englisch: Universal Source Coding).

Wir betrachten zunächst den Lempel–Ziv–Algorithmus in seiner ursprünglichen Form aus dem Jahre 1977, bekannt unter der Bezeichnung [https://de.wikipedia.org/wiki/LZ77 LZ77]. Dieser arbeitet mit einem Fenster, das sukzessive über den Text verschoben wird; man spricht auch von einem ''Sliding Window''. Die Fenstergröße $G$ ist dabei ein wichtiger Parameter, der das Komprimierungsergebnis entscheidend beeinflusst.

[[File:P_ID2426__Inf_T_2_2_S2a_neu.png|Sliding–Window bei LZ77–Komprimierung]]

Die Grafik zeigt eine beispielhafte Belegung des Sliding Windows. Dieses ist unterteilt in
*den Vorschaupuffer (blaue Hinterlegung) und
*den Suchpuffer (rote Hinterlegung, mit Positionen $P$ = 0, ... , 7 ⇒ $G$ = 8).

Der bearbeitete Text umfasst die vier Worte '''Miss''', '''Mission''', '''Mississippi''' und '''Mistral''', jeweils getrennt durch einen Bindestrich. Zum betrachteten Zeitpunkt steht im Vorschaupuffer '''Mississi'''.
*Gesucht wird nun im Suchpuffer die beste Übereinstimmung ⇒ die Zeichenfolge mit der maximalen Übereinstimmungslänge $L$. Diese ergibt sich für die Position $P$ = 7 und die Länge $L$ = 5 zu '''Missi'''.
*Dieser Schritt wird durch das ''Triple'' (7, 5, '''s''') ausgedrückt ⇒ allgemein ( $P$, $L$, $Z$ ), wobei $Z$ = '''s''' das Zeichen angibt, das nicht mehr mit der gefundenen Zeichenfolge im Suchpuffer übereinstimmt.
*Anschließend wird das Fenster um $L$ + 1 = 6 Zeichen nach rechts verschoben. Im Vorschaupuffer steht nun '''sippi–Mi''', im Suchpuffer '''n–Missis''' und die Codierung ergibt das Triple (2, 2, '''p''').
Auf der nächsten Seite werden die LZ77–Codier & Decodier–Algorithmen genauer beschrieben.

Als weiteres Beispiel betrachten wir die LZ77–Codierung des Strings '''ABABCBCBAABCABe''' entsprechend der folgenden Grafik. Die Eingangsfolge hat die Länge $N$ = 15. Weiter wird vorausgesetzt:
*Zeichen $Z$ ∈ { '''A''', '''B''', '''C''', '''e''' }, '''e''' entspricht ''end–of–file'' (Ende des Eingabe–Strings),
*Größe von Vorschau– und Suchpuffer jeweils $G$ = 4 ⇒ Position $P$ ∈ {0, 1, 2, 3}.

[[File:P_ID2427__Inf_T_2_2_S2b_neu.png|Zur Verdeutlichung der LZ77–Codierung]]

Hierzu einige Anmerkungen (''Hinweis'': Der Decodiervorgang läuft in vergleichbarer Weise ab):
* ''Schritt 1 und 2'': Es werden die Zeichen '''A''' und '''B''' durch die Triple (0, 0, '''A''') und (0, 0, '''B''') codiert, da diese im Suchpuffer noch nicht abgelegt sind. Dann Verschiebung des Sliding Window um 1.
* ''Schritt 3'': '''AB''' wird über den Suchpuffer maskiert und gleichzeitig das noch unbekannte Zeichen '''C''' angehängt. Danach wird das Sliding Window um 3 Positionen nach rechts verschoben.
* ''Schritt 4'': Hier wird gezeigt, dass der Suchstring '''BCB''' auch im Vorschaupuffer enden darf. Jetzt kann das Fenster um 4 Positionen verschoben werden.
* ''Schritt 5'': Es wird im Suchpuffer lediglich '''A''' gefunden und '''B''' abgehängt. Bei größerem Suchpuffer könnten dagegen '''ABC''' gemeinsam maskiert werden. Dazu müsste $G$ ≥ 7 sein.
* ''Schritt 6'': Ebenso muss das Zeichen '''C''' aufgrund des zu kleinen Puffers separat codiert werden. Da aber '''CA''' vorher noch nicht aufgetreten ist, würde $G$ = 7 die Komprimierung nicht verbessern.
* ''Schritt 7'': Mit der Berücksichtigung des end–of–file (e) gemeinsam mit '''AB''' aus dem Suchpuffer ist der Codiervorgang abgeschlossen.

Vor der Übertragung müssen natürlich die angegebenen Triple noch binär codiert werden. Dabei benötigt man im vorliegenden Beispiel für
*die Position $P$ ∈ {0, 1, 2, 3} zwei Bit (gelbe Hinterlegung),
*die Kopierlänge $L$ drei Bit (grün hinterlegt), so dass man auch $L$ = 7 noch darstellen könnte,
*alle Zeichen mit jeweils zwei Bit (weiß hinterlegt), z.B. '''A → 00''', '''B → 01''', '''C = 10''', '''e = 11'''.

Damit hat die LZ77–Ausgangsfolge eine Länge von 7 · 7 = 49 Bit, während die Eingangsfolge nur 15 · 2 = 30 Bit benötigt ⇒ '''Eine LZ–Komprimierung macht nur bei großen Dateien Sinn'''.

==Die Lempel–Ziv–Variante LZ78 ==

Der LZ77–Algorithmus erzeugt dann eine sehr ineffiziente Ausgabe, wenn sich häufigere Zeichenfolgen erst mit größerem Abstand wiederholen. Aufgrund der begrenzten Puffergröße $G$ des ''Sliding Window'' können solche Wiederholungen oft nicht erkannt werden.

Lempel und Ziv haben dieses Manko bereits ein Jahr nach der Veröffentlichung der ersten Version LZ77 korrigiert. Der Algorithmus LZ78 verwendet zur Komprimierung anstelle des lokalen Wörterbuchs (Suchpuffer) ein globales Wörterbuch. Bei entsprechender Wörterbuchgröße lassen sich somit auch solche Phrasen, die schon längere Zeit vorher im Text aufgetaucht sind, effizient komprimieren.

[[File:P_ID2428__Inf_T_2_2_S3.png|Generierung des Wörterbuchs und Ausgabe bei LZ78]]

Zur Erklärung des LZ78–Algorithmus betrachten wir die gleiche Folge '''ABABCBCBAABCABe''' wie für das LZ77–Beispiel auf der letzten Seite.
*Die Grafik zeigt (mit roter Hinterlegung) das Wörterbuch mit Index $I$ (in Dezimal– und Binärdarstellung, Spalte 1 und 2) und dem entsprechenden Inhalt (Spalte 3), der zum Codierschritt $i$ eingetragen wird (Spalte 4). Bei LZ78 gilt sowohl für die Codierung als auch für die Decodierung stets $i$ = $I$.
*In Spalte 5 findet man die formalisierte Coderausgabe (Index I, neues Zeichen Z). In der Spalte 6 ist die dazugehörige Binärcodierung angegeben mit vier Bit für den Index und der gleichen Zeichenzuordnung '''A → 00''', '''B → 01''', '''C → 10''', '''e''' („end–of–file”) '''→ 11''' wie im letzten Beispiel.

Der LZ78–Algorithmus wird nun anhand dieses Beispiels wie folgt erklärt:
*Zu Beginn (Schritt $i$ = 0) ist das Wörterbuch (WB) leer bis auf den Eintrag $ε$ (leeres Zeichen, nicht zu verwechseln mit dem Leerzeichen, das aber hier nicht verwendet wird) mit Index $I$ = 0.
*Im Schritt $i$ = 1 findet man im Wörterbuch noch keinen verwertbaren Eintrag, und es wird (0, '''A''') ausgegeben ('''A''' folgt auf $ε$). Im Wörterbuch erfolgt der Eintrag '''A''' in Zeile $I$ = 1 (abgekürzt 1:'''A''').
*Damit vergleichbar ist die Vorgehensweise im zweiten Schritt ( $i$ = 2 ). Ausgegeben wird hier (0, '''B''') und ins Wörterbuch wird 2:B eingetragen.
*Da bei Schritt 3 bereits der Eintrag 1:'''A''' gefunden wird, können hier die Zeichen AB gemeinsam durch (1, B) codiert werden und es wird der neue Wörterbucheintrag 3:'''AB''' vorgenommen.
*Nach Codierung und Eintrag des neuen Zeichens '''C''' in Schritt 4 wird im Schritt 5 das Zeichenpaar '''BC''' gemeinsam codiert ⇒ (2, '''C''') und in das Wörterbuch 5:'''BC''' eingetragen.
*In Schritt 6 werden mit '''BA''' ebenfalls zwei Zeichen gemeinsam behandelt und in den beiden letzten Schritten jeweils drei, nämlich 7:'''ABC''' und 8:'''ABe'''. Die Ausgabe (3, '''C''') steht für „WB(3) + '''C”''' = '''ABC''' und die Ausgabe (3, '''e''') für '''ABe'''.

[[File:P_ID2429__Inf_T_2_2_S3.png|Generierung des Wörterbuchs und Ausgabe bei LZ78]]

Im Beispiel besteht somit die LZ78–Codesymbolfolge aus 8 · 6 = 48 Bit. Das Ergebnis ist vergleichbar mit LZ77 (49 Bit). Auf Details und Verbesserungen von LZ78 wird hier verzichtet. Hier verweisen wir auf den [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Der_Lempel.E2.80.93Ziv.E2.80.93Welch.E2.80.93Algorithmus|LZW–Algorithmus]], der auf den nächsten Seiten beschrieben wird. Soviel nur vorneweg:
*Der Index $I$ wird hier einheitlich mit 4 Bit dargestellt, wodurch das Wörterbuch auf 16 Einträge beschränkt ist. Durch eine [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch|variable Bitanzahl]] für den Index kann man diese Einschränkung umgehen. Gleichzeitig erhält man so einen besseren Komprimierungsfaktor.
*Das Wörterbuch muss bei allen LZ–Varianten nicht übertragen werden, sondern wird beim Decoder in genau gleicher Weise erzeugt wie auf der Coderseite. Die Decodierung erfolgt bei LZ78 – nicht aber bei LZW – ebenfalls in analoger Weise wie die Codierung.
*Alle LZ–Verfahren sind asymptotisch optimal, das heißt, dass bei unendlich langen Folgen die mittlere Codewortlänge pro Quellensymbol gleich der Quellenentropie ist: $L_M$ = $H$. Bei kurzen Folgen ist die Abweichung allerdings beträchtlich. Mehr dazu am [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Quantitative_Aussagen_zur_asymptotischen_Optimalit.C3.A4t|Kapitelende]].

==Der Lempel–Ziv–Welch–Algorithmus ==

Die heute gebräuchlichste Variante der Lempel–Ziv–Komprimierung wurde von [https://de.wikipedia.org/wiki/Terry_Welch Terry Welch] entworfen und 1983 veröffentlicht. Wir nennen diese den ''Lempel–Ziv–Welch–Algorithmus'', abgekürzt mit LZW. Ebenso wie LZ78 leichte Vorteile gegenüber LZ77 aufweist (wie zu erwarten – warum sonst hätte der Algorithmus modifiziert werden sollen?), hat LZW gegenüber LZ78 auch mehr Vorteile als Nachteile.

[[File:P_ID2430__Inf_T_2_2_S4_neu.png|LZW–Codierung der Folge '''ABABCBCBAABCABe''']]

Die Grafik zeigt die Coderausgabe für die beispielhafte Eingangsfolge '''ABABCBCBAABCABe'''. Rechts dargestellt ist das Wörterbuch (rot hinterlegt), das bei der LZW–Codierung sukzessive entsteht. Die Unterschiede gegenüber LZ78 erkennt man im Vergleich zur Grafik auf der letzten Seite, nämlich:
*Bei LZW sind im Wörterbuch schon zu Beginn ( $i$ = 0 ) alle vorkommenden Zeichen eingetragen und einer Binärfolge zugeordnet, im Beispiel mit den Indizes $I$ = 0, ... , $I$ = 3.
*Das bedeutet aber auch, dass bei LZW doch gewisse Kenntnisse über die Nachrichtenquelle vorhanden sein müssen, während LZ78 eine „echte universelle Codierung” darstellt.
*Bei LZW wird zu jedem Codierschritt $i$ nur ein Wörterbuchindex I übertragen, während bei LZ78 die Kombination ( $I$, $Z$ ) ausgegeben wird; $Z$ gibt dabei das aktuell neue Zeichen an.
*Aufgrund des Fehlens von $Z$ in der Coderausgabe ist die LZW–Decodierung komplizierter als bei LZ78. Nähere Angaben zur LZW–Decodierung finden Sie später im Kapitels.

Für die nachfolgende beispielhafte LZW–Codierung wird wie bei der Beschreibung von LZ77 und LZ78 wieder die Eingangsfolge '''ABABCBCBAABCABe''' vorausgesetzt.

* ''Schritt i = 0'' (Vorbelegung): Die erlaubten Zeichen '''A''', '''B''', '''C''' und '''e''' („end–of–file”) werden in das Wörterbuch eingetragen und den Indizes $I$ = 0, ... , $I$ = 3 zugeordnet.
* ''Schritt i = 1'': '''A''' wird durch den Dezimalindex $I$ = 0 codiert und dessen Binärdarstellung 0000 übertragen. Anschließend wird ins Wörterbuch die Kombination aus dem aktuellen Zeichen '''A''' und dem nachfolgenden Zeichen '''B''' der Eingangsfolge unter dem Index $I$ = 4 abgelegt.
* ''Schritt i = 2'': Darstellung von $B$ durch Index $I$ = 1 bzw. '''0001''' (binär) sowie Wörterbucheintrag von '''BA''' mit Index $I$ = 5.
* ''Schritt i = 3'': Aufgrund des Wörterbucheintrags '''AB''' zum Zeitpunkt $i$ = 1 ergibt sich der zu übertragende Index $I$ = 4 (binär: '''0100'''). Danach wird ins Wörterbuch '''ABC''' neu eingetragen.
* ''Schritt i = 8'': Hier werden die Zeichen ABC gemeinsam durch den Index $I$ = 6 (binär: '''0110''') dargestellt und der Eintrag für '''ABCA''' vorgenommen.

Mit der Codierung von '''e''' (EOF–Marke) ist der Codiervorgang nach 10 Schritten beendet. Bei LZ78 wurden nur 8 Schritte benötigt. Es ist aber zu berücksichtigen:
*Der LZW–Algorithmus benötigt für die Darstellung dieser 15 Eingangssymbole nur 10 · 4 = 40 Bit gegenüber den 8 · 6 = 48 Bit bei LZ78. Vorausgesetzt ist für diese einfache Rechnung jeweils 4 Bit zur Indexdarstellung.
*Sowohl bei LZW als auch bei LZ78 kommt man mit weniger Bit aus (nämlich mit 34 bzw. 42), wenn man berücksichtigt, dass zum Schritt $i$ = 1 der Index nur mit 2 Bit codiert werden muss ( $I$ ≤ 3 ) und für $i$ = 2 bis $i$ = 5 auch 3 Bit ausreichen ( $I$ ≤ 7 ).

Auf den beiden folgenden Seiten wird auf die variable Bitanzahl zur Indexdarstellung sowie auf die Decodierung von LZ78– und LZW–codierten Binärfolgen noch im Detail eingegangen.

==Lempel–Ziv–Codierung mit variabler Indexbitlänge ==

Aus Gründen einer möglichst kompakten Darstellung betrachten wir nun nur noch Binärquellen mit dem Wertevorrat { '''A''', '''B''' }. Auch das Abschlusszeichen '''end–of–file''' bleibt unberücksichtigt.

[[File:P_ID2432__Inf_T_2_2_S5_neu.png|LZW–Codierung einer binären Eingangsfolge]]

Wir betrachten die LZW–Codierung anhand eines Bildschirmabzugs unseres interaktiven Flash–Moduls Lempel–Ziv–Algorithmen. Die Aussagen gelten aber in gleicher Weise für LZ78.
*Beim ersten Codierschritt ( $i$ = 1 ) wird A mit 0 codiert. Danach erfolgt im Wörterbuch der Eintrag mit dem Index $I$ = 2 und dem Inhalt '''AB'''.
*Da es bei Schritt $i$ = 1 im Wörterbuch mit '''A''' und '''B''' nur zwei Einträge gibt, genügt ein Bit. Dagegen werden bei Schritt 2 und 3 für '''B ⇒ 01''' bzw. '''A ⇒ 00''' jeweils zwei Bit benötigt.
*Ab $i$ = 4 erfolgt die Indexdarstellung mit 3 Bit, ab $i$ = 8 mit 4 Bit und ab $i$ = 16 mit 5 Bit. Hieraus lässt sich ein einfacher Algorithmus für die jeweilige Index–Bitanzahl $L(i)$ ableiten.
*Betrachten wir abschließend den Codierschritt $i$ = 18. Hier wird die rot markierte Sequenz '''ABABB''', die zum Zeitpunkt $i$ = 11 in das Wörterbuch eingetragen wurde (Index $I$ = 13 ⇒ '''1101''') bearbeitet. Die Ausgabe lautet wegen $i$ ≥ 16 aber nun '''01101''' (grüne Markierung).

Die Verbesserung durch variable Indexbitlänge ist auch bei LZ78 in gleicher Weise möglich.

==Decodierung des LZW–Algorithmus ==

Am Decoder liegt nun die auf der letzten Seite ermittelte Coder–Ausgabe als Eingangsfolge an. Die Grafik zeigt, dass es auch bei variabler Indexbitlänge möglich ist, diese Folge eindeutig zu decodieren.

[[File:P_ID2433__Inf_T_2_2_S6_neu.png|LZW–Decodierung einer binären Eingangsfolge]]

Beim Decoder wird genau das gleiche Wörterbuch generiert wie beim Coder, doch erfolgen hier die Wörterbucheinträge einen Zeitschritt später. Weiter gilt:
*Dem Decoder ist bekannt, dass im ersten Codierschritt der Index $I$ mit nur einem Bit codiert wurde, in den Schritten 2 und 3 mit zwei Bit, ab $i$ = 4 mit drei Bit, ab $i$ = 8 mit vier Bit, usw.
*Zum Schritt $i$ = 1 wird also '''0''' als '''A''' decodiert. Ebenso ergibt sich zum Schritt $i$ = 2 aus der Vorbelegung des Wörterbuches und der vereinbarten Zwei–Bit–Darstellung: '''1 ⇒ 01 ⇒ B'''.
*Der Eintrag der Zeile I = 2 (Inhalt: '''AB''') des Wörterbuchs erfolgt also erst zum Schritt $i$ = 2, während beim [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Lempel.E2.80.93Ziv.E2.80.93Codierung_mit_variabler_Indexbitl.C3.A4nge|Codiervorgang]] dies bereits am Ende von Schritt 1 geschehen konnte.
*Betrachten wir weiter die Decodierung für $i$ = 4. Der Index 2 liefert das Decodierergebnis '''AB''' und im nächsten Schritt ( $i$ = 5 ) wird die Wörterbuchzeile $I$ = 5 mit '''ABA''' belegt.
*Diese Zeitverschiebung hinsichtlich der WB–Einträge kann zu Decodierproblemen führen. Zum Beispiel gibt es zum Schritt $i$ = 7 noch keinen Wörterbuch–Eintrag mit Index $I$ = 7.
*Was ist in einem solchen Fall ( $I$ = $i$ ) zu tun? Man nimmt in diesem Fall das Ergebnis des vorherigen Decodierschrittes (hier: '''BA''' für $i$ = 6) und fügt das erste Zeichen dieser Sequenz am Ende noch einmal an. Man erhält so das Decodierergebnis für $i$ = 7 zu '''BAB'''.
*Natürlich ist es unbefriedigend, nur ein Rezept anzugeben. In der [[Aufgaben:2.04Z_LZW-Codierung-/-Decodierung|Aufgabe Z2.4]] sollen Sie das Vorgehen selbst begründen. Wir verweisen hier auf die Musterlösung zur Aufgabe.

Bei der LZ78–Decodierung tritt das hier geschilderte Problem nicht auf, da nicht nur der Index $I$, sondern auch das aktuelle Zeichen Z im Codierergebnis enthalten ist und übertragen wird.

==Effizienz der Lempel–Ziv–Codierung ==

Für den Rest dieses Kapitels gehen wir von folgenden Voraussetzungen aus:
*Der ''Symbolumfang'' der Quelle (oder im übertragungstechnischen Sinne die Stufenzahl) sei $M$, wobei $M$ eine Zweierpotenz darstellt ⇒ $M$ = 2, 4, 8, 16, ....
*Die Quellenentropie sei $H$. Gibt es keine statistischen Bindungen zwischen den Symbolen, so gilt $H$ = $H_0$, wobei $H_0$ = ld $M$ den Entscheidungsgehalt angibt. Andernfalls gilt $H$ < $H_0$.
*Eine Symbolfolge der Länge $N$ wird quellencodiert und liefert eine binäre Codefolge der Länge $L$. Über die Art der Quellencodierung treffen wir vorerst keine Aussage.

Nach dem [[Informationstheorie/Allgemeine_Beschreibung#Quellencodierungstheorem|Quellencodierungstheorem]] muss die mittlere Codewortlänge $L_M$ größer oder gleich der Quellenentropie $H$ (in bit/Quellensymbol) sein. Das bedeutet
*für die Gesamtlänge der quellencodierten Binärfolge:
$$L \ge N \cdot H \hspace{0.05cm},$$
*für die relative Redundanz der Codefolge, im Folgenden kurz '''Restredundanz''' genannt:

$$r = \frac{L - N \cdot H}{L} \hspace{0.05cm}.$$

{{Beispiel}}
Gäbe es für eine redundanzfreie binäre Quellensymbolfolge ( $M$ = 2, $p_A$ = $p_B$ = 0.5, ohne statistische Bindungen ) der Länge $N$ = 10000 eine perfekte Quellencodierung, so hätte auch die Codefolge die Länge $L$ = 10000.
*Für diese Nachrichtenquelle ist Lempel–Ziv nicht geeignet. Es wird $L$ > $N$ gelten. Man kann es auch ganz lapidar ausdrücken: Die perfekte Quellencodierung ist hier gar keine Codierung.
*Eine redundante Binärquelle mit $p_A$ = 0.89, $p_B$ = 0.11 ⇒ $H$ = 0.5 könnte man mit einer perfekten Quellencodierung durch $L$ = 5000 Bit darstellen, ohne dass wir hier sagen können, wie diese perfekte Quellencodierung aussieht.
*Bei einer Quaternärquelle ist $H$ > 1 (bit/Quellensymbol) möglich, so dass auch bei perfekter Codierung stets $L$ > $N$ sein wird. Ist die Quelle redundanzfrei (keine Bindungen, alle $M$ Symbole gleichwahrscheinlich), so hat sie die Entropie $H$ = 2 bit/Quellensymbol.

Bei allen diesen Beispielen für perfekte Quellencodierung wäre die relative Redundanz der Codefolge (Restredundanz) $r$ = 0. Das heißt: Die Nullen und Einsen sind gleichwahrscheinlich und es bestehen keine statistischen Bindungen zwischen einzelnen Symbolen.
'''Das Problem ist: Bei endlicher Folgenlänge $N$ gibt es keine perfekte Quellencodierung'''.

Von den Lempel–Ziv–Algorithmen weiß man (und kann diese Aussage sogar beweisen), dass sie '''asymptotisch optimal''' sind. Das bedeutet, dass die relative Redundanz der Codesymbolfolge

$$r(N) = \frac{L(N) - N \cdot H}{L(N)}= 1 - \frac{ N \cdot H}{L(N)}\hspace{0.05cm}$$

(hier als Funktion der Quellensymbolfolgenlänge $N$ geschrieben) für große $N$ den Grenzwert 0 liefert:

$$\lim_{N \rightarrow \infty}r(N) = 0 \hspace{0.05cm}.$$

Was aber sagt die Eigenschaft „asymptotisch optimal” für praxisrelevante Folgenlängen aus? Nicht allzu viel, wie der nachfolgende Bildschirmabzug des Flash–Moduls Lempel–Ziv–Algorithmen zeigt. Die Kurven gelten für den LZW–Algorithmus. Die Ergebnisse für LZ77 und [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Die_Lempel.E2.80.93Ziv.E2.80.93Variante_LZ78|LZ78]] sind aber nur geringfügig schlechter.

[[File: P_ID2441__Inf_T_2_2_S7a_neu.png|Beispielhafte Verläufe von ''L''(''N'') und ''r''(''N'')]]

Diese Grafik (und auch die Grafiken auf den nächsten Seiten) zeigen die Abhängigkeit der folgenden Größen von der Quellensymbolfolgenlänge $N$:
*die erforderliche Bitanzahl ( $N$ · ld $M$) ohne Quellencodierung (schwarze Kurven),
*die erforderliche Bitanzahl ( $H$ · $N$ ) bei perfekter Quellencodierung (grau–gestrichelt),
*die erforderliche Bitanzahl $L(N)$ bei LZW–Codierung (rote Kurven nach Mittelung),
*die relative Redundanz $r(N)$ bei LZW–Codierung (grüne Kurven).

Die Grafik auf dieser Seite gilt für eine redundante Binärquelle ( $M$ = 2 ) mit der Quellenentropie $H$ = 0.5. Man erkennt:
*Die schwarze und die graue Kurve sind echte Gerade (nicht nur bei diesem Parametersatz).
*Die rote Kurve $L(N)$ zeigt eine leichte Krümmung (mit bloßem Auge schwer zu erkennen).
*Wegen dieser Krümmung von $L(N)$ fällt die grüne Kurve $r(N)$ = 1 – 0.5 · $N/L(N)$ leicht ab.
*Abzulesen sind die Zahlenwerte $L$( $N$ = 10000 ) = 6800 und $r$( $N$ = 10000 ) = 26.5%.

{{end}}

In der oberen Grafik ist nochmals die redundante Binärquelle mit $H$ = 0.5 dargestellt. Die mittlere Grafik gilt dagegen für gleichwahrscheinliche Binärsymbole ⇒ $H$ = 1. Hier fallen die graue und die schwarze Gerade zusammen und die leicht gekrümmte rote Kurve liegt erwartungsgemäß darüber. Obwohl hier die LZW–Codierung eine Verschlechterung bringt – erkennbar aus der Angabe $L$( $N$ = 10000 ) = 12330, ist die relative Redundanz mit $r$( $N$ = 10000 ) = 18.9% kleiner als bei der oberen Grafik.

[[File:P_ID2450__Inf_T_2_2_S7b_neu.png|Beispielhafte Verläufe von ''L''(''N'') und ''r''(''N'')]]

Bei einer redundanten Quaternärquelle mit $H$ = 1.357 wären entsprechend der unteren Grafik ohne Codierung 20000 Bit (für $N$ = 10000) erforderlich und mit LZW–Codierung nur $L$ ≈ 16485. Die relative Redundanz beträgt hier $r$( $N$ = 10000 ) = 17.7%.

==Quantitative Aussagen zur asymptotischen Optimalität==

Die Ergebnisse der letzten Seite haben gezeigt, dass die relative Restredundanz $r$( $N$ = 10000 ) deutlich größer ist als der theoretisch versprochene Wert $r$( $N$ → ∞ ) = 0. Dieses praxisrelevante Ergebnis soll nun am Beispiel der redundanten Binärquelle mit $H$ = 0.5 bit/Quellensymbol präzisiert werden.

[[File:P_ID2443__Inf_T_2_2_S8_neu.png|LZW–Restredundanz ''r''(''N'') bei redundanter Binärquelle (''H'' = 0.5) ]]

Die Grafik zeigt jeweils Simulationen mit $N$ = 1000 Binärsymbolen, wobei sich nach Mittelung über 10 Versuchsreihen $r$( $N$ = 1000 ) = 35.2% ergibt. Unterhalb des gelben Punktes (im Beispiel bei $N$ ≈ 150) bringt der LZW–Algorithmus sogar eine Verschlechterung. In diesem Bereich gilt nämlich $L$ > $N$.
Die Tabelle fasst die Simulationsergebnisse für die redundante Binärquelle ( $$ = 0.5 ) zusammen:
In der Zeile 4 ist die Restredundanz $r(N)$ für verschiedene Folgenlängen $N$ zwischen 1000 und 50000 angegeben. Man erkennt den nur langsamen Abfall mit steigendem $N$.
Entsprechend Literaturangaben nimmt die Restredundanz mit 1/lg( $N$ ) ab. In Zeile 5 sind die Ergebnisse einer empirischen Formel eingetragen (Anpassung für $N$ = 10000):

$$r'(N) = {A}/{{\rm lg}\hspace{0.1cm}(N)}
\hspace{0.5cm}{\rm mit}\hspace{0.5cm} A = {r(N = 10000)} \cdot {{\rm lg}\hspace{0.1cm}10000} = 0.265 \cdot 4 = 1.06
\hspace{0.05cm}.$$

[[File:P_ID2923__Inf_T_2_2_S8b_neu.png|Einige Zahlenwerte zur Effizienz der LZW–Codierung ]]

Man erkennt die gute Übereinstimmung zwischen unseren Simulationsergebnissen $r(N)$, basierend auf unserem Interaktionsmodul Lempel–Ziv–Algorithmen, und der Faustformel $r′(N)$. Man erkennt aber auch, dass für $N$ = 1012 die Restredundanz des LZW–Algorithmus noch immer 8.8% beträgt.
Bei anderen Quellen erhält man mit anderen Zahlenwerten des Parameters $A$ ähnliche Ergebnisse. Der prinzipielle Kurvenverlauf bleibt aber gleich. Siehe auch [[Aufgaben:2.05_Relative_Restredundanz|Aufgabe A2.5]] und [[Aufgaben:2.05Z_LZW-Komprimierung|Aufgabe Z2.5]].

==Aufgaben zu Kapitel 2.2 ==

{{Display}}

Information Theory/Compression According to Lempel, Ziv and Welch

2017-02-05T17:45:28Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Allgemeine Beschreibung
|Nächste Seite=Entropiecodierung nach Huffman
}}

==Statische und dynamische Wörterbuchtechniken ==

Viele Datenkomprimierungsverfahren verwenden Wörterbücher. Die Idee ist dabei die Folgende: Man konstruiere eine Liste der Zeichenmuster, die im Text vorkommen, und codiere diese Muster als Indizes der Liste. Besonders effizient ist diese Vorgehensweise, wenn sich bestimmte Muster im Text häufig wiederholen und dies bei der Codierung auch berücksichtigt wird. Hierbei unterscheidet man:
*Verfahren mit statischem Wörterbuch,
*Verfahren mit dynamischem Wörterbuch (Beschreibung auf der nächsten Seite).

'''Verfahren mit statischem Wörterbuch'''
Ein statisches Wörterbuch ist nur für ganz spezielle Anwendungen sinnvoll, zum Beispiel für eine Datei der folgenden Form:

[[File:P_ID2424__Inf_T_2_2_S1a.png|Anwendungsbeispiele für ein statisches Wörterbuch]]

Beispielsweise ergibt sich mit den Zuordnungen

$$"\boldsymbol{\rm 0}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 000000} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm 9}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001001} \hspace{0.05cm},
"\hspace{-0.03cm}\_\hspace{-0.03cm}\_\hspace{0.03cm}" \hspace{0.1cm}{\rm (Blank)}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001010} \hspace{0.05cm},$$

$$"\hspace{-0.01cm}.\hspace{-0.01cm}" \hspace{0.1cm}{\rm (Punkt)}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001011} \hspace{0.05cm},
"\hspace{-0.01cm},\hspace{-0.01cm}" \hspace{0.1cm}{\rm (Komma)}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001011} \hspace{0.05cm},
" {\rm end\hspace{-0.1cm}-\hspace{-0.1cm}of\hspace{-0.1cm}-\hspace{-0.1cm}line}\hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 001101} \hspace{0.05cm},$$

$$"\boldsymbol{\rm A}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 100000} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm E}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 100100} \hspace{0.05cm},
\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm L}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 101011} \hspace{0.05cm},\hspace{0.15cm}"\boldsymbol{\rm M}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 101100} \hspace{0.05cm},$$

$$"\boldsymbol{\rm O}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 101110} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm},\hspace{0.05cm}
"\boldsymbol{\rm U}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 110100} \hspace{0.05cm},
"\boldsymbol{\rm Name\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 010000} \hspace{0.05cm},\hspace{0.05cm}$$

$$"\boldsymbol{\rm ,\_\hspace{-0.03cm}\_Vorname\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 010001} \hspace{0.05cm},\hspace{0.05cm}
"\boldsymbol{\rm ,\_\hspace{-0.03cm}\_Wohnort\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_}" \hspace{0.05cm} \mapsto \hspace{0.05cm} \boldsymbol{\rm 010010} \hspace{0.05cm},\hspace{0.15cm} ... \hspace{0.15cm}$$

für die mit 6 Bit pro Zeichen binär–quellencodierte erste Zeile des obigen Textes:

$$\boldsymbol{010000} \hspace{0.15cm}\boldsymbol{100000} \hspace{0.15cm}\boldsymbol{100001} \hspace{0.15cm}\boldsymbol{100100} \hspace{0.15cm}\boldsymbol{101011} \hspace{0.3cm}
\Rightarrow \hspace{0.3cm}
\boldsymbol{(\rm Name\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_)
\hspace{0.05cm}(A)\hspace{0.05cm}(B)\hspace{0.05cm}(E)\hspace{0.05cm}(L)}$$

$$\boldsymbol{010001} \hspace{0.15cm}\boldsymbol{101011}\hspace{0.15cm} \boldsymbol{100100} \hspace{0.15cm}\boldsymbol{101110}
\hspace{0.3cm}
\Rightarrow \hspace{0.3cm}
\boldsymbol{(,\hspace{-0.05cm}\_\hspace{-0.03cm}\_\rm Vorname\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_)
\hspace{0.05cm}(L)\hspace{0.05cm}(E)\hspace{0.05cm}(O)}$$

$$\boldsymbol{010010} \hspace{0.15cm}\boldsymbol{110100} \hspace{0.15cm}\boldsymbol{101011} \hspace{0.15cm}\boldsymbol{101100}
\hspace{0.3cm}\Rightarrow \hspace{0.3cm}
\boldsymbol{(,\hspace{-0.05cm}\_\hspace{-0.03cm}\_\rm Wohnort\hspace{-0.1cm}:\hspace{-0.05cm}\_\hspace{-0.03cm}\_)
\hspace{0.05cm}(U)\hspace{0.05cm}(L)\hspace{0.05cm}(M)}
\hspace{0.05cm} $$

$$\boldsymbol{001101}
\hspace{0.3cm}\Rightarrow \hspace{0.3cm}
({\rm end\hspace{-0.1cm}-\hspace{-0.1cm}of\hspace{-0.1cm}-\hspace{-0.1cm}line})
\hspace{0.05cm}$$

Bei dieser spezifischen Anwendung lässt sich die erste Zeile mit 14 · 6 = 84 Bit darstellen. Dagegen würde man bei herkömmlicher Binärcodierung 39 · 7 = 273 Bit benötigen (aufgrund der Kleinbuchstaben im Text reichen hier 6 Bit pro Zeichen nicht aus). Für den gesamten Text ergeben sich 103 · 6 = 618 Bit gegenüber 196 · 7 = 1372 Bit. Allerdings muss die Codetabelle auch dem Empfänger bekannt sein.

'''Verfahren mit dynamischem Wörterbuch'''
Alle relevanten Komprimierungsverfahren arbeiten allerdings nicht mit statischem Wörterbuch, sondern mit dynamischen Wörterbüchern, die erst während der Codierung sukzessive entstehen:
*Solche Verfahren sind flexibel einsetzbar und müssen nicht an die Anwendung adaptiert werden. Man spricht von universellen Quellencodierverfahren.
*Es genügt dann ein einziger Durchlauf, während bei Verfahren mit statischem Wörterbuch die Datei vor dem Codiervorgang erst analysiert werden muss.
*An der Sinke wird das dynamische Wörterbuch in gleicher Weise generiert wie bei der Quelle. Damit entfällt die Übertragung des Wörterbuchs.

{{Beispiel}}
Die Grafik zeigt einen kleinen Ausschnitt von 80 Byte einer [[Digitalsignalübertragung/Anwendungen_bei_Multimedia–Dateien#Bilder_im_BMP.E2.80.93Format_.281.29|BMP–Datei]] in Hexadezimaldarstellung. Es handelt sich um die unkomprimierte Darstellung eines natürlichen Bildes.

[[File:P_ID2926__Inf_T_2_2_S1b_neu.png|Auszug aus dem Hexdump eines natürlichen Bildes im BMP–Format]]

Man erkennt, dass in diesem kleinen Ausschnitt einer Landschaftsaufnahme die Bytes '''FF''', '''55''' und '''47''' sehr häufig auftreten. Eine Datenkomprimierung ist deshalb erfolgversprechend. Da aber an anderen Stellen der 4 MByte–Datei oder bei anderem Bildinhalt andere Bytekombinationen dominieren, wäre hier die Verwendung eines statischen Wörterbuchs nicht zielführend.

{{end}}

{{Beispiel}}
Bei einer künstlich erzeugten Grafik – zum Beispiel bei einem Formular – könnte man dagegen durchaus mit einem statischen Wörterbuch arbeiten. Wir betrachten hier ein S/W–Bild mit 27 × 27 Pixeln, wobei die Zuordnung „Schwarz” ⇒ '''0''' und „Weiß” ⇒ '''1''' vereinbart wurde.

[[File:P_ID2927__Inf_T_2_2_S1c_GANZ_neu.png|Mögliche Codierung einer einfachen Grafik]]

*Im oberen Bereich (schwarze Markierung) wird jede Zeile durch 27 Nullen beschrieben.
*In der Mitte (blaue Markierung) wechseln sich jeweils drei Nullen und drei Einsen ab.
*Unten (rote Markierung) werden pro Zeile 25 Einsen durch zwei Nullen begrenzt.

{{end}}

==LZ77 – die Grundform der Lempel–Ziv–Algorithmen ==

Die wichtigsten Verfahren zur Datenkomprimierung mit dynamischem Wörterbuch gehen auf [https://de.wikipedia.org/wiki/Abraham_Lempel Abraham Lempel] und [https://de.wikipedia.org/wiki/Jacob_Ziv Jacob Ziv] zurück. Die gesamte Lempel–Ziv–Familie (im Folgenden verwenden wir hierfür kurz: LZ–Verfahren) kann wie folgt charakterisiert werden:
*Lempel–Ziv–Verfahren nutzen die Tatsache, dass in einem Text oft ganze Wörter – oder zumindest Teile davon – mehrfach vorkommen. Man sammelt alle Wortfragmente, die man auch als ''Phrasen'' bezeichnet, in einem ausreichend großen Wörterbuch.
*Im Gegensatz zur vorher entwickelten Entropiecodierung (z.B. von Shannon und Huffman) ist hier nicht die Häufigkeit einzelner Zeichen oder Zeichenfolgen die Grundlage der Komprimierung, so dass die LZ–Verfahren auch ohne Kenntnis der Quellenstatistik angewendet werden können.
*LZ–Komprimierungsverfahren kommen dementsprechend mit einem einzigen Durchgang aus und auch der Quellensymbolumfang $M$ und die Symbolmenge { $q_μ$, $μ$ = 1, ... , $M$ } muss nicht bekannt sein. Man spricht von universeller Quellencodierung (englisch: Universal Source Coding).

Wir betrachten zunächst den Lempel–Ziv–Algorithmus in seiner ursprünglichen Form aus dem Jahre 1977, bekannt unter der Bezeichnung [https://de.wikipedia.org/wiki/LZ77 LZ77]. Dieser arbeitet mit einem Fenster, das sukzessive über den Text verschoben wird; man spricht auch von einem ''Sliding Window''. Die Fenstergröße $G$ ist dabei ein wichtiger Parameter, der das Komprimierungsergebnis entscheidend beeinflusst.

[[File:P_ID2426__Inf_T_2_2_S2a_neu.png|Sliding–Window bei LZ77–Komprimierung]]

Die Grafik zeigt eine beispielhafte Belegung des Sliding Windows. Dieses ist unterteilt in
*den Vorschaupuffer (blaue Hinterlegung) und
*den Suchpuffer (rote Hinterlegung, mit Positionen $P$ = 0, ... , 7 ⇒ $G$ = 8).

Der bearbeitete Text umfasst die vier Worte '''Miss''', '''Mission''', '''Mississippi''' und '''Mistral''', jeweils getrennt durch einen Bindestrich. Zum betrachteten Zeitpunkt steht im Vorschaupuffer '''Mississi'''.
*Gesucht wird nun im Suchpuffer die beste Übereinstimmung ⇒ die Zeichenfolge mit der maximalen Übereinstimmungslänge $L$. Diese ergibt sich für die Position $P$ = 7 und die Länge $L$ = 5 zu '''Missi'''.
*Dieser Schritt wird durch das ''Triple'' (7, 5, '''s''') ausgedrückt ⇒ allgemein ( $P$, $L$, $Z$ ), wobei $Z$ = '''s''' das Zeichen angibt, das nicht mehr mit der gefundenen Zeichenfolge im Suchpuffer übereinstimmt.
*Anschließend wird das Fenster um $L$ + 1 = 6 Zeichen nach rechts verschoben. Im Vorschaupuffer steht nun '''sippi–Mi''', im Suchpuffer '''n–Missis''' und die Codierung ergibt das Triple (2, 2, '''p''').
Auf der nächsten Seite werden die LZ77–Codier & Decodier–Algorithmen genauer beschrieben.

Als weiteres Beispiel betrachten wir die LZ77–Codierung des Strings '''ABABCBCBAABCABe''' entsprechend der folgenden Grafik. Die Eingangsfolge hat die Länge $N$ = 15. Weiter wird vorausgesetzt:
*Zeichen $Z$ ∈ { '''A''', '''B''', '''C''', '''e''' }, '''e''' entspricht ''end–of–file'' (Ende des Eingabe–Strings),
*Größe von Vorschau– und Suchpuffer jeweils $G$ = 4 ⇒ Position $P$ ∈ {0, 1, 2, 3}.

[[File:P_ID2427__Inf_T_2_2_S2b_neu.png|Zur Verdeutlichung der LZ77–Codierung]]

Hierzu einige Anmerkungen (''Hinweis'': Der Decodiervorgang läuft in vergleichbarer Weise ab):
* ''Schritt 1 und 2'': Es werden die Zeichen '''A''' und '''B''' durch die Triple (0, 0, '''A''') und (0, 0, '''B''') codiert, da diese im Suchpuffer noch nicht abgelegt sind. Dann Verschiebung des Sliding Window um 1.
* ''Schritt 3'': '''AB''' wird über den Suchpuffer maskiert und gleichzeitig das noch unbekannte Zeichen '''C''' angehängt. Danach wird das Sliding Window um 3 Positionen nach rechts verschoben.
* ''Schritt 4'': Hier wird gezeigt, dass der Suchstring '''BCB''' auch im Vorschaupuffer enden darf. Jetzt kann das Fenster um 4 Positionen verschoben werden.
* ''Schritt 5'': Es wird im Suchpuffer lediglich '''A''' gefunden und '''B''' abgehängt. Bei größerem Suchpuffer könnten dagegen '''ABC''' gemeinsam maskiert werden. Dazu müsste $G$ ≥ 7 sein.
* ''Schritt 6'': Ebenso muss das Zeichen '''C''' aufgrund des zu kleinen Puffers separat codiert werden. Da aber '''CA''' vorher noch nicht aufgetreten ist, würde $G$ = 7 die Komprimierung nicht verbessern.
* ''Schritt 7'': Mit der Berücksichtigung des end–of–file (e) gemeinsam mit '''AB''' aus dem Suchpuffer ist der Codiervorgang abgeschlossen.

Vor der Übertragung müssen natürlich die angegebenen Triple noch binär codiert werden. Dabei benötigt man im vorliegenden Beispiel für
*die Position $P$ ∈ {0, 1, 2, 3} zwei Bit (gelbe Hinterlegung),
*die Kopierlänge $L$ drei Bit (grün hinterlegt), so dass man auch $L$ = 7 noch darstellen könnte,
*alle Zeichen mit jeweils zwei Bit (weiß hinterlegt), z.B. '''A → 00''', '''B → 01''', '''C = 10''', '''e = 11'''.

Damit hat die LZ77–Ausgangsfolge eine Länge von 7 · 7 = 49 Bit, während die Eingangsfolge nur 15 · 2 = 30 Bit benötigt ⇒ '''Eine LZ–Komprimierung macht nur bei großen Dateien Sinn'''.

==Die Lempel–Ziv–Variante LZ78 ==

Der LZ77–Algorithmus erzeugt dann eine sehr ineffiziente Ausgabe, wenn sich häufigere Zeichenfolgen erst mit größerem Abstand wiederholen. Aufgrund der begrenzten Puffergröße $G$ des ''Sliding Window'' können solche Wiederholungen oft nicht erkannt werden.

Lempel und Ziv haben dieses Manko bereits ein Jahr nach der Veröffentlichung der ersten Version LZ77 korrigiert. Der Algorithmus LZ78 verwendet zur Komprimierung anstelle des lokalen Wörterbuchs (Suchpuffer) ein globales Wörterbuch. Bei entsprechender Wörterbuchgröße lassen sich somit auch solche Phrasen, die schon längere Zeit vorher im Text aufgetaucht sind, effizient komprimieren.

[[File:P_ID2428__Inf_T_2_2_S3.png|Generierung des Wörterbuchs und Ausgabe bei LZ78]]

Zur Erklärung des LZ78–Algorithmus betrachten wir die gleiche Folge '''ABABCBCBAABCABe''' wie für das LZ77–Beispiel auf der letzten Seite.
*Die Grafik zeigt (mit roter Hinterlegung) das Wörterbuch mit Index $I$ (in Dezimal– und Binärdarstellung, Spalte 1 und 2) und dem entsprechenden Inhalt (Spalte 3), der zum Codierschritt $i$ eingetragen wird (Spalte 4). Bei LZ78 gilt sowohl für die Codierung als auch für die Decodierung stets $i$ = $I$.
*In Spalte 5 findet man die formalisierte Coderausgabe (Index I, neues Zeichen Z). In der Spalte 6 ist die dazugehörige Binärcodierung angegeben mit vier Bit für den Index und der gleichen Zeichenzuordnung '''A → 00''', '''B → 01''', '''C → 10''', '''e''' („end–of–file”) '''→ 11''' wie im letzten Beispiel.

Der LZ78–Algorithmus wird nun anhand dieses Beispiels wie folgt erklärt:
*Zu Beginn (Schritt $i$ = 0) ist das Wörterbuch (WB) leer bis auf den Eintrag $ε$ (leeres Zeichen, nicht zu verwechseln mit dem Leerzeichen, das aber hier nicht verwendet wird) mit Index $I$ = 0.
*Im Schritt $i$ = 1 findet man im Wörterbuch noch keinen verwertbaren Eintrag, und es wird (0, '''A''') ausgegeben ('''A''' folgt auf $ε$). Im Wörterbuch erfolgt der Eintrag '''A''' in Zeile $I$ = 1 (abgekürzt 1:'''A''').
*Damit vergleichbar ist die Vorgehensweise im zweiten Schritt ( $i$ = 2 ). Ausgegeben wird hier (0, '''B''') und ins Wörterbuch wird 2:B eingetragen.
*Da bei Schritt 3 bereits der Eintrag 1:'''A''' gefunden wird, können hier die Zeichen AB gemeinsam durch (1, B) codiert werden und es wird der neue Wörterbucheintrag 3:'''AB''' vorgenommen.
*Nach Codierung und Eintrag des neuen Zeichens '''C''' in Schritt 4 wird im Schritt 5 das Zeichenpaar '''BC''' gemeinsam codiert ⇒ (2, '''C''') und in das Wörterbuch 5:'''BC''' eingetragen.
*In Schritt 6 werden mit '''BA''' ebenfalls zwei Zeichen gemeinsam behandelt und in den beiden letzten Schritten jeweils drei, nämlich 7:'''ABC''' und 8:'''ABe'''. Die Ausgabe (3, '''C''') steht für „WB(3) + '''C”''' = '''ABC''' und die Ausgabe (3, '''e''') für '''ABe'''.

[[File:P_ID2429__Inf_T_2_2_S3.png|Generierung des Wörterbuchs und Ausgabe bei LZ78]]

Im Beispiel besteht somit die LZ78–Codesymbolfolge aus 8 · 6 = 48 Bit. Das Ergebnis ist vergleichbar mit LZ77 (49 Bit). Auf Details und Verbesserungen von LZ78 wird hier verzichtet. Hier verweisen wir auf den [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Der_Lempel.E2.80.93Ziv.E2.80.93Welch.E2.80.93Algorithmus|LZW–Algorithmus]], der auf den nächsten Seiten beschrieben wird. Soviel nur vorneweg:
*Der Index $I$ wird hier einheitlich mit 4 Bit dargestellt, wodurch das Wörterbuch auf 16 Einträge beschränkt ist. Durch eine [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch|variable Bitanzahl]] für den Index kann man diese Einschränkung umgehen. Gleichzeitig erhält man so einen besseren Komprimierungsfaktor.
*Das Wörterbuch muss bei allen LZ–Varianten nicht übertragen werden, sondern wird beim Decoder in genau gleicher Weise erzeugt wie auf der Coderseite. Die Decodierung erfolgt bei LZ78 – nicht aber bei LZW – ebenfalls in analoger Weise wie die Codierung.
*Alle LZ–Verfahren sind asymptotisch optimal, das heißt, dass bei unendlich langen Folgen die mittlere Codewortlänge pro Quellensymbol gleich der Quellenentropie ist: $L_M$ = $H$. Bei kurzen Folgen ist die Abweichung allerdings beträchtlich. Mehr dazu am [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Quantitative_Aussagen_zur_asymptotischen_Optimalit.C3.A4t|Kapitelende]].

==Der Lempel–Ziv–Welch–Algorithmus ==

Die heute gebräuchlichste Variante der Lempel–Ziv–Komprimierung wurde von [https://de.wikipedia.org/wiki/Terry_Welch Terry Welch] entworfen und 1983 veröffentlicht. Wir nennen diese den ''Lempel–Ziv–Welch–Algorithmus'', abgekürzt mit LZW. Ebenso wie LZ78 leichte Vorteile gegenüber LZ77 aufweist (wie zu erwarten – warum sonst hätte der Algorithmus modifiziert werden sollen?), hat LZW gegenüber LZ78 auch mehr Vorteile als Nachteile.

[[File:P_ID2430__Inf_T_2_2_S4_neu.png|LZW–Codierung der Folge '''ABABCBCBAABCABe''']]

Die Grafik zeigt die Coderausgabe für die beispielhafte Eingangsfolge '''ABABCBCBAABCABe'''. Rechts dargestellt ist das Wörterbuch (rot hinterlegt), das bei der LZW–Codierung sukzessive entsteht. Die Unterschiede gegenüber LZ78 erkennt man im Vergleich zur Grafik auf der letzten Seite, nämlich:
*Bei LZW sind im Wörterbuch schon zu Beginn ( $i$ = 0 ) alle vorkommenden Zeichen eingetragen und einer Binärfolge zugeordnet, im Beispiel mit den Indizes $I$ = 0, ... , $I$ = 3.
*Das bedeutet aber auch, dass bei LZW doch gewisse Kenntnisse über die Nachrichtenquelle vorhanden sein müssen, während LZ78 eine „echte universelle Codierung” darstellt.
*Bei LZW wird zu jedem Codierschritt $i$ nur ein Wörterbuchindex I übertragen, während bei LZ78 die Kombination ( $I$, $Z$ ) ausgegeben wird; $Z$ gibt dabei das aktuell neue Zeichen an.
*Aufgrund des Fehlens von $Z$ in der Coderausgabe ist die LZW–Decodierung komplizierter als bei LZ78. Nähere Angaben zur LZW–Decodierung finden Sie später im Kapitels.

Für die nachfolgende beispielhafte LZW–Codierung wird wie bei der Beschreibung von LZ77 und LZ78 wieder die Eingangsfolge '''ABABCBCBAABCABe''' vorausgesetzt.

* ''Schritt i = 0'' (Vorbelegung): Die erlaubten Zeichen '''A''', '''B''', '''C''' und '''e''' („end–of–file”) werden in das Wörterbuch eingetragen und den Indizes $I$ = 0, ... , $I$ = 3 zugeordnet.
* ''Schritt i = 1'': '''A''' wird durch den Dezimalindex $I$ = 0 codiert und dessen Binärdarstellung 0000 übertragen. Anschließend wird ins Wörterbuch die Kombination aus dem aktuellen Zeichen '''A''' und dem nachfolgenden Zeichen '''B''' der Eingangsfolge unter dem Index $I$ = 4 abgelegt.
* ''Schritt i = 2'': Darstellung von $B$ durch Index $I$ = 1 bzw. '''0001''' (binär) sowie Wörterbucheintrag von '''BA''' mit Index $I$ = 5.
* ''Schritt i = 3'': Aufgrund des Wörterbucheintrags '''AB''' zum Zeitpunkt $i$ = 1 ergibt sich der zu übertragende Index $I$ = 4 (binär: '''0100'''). Danach wird ins Wörterbuch '''ABC''' neu eingetragen.
* ''Schritt i = 8'': Hier werden die Zeichen ABC gemeinsam durch den Index $I$ = 6 (binär: '''0110''') dargestellt und der Eintrag für '''ABCA''' vorgenommen.

Mit der Codierung von '''e''' (EOF–Marke) ist der Codiervorgang nach 10 Schritten beendet. Bei LZ78 wurden nur 8 Schritte benötigt. Es ist aber zu berücksichtigen:
*Der LZW–Algorithmus benötigt für die Darstellung dieser 15 Eingangssymbole nur 10 · 4 = 40 Bit gegenüber den 8 · 6 = 48 Bit bei LZ78. Vorausgesetzt ist für diese einfache Rechnung jeweils 4 Bit zur Indexdarstellung.
*Sowohl bei LZW als auch bei LZ78 kommt man mit weniger Bit aus (nämlich mit 34 bzw. 42), wenn man berücksichtigt, dass zum Schritt $i$ = 1 der Index nur mit 2 Bit codiert werden muss ( $I$ ≤ 3 ) und für $i$ = 2 bis $i$ = 5 auch 3 Bit ausreichen ( $I$ ≤ 7 ).

Auf den beiden folgenden Seiten wird auf die variable Bitanzahl zur Indexdarstellung sowie auf die Decodierung von LZ78– und LZW–codierten Binärfolgen noch im Detail eingegangen.

==Lempel–Ziv–Codierung mit variabler Indexbitlänge ==

Aus Gründen einer möglichst kompakten Darstellung betrachten wir nun nur noch Binärquellen mit dem Wertevorrat { '''A''', '''B''' }. Auch das Abschlusszeichen '''end–of–file''' bleibt unberücksichtigt.

[[File:P_ID2432__Inf_T_2_2_S5_neu.png|LZW–Codierung einer binären Eingangsfolge]]

Wir betrachten die LZW–Codierung anhand eines Bildschirmabzugs unseres interaktiven Flash–Moduls Lempel–Ziv–Algorithmen. Die Aussagen gelten aber in gleicher Weise für LZ78.
*Beim ersten Codierschritt ( $i$ = 1 ) wird A mit 0 codiert. Danach erfolgt im Wörterbuch der Eintrag mit dem Index $I$ = 2 und dem Inhalt '''AB'''.
*Da es bei Schritt $i$ = 1 im Wörterbuch mit '''A''' und '''B''' nur zwei Einträge gibt, genügt ein Bit. Dagegen werden bei Schritt 2 und 3 für '''B ⇒ 01''' bzw. '''A ⇒ 00''' jeweils zwei Bit benötigt.
*Ab $i$ = 4 erfolgt die Indexdarstellung mit 3 Bit, ab $i$ = 8 mit 4 Bit und ab $i$ = 16 mit 5 Bit. Hieraus lässt sich ein einfacher Algorithmus für die jeweilige Index–Bitanzahl $L(i)$ ableiten.
*Betrachten wir abschließend den Codierschritt $i$ = 18. Hier wird die rot markierte Sequenz '''ABABB''', die zum Zeitpunkt $i$ = 11 in das Wörterbuch eingetragen wurde (Index $I$ = 13 ⇒ '''1101''') bearbeitet. Die Ausgabe lautet wegen $i$ ≥ 16 aber nun '''01101''' (grüne Markierung).

Die Verbesserung durch variable Indexbitlänge ist auch bei LZ78 in gleicher Weise möglich.

==Decodierung des LZW–Algorithmus ==

Am Decoder liegt nun die auf der letzten Seite ermittelte Coder–Ausgabe als Eingangsfolge an. Die Grafik zeigt, dass es auch bei variabler Indexbitlänge möglich ist, diese Folge eindeutig zu decodieren.

[[File:P_ID2433__Inf_T_2_2_S6_neu.png|LZW–Decodierung einer binären Eingangsfolge]]

Beim Decoder wird genau das gleiche Wörterbuch generiert wie beim Coder, doch erfolgen hier die Wörterbucheinträge einen Zeitschritt später. Weiter gilt:
*Dem Decoder ist bekannt, dass im ersten Codierschritt der Index $I$ mit nur einem Bit codiert wurde, in den Schritten 2 und 3 mit zwei Bit, ab $i$ = 4 mit drei Bit, ab $i$ = 8 mit vier Bit, usw.
*Zum Schritt $i$ = 1 wird also '''0''' als '''A''' decodiert. Ebenso ergibt sich zum Schritt $i$ = 2 aus der Vorbelegung des Wörterbuches und der vereinbarten Zwei–Bit–Darstellung: '''1 ⇒ 01 ⇒ B'''.
*Der Eintrag der Zeile I = 2 (Inhalt: '''AB''') des Wörterbuchs erfolgt also erst zum Schritt $i$ = 2, während beim [[Lempel–Ziv–Codierung mit variabler Indexbitlänge|Codiervorgang]] dies bereits am Ende von Schritt 1 geschehen konnte.
*Betrachten wir weiter die Decodierung für $i$ = 4. Der Index 2 liefert das Decodierergebnis '''AB''' und im nächsten Schritt ( $i$ = 5 ) wird die Wörterbuchzeile $I$ = 5 mit '''ABA''' belegt.
*Diese Zeitverschiebung hinsichtlich der WB–Einträge kann zu Decodierproblemen führen. Zum Beispiel gibt es zum Schritt $i$ = 7 noch keinen Wörterbuch–Eintrag mit Index $I$ = 7.
*Was ist in einem solchen Fall ( $I$ = $i$ ) zu tun? Man nimmt in diesem Fall das Ergebnis des vorherigen Decodierschrittes (hier: '''BA''' für $i$ = 6) und fügt das erste Zeichen dieser Sequenz am Ende noch einmal an. Man erhält so das Decodierergebnis für $i$ = 7 zu '''BAB'''.
*Natürlich ist es unbefriedigend, nur ein Rezept anzugeben. In der [[Aufgaben:2.04Z_LZW-Codierung-/-Decodierung|Aufgabe Z2.4]] sollen Sie das Vorgehen selbst begründen. Wir verweisen hier auf die Musterlösung zur Aufgabe.

Bei der LZ78–Decodierung tritt das hier geschilderte Problem nicht auf, da nicht nur der Index $I$, sondern auch das aktuelle Zeichen Z im Codierergebnis enthalten ist und übertragen wird.

==Effizienz der Lempel–Ziv–Codierung ==

Für den Rest dieses Kapitels gehen wir von folgenden Voraussetzungen aus:
*Der ''Symbolumfang'' der Quelle (oder im übertragungstechnischen Sinne die Stufenzahl) sei $M$, wobei $M$ eine Zweierpotenz darstellt ⇒ $M$ = 2, 4, 8, 16, ....
*Die Quellenentropie sei $H$. Gibt es keine statistischen Bindungen zwischen den Symbolen, so gilt $H$ = $H_0$, wobei $H_0$ = ld $M$ den Entscheidungsgehalt angibt. Andernfalls gilt $H$ < $H_0$.
*Eine Symbolfolge der Länge $N$ wird quellencodiert und liefert eine binäre Codefolge der Länge $L$. Über die Art der Quellencodierung treffen wir vorerst keine Aussage.

Nach dem [[Informationstheorie/Allgemeine_Beschreibung#Quellencodierungstheorem|Quellencodierungstheorem]] muss die mittlere Codewortlänge $L_M$ größer oder gleich der Quellenentropie $H$ (in bit/Quellensymbol) sein. Das bedeutet
*für die Gesamtlänge der quellencodierten Binärfolge:
$$L \ge N \cdot H \hspace{0.05cm},$$
*für die relative Redundanz der Codefolge, im Folgenden kurz '''Restredundanz''' genannt:

$$r = \frac{L - N \cdot H}{L} \hspace{0.05cm}.$$

{{Beispiel}}
Gäbe es für eine redundanzfreie binäre Quellensymbolfolge ( $M$ = 2, $p_A$ = $p_B$ = 0.5, ohne statistische Bindungen ) der Länge $N$ = 10000 eine perfekte Quellencodierung, so hätte auch die Codefolge die Länge $L$ = 10000.
*Für diese Nachrichtenquelle ist Lempel–Ziv nicht geeignet. Es wird $L$ > $N$ gelten. Man kann es auch ganz lapidar ausdrücken: Die perfekte Quellencodierung ist hier gar keine Codierung.
*Eine redundante Binärquelle mit $p_A$ = 0.89, $p_B$ = 0.11 ⇒ $H$ = 0.5 könnte man mit einer perfekten Quellencodierung durch $L$ = 5000 Bit darstellen, ohne dass wir hier sagen können, wie diese perfekte Quellencodierung aussieht.
*Bei einer Quaternärquelle ist $H$ > 1 (bit/Quellensymbol) möglich, so dass auch bei perfekter Codierung stets $L$ > $N$ sein wird. Ist die Quelle redundanzfrei (keine Bindungen, alle $M$ Symbole gleichwahrscheinlich), so hat sie die Entropie $H$ = 2 bit/Quellensymbol.

Bei allen diesen Beispielen für perfekte Quellencodierung wäre die relative Redundanz der Codefolge (Restredundanz) $r$ = 0. Das heißt: Die Nullen und Einsen sind gleichwahrscheinlich und es bestehen keine statistischen Bindungen zwischen einzelnen Symbolen.
'''Das Problem ist: Bei endlicher Folgenlänge $N$ gibt es keine perfekte Quellencodierung'''.

Von den Lempel–Ziv–Algorithmen weiß man (und kann diese Aussage sogar beweisen), dass sie '''asymptotisch optimal''' sind. Das bedeutet, dass die relative Redundanz der Codesymbolfolge

$$r(N) = \frac{L(N) - N \cdot H}{L(N)}= 1 - \frac{ N \cdot H}{L(N)}\hspace{0.05cm}$$

(hier als Funktion der Quellensymbolfolgenlänge $N$ geschrieben) für große $N$ den Grenzwert 0 liefert:

$$\lim_{N \rightarrow \infty}r(N) = 0 \hspace{0.05cm}.$$

Was aber sagt die Eigenschaft „asymptotisch optimal” für praxisrelevante Folgenlängen aus? Nicht allzu viel, wie der nachfolgende Bildschirmabzug des Flash–Moduls Lempel–Ziv–Algorithmen zeigt. Die Kurven gelten für den LZW–Algorithmus. Die Ergebnisse für LZ77 und [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Die_Lempel.E2.80.93Ziv.E2.80.93Variante_LZ78|LZ78]] sind aber nur geringfügig schlechter.

[[File: P_ID2441__Inf_T_2_2_S7a_neu.png|Beispielhafte Verläufe von ''L''(''N'') und ''r''(''N'')]]

Diese Grafik (und auch die Grafiken auf den nächsten Seiten) zeigen die Abhängigkeit der folgenden Größen von der Quellensymbolfolgenlänge $N$:
*die erforderliche Bitanzahl ( $N$ · ld $M$) ohne Quellencodierung (schwarze Kurven),
*die erforderliche Bitanzahl ( $H$ · $N$ ) bei perfekter Quellencodierung (grau–gestrichelt),
*die erforderliche Bitanzahl $L(N)$ bei LZW–Codierung (rote Kurven nach Mittelung),
*die relative Redundanz $r(N)$ bei LZW–Codierung (grüne Kurven).

Die Grafik auf dieser Seite gilt für eine redundante Binärquelle ( $M$ = 2 ) mit der Quellenentropie $H$ = 0.5. Man erkennt:
*Die schwarze und die graue Kurve sind echte Gerade (nicht nur bei diesem Parametersatz).
*Die rote Kurve $L(N)$ zeigt eine leichte Krümmung (mit bloßem Auge schwer zu erkennen).
*Wegen dieser Krümmung von $L(N)$ fällt die grüne Kurve $r(N)$ = 1 – 0.5 · $N/L(N)$ leicht ab.
*Abzulesen sind die Zahlenwerte $L$( $N$ = 10000 ) = 6800 und $r$( $N$ = 10000 ) = 26.5%.

{{end}}

In der oberen Grafik ist nochmals die redundante Binärquelle mit $H$ = 0.5 dargestellt. Die mittlere Grafik gilt dagegen für gleichwahrscheinliche Binärsymbole ⇒ $H$ = 1. Hier fallen die graue und die schwarze Gerade zusammen und die leicht gekrümmte rote Kurve liegt erwartungsgemäß darüber. Obwohl hier die LZW–Codierung eine Verschlechterung bringt – erkennbar aus der Angabe $L$( $N$ = 10000 ) = 12330, ist die relative Redundanz mit $r$( $N$ = 10000 ) = 18.9% kleiner als bei der oberen Grafik.

[[File:P_ID2450__Inf_T_2_2_S7b_neu.png|Beispielhafte Verläufe von ''L''(''N'') und ''r''(''N'')]]

Bei einer redundanten Quaternärquelle mit $H$ = 1.357 wären entsprechend der unteren Grafik ohne Codierung 20000 Bit (für $N$ = 10000) erforderlich und mit LZW–Codierung nur $L$ ≈ 16485. Die relative Redundanz beträgt hier $r$( $N$ = 10000 ) = 17.7%.

==Quantitative Aussagen zur asymptotischen Optimalität==

Die Ergebnisse der letzten Seite haben gezeigt, dass die relative Restredundanz $r$( $N$ = 10000 ) deutlich größer ist als der theoretisch versprochene Wert $r$( $N$ → ∞ ) = 0. Dieses praxisrelevante Ergebnis soll nun am Beispiel der redundanten Binärquelle mit $H$ = 0.5 bit/Quellensymbol präzisiert werden.

[[File:P_ID2443__Inf_T_2_2_S8_neu.png|LZW–Restredundanz ''r''(''N'') bei redundanter Binärquelle (''H'' = 0.5) ]]

Die Grafik zeigt jeweils Simulationen mit $N$ = 1000 Binärsymbolen, wobei sich nach Mittelung über 10 Versuchsreihen $r$( $N$ = 1000 ) = 35.2% ergibt. Unterhalb des gelben Punktes (im Beispiel bei $N$ ≈ 150) bringt der LZW–Algorithmus sogar eine Verschlechterung. In diesem Bereich gilt nämlich $L$ > $N$.
Die Tabelle fasst die Simulationsergebnisse für die redundante Binärquelle ( $$ = 0.5 ) zusammen:
In der Zeile 4 ist die Restredundanz $r(N)$ für verschiedene Folgenlängen $N$ zwischen 1000 und 50000 angegeben. Man erkennt den nur langsamen Abfall mit steigendem $N$.
Entsprechend Literaturangaben nimmt die Restredundanz mit 1/lg( $N$ ) ab. In Zeile 5 sind die Ergebnisse einer empirischen Formel eingetragen (Anpassung für $N$ = 10000):

$$r'(N) = {A}/{{\rm lg}\hspace{0.1cm}(N)}
\hspace{0.5cm}{\rm mit}\hspace{0.5cm} A = {r(N = 10000)} \cdot {{\rm lg}\hspace{0.1cm}10000} = 0.265 \cdot 4 = 1.06
\hspace{0.05cm}.$$

[[File:P_ID2923__Inf_T_2_2_S8b_neu.png|Einige Zahlenwerte zur Effizienz der LZW–Codierung ]]

Man erkennt die gute Übereinstimmung zwischen unseren Simulationsergebnissen $r(N)$, basierend auf unserem Interaktionsmodul Lempel–Ziv–Algorithmen, und der Faustformel $r′(N)$. Man erkennt aber auch, dass für $N$ = 1012 die Restredundanz des LZW–Algorithmus noch immer 8.8% beträgt.
Bei anderen Quellen erhält man mit anderen Zahlenwerten des Parameters $A$ ähnliche Ergebnisse. Der prinzipielle Kurvenverlauf bleibt aber gleich. Siehe auch [[Aufgaben:2.05_Relative_Restredundanz|Aufgabe A2.5]] und [[Aufgaben:2.05Z_LZW-Komprimierung|Aufgabe Z2.5]].

==Aufgaben zu Kapitel 2.2 ==

{{Display}}

Information Theory/General Description

2017-02-05T17:30:45Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Natürliche wertdiskrete Nachrichtenquellen
|Nächste Seite=Komprimierung nach Lempel, Ziv und Welch
}}

==Quellencodierung – Kanalcodierung – Leitungscodierung ==

Wir betrachten für die Beschreibungen im Kapitel 2 das folgende digitale Übertragungsmodell:

[[File:P_ID2315__Inf_T_2_1_S1_neu.png|Vereinfachtes Modell eines Nachrichtenübertragungssystems]]

Zu diesem Modell ist zu bemerken:
*Das Quellensignal $q(t)$ kann ebenso wie das Sinkensignal υ(t) sowohl analog als auch digital sein. Alle anderen Signale in diesem Blockschaltbild – auch die hier nicht explizit benannten – sind Digitalsignale.
*Insbesondere sind auch die Signale $x(t)$ und $y(t)$ am Eingang und Ausgang des Digitalen Kanals digital und können deshalb auch durch die Symbolfolgen $〈x_ν〉$ und $〈y_ν〉$ vollständig beschrieben werden.
*Der „Digitale Kanal” beinhaltet neben dem Übertragungsmedium und den Störungen (Rauschen) auch Komponenten des Senders (Modulator, Sendeimpulsformer, usw.) und des Empfängers (Demodulator, Empfangsfilter bzw. Detektor, Entscheider). Zur Modellierung des Digitalen Kanals sei auf das Kapitel 5 im Buch [[Digitalsignalübertragung]] verwiesen.

Wie aus dem obigen Blockschaltbild zu erkennen ist, unterscheidet man je nach Zielrichtung zwischen drei verschiedenen Arten von Codierung, jeweils realisiert durch den sendeseitigen Codierer (Coder) und den zugehörigen Decoder beim Empfänger:
*Die Aufgabe der Quellencodierung ist die Redundanzreduktion zur Datenkomprimierung, wie sie beispielsweise in der Bildcodierung Anwendung findet. Durch Ausnutzung statistischer Bindungen zwischen den einzelnen Punkten eines Bildes bzw. zwischen den Helligkeitswerten eines Punktes zu verschiedenen Zeiten (bei Bewegtbildsequenzen) können Verfahren entwickelt werden, die bei nahezu gleicher Bildqualität zu einer merklichen Verminderung der Datenmenge (gemessen in Bit oder Byte) führen. Ein einfaches Beispiel hierfür ist die differentielle Pulscodemodulation (DPCM).
*Bei der Kanalcodierung erzielt man demgegenüber dadurch eine merkliche Verbesserung des Übertragungsverhaltens, dass eine beim Sender gezielt hinzugefügte Redundanz empfangsseitig zur Erkennung und Korrektur von Übertragungsfehlern genutzt wird. Solche Codes, deren wichtigste Vertreter Blockcodes, Faltungscodes und Turbocodes sind, haben besonders bei stark gestörten Kanälen eine große Bedeutung. Je größer die relative Redundanz des codierten Signals ist, desto besser sind die Korrektureigenschaften des Codes, allerdings bei verringerter Nutzdatenrate.
*Eine Leitungscodierung – häufig auch als Übertragungscodierung bezeichnet – verwendet man, um das Sendesignal durch eine Umcodierung der Quellensymbole an die spektralen Eigenschaften von Kanal und Empfangseinrichtungen anzupassen. Beispielsweise muss bei einem Übertragungskanal, über den kein Gleichsignal übertragen werden kann – für den also $H_K(f$ = 0) = 0 gilt – durch Übertragungscodierung sichergestellt werden, dass die Codesymbolfolge keine langen Folgen gleicher Polarität beinhaltet.

Im Mittelpunkt des vorliegenden Kapitels steht die verlustfreie Quellencodierung, die ausgehend von der Quellensymbolfolge $〈q_ν〉$ eine datenkomprimierte Codesymbolfolge $〈c_ν〉$ generiert, basierend auf den Ergebnissen der Informationstheorie.
Der Kanalcodierung ist in unserem Tutorial ein eigenes Buch mit folgendem [[Kanalcodierung|Inhalt]] gewidmet. Die Leitungscodierung wird in Kapitel 2 des Buches [[Digitalsignalübertragung/Grundlagen_der_codierten_Übertragung| Digitalsignalübertragung]] eingehend behandelt.
Anmerkung: Wir verwenden hier einheitlich „ν” als Laufvariable einer Symbolfolge. Eigentlich müssten für $〈q_ν〉$, $〈c_ν〉$ und $〈x_ν〉$ unterschiedliche Indizes verwendet werden, wenn die Raten nicht übereinstimmen.

==Verlustbehaftete Quellencodierung ==

Ein erstes Beispiel für Quellencodierung ist die 1938 erfundene [https://de.wikipedia.org/wiki/Puls-Code-Modulation Pulscodemodulation] (PCM), die aus einem analogen Quellensignal q(t) durch
*Abtastung
*Quantisierung
*PCM–Codierung

die Codesymbolfolge $〈c_ν〉$ extrahiert. Wegen der erforderlichen Bandbegrenzung und der Quantisierung ist diese Umformung jedoch stets verlustbehaftet. Das bedeutet, dass die codierte Folge $〈c_ν〉$ nicht die gesamte Information des Quellensignals $q(t)$ beinhaltet, und dass sich das Sinkensignal $v(t)$ grundsätzlich von $q(t)$ unterscheidet. Meist ist die Abweichung allerdings nicht sehr groß.

[[File:P_ID2925__Mod_T_4_1_S1_neu.png|Prinzip der PCM]]

Die Grafik verdeutlicht das PCM–Prinzip. Die zugehörige Bildbeschreibung findet man auf den ersten Seiten von [[Modulationsverfahren/Pulscodemodulation#Prinzip_und_Blockschaltbild_.281.29|Kapitel 4.1]] im Buch [[Modulationsverfahren]].

{{Beispiel}}
Wird ein Sprachsignal spektral auf die Bandbreite $B$ = 4 kHz ⇒ Abtastrate $f_A$ = 8 kHz begrenzt, so ergibt sich bei Quantisierung mit 13 Bit ⇒ Quantisierungsstufenzahl M = $2^13$ = 8192 ein binärer Datenstrom der Datenrate $R$ = 104 kbit/s. Die Daten entstammen der [[Beispiele_von_Nachrichtensystemen/Gesamtes_GSM–Übertragungssystem#Komponenten_der_Sprach.E2.80.93_und_Daten.C3.BCbertragung|GSM–Spezifikation]].
Der Quantisierungsrauschabstand beträgt dann 20 · lg $M$ ≈ 78 dB. Bei Quantisierung mit 16 Bit würde sich dieser auf etwa 96 dB erhöhen, aber gleichzeizig steigt dadurch die erforderliche Datenrate auf 128 kbit/s. Die Auswirkungen der Bandbegrenzung auf ein Sprachsignal bzw. Musiksignal können Sie sich mit dem folgenden Interaktionsmodul verdeutlichen:
Einfluss einer Bandbegrenzung bei Sprache und Musik

{{end}}

Der Standard [[Beispiele_von_Nachrichtensystemen/Allgemeine_Beschreibung_von_ISDN|ISDN]] (''Integrated Services Digital Network'') für Telefonie über Zweidrahtleitung basiert auf dem PCM–Prinzip, wobei jedem Teilnehmer zwei B–Kanäle (''Bearer Channels'') mit je 64 kbit/s ⇒ $M$ = $2^8$ = 256 und ein D–Kanal (Data Channel) mit 16 kbit/s zur Verfügung gestellt wird. Die Nettodatenrate beträgt somit 144 kbit/s. Unter Berücksichtigung der Kanalcodierung und der Steuerbits (aus organisatorischen Gründen erforderlich) kommt man auf die ISDN–Bruttodatenrate von 192 kbit/s.

Im Mobilfunk können sehr große Datenraten oft (noch) nicht bewältigt werden. Hier wurden in den 1990er–Jahren Sprachcodierverfahren entwickelt, die zu einer Datenkomprimierung um den Faktor 8 und mehr führen. Zu erwähnen sind aus heutiger Sicht:
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Halfrate_Vocoder_und_Enhanced_Fullrate_Codec|Enhanced Full–Rate Codec]] (EFR), der pro Sprachrahmen von 20 ms genau 244 Bit extrahiert (Datenrate: 12.2 kbit/s); erreicht wird diese Datenkomprimierung um mehr als den Faktor 8 durch die Aneinanderreihung mehrerer Verfahren: ''Linear Predictive Coding'' (LPC, Kurzzeitprädiktion), ''Long Term Prediction'' (LTP, Langzeitprädiktion) und ''Regular Pulse Excitation'' (RPE);
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Adaptive_Multi.E2.80.93Rate_Codec|Adaptive Multi–Rate Codec]] (AMR), der auf [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Algebraic_Code_Excited_Linear_Prediction|ACELP]] (''Algebraic Code Excited Linear Prediction'') basiert und mehrere Modi zwischen 12.2 kbit/s (EFR) und 4.75 kbit/s bereit stellt, so dass bei schlechterer Kanalqualität eine verbesserte Kanalcodierung eingesetzt werden kann;
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung|Wideband–AMR]] (WB–AMR) mit neun Modi zwischen 6.6 kbit/s und 23.85 kbit/s. Dieser wird bei UMTS eingesetzt und ist für breitbandigere Signale zwischen 200 Hz und 7 kHz geeignet. Die Abtastung erfolgt mit 16 kHz, die Quantisierung mit 4 Bit.

Das Audio–Interaktionsmodul Qualität verschiedener Sprach–Codecs vergleicht diese Codecs.
Zur Digitalisierung analoger Quellensignale wie Sprache, Musik oder Bilder können nur verlustbehaftete Quellencodierverfahren verwendet werden. Bereits die Speicherung eines Fotos im BMP–Format ist aufgrund von Abtastung, Quantisierung und der endlichen Farbtiefe stets mit einem Informationsverlust verbunden.
Daneben gibt es aber auch eine Vielzahl von Kompressionsverfahren für Bilder, die zu deutlich kleineren Bilddateien als „BMP” führen, zum Beispiel:
*[https://en.wikipedia.org/wiki/GIF GIF] (''Graphics Interchange Format''), 1987 von Steve Wilhite entwickelt.
*[https://de.wikipedia.org/wiki/JPEG JPEG] – ein Format, das 1992 von der Joint Photographie Experts Group vorgestellt wurde und heute der Standard für Digitalkameras ist. Endung: „jpeg” bzw. „jpg”.
*[https://de.wikipedia.org/wiki/Tagged_Image_File_Format TIFF] (''Tagged Image File Format''), um 1990 von Aldus Corp. (jetzt Adobe) und Microsoft entwickelt, ist noch heute der Quasi–Standard für druckreife Bilder höchster Qualität.
*[https://de.wikipedia.org/wiki/Portable_Network_Graphics PNG] (''Portable Network Graphics''), 1995 von Thomas Boutell und Tom Lane entworfen als Ersatz für das durch Patentforderungen belastete GIF–Format; weniger komplex als TIFF.

Diese Kompressionsverfahren nutzen teilweise Vektorquantisierung zur Redundanzminderung korrelierter Bildpunkte, gleichzeitig die verlustlosen Kompressionsalgorithmen nach [[Informationstheorie/Entropiecodierung_nach_Huffman#Der_Huffman.E2.80.93Algorithmus|Huffman]] und [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Statische_und_dynamische_W.C3.B6rterbuchtechniken|Lempel/Ziv]], eventuell auch Transformationscodierungen basierend auf DFT (''Diskrete Fouriertransformation'') und DCT (''Diskrete Cosinustransformation''), danach Quantisierung und Übertragung im transformierten Bereich.

Wir vergleichen nun die Auswirkungen von
*JPEG (mit Komprimierungsfaktor 8) und
*PNG (mit Komprimierungsfaktor 24)
auf die subjektive Qualität von Fotos und Grafiken.

{{Beispiel}}
Im oberen Teil der folgenden Grafik sehen Sie zwei Komprimierungen eines Fotos. Das Format JPEG (linke Darstellung) ermöglicht gegenüber der pixelweisen Abspeicherung einen Komprimierungsfaktor von 8 bis 15 bei (nahezu) verlustfreier Komprimierung. Selbst mit dem Faktor 35 kann das Ergebnis noch als „gut” bezeichnet werden.

[[File:P_ID2920__Inf_T_2_1_S2_neu.png|Vergleich zwischen JPEG– und PNG–Komprimierung]]

Das rechts dargestellte Bild wurde mit PNG komprimiert. Die Qualität ist vergleichbar mit dem linken JPEG–Bild, obwohl die Komprimierung um etwa den Faktor 3 stärker ist. Dagegen erzielt PNG ein schlechteres Komprimierungsergebnis als JPEG, wenn das Foto sehr viele Farbstufungen enthält. Bei den meisten Digitalkameras für den Consumer–Bereich ist JPEG das voreingestellte Speicherformat.

Auch bei Strichzeichnungen mit Beschriftungen ist PNG besser geeignet als JPEG (untere Bilder). Die Qualität der JPEG–Komprimierung (links) ist deutlich schlechter als das PNG–Resultat, obwohl die resultierende Dateigröße etwa dreimal so groß ist. Insbesondere Schriften wirken „verwaschen”.

'''Anmerkung''': Aufgrund technischer Einschränkungen bei LNTwww mussten alle Grafiken als PNG gespeichert werden. In obiger Grafik bedeutet also „JPEG” die PNG–Konvertierung einer zuvor mit JPEG komprimierten Datei. Der damit zusammenhängende Verlust ist jedoch vernachlässigbar.

{{end}}

==MPEG–2 Audio Layer III – kurz MP3 ==

Das heute (2015) am weitesten verbreitete Kompressionsverfahren für Audiodateien ist MP3. Entwickelt wurde dieses Format ab 1982 am Fraunhofer–Institut für Integrierte Schaltungen (IIS) in Erlangen unter der Federführung von Prof. Hans–Georg Musmann in Zusammenarbeit mit der Friedrich–Alexander–Universität Erlangen–Nürnberg und den AT&T Bell Labs. Auch andere Institutionen machen diesbezügliche Patentansprüche geltend, so dass seit 1998 zu verschiedene Klagen gab, die nach Kenntnis der Autoren noch nicht endgültig abgeschlossen sind.
Im Folgenden werden einige Maßnahmen genannt, die bei MP3 genutzt werden, um die Datenmenge gegenüber der Raw–Version im WAV–Format zu reduzieren. Die Zusammenstellung ist nicht vollständig. Eine umfassende Darstellung findet man zum Beispiel im [https://de.wikipedia.org/wiki/MP3 Wikipedia Artikel] hierzu.
*Das Audio–Kompressionsverfahren MP3 nutzt unter anderem auch psychoakustische Effekte der Wahrnehmung aus. So kann der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe voneinander unterscheiden. Man spricht von so genannten „Maskierungseffekten”.
*Die Maskierungseffekte ausnutzend werden bei MP3 Signalanteile, die für den Höreindruck minderwichtig sind, mit weniger Bit (verringerte Genauigkeit) gespeichert. Ein dominanter Ton bei 4 kHz kann beispielsweise dazu führen, dass benachbarte Frequenzen bis zu 11 kHz für das momentane Hörempfinden nur eine untergeordnete Bedeutung besitzen.
*Die größte Ersparnis der MP3–Codierung liegt aber daran, dass die Töne mit gerade so vielen Bits abgespeichert werden, dass das dadurch entstehende [[Modulationsverfahren/Pulscodemodulation#Quantisierung_und_Quantisierungsrauschen|Quantisierungsrauschen]] noch maskiert wird und nicht hörbar ist.
*Weitere MP3–Kompressionsmechanismen sind die Ausnutzung der Korrelationen zwischen den beiden Kanälen eines Stereosignals durch Differenzbildung sowie die [[Informationstheorie/Entropiecodierung_nach_Huffman|Huffman–Codierung]] des resultierenden Datenstroms. Beide Maßnahmen sind verlustlos.

Nachteil der MP3–Codierung ist, dass bei starker Kompression auch „wichtige” Frequenzanteile von der Kompression erfasst werden und es dadurch zu hörbaren Fehlern kommt. Ferner ist es störend, dass aufgrund der blockweisen Anwendung des MP3–Verfahrens am Ende einer Datei Lücken entstehen können. Abhilfe schafft die Verwendung des so genannten LAME–Coders – ein ''Open–Source–Project'' – und eines entsprechenden Abspielprogramms.

==Voraussetzungen für Kapitel 2 ==

Im Folgenden betrachten wir ausschließlich verlustlose Quellencodierverfahren und gehen dabei von folgenden Annahmen aus:
*Die digitale Quelle besitze den Symbolumfang $M$. Für die einzelnen Quellensymbole der Folge $〈q_ν〉$ gelte mit dem Symbolvorrat { $q_μ$ }:

$$q_{\nu} \in \{ q_{\mu} \}\hspace{0.05cm}, \hspace{0.2cm}\mu = 1, ... \hspace{0.05cm}, M \hspace{0.05cm}. $$

*Die einzelnen Folgenelemente $q_ν$ können statistisch unabhängig sein oder auch statistische Bindungen aufweisen. Zunächst betrachten wir Nachrichtenquellen '''ohne Gedächtnis''', die durch die Symbolwahrscheinlichkeiten vollständig charakterisiert sind; zum Beispiel:
: $M$ = 4: $q_μ$ ∈ {'''A''', '''B''', '''C''', '''D'''}, mit den Wahrscheinlichkeiten $p_A$, $p_B$, $p_C$, $p_D$,
: $M$ = 8: $q_μ$ ∈ {'''A''', '''B''', '''C''', '''D''', '''E''', '''F''', '''G''', '''H'''}, Wahrscheinlichkeiten $p_A$, ... , $p_H$.
*Der Quellencodierer ersetzt das Quellensymbol qμ durch das Codewort $C(q_μ)$, bestehend aus $L_μ$ Codesymbolen eines neuen Alphabets {0, 1, ... , $D$ – 1} mit dem Symbolumfang $D$. Damit ergibt sich für die '''mittlere Codewortlänge''':

$$L_{\rm M} = \sum_{\mu=1}^{M} \hspace{0.1cm} p_{\mu} \cdot L_{\mu} \hspace{0.05cm}, \hspace{0.2cm}{\rm mit} \hspace{0.2cm}p_{\mu} = {\rm Pr}(q_{\mu}) \hspace{0.05cm}. $$

{{Beispiel}}
Wir betrachten zwei verschiedene Quellencodierungen, jeweils mit den Parametern $M$ = 9 und $D$ = 3. Bei der ersten Codierung $C_1(q_μ)$ entsprechend Zeile 2 (rote Darstellung) wird jedes Quellensymbol qμ durch zwei Ternärsymbole (0, 1 oder 2) ersetzt. Beispielsweise gilt die Zuordnung:
: '''A C F B I G''' ⇒ 00 02 12 01 22 20
Bei dieser Codierung haben alle Codeworte $C_1(q_μ)$ mit 1 ≤ $μ$ ≤ 9 die gleiche Länge $L_μ$ = 2. Damit ist auch die mittlere Codewortlänge $L_M$ = 2.

[[File:P_ID2316__Inf_T_2_1_S3_Ganz_neu.png|Zwei Beispiele für Quellencodierung]]

Dagegen gilt beim zweiten, dem blauen Quellencodierer $L_μ$ ∈ {1, 2} und dementsprechend wird die mittlere Codewortlänge kleiner sein als zwei Codesymbole pro Quellensymbol. Hier gilt die Zuordnung:
: '''A C F B I G''' ⇒ 0 02 12 01 22 2.
Es ist offensichtlich, dass diese zweite Codesymbolfolge nicht eindeutig decodiert werden kann.

{{end}}

==Kraftsche Ungleichung – Präfixfreie Codes ==

Codes zur Komprimierung einer gedächtnislosen wertdiskreten Quelle zeichnen sich dadurch aus, dass die einzelnen Symbole durch verschieden lange Codesymbolfolgen dargestellt werden:

$$L_{\mu} \ne {\rm const.} \hspace{0.4cm}(\mu = 1, ... \hspace{0.05cm}, M ) \hspace{0.05cm}.$$

Nur dann ist es möglich,
*dass die '''mittlere Codewortlänge minimal''' wird,
*falls die '''Quellensymbole nicht gleichwahrscheinlich''' sind.

Um eine eindeutige Decodierung zu ermöglichen, muss der Code zudem „präfixfrei” sein.

{{Definition}}
Die Eigenschaft '''präfixfrei''' sagt aus, dass kein Codewort der Präfix (der Beginn) eines längeren Codewortes sein darf. Ein solcher präfixfreier Code ist sofort decodierbar.

{{end}}

Der zweite (blaue) Code im Beispiel ist nicht präfixfrei. Beispielsweise könnte die Codesymbolfolge „01” vom Decoder als '''AD''' interpretiert werden, aber ebenso als '''B'''. Dagegen ist der rote Code präfixfrei, wobei hier die Präfixfreiheit wegen $L_μ$ = const. nicht unbedingt erforderlich wäre.
Die notwendige Bedingung für die Existenz eines präfixfreien Codes wurde von Leon Kraft in seiner Master Thesis 1949 am ''Massachusetts Institute of Technology'' (MIT) angegeben. :

$$\sum_{\mu=1}^{M} \hspace{0.2cm} D^{-L_{\mu}} \le 1 \hspace{0.05cm}.$$

{{Beispiel}}
Überprüft man den zweiten (blauen) Code des betrachteten Beispiels mit $M$ = 9 und $D$ = 3, so erhält man:

$$3 \cdot 3^{-1} + 6 \cdot 3^{-2} = 1.667 > 1 \hspace{0.05cm}.$$

Daraus ist ersichtlich, dass dieser Code nicht präfixfrei sein kann.

{{end}}

{{Beispiel}}
Betrachten wir den binären Code

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 00
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 11
\hspace{0.05cm}, $$

so ist dieser offensichtlich nicht präfixfrei. Die Gleichung

$$1 \cdot 2^{-1} + 2 \cdot 2^{-2} = 1 $$

sagt also keinesfalls aus, dass dieser Code tatsächlich präfixfrei ist, sondern es bedeutet lediglich, dass es einen präfixfreien Code mit gleicher Längenverteilung gibt, zum Beispiel

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 10
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 11
\hspace{0.05cm}.$$

{{end}}

==Quellencodierungstheorem==

Wir betrachten eine redundante Nachrichtenquelle mit dem Symbolvorrat { $q_μ$ }, wobei die Laufvariable $μ$ alle Werte zwischen 1 und dem Symbolumfang $M$ annimmt. Die Quellenentropie $H$ sei kleiner als der Nachrichtengehalt $H_0$.
Die Redundanz $H_0$ – $H$ geht entweder zurück
*auf nicht gleichwahrscheinliche Symbole ⇒ $p_μ$ ≠ 1/ $M$, und/oder
*auf statistische Bindungen innerhalb der Folge $〈qμ〉$.

Ein Quellencodierer ersetzt das Quellensymbol $q_μ$ durch das binäre Codewort $C(q_μ)$, bestehend aus $L_μ$ Binärsymbolen (Nullen oder Einsen). Damit ergibt sich die mittlere Codewortlänge zu

$$L_{\rm M} = \sum_{\mu=1}^{M} \hspace{0.2cm} p_{\mu} \cdot L_{\mu} \hspace{0.05cm}, \hspace{0.2cm}{\rm mit} \hspace{0.2cm}p_{\mu} = {\rm Pr}(q_{\mu}) \hspace{0.05cm}. $$

Für die hier beschriebene Quellencodierungsaufgabe kann folgende Grenze angegeben werden:

{{Definition}}
'''Shannons Quellencodierungstheorem''': Für die vollständige Rekonstruktion der gesendeten Zeichenfolge aus der Binärfolge ist es hinreichend, aber auch notwendig, dass man zur sendeseitigen Codierung im Mittel $H$ Binärsymbole pro Quellensymbol verwendet. Das heißt, dass die mittlere Codewortlänge auf keinen Fall kleiner sein kann als die Entropie $H$ der Quellensymbolfolge:

$$L_{\rm M} \ge H \hspace{0.05cm}. $$

{{end}}

Berücksichtigt der Quellencodierer nur die unterschiedlichen Auftrittswahrscheinlichkeiten, nicht aber die inneren statistischen Bindungen, dann gilt $L_M ≥ H_1$ ⇒ [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Entropie_hinsichtlich_Zweiertupel|erste Entropienäherung]].

{{Beispiel}}
Bei einer Quaternärquelle mit den Symbolwahrscheinlichkeiten

$$p_{\rm A} = 2^{-1}\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = 2^{-2}\hspace{0.05cm}, \hspace{0.2cm}p_{\rm C} = p_{\rm D} = 2^{-3}
\hspace{0.3cm} \Rightarrow \hspace{0.3cm} H = H_1 = 1.75\,\, {\rm bit/Quellensymbol} $$

ergibt sich in obiger Gleichung das Gleichheitszeichen ⇒ $L_M = H$, wenn man zum Beispiel folgende Zuordnung wählt:

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 10
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 110
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm D }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 111
\hspace{0.05cm}. $$

Dagegen ergibt sich mit der gleichen Zuordnung und

$$p_{\rm A} = 0.4\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = 0.3\hspace{0.05cm}, \hspace{0.2cm}p_{\rm C} = 0.2
\hspace{0.05cm}, \hspace{0.2cm}p_{\rm D} = 0.1\hspace{0.05cm}
\hspace{0.3cm} \Rightarrow \hspace{0.3cm} H = 1.845\,\, {\rm bit/Quellensymbol}$$

die mittlere Codewortlänge

$$L_{\rm M} = 0.4 \cdot 1 + 0.3 \cdot 2 + 0.2 \cdot 3 + 0.1 \cdot 3
= 1.9\,\, {\rm bit/Quellensymbol}\hspace{0.05cm}. $$

Wegen der ungünstigen Symbolwahrscheinlichkeiten (keine Zweierpotenzen) ist hier $L_M > H$.

{{end}}

Es folgt ein zweites Beispiel, wobei die Quellensymbolfolge einen natürlichen Text beschreibt.

{{Beispiel}}
Beispiel 2: Betrachten wir noch frühere Versuche der Quellencodierung für die Übertragung von Texten, wobei wir von den in der Tabelle angegebenen Buchstabenhäufigkeiten ausgehen. In der Literatur findet man eine Vielzahl unterschiedlicher Häufigkeiten, auch deshalb, weil verschiedene Autoren ihre Untersuchungen für verschiedene Sprachen durchführten. Meist beginnt die Liste aber mit dem Leerzeichen (Blank) und „E” und endet mit Buchstaben wie „X”, „Y” und „Q”.

[[File:P_ID2323__Inf_T_2_1_S6_ganz_neu.png|Buchstabencodierungen nach Bacon/Bandot, Morse und Huffman]]

Zu obiger Tabelle ist zu bemerken:
*Die Entropie dieses Alphabets mit $M$ = 27 Zeichen wird $H$ ≈ 4 bit/Zeichen betragen. Wir haben das nicht nachgerechnet. Bacon hat aber schon 1623 einen Binärcode angegeben, bei dem jeder Buchstabe mit fünf Bit dargestellt wird: $L_M$ = 5.
*Etwa 250 Jahre danach hat [https://de.wikipedia.org/wiki/Baudot-Code Baudot] diesen Code übernommen, der später auch für die gesamte Telegrafie standardisiert wurde. Eine ihm wichtige Überlegung war, dass ein Code mit einheitlich fünf Binärzeichen pro Buchstabe für einen Feind schwerer zu dechiffrieren ist, da dieser aus der Häufigkeit des Auftretens keine Rückschlüsse auf das übertragene Zeichen ziehen kann.
*Die letzte Zeile gibt einen beispielhaften [[Informationstheorie/Entropiecodierung_nach_Huffman#Der_Huffman.E2.80.93Algorithmus|Huffman–Code]] für obige Häufigkeitsverteilung an. Wahrscheinliche Zeichen wie „E” oder „N” und auch das „Blank” werden mit nur drei Bit dargestellt, das seltene „Q” dagegen mit 11 Bit. Die mittlere Codewortlänge ist geringfügig größer als $H$ ⇒ $L_M$ = $H + ε$, wobei wir uns hier über das $ε$ nicht auslassen wollen. Nur soviel: Es gibt keinen präfixfreien Code mit kleinerer mittlerer Wortlänge als den Huffman–Code.
*Auch [https://de.wikipedia.org/wiki/Morsezeichen Samuel Morse] berücksichtigte bereits bei seinem Code für die Telegrafie in den 1830er Jahren die unterschiedlichen Häufigkeiten. Der Morse–Code eines jeden Zeichens besteht aus zwei bis vier Binärzeichen, die hier entsprechend der Anwendung mit Punkt („Kurz”) und Strich („Lang”) bezeichnet werden.
*Es ist offensichtlich, dass für den Morsecode $L_M$ < 4 gelten wird. Dies hängt aber auch damit zusammen, dass dieser nicht präfixfrei ist. Zwischen jeder Kurz–Lang–Sequenz musste deshalb der Funker eine Pause einlegen, damit die Gegenstation das Funksignal auch entschlüsseln konnte.

{{end}}

== Aufgaben zu Kapitel 2.1 ==

{{Display}}

Information Theory/General Description

2017-02-05T17:29:44Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Natürliche wertdiskrete Nachrichtenquellen
|Nächste Seite=Komprimierung nach Lempel, Ziv und Welch
}}

==Quellencodierung – Kanalcodierung – Leitungscodierung ==

Wir betrachten für die Beschreibungen im Kapitel 2 das folgende digitale Übertragungsmodell:

[[File:P_ID2315__Inf_T_2_1_S1_neu.png|Vereinfachtes Modell eines Nachrichtenübertragungssystems]]

Zu diesem Modell ist zu bemerken:
*Das Quellensignal $q(t)$ kann ebenso wie das Sinkensignal υ(t) sowohl analog als auch digital sein. Alle anderen Signale in diesem Blockschaltbild – auch die hier nicht explizit benannten – sind Digitalsignale.
*Insbesondere sind auch die Signale $x(t)$ und $y(t)$ am Eingang und Ausgang des Digitalen Kanals digital und können deshalb auch durch die Symbolfolgen $〈x_ν〉$ und $〈y_ν〉$ vollständig beschrieben werden.
*Der „Digitale Kanal” beinhaltet neben dem Übertragungsmedium und den Störungen (Rauschen) auch Komponenten des Senders (Modulator, Sendeimpulsformer, usw.) und des Empfängers (Demodulator, Empfangsfilter bzw. Detektor, Entscheider). Zur Modellierung des Digitalen Kanals sei auf das Kapitel 5 im Buch [[Digitalsignalübertragung]] verwiesen.

Wie aus dem obigen Blockschaltbild zu erkennen ist, unterscheidet man je nach Zielrichtung zwischen drei verschiedenen Arten von Codierung, jeweils realisiert durch den sendeseitigen Codierer (Coder) und den zugehörigen Decoder beim Empfänger:
*Die Aufgabe der Quellencodierung ist die Redundanzreduktion zur Datenkomprimierung, wie sie beispielsweise in der Bildcodierung Anwendung findet. Durch Ausnutzung statistischer Bindungen zwischen den einzelnen Punkten eines Bildes bzw. zwischen den Helligkeitswerten eines Punktes zu verschiedenen Zeiten (bei Bewegtbildsequenzen) können Verfahren entwickelt werden, die bei nahezu gleicher Bildqualität zu einer merklichen Verminderung der Datenmenge (gemessen in Bit oder Byte) führen. Ein einfaches Beispiel hierfür ist die differentielle Pulscodemodulation (DPCM).
*Bei der Kanalcodierung erzielt man demgegenüber dadurch eine merkliche Verbesserung des Übertragungsverhaltens, dass eine beim Sender gezielt hinzugefügte Redundanz empfangsseitig zur Erkennung und Korrektur von Übertragungsfehlern genutzt wird. Solche Codes, deren wichtigste Vertreter Blockcodes, Faltungscodes und Turbocodes sind, haben besonders bei stark gestörten Kanälen eine große Bedeutung. Je größer die relative Redundanz des codierten Signals ist, desto besser sind die Korrektureigenschaften des Codes, allerdings bei verringerter Nutzdatenrate.
*Eine Leitungscodierung – häufig auch als Übertragungscodierung bezeichnet – verwendet man, um das Sendesignal durch eine Umcodierung der Quellensymbole an die spektralen Eigenschaften von Kanal und Empfangseinrichtungen anzupassen. Beispielsweise muss bei einem Übertragungskanal, über den kein Gleichsignal übertragen werden kann – für den also $H_K(f$ = 0) = 0 gilt – durch Übertragungscodierung sichergestellt werden, dass die Codesymbolfolge keine langen Folgen gleicher Polarität beinhaltet.

Im Mittelpunkt des vorliegenden Kapitels steht die verlustfreie Quellencodierung, die ausgehend von der Quellensymbolfolge $〈q_ν〉$ eine datenkomprimierte Codesymbolfolge $〈c_ν〉$ generiert, basierend auf den Ergebnissen der Informationstheorie.
Der Kanalcodierung ist in unserem Tutorial ein eigenes Buch mit folgendem [[Kanalcodierung|Inhalt gewidmet. Die Leitungscodierung wird in Kapitel 2 des Buches [[Digitalsignalübertragung/Grundlagen_der_codierten_Übertragung| Digitalsignalübertragung]] eingehend behandelt.
Anmerkung: Wir verwenden hier einheitlich „ν” als Laufvariable einer Symbolfolge. Eigentlich müssten für $〈q_ν〉$, $〈c_ν〉$ und $〈x_ν〉$ unterschiedliche Indizes verwendet werden, wenn die Raten nicht übereinstimmen.

==Verlustbehaftete Quellencodierung ==

Ein erstes Beispiel für Quellencodierung ist die 1938 erfundene [https://de.wikipedia.org/wiki/Puls-Code-Modulation Pulscodemodulation] (PCM), die aus einem analogen Quellensignal q(t) durch
*Abtastung
*Quantisierung
*PCM–Codierung

die Codesymbolfolge $〈c_ν〉$ extrahiert. Wegen der erforderlichen Bandbegrenzung und der Quantisierung ist diese Umformung jedoch stets verlustbehaftet. Das bedeutet, dass die codierte Folge $〈c_ν〉$ nicht die gesamte Information des Quellensignals $q(t)$ beinhaltet, und dass sich das Sinkensignal $v(t)$ grundsätzlich von $q(t)$ unterscheidet. Meist ist die Abweichung allerdings nicht sehr groß.

[[File:P_ID2925__Mod_T_4_1_S1_neu.png|Prinzip der PCM]]

Die Grafik verdeutlicht das PCM–Prinzip. Die zugehörige Bildbeschreibung findet man auf den ersten Seiten von [[Modulationsverfahren/Pulscodemodulation#Prinzip_und_Blockschaltbild_.281.29|Kapitel 4.1]] im Buch [[Modulationsverfahren]].

{{Beispiel}}
Wird ein Sprachsignal spektral auf die Bandbreite $B$ = 4 kHz ⇒ Abtastrate $f_A$ = 8 kHz begrenzt, so ergibt sich bei Quantisierung mit 13 Bit ⇒ Quantisierungsstufenzahl M = $2^13$ = 8192 ein binärer Datenstrom der Datenrate $R$ = 104 kbit/s. Die Daten entstammen der [[Beispiele_von_Nachrichtensystemen/Gesamtes_GSM–Übertragungssystem#Komponenten_der_Sprach.E2.80.93_und_Daten.C3.BCbertragung|GSM–Spezifikation]].
Der Quantisierungsrauschabstand beträgt dann 20 · lg $M$ ≈ 78 dB. Bei Quantisierung mit 16 Bit würde sich dieser auf etwa 96 dB erhöhen, aber gleichzeizig steigt dadurch die erforderliche Datenrate auf 128 kbit/s. Die Auswirkungen der Bandbegrenzung auf ein Sprachsignal bzw. Musiksignal können Sie sich mit dem folgenden Interaktionsmodul verdeutlichen:
Einfluss einer Bandbegrenzung bei Sprache und Musik

{{end}}

Der Standard [[Beispiele_von_Nachrichtensystemen/Allgemeine_Beschreibung_von_ISDN|ISDN]] (''Integrated Services Digital Network'') für Telefonie über Zweidrahtleitung basiert auf dem PCM–Prinzip, wobei jedem Teilnehmer zwei B–Kanäle (''Bearer Channels'') mit je 64 kbit/s ⇒ $M$ = $2^8$ = 256 und ein D–Kanal (Data Channel) mit 16 kbit/s zur Verfügung gestellt wird. Die Nettodatenrate beträgt somit 144 kbit/s. Unter Berücksichtigung der Kanalcodierung und der Steuerbits (aus organisatorischen Gründen erforderlich) kommt man auf die ISDN–Bruttodatenrate von 192 kbit/s.

Im Mobilfunk können sehr große Datenraten oft (noch) nicht bewältigt werden. Hier wurden in den 1990er–Jahren Sprachcodierverfahren entwickelt, die zu einer Datenkomprimierung um den Faktor 8 und mehr führen. Zu erwähnen sind aus heutiger Sicht:
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Halfrate_Vocoder_und_Enhanced_Fullrate_Codec|Enhanced Full–Rate Codec]] (EFR), der pro Sprachrahmen von 20 ms genau 244 Bit extrahiert (Datenrate: 12.2 kbit/s); erreicht wird diese Datenkomprimierung um mehr als den Faktor 8 durch die Aneinanderreihung mehrerer Verfahren: ''Linear Predictive Coding'' (LPC, Kurzzeitprädiktion), ''Long Term Prediction'' (LTP, Langzeitprädiktion) und ''Regular Pulse Excitation'' (RPE);
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Adaptive_Multi.E2.80.93Rate_Codec|Adaptive Multi–Rate Codec]] (AMR), der auf [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Algebraic_Code_Excited_Linear_Prediction|ACELP]] (''Algebraic Code Excited Linear Prediction'') basiert und mehrere Modi zwischen 12.2 kbit/s (EFR) und 4.75 kbit/s bereit stellt, so dass bei schlechterer Kanalqualität eine verbesserte Kanalcodierung eingesetzt werden kann;
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung|Wideband–AMR]] (WB–AMR) mit neun Modi zwischen 6.6 kbit/s und 23.85 kbit/s. Dieser wird bei UMTS eingesetzt und ist für breitbandigere Signale zwischen 200 Hz und 7 kHz geeignet. Die Abtastung erfolgt mit 16 kHz, die Quantisierung mit 4 Bit.

Das Audio–Interaktionsmodul Qualität verschiedener Sprach–Codecs vergleicht diese Codecs.
Zur Digitalisierung analoger Quellensignale wie Sprache, Musik oder Bilder können nur verlustbehaftete Quellencodierverfahren verwendet werden. Bereits die Speicherung eines Fotos im BMP–Format ist aufgrund von Abtastung, Quantisierung und der endlichen Farbtiefe stets mit einem Informationsverlust verbunden.
Daneben gibt es aber auch eine Vielzahl von Kompressionsverfahren für Bilder, die zu deutlich kleineren Bilddateien als „BMP” führen, zum Beispiel:
*[https://en.wikipedia.org/wiki/GIF GIF] (''Graphics Interchange Format''), 1987 von Steve Wilhite entwickelt.
*[https://de.wikipedia.org/wiki/JPEG JPEG] – ein Format, das 1992 von der Joint Photographie Experts Group vorgestellt wurde und heute der Standard für Digitalkameras ist. Endung: „jpeg” bzw. „jpg”.
*[https://de.wikipedia.org/wiki/Tagged_Image_File_Format TIFF] (''Tagged Image File Format''), um 1990 von Aldus Corp. (jetzt Adobe) und Microsoft entwickelt, ist noch heute der Quasi–Standard für druckreife Bilder höchster Qualität.
*[https://de.wikipedia.org/wiki/Portable_Network_Graphics PNG] (''Portable Network Graphics''), 1995 von Thomas Boutell und Tom Lane entworfen als Ersatz für das durch Patentforderungen belastete GIF–Format; weniger komplex als TIFF.

Diese Kompressionsverfahren nutzen teilweise Vektorquantisierung zur Redundanzminderung korrelierter Bildpunkte, gleichzeitig die verlustlosen Kompressionsalgorithmen nach [[Informationstheorie/Entropiecodierung_nach_Huffman#Der_Huffman.E2.80.93Algorithmus|Huffman]] und [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Statische_und_dynamische_W.C3.B6rterbuchtechniken|Lempel/Ziv]], eventuell auch Transformationscodierungen basierend auf DFT (''Diskrete Fouriertransformation'') und DCT (''Diskrete Cosinustransformation''), danach Quantisierung und Übertragung im transformierten Bereich.

Wir vergleichen nun die Auswirkungen von
*JPEG (mit Komprimierungsfaktor 8) und
*PNG (mit Komprimierungsfaktor 24)
auf die subjektive Qualität von Fotos und Grafiken.

{{Beispiel}}
Im oberen Teil der folgenden Grafik sehen Sie zwei Komprimierungen eines Fotos. Das Format JPEG (linke Darstellung) ermöglicht gegenüber der pixelweisen Abspeicherung einen Komprimierungsfaktor von 8 bis 15 bei (nahezu) verlustfreier Komprimierung. Selbst mit dem Faktor 35 kann das Ergebnis noch als „gut” bezeichnet werden.

[[File:P_ID2920__Inf_T_2_1_S2_neu.png|Vergleich zwischen JPEG– und PNG–Komprimierung]]

Das rechts dargestellte Bild wurde mit PNG komprimiert. Die Qualität ist vergleichbar mit dem linken JPEG–Bild, obwohl die Komprimierung um etwa den Faktor 3 stärker ist. Dagegen erzielt PNG ein schlechteres Komprimierungsergebnis als JPEG, wenn das Foto sehr viele Farbstufungen enthält. Bei den meisten Digitalkameras für den Consumer–Bereich ist JPEG das voreingestellte Speicherformat.

Auch bei Strichzeichnungen mit Beschriftungen ist PNG besser geeignet als JPEG (untere Bilder). Die Qualität der JPEG–Komprimierung (links) ist deutlich schlechter als das PNG–Resultat, obwohl die resultierende Dateigröße etwa dreimal so groß ist. Insbesondere Schriften wirken „verwaschen”.

'''Anmerkung''': Aufgrund technischer Einschränkungen bei LNTwww mussten alle Grafiken als PNG gespeichert werden. In obiger Grafik bedeutet also „JPEG” die PNG–Konvertierung einer zuvor mit JPEG komprimierten Datei. Der damit zusammenhängende Verlust ist jedoch vernachlässigbar.

{{end}}

==MPEG–2 Audio Layer III – kurz MP3 ==

Das heute (2015) am weitesten verbreitete Kompressionsverfahren für Audiodateien ist MP3. Entwickelt wurde dieses Format ab 1982 am Fraunhofer–Institut für Integrierte Schaltungen (IIS) in Erlangen unter der Federführung von Prof. Hans–Georg Musmann in Zusammenarbeit mit der Friedrich–Alexander–Universität Erlangen–Nürnberg und den AT&T Bell Labs. Auch andere Institutionen machen diesbezügliche Patentansprüche geltend, so dass seit 1998 zu verschiedene Klagen gab, die nach Kenntnis der Autoren noch nicht endgültig abgeschlossen sind.
Im Folgenden werden einige Maßnahmen genannt, die bei MP3 genutzt werden, um die Datenmenge gegenüber der Raw–Version im WAV–Format zu reduzieren. Die Zusammenstellung ist nicht vollständig. Eine umfassende Darstellung findet man zum Beispiel im [https://de.wikipedia.org/wiki/MP3 Wikipedia Artikel] hierzu.
*Das Audio–Kompressionsverfahren MP3 nutzt unter anderem auch psychoakustische Effekte der Wahrnehmung aus. So kann der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe voneinander unterscheiden. Man spricht von so genannten „Maskierungseffekten”.
*Die Maskierungseffekte ausnutzend werden bei MP3 Signalanteile, die für den Höreindruck minderwichtig sind, mit weniger Bit (verringerte Genauigkeit) gespeichert. Ein dominanter Ton bei 4 kHz kann beispielsweise dazu führen, dass benachbarte Frequenzen bis zu 11 kHz für das momentane Hörempfinden nur eine untergeordnete Bedeutung besitzen.
*Die größte Ersparnis der MP3–Codierung liegt aber daran, dass die Töne mit gerade so vielen Bits abgespeichert werden, dass das dadurch entstehende [[Modulationsverfahren/Pulscodemodulation#Quantisierung_und_Quantisierungsrauschen|Quantisierungsrauschen]] noch maskiert wird und nicht hörbar ist.
*Weitere MP3–Kompressionsmechanismen sind die Ausnutzung der Korrelationen zwischen den beiden Kanälen eines Stereosignals durch Differenzbildung sowie die [[Informationstheorie/Entropiecodierung_nach_Huffman|Huffman–Codierung]] des resultierenden Datenstroms. Beide Maßnahmen sind verlustlos.

Nachteil der MP3–Codierung ist, dass bei starker Kompression auch „wichtige” Frequenzanteile von der Kompression erfasst werden und es dadurch zu hörbaren Fehlern kommt. Ferner ist es störend, dass aufgrund der blockweisen Anwendung des MP3–Verfahrens am Ende einer Datei Lücken entstehen können. Abhilfe schafft die Verwendung des so genannten LAME–Coders – ein ''Open–Source–Project'' – und eines entsprechenden Abspielprogramms.

==Voraussetzungen für Kapitel 2 ==

Im Folgenden betrachten wir ausschließlich verlustlose Quellencodierverfahren und gehen dabei von folgenden Annahmen aus:
*Die digitale Quelle besitze den Symbolumfang $M$. Für die einzelnen Quellensymbole der Folge $〈q_ν〉$ gelte mit dem Symbolvorrat { $q_μ$ }:

$$q_{\nu} \in \{ q_{\mu} \}\hspace{0.05cm}, \hspace{0.2cm}\mu = 1, ... \hspace{0.05cm}, M \hspace{0.05cm}. $$

*Die einzelnen Folgenelemente $q_ν$ können statistisch unabhängig sein oder auch statistische Bindungen aufweisen. Zunächst betrachten wir Nachrichtenquellen '''ohne Gedächtnis''', die durch die Symbolwahrscheinlichkeiten vollständig charakterisiert sind; zum Beispiel:
: $M$ = 4: $q_μ$ ∈ {'''A''', '''B''', '''C''', '''D'''}, mit den Wahrscheinlichkeiten $p_A$, $p_B$, $p_C$, $p_D$,
: $M$ = 8: $q_μ$ ∈ {'''A''', '''B''', '''C''', '''D''', '''E''', '''F''', '''G''', '''H'''}, Wahrscheinlichkeiten $p_A$, ... , $p_H$.
*Der Quellencodierer ersetzt das Quellensymbol qμ durch das Codewort $C(q_μ)$, bestehend aus $L_μ$ Codesymbolen eines neuen Alphabets {0, 1, ... , $D$ – 1} mit dem Symbolumfang $D$. Damit ergibt sich für die '''mittlere Codewortlänge''':

$$L_{\rm M} = \sum_{\mu=1}^{M} \hspace{0.1cm} p_{\mu} \cdot L_{\mu} \hspace{0.05cm}, \hspace{0.2cm}{\rm mit} \hspace{0.2cm}p_{\mu} = {\rm Pr}(q_{\mu}) \hspace{0.05cm}. $$

{{Beispiel}}
Wir betrachten zwei verschiedene Quellencodierungen, jeweils mit den Parametern $M$ = 9 und $D$ = 3. Bei der ersten Codierung $C_1(q_μ)$ entsprechend Zeile 2 (rote Darstellung) wird jedes Quellensymbol qμ durch zwei Ternärsymbole (0, 1 oder 2) ersetzt. Beispielsweise gilt die Zuordnung:
: '''A C F B I G''' ⇒ 00 02 12 01 22 20
Bei dieser Codierung haben alle Codeworte $C_1(q_μ)$ mit 1 ≤ $μ$ ≤ 9 die gleiche Länge $L_μ$ = 2. Damit ist auch die mittlere Codewortlänge $L_M$ = 2.

[[File:P_ID2316__Inf_T_2_1_S3_Ganz_neu.png|Zwei Beispiele für Quellencodierung]]

Dagegen gilt beim zweiten, dem blauen Quellencodierer $L_μ$ ∈ {1, 2} und dementsprechend wird die mittlere Codewortlänge kleiner sein als zwei Codesymbole pro Quellensymbol. Hier gilt die Zuordnung:
: '''A C F B I G''' ⇒ 0 02 12 01 22 2.
Es ist offensichtlich, dass diese zweite Codesymbolfolge nicht eindeutig decodiert werden kann.

{{end}}

==Kraftsche Ungleichung – Präfixfreie Codes ==

Codes zur Komprimierung einer gedächtnislosen wertdiskreten Quelle zeichnen sich dadurch aus, dass die einzelnen Symbole durch verschieden lange Codesymbolfolgen dargestellt werden:

$$L_{\mu} \ne {\rm const.} \hspace{0.4cm}(\mu = 1, ... \hspace{0.05cm}, M ) \hspace{0.05cm}.$$

Nur dann ist es möglich,
*dass die '''mittlere Codewortlänge minimal''' wird,
*falls die '''Quellensymbole nicht gleichwahrscheinlich''' sind.

Um eine eindeutige Decodierung zu ermöglichen, muss der Code zudem „präfixfrei” sein.

{{Definition}}
Die Eigenschaft '''präfixfrei''' sagt aus, dass kein Codewort der Präfix (der Beginn) eines längeren Codewortes sein darf. Ein solcher präfixfreier Code ist sofort decodierbar.

{{end}}

Der zweite (blaue) Code im Beispiel ist nicht präfixfrei. Beispielsweise könnte die Codesymbolfolge „01” vom Decoder als '''AD''' interpretiert werden, aber ebenso als '''B'''. Dagegen ist der rote Code präfixfrei, wobei hier die Präfixfreiheit wegen $L_μ$ = const. nicht unbedingt erforderlich wäre.
Die notwendige Bedingung für die Existenz eines präfixfreien Codes wurde von Leon Kraft in seiner Master Thesis 1949 am ''Massachusetts Institute of Technology'' (MIT) angegeben. :

$$\sum_{\mu=1}^{M} \hspace{0.2cm} D^{-L_{\mu}} \le 1 \hspace{0.05cm}.$$

{{Beispiel}}
Überprüft man den zweiten (blauen) Code des betrachteten Beispiels mit $M$ = 9 und $D$ = 3, so erhält man:

$$3 \cdot 3^{-1} + 6 \cdot 3^{-2} = 1.667 > 1 \hspace{0.05cm}.$$

Daraus ist ersichtlich, dass dieser Code nicht präfixfrei sein kann.

{{end}}

{{Beispiel}}
Betrachten wir den binären Code

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 00
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 11
\hspace{0.05cm}, $$

so ist dieser offensichtlich nicht präfixfrei. Die Gleichung

$$1 \cdot 2^{-1} + 2 \cdot 2^{-2} = 1 $$

sagt also keinesfalls aus, dass dieser Code tatsächlich präfixfrei ist, sondern es bedeutet lediglich, dass es einen präfixfreien Code mit gleicher Längenverteilung gibt, zum Beispiel

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 10
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 11
\hspace{0.05cm}.$$

{{end}}

==Quellencodierungstheorem==

Wir betrachten eine redundante Nachrichtenquelle mit dem Symbolvorrat { $q_μ$ }, wobei die Laufvariable $μ$ alle Werte zwischen 1 und dem Symbolumfang $M$ annimmt. Die Quellenentropie $H$ sei kleiner als der Nachrichtengehalt $H_0$.
Die Redundanz $H_0$ – $H$ geht entweder zurück
*auf nicht gleichwahrscheinliche Symbole ⇒ $p_μ$ ≠ 1/ $M$, und/oder
*auf statistische Bindungen innerhalb der Folge $〈qμ〉$.

Ein Quellencodierer ersetzt das Quellensymbol $q_μ$ durch das binäre Codewort $C(q_μ)$, bestehend aus $L_μ$ Binärsymbolen (Nullen oder Einsen). Damit ergibt sich die mittlere Codewortlänge zu

$$L_{\rm M} = \sum_{\mu=1}^{M} \hspace{0.2cm} p_{\mu} \cdot L_{\mu} \hspace{0.05cm}, \hspace{0.2cm}{\rm mit} \hspace{0.2cm}p_{\mu} = {\rm Pr}(q_{\mu}) \hspace{0.05cm}. $$

Für die hier beschriebene Quellencodierungsaufgabe kann folgende Grenze angegeben werden:

{{Definition}}
'''Shannons Quellencodierungstheorem''': Für die vollständige Rekonstruktion der gesendeten Zeichenfolge aus der Binärfolge ist es hinreichend, aber auch notwendig, dass man zur sendeseitigen Codierung im Mittel $H$ Binärsymbole pro Quellensymbol verwendet. Das heißt, dass die mittlere Codewortlänge auf keinen Fall kleiner sein kann als die Entropie $H$ der Quellensymbolfolge:

$$L_{\rm M} \ge H \hspace{0.05cm}. $$

{{end}}

Berücksichtigt der Quellencodierer nur die unterschiedlichen Auftrittswahrscheinlichkeiten, nicht aber die inneren statistischen Bindungen, dann gilt $L_M ≥ H_1$ ⇒ [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Entropie_hinsichtlich_Zweiertupel|erste Entropienäherung]].

{{Beispiel}}
Bei einer Quaternärquelle mit den Symbolwahrscheinlichkeiten

$$p_{\rm A} = 2^{-1}\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = 2^{-2}\hspace{0.05cm}, \hspace{0.2cm}p_{\rm C} = p_{\rm D} = 2^{-3}
\hspace{0.3cm} \Rightarrow \hspace{0.3cm} H = H_1 = 1.75\,\, {\rm bit/Quellensymbol} $$

ergibt sich in obiger Gleichung das Gleichheitszeichen ⇒ $L_M = H$, wenn man zum Beispiel folgende Zuordnung wählt:

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 10
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 110
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm D }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 111
\hspace{0.05cm}. $$

Dagegen ergibt sich mit der gleichen Zuordnung und

$$p_{\rm A} = 0.4\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = 0.3\hspace{0.05cm}, \hspace{0.2cm}p_{\rm C} = 0.2
\hspace{0.05cm}, \hspace{0.2cm}p_{\rm D} = 0.1\hspace{0.05cm}
\hspace{0.3cm} \Rightarrow \hspace{0.3cm} H = 1.845\,\, {\rm bit/Quellensymbol}$$

die mittlere Codewortlänge

$$L_{\rm M} = 0.4 \cdot 1 + 0.3 \cdot 2 + 0.2 \cdot 3 + 0.1 \cdot 3
= 1.9\,\, {\rm bit/Quellensymbol}\hspace{0.05cm}. $$

Wegen der ungünstigen Symbolwahrscheinlichkeiten (keine Zweierpotenzen) ist hier $L_M > H$.

{{end}}

Es folgt ein zweites Beispiel, wobei die Quellensymbolfolge einen natürlichen Text beschreibt.

{{Beispiel}}
Beispiel 2: Betrachten wir noch frühere Versuche der Quellencodierung für die Übertragung von Texten, wobei wir von den in der Tabelle angegebenen Buchstabenhäufigkeiten ausgehen. In der Literatur findet man eine Vielzahl unterschiedlicher Häufigkeiten, auch deshalb, weil verschiedene Autoren ihre Untersuchungen für verschiedene Sprachen durchführten. Meist beginnt die Liste aber mit dem Leerzeichen (Blank) und „E” und endet mit Buchstaben wie „X”, „Y” und „Q”.

[[File:P_ID2323__Inf_T_2_1_S6_ganz_neu.png|Buchstabencodierungen nach Bacon/Bandot, Morse und Huffman]]

Zu obiger Tabelle ist zu bemerken:
*Die Entropie dieses Alphabets mit $M$ = 27 Zeichen wird $H$ ≈ 4 bit/Zeichen betragen. Wir haben das nicht nachgerechnet. Bacon hat aber schon 1623 einen Binärcode angegeben, bei dem jeder Buchstabe mit fünf Bit dargestellt wird: $L_M$ = 5.
*Etwa 250 Jahre danach hat [https://de.wikipedia.org/wiki/Baudot-Code Baudot] diesen Code übernommen, der später auch für die gesamte Telegrafie standardisiert wurde. Eine ihm wichtige Überlegung war, dass ein Code mit einheitlich fünf Binärzeichen pro Buchstabe für einen Feind schwerer zu dechiffrieren ist, da dieser aus der Häufigkeit des Auftretens keine Rückschlüsse auf das übertragene Zeichen ziehen kann.
*Die letzte Zeile gibt einen beispielhaften [[Informationstheorie/Entropiecodierung_nach_Huffman#Der_Huffman.E2.80.93Algorithmus|Huffman–Code]] für obige Häufigkeitsverteilung an. Wahrscheinliche Zeichen wie „E” oder „N” und auch das „Blank” werden mit nur drei Bit dargestellt, das seltene „Q” dagegen mit 11 Bit. Die mittlere Codewortlänge ist geringfügig größer als $H$ ⇒ $L_M$ = $H + ε$, wobei wir uns hier über das $ε$ nicht auslassen wollen. Nur soviel: Es gibt keinen präfixfreien Code mit kleinerer mittlerer Wortlänge als den Huffman–Code.
*Auch [https://de.wikipedia.org/wiki/Morsezeichen Samuel Morse] berücksichtigte bereits bei seinem Code für die Telegrafie in den 1830er Jahren die unterschiedlichen Häufigkeiten. Der Morse–Code eines jeden Zeichens besteht aus zwei bis vier Binärzeichen, die hier entsprechend der Anwendung mit Punkt („Kurz”) und Strich („Lang”) bezeichnet werden.
*Es ist offensichtlich, dass für den Morsecode $L_M$ < 4 gelten wird. Dies hängt aber auch damit zusammen, dass dieser nicht präfixfrei ist. Zwischen jeder Kurz–Lang–Sequenz musste deshalb der Funker eine Pause einlegen, damit die Gegenstation das Funksignal auch entschlüsseln konnte.

{{end}}

== Aufgaben zu Kapitel 2.1 ==

{{Display}}

Information Theory/General Description

2017-02-05T17:24:09Z

LukasWolf:

{{Header
|Untermenü=Quellencodierung – Datenkomprimierung
|Vorherige Seite=Natürliche wertdiskrete Nachrichtenquellen
|Nächste Seite=Komprimierung nach Lempel, Ziv und Welch
}}

==Quellencodierung – Kanalcodierung – Leitungscodierung ==

Wir betrachten für die Beschreibungen im Kapitel 2 das folgende digitale Übertragungsmodell:

[[File:P_ID2315__Inf_T_2_1_S1_neu.png|Vereinfachtes Modell eines Nachrichtenübertragungssystems]]

Zu diesem Modell ist zu bemerken:
*Das Quellensignal $q(t)$ kann ebenso wie das Sinkensignal υ(t) sowohl analog als auch digital sein. Alle anderen Signale in diesem Blockschaltbild – auch die hier nicht explizit benannten – sind Digitalsignale.
*Insbesondere sind auch die Signale $x(t)$ und $y(t)$ am Eingang und Ausgang des Digitalen Kanals digital und können deshalb auch durch die Symbolfolgen $〈x_ν〉$ und $〈y_ν〉$ vollständig beschrieben werden.
*Der „Digitale Kanal” beinhaltet neben dem Übertragungsmedium und den Störungen (Rauschen) auch Komponenten des Senders (Modulator, Sendeimpulsformer, usw.) und des Empfängers (Demodulator, Empfangsfilter bzw. Detektor, Entscheider). Zur Modellierung des Digitalen Kanals sei auf das Kapitel 5 im Buch [[Digitalsignalübertragung]] verwiesen.

Wie aus dem obigen Blockschaltbild zu erkennen ist, unterscheidet man je nach Zielrichtung zwischen drei verschiedenen Arten von Codierung, jeweils realisiert durch den sendeseitigen Codierer (Coder) und den zugehörigen Decoder beim Empfänger:
*Die Aufgabe der Quellencodierung ist die Redundanzreduktion zur Datenkomprimierung, wie sie beispielsweise in der Bildcodierung Anwendung findet. Durch Ausnutzung statistischer Bindungen zwischen den einzelnen Punkten eines Bildes bzw. zwischen den Helligkeitswerten eines Punktes zu verschiedenen Zeiten (bei Bewegtbildsequenzen) können Verfahren entwickelt werden, die bei nahezu gleicher Bildqualität zu einer merklichen Verminderung der Datenmenge (gemessen in Bit oder Byte) führen. Ein einfaches Beispiel hierfür ist die differentielle Pulscodemodulation (DPCM).
*Bei der Kanalcodierung erzielt man demgegenüber dadurch eine merkliche Verbesserung des Übertragungsverhaltens, dass eine beim Sender gezielt hinzugefügte Redundanz empfangsseitig zur Erkennung und Korrektur von Übertragungsfehlern genutzt wird. Solche Codes, deren wichtigste Vertreter Blockcodes, Faltungscodes und Turbocodes sind, haben besonders bei stark gestörten Kanälen eine große Bedeutung. Je größer die relative Redundanz des codierten Signals ist, desto besser sind die Korrektureigenschaften des Codes, allerdings bei verringerter Nutzdatenrate.
*Eine Leitungscodierung – häufig auch als Übertragungscodierung bezeichnet – verwendet man, um das Sendesignal durch eine Umcodierung der Quellensymbole an die spektralen Eigenschaften von Kanal und Empfangseinrichtungen anzupassen. Beispielsweise muss bei einem Übertragungskanal, über den kein Gleichsignal übertragen werden kann – für den also $H_K(f$ = 0) = 0 gilt – durch Übertragungscodierung sichergestellt werden, dass die Codesymbolfolge keine langen Folgen gleicher Polarität beinhaltet.

Im Mittelpunkt des vorliegenden Kapitels steht die verlustfreie Quellencodierung, die ausgehend von der Quellensymbolfolge $〈q_ν〉$ eine datenkomprimierte Codesymbolfolge $〈c_ν〉$ generiert, basierend auf den Ergebnissen der Informationstheorie.
Der Kanalcodierung ist in unserem Tutorial ein eigenes Buch mit folgendem [[Kanalcodierung|Inhalt gewidmet. Die Leitungscodierung wird in Kapitel 2 des Buches [[Digitalsignalübertragung/Grundlagen_der_codierten_Übertragung| Digitalsignalübertragung]] eingehend behandelt.
Anmerkung: Wir verwenden hier einheitlich „ν” als Laufvariable einer Symbolfolge. Eigentlich müssten für $〈q_ν〉$, $〈c_ν〉$ und $〈x_ν〉$ unterschiedliche Indizes verwendet werden, wenn die Raten nicht übereinstimmen.

==Verlustbehaftete Quellencodierung ==

Ein erstes Beispiel für Quellencodierung ist die 1938 erfundene [https://de.wikipedia.org/wiki/Puls-Code-Modulation Pulscodemodulation] (PCM), die aus einem analogen Quellensignal q(t) durch
*Abtastung
*Quantisierung
*PCM–Codierung

die Codesymbolfolge $〈c_ν〉$ extrahiert. Wegen der erforderlichen Bandbegrenzung und der Quantisierung ist diese Umformung jedoch stets verlustbehaftet. Das bedeutet, dass die codierte Folge $〈c_ν〉$ nicht die gesamte Information des Quellensignals $q(t)$ beinhaltet, und dass sich das Sinkensignal $v(t)$ grundsätzlich von $q(t)$ unterscheidet. Meist ist die Abweichung allerdings nicht sehr groß.

[[File:P_ID2925__Mod_T_4_1_S1_neu.png|Prinzip der PCM]]

Die Grafik verdeutlicht das PCM–Prinzip. Die zugehörige Bildbeschreibung findet man auf den ersten Seiten von [[Modulationsverfahren/Pulscodemodulation#Prinzip_und_Blockschaltbild_.281.29|Kapitel 4.1]] im Buch [[Modulationsverfahren]].

{{Beispiel}}
Wird ein Sprachsignal spektral auf die Bandbreite $B$ = 4 kHz ⇒ Abtastrate $f_A$ = 8 kHz begrenzt, so ergibt sich bei Quantisierung mit 13 Bit ⇒ Quantisierungsstufenzahl M = $2^13$ = 8192 ein binärer Datenstrom der Datenrate $R$ = 104 kbit/s. Die Daten entstammen der [[Beispiele_von_Nachrichtensystemen/Gesamtes_GSM–Übertragungssystem#Komponenten_der_Sprach.E2.80.93_und_Daten.C3.BCbertragung|GSM–Spezifikation]].
Der Quantisierungsrauschabstand beträgt dann 20 · lg $M$ ≈ 78 dB. Bei Quantisierung mit 16 Bit würde sich dieser auf etwa 96 dB erhöhen, aber gleichzeizig steigt dadurch die erforderliche Datenrate auf 128 kbit/s. Die Auswirkungen der Bandbegrenzung auf ein Sprachsignal bzw. Musiksignal können Sie sich mit dem folgenden Interaktionsmodul verdeutlichen:
Einfluss einer Bandbegrenzung bei Sprache und Musik

{{end}}

Der Standard [[Beispiele_von_Nachrichtensystemen/Allgemeine_Beschreibung_von_ISDN|ISDN]] (''Integrated Services Digital Network'') für Telefonie über Zweidrahtleitung basiert auf dem PCM–Prinzip, wobei jedem Teilnehmer zwei B–Kanäle (''Bearer Channels'') mit je 64 kbit/s ⇒ $M$ = $2^8$ = 256 und ein D–Kanal (Data Channel) mit 16 kbit/s zur Verfügung gestellt wird. Die Nettodatenrate beträgt somit 144 kbit/s. Unter Berücksichtigung der Kanalcodierung und der Steuerbits (aus organisatorischen Gründen erforderlich) kommt man auf die ISDN–Bruttodatenrate von 192 kbit/s.

Im Mobilfunk können sehr große Datenraten oft (noch) nicht bewältigt werden. Hier wurden in den 1990er–Jahren Sprachcodierverfahren entwickelt, die zu einer Datenkomprimierung um den Faktor 8 und mehr führen. Zu erwähnen sind aus heutiger Sicht:
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Halfrate_Vocoder_und_Enhanced_Fullrate_Codec|Enhanced Full–Rate Codec]] (EFR), der pro Sprachrahmen von 20 ms genau 244 Bit extrahiert (Datenrate: 12.2 kbit/s); erreicht wird diese Datenkomprimierung um mehr als den Faktor 8 durch die Aneinanderreihung mehrerer Verfahren: ''Linear Predictive Coding'' (LPC, Kurzzeitprädiktion), ''Long Term Prediction'' (LTP, Langzeitprädiktion) und ''Regular Pulse Excitation'' (RPE);
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Adaptive_Multi.E2.80.93Rate_Codec|Adaptive Multi–Rate Codec]] (AMR), der auf [[Beispiele_von_Nachrichtensystemen/Sprachcodierung#Algebraic_Code_Excited_Linear_Prediction|ACELP]] (''Algebraic Code Excited Linear Prediction'') basiert und mehrere Modi zwischen 12.2 kbit/s (EFR) und 4.75 kbit/s bereit stellt, so dass bei schlechterer Kanalqualität eine verbesserte Kanalcodierung eingesetzt werden kann;
*der [[Beispiele_von_Nachrichtensystemen/Sprachcodierung|Wideband–AMR]] (WB–AMR) mit neun Modi zwischen 6.6 kbit/s und 23.85 kbit/s. Dieser wird bei UMTS eingesetzt und ist für breitbandigere Signale zwischen 200 Hz und 7 kHz geeignet. Die Abtastung erfolgt mit 16 kHz, die Quantisierung mit 4 Bit.

Das Audio–Interaktionsmodul Qualität verschiedener Sprach–Codecs vergleicht diese Codecs.
Zur Digitalisierung analoger Quellensignale wie Sprache, Musik oder Bilder können nur verlustbehaftete Quellencodierverfahren verwendet werden. Bereits die Speicherung eines Fotos im BMP–Format ist aufgrund von Abtastung, Quantisierung und der endlichen Farbtiefe stets mit einem Informationsverlust verbunden.
Daneben gibt es aber auch eine Vielzahl von Kompressionsverfahren für Bilder, die zu deutlich kleineren Bilddateien als „BMP” führen, zum Beispiel:
*[https://en.wikipedia.org/wiki/GIF GIF] (''Graphics Interchange Format''), 1987 von Steve Wilhite entwickelt.
*[https://de.wikipedia.org/wiki/JPEG JPEG] – ein Format, das 1992 von der Joint Photographie Experts Group vorgestellt wurde und heute der Standard für Digitalkameras ist. Endung: „jpeg” bzw. „jpg”.
*[https://de.wikipedia.org/wiki/Tagged_Image_File_Format TIFF] (''Tagged Image File Format''), um 1990 von Aldus Corp. (jetzt Adobe) und Microsoft entwickelt, ist noch heute der Quasi–Standard für druckreife Bilder höchster Qualität.
*[https://de.wikipedia.org/wiki/Portable_Network_Graphics PNG] (''Portable Network Graphics''), 1995 von Thomas Boutell und Tom Lane entworfen als Ersatz für das durch Patentforderungen belastete GIF–Format; weniger komplex als TIFF.

Diese Kompressionsverfahren nutzen teilweise Vektorquantisierung zur Redundanzminderung korrelierter Bildpunkte, gleichzeitig die verlustlosen Kompressionsalgorithmen nach [[Informationstheorie/Entropiecodierung_nach_Huffman#Der_Huffman.E2.80.93Algorithmus|Huffman]] und [[Informationstheorie/Komprimierung_nach_Lempel,_Ziv_und_Welch#Statische_und_dynamische_W.C3.B6rterbuchtechniken|Lempel/Ziv]], eventuell auch Transformationscodierungen basierend auf DFT (''Diskrete Fouriertransformation'') und DCT (''Diskrete Cosinustransformation''), danach Quantisierung und Übertragung im transformierten Bereich.

Wir vergleichen nun die Auswirkungen von
*JPEG (mit Komprimierungsfaktor 8) und
*PNG (mit Komprimierungsfaktor 24)
auf die subjektive Qualität von Fotos und Grafiken.

{{Beispiel}}
Im oberen Teil der folgenden Grafik sehen Sie zwei Komprimierungen eines Fotos. Das Format JPEG (linke Darstellung) ermöglicht gegenüber der pixelweisen Abspeicherung einen Komprimierungsfaktor von 8 bis 15 bei (nahezu) verlustfreier Komprimierung. Selbst mit dem Faktor 35 kann das Ergebnis noch als „gut” bezeichnet werden.

[[File:P_ID2920__Inf_T_2_1_S2_neu.png|Vergleich zwischen JPEG– und PNG–Komprimierung]]

Das rechts dargestellte Bild wurde mit PNG komprimiert. Die Qualität ist vergleichbar mit dem linken JPEG–Bild, obwohl die Komprimierung um etwa den Faktor 3 stärker ist. Dagegen erzielt PNG ein schlechteres Komprimierungsergebnis als JPEG, wenn das Foto sehr viele Farbstufungen enthält. Bei den meisten Digitalkameras für den Consumer–Bereich ist JPEG das voreingestellte Speicherformat.

Auch bei Strichzeichnungen mit Beschriftungen ist PNG besser geeignet als JPEG (untere Bilder). Die Qualität der JPEG–Komprimierung (links) ist deutlich schlechter als das PNG–Resultat, obwohl die resultierende Dateigröße etwa dreimal so groß ist. Insbesondere Schriften wirken „verwaschen”.

'''Anmerkung''': Aufgrund technischer Einschränkungen bei LNTwww mussten alle Grafiken als PNG gespeichert werden. In obiger Grafik bedeutet also „JPEG” die PNG–Konvertierung einer zuvor mit JPEG komprimierten Datei. Der damit zusammenhängende Verlust ist jedoch vernachlässigbar.

{{end}}

==MPEG–2 Audio Layer III – kurz MP3 ==

Das heute (2015) am weitesten verbreitete Kompressionsverfahren für Audiodateien ist MP3. Entwickelt wurde dieses Format ab 1982 am Fraunhofer–Institut für Integrierte Schaltungen (IIS) in Erlangen unter der Federführung von Prof. Hans–Georg Musmann in Zusammenarbeit mit der Friedrich–Alexander–Universität Erlangen–Nürnberg und den AT&T Bell Labs. Auch andere Institutionen machen diesbezügliche Patentansprüche geltend, so dass seit 1998 zu verschiedene Klagen gab, die nach Kenntnis der Autoren noch nicht endgültig abgeschlossen sind.
Im Folgenden werden einige Maßnahmen genannt, die bei MP3 genutzt werden, um die Datenmenge gegenüber der Raw–Version im WAV–Format zu reduzieren. Die Zusammenstellung ist nicht vollständig. Eine umfassende Darstellung findet man zum Beispiel im [https://de.wikipedia.org/wiki/MP3 Wikipedia Artikel] hierzu.
*Das Audio–Kompressionsverfahren MP3 nutzt unter anderem auch psychoakustische Effekte der Wahrnehmung aus. So kann der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe voneinander unterscheiden. Man spricht von so genannten „Maskierungseffekten”.
*Die Maskierungseffekte ausnutzend werden bei MP3 Signalanteile, die für den Höreindruck minderwichtig sind, mit weniger Bit (verringerte Genauigkeit) gespeichert. Ein dominanter Ton bei 4 kHz kann beispielsweise dazu führen, dass benachbarte Frequenzen bis zu 11 kHz für das momentane Hörempfinden nur eine untergeordnete Bedeutung besitzen.
*Die größte Ersparnis der MP3–Codierung liegt aber daran, dass die Töne mit gerade so vielen Bits abgespeichert werden, dass das dadurch entstehende [[Modulationsverfahren/Pulscodemodulation#Quantisierung_und_Quantisierungsrauschen|Quantisierungsrauschen]] noch maskiert wird und nicht hörbar ist.
*Weitere MP3–Kompressionsmechanismen sind die Ausnutzung der Korrelationen zwischen den beiden Kanälen eines Stereosignals durch Differenzbildung sowie die [[Informationstheorie/Entropiecodierung_nach_Huffman|Huffman–Codierung]] des resultierenden Datenstroms. Beide Maßnahmen sind verlustlos.

Nachteil der MP3–Codierung ist, dass bei starker Kompression auch „wichtige” Frequenzanteile von der Kompression erfasst werden und es dadurch zu hörbaren Fehlern kommt. Ferner ist es störend, dass aufgrund der blockweisen Anwendung des MP3–Verfahrens am Ende einer Datei Lücken entstehen können. Abhilfe schafft die Verwendung des so genannten LAME–Coders – ein ''Open–Source–Project'' – und eines entsprechenden Abspielprogramms.

==Voraussetzungen für Kapitel 2 ==

Im Folgenden betrachten wir ausschließlich verlustlose Quellencodierverfahren und gehen dabei von folgenden Annahmen aus:
*Die digitale Quelle besitze den Symbolumfang $M$. Für die einzelnen Quellensymbole der Folge $〈q_ν〉$ gelte mit dem Symbolvorrat { $q_μ$ }:

$$q_{\nu} \in \{ q_{\mu} \}\hspace{0.05cm}, \hspace{0.2cm}\mu = 1, ... \hspace{0.05cm}, M \hspace{0.05cm}. $$

*Die einzelnen Folgenelemente $q_ν$ können statistisch unabhängig sein oder auch statistische Bindungen aufweisen. Zunächst betrachten wir Nachrichtenquellen '''ohne Gedächtnis''', die durch die Symbolwahrscheinlichkeiten vollständig charakterisiert sind; zum Beispiel:
: $M$ = 4: $q_μ$ ∈ {'''A''', '''B''', '''C''', '''D'''}, mit den Wahrscheinlichkeiten $p_A$, $p_B$, $p_C$, $p_D$,
: $M$ = 8: $q_μ$ ∈ {'''A''', '''B''', '''C''', '''D''', '''E''', '''F''', '''G''', '''H'''}, Wahrscheinlichkeiten $p_A$, ... , $p_H$.
*Der Quellencodierer ersetzt das Quellensymbol qμ durch das Codewort $C(q_μ)$, bestehend aus $L_μ$ Codesymbolen eines neuen Alphabets {0, 1, ... , $D$ – 1} mit dem Symbolumfang $D$. Damit ergibt sich für die '''mittlere Codewortlänge''':

$$L_{\rm M} = \sum_{\mu=1}^{M} \hspace{0.1cm} p_{\mu} \cdot L_{\mu} \hspace{0.05cm}, \hspace{0.2cm}{\rm mit} \hspace{0.2cm}p_{\mu} = {\rm Pr}(q_{\mu}) \hspace{0.05cm}. $$

{{Beispiel}}
Wir betrachten zwei verschiedene Quellencodierungen, jeweils mit den Parametern $M$ = 9 und $D$ = 3. Bei der ersten Codierung $C_1(q_μ)$ entsprechend Zeile 2 (rote Darstellung) wird jedes Quellensymbol qμ durch zwei Ternärsymbole (0, 1 oder 2) ersetzt. Beispielsweise gilt die Zuordnung:
: '''A C F B I G''' ⇒ 00 02 12 01 22 20
Bei dieser Codierung haben alle Codeworte $C_1(q_μ)$ mit 1 ≤ $μ$ ≤ 9 die gleiche Länge $L_μ$ = 2. Damit ist auch die mittlere Codewortlänge $L_M$ = 2.

[[File:P_ID2316__Inf_T_2_1_S3_Ganz_neu.png|Zwei Beispiele für Quellencodierung]]

Dagegen gilt beim zweiten, dem blauen Quellencodierer $L_μ$ ∈ {1, 2} und dementsprechend wird die mittlere Codewortlänge kleiner sein als zwei Codesymbole pro Quellensymbol. Hier gilt die Zuordnung:
: '''A C F B I G''' ⇒ 0 02 12 01 22 2.
Es ist offensichtlich, dass diese zweite Codesymbolfolge nicht eindeutig decodiert werden kann.

{{end}}

==Kraftsche Ungleichung – Präfixfreie Codes ==

Codes zur Komprimierung einer gedächtnislosen wertdiskreten Quelle zeichnen sich dadurch aus, dass die einzelnen Symbole durch verschieden lange Codesymbolfolgen dargestellt werden:

$$L_{\mu} \ne {\rm const.} \hspace{0.4cm}(\mu = 1, ... \hspace{0.05cm}, M ) \hspace{0.05cm}.$$

Nur dann ist es möglich,
*dass die '''mittlere Codewortlänge minimal''' wird,
*falls die '''Quellensymbole nicht gleichwahrscheinlich''' sind.

Um eine eindeutige Decodierung zu ermöglichen, muss der Code zudem „präfixfrei” sein.

{{Definition}}
Die Eigenschaft '''präfixfrei''' sagt aus, dass kein Codewort der Präfix (der Beginn) eines längeren Codewortes sein darf. Ein solcher präfixfreier Code ist sofort decodierbar.

{{end}}

Der zweite (blaue) Code im Beispiel ist nicht präfixfrei. Beispielsweise könnte die Codesymbolfolge „01” vom Decoder als '''AD''' interpretiert werden, aber ebenso als '''B'''. Dagegen ist der rote Code präfixfrei, wobei hier die Präfixfreiheit wegen $L_μ$ = const. nicht unbedingt erforderlich wäre.
Die notwendige Bedingung für die Existenz eines präfixfreien Codes wurde von Leon Kraft in seiner Master Thesis 1949 am ''Massachusetts Institute of Technology'' (MIT) angegeben [Kra49]<ref name='KRA49'/> [Kra49]:

$$\sum_{\mu=1}^{M} \hspace{0.2cm} D^{-L_{\mu}} \le 1 \hspace{0.05cm}.$$

{{Beispiel}}
Überprüft man den zweiten (blauen) Code des betrachteten Beispiels mit $M$ = 9 und $D$ = 3, so erhält man:

$$3 \cdot 3^{-1} + 6 \cdot 3^{-2} = 1.667 > 1 \hspace{0.05cm}.$$

Daraus ist ersichtlich, dass dieser Code nicht präfixfrei sein kann.

{{end}}

{{Beispiel}}
Betrachten wir den binären Code

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 00
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 11
\hspace{0.05cm}, $$

so ist dieser offensichtlich nicht präfixfrei. Die Gleichung

$$1 \cdot 2^{-1} + 2 \cdot 2^{-2} = 1 $$

sagt also keinesfalls aus, dass dieser Code tatsächlich präfixfrei ist, sondern es bedeutet lediglich, dass es einen präfixfreien Code mit gleicher Längenverteilung gibt, zum Beispiel

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 10
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 11
\hspace{0.05cm}.$$

{{end}}

==Quellencodierungstheorem==

Wir betrachten eine redundante Nachrichtenquelle mit dem Symbolvorrat { $q_μ$ }, wobei die Laufvariable $μ$ alle Werte zwischen 1 und dem Symbolumfang $M$ annimmt. Die Quellenentropie $H$ sei kleiner als der Nachrichtengehalt $H_0$.
Die Redundanz $H_0$ – $H$ geht entweder zurück
*auf nicht gleichwahrscheinliche Symbole ⇒ $p_μ$ ≠ 1/ $M$, und/oder
*auf statistische Bindungen innerhalb der Folge $〈qμ〉$.

Ein Quellencodierer ersetzt das Quellensymbol $q_μ$ durch das binäre Codewort $C(q_μ)$, bestehend aus $L_μ$ Binärsymbolen (Nullen oder Einsen). Damit ergibt sich die mittlere Codewortlänge zu

$$L_{\rm M} = \sum_{\mu=1}^{M} \hspace{0.2cm} p_{\mu} \cdot L_{\mu} \hspace{0.05cm}, \hspace{0.2cm}{\rm mit} \hspace{0.2cm}p_{\mu} = {\rm Pr}(q_{\mu}) \hspace{0.05cm}. $$

Für die hier beschriebene Quellencodierungsaufgabe kann folgende Grenze angegeben werden:

{{Definition}}
'''Shannons Quellencodierungstheorem''': Für die vollständige Rekonstruktion der gesendeten Zeichenfolge aus der Binärfolge ist es hinreichend, aber auch notwendig, dass man zur sendeseitigen Codierung im Mittel $H$ Binärsymbole pro Quellensymbol verwendet. Das heißt, dass die mittlere Codewortlänge auf keinen Fall kleiner sein kann als die Entropie $H$ der Quellensymbolfolge:

$$L_{\rm M} \ge H \hspace{0.05cm}. $$

{{end}}

Berücksichtigt der Quellencodierer nur die unterschiedlichen Auftrittswahrscheinlichkeiten, nicht aber die inneren statistischen Bindungen, dann gilt $L_M ≥ H_1$ ⇒ erste Entropienäherung.

{{Beispiel}}
Bei einer Quaternärquelle mit den Symbolwahrscheinlichkeiten

$$p_{\rm A} = 2^{-1}\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = 2^{-2}\hspace{0.05cm}, \hspace{0.2cm}p_{\rm C} = p_{\rm D} = 2^{-3}
\hspace{0.3cm} \Rightarrow \hspace{0.3cm} H = H_1 = 1.75\,\, {\rm bit/Quellensymbol} $$

ergibt sich in obiger Gleichung das Gleichheitszeichen ⇒ $L_M = H$, wenn man zum Beispiel folgende Zuordnung wählt:

$$\boldsymbol{{\rm A }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 0
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm B }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 10
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm C }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 110
\hspace{0.05cm}, \hspace{0.2cm}\boldsymbol{{\rm D }} \hspace{0.15cm} \Rightarrow \hspace{0.15cm} 111
\hspace{0.05cm}. $$

Dagegen ergibt sich mit der gleichen Zuordnung und

$$p_{\rm A} = 0.4\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = 0.3\hspace{0.05cm}, \hspace{0.2cm}p_{\rm C} = 0.2
\hspace{0.05cm}, \hspace{0.2cm}p_{\rm D} = 0.1\hspace{0.05cm}
\hspace{0.3cm} \Rightarrow \hspace{0.3cm} H = 1.845\,\, {\rm bit/Quellensymbol}$$

die mittlere Codewortlänge

$$L_{\rm M} = 0.4 \cdot 1 + 0.3 \cdot 2 + 0.2 \cdot 3 + 0.1 \cdot 3
= 1.9\,\, {\rm bit/Quellensymbol}\hspace{0.05cm}. $$

Wegen der ungünstigen Symbolwahrscheinlichkeiten (keine Zweierpotenzen) ist hier $L_M > H$.

{{end}}

Es folgt ein zweites Beispiel, wobei die Quellensymbolfolge einen natürlichen Text beschreibt.

{{Beispiel}}
Beispiel 2: Betrachten wir noch frühere Versuche der Quellencodierung für die Übertragung von Texten, wobei wir von den in der Tabelle angegebenen Buchstabenhäufigkeiten ausgehen. In der Literatur findet man eine Vielzahl unterschiedlicher Häufigkeiten, auch deshalb, weil verschiedene Autoren ihre Untersuchungen für verschiedene Sprachen durchführten. Meist beginnt die Liste aber mit dem Leerzeichen (Blank) und „E” und endet mit Buchstaben wie „X”, „Y” und „Q”.

[[File:P_ID2323__Inf_T_2_1_S6_ganz_neu.png|Buchstabencodierungen nach Bacon/Bandot, Morse und Huffman]]

Zu obiger Tabelle ist zu bemerken:
*Die Entropie dieses Alphabets mit $M$ = 27 Zeichen wird $H$ ≈ 4 bit/Zeichen betragen. Wir haben das nicht nachgerechnet. Bacon hat aber schon 1623 einen Binärcode angegeben, bei dem jeder Buchstabe mit fünf Bit dargestellt wird: $L_M$ = 5.
*Etwa 250 Jahre danach hat Baudot diesen Code übernommen, der später auch für die gesamte Telegrafie standardisiert wurde. Eine ihm wichtige Überlegung war, dass ein Code mit einheitlich fünf Binärzeichen pro Buchstabe für einen Feind schwerer zu dechiffrieren ist, da dieser aus der Häufigkeit des Auftretens keine Rückschlüsse auf das übertragene Zeichen ziehen kann.
*Die letzte Zeile gibt einen beispielhaften Huffman–Code für obige Häufigkeitsverteilung an. Wahrscheinliche Zeichen wie „E” oder „N” und auch das „Blank” werden mit nur drei Bit dargestellt, das seltene „Q” dagegen mit 11 Bit. Die mittlere Codewortlänge ist geringfügig größer als $H$ ⇒ $L_M$ = $H + ε$, wobei wir uns hier über das $ε$ nicht auslassen wollen. Nur soviel: Es gibt keinen präfixfreien Code mit kleinerer mittlerer Wortlänge als den Huffman–Code.
*Auch Samuel Morse berücksichtigte bereits bei seinem Code für die Telegrafie in den 1830er Jahren die unterschiedlichen Häufigkeiten. Der Morse–Code eines jeden Zeichens besteht aus zwei bis vier Binärzeichen, die hier entsprechend der Anwendung mit Punkt („Kurz”) und Strich („Lang”) bezeichnet werden.
*Es ist offensichtlich, dass für den Morsecode $L_M$ < 4 gelten wird. Dies hängt aber auch damit zusammen, dass dieser nicht präfixfrei ist. Zwischen jeder Kurz–Lang–Sequenz musste deshalb der Funker eine Pause einlegen, damit die Gegenstation das Funksignal auch entschlüsseln konnte.

{{end}}

== Aufgaben zu Kapitel 2.1 ==

{{Display}}

Fehlerhafte Links

2017-02-05T16:47:27Z

LukasWolf:

Information Theory/Natural Discrete Sources

2017-01-29T22:19:34Z

LukasWolf:

{{Header
|Untermenü=Entropie wertdiskreter Nachrichtenquellen
|Vorherige Seite=Nachrichtenquellen mit Gedächtnis
|Nächste Seite=Allgemeine Beschreibung
}}

==Schwierigkeiten bei der Entropiebestimmung ==

Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt. Nun betrachten wir geschriebene Texte. Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.
Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI (American National Standard Institute) dargestellt, obwohl es etliche „modernere” Codierungen gibt. Die $M$ = $2^8$ = 256 ANSI–Zeichen sind dabei wie folgt belegt:
* '''Nr. 0 bis 31''': nicht druck– und darstellbare Steuerbefehle,
* '''Nr. 32 bis 127''': identisch mit den Zeichen des 7 Bit–ASCII–Codes,
* '''Nr. 128 bis 159''': weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
* '''Nr. 160 bis 255''': identisch mit Unicode–Charts.

Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise in [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|Kapitel 1.2]] als den Grenzübergang der Entropienäherung $H_k$ für $k$ → ∞ ermitteln. Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:
*Bereits für die Entropienäherung $H_2$ gibt es $M_2$ = $256^2$ = 65536 mögliche Zweiertupel. Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich. Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel 100 Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits N > $6.5 · 10^6$ sein.
*Die Anzahl der möglichen Dreiertupel ergibt sich zu $M_3$ > $16 · 10^7$ und damit ist die erforderliche Quellensymbollänge $N$ schon größer als $1.6 · 10^9$. Dies entspricht bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile einem Buch mit etwa 500.000 Seiten.
*Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als zwei oder drei Zeichen. Küpfmüller gibt für die deutsche Sprache einen Wert von 100 an [Küp54]. Zur Ermittlung der 100. Entropienäherung benötigt man aber $2^{800}$ ≈ $10^{240}$ Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor 100 mehr Zeichen.

Eine berechtigte Frage ist deshalb: Wie hat [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller] im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] die Entropie der englischen Sprache? Eines sei vorweg verraten: Nicht mit dem oben beschriebenen Ansatz.

==Entropieabschätzung nach Küpfmüller ==

Karl Küpfmüller hat die Entropie von deutschen Texten untersucht. Er geht bei seiner in [Küp54] veröffentlichten Abschätzung von folgenden Voraussetzungen aus:
*ein Alphabet mit 26 Buchstaben (keine Umlaute und Satzzeichen),
*Nichtberücksichtigung des Leerzeichens,
*keine Unterscheidung zwischen Groß– und Kleinschreibung.

Der Entscheidungsgehalt ergibt sich somit zu $H_0$ = $\log_2$ (26) ≈ 4.7 bit/Buchstabe.
Seine Abschätzung basiert auf den folgenden Überlegungen:

1.) Die '''erste Entropienäherung''' ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten. Nach einer Studie von 1939 ist „e” mit 16.7% am häufigsten, am seltensten ist „x” mit 0.02%.

$$H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

2.) Hinsichtlich der '''Silbenhäufigkeit''' wertet Küpfmüller das von F.W. Kaeding herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus. Er unterscheidet zwischen Stammsilben, Vorsilben und Endsilben. Er kommt so auf den mittleren Informationsgehalt aller Silben:

$$}H_{\rm Silbe} = \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx \\
\hspace{-0.1cm} \approx \hspace{-0.1cm}4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/Silbe}
\hspace{0.05cm}.$$

*Nach der Kaeding–Studie von 1898 bilden die 400 häufigsten Stammsilben (beginnend mit „de”) 47% eines deutschen Textes und tragen zur Entropie mit $H_{\text{Stamm}}$ ≈ 4.15 bit/Silbe bei.
*Der Beitrag der 242 häufigsten Vorsilben – an erster Stelle „ge” mit 9% – wird von Küpfmüller mit $H_{\text{Vor}}$ ≈ 0.82 bit/Silbe beziffert.
*Der Beitrag der 118 meistgebrauchten Endsilben ist $H_{\text{End}}$ ≈ 1.62 bit/Silbe. Am häufigsten tritt „en” am Ende eines Wortes mit 30% auf.
*Der Rest von 14% verteilt sich auf bisher nicht erfasste Silben. Küpfmüller nimmt dazu an, dass es davon 4.000 gibt und diese gleichverteilt sind. Er setzt dafür $H_{\text{Rest}}$ ≈ 2 bit/Silbe an.

3.) Für die durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert 3.03. Daraus schloss er auf die '''dritte Entropienäherung''' hinsichtlich der Buchstaben:

$$H_3 \approx \frac{8.6}{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Küpfmüllers Abschätzung der Entropienäherung H3 basierte vor allem auf den Silbenhäufigkeiten und dem Mittelwert von 3.03 Buchstaben pro Silbe. Um eine weitere Entropienäherung Hk mit größerem k zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten. Er kam zu folgenden Ergebnissen:

4.) Die 322 häufigsten Wörter liefern einen Entropiebeitrag von 4.5 bit/Wort. Die Beiträge der restlichen 40.000 Wörter wurden geschätzt, wobei angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind. Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt eines Wortes zu ca. 11 bit.

5.) Die Auszählung ergab im Mittel 5.5 Buchstaben pro Wort. Analog zu Punkt (3) wurde so die Entropienäherung für $k$ = 5.5 angenähert:

$$H_{5.5} \approx \frac{11}{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Natürlich kann $k$ gemäß [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|Definition]] nur ganzzahlige Werte annehmen. Diese Gleichung ist deshalb so zu interpretieren, dass sich für $H_5$ ein etwas größerer und für $H_6$ ein etwas kleinerer Wert ergeben wird.

6.) Man kann nun versuchen, aus diesen drei Punkten durch Extrapolation den Endwert der Entropie für $k$ → ∞ zu ermitteln. In folgender Grafik wird dies bei logarithmisch aufgetragener Abszisse versucht:

[[File:P_ID2303__Inf_T_1_3_S2.png|Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller]]

Die durchgehende Linie ist der Originalarbeit von Küpfmüller [Küp54] entnommen und führt zum Endwert $H$ = 1.6 bit/Buchstabe. Die grünen Kurven (vom LNTwww–Autor hinzugefügt) und die braunen Pfeile zeigen aber, dass eine solche Extrapolation nur sehr vage ist.

7.) Küpfmüller versuchte anschließend, den von ihm gefundenen Endwert $H$ = 1.6 bit/Buchstabe mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf $H$ = 1.51 bit/Buchstabe.

8.) Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert $H$ ≈ 1 bit/Buchstabe angegeben, allerdings unter Berücksichtigung des Leerzeichens. Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet:

$$H =1.51 \cdot \frac{5.5}{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens (5.5) und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens (6.5).

Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis $H$ = 1.51 bit/Buchstabe führten. Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:
*Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt. Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
*Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen. Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell (etwa 100 bis 200 Versuche) ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
*Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab. Für verschiedene Texte ergeben sich Werte zwischen 15% und 33%, mit dem Mittelwert bei 22%. Das heißt aber auch: Im Durchschnitt können 22% der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
*Anders ausgedrückt: Die Zahl der Wörter eines langen Textes kann mit dem Faktor 0.78 reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt. Ausgehend vom Bezugswert $H_{5.5}$ = 2 bit/Buchstabe (siehe Punkt (5), letzte Seite) für ein mittellanges Wort ergibt sich somit die Entropie $H$ ≈ 0.78 · 2 = 1.56 bit/Buchstabe.
*Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung der Silben und ermittelte den Reduktionsfaktor 0.54 hinsichtlich Silben. Als Endergebnis nennt Küpfmüller $H$ = 0.54 · $H_3$ ≈ 1.51 bit/Buchstabe, wobei $H_3$ ≈ 2.8 bit/Buchstabe der Entropie einer Silbe mittlerer Länge (≈ 3 Buchstaben, siehe Punkt (3), vorletzte Seite) entspricht.

Die vielleicht als zu kritisch empfundenen Bemerkungen auf dieser Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannon's Beiträge zur gleichen Thematik. Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten. Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.

==Einige eigene Simulationsergebnisse==

Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen Simulationsergebnissen verglichen werden, die vom Autor G. Söder dieses Kapitels am Lehrstuhl für Nachrichtentechnik der Technischen Universität München gewonnen wurden. Die Resultate basieren auf
*dem Programm '''WDIT''' (Wertdiskrete Informationstheorie) aus dem Praktikum [Söd01]; der Link weist auf die Zip–Version des Programms,
*einer ASCII–Version der deutschen Bibel mit fast N = 4.37 Millionen Schriftzeichen, die auf den Symbolumfang M = 33 reduziert wurde:
'''a''', '''b''', '''c''', ... , '''x''', '''y''', '''z''', '''ä''', '''ö''', '''ü''', '''ß''', '''LZ''', '''ZI''', '''IP'''.

Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben. Gegenüber Küpfmüllers Analyse wurden hier noch zusätzlich berücksichtigt:
*die deutschen Umlaute „ä”, „ö”, „ü” und „ß”, die etwa 1.2% des Bibeltextes ausmachen,
*die Klasse IP (Interpunktion) mit ca. 3%,
*die Klasse ZI (Ziffer) mit ca. 1.3% in Folge der Vers–Nummerierung,
*das Leerzeichen (LZ) als das häufigste Zeichen (17.8%), noch vor dem „e” (12.8%).

Die nachfolgende Tabelle fasst die Ergebnisse zusammen. N bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte). Die Interpretation folgt auf der nächsten Seite.

[[File: P_ID2267__Inf_T_1_3_S3.png|Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel]]

''Hinweis'': Betrachten Sie diese Ergebnisse bitte nicht als Teil einer wissenschaftlichen Untersuchung, sondern nur als den Versuch, Studierenden die in Kapitel 1.3 behandelte Thematik in einem Praktikum näher zu bringen. Als Grundlage dieser Untersuchung wurde von der Bibel ausgegangen, da uns sowohl deren deutsche als auch die englische Fassung im geeigneten ASCII–Format zur Verfügung gestellt wurden.

Die in der [[Natürliche_wertdiskrete_Nachrichtenquellen#Einige_eigene_Simulationsergebnisse|Tabelle]] angegebenen Entropien $H_0$ (Entscheidungsgehalt), $H_1$, $H_2$ und $H_3$ wurden jeweils aus $N$ Schriftzeichen ermittelt und sind jeweils in bit/Schriftzeichen angegeben. Die gesamte Datei „Bibel” (in deutscher Sprache) beinhaltet fast $N$ = 4.37 Millionen Schriftzeichen, was bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile etwa einem Buch mit 1300 Seiten entsprechen würde. Der Symbolumfang ist $M$ = 33.
Die Ergebnisse lassen sich wie folgt zusammenfassen:
*In allen Zeilen nehmen die Entropienäherungen $H_k$ mit wachsendem $k$ monoton ab. Der Abfall verläuft konvex, das heißt, es ist $H_1$ – $H_2$ > $H_2$ – $H_3$. Die Extrapolation des Endwertes ( $k$ → ∞ ) ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur sehr vage) möglich.
*Verzichtet man auf die Auswertung der Ziffern (ZI, Zeile 2 ⇒ $M$ = 32) und zusätzlich auf die Auswertung der Interpunktionszeichen IP, Zeile 3 ⇒ $M$ = 31), so nehmen die Entropienäherungen $H_1$ (um 0.114), $H_2$ (um 0.063) und $H_3$ (um 0.038) ab. Auf den Endwert $H$ als dem Grenzwert von $H_k$ für $k$ → ∞ wirkt sich der Verzicht auf Ziffern (ZI) und Interpunktion (IP) voraussichtlich kaum aus.
*Lässt man bei der Auswertung noch das Leerzeichen (LZ, Zeile 4 → $M$ = 30) außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen „ä”, „ö”, „ü” und „ß”.
*Der in der letzten Zeile angegebene $H_1$–Wert 4.132 stimmt mit dem von Küpfmüller ermittelten Wert $H_1$ ≈ 4.1 sehr gut überein. Hinsichtlich der $H_3$–Werte gibt es aber deutliche Unterschiede: Unsere Analyse ergibt $H_3$ ≈ 3.4 gegenüber Küpfmüllers 2.8 (alle Angaben in bit/Buchstabe).
*Aus der Auftrittshäufigkeit des Leerzeichens (17.8%) ergibt sich hier eine mittlere Wortlänge von 1/0.178 – 1 ≈ 4.6, ein kleinerer Wert als von Küpfmüller (5.5) angegeben. Die Diskrepanz lässt sich mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummern).
*Interessant ist der Vergleich der Zeilen 3 und 4. Berücksichtigt man das Leerzeichen, so wird zwar $H_0$ von $\log_2$ (30) auf $\log_2$ (31) vergrößert, aber man verringert dadurch $H_1$ (um den Faktor 0.98), $H_2$ (um 0.96) und $H_3$ (um 0.93). Küpfmüller hat diesen Faktor intuitiv mit 85% berücksichtigt.
Obwohl wir unsere eigenen Recherchen als nicht so bedeutend ansehen, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen 1.0 bit/Buchstabe für die englische Sprache und auch Küpfmüllers 1.3 bit/Buchstabe für Deutsch etwas zu niedrig sind, unter Anderem, weil
der Symbolumfang deutlich größer ist, als von Shannon und Küpfmüller bei ihren Analysen berücksichtigt – beispielsweise gilt für den ASCII–Zeichensatz M = 256,
die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments erhöhen.

==Synthetisch erzeugte Texte ==

In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die <ref> Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref> entnommen wurden. Der zugrundeliegende Symbolumfang ist M = 27, das heißt, berücksichtigt sind alle Buchstaben (ohne Umlaute und „ß”) sowie das Leerzeichen.
*Die '''Buchstabennäherung nullter Ordnun'''g geht von gleichwahrscheinlichen Zeichen aus. Hier ist kein Unterschied zwischen Deutsch (rot) und Englisch (blau) festzustellen.
*Bei der '''ersten Buchstabennäherung''' werden bereits die unterschiedlichen Häufigkeiten berücksichtigt, bei den Näherungen höherer Ordnung auch die vorangegangenen Zeichen.
*Bei einer '''Synthese 4. Ordnung''' ⇒ die Wahrscheinlichkeit für einen neuen Buchstaben hängt von den drei zuletzt ausgewählten Zeichen ab – erkennt man bereits sinnhafte Worte.
*Die Wortnäherung '''1. Ordnung''' synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten, die Näherung '''2. Ordnung''' berücksichtigt zusätzlich noch das vorherige Wort.

[[File:P_ID2269__Inf_T_1_3_S4.png|Künstlich erzeugte deutsche und englische Texte]]

Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe A1.8]].

== Aufgaben zu Kapitel 1.3 ==

==Quellenverzeichnis==
</references>

{{Display}}

Information Theory/Natural Discrete Sources

2017-01-29T22:18:34Z

LukasWolf:

{{Header
|Untermenü=Entropie wertdiskreter Nachrichtenquellen
|Vorherige Seite=Nachrichtenquellen mit Gedächtnis
|Nächste Seite=Allgemeine Beschreibung
}}

==Schwierigkeiten bei der Entropiebestimmung ==

Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt. Nun betrachten wir geschriebene Texte. Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.
Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI (American National Standard Institute) dargestellt, obwohl es etliche „modernere” Codierungen gibt. Die $M$ = $2^8$ = 256 ANSI–Zeichen sind dabei wie folgt belegt:
* '''Nr. 0 bis 31''': nicht druck– und darstellbare Steuerbefehle,
* '''Nr. 32 bis 127''': identisch mit den Zeichen des 7 Bit–ASCII–Codes,
* '''Nr. 128 bis 159''': weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
* '''Nr. 160 bis 255''': identisch mit Unicode–Charts.

Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise in [[Informationstheorie/Verallgemeinerung auf k–Tupel und Grenzübergang|Kapitel 1.2]] als den Grenzübergang der Entropienäherung $H_k$ für $k$ → ∞ ermitteln. Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:
*Bereits für die Entropienäherung $H_2$ gibt es $M_2$ = $256^2$ = 65536 mögliche Zweiertupel. Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich. Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel 100 Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits N > $6.5 · 10^6$ sein.
*Die Anzahl der möglichen Dreiertupel ergibt sich zu $M_3$ > $16 · 10^7$ und damit ist die erforderliche Quellensymbollänge $N$ schon größer als $1.6 · 10^9$. Dies entspricht bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile einem Buch mit etwa 500.000 Seiten.
*Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als zwei oder drei Zeichen. Küpfmüller gibt für die deutsche Sprache einen Wert von 100 an [Küp54]. Zur Ermittlung der 100. Entropienäherung benötigt man aber $2^{800}$ ≈ $10^{240}$ Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor 100 mehr Zeichen.

Eine berechtigte Frage ist deshalb: Wie hat [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller] im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] die Entropie der englischen Sprache? Eines sei vorweg verraten: Nicht mit dem oben beschriebenen Ansatz.

==Entropieabschätzung nach Küpfmüller ==

Karl Küpfmüller hat die Entropie von deutschen Texten untersucht. Er geht bei seiner in [Küp54] veröffentlichten Abschätzung von folgenden Voraussetzungen aus:
*ein Alphabet mit 26 Buchstaben (keine Umlaute und Satzzeichen),
*Nichtberücksichtigung des Leerzeichens,
*keine Unterscheidung zwischen Groß– und Kleinschreibung.

Der Entscheidungsgehalt ergibt sich somit zu $H_0$ = $\log_2$ (26) ≈ 4.7 bit/Buchstabe.
Seine Abschätzung basiert auf den folgenden Überlegungen:

1.) Die '''erste Entropienäherung''' ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten. Nach einer Studie von 1939 ist „e” mit 16.7% am häufigsten, am seltensten ist „x” mit 0.02%.

$$H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

2.) Hinsichtlich der '''Silbenhäufigkeit''' wertet Küpfmüller das von F.W. Kaeding herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus. Er unterscheidet zwischen Stammsilben, Vorsilben und Endsilben. Er kommt so auf den mittleren Informationsgehalt aller Silben:

$$}H_{\rm Silbe} = \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx \\
\hspace{-0.1cm} \approx \hspace{-0.1cm}4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/Silbe}
\hspace{0.05cm}.$$

*Nach der Kaeding–Studie von 1898 bilden die 400 häufigsten Stammsilben (beginnend mit „de”) 47% eines deutschen Textes und tragen zur Entropie mit $H_{\text{Stamm}}$ ≈ 4.15 bit/Silbe bei.
*Der Beitrag der 242 häufigsten Vorsilben – an erster Stelle „ge” mit 9% – wird von Küpfmüller mit $H_{\text{Vor}}$ ≈ 0.82 bit/Silbe beziffert.
*Der Beitrag der 118 meistgebrauchten Endsilben ist $H_{\text{End}}$ ≈ 1.62 bit/Silbe. Am häufigsten tritt „en” am Ende eines Wortes mit 30% auf.
*Der Rest von 14% verteilt sich auf bisher nicht erfasste Silben. Küpfmüller nimmt dazu an, dass es davon 4.000 gibt und diese gleichverteilt sind. Er setzt dafür $H_{\text{Rest}}$ ≈ 2 bit/Silbe an.

3.) Für die durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert 3.03. Daraus schloss er auf die '''dritte Entropienäherung''' hinsichtlich der Buchstaben:

$$H_3 \approx \frac{8.6}{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Küpfmüllers Abschätzung der Entropienäherung H3 basierte vor allem auf den Silbenhäufigkeiten und dem Mittelwert von 3.03 Buchstaben pro Silbe. Um eine weitere Entropienäherung Hk mit größerem k zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten. Er kam zu folgenden Ergebnissen:

4.) Die 322 häufigsten Wörter liefern einen Entropiebeitrag von 4.5 bit/Wort. Die Beiträge der restlichen 40.000 Wörter wurden geschätzt, wobei angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind. Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt eines Wortes zu ca. 11 bit.

5.) Die Auszählung ergab im Mittel 5.5 Buchstaben pro Wort. Analog zu Punkt (3) wurde so die Entropienäherung für $k$ = 5.5 angenähert:

$$H_{5.5} \approx \frac{11}{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Natürlich kann $k$ gemäß [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|Definition]] nur ganzzahlige Werte annehmen. Diese Gleichung ist deshalb so zu interpretieren, dass sich für $H_5$ ein etwas größerer und für $H_6$ ein etwas kleinerer Wert ergeben wird.

6.) Man kann nun versuchen, aus diesen drei Punkten durch Extrapolation den Endwert der Entropie für $k$ → ∞ zu ermitteln. In folgender Grafik wird dies bei logarithmisch aufgetragener Abszisse versucht:

[[File:P_ID2303__Inf_T_1_3_S2.png|Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller]]

Die durchgehende Linie ist der Originalarbeit von Küpfmüller [Küp54] entnommen und führt zum Endwert $H$ = 1.6 bit/Buchstabe. Die grünen Kurven (vom LNTwww–Autor hinzugefügt) und die braunen Pfeile zeigen aber, dass eine solche Extrapolation nur sehr vage ist.

7.) Küpfmüller versuchte anschließend, den von ihm gefundenen Endwert $H$ = 1.6 bit/Buchstabe mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf $H$ = 1.51 bit/Buchstabe.

8.) Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert $H$ ≈ 1 bit/Buchstabe angegeben, allerdings unter Berücksichtigung des Leerzeichens. Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet:

$$H =1.51 \cdot \frac{5.5}{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens (5.5) und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens (6.5).

Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis $H$ = 1.51 bit/Buchstabe führten. Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:
*Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt. Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
*Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen. Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell (etwa 100 bis 200 Versuche) ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
*Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab. Für verschiedene Texte ergeben sich Werte zwischen 15% und 33%, mit dem Mittelwert bei 22%. Das heißt aber auch: Im Durchschnitt können 22% der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
*Anders ausgedrückt: Die Zahl der Wörter eines langen Textes kann mit dem Faktor 0.78 reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt. Ausgehend vom Bezugswert $H_{5.5}$ = 2 bit/Buchstabe (siehe Punkt (5), letzte Seite) für ein mittellanges Wort ergibt sich somit die Entropie $H$ ≈ 0.78 · 2 = 1.56 bit/Buchstabe.
*Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung der Silben und ermittelte den Reduktionsfaktor 0.54 hinsichtlich Silben. Als Endergebnis nennt Küpfmüller $H$ = 0.54 · $H_3$ ≈ 1.51 bit/Buchstabe, wobei $H_3$ ≈ 2.8 bit/Buchstabe der Entropie einer Silbe mittlerer Länge (≈ 3 Buchstaben, siehe Punkt (3), vorletzte Seite) entspricht.

Die vielleicht als zu kritisch empfundenen Bemerkungen auf dieser Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannon's Beiträge zur gleichen Thematik. Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten. Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.

==Einige eigene Simulationsergebnisse==

Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen Simulationsergebnissen verglichen werden, die vom Autor G. Söder dieses Kapitels am Lehrstuhl für Nachrichtentechnik der Technischen Universität München gewonnen wurden. Die Resultate basieren auf
*dem Programm '''WDIT''' (Wertdiskrete Informationstheorie) aus dem Praktikum [Söd01]; der Link weist auf die Zip–Version des Programms,
*einer ASCII–Version der deutschen Bibel mit fast N = 4.37 Millionen Schriftzeichen, die auf den Symbolumfang M = 33 reduziert wurde:
'''a''', '''b''', '''c''', ... , '''x''', '''y''', '''z''', '''ä''', '''ö''', '''ü''', '''ß''', '''LZ''', '''ZI''', '''IP'''.

Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben. Gegenüber Küpfmüllers Analyse wurden hier noch zusätzlich berücksichtigt:
*die deutschen Umlaute „ä”, „ö”, „ü” und „ß”, die etwa 1.2% des Bibeltextes ausmachen,
*die Klasse IP (Interpunktion) mit ca. 3%,
*die Klasse ZI (Ziffer) mit ca. 1.3% in Folge der Vers–Nummerierung,
*das Leerzeichen (LZ) als das häufigste Zeichen (17.8%), noch vor dem „e” (12.8%).

Die nachfolgende Tabelle fasst die Ergebnisse zusammen. N bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte). Die Interpretation folgt auf der nächsten Seite.

[[File: P_ID2267__Inf_T_1_3_S3.png|Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel]]

''Hinweis'': Betrachten Sie diese Ergebnisse bitte nicht als Teil einer wissenschaftlichen Untersuchung, sondern nur als den Versuch, Studierenden die in Kapitel 1.3 behandelte Thematik in einem Praktikum näher zu bringen. Als Grundlage dieser Untersuchung wurde von der Bibel ausgegangen, da uns sowohl deren deutsche als auch die englische Fassung im geeigneten ASCII–Format zur Verfügung gestellt wurden.

Die in der [[Natürliche_wertdiskrete_Nachrichtenquellen#Einige_eigene_Simulationsergebnisse|Tabelle]] angegebenen Entropien $H_0$ (Entscheidungsgehalt), $H_1$, $H_2$ und $H_3$ wurden jeweils aus $N$ Schriftzeichen ermittelt und sind jeweils in bit/Schriftzeichen angegeben. Die gesamte Datei „Bibel” (in deutscher Sprache) beinhaltet fast $N$ = 4.37 Millionen Schriftzeichen, was bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile etwa einem Buch mit 1300 Seiten entsprechen würde. Der Symbolumfang ist $M$ = 33.
Die Ergebnisse lassen sich wie folgt zusammenfassen:
*In allen Zeilen nehmen die Entropienäherungen $H_k$ mit wachsendem $k$ monoton ab. Der Abfall verläuft konvex, das heißt, es ist $H_1$ – $H_2$ > $H_2$ – $H_3$. Die Extrapolation des Endwertes ( $k$ → ∞ ) ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur sehr vage) möglich.
*Verzichtet man auf die Auswertung der Ziffern (ZI, Zeile 2 ⇒ $M$ = 32) und zusätzlich auf die Auswertung der Interpunktionszeichen IP, Zeile 3 ⇒ $M$ = 31), so nehmen die Entropienäherungen $H_1$ (um 0.114), $H_2$ (um 0.063) und $H_3$ (um 0.038) ab. Auf den Endwert $H$ als dem Grenzwert von $H_k$ für $k$ → ∞ wirkt sich der Verzicht auf Ziffern (ZI) und Interpunktion (IP) voraussichtlich kaum aus.
*Lässt man bei der Auswertung noch das Leerzeichen (LZ, Zeile 4 → $M$ = 30) außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen „ä”, „ö”, „ü” und „ß”.
*Der in der letzten Zeile angegebene $H_1$–Wert 4.132 stimmt mit dem von Küpfmüller ermittelten Wert $H_1$ ≈ 4.1 sehr gut überein. Hinsichtlich der $H_3$–Werte gibt es aber deutliche Unterschiede: Unsere Analyse ergibt $H_3$ ≈ 3.4 gegenüber Küpfmüllers 2.8 (alle Angaben in bit/Buchstabe).
*Aus der Auftrittshäufigkeit des Leerzeichens (17.8%) ergibt sich hier eine mittlere Wortlänge von 1/0.178 – 1 ≈ 4.6, ein kleinerer Wert als von Küpfmüller (5.5) angegeben. Die Diskrepanz lässt sich mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummern).
*Interessant ist der Vergleich der Zeilen 3 und 4. Berücksichtigt man das Leerzeichen, so wird zwar $H_0$ von $\log_2$ (30) auf $\log_2$ (31) vergrößert, aber man verringert dadurch $H_1$ (um den Faktor 0.98), $H_2$ (um 0.96) und $H_3$ (um 0.93). Küpfmüller hat diesen Faktor intuitiv mit 85% berücksichtigt.
Obwohl wir unsere eigenen Recherchen als nicht so bedeutend ansehen, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen 1.0 bit/Buchstabe für die englische Sprache und auch Küpfmüllers 1.3 bit/Buchstabe für Deutsch etwas zu niedrig sind, unter Anderem, weil
der Symbolumfang deutlich größer ist, als von Shannon und Küpfmüller bei ihren Analysen berücksichtigt – beispielsweise gilt für den ASCII–Zeichensatz M = 256,
die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments erhöhen.

==Synthetisch erzeugte Texte ==

In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die <ref> Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref> entnommen wurden. Der zugrundeliegende Symbolumfang ist M = 27, das heißt, berücksichtigt sind alle Buchstaben (ohne Umlaute und „ß”) sowie das Leerzeichen.
*Die '''Buchstabennäherung nullter Ordnun'''g geht von gleichwahrscheinlichen Zeichen aus. Hier ist kein Unterschied zwischen Deutsch (rot) und Englisch (blau) festzustellen.
*Bei der '''ersten Buchstabennäherung''' werden bereits die unterschiedlichen Häufigkeiten berücksichtigt, bei den Näherungen höherer Ordnung auch die vorangegangenen Zeichen.
*Bei einer '''Synthese 4. Ordnung''' ⇒ die Wahrscheinlichkeit für einen neuen Buchstaben hängt von den drei zuletzt ausgewählten Zeichen ab – erkennt man bereits sinnhafte Worte.
*Die Wortnäherung '''1. Ordnung''' synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten, die Näherung '''2. Ordnung''' berücksichtigt zusätzlich noch das vorherige Wort.

[[File:P_ID2269__Inf_T_1_3_S4.png|Künstlich erzeugte deutsche und englische Texte]]

Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe A1.8]].

== Aufgaben zu Kapitel 1.3 ==

==Quellenverzeichnis==
</references>

{{Display}}

Information Theory/Natural Discrete Sources

2017-01-29T22:18:00Z

LukasWolf:

{{Header
|Untermenü=Entropie wertdiskreter Nachrichtenquellen
|Vorherige Seite=Nachrichtenquellen mit Gedächtnis
|Nächste Seite=Allgemeine Beschreibung
}}

==Schwierigkeiten bei der Entropiebestimmung ==

Bisher haben wir uns ausschließlich mit künstlich erzeugten Symbolfolgen beschäftigt. Nun betrachten wir geschriebene Texte. Ein solcher Text kann als eine natürliche wertdiskrete Nachrichtenquelle aufgefasst werden, die natürlich auch informationstheoretisch analysiert werden kann, indem man ihre Entropie ermittelt.
Natürliche Texte werden auch in heutiger Zeit (2011) noch oft mit dem 8 Bit–Zeichensatz nach ANSI (American National Standard Institute) dargestellt, obwohl es etliche „modernere” Codierungen gibt. Die $M$ = $2^8$ = 256 ANSI–Zeichen sind dabei wie folgt belegt:
* '''Nr. 0 bis 31''': nicht druck– und darstellbare Steuerbefehle,
* '''Nr. 32 bis 127''': identisch mit den Zeichen des 7 Bit–ASCII–Codes,
* '''Nr. 128 bis 159''': weitere Steuerzeichen bzw. Alphanumerikzeichen für Windows,
* '''Nr. 160 bis 255''': identisch mit Unicode–Charts.

Theoretisch könnte man auch hier die Entropie entsprechend der Vorgehensweise in [[Verallgemeinerung auf k–Tupel und Grenzübergang|Kapitel 1.2]] als den Grenzübergang der Entropienäherung $H_k$ für $k$ → ∞ ermitteln. Praktisch ergeben sich aber nach dieser Rezeptur unüberwindbare numerische Grenzen:
*Bereits für die Entropienäherung $H_2$ gibt es $M_2$ = $256^2$ = 65536 mögliche Zweiertupel. Für die Berechnung sind somit ebenso viele Speicherplätze (in Byte) erforderlich. Geht man davon aus, dass man für eine ausreichend sichere Statistik im Mittel 100 Entsprechungen pro Tupel benötigt, so sollte die Länge der Quellensymbolfolge bereits N > $6.5 · 10^6$ sein.
*Die Anzahl der möglichen Dreiertupel ergibt sich zu $M_3$ > $16 · 10^7$ und damit ist die erforderliche Quellensymbollänge $N$ schon größer als $1.6 · 10^9$. Dies entspricht bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile einem Buch mit etwa 500.000 Seiten.
*Bei einem natürlichen Text reichen die statistischen Bindungen aber sehr viel weiter als zwei oder drei Zeichen. Küpfmüller gibt für die deutsche Sprache einen Wert von 100 an [Küp54]. Zur Ermittlung der 100. Entropienäherung benötigt man aber $2^{800}$ ≈ $10^{240}$ Häufigkeiten und für die gesicherte Statistik nochmals um den Faktor 100 mehr Zeichen.

Eine berechtigte Frage ist deshalb: Wie hat [https://de.wikipedia.org/wiki/Karl_K%C3%BCpfm%C3%BCller Karl Küpfmüller] im Jahre 1954 die Entropie der deutschen Sprache ermittelt, und vor ihm schon [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] die Entropie der englischen Sprache? Eines sei vorweg verraten: Nicht mit dem oben beschriebenen Ansatz.

==Entropieabschätzung nach Küpfmüller ==

Karl Küpfmüller hat die Entropie von deutschen Texten untersucht. Er geht bei seiner in [Küp54] veröffentlichten Abschätzung von folgenden Voraussetzungen aus:
*ein Alphabet mit 26 Buchstaben (keine Umlaute und Satzzeichen),
*Nichtberücksichtigung des Leerzeichens,
*keine Unterscheidung zwischen Groß– und Kleinschreibung.

Der Entscheidungsgehalt ergibt sich somit zu $H_0$ = $\log_2$ (26) ≈ 4.7 bit/Buchstabe.
Seine Abschätzung basiert auf den folgenden Überlegungen:

1.) Die '''erste Entropienäherung''' ergibt sich aus den Buchstabenhäufigkeiten in deutschen Texten. Nach einer Studie von 1939 ist „e” mit 16.7% am häufigsten, am seltensten ist „x” mit 0.02%.

$$H_1 \approx 4.1\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

2.) Hinsichtlich der '''Silbenhäufigkeit''' wertet Küpfmüller das von F.W. Kaeding herausgegebene „Häufigkeitswörterbuch der deutschen Sprache” aus. Er unterscheidet zwischen Stammsilben, Vorsilben und Endsilben. Er kommt so auf den mittleren Informationsgehalt aller Silben:

$$}H_{\rm Silbe} = \hspace{-0.1cm} H_{\rm Stamm} + H_{\rm Vor} + H_{\rm End} + H_{\rm Rest} \approx \\
\hspace{-0.1cm} \approx \hspace{-0.1cm}4.15 + 0.82+1.62 + 2.0 \approx 8.6\,\, {\rm bit/Silbe}
\hspace{0.05cm}.$$

*Nach der Kaeding–Studie von 1898 bilden die 400 häufigsten Stammsilben (beginnend mit „de”) 47% eines deutschen Textes und tragen zur Entropie mit $H_{\text{Stamm}}$ ≈ 4.15 bit/Silbe bei.
*Der Beitrag der 242 häufigsten Vorsilben – an erster Stelle „ge” mit 9% – wird von Küpfmüller mit $H_{\text{Vor}}$ ≈ 0.82 bit/Silbe beziffert.
*Der Beitrag der 118 meistgebrauchten Endsilben ist $H_{\text{End}}$ ≈ 1.62 bit/Silbe. Am häufigsten tritt „en” am Ende eines Wortes mit 30% auf.
*Der Rest von 14% verteilt sich auf bisher nicht erfasste Silben. Küpfmüller nimmt dazu an, dass es davon 4.000 gibt und diese gleichverteilt sind. Er setzt dafür $H_{\text{Rest}}$ ≈ 2 bit/Silbe an.

3.) Für die durchschnittliche Buchstabenzahl je Silbe ermittelte Küpfmüller den Wert 3.03. Daraus schloss er auf die '''dritte Entropienäherung''' hinsichtlich der Buchstaben:

$$H_3 \approx \frac{8.6}{3.03}\approx 2.8\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Küpfmüllers Abschätzung der Entropienäherung H3 basierte vor allem auf den Silbenhäufigkeiten und dem Mittelwert von 3.03 Buchstaben pro Silbe. Um eine weitere Entropienäherung Hk mit größerem k zu erhalten, analysierte Küpfmüller zusätzlich die Wörter in deutschen Texten. Er kam zu folgenden Ergebnissen:

4.) Die 322 häufigsten Wörter liefern einen Entropiebeitrag von 4.5 bit/Wort. Die Beiträge der restlichen 40.000 Wörter wurden geschätzt, wobei angenommen wurde, dass die Häufigkeiten von seltenen Wörtern reziprok zu ihrer Ordnungszahl sind. Mit diesen Voraussetzungen ergibt sich der mittlere Informationsgehalt eines Wortes zu ca. 11 bit.

5.) Die Auszählung ergab im Mittel 5.5 Buchstaben pro Wort. Analog zu Punkt (3) wurde so die Entropienäherung für $k$ = 5.5 angenähert:

$$H_{5.5} \approx \frac{11}{5.5}\approx 2\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Natürlich kann $k$ gemäß [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|Definition]] nur ganzzahlige Werte annehmen. Diese Gleichung ist deshalb so zu interpretieren, dass sich für $H_5$ ein etwas größerer und für $H_6$ ein etwas kleinerer Wert ergeben wird.

6.) Man kann nun versuchen, aus diesen drei Punkten durch Extrapolation den Endwert der Entropie für $k$ → ∞ zu ermitteln. In folgender Grafik wird dies bei logarithmisch aufgetragener Abszisse versucht:

[[File:P_ID2303__Inf_T_1_3_S2.png|Näherungswerte der Entropie der deutschen Sprache nach Küpfmüller]]

Die durchgehende Linie ist der Originalarbeit von Küpfmüller [Küp54] entnommen und führt zum Endwert $H$ = 1.6 bit/Buchstabe. Die grünen Kurven (vom LNTwww–Autor hinzugefügt) und die braunen Pfeile zeigen aber, dass eine solche Extrapolation nur sehr vage ist.

7.) Küpfmüller versuchte anschließend, den von ihm gefundenen Endwert $H$ = 1.6 bit/Buchstabe mit völlig anderer Methodik – siehe nächster Abschnitt – zu verifizieren. Nach dieser Abschätzung revidierte er sein Ergebnis geringfügig auf $H$ = 1.51 bit/Buchstabe.

8.) Shannon hatte drei Jahre vorher nach völlig anderer Vorgehensweise für die englische Sprache den Entropiewert $H$ ≈ 1 bit/Buchstabe angegeben, allerdings unter Berücksichtigung des Leerzeichens. Um seine Ergebnisse mit Shannom vergleichen zu können, hat Küpfmüller das Leerzeichen nachträglich in sein Ergebnis eingerechnet:

$$H =1.51 \cdot \frac{5.5}{6.5}\approx 1.3\,\, {\rm bit/Buchstabe}\hspace{0.05 cm}.$$

Der Korrekturfaktor ist der Quotient aus der mittleren Wortlänge ohne Berücksichtigung des Leerzeichens (5.5) und der mittleren Wortlänge mit Berücksichtigung des Leerzeichens (6.5).

Der Vollständigkeit halber seien hier noch Küpfmüllers Überlegungen dargelegt, die ihn zum Endergebnis $H$ = 1.51 bit/Buchstabe führten. Da es für die Statistik von Wortgruppen oder ganzen Sätzen keine Unterlagen gab, schätzte er den Entropiewert der deutschen Sprache wie folgt ab:
*Ein beliebiger zusammenhängender deutscher Text wird hinter einem bestimmten Wort abgedeckt. Der vorhergehende Text wird gelesen, und der Leser soll versuchen, das folgende Wort aus dem Zusammenhang mit dem vorhergehenden Text zu ermitteln.
*Bei sehr vielen solcher Versuche ergibt die prozentuale Zahl der Treffer ein Maß für die Bindungen zwischen Wörtern und Sätzen. Es zeigt sich, dass bei ein und derselben Textart (Romane, wissenschaftliche Schriften, usw.) ein und desselben Autors relativ schnell (etwa 100 bis 200 Versuche) ein konstanter Endwert dieses Trefferverhältnisses erreicht wird.
*Das Trefferverhältnis hängt aber ziemlich stark von der Art des Textes ab. Für verschiedene Texte ergeben sich Werte zwischen 15% und 33%, mit dem Mittelwert bei 22%. Das heißt aber auch: Im Durchschnitt können 22% der Wörter in einem deutschen Text aus dem Zusammenhang heraus ermittelt werden.
*Anders ausgedrückt: Die Zahl der Wörter eines langen Textes kann mit dem Faktor 0.78 reduziert werden, ohne dass der Nachrichtengehalt des Textes eine signifikante Einbuße erfährt. Ausgehend vom Bezugswert $H_{5.5}$ = 2 bit/Buchstabe (siehe Punkt (5), letzte Seite) für ein mittellanges Wort ergibt sich somit die Entropie $H$ ≈ 0.78 · 2 = 1.56 bit/Buchstabe.
*Küpfmüller überprüfte diesen Wert mit einer vergleichbaren empirischen Untersuchung der Silben und ermittelte den Reduktionsfaktor 0.54 hinsichtlich Silben. Als Endergebnis nennt Küpfmüller $H$ = 0.54 · $H_3$ ≈ 1.51 bit/Buchstabe, wobei $H_3$ ≈ 2.8 bit/Buchstabe der Entropie einer Silbe mittlerer Länge (≈ 3 Buchstaben, siehe Punkt (3), vorletzte Seite) entspricht.

Die vielleicht als zu kritisch empfundenen Bemerkungen auf dieser Seite sollen die Bedeutung von Küpfmüllers Entropieabschätzung nicht herabsetzen, eben so wenig wie Shannon's Beiträge zur gleichen Thematik. Sie sollen nur auf die großen Schwierigkeiten hinweisen, die bei dieser Aufgabenstellung auftreten. Dies ist vielleicht auch der Grund dafür, dass sich seit den 1950er Jahren niemand mehr mit dieser Problematik intensiv beschäftigt hat.

==Einige eigene Simulationsergebnisse==

Die Angaben von Karl Küpfmüller hinsichtlich der Entropie der deutschen Sprache sollen nun mit einigen Simulationsergebnissen verglichen werden, die vom Autor G. Söder dieses Kapitels am Lehrstuhl für Nachrichtentechnik der Technischen Universität München gewonnen wurden. Die Resultate basieren auf
*dem Programm '''WDIT''' (Wertdiskrete Informationstheorie) aus dem Praktikum [Söd01]; der Link weist auf die Zip–Version des Programms,
*einer ASCII–Version der deutschen Bibel mit fast N = 4.37 Millionen Schriftzeichen, die auf den Symbolumfang M = 33 reduziert wurde:
'''a''', '''b''', '''c''', ... , '''x''', '''y''', '''z''', '''ä''', '''ö''', '''ü''', '''ß''', '''LZ''', '''ZI''', '''IP'''.

Nicht unterschieden wurde bei unserer Analyse zwischen Groß– und Kleinbuchstaben. Gegenüber Küpfmüllers Analyse wurden hier noch zusätzlich berücksichtigt:
*die deutschen Umlaute „ä”, „ö”, „ü” und „ß”, die etwa 1.2% des Bibeltextes ausmachen,
*die Klasse IP (Interpunktion) mit ca. 3%,
*die Klasse ZI (Ziffer) mit ca. 1.3% in Folge der Vers–Nummerierung,
*das Leerzeichen (LZ) als das häufigste Zeichen (17.8%), noch vor dem „e” (12.8%).

Die nachfolgende Tabelle fasst die Ergebnisse zusammen. N bezeichnet die jeweils analysierte Dateigröße in Schriftzeichen (Byte). Die Interpretation folgt auf der nächsten Seite.

[[File: P_ID2267__Inf_T_1_3_S3.png|Entropiewerte (in bit/Schriftzeichen) der deutschen Bibel]]

''Hinweis'': Betrachten Sie diese Ergebnisse bitte nicht als Teil einer wissenschaftlichen Untersuchung, sondern nur als den Versuch, Studierenden die in Kapitel 1.3 behandelte Thematik in einem Praktikum näher zu bringen. Als Grundlage dieser Untersuchung wurde von der Bibel ausgegangen, da uns sowohl deren deutsche als auch die englische Fassung im geeigneten ASCII–Format zur Verfügung gestellt wurden.

Die in der [[Natürliche_wertdiskrete_Nachrichtenquellen#Einige_eigene_Simulationsergebnisse|Tabelle]] angegebenen Entropien $H_0$ (Entscheidungsgehalt), $H_1$, $H_2$ und $H_3$ wurden jeweils aus $N$ Schriftzeichen ermittelt und sind jeweils in bit/Schriftzeichen angegeben. Die gesamte Datei „Bibel” (in deutscher Sprache) beinhaltet fast $N$ = 4.37 Millionen Schriftzeichen, was bei 42 Zeilen pro Seite und 80 Zeichen pro Zeile etwa einem Buch mit 1300 Seiten entsprechen würde. Der Symbolumfang ist $M$ = 33.
Die Ergebnisse lassen sich wie folgt zusammenfassen:
*In allen Zeilen nehmen die Entropienäherungen $H_k$ mit wachsendem $k$ monoton ab. Der Abfall verläuft konvex, das heißt, es ist $H_1$ – $H_2$ > $H_2$ – $H_3$. Die Extrapolation des Endwertes ( $k$ → ∞ ) ist aus den jeweils ermittelten drei Entropienäherungen nicht (oder nur sehr vage) möglich.
*Verzichtet man auf die Auswertung der Ziffern (ZI, Zeile 2 ⇒ $M$ = 32) und zusätzlich auf die Auswertung der Interpunktionszeichen IP, Zeile 3 ⇒ $M$ = 31), so nehmen die Entropienäherungen $H_1$ (um 0.114), $H_2$ (um 0.063) und $H_3$ (um 0.038) ab. Auf den Endwert $H$ als dem Grenzwert von $H_k$ für $k$ → ∞ wirkt sich der Verzicht auf Ziffern (ZI) und Interpunktion (IP) voraussichtlich kaum aus.
*Lässt man bei der Auswertung noch das Leerzeichen (LZ, Zeile 4 → $M$ = 30) außer Betracht, so ergibt sich nahezu die gleiche Konstellation wie von Küpfmüller ursprünglich betrachtet. Der einzige Unterschied sind die eher seltenen deutschen Sonderzeichen „ä”, „ö”, „ü” und „ß”.
*Der in der letzten Zeile angegebene $H_1$–Wert 4.132 stimmt mit dem von Küpfmüller ermittelten Wert $H_1$ ≈ 4.1 sehr gut überein. Hinsichtlich der $H_3$–Werte gibt es aber deutliche Unterschiede: Unsere Analyse ergibt $H_3$ ≈ 3.4 gegenüber Küpfmüllers 2.8 (alle Angaben in bit/Buchstabe).
*Aus der Auftrittshäufigkeit des Leerzeichens (17.8%) ergibt sich hier eine mittlere Wortlänge von 1/0.178 – 1 ≈ 4.6, ein kleinerer Wert als von Küpfmüller (5.5) angegeben. Die Diskrepanz lässt sich mit unserer Analysedatei „Bibel” erklären (viele Leerzeichen aufgrund der Vers–Nummern).
*Interessant ist der Vergleich der Zeilen 3 und 4. Berücksichtigt man das Leerzeichen, so wird zwar $H_0$ von $\log_2$ (30) auf $\log_2$ (31) vergrößert, aber man verringert dadurch $H_1$ (um den Faktor 0.98), $H_2$ (um 0.96) und $H_3$ (um 0.93). Küpfmüller hat diesen Faktor intuitiv mit 85% berücksichtigt.
Obwohl wir unsere eigenen Recherchen als nicht so bedeutend ansehen, so glauben wir doch, dass für heutige Texte die von Shannon angegebenen 1.0 bit/Buchstabe für die englische Sprache und auch Küpfmüllers 1.3 bit/Buchstabe für Deutsch etwas zu niedrig sind, unter Anderem, weil
der Symbolumfang deutlich größer ist, als von Shannon und Küpfmüller bei ihren Analysen berücksichtigt – beispielsweise gilt für den ASCII–Zeichensatz M = 256,
die vielfachen Formatierungsmöglichkeiten (Unterstreichungen, Fett- und Kursivschrift, Einrückungen, Farben) den Informationsgehalt eines Dokuments erhöhen.

==Synthetisch erzeugte Texte ==

In der Grafik sind künstlich erzeugte deutsche und englische Texte angegeben, die <ref> Küpfmüller, K.: ''Die Entropie der deutschen Sprache''. Fernmeldetechnische Zeitung 7, 1954, S. 265-272.</ref> entnommen wurden. Der zugrundeliegende Symbolumfang ist M = 27, das heißt, berücksichtigt sind alle Buchstaben (ohne Umlaute und „ß”) sowie das Leerzeichen.
*Die '''Buchstabennäherung nullter Ordnun'''g geht von gleichwahrscheinlichen Zeichen aus. Hier ist kein Unterschied zwischen Deutsch (rot) und Englisch (blau) festzustellen.
*Bei der '''ersten Buchstabennäherung''' werden bereits die unterschiedlichen Häufigkeiten berücksichtigt, bei den Näherungen höherer Ordnung auch die vorangegangenen Zeichen.
*Bei einer '''Synthese 4. Ordnung''' ⇒ die Wahrscheinlichkeit für einen neuen Buchstaben hängt von den drei zuletzt ausgewählten Zeichen ab – erkennt man bereits sinnhafte Worte.
*Die Wortnäherung '''1. Ordnung''' synthetisiert Sätze gemäß den Wortwahrscheinlichkeiten, die Näherung '''2. Ordnung''' berücksichtigt zusätzlich noch das vorherige Wort.

[[File:P_ID2269__Inf_T_1_3_S4.png|Künstlich erzeugte deutsche und englische Texte]]

Weitere Information zur synthetischen Erzeugung von deutschen und englischen Texten finden Sie in [[Aufgaben:1.8_Synthetisch_erzeugte_Texte|Aufgabe A1.8]].

== Aufgaben zu Kapitel 1.3 ==

==Quellenverzeichnis==
</references>

{{Display}}

Information Theory/Discrete Sources with Memory

2017-01-29T22:10:11Z

LukasWolf:

{{Header
|Untermenü=Entropie wertdiskreter Nachrichtenquellen
|Vorherige Seite=Gedächtnislose Nachrichtenquellen
|Nächste Seite=Natürliche wertdiskrete Nachrichtenquellen
}}

==Ein einfaches einführendes Beispiel ==
Zu Beginn des ersten Kapitels haben wir eine gedächtnislose Nachrichtenquelle mit dem Symbolvorrat { '''A''', '''B''', '''C''', '''D'''} ⇒ $M$ = 4 betrachtet. Eine beispielhafte Symbolfolge ist in der nachfolgenden Grafik als Quelle '''Q1''' nochmals dargestellt. Mit den Symbolwahrscheinlichkeiten $p_A$ = 0.4, $p_B$ = 0.3, $p_C$ = 0.2 und $p_D$ = 0.1 ergibt sich die Entropie zu

$$H \hspace{-0.05cm}= 0.4 \cdot {\rm log}_2\hspace{0.05cm}\frac {1}{0.4} + 0.3 \cdot {\rm log}_2\hspace{0.05cm}\frac {1}{0.3} +0.2 \cdot {\rm log}_2\hspace{0.05cm}\frac {1}{0.2} +0.1 \cdot {\rm log}_2\hspace{0.05cm}\frac {1}{0.1} \approx 1.84 \hspace{0.05cm}{\rm bit/Symbol}
\hspace{0.01cm}.$$

Aufgrund der ungleichen Auftrittswahrscheinlichkeiten der Symbole ist die Entropie kleiner als der Entscheidungsgehalt $H_0$ = log2 $M$ = 2 bit/Symbol.

[[File:P_ID2238__Inf_T_1_2_S1a_neu.png|Quaternäre Nachrichtenquelle ohne/mit Gedächtnis]]

Die Quelle Q2 ist weitgehend identisch mit der Quelle Q1, außer, dass jedes einzelne Symbol nicht nur einmal, sondern zweimal nacheinander ausgegeben wird: '''A''' ⇒ '''AA''', '''B''' ⇒ '''BB''', usw.. Es ist offensichtlich, dass Q2 eine kleinere Entropie (Unsicherheit) aufweist als Q1. Aufgrund des einfachen Wiederholungscodes ist nun $H$ = 1.84/2 = 0.92 bit/Symbol nur halb so groß, obwohl sich an den Auftrittswahrscheinlichkeiten nichts geändert hat.
Dieses Beispiel zeigt:
*Die Entropie einer gedächtnisbehafteten Quelle ist kleiner als die Entropie einer gedächtnislosen Quelle mit gleichen Symbolwahrscheinlichkeiten.
*Es müssen nun auch die statistischen Bindungen innerhalb der Folge 〈 $q_ν$ 〉 berücksichtigt werden, nämlich die Abhängigkeit des Symbols $q_ν$ von den Vorgängersymbolen $q_{ν–1}$, $q_{ν–2}$

==Entropie hinsichtlich Zweiertupel ==
Wir betrachten weiterhin die Quellensymbolfolge 〈 $q_1$, $q_2$, ... , $q_{ν–1}$, $q_ν$, $q_{ν+1}$, ...〉, interessieren uns aber nun für die Entropie zweier aufeinanderfolgender Quellensymbole. Alle Quellensymbole $q_ν$ entstammen einem Alphabet mit dem Symbolunfang $M$, so dass es für die Kombination ( $q_ν$, $q_{ν+1}$ ) genau $M^2$ mögliche Symbolpaare mit folgenden [[Stochastische_Signaltheorie/Mengentheoretische_Grundlagen#Schnittmenge|Verbundwahrscheinlichkeiten]] gibt:

$${\rm Pr}(q_{\nu}\cap q_{\nu+1})\le {\rm Pr}(q_{\nu}) \cdot {\rm Pr}( q_{\nu+1})
\hspace{0.05cm}.$$

Daraus ist die ''Verbundentropie'' eines Zweier–Tupels berechenbar:

$$H_2' = \sum_{q_{\nu} \in \{ q_{\mu}\hspace{-0.08cm} \}} \sum_{q_{\nu+1} \in \{ q_{\mu}\hspace{-0.08cm} \}}\hspace{-0.1cm}{\rm Pr}(q_{\nu}\cap q_{\nu+1}) \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{{\rm Pr}(q_{\nu}\cap q_{\nu+1})} \hspace{0.4cm}({\rm Einheit\hspace{-0.1cm}: \hspace{0.1cm}bit/Zweiertupel})
\hspace{0.05cm}.$$

Der Index 2 symbolisiert, dass sich die so berechnete Entropie auf Zweiertupel bezieht. Um den mittleren Informationsgehalt pro Symbol zu erhalten, muss $H_2'$ noch halbiert werden:

$$H_2 = \frac{H_2'}{2} \hspace{0.5cm}({\rm Einheit\hspace{-0.1cm}: \hspace{0.1cm}bit/Symbol})
\hspace{0.05cm}.$$

Um eine konsistente Nomenklatur zu erreichen, benennen wir nun die in [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Modell_und_Voraussetzungen|Kapitel 1.1]] definierte Entropie mit $H_1$:

$$H_1 = \sum_{q_{\nu}\in \{ q_{\mu}\hspace{-0.03cm} \}} {\rm Pr}(q_{\nu}) \cdot {\rm ld}\hspace{0.1cm}\frac {1}{{\rm Pr}(q_{\nu})} \hspace{0.5cm}({\rm Einheit\hspace{-0.1cm}: \hspace{0.1cm}bit/Symbol})
\hspace{0.05cm}.$$

Der Index 1 soll darauf hinweisen, dass $H_1$ ausschließlich die Symbolwahrscheinlichkeiten berücksichtigt und nicht statistischen Bindungen zwischen Symbolen innerhalb der Folge. Mit dem Entscheidungsgehalt $H_0$ = log2 $M$ ergibt sich dann folgende Größenbeziehung:

$$H_0 \ge H_1 \ge H_2
\hspace{0.05cm}.$$

Bei statistischer Unabhängigkeit der Folgenelemente ist $H_2$ gleich $H_1$.
Die bisherigen Gleichungen geben jeweils einen Scharmittelwert an. Die für die Berechnung von $H_1$ und $H_2$ benötigten Wahrscheinlichkeiten lassen sich aber auch als Zeitmittelwerte aus einer sehr langen Folge berechnen oder – etwas genauer ausgedrückt – durch die entsprechenden [[Stochastische_Signaltheorie/Wahrscheinlichkeit_und_relative_Häufigkeit#Bernoullisches_Gesetz_der_gro.C3.9Fen_Zahlen|relativen Häufigkeiten]] annähern.
Auf den nächsten Seiten werden die Aussagen dieser Seite anhand von Beispielen verdeutlicht.

{{Beispiel}}
Wir betrachten die Folge 〈 $q_1$, ... , $q_{50}$ 〉 entsprechend der folgernden Grafik:
*Die Folgenlänge ist $N$ = 50.
*Die Folgenelemente $q_ν$ entstammen dem Alphabet {'''A''', '''B''', '''C'''} ⇒ Symbolumfang $M$ = 3.
[[File: P_ID2742__Inf_T_1_2_S2_neu.png|Ternäre Symbolfolge und Bildung von Zweier–Tupeln]]
Durch Zeitmittelung über die 50 Symbole erhält man die Symbolwahrscheinlichkeiten $p_A$ ≈ 0.5, $p_B$ ≈ 0.3 und $p_C$ ≈ 0.2, womit man die Entropienäherung erster Ordnung berechnen kann:

$$H_1 = 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{0.5} + 0.3 \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{0.3} +0.2 \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{0.2} \approx \, 1.486 \,{\rm bit/Symbol}
\hspace{0.05cm}.$$

Aufgrund der nicht gleichwahrscheinlichen Symbole ist $H_1$ < $H_0$ = 1.585 bit/Symbol. Als Näherung für die Wahrscheinlichkeiten von Zweiertupeln erhält man aus der obigen Folge:

$$\begin{align*}p_{\rm AA} \hspace{-0.1cm}& = \hspace{-0.1cm} 14/49\hspace{0.05cm}, \hspace{0.2cm}p_{\rm AB} = 8/49\hspace{0.05cm}, \hspace{0.2cm}p_{\rm AC} = 3/49\hspace{0.05cm}, \\
p_{\rm BA} \hspace{-0.1cm}& = \hspace{0.07cm} 7/49\hspace{0.05cm}, \hspace{0.2cm}p_{\rm BB} = 2/49\hspace{0.05cm}, \hspace{0.2cm}p_{\rm BC} = 5/49\hspace{0.05cm}, \\
p_{\rm CA} \hspace{-0.1cm}& = \hspace{0.07cm} 4/49\hspace{0.05cm}, \hspace{0.2cm}p_{\rm CB} = 5/49\hspace{0.05cm}, \hspace{0.2cm}p_{\rm CC} = 1/49\hspace{0.05cm}.\end{align*}$$

Beachten Sie, dass aus den 50 Folgenelementen nur 49 Zweiertupel ('''AA''', ... , '''CC''') gebildet werden können, die in der obigen Grafik farblich unterschiedlich markiert sind.
Die daraus berechenbare Entropienäherung $H_2$ sollte eigentlich gleich $H_1$ sein, da die gegebene Symbolfolge von einer gedächtnislosen Quelle stammt. Aufgrund der kurzen Folgenlänge $N$ = 50 und der daraus resultierenden statistischen Ungenauigkeit ergibt sich ein etwas kleinerer Wert: $H_2$ ≈ 1.39 bit/Symbol.

{{end}}

Verdeutlichen wir uns die Berechnung der Entropienäherungen $H_1$ und $H_2$ an weiteren Beispielen.

{{Beispiel}}
Wir betrachten eine '''gedächtnislose Binärquelle''' mit gleichwahrscheinlichen Symbolen, das heißt es gelte $p_A$ = $p_B$ = 1/2.
*Die ersten zwanzig Folgeelemente lauten:
〈 $q_ν$ 〉 = '''BBAAABAABBBBBAAAABAB''' ...
*Aufgrund der gleichwahrscheinlichen Symbole und $M$ = 2 gilt:
$H_1$ = $H_0$ = 1 bit/Symbol.
*Die Verbundwahrscheinlichkeit $p_{AB}$ der Kombination '''AB''' ist gleich $p_A · p_B$ = 1/4. Ebenso gilt $p_{AA}$ = $p_{BB}$ = $p_{BA}$ = 1/4. Damit erhält man für die zweite Entropienäherung

$$H_2 = \frac{1}{2} \cdot \left [ \frac{1}{4} \cdot {\rm log}_2\hspace{0.1cm}4 + \frac{1}{4} \cdot {\rm log}_2\hspace{0.1cm}4 +\frac{1}{4} \cdot {\rm log}_2\hspace{0.1cm}4 +\frac{1}{4} \cdot {\rm log}_2\hspace{0.1cm}4 \right ] = 1 \,{\rm bit/Symbol}
\hspace{0.05cm}.$$

''Hinweis'': Aus der oben angegebenen Folge ergeben sich aufgrund der kurzen Länge etwas andere Verbundwahrscheinlichkeiten, nämlich $p_{AA}$ = 6/19, $p_{BB}$ = 5/19 und $p_{AB}$ = $p_{BA}$ = 4/19.

{{end}}

Das nächste Beispiel liefert dagegen das Ergebnis $H_2$ < $H_1$.

{{Beispiel}}
Die zweite hier betrachtete Folge ergibt sich aus der oberen Folge durch Anwendung eines einfachen Wiederholungscodes (wiederholte Symbole in Grau):
〈 $q_ν$ 〉 = '''BBBBAAAAAABBAAAABBBB''' ...
*Aufgrund der gleichwahrscheinlichen Symbole und $M$ = 2 ergibt sich auch hier:
$H_1$ = $H_0$ = 1 bit/Symbol.
*Wie in [[Aufgaben:1.3_H0,H1,H2,_..._,H|Aufgabe A1.3]] gezeigt wird, gilt aber nun für die Verbundwahrscheinlichkeiten $p_{AA}$ = $p_{BB}$ = 3/8 und $p_{AB}$ = $p_{BA}$ = 1/8. Daraus folgt:

$$\begin{align*}H_2 \hspace{-0.1cm}& = \hspace{-0.1cm} \frac{1}{2} \cdot \left [ 2 \cdot \frac{3}{8} \cdot {\rm log}_2\hspace{0.1cm}\frac {8}{3} +
2 \cdot \frac{1}{8} \cdot {\rm log}_2\hspace{0.1cm}8\right ] = \frac{3}{8} \cdot {\rm log}_2\hspace{0.1cm}8 - \frac{3}{8} \cdot{\rm log}_2\hspace{0.1cm}3 + \frac{1}{8} \cdot {\rm log}_2\hspace{0.1cm}8 =\\
\hspace{-0.1cm}& = \hspace{-0.1cm} 1.5 -0.375 \cdot 1.585 = 0.906 \,{\rm bit/Symbol} < H_1
\hspace{0.05cm}.\end{align*}$$

Wenn man sich die Aufgabenstellung genauer betrachtet, kommt man zu dem Schluss, dass hier die Entropie $H$ = 0.5 bit/Symbol sein müsste (jedes zweite Symbol liefert keine neue Information). Die zweite Entropienäherung $H_2$ = 0.906 bit/Symbol ist aber deutlich größer als die Entropie $H$.

{{end}}

Dieses Beispiel legt den Schluss nahe, dass zur Entropiebestimmung die Näherung zweiter Ordnung nicht ausreicht. Vielmehr muss man größere zusammenhängende Blöcke mit $k$ > 2 Symbolen betrachten. Einen solchen Block bezeichnen wir im Folgenden als $k$–Tupel.

==Verallgemeinerung auf k–Tupel und Grenzübergang ==

Zur Abkürzung schreiben wir mit der Verbundwahrscheinlichkeit $p_i^{(k)}$ eines $k$–Tupels allgemein:

$$H_k = \frac{1}{k} \cdot \sum_{i=1}^{M^k} p_i^{(k)} \cdot {\rm log}_2\hspace{0.1cm} \frac{1}{p_i^{(k)}} \hspace{0.5cm}({\rm Einheit\hspace{-0.1cm}: \hspace{0.1cm}bit/Symbol})
\hspace{0.05cm}.$$

Die Laufvariable $i$ steht jeweils für eines der $M^k$ Tupel. Die Näherung $H_2$ ergibt sich mit $k$ = 2.

{{Definition}}
Die '''Entropie''' einer Nachrichtenquelle '''mit Gedächtnis''' ist der folgende Grenzwert:

$$H = \lim_{k \rightarrow \infty }H_k \hspace{0.05cm}.$$

Für die Entropienäherungen Hk gelten folgende Größenrelationen (H0: Entscheidungsgehalt):

$$H \le ... \le H_k \le ... \le H_2 \le H_1 \le H_0 \hspace{0.05cm}.$$

{{end}}

Der Rechenaufwand wird bis auf wenige Sonderfälle (siehe nachfolgendes Beispiel) mit zunehmendem $k$ immer größer und hängt natürlich auch vom Symbolumfang $M$ ab:
*Zur Berechnung von $H_{10}$ einer Binärquelle ( $M$ = 2 ) ist über $2^{10}$ = 1024 Terme zu mitteln. Mit jeder weiteren Erhöhung von $k$ um 1 verdoppelt sich die Anzahl der Summenterme.
*Bei einer Quaternärquelle ( $M$ = 4 ) muss zur $H_{10}$–Bestimmung bereits über $4^{10}$ = 1.048.576 Summenterme gemittelt werden.
*Berücksichtigt man, dass jedes dieser $4^{10}$ = $2^{20}$ > $10^6$ $k$–Tupel bei Simulation und Zeitmittelung etwa 100 mal (statistischer Richtwert) vorkommen sollte, um ausreichende Simulationsgenauigkeit zu gewährleisten, so folgt daraus, dass die Folgenlänge größer als $N$ = $10^8$ sein sollte.

{{Beispiel}}
Wir betrachten eine alternierende Binärfolge ⇒ 〈 $q_ν$ 〉 = '''ABABABAB''' ... entsprechend $H_0$ = $H_1$ = 1 bit/Symbol. In diesem Sonderfall muss zur Bestimmung der $H_k$–Näherung unabhängig von $k$ stets nur über zwei Verbundwahrscheinlichkeiten gemittelt werden:
* $k$ = 2: $p_{AB}$ =$ p_{BA}$ = 1/2 ⇒ $H_2$ = 1/2 bit/Symbol,
* $k$ = 3: $p_{ABA}$ = $p_{BAB}$ = 1/2 ⇒ $H_3$ = 1/3 bit/Symbol,
* $k$ = 4: $p_{ABAB}$ =$p_{BABA}$ = 1/2 ⇒ $H_4$ = 1/4 bit/Symbol.

Die Entropie dieser alternierenden Binärfolge ist demzufolge

$$H = \lim_{k \rightarrow \infty }{1}/{k} = 0 \hspace{0.05cm}.$$

Dieses Ergebnis war zu erwarten, da die betrachtete Folge nur minimale Information besitzt, die sich allerdings im Entropie–Endwert $H$ nicht auswirkt, nämlich: „Tritt '''A''' zu den geraden oder ungeraden Zeitpunkten auf?”
Man erkennt aber auch, dass $H_k$ diesem Endwert $H$ = 0 nur sehr langsam näher kommt: Die Näherung $H_{20}$ liefert immer noch 0.05 bit/Symbol.

{{end}}

Die Ergebnisse der letzten Seiten sollen hier kurz zusammengefasst werden:
*Allgemein gilt für die Entropie einer Nachrichtenquelle:

$$H \le ... \le H_3 \le H_2 \le H_1 \le H_0
\hspace{0.05cm}.$$

*Eine '''redundanzfreie Quelle''' liegt vor, falls alle $M$ Symbole gleichwahrscheinlich sind und es keine statistischen Bindungen innerhalb der Folge gibt. Für diese gilt ( $r$ nennt man ''relative Redundanz'' ):

$$H = H_0 = H_1 = H_2 = H_3 = ...$$
$$\Rightarrow \hspace{0.3cm} r = \frac{H - H_0}{H_0}= 0 \hspace{0.05cm}.$$

*Eine '''gedächtnislose Quelle''' kann durchaus redundant sein ( $r$ > 0 ). Diese Redundanz geht dann allerdings allein auf die Abweichung der Symbolwahrscheinlichkeiten von der Gleichverteilung zurück. Hier gelten folgende Relationen:

$$H = H_1 = H_2 = H_3 = ... \le H_0$$
$$\Rightarrow \hspace{0.3cm}0 \le r = \frac{H_1 - H_0}{H_0}< 1 \hspace{0.05cm}.$$

*Die entsprechende Bedingung für eine '''gedächtnisbehaftete Quelle''' lautet:

$$ H < ... < H_3 < H_2 < H_1 \le H_0 $$
$$\Rightarrow \hspace{0.3cm}0 < r = \frac{H_1 - H_0}{H_0}\le1 \hspace{0.05cm}.$$

*Ist $H_2$ < $H_1$, dann gilt (nach Meinung des Autors) auch $H_3$ < $H_2$, $H_4$ < $H_3$, ... , also es ist das „≤”–Zeichen in der allgemeinen Gleichung durch das „<”–Zeichen zu ersetzen. Sind die Symbole gleichwahrscheinlich, so gilt wieder $H_1$ = $H_0$, bei nicht gleichwahrscheinlichen Symbolen $H_1$ < $H_0$.

==Die Entropie des AMI–Codes ==

Im Buch „Digitalsignalübertragung” – [[Digitalsignalübertragung/Symbolweise_Codierung_mit_Pseudoternärcodes#Allgemeine_Beschreibung_von_Partial_Response_Codes_.281.29|Kapitel 2.4]] wurde der AMI–Pseudoternärcode behandelt. Dieser wandelt die Binärfolge 〈 $q_ν$ 〉 mit $q_ν$ ∈ {'''L''', '''H'''} in die Ternärfolge 〈 $c_ν$ 〉 mit $c_ν$ ∈ {'''M''', '''N''', '''P'''}. Die Bezeichnungen der Quellensymbole stehen für „Low” und „High” und die der Codesymbole für „Minus”, „Null” und „Plus”. Die Codierregel des AMI–Codes (diese Kurzform steht für „Alternate Mark Inversion”) lautet:
*Jedes Binärsymbol $q_ν$ = '''L''' wird durch das Codesymbol $c_ν$ = '''N''' dargestellt.
*Dagegen wird $q_ν$ = '''H''' abwechselnd mit $c_ν$ = '''P''' und $c_ν$ = '''M''' codiert ⇒ Name „AMI”.

[[File:P_ID2240__Inf_T_1_2_S4_neu.png|Signale und Symbolfolgen beim AMI–Code]]

Durch die Codierung wird Redundanz hinzugefügt mit dem Ziel, dass die Codefolge keinen Gleichanteil beinhaltet. Wir betrachten hier jedoch nicht die spektralen Eigenschaften des AMI–Codes, sondern interpretieren diesen Code informationstheoretisch:
*Aufgrund der Stufenzahl $M$ = 3 ist der Entscheidungsgehalt der (ternären) Codefolge gleich $H_0$ = $\log_2$ 3 ≈ 1.585 bit/Symbol. Die erste Entropienäherung liefert $H_1$ = 1.5 bit/Symbol, wie nachfolgende Rechnung zeigt:

$$p_{\rm H} = p_{\rm L} = 1/2 \hspace{0.3cm}\Rightarrow \hspace{0.3cm}
p_{\rm N} = p_{\rm L} = 1/2\hspace{0.05cm},\hspace{0.2cm}p_{\rm M} = p_{\rm P}= p_{\rm H}/2 = 1/4\hspace{0.05cm},$$

$$\Rightarrow \hspace{0.3cm} H_1 = 1/2 \cdot {\rm log}_2\hspace{0.1cm}2 + 2 \cdot 1/4 \cdot{\rm log}_2\hspace{0.1cm}4 = 1.5 \,{\rm bit/Symbol}
\hspace{0.05cm}.$$

*Betrachten wir nun Zweiertupel. Beim AMI–Code kann „P” nicht auf „P” und „M” nicht auf „M” folgen. Die Wahrscheinlichkeit für „NN” ist gleich $p_L · p_L$ = 1/4. Alle anderen (sechs) Zweiertupel treten mit der Wahrscheinlichkeit 1/8 auf. Daraus folgt für die zweite Entropienäherung:

$$H_2 = 1/2 \cdot [ 1/4 \cdot {\rm ld}\hspace{0.1cm}4 + 6 \cdot 1/8 \cdot {\rm ld}\hspace{0.1cm}8 ] = 1.375 \,{\rm bit/Symbol}
\hspace{0.05cm}.$$

*Für die weiteren Entropienäherungen und die tatsächliche Entropie $H$ wird gelten:

$$ H < ... < H_5 < H_4 < H_3 < H_2 = 1.375 \,{\rm bit/Symbol} \hspace{0.05cm}.$$

*Bei diesem Beispiel kennt man die tatsächliche Entropie $H$ der Codesymbolfolge 〈 $c_ν$ 〉. Da durch den Coder keine neue Information hinzukommt, aber auch keine verloren geht, ergibt sich die gleiche Entropie wie für die redundanzfreie Binärfolge 〈 $q_ν$ 〉:

$$H = 1 \,{\rm bit/Symbol} \hspace{0.05cm}.$$

[[Aufgaben:1.4_Entropienäherungen_Hk|Aufgabe A1.4]] zeigt den bereits beträchtlichen Aufwand zur Berechnung der Entropienäherung $H_3$; zudem weicht $H_3$ noch deutlich vom Endwert $H$ = 1 bit/Symbol ab. Schneller kommt man zum Ergebnis, wenn man den AMI–Code durch eine Markovkette beschreibt.

==Binärquellen mit Markoveigenschaften ==

[[File:P_ID2241__Inf_T_1_2_S5_neu.png|Markovprozesse mit ''M'' = 2 Zuständen]]

Folgen mit statistischen Bindungen zwischen den Folgenelementen (Symbolen) werden oft durch [[Stochastische_Signaltheorie/Markovketten|Markovprozesse]] modelliert, wobei wir uns hier auf Markovprozesse erster Ordnung beschränken. Zunächst betrachten wir einen binären Markovprozess ( $M$ = 2 ) mit den Zuständen (Symbolen) '''A''' und '''B'''.
Oben sehen Sie das Übergangsdiagramm für einen binären Markovprozess erster Ordnung. Von den vier angegebenen Übertragungswahrscheinlichkeiten sind allerdings nur zwei frei wählbar, zum Beispiel
* $p_{\text{A|B}}$ = Pr(A|B) ⇒ bedingte Wahrscheinlichkeit, dass '''A''' auf '''B''' folgt.
* $p_{\text{B|A}}$ = Pr(B|A) ⇒ bedingte Wahrscheinlichkeit, dass '''B''' auf '''A''' folgt.

Für die beiden weiteren Übergangswahrscheinlichkeiten gilt dann

$$p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}A} = 1- p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A}
\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}B} = 1- p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B}
\hspace{0.05cm}.$$

Aufgrund der vorausgesetzten Eigenschaften [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Station.C3.A4re_Zufallsprozesse|Stationarität]] und [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Ergodische_Zufallsprozesse|Ergodizität]] gilt für die Zustands– bzw. Symbolwahrscheinlichkeiten:

$$p_{\rm A} = {\rm Pr}({\rm A}) = \frac{p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B}}{p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B} + p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A}}
\hspace{0.05cm}, \hspace{0.2cm}p_{\rm B} = {\rm Pr}({\rm B}) = \frac{p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A}}{p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B} + p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A}}
\hspace{0.05cm}.$$

Diese Gleichungen erlauben erste informationstheoretische Aussagen über Markovprozesse:
* Für $p_{\text{A|B}}$ = $p_{\text{B|A}}$ ergeben sich gleichwahrscheinliche Symbole ⇒ $p_{\text{A}}$ = $p_{\text{B}}$ = 0.5. Damit liefert die erste Entropienäherung $H_1$ = $H_0$ = 1 bit/Symbol, und zwar unabhängig von den tatsächlichen Werten der (bedingten) Übergangswahrscheinlichkeiten $p_{\text{A|B}}$ bzw. $p_{\text{B|A}}$.
*Die Quellenentropie $H$ als der Grenzwert der [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Verallgemeinerung_auf_k.E2.80.93Tupel_und_Grenz.C3.BCbergang|Entropienäherung $k$–ter Ordnung]] $H_k$ für $k$ → ∞ hängt aber sehr wohl von den tatsächlichen Werten von $p_{\text{A|B}}$ und $p_{\text{B|A}}$ ab und nicht nur von ihrem Quotienten. Dies zeigt das folgende Beispiel.

Wir gehen von einer binären Markovquelle erster Ordnung aus und setzen nun voraus:
*Die 4 bedingten Wahrscheinlichkeiten seien symmetrisch, das heißt, es gelte $p_{\text{A|B}}$ = $p_{\text{B|A}}$, $p_{\text{A|A}}$ = $p_{\text{B|B}}$.
*Für die beiden Symbolwahrscheinlichkeiten gilt somit: $p_A$ = $p_B$ = 0.5.

{{Beispiel}}
Wir betrachten hier drei solche binäre Markovquellen, die sich durch die Zahlenwerte der symmetrischen Übergangswahrscheinlichkeiten $p_{\text{A|B}}$ = $p_{\text{B|A}}$unterscheiden. Die beiden anderen Übergangswahrscheinlichkeiten haben dann folgende Werte: $p_{\text{A|A}}$ = 1 – $p_{\text{B|A}}$ = $p_{\text{B|B}}$.

[[File:P_ID2242__Inf_T_1_2_S5b_neu.png|Drei Beispiele binärer Markovquellen]]

*Die mittlere Symbolfolge (mit $p_{\text{A|B}}$ = $p_{\text{B|A}}$ = 0.5) besitzt die Entropie $H$ = 1 bit/Symbol. Das heißt: In diesem Sonderfall gibt es keine statistischen Bindungen innerhalb der Folge.
*Die linke (rote) Folge mit $p_{\text{A|B}}$ = $p_{\text{B|A}}$ = 0.2 weist weniger Wechsel zwischen '''A''' und '''B''' auf. Aufgrund von statistischen Abhängigkeiten zwischen benachbarten Symbolen ist nun $H$ ≈ 0.72 bit/Symbol kleiner.
*Die rechte (grüne) Symbolfolge mit $p_{\text{A|B}}$ = $p_{\text{B|A}}$ = 0.8 hat die genau gleiche Entropie wie die rote Folge. Hier erkennt man viele Bereiche mit sich stets abwechselnden Symbolen (... '''ABABAB''' ... ).

{{end}}

Zu diesem Beispiel ist noch anzumerken:
*Hätte man nicht die Markoveigenschaften der roten und der grünen Folge ausgenutzt, so hätte man das Ergebnis $H$ ≈ 0.72 bit/Symbol erst nach langwierigen Berechnungen erhalten.
*Auf den nächsten Seiten wird gezeigt, dass bei einer Quelle mit Markoveigenschaften dieser Endwert $H$ allein aus den Entropienäherungen $H_1$ und $H_2$ ermittelt werden kann.
*Ebenso lassen sich aus H1 und H2 alle Entropienäherungen $H_k$ für $k$–Tupel in einfacher Weise berechnen ⇒ $H_3$, $H_4$, $H_5$, ... , $H_{100}$, ...

[[File:P_ID2750__Inf_T_1_2_S5_neu.png|Markovprozesse mit ''M'' = 2 Zuständen]]
Wir gehen weiterhin von der symmetrischen binären Markovquelle erster Ordnung aus. Wie auf der vorherigen Seite verwenden wir folgende Nomenklatur:
*Übergangswahrscheinlichkeiten $p_{\text{B|A}}$, ...
*ergodische Wahrscheinlichkeiten $p_{\text{A}}$ und $p_{\text{B}}$,
*Verbundwahrscheinlichkeiten, zum Beispiel $p_{\text{AB}}$ = $p_{\text{A}}$ · $p_{\text{B|A}}$.

Wir berechnen nun die [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Entropie_hinsichtlich_Zweiertupel|Entropie eines Zweiertupels]] (mit der Einheit „bit/Zweiertupel”):

$$\begin{align*}H_2' \hspace{-0.1cm}& = \hspace{-0.1cm} p_{\rm A} \cdot p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}A} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm A} \cdot p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}A}} + p_{\rm A} \cdot p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm A} \cdot p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A}} + \\
\hspace{-0.1cm}& + \hspace{-0.1cm} p_{\rm B} \cdot p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm B} \cdot p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B}} + p_{\rm B} \cdot p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}B} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm B} \cdot p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}B}}
\hspace{0.05cm}.\end{align*}$$

Ersetzt man nun die Logarithmen der Produkte durch entsprechende Summen von Logarithmen, so erhält man das Ergebnis $H_2'$ = $H_1$ + $H_{\text{M}}$ mit

$$\begin{align*}H_1 \hspace{-0.1cm}& = \hspace{-0.1cm} p_{\rm A} \cdot (p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}A} + p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A})\cdot {\rm log}_2\hspace{0.1cm}\frac {1}{p_{\rm A}} + p_{\rm B} \cdot (p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B} + p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}B})\cdot {\rm log}_2\hspace{0.1cm}\frac {1}{p_{\rm B}} = \\
\hspace{-0.1cm}& = \hspace{-0.1cm} p_{\rm A} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{p_{\rm A}} + p_{\rm B} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{p_{\rm B}} = H_{\rm bin} (p_{\rm A})= H_{\rm bin} (p_{\rm B})
\hspace{0.05cm},\end{align*}$$

$$\begin{align*}H_{\rm M} \hspace{-0.1cm}& = \hspace{-0.1cm} p_{\rm A} \cdot p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}A} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}A}} + p_{\rm A} \cdot p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}A}} + \\
\hspace{-0.1cm}& + \hspace{-0.1cm} p_{\rm B} \cdot p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm A\hspace{0.01cm}|\hspace{0.01cm}B}} + p_{\rm B} \cdot p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}B} \cdot {\rm log}_2\hspace{0.1cm}\frac {1}{ p_{\rm B\hspace{0.01cm}|\hspace{0.01cm}B}}
\hspace{0.05cm}.\end{align*}$$

Damit lautet die zweite Entropienäherung (mit der Einheit „bit/Symbol”):

$$H_2 = \frac{H_2'}{2} = \frac{1}{2} \cdot [ H_{\rm 1} + H_{\rm M}]
\hspace{0.05cm}.$$

Anzumerken ist:
*Der erste Summand wurde nicht zufällig mit $H_1$ abgekürzt, sondern ist tatsächlich gleich der ersten Entropienäherung, allein abhängig von den Symbolwahrscheinlichkeiten.
*Bei einem symmetrischen Markovprozess ( $p_{\text{A|B}}$ = $p_{\text{B|A}}$ ⇒ $p_{\text{A}}$ = $p_{\text{B}}$ = 1/2) ergibt sich für diesen ersten Summanden $H_1$ = 1 bit/Symbol.
*Der zweite Summand ( $H_{\text{M}}$ ) muss gemäß der zweiten der oberen Gleichungen berechnet werden. Bei einem symmetrischen Markovprozess erhält man $H_{\text{M}}$ = $H_{\text{bin}}(p_{\text{A|B}})$.

Im nächsten Abschnitt wird dieses Ergebnis auf die $k$–te Entropienäherung erweitert.

Der Vorteil von Markovquellen gegenüber anderen Quellen ist, dass sich die Entropieberechnung für $k$–Tupel sehr einfach gestaltet. Für jede Markovquelle gilt:

$$\begin{align*}H_k \hspace{-0.1cm}& = \hspace{-0.1cm} \frac{1}{k} \cdot [ H_{\rm 1} + (k-1) \cdot H_{\rm M}] \hspace{0.3cm} \Rightarrow \hspace{0.3cm}
H_2 = \frac{1}{2} \cdot [ H_{\rm 1} + H_{\rm M}]\hspace{0.05cm},\\
H_3 \hspace{-0.1cm}& = \hspace{-0.1cm} \frac{1}{3} \cdot [ H_{\rm 1} + 2 \cdot H_{\rm M}] \hspace{0.05cm},\hspace{0.3cm}
H_4 = \frac{1}{4} \cdot [ H_{\rm 1} + 3 \cdot H_{\rm M}]
\hspace{0.05cm},\hspace{0.15cm}{\rm usw.}\end{align*}$$

Bildet man den Grenzübergang für $k$ → ∞, so erhält man für die tatsächliche Quellenentropie:

$$H = \lim_{k \rightarrow \infty } H_k = H_{\rm M} \hspace{0.05cm}.$$

Aus diesem einfachen Ergebnis folgen wichtige Erkenntnisse für die Entropieberechnung:
*Bei Markovquellen genügt die Bestimmung der Entropienäherungen $H_1$ und $H_2$. Damit lautet die Entropie einer Markovquelle:

$$H = 2 \cdot H_2 - H_{\rm 1} \hspace{0.05cm}.$$

*Durch $H_1$ und $H_2$ liegen auch alle weiteren Entropienäherungen $H_k$ fest:

$$H_k = \frac{2-k}{k} \cdot H_{\rm 1} + \frac{2\cdot (k-1)}{k} \cdot H_{\rm 2}
\hspace{0.05cm}.$$

*Diese Näherungen haben allerdings keine große Bedeutung. Wichtig ist meist nur der Grenzwert $H$. Bei Quellen ohne Markoveigenschaften berechnet man die Näherungen $H_k$ nur deshalb, um den Grenzwert, also die tatsächliche Entropie, abschätzen zu können.
*Alle auf dieser Seite angegebenen Gleichungen gelten auch für nichtbinäre Markovquellen ( $M$ > 2 ), wie auf der nächsten Seite gezeigt wird.

''Hinweis'': In der [[Aufgaben:1.5_Binäre_Markovquelle|Aufgabe A1.5]] werden die obigen Gleichungen auf den allgemeineren Fall einer unsymmetrischen Binärquelle angewendet.

==Nichtbinäre Markovquellen ==

Für jede Markovquelle gelten unabhängig vom Symbolumfang die folgenden Gleichungen:

$$H = 2 \cdot H_2 - H_{\rm 1} \hspace{0.05cm},\hspace{0.3cm} H_k = \frac{1}{k} \cdot [ H_{\rm 1} + (k-1) \cdot H_{\rm M}] \hspace{0.05cm},\hspace{0.3cm} \lim_{k \rightarrow \infty } H_k = H
\hspace{0.05cm}.$$

Diese ermöglichen die einfache Berechnung der Entropie $H$ aus den Näherungen $H_1$ und $H_2$.
Wir betrachten nun eine ternäre Markovquelle MQ3 (Stufenzahl $M$ = 3, blaue Farbgebung) und eine quaternäre Markovquelle MQ4 ( $M$ = 4, rot ) mit folgenden Übergangsdiagrammen:

[[File:P_ID2243__Inf_T_1_2_S6_neu.png|Ternäre und quaternäre Markovquelle erster Ordnung]]

In der Aufgabe A1.6 werden die Entropienäherungen $H_k$ und die jeweiligen Quellenentropien $H$ als der Grenzwert von $H_k$ für $k$ → ∞ berechnet. Die Ergebnisse sind in der folgenden Grafik zusammengestellt. Alle Entropien haben die Einheit „bit/Symbol”.

[[File:P_ID2244__Inf_T_1_2_S6b_neu.png|Entropien für MQ3, MQ4 und AMI–Code]]

Die Ergebnisse lassen sich wie folgt interpretieren:
*Bei der ternären Markovquelle MQ3 nehmen die Entropienäherungen von $H_1$ = 1.500 über $H_2$ = 1.375 bis zum Grenzwert $H$ = 1.25 kontinuierlich ab. Wegen $M$ = 3 beträgt der Entscheidungsgehalt $H_0$ = 1.585 (alle Entropien in „bit/Symbol”) .
*Für die quaternäre Markovquelle MQ4 (rote Markierungen) erhält man $H_0$ = $H_1$ = 2 (wegen den vier gleichwahrscheinlichen Zuständen) und $H_2$ = 1.5. Aus dem $H_1$– und $H_2$–Wert lassen sich auch hier alle Entropienäherungen $H_k$ und auch der Endwert $H$ = 1 berechnen.
*Die beiden Quellenmodelle MQ3 und MQ4 entstanden bei dem Versuch, den AMI–Code informationstheoretisch durch Markovquellen zu beschreiben. Die Symbole '''M''', '''N''' und '''P''' stehen hierbei für „Minus”, „Null” und „Plus”.
*Die Entropienäherungen $H_1$, $H_2$ und $H_3$ des AMI–Codes (grüne Markierungen) wurden in [[Aufgaben:1.4_Entropienäherungen_Hk|Aufgabe A1.4]] berechnet. Auf die Berechnung von $H_4$, $H_5$, ... musste aus Aufwandsgründen verzichtet werden. Bekannt ist aber der Endwert von $H_k$ für $k$ → ∞ ⇒ $H$ = 1.
*Man erkennt, dass das Markovmodell MQ3 für $H_0$ = 1.585, $H_1$ = 1.500 und $H_2$ = 1.375 genau die gleichen Werte liefert wie der AMI–Code. Dagegen unterscheiden sich $H_3$ (1.333 gegenüber 1.292) und insbesondere der Endwert $H$ (1.25 gegenüber 1).
*Das Modell MQ4 ( $M$ = 4 ) unterscheidet sich vom AMI–Code ( $M$ = 3 ) hinsichtlich des Entscheidungsgehaltes $H_0$ und auch bezüglich aller Entropienäherungen $H_k$. Trotzdem ist MQ4 das geeignete Modell für den AMI–Code, da der Endwert $H$ = 1 übereinstimmt.
*Das [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Nichtbin.C3.A4re_Markovquellen|Modell MQ3]] liefert deshalb zu große Entropiewerte, da hier die Folgen '''PNP''' und '''MNM''' möglich sind, die beim AMI–Code nicht auftreten können. Bereits bei $H_3$ macht sich der Unterschied geringfügig bemerkbar, im Endwert $H$ deutlich (1.25 gegenüber 1).

Beim [[Informationstheorie/Nachrichtenquellen_mit_Gedächtnis#Nichtbin.C3.A4re_Markovquellen|Modell MQ4]] wurde der Zustand „Null” aufgespalten in zwei Zustände N und O:
*Hierbei gilt für den Zustand '''N''': Das aktuelle Binärsymbol '''L''' wird mit dem Amplitudenwert „0” dargestellt, wie es der AMI–Regel entspricht. Das nächste auftretende '''H'''–Symbol wird als '''M''' (Minus) dargestellt, weil das letzte '''H'''–Symbol als '''P''' (Plus) codiert wurde.
*Auch beim Zustand '''O'''' wird das aktuelle Binärsymbol '''L''' mit dem Ternärwert „0” dargestellt. Im Unterschied zum Zustand '''N''' wird aber nun das nächste auftretende '''H'''–Symbol als '''P''' (Plus) dargestellt werden, da das letzte '''H'''–Symbol als '''M''' (Minus) codiert wurde.

Die von MQ4 ausgegebene Symbolfolge entspricht tatsächlich den Regeln des AMI–Codes und weist die Entropie $H$ = 1 bit/Symbol auf. Aufgrund des neuen Zustandes '''O''' ist nun allerdings $H_0$ = 2 bit/Symbol (gegenüber 1.585 bit/Symbol) deutlich zu groß und auch alle $H_k$–Näherungen sind größer als beim AMI–Code. Erst für $k$ → ∞ stimmen beide überein: $H$ = 1 bit/Symbol.

==Aufgaben zu Kapitel 1.2 ==

{{Display}}

Information Theory/Discrete Memoryless Sources

2017-01-29T21:51:33Z

LukasWolf:

{{FirstPage}}
{{Header
|Untermenü=Entropie wertdiskreter Nachrichtenquellen
|Vorherige Seite=
|Nächste Seite=Nachrichtenquellen mit Gedächtnis
}}

== Modell und Voraussetzungen ==
Wir betrachten eine wertdiskrete Nachrichtenquelle Q, die eine Folge 〈 $q_ν $ 〉 von Symbolen abgibt. Für die Laufvariable gilt $ν$ = 1, ... , $N$, wobei $N$ „hinreichend groß” sein sollte. Jedes einzelne Quellensymbol $q_ν$ entstammt einem Symbolvorrat { $q_μ$ } mit $μ$ = 1, ... , $M$, wobei $M$ den Symbolumfang bezeichnet:

$$q_{\nu} \in \left \{ q_{\mu} \right \}, \hspace{0.15cm}{\rm mit}\hspace{0.15cm} \nu = 1, ... \hspace{0.05cm}, N\hspace{0.15cm}{\rm und}\hspace{0.15cm}\mu = 1, ...\hspace{0.05cm} , M \hspace{0.05cm}.$$

Die Grafik zeigt eine quaternäre Nachrichtenquelle ( $M$ = 4) mit dem Alphabet {A, B, C, D}. Rechts ist eine beispielhafte Folge der Länge $N$ = 100 angegeben.

[[File:P_ID2227__Inf_T_1_1_S1a_neu.png|Gedächtnislose quaternäre Nachrichtenquelle]]

Es gelten folgende Voraussetzungen:
*Die quaternäre Nachrichtenquelle wird durch $M$ = 4 Symbolwahrscheinlichkeiten $p_μ$ vollständig beschrieben. Allgemein gilt:
$$\sum_{\mu = 1}^M \hspace{0.1cm}p_{\mu} = 1 \hspace{0.05cm}.$$
*Die Nachrichtenquelle sei gedächtnislos, das heißt, die einzelnen Folgenelemente seien statistisch voneinander unabhängig:
$${\rm Pr} \left (q_{\nu} = q_{\mu} \right ) = {\rm Pr} \left (q_{\nu} = q_{\mu} \hspace{0.03cm} | \hspace{0.03cm} q_{\nu -1}, q_{\nu -2}, ... \right ) \hspace{0.05cm}.$$
*Da das Alphabet aus Symbolen (und nicht aus Zufallsgrößen) besteht, ist hier die Angabe von Erwartungswerten (linearer Mittelwert, quadratischer Mittelwert, Streuung, usw.) nicht möglich, aber auch aus informationstheoretischer Sicht nicht nötig.

Diese Eigenschaften werden auf der nächsten Seite mit einem Beispiel verdeutlicht.

{{Beispiel}}
Für die Symbolwahrscheinlichkeiten einer Quaternärquelle gelte:

$$p_{\rm A} = 0.4 \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = 0.3 \hspace{0.05cm},\hspace{0.2cm}p_{\rm C} = 0.2 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 0.1\hspace{0.05cm}.$$

Bei einer unendlich langen Folge ( $N$ → ∞) wären die [[Stochastische_Signaltheorie/Wahrscheinlichkeit_und_relative_Häufigkeit#Bernoullisches_Gesetz_der_gro.C3.9Fen_Zahlen|relativen Häufigkeiten]] $h_A$, $h_B$, $h_C$ und $h_D$ – also die a–posteriori–Kenngrößen – identisch mit den a–priori–Wahrscheinlichkeiten $p_A$, $p_B$, $p_C$ und $p_D$. Bei kleinerem $N$ kann es aber durchaus zu Abweichungen kommen, wie die folgende Tabelle (Ergebnis einer Simulation) zeigt. Die Folge für $N$ = 100 ist auf der letzten Seite angegeben.

[[File:P_ID2230__Inf_T_1_1_S1b.png|Relative Häufigkeiten in Abhängigkeit von ''N'']]

Aufgrund der Mengenelemente A, B, C und D können keine Mittelwerte angegeben werden. Ersetzt man die Symbole durch Zahlenwerte, zum Beispiel A ⇒ 1, B ⇒ 2, C ⇒ 3, D ⇒ 4, so ergeben sich
*für den [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|linearen Mittelwert]]:
$$m_1 = {\rm E} \left [ q_{\nu} \right ] = {\rm E} \left [ q_{\mu} \right ] = 0.4 \cdot 1 + 0.3 \cdot 2 + 0.2 \cdot 3 + 0.1 \cdot 4
= 2 \hspace{0.05cm},$$
*für den [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|quadratischen Mittelwert]]:
$$m_2 = {\rm E} \left [ q_{\nu}^{\hspace{0.05cm}2} \right ] = {\rm E} \left [ q_{\mu}^{\hspace{0.05cm}2} \right ] = 0.4 \cdot 1^2 + 0.3 \cdot 2^2 + 0.2 \cdot 3^2 + 0.1 \cdot 4^2
= 5 \hspace{0.05cm},$$
*für die [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente#Einige_h.C3.A4ufig_auftretende_Zentralmomente|Standardabweichung]] (Streuung) nach dem „Satz von Steiner”:
$$\sigma = \sqrt {m_2 - m_1^{\hspace{0.05cm}2}} = \sqrt {5 - 2^{\hspace{0.01cm}2}}
= 1 \hspace{0.05cm}.$$

{{end}}

==Entscheidungsgehalt – Nachrichtengehalt==
[https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon] definierte 1948 im Standardwerk der Informationstheorie [Sha48] den Informationsbegriff als „Abnahme der Ungewissheit über das Eintreten eines statistischen Ereignisses”. Machen wir hierzu ein gedankliches Experiment mit M möglichen Ergebnissen, die alle gleichwahrscheinlich seien:

$$p_1 = p_2 = ... = p_M = 1/M \hspace{0.05cm}.$$

Unter dieser Annahme gilt:
*Ist $M$ = 1, so wird jeder einzelne Versuch das gleiche Ergebnis liefern und demzufolge besteht keine Unsicherheit hinsichtlich des Ausgangs. Wird uns das Versuchsergebnis mitgeteilt, so haben wir dadurch natürlich auch keinen Informationsgewinn.
*Dagegen erfährt ein Beobachter bei einem Experiment mit $M$ = 2, zum Beispiel dem „Münzwurf” mit der Ereignismenge { '''Z'''(ahl), '''W'''(app) } und den Wahrscheinlichkeiten $p_Z$ = $p_W$ = 0.5, durchaus einen Informationsgewinn. Die Unsicherheit, ob '''Z''' oder '''W''' geworfen wurde, wird aufgelöst.
*Beim Experiment „Würfeln” ( $M$ = 6 ) und noch mehr beim Roulette ( $M$ = 37) ist die gewonnene Information für den Beobachter noch deutlich größer als beim „Münzwurf”, wenn er erfährt, welche Zahl gewürfelt bzw. welche Kugel gefallen ist.
*Schließlich sollte noch berücksichtigt werden, dass das Experiment „Dreifacher Münzwurf” mit den $M$ = 8 möglichen Ergebnissen '''ZZZ''', '''ZZW''', '''ZWZ''', '''ZWW''', '''WZZ''', '''WZW''', '''WWZ''', '''WWW''' die dreifache Information liefert wie der einfache Münzwurf ( $M$ = 2 ).

Die nachfolgende Festlegung erfüllt alle hier verbal aufgeführten Anforderungen an ein quantitatives Informationsmaß bei gleichwahrscheinlichen Ereignissen, gekennzeichnet durch den Symbolumfang $M$.

{{Definition}}
Der Entscheidungsgehalt einer Nachrichtenquelle hängt nur vom Symbolumfang $M$ ab und ergibt sich zu

$$H_0 = {\rm log}\hspace{0.1cm}M = {\rm log}_2\hspace{0.1cm}M \hspace{0.15cm}{\rm (in \hspace{0.15cm}"bit")}
= {\rm ln}\hspace{0.1cm}M \hspace{0.15cm}{\rm (in \hspace{0.15cm}"nat")}
= {\rm lg}\hspace{0.1cm}M \hspace{0.15cm}{\rm (in \hspace{0.15cm}"Hartley")} \hspace{0.05cm}.$$

Gebräuchlich ist hierfür auch die Bezeichnung ''Nachrichtengehalt''. Da $H_0$ gleichzeitig den Maximalwert der [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Informationsgehalt_und_Entropie|Entropie]] $H$ angibt, wird in hier teilweise auch $H_\text{max}$ als Kurzzeichen verwendet.

{{end}}

Anzumerken ist:
*Der Logarithmus wird in unserem Tutorial unabhängig von der Basis mit „log” bezeichnet. Die vier oben aufgestellten Kriterien werden aufgrund folgender Eigenschaften erfüllt:

$${\rm log}\hspace{0.1cm}1 = 0 \hspace{0.05cm},\hspace{0.2cm}
{\rm log}\hspace{0.1cm}37 > {\rm log}\hspace{0.1cm}6 > {\rm log}\hspace{0.1cm}2\hspace{0.05cm},\hspace{0.2cm}
{\rm log}\hspace{0.1cm}M^k = k \cdot {\rm log}\hspace{0.1cm}M \hspace{0.05cm}.$$

*Meist verwenden wir den Logarithmus zur Basis 2 ⇒ Logarithmus dualis (ld), wobei dann die Pseudoeinheit „bit” – genauer: „bit/Symbol” – hinzugefügt wird:

$${\rm ld}\hspace{0.1cm}M = {\rm log_2}\hspace{0.1cm}M = \frac{{\rm lg}\hspace{0.1cm}M}{{\rm lg}\hspace{0.1cm}2}
= \frac{{\rm ln}\hspace{0.1cm}M}{{\rm ln}\hspace{0.1cm}2}
\hspace{0.05cm}.$$

*Weiter findet man in der Literatur auch Definitionen, basierend auf dem natürlichen Logarithmus („ln”) oder dem Zehnerlogarithmus („lg”) entsprechend obigen Definitionen.

==Informationsgehalt und Entropie ==

Wir verzichten nun auf die bisherige Voraussetzung, dass alle $M$ möglichen Ergebnisse eines Versuchs gleichwahrscheinlich seien. Im Hinblick auf eine möglichst kompakte Schreibweise legen wir für diese Seite lediglich fest:

$$p_1 > p_2 > ... > p_\mu > ... > p_{M-1} > p_M\hspace{0.05cm},\hspace{0.4cm}\sum_{\mu = 1}^M p_{\mu} = 1 \hspace{0.05cm}.$$

Unter dieser Voraussetzung betrachten wir nun den '''Informationsgehalt''' der einzelnen Symbole, wobei wir den Logarithmus dualis mit „ld”(manchmal auch mit „log2”) bezeichnen :

$$I_\mu = {\rm ld}\hspace{0.1cm}\frac{1}{p_\mu}= -\hspace{0.05cm}{\rm ld}\hspace{0.1cm}{p_\mu}
\hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit\hspace{0.15cm}oder\hspace{0.15cm}bit/Symbol)}
\hspace{0.05cm}.$$

Man erkennt:
*Wegen $p_μ$ ≤ 1 ist der Informationsgehalt nie negativ. Im Grenzfall $p_μ$ → 1 geht $I_μ$ → 0. Allerdings ist für $I_μ$ = 0 → $p_μ$ = 1 → $M$ = 1 auch der Entscheidungsgehalt $H_0$ = 0.
*Bei abfallenden Wahrscheinlichkeiten $p_μ$ nimmt der Informationsgehalt kontinuierlich zu:

$$I_1 < I_2 < ... < I_\mu < ... < I_{M-1} < I_M \hspace{0.05cm}.$$

Das heißt: Je weniger wahrscheinlich ein Ereignis ist, desto größer ist sein Informationsgehalt. Dieser Sachverhalt ist auch im täglichen Leben festzustellen:
*„6 Richtige” im Lotto nimmt man sicher eher war als „3 Richtige” oder gar keinen Gewinn.
*Ein Tsunami in Asien dominiert auch die Nachrichten in Deutschland über Wochen im Gegensatz zu den fast standardmäßigen Verspätungen der Deutschen Bahn.
*Eine Niederlagenserie von Bayern München führt zu Riesen–Schlagzeilen im Gegensatz zu einer Siegesserie. Bei 1860 München ist genau das Gegenteil der Fall.

Der Informationsgehalt eines einzelnen Symbols (oder Ereignisses) ist allerdings nicht sehr interessant. Durch Scharmittelung über alle möglichen Symbole $q_μ$ bzw. durch Zeitmittelung über alle Folgenelemente $q_ν$ erhält man dagegen eine der zentralen Größen der Informationstheorie.

{{Definition}}
Die '''Entropie''' einer Quelle gibt den mittleren Informationsgehalt aller Symbole an:

$$H = \overline{I_\nu} = {\rm E}\hspace{0.01cm}[I_\mu] = \sum_{\mu = 1}^M p_{\mu} \cdot {\rm ld}\hspace{0.1cm}\frac{1}{p_\mu}=
-\sum_{\mu = 1}^M p_{\mu} \cdot{\rm ld}\hspace{0.1cm}{p_\mu} \hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit[/Symbol])}
\hspace{0.05cm}.$$

Die überstreichende Linie kennzeichnet eine Zeitmittelung und E[...] eine Scharmittelung.
{{end}}

Die Entropie ist ein Maß für
*die mittlere Unsicherheit über den Ausgang eines statistischen Ereignisses,
*die „Zufälligkeit” dieses Ereignisses,
*den mittleren Informationsgehalt einer Zufallsgröße.

==Binäre Entropiefunktion ==

Wir beschränken uns zunächst auf den Sonderfall $M$ = 2 und betrachten eine binäre Quelle, die die beiden Symbole '''A''' und '''B''' abgibt. Die Auftrittwahrscheinlichkeiten seien $p_A$ = $p$ und $p_B$ = 1 – $p$.
Für die Entropie dieser Quelle gilt:

$$H_{\rm bin} (p) = p \cdot {\rm ld}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p\hspace{0.1cm}} + (1-p) \cdot {\rm ld}\hspace{0.1cm}\frac{1}{1-p} \hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit\hspace{0.15cm}oder\hspace{0.15cm}bit/Symbol)}
\hspace{0.05cm}.$$

Man nennt diese Funktion $H_\text{bin}(p)$ die '''binäre Entropiefunktion'''. Die Entropie einer Quelle mit größerem Symbolumfang $M$ lässt sich häufig unter Verwendung von $H_\text{bin}(p)$ ausdrücken.

[[File:P_ID2229__Inf_T_1_1_S4_neu.png|Binäre Entropiefunktion]]

Die Grafik zeigt die Funktion $H_\text{bin}(p)$ für die Werte 0 ≤ $p$ ≤ 1 der Symbolwahrscheinlichkeit von '''A''' (oder '''B'''). Man erkennt:
*Der Maximalwert $H_\text{max}$ = 1 bit ergibt sich für $p$ = 0.5, also für gleichwahrscheinliche Binärsymbole. Dann liefern '''A''' und '''B''' jeweils den gleichen Beitrag zur Entropie.
* $H_\text{bin}(p)$ ist symmetrisch um $p$ = 0.5. Eine Quelle mit $p_A$ = 0.1 und $p_B$ = 0.9 hat die gleiche Entropie (Zufälligkeit) $H$ = 0.469 bit wie eine Quelle mit $p_A$ = 0.9 und $p_B$ = 0.1.
*Die Differenz $ΔH$ = $H_\text{max}$ – $H$ gibt die Redundanz der Quelle an und $r$ = $ΔH/H_\text{max}$ die relative Redundanz. Im genannten Beispiel ergeben sich $ΔH$ = 0.531 bit bzw. $r$ = 53.1%.
*Für $p$ = 0 ergibt sich $H$ = 0, da hier die Ausgangsfolge „'''B B B''' ...” sicher vorhersagbar ist. Eigentlich beträgt nun der Symbolumfang nur noch $M$ = 1. Gleiches gilt für $p$ = 1.

Es sollte noch erwähnt werden, dass die binäre Entropiefunktion ''konkav'' ist, da deren zweite Ableitung nach dem Parameter $p$ für alle Werte von $p$ negativ ist:

$$\frac{{\rm d}^2H_{\rm bin} (p)}{{\rm d}\,p^2} = \frac{-1}{{\rm ln}(2) \cdot p \cdot (1-p)}< 0
\hspace{0.05cm}.$$

==Nachrichtenquellen mit größerem Symbolumfang==

Im [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Modell_und_Voraussetzungen|ersten Abschnitt]] dieses Kapitels haben wir eine quaternäre Nachrichtenquelle ($M$ = 4) mit den Symbolwahrscheinlichkeiten $p_A$ = 0.4, $p_B$ = 0.3, $p_C$ = 0.2 und $p_D$ = 0.1 betrachtet. Diese besitzt die folgende Entropie:

$$\begin{align*}H_{\rm quat} \hspace{-0.1cm} & = \hspace{-0.1cm} 0.4 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.4} + 0.3 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.3} + 0.2 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.2}+ 0.1 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.1}=\\
\hspace{-0.1cm} & = \hspace{-0.1cm}\frac{1}{{\rm lg}\hspace{0.1cm}2} \cdot \left [ 0.4 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.4} + 0.3 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.3} + 0.2 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.2}+ 0.1 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.1} \right ] = 1.845\,{\rm bit}
\hspace{0.05cm}.\end{align*}$$

Oft ist der Umweg über den Zehnerlogarithmus lg $x$ = log10 $x$ sinnvoll, da meist der Logarithmus dualis log2 $x$ (oder auch ld $x$) auf Taschenrechnern nicht zu finden ist.
Bestehen zwischen den einzelnen Symbolwahrscheinlichkeiten Symmetrien wie im Beispiel

$$p_{\rm A} = p_{\rm D} = p \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = p_{\rm C} = 0.5-p \hspace{0.05cm},\hspace{0.3cm}{\rm mit} \hspace{0.15cm}0 \le p \le 0.5 \hspace{0.05cm},$$

so kann zur Entropieberechnung auf die binäre Entropiefunktion zurückgegriffen werden:

$$H_{\rm quat} = 2 \cdot p \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p\hspace{0.1cm}} + 2 \cdot (0.5-p) \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5-p} = 1 + H_{\rm bin}(2p) \hspace{0.05cm}.$$

Die Grafik zeigt den Entropieverlauf der Quaternärquelle (blau) im Vergleich zur Binärquelle (rot) abhängig von $p$. Für die Quaternärquelle ist nur der Abszissenbereich 0 ≤ $p$ ≤ 0.5 zulässig.

[[File:P_ID2231__Inf_T_1_1_S5_neu.png|Entropie von Binärquelle und Quaternärquelle]]

Man erkennt aus der blauen Kurve für die Quaternärquelle:
*Die maximale Entropie $H_\text{max}$ = 2 bit ergibt sich für $p$ = 0.25 ⇒ $p_A$ = $p_B$ = $p_C$ = $p_D$ = 0.25, also wieder für gleichwahrscheinliche Symbole.
*Mit $p$ = 0 bzw. $p$ = 0.5 entartet die Quaternärquelle zu einer Binärquelle mit $p_B$ = $p_C$ = 0.5 bzw. $p_A$ = $p_D$ = 0.5. In diesem Fall ergibt sich die Entropie zu $H$ = 1 bit.
*Die Quelle mit $p_A$ = $p_D$ = $p$ = 0.1 und $p_B$ = $p_C$ = 0.4 weist folgende Entropie und (relative) Redundanz auf:

$$\begin{align*}H \hspace{-0.1cm} & = \hspace{-0.1cm} 1 + H_{\rm bin} (2p) =1 + H_{\rm bin} (0.2) = 1.722\,{\rm bit}\hspace{0.05cm},\\
{\rm \Delta }H \hspace{-0.1cm} & = \hspace{-0.1cm} {\rm ld}\hspace{0.1cm} M - H =2\,{\rm bit}- 1.722\,{\rm bit} = 0.278\,{\rm bit}\hspace{0.05cm},\\
r \hspace{-0.1cm} & = \hspace{-0.1cm} {\rm \Delta }H/({\rm ld}\hspace{0.1cm} M) = 0.139\hspace{0.05cm}.\end{align*}$$

Die Redundanz $ΔH$ der Quaternärquelle mit $p$ = 0.1 ist gleich 0.278 bit und damit genau so groß wie die Redundanz der Binärquelle mit $p$ = 0.2.
Anmerkung: Als Pseudoeinheit ist hier stets „bit” angegeben. Genauer wäre „bit/Symbol”.

== Aufgaben zu Kapitel 1.1==

==Quellen==
<references />

{{Display}}

Information Theory/Discrete Memoryless Sources

2017-01-29T21:51:00Z

LukasWolf:

{{FirstPage}}
{{Header
|Untermenü=Entropie wertdiskreter Nachrichtenquellen
|Vorherige Seite=
|Nächste Seite=Nachrichtenquellen mit Gedächtnis
}}

== Modell und Voraussetzungen ==
Wir betrachten eine wertdiskrete Nachrichtenquelle Q, die eine Folge 〈 $q_ν $ 〉 von Symbolen abgibt. Für die Laufvariable gilt $ν$ = 1, ... , $N$, wobei $N$ „hinreichend groß” sein sollte. Jedes einzelne Quellensymbol $q_ν$ entstammt einem Symbolvorrat { $q_μ$ } mit $μ$ = 1, ... , $M$, wobei $M$ den Symbolumfang bezeichnet:

$$q_{\nu} \in \left \{ q_{\mu} \right \}, \hspace{0.15cm}{\rm mit}\hspace{0.15cm} \nu = 1, ... \hspace{0.05cm}, N\hspace{0.15cm}{\rm und}\hspace{0.15cm}\mu = 1, ...\hspace{0.05cm} , M \hspace{0.05cm}.$$

Die Grafik zeigt eine quaternäre Nachrichtenquelle ( $M$ = 4) mit dem Alphabet {A, B, C, D}. Rechts ist eine beispielhafte Folge der Länge $N$ = 100 angegeben.

[[File:P_ID2227__Inf_T_1_1_S1a_neu.png|Gedächtnislose quaternäre Nachrichtenquelle]]

Es gelten folgende Voraussetzungen:
*Die quaternäre Nachrichtenquelle wird durch $M$ = 4 Symbolwahrscheinlichkeiten $p_μ$ vollständig beschrieben. Allgemein gilt:
$$\sum_{\mu = 1}^M \hspace{0.1cm}p_{\mu} = 1 \hspace{0.05cm}.$$
*Die Nachrichtenquelle sei gedächtnislos, das heißt, die einzelnen Folgenelemente seien statistisch voneinander unabhängig:
$${\rm Pr} \left (q_{\nu} = q_{\mu} \right ) = {\rm Pr} \left (q_{\nu} = q_{\mu} \hspace{0.03cm} | \hspace{0.03cm} q_{\nu -1}, q_{\nu -2}, ... \right ) \hspace{0.05cm}.$$
*Da das Alphabet aus Symbolen (und nicht aus Zufallsgrößen) besteht, ist hier die Angabe von Erwartungswerten (linearer Mittelwert, quadratischer Mittelwert, Streuung, usw.) nicht möglich, aber auch aus informationstheoretischer Sicht nicht nötig.

Diese Eigenschaften werden auf der nächsten Seite mit einem Beispiel verdeutlicht.

{{Beispiel}}
Für die Symbolwahrscheinlichkeiten einer Quaternärquelle gelte:

$$p_{\rm A} = 0.4 \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = 0.3 \hspace{0.05cm},\hspace{0.2cm}p_{\rm C} = 0.2 \hspace{0.05cm},\hspace{0.2cm}
p_{\rm D} = 0.1\hspace{0.05cm}.$$

Bei einer unendlich langen Folge ( $N$ → ∞) wären die [[Stochastische_Signaltheorie/Wahrscheinlichkeit_und_relative_Häufigkeit#Bernoullisches_Gesetz_der_gro.C3.9Fen_Zahlen|relativen Häufigkeiten]] $h_A$, $h_B$, $h_C$ und $h_D$ – also die a–posteriori–Kenngrößen – identisch mit den a–priori–Wahrscheinlichkeiten $p_A$, $p_B$, $p_C$ und $p_D$. Bei kleinerem $N$ kann es aber durchaus zu Abweichungen kommen, wie die folgende Tabelle (Ergebnis einer Simulation) zeigt. Die Folge für $N$ = 100 ist auf der letzten Seite angegeben.

[[File:P_ID2230__Inf_T_1_1_S1b.png|Relative Häufigkeiten in Abhängigkeit von ''N'']]

Aufgrund der Mengenelemente A, B, C und D können keine Mittelwerte angegeben werden. Ersetzt man die Symbole durch Zahlenwerte, zum Beispiel A ⇒ 1, B ⇒ 2, C ⇒ 3, D ⇒ 4, so ergeben sich
*für den [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|linearen Mittelwert]]:
$$m_1 = {\rm E} \left [ q_{\nu} \right ] = {\rm E} \left [ q_{\mu} \right ] = 0.4 \cdot 1 + 0.3 \cdot 2 + 0.2 \cdot 3 + 0.1 \cdot 4
= 2 \hspace{0.05cm},$$
*für den [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|quadratischen Mittelwert]]:
$$m_2 = {\rm E} \left [ q_{\nu}^{\hspace{0.05cm}2} \right ] = {\rm E} \left [ q_{\mu}^{\hspace{0.05cm}2} \right ] = 0.4 \cdot 1^2 + 0.3 \cdot 2^2 + 0.2 \cdot 3^2 + 0.1 \cdot 4^2
= 5 \hspace{0.05cm},$$
*für die [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente#Einige_h.C3.A4ufig_auftretende_Zentralmomente|Standardabweichung]] (Streuung) nach dem „Satz von Steiner”:
$$\sigma = \sqrt {m_2 - m_1^{\hspace{0.05cm}2}} = \sqrt {5 - 2^{\hspace{0.01cm}2}}
= 1 \hspace{0.05cm}.$$

{{end}}

==Entscheidungsgehalt – Nachrichtengehalt==
[[https://de.wikipedia.org/wiki/Claude_Shannon|Claude E. Shannon]] definierte 1948 im Standardwerk der Informationstheorie [Sha48] den Informationsbegriff als „Abnahme der Ungewissheit über das Eintreten eines statistischen Ereignisses”. Machen wir hierzu ein gedankliches Experiment mit M möglichen Ergebnissen, die alle gleichwahrscheinlich seien:

$$p_1 = p_2 = ... = p_M = 1/M \hspace{0.05cm}.$$

Unter dieser Annahme gilt:
*Ist $M$ = 1, so wird jeder einzelne Versuch das gleiche Ergebnis liefern und demzufolge besteht keine Unsicherheit hinsichtlich des Ausgangs. Wird uns das Versuchsergebnis mitgeteilt, so haben wir dadurch natürlich auch keinen Informationsgewinn.
*Dagegen erfährt ein Beobachter bei einem Experiment mit $M$ = 2, zum Beispiel dem „Münzwurf” mit der Ereignismenge { '''Z'''(ahl), '''W'''(app) } und den Wahrscheinlichkeiten $p_Z$ = $p_W$ = 0.5, durchaus einen Informationsgewinn. Die Unsicherheit, ob '''Z''' oder '''W''' geworfen wurde, wird aufgelöst.
*Beim Experiment „Würfeln” ( $M$ = 6 ) und noch mehr beim Roulette ( $M$ = 37) ist die gewonnene Information für den Beobachter noch deutlich größer als beim „Münzwurf”, wenn er erfährt, welche Zahl gewürfelt bzw. welche Kugel gefallen ist.
*Schließlich sollte noch berücksichtigt werden, dass das Experiment „Dreifacher Münzwurf” mit den $M$ = 8 möglichen Ergebnissen '''ZZZ''', '''ZZW''', '''ZWZ''', '''ZWW''', '''WZZ''', '''WZW''', '''WWZ''', '''WWW''' die dreifache Information liefert wie der einfache Münzwurf ( $M$ = 2 ).

Die nachfolgende Festlegung erfüllt alle hier verbal aufgeführten Anforderungen an ein quantitatives Informationsmaß bei gleichwahrscheinlichen Ereignissen, gekennzeichnet durch den Symbolumfang $M$.

{{Definition}}
Der Entscheidungsgehalt einer Nachrichtenquelle hängt nur vom Symbolumfang $M$ ab und ergibt sich zu

$$H_0 = {\rm log}\hspace{0.1cm}M = {\rm log}_2\hspace{0.1cm}M \hspace{0.15cm}{\rm (in \hspace{0.15cm}"bit")}
= {\rm ln}\hspace{0.1cm}M \hspace{0.15cm}{\rm (in \hspace{0.15cm}"nat")}
= {\rm lg}\hspace{0.1cm}M \hspace{0.15cm}{\rm (in \hspace{0.15cm}"Hartley")} \hspace{0.05cm}.$$

Gebräuchlich ist hierfür auch die Bezeichnung ''Nachrichtengehalt''. Da $H_0$ gleichzeitig den Maximalwert der [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Informationsgehalt_und_Entropie|Entropie]] $H$ angibt, wird in hier teilweise auch $H_\text{max}$ als Kurzzeichen verwendet.

{{end}}

Anzumerken ist:
*Der Logarithmus wird in unserem Tutorial unabhängig von der Basis mit „log” bezeichnet. Die vier oben aufgestellten Kriterien werden aufgrund folgender Eigenschaften erfüllt:

$${\rm log}\hspace{0.1cm}1 = 0 \hspace{0.05cm},\hspace{0.2cm}
{\rm log}\hspace{0.1cm}37 > {\rm log}\hspace{0.1cm}6 > {\rm log}\hspace{0.1cm}2\hspace{0.05cm},\hspace{0.2cm}
{\rm log}\hspace{0.1cm}M^k = k \cdot {\rm log}\hspace{0.1cm}M \hspace{0.05cm}.$$

*Meist verwenden wir den Logarithmus zur Basis 2 ⇒ Logarithmus dualis (ld), wobei dann die Pseudoeinheit „bit” – genauer: „bit/Symbol” – hinzugefügt wird:

$${\rm ld}\hspace{0.1cm}M = {\rm log_2}\hspace{0.1cm}M = \frac{{\rm lg}\hspace{0.1cm}M}{{\rm lg}\hspace{0.1cm}2}
= \frac{{\rm ln}\hspace{0.1cm}M}{{\rm ln}\hspace{0.1cm}2}
\hspace{0.05cm}.$$

*Weiter findet man in der Literatur auch Definitionen, basierend auf dem natürlichen Logarithmus („ln”) oder dem Zehnerlogarithmus („lg”) entsprechend obigen Definitionen.

==Informationsgehalt und Entropie ==

Wir verzichten nun auf die bisherige Voraussetzung, dass alle $M$ möglichen Ergebnisse eines Versuchs gleichwahrscheinlich seien. Im Hinblick auf eine möglichst kompakte Schreibweise legen wir für diese Seite lediglich fest:

$$p_1 > p_2 > ... > p_\mu > ... > p_{M-1} > p_M\hspace{0.05cm},\hspace{0.4cm}\sum_{\mu = 1}^M p_{\mu} = 1 \hspace{0.05cm}.$$

Unter dieser Voraussetzung betrachten wir nun den '''Informationsgehalt''' der einzelnen Symbole, wobei wir den Logarithmus dualis mit „ld”(manchmal auch mit „log2”) bezeichnen :

$$I_\mu = {\rm ld}\hspace{0.1cm}\frac{1}{p_\mu}= -\hspace{0.05cm}{\rm ld}\hspace{0.1cm}{p_\mu}
\hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit\hspace{0.15cm}oder\hspace{0.15cm}bit/Symbol)}
\hspace{0.05cm}.$$

Man erkennt:
*Wegen $p_μ$ ≤ 1 ist der Informationsgehalt nie negativ. Im Grenzfall $p_μ$ → 1 geht $I_μ$ → 0. Allerdings ist für $I_μ$ = 0 → $p_μ$ = 1 → $M$ = 1 auch der Entscheidungsgehalt $H_0$ = 0.
*Bei abfallenden Wahrscheinlichkeiten $p_μ$ nimmt der Informationsgehalt kontinuierlich zu:

$$I_1 < I_2 < ... < I_\mu < ... < I_{M-1} < I_M \hspace{0.05cm}.$$

Das heißt: Je weniger wahrscheinlich ein Ereignis ist, desto größer ist sein Informationsgehalt. Dieser Sachverhalt ist auch im täglichen Leben festzustellen:
*„6 Richtige” im Lotto nimmt man sicher eher war als „3 Richtige” oder gar keinen Gewinn.
*Ein Tsunami in Asien dominiert auch die Nachrichten in Deutschland über Wochen im Gegensatz zu den fast standardmäßigen Verspätungen der Deutschen Bahn.
*Eine Niederlagenserie von Bayern München führt zu Riesen–Schlagzeilen im Gegensatz zu einer Siegesserie. Bei 1860 München ist genau das Gegenteil der Fall.

Der Informationsgehalt eines einzelnen Symbols (oder Ereignisses) ist allerdings nicht sehr interessant. Durch Scharmittelung über alle möglichen Symbole $q_μ$ bzw. durch Zeitmittelung über alle Folgenelemente $q_ν$ erhält man dagegen eine der zentralen Größen der Informationstheorie.

{{Definition}}
Die '''Entropie''' einer Quelle gibt den mittleren Informationsgehalt aller Symbole an:

$$H = \overline{I_\nu} = {\rm E}\hspace{0.01cm}[I_\mu] = \sum_{\mu = 1}^M p_{\mu} \cdot {\rm ld}\hspace{0.1cm}\frac{1}{p_\mu}=
-\sum_{\mu = 1}^M p_{\mu} \cdot{\rm ld}\hspace{0.1cm}{p_\mu} \hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit[/Symbol])}
\hspace{0.05cm}.$$

Die überstreichende Linie kennzeichnet eine Zeitmittelung und E[...] eine Scharmittelung.
{{end}}

Die Entropie ist ein Maß für
*die mittlere Unsicherheit über den Ausgang eines statistischen Ereignisses,
*die „Zufälligkeit” dieses Ereignisses,
*den mittleren Informationsgehalt einer Zufallsgröße.

==Binäre Entropiefunktion ==

Wir beschränken uns zunächst auf den Sonderfall $M$ = 2 und betrachten eine binäre Quelle, die die beiden Symbole '''A''' und '''B''' abgibt. Die Auftrittwahrscheinlichkeiten seien $p_A$ = $p$ und $p_B$ = 1 – $p$.
Für die Entropie dieser Quelle gilt:

$$H_{\rm bin} (p) = p \cdot {\rm ld}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p\hspace{0.1cm}} + (1-p) \cdot {\rm ld}\hspace{0.1cm}\frac{1}{1-p} \hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit\hspace{0.15cm}oder\hspace{0.15cm}bit/Symbol)}
\hspace{0.05cm}.$$

Man nennt diese Funktion $H_\text{bin}(p)$ die '''binäre Entropiefunktion'''. Die Entropie einer Quelle mit größerem Symbolumfang $M$ lässt sich häufig unter Verwendung von $H_\text{bin}(p)$ ausdrücken.

[[File:P_ID2229__Inf_T_1_1_S4_neu.png|Binäre Entropiefunktion]]

Die Grafik zeigt die Funktion $H_\text{bin}(p)$ für die Werte 0 ≤ $p$ ≤ 1 der Symbolwahrscheinlichkeit von '''A''' (oder '''B'''). Man erkennt:
*Der Maximalwert $H_\text{max}$ = 1 bit ergibt sich für $p$ = 0.5, also für gleichwahrscheinliche Binärsymbole. Dann liefern '''A''' und '''B''' jeweils den gleichen Beitrag zur Entropie.
* $H_\text{bin}(p)$ ist symmetrisch um $p$ = 0.5. Eine Quelle mit $p_A$ = 0.1 und $p_B$ = 0.9 hat die gleiche Entropie (Zufälligkeit) $H$ = 0.469 bit wie eine Quelle mit $p_A$ = 0.9 und $p_B$ = 0.1.
*Die Differenz $ΔH$ = $H_\text{max}$ – $H$ gibt die Redundanz der Quelle an und $r$ = $ΔH/H_\text{max}$ die relative Redundanz. Im genannten Beispiel ergeben sich $ΔH$ = 0.531 bit bzw. $r$ = 53.1%.
*Für $p$ = 0 ergibt sich $H$ = 0, da hier die Ausgangsfolge „'''B B B''' ...” sicher vorhersagbar ist. Eigentlich beträgt nun der Symbolumfang nur noch $M$ = 1. Gleiches gilt für $p$ = 1.

Es sollte noch erwähnt werden, dass die binäre Entropiefunktion ''konkav'' ist, da deren zweite Ableitung nach dem Parameter $p$ für alle Werte von $p$ negativ ist:

$$\frac{{\rm d}^2H_{\rm bin} (p)}{{\rm d}\,p^2} = \frac{-1}{{\rm ln}(2) \cdot p \cdot (1-p)}< 0
\hspace{0.05cm}.$$

==Nachrichtenquellen mit größerem Symbolumfang==

Im [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Modell_und_Voraussetzungen|ersten Abschnitt]] dieses Kapitels haben wir eine quaternäre Nachrichtenquelle ($M$ = 4) mit den Symbolwahrscheinlichkeiten $p_A$ = 0.4, $p_B$ = 0.3, $p_C$ = 0.2 und $p_D$ = 0.1 betrachtet. Diese besitzt die folgende Entropie:

$$\begin{align*}H_{\rm quat} \hspace{-0.1cm} & = \hspace{-0.1cm} 0.4 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.4} + 0.3 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.3} + 0.2 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.2}+ 0.1 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.1}=\\
\hspace{-0.1cm} & = \hspace{-0.1cm}\frac{1}{{\rm lg}\hspace{0.1cm}2} \cdot \left [ 0.4 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.4} + 0.3 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.3} + 0.2 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.2}+ 0.1 \cdot {\rm lg}\hspace{0.1cm}\frac{1}{0.1} \right ] = 1.845\,{\rm bit}
\hspace{0.05cm}.\end{align*}$$

Oft ist der Umweg über den Zehnerlogarithmus lg $x$ = log10 $x$ sinnvoll, da meist der Logarithmus dualis log2 $x$ (oder auch ld $x$) auf Taschenrechnern nicht zu finden ist.
Bestehen zwischen den einzelnen Symbolwahrscheinlichkeiten Symmetrien wie im Beispiel

$$p_{\rm A} = p_{\rm D} = p \hspace{0.05cm},\hspace{0.2cm}p_{\rm B} = p_{\rm C} = 0.5-p \hspace{0.05cm},\hspace{0.3cm}{\rm mit} \hspace{0.15cm}0 \le p \le 0.5 \hspace{0.05cm},$$

so kann zur Entropieberechnung auf die binäre Entropiefunktion zurückgegriffen werden:

$$H_{\rm quat} = 2 \cdot p \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p\hspace{0.1cm}} + 2 \cdot (0.5-p) \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5-p} = 1 + H_{\rm bin}(2p) \hspace{0.05cm}.$$

Die Grafik zeigt den Entropieverlauf der Quaternärquelle (blau) im Vergleich zur Binärquelle (rot) abhängig von $p$. Für die Quaternärquelle ist nur der Abszissenbereich 0 ≤ $p$ ≤ 0.5 zulässig.

[[File:P_ID2231__Inf_T_1_1_S5_neu.png|Entropie von Binärquelle und Quaternärquelle]]

Man erkennt aus der blauen Kurve für die Quaternärquelle:
*Die maximale Entropie $H_\text{max}$ = 2 bit ergibt sich für $p$ = 0.25 ⇒ $p_A$ = $p_B$ = $p_C$ = $p_D$ = 0.25, also wieder für gleichwahrscheinliche Symbole.
*Mit $p$ = 0 bzw. $p$ = 0.5 entartet die Quaternärquelle zu einer Binärquelle mit $p_B$ = $p_C$ = 0.5 bzw. $p_A$ = $p_D$ = 0.5. In diesem Fall ergibt sich die Entropie zu $H$ = 1 bit.
*Die Quelle mit $p_A$ = $p_D$ = $p$ = 0.1 und $p_B$ = $p_C$ = 0.4 weist folgende Entropie und (relative) Redundanz auf:

$$\begin{align*}H \hspace{-0.1cm} & = \hspace{-0.1cm} 1 + H_{\rm bin} (2p) =1 + H_{\rm bin} (0.2) = 1.722\,{\rm bit}\hspace{0.05cm},\\
{\rm \Delta }H \hspace{-0.1cm} & = \hspace{-0.1cm} {\rm ld}\hspace{0.1cm} M - H =2\,{\rm bit}- 1.722\,{\rm bit} = 0.278\,{\rm bit}\hspace{0.05cm},\\
r \hspace{-0.1cm} & = \hspace{-0.1cm} {\rm \Delta }H/({\rm ld}\hspace{0.1cm} M) = 0.139\hspace{0.05cm}.\end{align*}$$

Die Redundanz $ΔH$ der Quaternärquelle mit $p$ = 0.1 ist gleich 0.278 bit und damit genau so groß wie die Redundanz der Binärquelle mit $p$ = 0.2.
Anmerkung: Als Pseudoeinheit ist hier stets „bit” angegeben. Genauer wäre „bit/Symbol”.

== Aufgaben zu Kapitel 1.1==

==Quellen==
<references />

{{Display}}

Fehlerhafte Links

2017-01-29T21:42:40Z

LukasWolf:

Theory of Stochastic Signals/Wiener–Kolmogorow Filter

2017-01-26T20:58:12Z

LukasWolf:

{{LastPage}}
{{Header
|Untermenü=Filterung stochastischer Signale
|Vorherige Seite=Matched-Filter
|Nächste Seite=
}}
==Optimierungskriterium des Wiener–Kolmogorow–Filters==
Als weiteres Beispiel zur Optimalfilterung betrachten wir nun die Aufgabenstellung, die Form eines Nutzsignals $s(t)$ aus dem durch additives Rauschen $n(t)$ gestörten Empfangssignals $r(t)$ im Sinne des mittleren quadratischen Fehlers (MQF) möglichst gut zu rekonstruieren:
$${\rm{MQF}} = \mathop {\lim }\limits_{T_{\rm M} \to \infty } \frac{1}{{T_{\rm M} }}\int_{ - T_{\rm M} /2}^{+T_{\rm M} /2} {\left| {d(t) - s(t)} \right|^2 \, {\rm{d}}t} \mathop = \limits^! {\rm{Minimum}}.$$

Das entsprechende Filter ist nach seinen Erfindern [https://de.wikipedia.org/wiki/Norbert_Wiener Norbert Wiener] und [https://de.wikipedia.org/wiki/Andrei_Nikolajewitsch_Kolmogorow Andrei Nikolajewitsch Kolmogorow] benannt. Den entsprechenden Frequenzgang bezeichnen wir mit $H_{\rm WF}(f).$

Für diese Optimierungsaufgabe gelten folgende Voraussetzungen:
*Das zu rekonstruierende Signal $s(t)$ ist das Ergebnis eines Zufallsprozesses { $s(t)$}, von dem nur die statistischen Eigenschaften in Form des Leistungsdichtespektrums ${\it Φ}_s(f)$ bekannt ist.
*Das Störsignal $n(t)$ ist durch das LDS ${\it Φ}_n(f)$ gegeben. Korrelationen zwischen dem Nutz– und dem Störsignal berücksichtigen die Kreuzkorrelationsdichtespektren ${\it Φ}_{sn}(f) = \hspace{0.1cm} –{ {\it Φ}_{ns} }^∗(f).$
*Das Ausgangssignal des gesuchten Filters ist mit $d(t)$ bezeichnet, das sich entsprechend des MQF möglichst wenig von $d(t)$ unterscheiden soll. $T_{\rm M}$ bezeichnet wiederum die Messdauer.

:[[File:P_ID650__Sto_T_5_5_S1_neu.png | Zur Herleitung des Wiener-Filters]]

Das Signal $s(t)$ sei mittelwertfrei $(m_s =$ 0) und leistungsbegrenzt. Das bedeutet: Die Signalenergie $E_s$ ist aufgrund der unendlichen Ausdehnung des Signals $s(t)$ unendlich und die Signalleistung besitzt einen endlichen Wert:
$$P_s = \mathop {\lim }\limits_{T_{\rm M} \to \infty } \frac{1}{{T_{\rm M} }}\int_{ - T_{\rm M} /2}^{+T_{\rm M} /2} {s(t)^2 \, {\rm{d}}t > 0.}$$

Ein grundsätzlicher Unterschied zur Aufgabenstellung beim Matched–Filter ist das stochastische und leistungsbegrenzte Nutzsignal $s(t)$. Erinnern wir uns: Beim Matched–Filter war das zu rekonstruierende Signal $g(t)$ deterministisch, zeitlich begrenzt und damit auch energiebegrenzt.

==Ergebnis der Filteroptimierung==
A. Kolmogorow und N. Wiener haben dieses Optimierungsproblem nahezu zur gleichen Zeit unabhängig voneinander gelöst. Die Übertragungsfunktion des optimalen Filters kann über die so genannte ''Wiener-Hopfsche Integralgleichung'' ermittelt werden, und lautet:
$$H_{\rm WF} (f) = \frac{{ {\it \Phi }_s (f) + {\it \Phi }_{ns} (f)} }{ { {\it \Phi }_s (f) + {\it \Phi }_{sn} (f) + {\it \Phi }_{ns} (f) + {\it \Phi }_n (f)}}.$$

Der Index „WF” steht für Wiener-Filter und lässt leider die Verdienste von Kolmogorow nicht erkennen. Auf die exakte, mathematische Ableitung der Gleichung wird hier verzichtet. Vielmehr soll diese im Folgenden an einigen Sonderfällen verdeutlicht und interpretiert werden.
*Sind Signal und Störung unkorreliert ⇒ ${\it Φ}_{sn}(f) = {\it Φ}_{ns}(f) =$ 0, so vereinfacht sich die obige Gleichung wie folgt:
$$H_{\rm WF} (f) = \frac{{ {\it \Phi }_s (f) }}{{ {\it \Phi }_s (f) + {\it \Phi }_n (f) }} = \frac{1}{{1 + {\it \Phi }_n (f) / {\it \Phi }_s (f) }}.$$
*Das Filter wirkt dann wie ein frequenzabhängiger Teiler, wobei das Teilerverhältnis durch die Leistungsdichtespektren von Nutzsignal und Störsignal bestimmt wird.
*Der „Durchlassbereich” liegt vorwiegend bei den Frequenzen, bei denen das Nutzsignal sehr viel größere Anteile besitzt als die Störung: ${\it Φ}_s(f) >> {\it Φ}_n(f).$
*Der mittlere quadratische Fehler (MQF) zwischen dem Filterausgangssignal $d(t)$ und dem zu approximierenden Eingangssignal $s(t)$ ist
$${\rm MQF} = \int\limits_{ - \infty }^{ + \infty } {\frac{{ {\it \Phi }_s (f) \cdot {\it \Phi }_n (f)}}{{ {\it \Phi }_s(f) + {\it \Phi }_n (f)}}\,{\rm{d}}f = \int\limits_{ - \infty }^{ + \infty } {H_{\rm WF} (f) \cdot {\it \Phi }_n (f)}\, {\rm{d}}f.}$$

Die Ableitung dieser Ergebnisse ist durchaus nicht trivial und zum Beispiel in [Hän97]<ref>Hänsler, E.: ''Statistische Signale: Grundlagen und Anwendungen.'' 2. Auflage. Berlin – Heidelberg: Springer, 1997.</ref> zu finden. In den beiden nächsten Abschnitten wird das Wiener–Kolmogorow–Filter anhand zweier Beispiele verdeutlicht.

==Interpretation des Wiener-Filters (1)==
{{Beispiel}}
'''1)''' Zur Verdeutlichung des Wiener–Filters betrachten wir zunächst als Grenzfall ein Sendesignal $s(t)$ mit dem LDS ${\it Φ}_s(f) = P_s · δ(f ± f_s).$
*Damit ist bekannt, dass $s(t)$ eine harmonische Schwingung mit der Frequenz $f_s$ ist.
*Unbekannt sind dagegen Amplitude und Phase der aktuellen Musterfunktion $s(t)$.

Bei weißem Rauschen ⇒ ${\it Φ}_n(f) = N_0/2$ – lautet somit der Frequenzgang des Wiener-Filters:
$$H_{\rm WF} (f) = \frac{1}{{1 +({N_0 /2})/{( P_s \cdot\delta ( {f \pm f_s } )}})}.$$
*Bei allen Frequenzen mit Ausnahme von $f = ±f_s$ ergibt sich $H_{\rm WF}(f) =$ 0, da hier der Nenner unendlich groß wird.
*Berücksichtigt man weiter, dass $δ(f = ±f_s)$ an der Stelle $f = ±f_s$ unendlich groß ist, so erhält man weiter $H_{\rm MF}(f = ±f_s ) =$ 1.
*Das optimale Filter ist somit ein Bandpass um $f_s$ mit unendlich kleiner Bandbreite. Der mittlere quadratische Fehler zwischen dem Sendesignal $s(t)$ und dem Filterausgangssignal $d(t)$ beträgt
$${\rm{MQF}} = \int_{ - \infty }^{ + \infty } {H_{\rm WF} (f) \cdot {\it \Phi_n} (f) \,{\rm{d}}f = \mathop {\lim }\limits_{\varepsilon \hspace{0.03cm} {\rm > \hspace{0.03cm}0,}\;\;\varepsilon \hspace{0.03cm} \to \hspace{0.03cm}\rm 0 } }\hspace{0.1cm} \int_{f_s - \varepsilon }^{f_s + \varepsilon }\hspace{-0.3cm} {N_0 }\,\,{\rm{d}}f = 0.$$
*Dieses unendlich schmale Bandpass–Filter würde bei den getroffenen Voraussetzungen die vollständige Regenerierung der Harmonischen hinsichtlich Amplitude und Phase erlauben. Unabhängig von der Größe der Störung $(N_0)$ würde somit $d(t) = s(t)$ gelten.
*Allerdings ist ein unendlich schmales Filter nicht realisierbar. Bei endlicher Bandbreite $Δf$ ist der mittlere quadratische Fehler (MQF) gleich $N_0 · Δf$.

{{end}}

Dieses Beispiel hat einen Sonderfall behandelt, bei dem das bestmögliche Ergebnis MQF = 0 zumindest theoretisch möglich ist. Das folgende Beispiel geht von realistischeren Annahmen aus und liefert das Ergebnis MQF >0.

==Interpretation des Wiener-Filters (2)==
{{Beispiel}}
'''2)''' Nun betrachten wir ein ''stochastisches rechteckförmiges Binärsignal'' $s(t)$, das durch weißes Rauschen $n(t)$ additiv überlagert ist. Die Grafik enthält folgende Diagramme:
*Oben ist in grauer Farbe das Summensignal $r(t) = s(t) + n(t)$ für ${\it Φ}_0/N_0 =$ 5 dargestellt, wobei ${\it Φ}_0$ gleich der Energie eines Einzelimpulses ist und $N_0$ die Rauschleistungsdichte des weißen Rauschens angibt.
*In Bildmitte sind die Leistungsdichtespektren ${\it Φ}_s(f)$ und ${\it Φ}_n(f)$ in blauer bzw. roter Farbe skizziert und formelmäßig angegeben. Grün gezeichnet ist der Frequenzgang $H_{\rm WF}(f)$.
*Das untere Bild zeigt als grauen Kurvenzug das Ausgangssignal $d(t)$ des Wiener-Filters im Vergleich zum blau gezeichneten Signal $s(t)$. Im Idealfall sollte $d(t) = s(t)$ gelten.

[[File:P_ID662__Sto_T_5_5_S3_neu.png | Signale beim Wiener-Filter | rechts]]
Die untere Darstellung zeigt:

'''1.''' Der mittlere quadratische Fehler (MQF) zwischen den Signalen $d(t)$ und $s(t)$ beträgt hier etwa 11% der Nutzleistung $P_s$.

'''2.''' Im Signal $d(t)$ fehlen vorwiegend die höherfrequenten Signalanteile (also die Sprünge).

'''3.''' Diese Anteile werden zugunsten einer besseren Störunterdrückung bei diesen Frequenzen ausgefiltert.

Mit keinem anderen Filter ergibt sich bei diesen Voraussetzungen ein kleinerer (mittlerer quadratischer) Fehler als mit dem Wiener-Filter. Dessen Frequenzgang lautet hier:
$$H_{\rm WF} (f) = \frac{1}{{1 + ({N_0 /2})/( {\it \Phi}_0 \cdot {\rm si^2} ( \pi f T )})} \hspace{0.15cm} .$$

Man erkennt aus dem mittleren Diagramm:
*Der Gleichsignalübertragungsfaktor ergibt sich zu $H_{\rm WF}(f = 0) = {\it Φ}_0/({\it Φ}_0 + N_0/2) = 10/11.$
*Bei Vielfachen der Symbolfolgefrequenz $1/T$, bei denen das stochastische Binärsignal $s(t)$ keine Spektralanteile besitzt, ist auch $H_{\rm WF}(f) =$ 0.
*Je mehr Nutzsignalanteile bei einer bestimmten Frequenz vorhanden sind, desto durchlässiger ist bei dieser Frequenz auch das Wiener-Filter.

{{end}}

==Quellenverzeichnis==
<references/>

{{Display}}

Theory of Stochastic Signals/Matched Filter

2017-01-26T20:56:13Z

LukasWolf:

{{Header
|Untermenü=Filterung stochastischer Signale
|Vorherige Seite=Erzeugung vorgegebener AKF-Eigenschaften
|Nächste Seite=Wiener–Kolmogorow–Filter
}}
==Optimierungskriterium des Matched–Filters==
Das Matched-Filter – auch Korrelationsfilter genannt – dient zum Nachweis der Signalexistenz. Es kann mit größtmöglicher Sicherheit – anders ausgedrückt: mit maximalem SNR – entscheiden, ob ein durch additives Rauschen $n(t)$ gestörtes impulsförmiges Nutzsignal $g(t)$ vorhanden ist oder nicht. Zur Herleitung des Matched-Filters wird folgende Anordnung betrachtet.

[[File:P_ID568__Sto_T_5_4_S1_neu.png | Blockschaltbild des Matched-Filter-Empfängers]]

Für die einzelnen Komponenten gelten folgende Voraussetzungen:
*Der Nutzanteil $g(t)$ des Empfangssignals $r(t)$ sei impulsförmig und somit ''energiebegrenzt''. Das heißt: Das Integral über $g^2(t)$ von $–∞$ bis $+∞$ liefert den endlichen Wert $E_g$.
*Das Störsignal $n(t)$ sei ''Weißes Gaußsches Rauschen'' mit der Rauschleistungsdichte $N_0$.
*Das Filterausgangssignal $d(t)$ setzt sich additiv aus zwei Anteilen zusammen. Der Anteil $d_{\rm S}(t)$ geht auf das „'''S'''ignal” $g(t)$ zurück und der Anteil $d_{\rm N}(t)$ auf das „'''N'''oise” $n(t)$.
*Der Empfänger, bestehend aus linearem Filter ⇒ Frequenzgang $H_{\rm MF}(f)$ und Entscheider, ist so zu dimensionieren, dass das momentane S/N-Verhältnis am Ausgang maximal wird:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {d_{\rm S} ^2 ( {T_{\rm D} } )} }{ {\sigma _d ^2 } }\mathop = \limits^{\rm{!} }\hspace{0.1cm} {\rm{Maximum} }.$$
:Hierbei bezeichnen $σ_d^2$ die ''Varianz'' (Leistung) von $d_{\rm N}(t)$ und $T_{\rm D}$ den ''Detektionszeitpunkt.''

==Matched-Filter-Optimierung (1)==
Gegeben sei ein energiebegrenztes Nutzsignal $g(t)$ mit dem zugehörigen Spektrum $G(f)$. Damit kann das Filterausgangssignal zum Detektionszeitpunkt $T_{\rm D}$ für jedes beliebige Filter mit der Impulsantwort $h(t)$ und dem Frequenzgang $H(f) = F${ $h(t)$} wie folgt geschrieben werden (ohne Berücksichtigung des Rauschens ⇒ Index S für „Signal”):
$$d_{\rm S} ( {T_{\rm D} } ) = g(t) * h(t) = \int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e}}^{{\rm{j}}2{\rm{\pi }}fT_{\rm D} }\hspace{0.1cm} {\rm{d}}f} .$$
Der „Rauschanteil” $d_{\rm N}(t)$ des Filterausgangssignals rührt allein vom Weißen Rauschen $n(t)$ am Eingang des Empfängers her. Für seine Varianz (Leistung) gilt unabhängig von $T_{\rm D}$:
$$\sigma _d ^2 = \frac{ {N_0 } }{2} \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} .$$
Damit lautet das hier vorliegende Optimierungsproblem:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| {\int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e} }^{{\rm{j} }2{\rm{\pi } }fT_{\rm D} }\hspace{0.1cm} {\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } } \stackrel{!}{=} {\rm{Maximum} }.$$
Man kann zeigen, dass der Quotient für den folgenden Frequenzgang am größten wird:
$$H(f) = H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e}}^{-{\rm{j}}2{\rm{\pi }}fT_{\rm D} } .$$
Damit erhält man für das Signal-zu-Rauschleistungsverhältnis am Matched–Filter–Ausgang:
$$\rho _d ( {T_{\rm D} } ) = { {2 \cdot E_g } }/{ {N_0 } },$$
und zwar unabhängig von der dimensionsbehafteten Konstante $K_{\rm MF}$. Zur Erklärung:
* $E_g$ bezeichnet die Energie des Eingangsimpulses, die man nach dem [[Signaldarstellung/Äquivalentes_Tiefpass-Signal_und_zugehörige_Spektralfunktion#Leistung_und_Energie_eines_Bandpass-Signals|Satz von Parseval]] sowohl im Zeit– als auch im Frequenzbereich berechnen kann:
$$E_g = \int_{ - \infty }^{ + \infty } {g^2 (t)\hspace{0.1cm}{\rm{d}}t} = \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2}}\hspace{0.1cm} {\rm d}f} .$$

{{Beispiel}}
Ein rechteckförmiger Impuls $g(t)$ mit der Amplitude $\rm 1V$ und der Dauer 0.5ms und unbekannter Lage soll in einer verrauschten Umgebung aufgefunden werden. Somit ist die Impulsenergie $E_g = \rm 5 · 10^{–4} V^2s$. Die Rauschleistungsdichte sei $N_0 = \rm 10^{–6} V^2/Hz$.

Das beste Ergebnis ⇒ maximale S/N–Verhältnis erzielt man mit dem Matched-Filter:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {2 \cdot E_g } }{ {N_0 } } =
\frac{ {2 \cdot 5 \cdot 10^{-4}\, {\rm V^2\,s} } }{ {10^{-6}\, {\rm V^2/Hz} } } = 1000
\hspace{0.3cm}\Rightarrow\hspace{0.3cm}
10 \cdot {\rm lg}\hspace{0.15cm}\rho _d ( {T_{\rm D} } ) = 30\,{\rm dB}.$$
{{end}}

Die Matched-Filter-Optimierung wird im nächsten Abschnitt hergeleitet. Wenn Sie daran nicht interessiert sind, fahren Sie bitte mit der Seite [[Stochastische_Signaltheorie/Matched-Filter#Interpretation_des_Matched-Filters|Interpretation des Matched-Filters]] fort.

==Matched-Filter-Optimierung (2)==
Das im letzten Abschnitt angegebene Matched–Filter–Kriterium wird nun schrittweise hergeleitet. Wenn Sie daran nicht interessiert sind, so springen Sie bitte zur Fortsetzungsseite [[Stochastische_Signaltheorie/Matched-Filter#Interpretation_des_Matched-Filters|Interpretation des Matched–Filters]].

{{Box}}
'''Herleitung des Matched–Filter–Kriteriums:''' Die Schwarzsche Ungleichung lautet mit den beiden (im allgemeinen komplexen) Funktionen $A(f)$ und $B(f)$:
$$\left| {\int_a^b {A(f) \cdot B(f)\hspace{0.1cm}{\rm{d} }f} } \right|^2 \le \int_a^b {\left| {A(f)} \right|^{\rm{2} } \hspace{0.1cm}{\rm{d}}f} \cdot \int_a^b {\left| {B(f)} \right|^{\rm{2} } \hspace{0.1cm}{\rm{d} }f} .$$
Wir wenden nun diese Gleichung auf das Signal–zu–Rauschverhältnis an:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| {\int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e}}^{ {\rm{j} }2{\rm{\pi } }fT_{\rm D} } \hspace{0.1cm}{\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } }.$$
Mit $A(f) = G(f)$ und $B(f) = H(f) · {\rm exp}({\rm j2}πfT_{\rm D})$ ergibt sich somit die folgende Schranke:
$$\rho_d ( {T_{\rm D} } ) \le \frac{1}{ {N_0 /2} } \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} } }\hspace{0.1cm}{\rm{d} }f .$$
Setzt man für den Filterfrequenzgang versuchsweise
$$H(f) = H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e} }^{ {\rm{ - j} }2{\rm{\pi } }fT_{\rm D} }$$
ein, so erhält man aus der obigen Gleichung:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| K_{\rm MF}\cdot {\int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot K_{\rm MF} ^2 \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } } = \frac{1}{ {N_0 /2} } \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} .$$

Das heißt: Mit diesem Ansatz für das Matched-Filter $H_{\rm MF}(f)$ wird in obiger Abschätzung tatsächlich der maximal mögliche Wert erreicht. Mit keinem anderen Filter $H(f) ≠ H_{\rm MF}(f)$ kann man ein höheres Signal–zu–Rauschleistungsverhältnis erzielen ⇒ Das Matched–Filter ist in Bezug auf das ihm zugrunde gelegte Maximierungskriterium optimal.

q.e.d.
{{end}}

==Interpretation des Matched-Filters==
Auf der letzten Seite wurde der Frequenzgang des Matched-Filters wie folgt abgeleitet:
$$H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e} }^{ {\rm{ - j} }2{\rm{\pi } }fT_{\rm D} } .$$
Durch [[Signaldarstellung/Fouriertransformation_und_-rücktransformation#Das_zweite_Fourierintegral|Fourierrücktransformation]] erhält man die dazugehörige Impulsantwort:
$$h_{\rm MF} (t) = K_{\rm MF} \cdot g(T_{\rm D} - t).$$

Diese beiden Funktionen lassen sich wie folgt interpretieren:
*Das Matched-Filter ist durch den Term $G^{\star}(f)$ an das Spektrum des aufzufindenden Impulses $g(t)$ angepasst – daher sein Name (englisch: ''to match'' ≡ anpassen).
*Die Konstante $K_{\rm MF}$ ist aus Dimensionsgründen notwendig. Ist $g(t)$ ein Spannungsimpuls, so hat diese Konstante die Einheit „Hz/V”. Der Frequenzgang ist somit dimensionslos.
*Die Impulsantwort $h_{\rm MF}(t)$ ergibt sich aus dem Nutzsignal $g(t)$ durch Spiegelung ⇒ aus $g(t)$ wird $g(–t)$ – sowie einer Verschiebung um $T_{\rm D}$ nach rechts.
*Der früheste Detektionszeitpunkt $T_{\rm D}$ folgt für realisierbare Systeme aus der Bedingung $h_{\rm MF}(t < 0)$ ≡ 0 ⇒ „Kausalität” (siehe Buch [[Lineare_zeitinvariante_Systeme|Lineare zeitinvariante Systeme]] ).
*Für den Nutzanteil des Filterausgangssignals gilt:
$$d_{\rm S} (t) = g(t) * h_{\rm MF} (t) = K_{\rm MF} \cdot g(t) * g(T_{\rm D} - t) = K_{\rm MF} \cdot \varphi^{^{\bullet} }_{g} (t - T_{\rm D} ).$$
:Das bedeutet: Das Ausgangssignal ist formgleich mit der Energie-AKF (in diesem Tutorial durch einen Punkt gekennzeichnet) und gegenüber dieser um $T_{\rm D}$ verschoben.

''Anmerkung:'' Bei einem energiebegrenzten Signal $g(t)$ kann man nur die ''Energie–AKF'' angeben:
$$\varphi^{^{\bullet}}_g (\tau ) = \int_{ - \infty }^{ + \infty } {g(t) \cdot g(t + \tau )\,{\rm{d}}t} .$$
Gegenüber der AKF-Definition eines leistungsbegrenzten Signals $x(t)$, nämlich
$$\varphi _x (\tau ) = \mathop {\lim }_{T_{\rm M} \to \infty } \frac{1}{ {T_{\rm M} } }\int_{ - T_{\rm M} /2}^{+T_{\rm M} /2} {x(t) \cdot x(t + \tau )\hspace{0.1cm}\,{\rm{d} }t} ,$$
wird bei der Berechnung der Energie-AKF auf die Division durch die Messdauer $T_{\rm M}$ sowie auf den Grenzübergang $T_{\rm M} → ∞$ verzichtet.

{{Beispiel}}
Wir gehen davon aus, dass gemäß dem [[Stochastische_Signaltheorie/Matched-Filter#Matched-Filter-Optimierung_.281.29|letzten Beispiel]] der Rechteckimpuls zwischen 2ms und 2.5ms liegt und der Detektionszeitpunkt $T_{\rm D} =$ 4 ms gewünscht wird. Dann gilt:
*Die Matched–Filter–Impulsantwort $h_{\rm MF}(t)$ muss im Bereich von $t_1 (= 4 – 2.5) =$ 1.5ms bis $t_2 (= 4 – 2) =$ 2ms konstant sein. Für $t < t_1$ sowie für $t > t_2$ darf sie keine Anteile besitzen.
*Der Betragsfrequenzgang $|H_{\rm MF}(f)|$ ist hier si–förmig. Die Höhe der Impulsantwort $h_{\rm MF}(t)$ spielt für das S/N–Verhältnis keine Rolle, da dieses unabhängig von $K_{\rm MF}$ ist.

{{end}}

==Matched-Filter bei farbigen Störungen (1)==
Bei den Herleitungen dieses Abschnittes wurde bisher stets von Weißem Rauschen ausgegangen. Nun soll die Frage geklärt werden, wie das Empfangsfilter $H(f) = H_{\rm MF}(f)$ bei farbiger Störung $n(t)$ zu gestalten ist, damit das Signal–zu–Rauschleistungsverhältnis maximal wird.

''Hinweis:'' Der Begriff „Störung” ist etwas allgemeiner als „Rauschen”. Vielmehr ist Rauschen eine Teilmenge aller Störungen, zu denen z. B. auch das Nebensprechen von benachbarten Leitungen zählt. Wir sprechen nur dann von (weißem) Rauschen $n(t)$, wenn das Leistungsdichtespektrum ${\it Φ}_n(f)$ für alle Frequenzen gleich ist. Ist dies nicht erfüllt, so bezeichnen wir $n(t)$ als farbige Störung.

[[File:P_ID644__Sto_T_5_4_S4ab_neu.png | Zum Matched-Filter bei farbiger Störung]]

Zu dem hier betrachteten Modell ist zu bemerken:
*Die obere Grafik zeigt das Blockschaltbild zur Herleitung des Matched–Filters $H_{\rm MF}(f)$ bei farbiger Störung $n(t)$, gekennzeichnet durch das Leistungsdichtespektrum ${\it Φ}_n(f) ≠$ const. Alle bisher für diesen Abschnitt genannten Voraussetzungen gelten weiterhin.
*Das farbige Störsignal $n(t)$ mit dem Leistungsdichtespektrum ${\it Φ}_n(f)$ kann man – zumindest gedanklich – durch eine „weiße” Rauschquelle $n_{\rm WR}(t)$ mit der konstanten (zweiseitigen) Rauschleistungsdichte $N_0/2$ und ein Formfilter mit dem Frequenzgang $H_{\rm N}(f)$ modellieren:
$${\it{\Phi} }_n \left( f \right) = { {N_{\rm 0} } }/{\rm 2} \cdot \left| {H_{\rm N} \left( f \right)} \right|^{\rm 2} .$$
*Diese Modifikation ist in der unteren Grafik berücksichtigt. Da Realisierungsaspekte hier nicht betrachtet werden, wird $H_{\rm N}(f)$ vereinfacht als reell angenommen. Der Phasengang von $H_{\rm N}(f)$ spielt für das Folgende keine Rolle.
*In der unteren Darstellung ist das Formfilter $H_{\rm N}(f)$ auf die rechte Seite der Störaddition verschoben. Um ein auch bezüglich des Nutzsignals $d_{\rm S}(t)$ äquivalentes Modell zu erhalten, wird das Formfilter im Nutzsignalzweig durch das inverse Filter $H_{\rm N}(f)^{–1}$ kompensiert.

==Matched-Filter bei farbigen Störungen (2)==
Anhand dieses modifizierten Modells wird nun das verallgemeinerte Matched-Filter für den Fall farbiger Störungen hergeleitet. Besitzt $H_{\rm N}(f)$ keine Nullstelle, was für das Folgende vorausgesetzt werden soll, so ist diese Anordnungen mit dem Blockschaltbild (obere Grafik im letzten Abschnitt) identisch.

[[File:P_ID645__Sto_T_5_4_S4b_neu.png | Äquivalentes Matched-Filter bei farbigen Störungen]]

An der Störadditionsstelle liegt nun weißes Rauschen $n_{\rm WR}(t)$ an. Die Herleitung der [[Stochastische_Signaltheorie/Matched-Filter#Matched-Filter-Optimierung_.281.29|Matched–Filter–Optimierung]] bei weißem Rauschen lässt sich 1 zu 1 auf das aktuelle Problem anpassen, wenn man Folgendes berücksichtigt:
*Anstelle des tatsächlichen Sendesignals $g(t)$ ist das Signal $g_{\rm WR}(t)$ vor der Störaddition zu berücksichtigen. Die dazugehörige Spektralfunktion lautet: $G_{\rm WR}(f) = G(f)/H_{\rm N}(f)$.
*Anstelle von $H_{\rm MF}(f)$ ist nun der resultierende Frequenzgang ${H_{\rm MF} }' (f) = H_{\rm N}(f) · H_{\rm MF}$ rechts von der Störadditionsstelle einzusetzen.

{{Box}}
Damit ergibt sich für das Matched-Filter bei farbigen Störungen:
$${H_{\rm MF} }' (f) = H_{\rm N} (f) \cdot H_{\rm MF} (f) = K_{\rm MF} \cdot G_{\rm WR} ^ {\star} (f) \cdot {\rm{e} }^{ - {\rm{j} }2{\rm{\pi } }fT_{\rm D} } $$
$$\Rightarrow \hspace{0.3cm}H_{\rm MF} (f) = K_{\rm MF} \cdot \frac{ {G^{\star} (f)} }{ {\left| {H_{\rm N} (f)} \right|^2 } } \cdot {\rm{e} }^{ - {\rm{j} }2{\rm{\pi } }fT_{\rm D} } .$$
Das Signal-zu-Störleistungsverhältnis vor dem Entscheider ist somit maximal:
$$\rho _{d,\max } ( {T_{\rm D} } ) = \frac{1}{ {N_0 /2} }\int_{ - \infty }^{ + \infty } {\left| {G_{\rm WR} (f)} \right|^2 }\, {\rm{d} }f = \int\limits_{ - \infty }^{ + \infty } \frac{\left| G(f) \right|^2 }{ {\it{\Phi _n {\rm (f)} } } } \,{\rm{d} }f.$$
{{end}}

Der Fall „Weißes Rauschen” ist in dieser allgemeineren Gleichung für ${\it Φ}_n(f) = N_0/2$ mitenthalten.

''Hinweis:'' Alle in diesem Abschnitt angegebenen Gleichungen führen bei farbiger Störung allerdings nur dann zu sinnvollen, auch in der Praxis verwertbaren Ergebnissen, wenn das Energiespektrum $|G(f)|^2$ des Nutzsignals asymptotisch schneller abklingt als das Störleistungsdichtespektrum ${\it Φ}_n(f)$.

{{Display}}

Theory of Stochastic Signals/Matched Filter

2017-01-26T20:54:45Z

LukasWolf:

{{Header
|Untermenü=Filterung stochastischer Signale
|Vorherige Seite=Erzeugung vorgegebener AKF-Eigenschaften
|Nächste Seite=Wiener–Kolmogorow–Filter
}}
==Optimierungskriterium des Matched–Filters==
Das Matched-Filter – auch Korrelationsfilter genannt – dient zum Nachweis der Signalexistenz. Es kann mit größtmöglicher Sicherheit – anders ausgedrückt: mit maximalem SNR – entscheiden, ob ein durch additives Rauschen $n(t)$ gestörtes impulsförmiges Nutzsignal $g(t)$ vorhanden ist oder nicht. Zur Herleitung des Matched-Filters wird folgende Anordnung betrachtet.

[[File:P_ID568__Sto_T_5_4_S1_neu.png | Blockschaltbild des Matched-Filter-Empfängers]]

Für die einzelnen Komponenten gelten folgende Voraussetzungen:
*Der Nutzanteil $g(t)$ des Empfangssignals $r(t)$ sei impulsförmig und somit ''energiebegrenzt''. Das heißt: Das Integral über $g^2(t)$ von $–∞$ bis $+∞$ liefert den endlichen Wert $E_g$.
*Das Störsignal $n(t)$ sei ''Weißes Gaußsches Rauschen'' mit der Rauschleistungsdichte $N_0$.
*Das Filterausgangssignal $d(t)$ setzt sich additiv aus zwei Anteilen zusammen. Der Anteil $d_{\rm S}(t)$ geht auf das „'''S'''ignal” $g(t)$ zurück und der Anteil $d_{\rm N}(t)$ auf das „'''N'''oise” $n(t)$.
*Der Empfänger, bestehend aus linearem Filter ⇒ Frequenzgang $H_{\rm MF}(f)$ und Entscheider, ist so zu dimensionieren, dass das momentane S/N-Verhältnis am Ausgang maximal wird:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {d_{\rm S} ^2 ( {T_{\rm D} } )} }{ {\sigma _d ^2 } }\mathop = \limits^{\rm{!} }\hspace{0.1cm} {\rm{Maximum} }.$$
:Hierbei bezeichnen $σ_d^2$ die ''Varianz'' (Leistung) von $d_{\rm N}(t)$ und $T_{\rm D}$ den ''Detektionszeitpunkt.''

==Matched-Filter-Optimierung (1)==
Gegeben sei ein energiebegrenztes Nutzsignal $g(t)$ mit dem zugehörigen Spektrum $G(f)$. Damit kann das Filterausgangssignal zum Detektionszeitpunkt $T_{\rm D}$ für jedes beliebige Filter mit der Impulsantwort $h(t)$ und dem Frequenzgang $H(f) = F${ $h(t)$} wie folgt geschrieben werden (ohne Berücksichtigung des Rauschens ⇒ Index S für „Signal”):
$$d_{\rm S} ( {T_{\rm D} } ) = g(t) * h(t) = \int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e}}^{{\rm{j}}2{\rm{\pi }}fT_{\rm D} }\hspace{0.1cm} {\rm{d}}f} .$$
Der „Rauschanteil” $d_{\rm N}(t)$ des Filterausgangssignals rührt allein vom Weißen Rauschen $n(t)$ am Eingang des Empfängers her. Für seine Varianz (Leistung) gilt unabhängig von $T_{\rm D}$:
$$\sigma _d ^2 = \frac{ {N_0 } }{2} \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} .$$
Damit lautet das hier vorliegende Optimierungsproblem:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| {\int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e} }^{{\rm{j} }2{\rm{\pi } }fT_{\rm D} }\hspace{0.1cm} {\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } } \stackrel{!}{=} {\rm{Maximum} }.$$
Man kann zeigen, dass der Quotient für den folgenden Frequenzgang am größten wird:
$$H(f) = H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e}}^{-{\rm{j}}2{\rm{\pi }}fT_{\rm D} } .$$
Damit erhält man für das Signal-zu-Rauschleistungsverhältnis am Matched–Filter–Ausgang:
$$\rho _d ( {T_{\rm D} } ) = { {2 \cdot E_g } }/{ {N_0 } },$$
und zwar unabhängig von der dimensionsbehafteten Konstante $K_{\rm MF}$. Zur Erklärung:
* $E_g$ bezeichnet die Energie des Eingangsimpulses, die man nach dem [[Signaldarstellung/Äquivalentes_Tiefpass-Signal_und_zugehörige_Spektralfunktion#Leistung_und_Energie_eines_Bandpass-Signals|Satz von Parseval]] sowohl im Zeit– als auch im Frequenzbereich berechnen kann:
$$E_g = \int_{ - \infty }^{ + \infty } {g^2 (t)\hspace{0.1cm}{\rm{d}}t} = \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2}}\hspace{0.1cm} {\rm d}f} .$$

{{Beispiel}}
Ein rechteckförmiger Impuls $g(t)$ mit der Amplitude $\rm 1V$ und der Dauer 0.5ms und unbekannter Lage soll in einer verrauschten Umgebung aufgefunden werden. Somit ist die Impulsenergie $E_g = \rm 5 · 10^{–4} V^2s$. Die Rauschleistungsdichte sei $N_0 = \rm 10^{–6} V^2/Hz$.

Das beste Ergebnis ⇒ maximale S/N–Verhältnis erzielt man mit dem Matched-Filter:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {2 \cdot E_g } }{ {N_0 } } =
\frac{ {2 \cdot 5 \cdot 10^{-4}\, {\rm V^2\,s} } }{ {10^{-6}\, {\rm V^2/Hz} } } = 1000
\hspace{0.3cm}\Rightarrow\hspace{0.3cm}
10 \cdot {\rm lg}\hspace{0.15cm}\rho _d ( {T_{\rm D} } ) = 30\,{\rm dB}.$$
{{end}}

Die Matched-Filter-Optimierung wird im nächsten Abschnitt hergeleitet. Wenn Sie daran nicht interessiert sind, fahren Sie bitte mit der Seite [[Stochastische_Signaltheorie/Matched-Filter#Interpretation_des_Matched-Filters|Interpretation des Matched-Filters]] fort.

==Matched-Filter-Optimierung (2)==
Das im letzten Abschnitt angegebene Matched–Filter–Kriterium wird nun schrittweise hergeleitet. Wenn Sie daran nicht interessiert sind, so springen Sie bitte zur Fortsetzungsseite [[Stochastische_Signaltheorie/Matched-Filter#Interpretation_des_Matched-Filters|Interpretation des Matched–Filters]].

{{Box}}
'''Herleitung des Matched–Filter–Kriteriums:''' Die Schwarzsche Ungleichung lautet mit den beiden (im allgemeinen komplexen) Funktionen $A(f)$ und $B(f)$:
$$\left| {\int_a^b {A(f) \cdot B(f)\hspace{0.1cm}{\rm{d} }f} } \right|^2 \le \int_a^b {\left| {A(f)} \right|^{\rm{2} } \hspace{0.1cm}{\rm{d}}f} \cdot \int_a^b {\left| {B(f)} \right|^{\rm{2} } \hspace{0.1cm}{\rm{d} }f} .$$
Wir wenden nun diese Gleichung auf das Signal–zu–Rauschverhältnis an:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| {\int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e}}^{ {\rm{j} }2{\rm{\pi } }fT_{\rm D} } \hspace{0.1cm}{\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } }.$$
Mit $A(f) = G(f)$ und $B(f) = H(f) · {\rm exp}({\rm j2}πfT_{\rm D})$ ergibt sich somit die folgende Schranke:
$$\rho_d ( {T_{\rm D} } ) \le \frac{1}{ {N_0 /2} } \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} } }\hspace{0.1cm}{\rm{d} }f .$$
Setzt man für den Filterfrequenzgang versuchsweise
$$H(f) = H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e} }^{ {\rm{ - j} }2{\rm{\pi } }fT_{\rm D} }$$
ein, so erhält man aus der obigen Gleichung:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| K_{\rm MF}\cdot {\int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot K_{\rm MF} ^2 \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } } = \frac{1}{ {N_0 /2} } \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} .$$

Das heißt: Mit diesem Ansatz für das Matched-Filter $H_{\rm MF}(f)$ wird in obiger Abschätzung tatsächlich der maximal mögliche Wert erreicht. Mit keinem anderen Filter $H(f) ≠ H_{\rm MF}(f)$ kann man ein höheres Signal–zu–Rauschleistungsverhältnis erzielen ⇒ Das Matched–Filter ist in Bezug auf das ihm zugrunde gelegte Maximierungskriterium optimal.

q.e.d.
{{end}}

==Interpretation des Matched-Filters==
Auf der letzten Seite wurde der Frequenzgang des Matched-Filters wie folgt abgeleitet:
$$H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e} }^{ {\rm{ - j} }2{\rm{\pi } }fT_{\rm D} } .$$
Durch [[Signaldarstellung/Fouriertransformation_und_-rücktransformation#Das_zweite_Fourierintegral|Fourierrücktransformation]] erhält man die dazugehörige Impulsantwort:
$$h_{\rm MF} (t) = K_{\rm MF} \cdot g(T_{\rm D} - t).$$

Diese beiden Funktionen lassen sich wie folgt interpretieren:
*Das Matched-Filter ist durch den Term $G^{\star}(f)$ an das Spektrum des aufzufindenden Impulses $g(t)$ angepasst – daher sein Name (englisch: ''to match'' ≡ anpassen).
*Die Konstante $K_{\rm MF}$ ist aus Dimensionsgründen notwendig. Ist $g(t)$ ein Spannungsimpuls, so hat diese Konstante die Einheit „Hz/V”. Der Frequenzgang ist somit dimensionslos.
*Die Impulsantwort $h_{\rm MF}(t)$ ergibt sich aus dem Nutzsignal $g(t)$ durch Spiegelung ⇒ aus $g(t)$ wird $g(–t)$ – sowie einer Verschiebung um $T_{\rm D}$ nach rechts.
*Der früheste Detektionszeitpunkt $T_{\rm D}$ folgt für realisierbare Systeme aus der Bedingung $h_{\rm MF}(t < 0)$ ≡ 0 ⇒ „Kausalität” (siehe Buch '[[Lineare_zeitinvariante_Systeme']] ).
*Für den Nutzanteil des Filterausgangssignals gilt:
$$d_{\rm S} (t) = g(t) * h_{\rm MF} (t) = K_{\rm MF} \cdot g(t) * g(T_{\rm D} - t) = K_{\rm MF} \cdot \varphi^{^{\bullet} }_{g} (t - T_{\rm D} ).$$
:Das bedeutet: Das Ausgangssignal ist formgleich mit der Energie-AKF (in diesem Tutorial durch einen Punkt gekennzeichnet) und gegenüber dieser um $T_{\rm D}$ verschoben.

''Anmerkung:'' Bei einem energiebegrenzten Signal $g(t)$ kann man nur die ''Energie–AKF'' angeben:
$$\varphi^{^{\bullet}}_g (\tau ) = \int_{ - \infty }^{ + \infty } {g(t) \cdot g(t + \tau )\,{\rm{d}}t} .$$
Gegenüber der AKF-Definition eines leistungsbegrenzten Signals $x(t)$, nämlich
$$\varphi _x (\tau ) = \mathop {\lim }_{T_{\rm M} \to \infty } \frac{1}{ {T_{\rm M} } }\int_{ - T_{\rm M} /2}^{+T_{\rm M} /2} {x(t) \cdot x(t + \tau )\hspace{0.1cm}\,{\rm{d} }t} ,$$
wird bei der Berechnung der Energie-AKF auf die Division durch die Messdauer $T_{\rm M}$ sowie auf den Grenzübergang $T_{\rm M} → ∞$ verzichtet.

{{Beispiel}}
Wir gehen davon aus, dass gemäß dem [[Stochastische_Signaltheorie/Matched-Filter#Matched-Filter-Optimierung_.281.29|letzten Beispiel]] der Rechteckimpuls zwischen 2ms und 2.5ms liegt und der Detektionszeitpunkt $T_{\rm D} =$ 4 ms gewünscht wird. Dann gilt:
*Die Matched–Filter–Impulsantwort $h_{\rm MF}(t)$ muss im Bereich von $t_1 (= 4 – 2.5) =$ 1.5ms bis $t_2 (= 4 – 2) =$ 2ms konstant sein. Für $t < t_1$ sowie für $t > t_2$ darf sie keine Anteile besitzen.
*Der Betragsfrequenzgang $|H_{\rm MF}(f)|$ ist hier si–förmig. Die Höhe der Impulsantwort $h_{\rm MF}(t)$ spielt für das S/N–Verhältnis keine Rolle, da dieses unabhängig von $K_{\rm MF}$ ist.

{{end}}

==Matched-Filter bei farbigen Störungen (1)==
Bei den Herleitungen dieses Abschnittes wurde bisher stets von Weißem Rauschen ausgegangen. Nun soll die Frage geklärt werden, wie das Empfangsfilter $H(f) = H_{\rm MF}(f)$ bei farbiger Störung $n(t)$ zu gestalten ist, damit das Signal–zu–Rauschleistungsverhältnis maximal wird.

''Hinweis:'' Der Begriff „Störung” ist etwas allgemeiner als „Rauschen”. Vielmehr ist Rauschen eine Teilmenge aller Störungen, zu denen z. B. auch das Nebensprechen von benachbarten Leitungen zählt. Wir sprechen nur dann von (weißem) Rauschen $n(t)$, wenn das Leistungsdichtespektrum ${\it Φ}_n(f)$ für alle Frequenzen gleich ist. Ist dies nicht erfüllt, so bezeichnen wir $n(t)$ als farbige Störung.

[[File:P_ID644__Sto_T_5_4_S4ab_neu.png | Zum Matched-Filter bei farbiger Störung]]

Zu dem hier betrachteten Modell ist zu bemerken:
*Die obere Grafik zeigt das Blockschaltbild zur Herleitung des Matched–Filters $H_{\rm MF}(f)$ bei farbiger Störung $n(t)$, gekennzeichnet durch das Leistungsdichtespektrum ${\it Φ}_n(f) ≠$ const. Alle bisher für diesen Abschnitt genannten Voraussetzungen gelten weiterhin.
*Das farbige Störsignal $n(t)$ mit dem Leistungsdichtespektrum ${\it Φ}_n(f)$ kann man – zumindest gedanklich – durch eine „weiße” Rauschquelle $n_{\rm WR}(t)$ mit der konstanten (zweiseitigen) Rauschleistungsdichte $N_0/2$ und ein Formfilter mit dem Frequenzgang $H_{\rm N}(f)$ modellieren:
$${\it{\Phi} }_n \left( f \right) = { {N_{\rm 0} } }/{\rm 2} \cdot \left| {H_{\rm N} \left( f \right)} \right|^{\rm 2} .$$
*Diese Modifikation ist in der unteren Grafik berücksichtigt. Da Realisierungsaspekte hier nicht betrachtet werden, wird $H_{\rm N}(f)$ vereinfacht als reell angenommen. Der Phasengang von $H_{\rm N}(f)$ spielt für das Folgende keine Rolle.
*In der unteren Darstellung ist das Formfilter $H_{\rm N}(f)$ auf die rechte Seite der Störaddition verschoben. Um ein auch bezüglich des Nutzsignals $d_{\rm S}(t)$ äquivalentes Modell zu erhalten, wird das Formfilter im Nutzsignalzweig durch das inverse Filter $H_{\rm N}(f)^{–1}$ kompensiert.

==Matched-Filter bei farbigen Störungen (2)==
Anhand dieses modifizierten Modells wird nun das verallgemeinerte Matched-Filter für den Fall farbiger Störungen hergeleitet. Besitzt $H_{\rm N}(f)$ keine Nullstelle, was für das Folgende vorausgesetzt werden soll, so ist diese Anordnungen mit dem Blockschaltbild (obere Grafik im letzten Abschnitt) identisch.

[[File:P_ID645__Sto_T_5_4_S4b_neu.png | Äquivalentes Matched-Filter bei farbigen Störungen]]

An der Störadditionsstelle liegt nun weißes Rauschen $n_{\rm WR}(t)$ an. Die Herleitung der [[Stochastische_Signaltheorie/Matched-Filter#Matched-Filter-Optimierung_.281.29|Matched–Filter–Optimierung]] bei weißem Rauschen lässt sich 1 zu 1 auf das aktuelle Problem anpassen, wenn man Folgendes berücksichtigt:
*Anstelle des tatsächlichen Sendesignals $g(t)$ ist das Signal $g_{\rm WR}(t)$ vor der Störaddition zu berücksichtigen. Die dazugehörige Spektralfunktion lautet: $G_{\rm WR}(f) = G(f)/H_{\rm N}(f)$.
*Anstelle von $H_{\rm MF}(f)$ ist nun der resultierende Frequenzgang ${H_{\rm MF} }' (f) = H_{\rm N}(f) · H_{\rm MF}$ rechts von der Störadditionsstelle einzusetzen.

{{Box}}
Damit ergibt sich für das Matched-Filter bei farbigen Störungen:
$${H_{\rm MF} }' (f) = H_{\rm N} (f) \cdot H_{\rm MF} (f) = K_{\rm MF} \cdot G_{\rm WR} ^ {\star} (f) \cdot {\rm{e} }^{ - {\rm{j} }2{\rm{\pi } }fT_{\rm D} } $$
$$\Rightarrow \hspace{0.3cm}H_{\rm MF} (f) = K_{\rm MF} \cdot \frac{ {G^{\star} (f)} }{ {\left| {H_{\rm N} (f)} \right|^2 } } \cdot {\rm{e} }^{ - {\rm{j} }2{\rm{\pi } }fT_{\rm D} } .$$
Das Signal-zu-Störleistungsverhältnis vor dem Entscheider ist somit maximal:
$$\rho _{d,\max } ( {T_{\rm D} } ) = \frac{1}{ {N_0 /2} }\int_{ - \infty }^{ + \infty } {\left| {G_{\rm WR} (f)} \right|^2 }\, {\rm{d} }f = \int\limits_{ - \infty }^{ + \infty } \frac{\left| G(f) \right|^2 }{ {\it{\Phi _n {\rm (f)} } } } \,{\rm{d} }f.$$
{{end}}

Der Fall „Weißes Rauschen” ist in dieser allgemeineren Gleichung für ${\it Φ}_n(f) = N_0/2$ mitenthalten.

''Hinweis:'' Alle in diesem Abschnitt angegebenen Gleichungen führen bei farbiger Störung allerdings nur dann zu sinnvollen, auch in der Praxis verwertbaren Ergebnissen, wenn das Energiespektrum $|G(f)|^2$ des Nutzsignals asymptotisch schneller abklingt als das Störleistungsdichtespektrum ${\it Φ}_n(f)$.

{{Display}}

Theory of Stochastic Signals/Matched Filter

2017-01-26T20:54:16Z

LukasWolf:

{{Header
|Untermenü=Filterung stochastischer Signale
|Vorherige Seite=Erzeugung vorgegebener AKF-Eigenschaften
|Nächste Seite=Wiener–Kolmogorow–Filter
}}
==Optimierungskriterium des Matched–Filters==
Das Matched-Filter – auch Korrelationsfilter genannt – dient zum Nachweis der Signalexistenz. Es kann mit größtmöglicher Sicherheit – anders ausgedrückt: mit maximalem SNR – entscheiden, ob ein durch additives Rauschen $n(t)$ gestörtes impulsförmiges Nutzsignal $g(t)$ vorhanden ist oder nicht. Zur Herleitung des Matched-Filters wird folgende Anordnung betrachtet.

[[File:P_ID568__Sto_T_5_4_S1_neu.png | Blockschaltbild des Matched-Filter-Empfängers]]

Für die einzelnen Komponenten gelten folgende Voraussetzungen:
*Der Nutzanteil $g(t)$ des Empfangssignals $r(t)$ sei impulsförmig und somit ''energiebegrenzt''. Das heißt: Das Integral über $g^2(t)$ von $–∞$ bis $+∞$ liefert den endlichen Wert $E_g$.
*Das Störsignal $n(t)$ sei ''Weißes Gaußsches Rauschen'' mit der Rauschleistungsdichte $N_0$.
*Das Filterausgangssignal $d(t)$ setzt sich additiv aus zwei Anteilen zusammen. Der Anteil $d_{\rm S}(t)$ geht auf das „'''S'''ignal” $g(t)$ zurück und der Anteil $d_{\rm N}(t)$ auf das „'''N'''oise” $n(t)$.
*Der Empfänger, bestehend aus linearem Filter ⇒ Frequenzgang $H_{\rm MF}(f)$ und Entscheider, ist so zu dimensionieren, dass das momentane S/N-Verhältnis am Ausgang maximal wird:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {d_{\rm S} ^2 ( {T_{\rm D} } )} }{ {\sigma _d ^2 } }\mathop = \limits^{\rm{!} }\hspace{0.1cm} {\rm{Maximum} }.$$
:Hierbei bezeichnen $σ_d^2$ die ''Varianz'' (Leistung) von $d_{\rm N}(t)$ und $T_{\rm D}$ den ''Detektionszeitpunkt.''

==Matched-Filter-Optimierung (1)==
Gegeben sei ein energiebegrenztes Nutzsignal $g(t)$ mit dem zugehörigen Spektrum $G(f)$. Damit kann das Filterausgangssignal zum Detektionszeitpunkt $T_{\rm D}$ für jedes beliebige Filter mit der Impulsantwort $h(t)$ und dem Frequenzgang $H(f) = F${ $h(t)$} wie folgt geschrieben werden (ohne Berücksichtigung des Rauschens ⇒ Index S für „Signal”):
$$d_{\rm S} ( {T_{\rm D} } ) = g(t) * h(t) = \int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e}}^{{\rm{j}}2{\rm{\pi }}fT_{\rm D} }\hspace{0.1cm} {\rm{d}}f} .$$
Der „Rauschanteil” $d_{\rm N}(t)$ des Filterausgangssignals rührt allein vom Weißen Rauschen $n(t)$ am Eingang des Empfängers her. Für seine Varianz (Leistung) gilt unabhängig von $T_{\rm D}$:
$$\sigma _d ^2 = \frac{ {N_0 } }{2} \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} .$$
Damit lautet das hier vorliegende Optimierungsproblem:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| {\int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e} }^{{\rm{j} }2{\rm{\pi } }fT_{\rm D} }\hspace{0.1cm} {\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } } \stackrel{!}{=} {\rm{Maximum} }.$$
Man kann zeigen, dass der Quotient für den folgenden Frequenzgang am größten wird:
$$H(f) = H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e}}^{-{\rm{j}}2{\rm{\pi }}fT_{\rm D} } .$$
Damit erhält man für das Signal-zu-Rauschleistungsverhältnis am Matched–Filter–Ausgang:
$$\rho _d ( {T_{\rm D} } ) = { {2 \cdot E_g } }/{ {N_0 } },$$
und zwar unabhängig von der dimensionsbehafteten Konstante $K_{\rm MF}$. Zur Erklärung:
* $E_g$ bezeichnet die Energie des Eingangsimpulses, die man nach dem [[Signaldarstellung/Äquivalentes_Tiefpass-Signal_und_zugehörige_Spektralfunktion#Leistung_und_Energie_eines_Bandpass-Signals|Satz von Parseval]] sowohl im Zeit– als auch im Frequenzbereich berechnen kann:
$$E_g = \int_{ - \infty }^{ + \infty } {g^2 (t)\hspace{0.1cm}{\rm{d}}t} = \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2}}\hspace{0.1cm} {\rm d}f} .$$

{{Beispiel}}
Ein rechteckförmiger Impuls $g(t)$ mit der Amplitude $\rm 1V$ und der Dauer 0.5ms und unbekannter Lage soll in einer verrauschten Umgebung aufgefunden werden. Somit ist die Impulsenergie $E_g = \rm 5 · 10^{–4} V^2s$. Die Rauschleistungsdichte sei $N_0 = \rm 10^{–6} V^2/Hz$.

Das beste Ergebnis ⇒ maximale S/N–Verhältnis erzielt man mit dem Matched-Filter:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {2 \cdot E_g } }{ {N_0 } } =
\frac{ {2 \cdot 5 \cdot 10^{-4}\, {\rm V^2\,s} } }{ {10^{-6}\, {\rm V^2/Hz} } } = 1000
\hspace{0.3cm}\Rightarrow\hspace{0.3cm}
10 \cdot {\rm lg}\hspace{0.15cm}\rho _d ( {T_{\rm D} } ) = 30\,{\rm dB}.$$
{{end}}

Die Matched-Filter-Optimierung wird im nächsten Abschnitt hergeleitet. Wenn Sie daran nicht interessiert sind, fahren Sie bitte mit der Seite [[Stochastische_Signaltheorie/Matched-Filter#Interpretation_des_Matched-Filters|Interpretation des Matched-Filters]] fort.

==Matched-Filter-Optimierung (2)==
Das im letzten Abschnitt angegebene Matched–Filter–Kriterium wird nun schrittweise hergeleitet. Wenn Sie daran nicht interessiert sind, so springen Sie bitte zur Fortsetzungsseite [[Stochastische_Signaltheorie/Matched-Filter#Interpretation_des_Matched-Filters|Interpretation des Matched–Filters]].

{{Box}}
'''Herleitung des Matched–Filter–Kriteriums:''' Die Schwarzsche Ungleichung lautet mit den beiden (im allgemeinen komplexen) Funktionen $A(f)$ und $B(f)$:
$$\left| {\int_a^b {A(f) \cdot B(f)\hspace{0.1cm}{\rm{d} }f} } \right|^2 \le \int_a^b {\left| {A(f)} \right|^{\rm{2} } \hspace{0.1cm}{\rm{d}}f} \cdot \int_a^b {\left| {B(f)} \right|^{\rm{2} } \hspace{0.1cm}{\rm{d} }f} .$$
Wir wenden nun diese Gleichung auf das Signal–zu–Rauschverhältnis an:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| {\int_{ - \infty }^{ + \infty } {G(f) \cdot H(f) \cdot {\rm{e}}^{ {\rm{j} }2{\rm{\pi } }fT_{\rm D} } \hspace{0.1cm}{\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot \int_{ - \infty }^{ + \infty } {\left| {H(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } }.$$
Mit $A(f) = G(f)$ und $B(f) = H(f) · {\rm exp}({\rm j2}πfT_{\rm D})$ ergibt sich somit die folgende Schranke:
$$\rho_d ( {T_{\rm D} } ) \le \frac{1}{ {N_0 /2} } \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} } }\hspace{0.1cm}{\rm{d} }f .$$
Setzt man für den Filterfrequenzgang versuchsweise
$$H(f) = H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e} }^{ {\rm{ - j} }2{\rm{\pi } }fT_{\rm D} }$$
ein, so erhält man aus der obigen Gleichung:
$$\rho _d ( {T_{\rm D} } ) = \frac{ {\left| K_{\rm MF}\cdot {\int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } \right|^2 } }{ {N_0 /2 \cdot K_{\rm MF} ^2 \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} } } = \frac{1}{ {N_0 /2} } \cdot \int_{ - \infty }^{ + \infty } {\left| {G(f)} \right|^{\rm{2} }\hspace{0.1cm} {\rm{d} }f} .$$

Das heißt: Mit diesem Ansatz für das Matched-Filter $H_{\rm MF}(f)$ wird in obiger Abschätzung tatsächlich der maximal mögliche Wert erreicht. Mit keinem anderen Filter $H(f) ≠ H_{\rm MF}(f)$ kann man ein höheres Signal–zu–Rauschleistungsverhältnis erzielen ⇒ Das Matched–Filter ist in Bezug auf das ihm zugrunde gelegte Maximierungskriterium optimal.

q.e.d.
{{end}}

==Interpretation des Matched-Filters==
Auf der letzten Seite wurde der Frequenzgang des Matched-Filters wie folgt abgeleitet:
$$H_{\rm MF} (f) = K_{\rm MF} \cdot G^{\star} (f) \cdot {\rm{e} }^{ {\rm{ - j} }2{\rm{\pi } }fT_{\rm D} } .$$
Durch [[Signaldarstellung/Fouriertransformation_und_-rücktransformation#Das_zweite_Fourierintegral|Fourierrücktransformation]] erhält man die dazugehörige Impulsantwort:
$$h_{\rm MF} (t) = K_{\rm MF} \cdot g(T_{\rm D} - t).$$

Diese beiden Funktionen lassen sich wie folgt interpretieren:
*Das Matched-Filter ist durch den Term $G^{\star}(f)$ an das Spektrum des aufzufindenden Impulses $g(t)$ angepasst – daher sein Name (englisch: ''to match'' ≡ anpassen).
*Die Konstante $K_{\rm MF}$ ist aus Dimensionsgründen notwendig. Ist $g(t)$ ein Spannungsimpuls, so hat diese Konstante die Einheit „Hz/V”. Der Frequenzgang ist somit dimensionslos.
*Die Impulsantwort $h_{\rm MF}(t)$ ergibt sich aus dem Nutzsignal $g(t)$ durch Spiegelung ⇒ aus $g(t)$ wird $g(–t)$ – sowie einer Verschiebung um $T_{\rm D}$ nach rechts.
*Der früheste Detektionszeitpunkt $T_{\rm D}$ folgt für realisierbare Systeme aus der Bedingung $h_{\rm MF}(t < 0)$ ≡ 0 ⇒ „Kausalität” (siehe Buch '[[Lineare zeitinvariante Systeme']] ).
*Für den Nutzanteil des Filterausgangssignals gilt:
$$d_{\rm S} (t) = g(t) * h_{\rm MF} (t) = K_{\rm MF} \cdot g(t) * g(T_{\rm D} - t) = K_{\rm MF} \cdot \varphi^{^{\bullet} }_{g} (t - T_{\rm D} ).$$
:Das bedeutet: Das Ausgangssignal ist formgleich mit der Energie-AKF (in diesem Tutorial durch einen Punkt gekennzeichnet) und gegenüber dieser um $T_{\rm D}$ verschoben.

''Anmerkung:'' Bei einem energiebegrenzten Signal $g(t)$ kann man nur die ''Energie–AKF'' angeben:
$$\varphi^{^{\bullet}}_g (\tau ) = \int_{ - \infty }^{ + \infty } {g(t) \cdot g(t + \tau )\,{\rm{d}}t} .$$
Gegenüber der AKF-Definition eines leistungsbegrenzten Signals $x(t)$, nämlich
$$\varphi _x (\tau ) = \mathop {\lim }_{T_{\rm M} \to \infty } \frac{1}{ {T_{\rm M} } }\int_{ - T_{\rm M} /2}^{+T_{\rm M} /2} {x(t) \cdot x(t + \tau )\hspace{0.1cm}\,{\rm{d} }t} ,$$
wird bei der Berechnung der Energie-AKF auf die Division durch die Messdauer $T_{\rm M}$ sowie auf den Grenzübergang $T_{\rm M} → ∞$ verzichtet.

{{Beispiel}}
Wir gehen davon aus, dass gemäß dem [[Stochastische_Signaltheorie/Matched-Filter#Matched-Filter-Optimierung_.281.29|letzten Beispiel]] der Rechteckimpuls zwischen 2ms und 2.5ms liegt und der Detektionszeitpunkt $T_{\rm D} =$ 4 ms gewünscht wird. Dann gilt:
*Die Matched–Filter–Impulsantwort $h_{\rm MF}(t)$ muss im Bereich von $t_1 (= 4 – 2.5) =$ 1.5ms bis $t_2 (= 4 – 2) =$ 2ms konstant sein. Für $t < t_1$ sowie für $t > t_2$ darf sie keine Anteile besitzen.
*Der Betragsfrequenzgang $|H_{\rm MF}(f)|$ ist hier si–förmig. Die Höhe der Impulsantwort $h_{\rm MF}(t)$ spielt für das S/N–Verhältnis keine Rolle, da dieses unabhängig von $K_{\rm MF}$ ist.

{{end}}

==Matched-Filter bei farbigen Störungen (1)==
Bei den Herleitungen dieses Abschnittes wurde bisher stets von Weißem Rauschen ausgegangen. Nun soll die Frage geklärt werden, wie das Empfangsfilter $H(f) = H_{\rm MF}(f)$ bei farbiger Störung $n(t)$ zu gestalten ist, damit das Signal–zu–Rauschleistungsverhältnis maximal wird.

''Hinweis:'' Der Begriff „Störung” ist etwas allgemeiner als „Rauschen”. Vielmehr ist Rauschen eine Teilmenge aller Störungen, zu denen z. B. auch das Nebensprechen von benachbarten Leitungen zählt. Wir sprechen nur dann von (weißem) Rauschen $n(t)$, wenn das Leistungsdichtespektrum ${\it Φ}_n(f)$ für alle Frequenzen gleich ist. Ist dies nicht erfüllt, so bezeichnen wir $n(t)$ als farbige Störung.

[[File:P_ID644__Sto_T_5_4_S4ab_neu.png | Zum Matched-Filter bei farbiger Störung]]

Zu dem hier betrachteten Modell ist zu bemerken:
*Die obere Grafik zeigt das Blockschaltbild zur Herleitung des Matched–Filters $H_{\rm MF}(f)$ bei farbiger Störung $n(t)$, gekennzeichnet durch das Leistungsdichtespektrum ${\it Φ}_n(f) ≠$ const. Alle bisher für diesen Abschnitt genannten Voraussetzungen gelten weiterhin.
*Das farbige Störsignal $n(t)$ mit dem Leistungsdichtespektrum ${\it Φ}_n(f)$ kann man – zumindest gedanklich – durch eine „weiße” Rauschquelle $n_{\rm WR}(t)$ mit der konstanten (zweiseitigen) Rauschleistungsdichte $N_0/2$ und ein Formfilter mit dem Frequenzgang $H_{\rm N}(f)$ modellieren:
$${\it{\Phi} }_n \left( f \right) = { {N_{\rm 0} } }/{\rm 2} \cdot \left| {H_{\rm N} \left( f \right)} \right|^{\rm 2} .$$
*Diese Modifikation ist in der unteren Grafik berücksichtigt. Da Realisierungsaspekte hier nicht betrachtet werden, wird $H_{\rm N}(f)$ vereinfacht als reell angenommen. Der Phasengang von $H_{\rm N}(f)$ spielt für das Folgende keine Rolle.
*In der unteren Darstellung ist das Formfilter $H_{\rm N}(f)$ auf die rechte Seite der Störaddition verschoben. Um ein auch bezüglich des Nutzsignals $d_{\rm S}(t)$ äquivalentes Modell zu erhalten, wird das Formfilter im Nutzsignalzweig durch das inverse Filter $H_{\rm N}(f)^{–1}$ kompensiert.

==Matched-Filter bei farbigen Störungen (2)==
Anhand dieses modifizierten Modells wird nun das verallgemeinerte Matched-Filter für den Fall farbiger Störungen hergeleitet. Besitzt $H_{\rm N}(f)$ keine Nullstelle, was für das Folgende vorausgesetzt werden soll, so ist diese Anordnungen mit dem Blockschaltbild (obere Grafik im letzten Abschnitt) identisch.

[[File:P_ID645__Sto_T_5_4_S4b_neu.png | Äquivalentes Matched-Filter bei farbigen Störungen]]

An der Störadditionsstelle liegt nun weißes Rauschen $n_{\rm WR}(t)$ an. Die Herleitung der [[Stochastische_Signaltheorie/Matched-Filter#Matched-Filter-Optimierung_.281.29|Matched–Filter–Optimierung]] bei weißem Rauschen lässt sich 1 zu 1 auf das aktuelle Problem anpassen, wenn man Folgendes berücksichtigt:
*Anstelle des tatsächlichen Sendesignals $g(t)$ ist das Signal $g_{\rm WR}(t)$ vor der Störaddition zu berücksichtigen. Die dazugehörige Spektralfunktion lautet: $G_{\rm WR}(f) = G(f)/H_{\rm N}(f)$.
*Anstelle von $H_{\rm MF}(f)$ ist nun der resultierende Frequenzgang ${H_{\rm MF} }' (f) = H_{\rm N}(f) · H_{\rm MF}$ rechts von der Störadditionsstelle einzusetzen.

{{Box}}
Damit ergibt sich für das Matched-Filter bei farbigen Störungen:
$${H_{\rm MF} }' (f) = H_{\rm N} (f) \cdot H_{\rm MF} (f) = K_{\rm MF} \cdot G_{\rm WR} ^ {\star} (f) \cdot {\rm{e} }^{ - {\rm{j} }2{\rm{\pi } }fT_{\rm D} } $$
$$\Rightarrow \hspace{0.3cm}H_{\rm MF} (f) = K_{\rm MF} \cdot \frac{ {G^{\star} (f)} }{ {\left| {H_{\rm N} (f)} \right|^2 } } \cdot {\rm{e} }^{ - {\rm{j} }2{\rm{\pi } }fT_{\rm D} } .$$
Das Signal-zu-Störleistungsverhältnis vor dem Entscheider ist somit maximal:
$$\rho _{d,\max } ( {T_{\rm D} } ) = \frac{1}{ {N_0 /2} }\int_{ - \infty }^{ + \infty } {\left| {G_{\rm WR} (f)} \right|^2 }\, {\rm{d} }f = \int\limits_{ - \infty }^{ + \infty } \frac{\left| G(f) \right|^2 }{ {\it{\Phi _n {\rm (f)} } } } \,{\rm{d} }f.$$
{{end}}

Der Fall „Weißes Rauschen” ist in dieser allgemeineren Gleichung für ${\it Φ}_n(f) = N_0/2$ mitenthalten.

''Hinweis:'' Alle in diesem Abschnitt angegebenen Gleichungen führen bei farbiger Störung allerdings nur dann zu sinnvollen, auch in der Praxis verwertbaren Ergebnissen, wenn das Energiespektrum $|G(f)|^2$ des Nutzsignals asymptotisch schneller abklingt als das Störleistungsdichtespektrum ${\it Φ}_n(f)$.

{{Display}}

Theory of Stochastic Signals/Digital Filters

2017-01-26T20:45:11Z

LukasWolf:

{{Header
|Untermenü=Filterung stochastischer Signale
|Vorherige Seite=Stochastische Systemtheorie
|Nächste Seite=Erzeugung vorgegebener AKF-Eigenschaften
}}
==Allgemeines Blockschaltbild==
Jedes Signal $x(t)$ kann an einem Rechner nur durch die Folge $〈x_ν〉$ seiner Abtastwerte dargestellt werden, wobei $x_ν$ für $x(ν · T_{\rm A})$ steht. Der zeitliche Abstand $T_{\rm A}$ zwischen zwei Abtastwerten ist dabei durch das [[Signaldarstellung/Zeitdiskrete_Signaldarstellung#Das_Abtasttheorem|Abtasttheorem]] nach oben begrenzt.

Um den Einfluss eines linearen Filters mit dem Frequenzgang $H(f)$ auf das zeitdiskrete Signal $〈x_ν〉$ zu erfassen, bietet es sich an, auch das Filter zeitdiskret zu beschreiben. Nachfolgend sehen Sie das entsprechende Blockschaltbild.

[[File:P_ID552__Sto_T_5_2_S1_neu.png | Blockschaltbild eines digitalen Filters]]

Für die Abtastwerte des Ausgangssignals gilt somit:
$$y_\nu = \sum\limits_{\mu = 0}^M {a_\mu } \cdot x_{\nu - \mu } + \sum\limits_{\mu = 1}^M {b_\mu } \cdot y_{\nu - \mu } .$$

Hierzu ist folgendes zu bemerken:
*Die erste Summe beschreibt die Abhängigkeit des aktuellen Wertes $y_ν$ am Filterausgang vom aktuellen Eingangswert $x_ν$ und von den $M$ vorherigen Eingangswerten $x_{ν–1}, ... , x_{ν–M}.$
*Die zweite Summe kennzeichnet die Beeinflussung von $y_ν$ durch die vorherigen Werte $y_{ν–1}, ... , y_{ν–M}$ am Filterausgang. Sie gibt somit den rekursiven Teil des Filters an.
*Man bezeichnet den ganzzahligen Parameter $M$ als die Ordnung des digitalen Filters.

==Nichtrekursive Filter==
Sind alle Rückführungskoeffizienten $b_{\mu} =$ 0, so spricht von einem nichtrekursiven Filter.

[[File:P_ID553__Sto_T_5_2_S2_neu.png | Nichtrekursives digitales Filter]]

Ein solches nichtrekursives Filter $M$-ter Ordnung besitzt folgende Eigenschaften:
*Der Ausgangswert $y_ν$ hängt nur vom aktuellen und den $M$ vorherigen Eingangswerten ab:
$$y_\nu = \sum\limits_{\mu = 0}^M {a_\mu \cdot x_{\mu - \nu } } .$$
*Die Filterimpulsantwort erhält man daraus mit $x(t) = δ(t)$. In diskreter Schreibweise lautet das entsprechende Eingangssignal: $x_ν ≡$ 0 mit Ausnahme von $x_0 =$ 1:
$$h(t) = \sum\limits_{\mu = 0}^M {a_\mu \cdot \delta ( {t - \mu \cdot T_{\rm A} } )} .$$
*Durch Anwendung des Verschiebungssatzes folgt daraus für den Filterfrequenzgang:
$$H(f) = \sum\limits_{\mu = 0}^M {a_\mu \cdot {\rm{e}}^{ - {\rm{j}}2{\rm{\pi }}f\mu T_{\rm A} } } .$$

{{Beispiel}}
Ein Zweiwegekanal, bei dem
*das Signal auf dem Hauptpfad gegenüber dem Eingangssignal ungedämpft, aber um 2 μs verzögert ankommt, und
*in 4 μs Abstand – also absolut zur Zeit $t =$ 6 μs – ein Echo mit halber Amplitude nachfolgt,

kann durch ein nichtrekursives Filter entsprechend obiger Skizze nachgebildet werden, wobei folgende Parameterwerte einzustellen sind:
$$M = 3,\quad T_{\rm A} = 2\;{\rm{\mu s}},\quad a_{\rm 0} = 0,\quad a_{\rm 1} = 1, \quad a_{\rm 2} = 0, \quad a_{\rm 3} = 0.5.$$
{{end}}

==Rekursive Filter==
Sind alle Vorwärtskoeffizienten mit Ausnahme von $a_0$ identisch 0, so liegt ein (rein) rekursives Filter vor. Im Folgenden beschränken wir uns auf den Sonderfall $M =$ 1. Dann gilt folgendes Blockschaltbild:

[[File:P_ID554__Sto_T_5_2_S3_neu.png | Rekursives digitales Filter erster Ordnung]]

Dieses Modell weist folgende Eigenschaften auf:
*Der Ausgangswert $y_ν$ hängt (indirekt) von unendlich vielen Eingangswerten ab, wie die folgende Rechung zeigt:
$$y_\nu = a_0 \cdot x_\nu + b_1 \cdot y_{\nu - 1} = a_0 \cdot x_\nu + a_0 \cdot b_1 \cdot x_{\nu - 1} + {b_1} ^2 \cdot y_{\nu - 2} = \sum\limits_{\mu = 0}^\infty {a_0 \cdot {b_1} ^\mu \cdot x_{\nu - \mu } .}$$
*Die zeitdiskrete Impulsantwort eines rekursiven Filters reicht bis ins Unendliche. Darunter versteht man die Ausgangsfolge, wenn bei $t =$ 0 am Eingang eine einzelne „Eins” anliegt.
*Für $M =$ 1 lautet die zeitdiskrete Impulsantwort des rekursiven Filters:
$$h(t) = \sum\limits_{\mu = 0}^\infty {a_0 \cdot {b_1} ^\mu \cdot \delta ( {t - \mu \cdot T_{\rm A} } ).}$$
*Aus Stabilitätsgründen muss $b_1$ < 1 gelten. Bei $b_1 =$ 1 würde sich die Impulsantwort $h(t)$ bis ins Unendliche erstrecken und bei $b_1$ > 1 würde $h(t)$ sogar bis ins Unendliche anklingen.
*Bei einem solchen rekursiven Filter erster Ordnung ist jede einzelne Diraclinie genau um den Faktor $b_1$ kleiner als die vorherige Diraclinie:
$$h_{\mu} = h(\mu \cdot T_{\rm A}) = {b_1} \cdot h_{\mu -1}.$$

[[File:P_ID2917__Sto_T_5_2_S3b.png | Zeitdiskrete Impulsantwort eines rekursiven Filters | rechts]]
Die nebenstehende Grafik zeigt die zeitdiskrete Impulsantwort $〈h_\mu〉$ eines rekursiven Filters erster Ordnung mit den Parametern $a_0 =$ 1 und $b_1 =$ 0.6. Der Verlauf ist exponentiell abfallend und erstreckt sich bis ins Unendliche. Das Verhältnis der Gewichte zweier aufeinander folgender Diracs ist jeweils $b_1 =$ 0.6.

{{Display}}

Theory of Stochastic Signals/Stochastic System Theory

2017-01-26T20:41:52Z

LukasWolf:

{{Header
|Untermenü=Filterung stochastischer Signale
|Vorherige Seite= Verallgemeinerung auf N-dimensionale Zufallsgrößen
|Nächste Seite=Digitale Filter
}}
==Problemstellung==
Wir betrachten wie im Buch [[Lineare zeitinvariante Systeme]] die unten skizzierte Anordnung, wobei das System sowohl durch die Impulsantwort $h(t)$ als auch durch seinen Frequenzgang $H(f)$ eindeutig beschrieben ist. Der Zusammenhang zwischen diesen beiden Beschreibungsgrößen im Zeit- und Frequenzbereich ist durch die [[Signaldarstellung/Fouriertransformation_und_-rücktransformation#Eigenschaften_aperiodischer_Signale|Fouriertransformation]] gegeben.

[[File:P_ID466__Sto_T_5_1_S1_neu.png | Filtereinfluss auf Spektrum und LDS]]

Legt man an den Eingang das Signal $x(t)$ an und bezeichnet das Ausgangssignal mit $y(t)$, so liefert die klassische Systemtheorie folgende Aussagen:
*Das Ausgangssignal $y(t)$ ergibt sich aus der Faltung zwischen dem Eingangssignal $x(t)$ und der Impulsantwort $h(t)$:
$$y(t) = x(t) \ast h(t) = \int_{-\infty}^{+\infty} x(\tau)\cdot h ( t - \tau) \,\,{\rm d}\tau.$$
:Diese Gleichung gilt für deterministische und stochastische Signale gleichermaßen.
*Bei deterministischen Signalen geht man meist den Umweg über die Spektralfunktionen. Das Eingangsspektrum $X(f)$ ist die Fouriertransformierte von $x(t)$. Die Multiplikation mit dem Frequenzgang $H(f)$ führt zum Spektrum $Y(f)$. Das Signal $y(t)$ lässt sich daraus durch die Fourierrücktransformation gewinnen.
*Bei stochastischen Signalen versagt diese Vorgehensweise, da dann die Zeitfunktionen $x(t)$ und $y(t)$ nicht für alle Zeiten von $–∞$ bis $+∞$ vorhersagbar sind und somit die dazugehörigen Amplitudenspektren $X(f)$ und $Y(f)$ gar nicht existieren. In diesem Fall muss auf die in Kapitel 4.5 definierten [[Stochastische_Signaltheorie/Leistungsdichtespektrum_(LDS)|Leistungsdichtespektren]] übergegangen werden.

==Amplituden- und Leistungsdichtespektrum (1)==
Wir betrachten nun einen ergodischen Zufallsprozess { $x(t)$}, dessen Autokorrelationsfunktion $φ_x(τ)$ als bekannt vorausgesetzt wird. Das Leistungsdichtespektrum ${\it Φ}_x(f)$ ist dann über die Fouriertransformation ebenfalls eindeutig bestimmt und es sind folgende Aussagen zutreffend:
*Das Leistungsdichtespektrum ${\it Φ}_x(f)$ kann – ebenso wie die Autokorrelationsfunktion $φ_x(τ)$ – für jede einzelne Musterfunktion des stationären und ergodischen Zufallsprozesses { $x(t)$} angegeben werden, auch wenn der spezifische Verlauf von $x(t)$ explizit nicht bekannt ist.
*Das Amplitudenspektrum $X(f)$ ist dagegen undefiniert, da bei Kenntnis der Spektralfunktion $X(f)$ auch die gesamte Zeitfunktion $x(t)$ von $–∞$ bis $+∞$ über die Fourierrücktransformation bekannt sein müsste, was eindeutig nicht der Fall sein kann.
*Ist entsprechend der nachfolgenden Skizze ein Zeitausschnitt der endlichen Zeitdauer $T_{\rm M}$ bekannt, so kann für diesen natürlich wieder die Fouriertransformation angewandt werden.
:[[File:P_ID467__Sto_T_5_1_S2_neu.png | Zur AKF- und LDS-Berechnung eines Zufallssignals]]
*Zwischen dem Leistungsdichtespektrum ${\it Φ}_x(f)$ des unendlich ausgedehnten Zufallssignals $x(t)$ und dem Amplitudenspektrum $X_{\rm T}(f)$ des begrenzten Zeitausschnittes $x_{\rm T}(t)$ besteht dabei der folgende Zusammenhang:
$${{\it \Phi}_x(f)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot |X_{\rm T}(f)|^2.$$

Die Herleitung dieser wichtigen Beziehung folgt im nächsten Abschnitt. Sollten Sie sich für diesen mathematischen Beweis nicht interessieren, so können Sie gerne zum nachfolgenden Abschnitt [[Stochastische_Signaltheorie/Stochastische_Systemtheorie#Leistungsdichtespektrum_des_Filterausgangssignals|Leistungsdichtespektrum des Filterausgangssignals]] springen.

==Amplituden- und Leistungsdichtespektrum (2)==
Es folgt der Beweis der auf der letzten Seite angegebenen Beziehung
$${{\it \Phi}_x(f)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot |X_{\rm T}(f)|^2.$$

{{Box}}
'''Beweis:'''
In Kapitel 4.4 wurde die Autokorrelationsfunktion (AKF) eines ergodischen Prozesses mit der Musterfunktion $x(t)$ angegeben:
$${{\it \varphi}_x(\tau)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot\int^{+T_{\rm M}/2}_{-T_{\rm
M}/2}x(t)\cdot x(t + \tau)\hspace{0.1cm} \rm d \it t.$$
Es ist hier zulässig, die zeitlich unbegrenzte Funktion $x(t)$ durch die auf den Zeitbereich $–T_{\rm M}/2$ bis $+T_{\rm M}/2$ begrenzte Funktion $x_{\rm T}(t)$ zu ersetzen. $x_{\rm T}(t)$ korrespondiert mit der Spektralfunktion $X_{\rm T}(f)$, und man erhält durch Anwendung des Fourierintegrals und des Verschiebungssatzes:
$${{\it \varphi}_x(\tau)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot \int^{+T_{\rm M}/2}_{-T_{\rm
M}/2}x_{\rm T}(t)\cdot \int^{+\infty}_{-\infty}X_{\rm
T}(f)\cdot {\rm e}^{{\rm j}2 \pi f ( t + \tau) } \hspace{0.1cm}
\rm d \it f \hspace{0.1cm} \rm d \it t.$$
Nach Aufspalten des Exponenten und Vertauschen von Zeit- und Frequenzintegral ergibt sich:
$${{\it \varphi}_x(\tau)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot \int^{+\infty}_{-\infty}X_{\rm
T}(f)\cdot \left[ \int^{+T_{\rm M}/2}_{-T_{\rm M}/2}x_{\rm
T}(t)\cdot {\rm e}^{{\rm j}2 \pi f t } \hspace{0.1cm} \rm d \it
t \right] \cdot {\rm e}^{{\rm j}2 \pi f \tau} \hspace{0.1cm} \rm d \it f.$$
Das innere Integral beschreibt das konjugiert–komplexe Spektrum $X_{\rm T}^{\star}(f)$. Daraus folgt weiter:
$${{\it \varphi}_x(\tau)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot \int^{+\infty}_{-\infty}|X_{\rm
T}(f)|^2 \cdot {\rm e}^{{\rm j}2 \pi f \tau} \hspace{0.1cm} \rm d
\it f.$$
Ein Vergleich mit dem bei Ergodizität stets gültigen Theorem von [https://de.wikipedia.org/wiki/Norbert_Wiener Wiener] und [https://de.wikipedia.org/wiki/Alexander_Jakowlewitsch_Chintschin|Chintchine],
$${{\it \varphi}_x(\tau)} = \int^{+\infty}_{-\infty}{\it \Phi}_x(f)
\cdot {\rm e}^{{\rm j}2 \pi f \tau} \hspace{0.1cm} \rm d \it f ,$$
zeigt die Gültigkeit der Beziehung:
$${{\it \Phi}_x(f)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}}\cdot |X_{\rm T}(f)|^2.$$

q.e.d.
{{end}}

==Leistungsdichtespektrum des Filterausgangssignals==
Kombiniert man die in den beiden letzten Abschnitten gemachten Aussagen, so kommt man zu folgendem wichtigen Ergebnis:
$${{\it \Phi}_y(f)} = {{\it \Phi}_x(f)} \cdot |H(f)|^2.$$

{{Box}}
'''Beweis:''' Ausgegangen wird von den drei bereits vorher hergeleiteten Beziehungen:
$${{\it \Phi}_x(f)} =\hspace{-0.1cm} \lim_{T_{\rm M}\to\infty}\hspace{0.01cm}
\frac{1}{ T_{\rm M}}\hspace{-0.05cm}\cdot\hspace{-0.05cm} |X_{\rm T}(f)|^2, \hspace{0.15cm}
{{\it \Phi}_y(f)} =\hspace{-0.1cm} \lim_{T_{\rm M}\to\infty}\hspace{0.01cm}
\frac{1}{ T_{\rm M}}\hspace{-0.05cm}\cdot\hspace{-0.05cm} |Y_{\rm T}(f)|^2, \hspace{0.15cm}
Y_{\rm T}(f) = X_{\rm T}(f) \hspace{-0.05cm}\cdot\hspace{-0.05cm} H(f).$$
Setzt man diese Gleichungen ineinander ein, so erhält man die obige Gleichung.
{{end}}

In Worten: Das Leistungsdichtespektrum (LDS) am Ausgang eines linearen zeitinvarianten Systems mit dem Frequenzgang $H(f)$ ergibt sich als das Produkt
*von dem Eingangs–LDS ${\it Φ}_x(f)$
*und der Leistungsübertragungsfunktion $|H(f)|^2$.

{{Beispiel}}
Am Eingang eines Gauß-Tiefpasses mit dem Frequenzgang
$$H(f) = {\rm e}^{- \pi \hspace{0.03cm}\cdot \hspace{0.03cm}(f/\Delta f)^2}$$
liegt weißes Rauschen $x(t)$ mit der (zweiseitigen) Rauschleistungsdichte $N_0/2$ an. Dann gilt für das LDS des Ausgangssignals:
$${{\it \Phi}_y(f)} = \frac {N_0}{2} \cdot {\rm e}^{- 2 \pi \hspace{0.03cm}\cdot \hspace{0.03cm}(f/\Delta
f)^2}.$$
Die Grafik zeigt die Signale und Leistungsdichtespektren am Ein- und Ausgang des Filters.

[[File:P_ID468__Sto_T_5_1_S3_neu.png | Filtereinfluss im Frequenzbereich]]

Das Eingangssignal $x(t)$ kann – streng genommen – gar nicht gezeichnet werden, da es eine unendlich große Leistung besitzt; siehe hierzu das Lernvideo AWGN-Kanal – Teil 2. Das Ausgangssignal $y(t)$ ist niederfrequenter als $x(t)$ und besitzt eine endliche Leistung entsprechend dem Integral über ${\it Φ}_y(f)$.
{{end}}

==Autokorrelationsfunktion des Filterausgangssignals==
Das berechnete Leistungsdichtespektrum (LDS) kann auch wie folgt geschrieben werden:
$${{\it \Phi}_y(f)} = {{\it \Phi}_x(f)} \cdot H(f) \cdot H^{\star}(f)$$
Für die zugehörige Autokorrelationsfunktion (AKF) erhält man dann entsprechend den Gesetzen der Fouriertransformation und durch Anwendung des [[Signaldarstellung/Faltungssatz_und_Faltungsoperation#Faltung_im_Zeitbereich|Faltungssatzes]]:
$${{\it \varphi}_y(\tau)} = {{\it \varphi}_x(\tau)} \ast h(\tau)\ast h(-
\tau).$$
Beim Übergang vom Spektral– in den Zeitbereich sind jeweils die Fourierrücktransformierten, nämlich
$${{\it \varphi}_y(\tau)} \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet\,{{\it \Phi}_y(f)}, \hspace{0.2cm}{{\it \varphi}_x(\tau)} \circ\!\!\!-\!\!\!-\!\!\!-\!\!\!\bullet\,{{\it \Phi}_x(f)}, \hspace{0.2cm}{h(\tau)} \circ\!\!\!-\!\!\!-\!\!\!-\!\!\bullet\,{H(f)}, \hspace{0.2cm}{h(-\tau)} \circ\!\!\!-\!\!\!-\!\!\!-\!\!\!\bullet\,{H^{\star}(f)}$$
einzusetzen. Zudem wird aus jeder Multiplikation eine Faltungsoperation.

{{Beispiel}}
Wir betrachten nochmals das Beispiel des letzten Abschnitts, aber diesmal im Zeitbereich.

[[File:P_ID591__Sto_T_5_1_S4_neu.png | Filtereinfluss im Zeitbereich]]

Man erkennt aus dieser Darstellung:
*Die AKF des Eingangssignals ist nun eine Diracfunktion mit dem Gewicht $N_0/2$.
*Durch zweimalige Faltung mit der (hier ebenfalls gaußförmigen) Impulsantwort $h(t)$ bzw. $h(–t)$ erhält man die AKF $φ_y(τ)$ des Ausgangssignals. Diese ist wiederum gaußförmig.
*Der AKF–Wert bei $τ =$ 0 ist identisch mit der Fläche des Leistungsdichtespektrums ${\it Φ}_y(f)$ und kennzeichnet die Signalleistung (Varianz) $σ_y^2$.
*Dagegen ergibt die Fläche unter $φ_y(τ)$ den LDS-Wert ${\it Φ}_y(f = \rm 0)$, also $N_0/2$.

{{end}}

==Kreuzkorrelationsfunktion zwischen Eingangs- und Ausgangssignal==
[[File:P_ID469__Sto_T_5_1_S5_Ganz_neu.png | Zur KKF-Berechnung | rechts]]
Wir betrachten wieder ein Filter mit der Impulsantwort $h(t)$ sowie die stochastischen Signale $x(t)$ und $y(t)$ an seinem Eingang bzw. seinem Ausgang.

Dann gilt für die Kreuzkorrelationsfunktion (KKF) zwischen dem Eingangs– und dem Ausgangssignal:
$${{\it \varphi}_{xy}(\tau)} = h(\tau)\ast {{\it \varphi}_x(\tau)} .$$
Hierbei bezeichnet $h(τ)$ die Impulsantwort des Filters (mit der Zeitvariablen $τ$ anstelle von $t$) und $φ_x(τ)$ die AKF am Filtereingang.

{{Box}}
'''Beweis:''' Allgemein gilt für die Kreuzkorrelationsfunktion zwischen zwei Signalen $x(t)$ und $y(t)$:
$${{\it \varphi}_{xy}(\tau)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}\frac{1}{ T_{\rm M}}\cdot\int^{+T_{\rm M}/2}_{-T_{\rm M}/2}x(t)\cdot y(t + \tau)\hspace{0.1cm} \rm d \it t.$$
Mit der allgemeingültigen Beziehung $y(t) = h(t) \ast x(t)$ und der formalen Integrationsvariablen $θ$ lässt sich hierfür auch schreiben:
$${{\it \varphi}_{xy}(\tau)} = \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}\frac{1}{ T_{\rm M}}\cdot\int^{+T_{\rm M}/2}_{-T_{\rm M}/2}x(t)\cdot \int^{+\infty}_{-\infty} h(\theta) \cdot x(t + \tau - \theta)\hspace{0.1cm}{\rm d}\theta\hspace{0.1cm}{\rm d} \it t.$$
Durch Vertauschen der beiden Integrale und Hereinziehen der Grenzwertbildung erhält man:
$${{\it \varphi}_{xy}(\tau)} = \int^{+\infty}_{-\infty}
h(\theta) \cdot \left[ \lim_{T_{\rm M}\to\infty}\hspace{0.2cm}
\frac{1}{ T_{\rm M}} \cdot\int^{+T_{\rm M}/2}_{-T_{\rm
M}/2}x(t)\cdot x(t + \tau - \theta)\hspace{0.1cm}
\hspace{0.1cm} {\rm d} t \right]{\rm d}\theta.$$
Der Ausdruck in den eckigen Klammern ergibt den AKF-Wert am Eingang zum Zeitpunkt $τ – θ$:
$${{\it \varphi}_{xy}(\tau)} = \int^{+\infty}_{-\infty}h(\theta) \cdot \varphi_x(\tau - \theta)\hspace{0.1cm}\hspace{0.1cm} {\rm d}\theta = h(\tau)\ast {{\it \varphi}_x(\tau)} .$$
Das verbleibende Integral beschreibt aber die Faltungsoperation in ausführlicher Schreibweise.
{{end}}

Im Frequenzbereich lautet die entsprechende Gleichung:
$${{\it \Phi}_{xy}(f)} = H(f)\cdot{{\it \Phi}_x(f)} .$$

Die beiden Gleichungen zeigen, dass der Filterfrequenzgang $H(f)$ aus einer Messung mit stochastischer Anregung vollständig – also sowohl der Betrag als auch die Phase – berechnet werden kann, wenn folgende Beschreibungsgrößen ermittelt werden:
*die statistischen Kenngrößen am Eingang, entweder die AKF $φ_x(τ)$ oder das LDS ${\it Φ}_x(f)$,
*sowie die Kreuzkorrelationsfunktion $φ_{xy}(τ)$ bzw. deren Fouriertransformierte ${\it Φ}_{xy}(f)$.

{{Display}}

Theory of Stochastic Signals/Generalization to N-Dimensional Random Variables

2017-01-26T20:22:40Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Kreuzkorrelationsfunktion und Kreuzleistungsdichte
|Nächste Seite=Stochastische Systemtheorie
}}
==Korrelationsmatrix==
Bisher wurden nur statistische Bindungen zwischen zwei (skalaren) Zufallsgrößen betrachtet. Für den allgemeineren Fall – einer Zufallsgröße mit $N$ Dimensionen – bietet sich zweckmäßigerweise eine Vektor- bzw. Matrixdarstellung an. Für die folgende Beschreibung wird vorausgesetzt:
*Die $N$–dimensionale Zufallsgröße wird als Vektor dargestellt:
$${\mathbf{x}} = [\hspace{0.03cm}x_1, \hspace{0.03cm}x_2,
\hspace{0.1cm}... \hspace{0.1cm}, \hspace{0.03cm}x_N]^{\rm T}.$$
:Hierbei ist $\mathbf{x}$ ein Spaltenvektor, was aus dem Zusatz „T” – dies steht für „transponiert” – des angegebenen Zeilenvektors hervorgeht.
*Die $N$ Komponenten $x_i$ seien jeweils eindimensionale reelle Gaußsche Zufallsgrößen.

Statistische Bindungen zwischen den $N$ Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:
$${\mathbf{R}} =\left[ R_{ij} \right] = \left[ \begin{array}{cccc}R_{11} & R_{12} & \cdots & R_{1N} \\ R_{21} & R_{22}& \cdots & R_{2N} \\ \cdots & \cdots & \cdots &\cdots \\ R_{N1} & R_{N2} & \cdots & R_{NN} \end{array} \right] .$$
Die $N^2$ Elemente dieser $N×N$-Matrix geben jeweils das gemeinsame Moment erster Ordnung zwischen zwei Komponenten an:
$$R_{ij}= {{\rm E}[x_i \cdot x_j ]} = R_{ji} .$$
In Vektorschreibweise lautet somit die Korrelationsmatrix:
$$\mathbf{R}= {\rm E[\mathbf{x} \cdot {\mathbf{x}}^{\rm T} ]} .$$
Da $\mathbf{x}$ ein Spaltenvektor mit $N$ Dimensionen ist und somit der transponierte Vektor $\mathbf{x}^{\rm T}$ ein Zeilenvektor gleicher Länge, ergibt das Produkt $\mathbf{x} · \mathbf{x}^{\rm T}$ eine $N×N$-Matrix. Dagegen wäre $\mathbf{x}^{\rm T}· \mathbf{x}$ eine 1×1-Matrix, also ein Skalar. Für den hier nicht weiter betrachteten Sonderfall komplexer Komponenten $x_i$ sind auch die Matrixelemente komplex:
$$R_{ij}= {{\rm E}[x_i \cdot x_j^{\star} ]} = R_{ji}^{\star} .$$
Die Realteile der Korrelationsmatrix sind weiterhin symmetrisch zur Hauptdiagonalen, während sich die dazugehörigen Imaginärteile durch das Vorzeichen unterscheiden.

==Kovarianzmatrix==
Man kommt von der Korrelationsmatrix $\mathbf{R}$ zur so genannten Kovarianzmatrix
$${\mathbf{K}} =\left[ K_{ij} \right] = \left[ \begin{array}{cccc} K_{11} & K_{12} & \cdots & K_{1N} \\ K_{21} & K_{22}& \cdots & K_{2N} \\ \cdots & \cdots & \cdots & \cdots \\ K_{N1} & K_{N2} & \cdots & K_{NN} \end{array} \right] ,$$
wenn die Matrixelemente $K_{ij} = {\rm E}[(x_i – m_i) · (x_j – m_j)]$ jeweils ein Zentralmoment erster Ordnung angeben. Mit dem Vektor $\mathbf{m} = [m_1, m_2, ... , m_N]^{\rm T}$ kann somit auch geschrieben werden:
$$\mathbf{K}= {{\rm E}[(\mathbf{x} - \mathbf{m}) (\mathbf{x} - \mathbf{m})^{\rm T} ]} .$$

Es soll ausdrücklich darauf hingewiesen werden, dass $m_1$ den Mittelwert der Komponente $x_1$ und $m_2$ den Mittelwert von $x_2$ bezeichnet – nicht etwa das Moment erster bzw. zweiter Ordnung.

Die Matrix $\mathbf{K}$ zeigt bei reellen mittelwertfreien Gauß–Größen folgende weitere Eigenschaften:
*Das Element der $i$-ten Zeile und $j$-ten Spalte lautet mit den beiden Streuungen $σ_i$ und $σ_j$ und dem [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen#Korrelationskoeffizient|Korrelationskoeffizienten]] $ρ_{ij}$. Formelmäßig gilt $K_{ij} = σ_i · σ_j · ρ_{ij} = K_{ji}.$
*Berücksichtigt man noch die Beziehung $ρ_{ii} =$ 1, so erhält man für die Kovarianzmatrix:
$${\mathbf{K}} =\left[ K_{ij} \right] = \left[ \begin{array}{cccc}
\sigma_{1}^2 & \sigma_{1}\sigma_{2}\rho_{12} & \cdots & \sigma_{1}\sigma_{N}\rho_{1N} \\
\sigma_{2}\sigma_{1}\rho_{21} & \sigma_{2}^2& \cdots & \sigma_{2}\sigma_{N}\rho_{2N} \\ \cdots & \cdots & \cdots & \cdots \\ \sigma_{N}\sigma_{1}\rho_{N1} & \sigma_{N}\sigma_{2}\rho_{N2} &
\cdots & \sigma_{N}^2 \end{array} \right] .$$
*Aufgrund der Beziehung $ρ_{ij} = ρ_{ji}$ ist die Kovarianzmatrix bei reellen Größen symmetrisch zur Hauptdiagonalen. Bei komplexen Größen würde dagegen $ρ_{ij} = ρ_{ji}^{\star}$ gelten.

{{Beispiel}}
Wir betrachten drei Kovarianzmatrizen:
$${\mathbf{K}_2} = \left[ \begin{array}{cc}
1 & -0.5 \\
-0.5 & 1
\end{array} \right],
\hspace{0.2cm}{\mathbf{K}_3} = 4 \cdot \left[ \begin{array}{ccc}
1 & 1/2 & 1/4\\
1/2 & 1 & 3/4 \\
1/4 & 3/4 & 1
\end{array}\right], \hspace{0.2cm}{\mathbf{K}_4} =
\left[
\begin{array}{cccc}
1 & 0 & 0 & 0 \\
0 & 4 & 0 & 0 \\
0 & 0 & 9 & 0 \\
0 & 0 & 0 & 16
\end{array} \right].$$

* $\mathbf{K}_2$ beschreibt eine 2D–Zufallsgröße, wobei der Korrelationskoeffizient $ρ$ zwischen den zwei Komponenten –0.5 beträgt und beide Komponenten die Streuung $σ =$ 1 aufweisen.
*Bei der 3D-Zufallsgröße gemäß $\mathbf{K}_3$ haben alle Komponenten die gleiche Streuung $σ =$ 2. Die stärksten Bindungen bestehen zwischen $x_2$ und $x_3$; wobei $ρ_{23} =$ 3/4 gilt.
*Die vier Komponenten der durch $\mathbf{K}_4$ gekennzeichneten Zufallsgröße sind unkorreliert, bei Gaußscher WDF auch statistisch unabhängig. Die Streuungen sind $σ_i = i$ für $i =$ 1, ... , 4.

{{end}}

==Zusammenhang zwischen Kovarianzmatrix und WDF==
Die ''Wahrscheinlichkeitsdichtefunktion'' einer $N$-dimensionalen Gaußschen Zufallsgröße $\mathbf{x}$ lautet:
$$\mathbf{f_x}(\mathbf{x})= \frac{1}{\sqrt{(2 \pi)^N \cdot
|\mathbf{K}|}}\cdot {\rm exp}{\left[-\frac{1}{2}\cdot(\mathbf{x} -
\mathbf{m})^{\rm T}\cdot\mathbf{K}^{-1} \cdot(\mathbf{x} -
\mathbf{m}) \right]} .$$

Hierbei bezeichnen:
* $\mathbf{x}$ den Spaltenvektor der betrachteten $N$-dimensionalen Zufallsgröße,
* $\mathbf{m}$ den Spaltenvektor der zugehörigen Mittelwerte,
* $|\mathbf{K}|$ die Determinante der $N×N$–Kovarianzmatrix $\mathbf{K}$ – eine skalare Größe,
* $\mathbf{K}^{−1}$ die Inverse von $\mathbf{K}$; diese ist ebenfalls eine $N×N$-Matrix.

Die Multiplikationen des Zeilenvektors $(\mathbf{x} – \mathbf{m})^{\rm T}$, der Matrix $\mathbf{K}^{–1}$ und des Spaltenvektors $(\mathbf{x} – \mathbf{m})$ ergibt im Argument der Exponentialfunktion erwartungsgemäß ein Skalar.

{{Beispiel}}
Wir betrachten wie im Beispiel im letzten Abschnitt wieder eine 4D-Zufallsgröße $\mathbf{x}$, deren Kovarianzmatrix nur auf der Hauptdiagonalen besetzt ist:
$${\mathbf{K}} = \left[
\begin{array}{cccc}
\sigma_{1}^2 & 0 & 0 & 0 \\
0 & \sigma_{2}^2 & 0 & 0 \\
0 & 0 & \sigma_{3}^2 & 0 \\
0 & 0 & 0 & \sigma_{4}^2
\end{array} \right].$$
Deren Determinante ist $|\mathbf{K}| = σ_1^2 · σ_2^2 · σ_3^2 · σ_4^2$. Die inverse Kovarianzmatrix ergibt sich zu:
$${\mathbf{K}}^{-1} \cdot {\mathbf{K}} = \left[
\begin{array}{cccc}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{array} \right]
\hspace{0.5cm}\Rightarrow \hspace{0.5cm} {\mathbf{K}}^{-1} =
\left[
\begin{array}{cccc}
\sigma_{1}^{-2} & 0 & 0 & 0 \\
0 & \sigma_{2}^{-2} & 0 & 0 \\
0 & 0 & \sigma_{3}^{-2} & 0 \\
0 & 0 & 0 & \sigma_{4}^{-2}
\end{array} \right].$$

Für mittelwertfreie Größen $(\mathbf{m = 0})$ lautet somit die WDF:
$$\mathbf{f_{\rm x}}(\mathbf{x})= \frac{1}{{(2 \pi)^2 \cdot \sigma_1\cdot
\sigma_2\cdot \sigma_3\cdot \sigma_4}}\cdot {\rm
exp}{\left[-(\frac{x_1^2}{2\sigma_1^2}
\hspace{0.1cm}+\hspace{0.1cm}\frac{x_2^2}{2\sigma_2^2}\hspace{0.1cm}+\hspace{0.1cm}\frac{x_3^2}{2\sigma_3^2}\hspace{0.1cm}+\hspace{0.1cm}\frac{x_4^2}{2\sigma_4^2})
\right]} .$$
Ein Vergleich mit [[Stochastische_Signaltheorie/Zweidimensionale_Gaußsche_Zufallsgrößen#Wahrscheinlichkeitsdichte-_und_Verteilungsfunktion_.281.29|Kapitel 4.2]] zeigt, dass es sich um eine 4D-Zufallsgröße mit statistisch unabhängigen und unkorrelierten Komponenten handelt, da folgende Bedingung erfüllt ist:
$$\mathbf{f_x}(\mathbf{x})= \mathbf{f_{x1}}(\mathbf{x_1})
\cdot\mathbf{f_{x2}}(\mathbf{x_2})
\cdot\mathbf{f_{x3}}(\mathbf{x_3})
\cdot\mathbf{f_{x4}}(\mathbf{x_4}) .$$

Der Fall korrelierter Komponenten wird in [[Aufgaben:4.15_WDF_und_Korrelationsmatrix|Aufgaben zu diesem Kapitel]] eingehend behandelt.
{{end}}

Die folgenden Links verweisen auf Seiten mit Grundlagen der Matrizenrechnung am Kapitelende:

Determinante einer Matrix

Inverse einer Matrix

==Eigenwerte und Eigenvektoren (1)==
Wir gehen weiter von einer $N×N$–Kovarianzmatrix $\mathbf{K}$ aus. Hieraus lassen sich die $N$ Eigenwerte – im Folgenden mit $λ_1 ... λ_N$ bezeichnet – wie folgt berechnen:
$$|{\mathbf{K}} - \lambda \cdot {\mathbf{E}}| = 0.$$
$\mathbf{E}$ ist die Einheits-Diagonalmatrix der Dimension $N$.

{{Beispiel}}
Ausgehend von einer 2×2-Matrix $\mathbf{K}$ mit $K_{11} = K_{22} =$ 1 und $K_{12} = K_{21} =$ 0.8 erhält man als Bestimmungsgleichung:
$${\rm det}\left[ \begin{array}{cc}
1- \lambda & 0.8 \\
0.8 & 1- \lambda
\end{array} \right] = 0 \hspace{0.5cm}\Rightarrow \hspace{0.5cm}
(1- \lambda)^2 - 0.64 = 0.$$
Die beiden Eigenwerte sind somit $λ_1 =$ 1.8 und $λ_2 =$ 0.2.
{{end}}

Mit den so ermittelten Eigenwerten $λ_i (i = 1, ... , N)$ kann man die dazugehörigen Eigenvektoren $\boldsymbol{\xi_i}$ berechnen. Die $N$ vektoriellen Bestimmungsgleichungen lauten dabei:
$$({\mathbf{K}} - \lambda_i \cdot {\mathbf{E}}) \cdot
{\boldsymbol{\xi_i}} = 0\hspace{0.5cm}(i= 1, ... , N).$$

{{Beispiel}}
In Fortsetzung obiger Rechnung ergeben sich die beiden folgenden Eigenvektoren:
$$\left[ \begin{array}{cc}
1- 1.8 & 0.8 \\
0.8 & 1- 1.8
\end{array} \right]\cdot{\boldsymbol{\xi_1}} = 0 \hspace{0.5cm}\Rightarrow \hspace{0.5cm}
{\boldsymbol{\xi_1}} = {\rm const.} \cdot\left[ \begin{array}{c}
1 \\
1
\end{array} \right],$$
$$\left[ \begin{array}{cc}
1- 0.2 & 0.8 \\
0.8 & 1- 0.2
\end{array} \right]\cdot{\boldsymbol{\xi_2}} = 0 \hspace{0.5cm}\Rightarrow \hspace{0.5cm}
{\boldsymbol{\xi_2}} = {\rm const.} \cdot\left[ \begin{array}{c}
-1 \\
1
\end{array} \right].$$
Bringt man die Eigenvektoren in die so genannte Orthonormalfom (jeweils mit Betrag 1), so lauten sie:
$${\boldsymbol{\xi_1}} = \frac{1}{\sqrt{2}} \cdot\left[ \begin{array}{c}
1 \\
1
\end{array} \right], \hspace{0.5cm}{\boldsymbol{\xi_2}} = \frac{1}{\sqrt{2}} \cdot\left[ \begin{array}{c}
-1 \\
1
\end{array} \right].$$
{{end}}

==Eigenwerte und Eigenvektoren (2)==
Abschließend soll diskutiert werden, wie Eigenwert und Eigenvektor in der Informationstechnik genutzt werden können, beispielsweise zum Zwecke der Datenreduktion.

[[File:P_ID667__Sto_T_4_7_S4_ganz_neu.png | Zur Datenkompression mittels Eigenwertbestimmung | rechts]]
Wir gehen von den Parameterwerten des soeben betrachteten Beispiels aus.
*Mit $σ_1 = σ_2 =$ 1 und $ρ =$ 0.8 ergibt sich die nachfolgend skizzierte 2D-WDF mit elliptischen Höhenlinien.
*Die Ellipsenhauptachse liegt hier wegen $σ_1 = σ_2$ unter einem Winkel von 45 Grad.

In der Grafik ist zusätzlich das $(ξ_1, ξ_2)$-Koordinatensystem eingezeichnet, das durch die Eigenvektoren $\mathbf{ξ}_1$ und $\mathbf{ξ}_2$ der Korrelationsmatrix aufgespannt wird. Die Eigenwerte $λ_1 =$ 1.8 und $λ_2 =$ 0.2 geben die Varianzen bezüglich des neuen Koordinatensystems an. Die Streuungen sind somit $σ_1 = \rm 1.8^{0.5}$ ≈ 1.341 und $σ_2 = \rm 0.2^{0.5}$ ≈ 0.447.

{{Beispiel}}
Soll eine 2D-Zufallsgröße $\mathbf{x}$ in seinen beiden Dimensionen $x_1$ und $x_2$ im Bereich zwischen $–5σ$ und $+5σ$ im Abstand $Δx =$ 0.01 quantisiert werden, so gibt es $\rm 10^6$ mögliche Quantisierungswerte $(σ_1 = σ_2 = σ =$ 1 vorausgesetzt).

Dagegen ist die Anzahl der möglichen Quantisierungswerte bei der gedrehten Zufallsgröße $\mathbf{ξ}$ um den Faktor 1.341 · 0.447 ≈ 0.6 geringer. Das bedeutet: Allein durch die Drehung des Koordinatensystems um 45° ⇒ ''Transformation der zweidimensionalen Zufallsgröße'' wurde eine Datenreduktion um 40% erreicht.

Die Ausrichtung entsprechend den Hauptdiagonalen wurde für den zweidimensionalen Fall bereits auf der Seite [[Stochastische_Signaltheorie/Zweidimensionale_Gaußsche_Zufallsgrößen#Drehung_des_Koordinatensystems_.281.29|Drehung des Koordinatensystems]] im Kapitel 4.2 behandelt, und zwar basierend auf geometrischen und trigonometrischen Überlegungen. Die Lösung des Problems mit Eigenwert und Eigenvektor ist äußerst elegant und zudem problemlos auf beliebig große Dimensionen $N$ erweiterbar.
{{end}}

==Grundlagen der Matrizenrechnung: Determinante einer Matrix==
Wir betrachten die beiden quadratischen Matrizen mit Dimension $N =$ 2 bzw. $N =$ 3:
$${\mathbf{A}} = \left[ \begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{array} \right],
\hspace{0.5cm}{\mathbf{B}} = \left[ \begin{array}{ccc}
b_{11} & b_{12} & b_{13}\\
b_{21} & b_{22} & b_{23}\\
b_{31} & b_{32} & b_{33}
\end{array}\right].$$

Die beiden Determinanten dieser Matrizen lauten:
$$|{\mathbf{A}}| = a_{11} a\cdot a_{22} - a_{12} \cdot a_{21},$$
$$|{\mathbf{B}}| = b_{11} \cdot b_{22} \cdot b_{33} + b_{12} \cdot
b_{23} \cdot b_{31} + b_{13} \cdot b_{21} \cdot b_{32} -$$
$$ -
b_{11} \cdot b_{23} \cdot b_{32} -
b_{12} \cdot b_{21} \cdot b_{33}-
b_{13} \cdot b_{22} \cdot b_{31}.$$

Bitte beachten Sie:
*Die Determinante der Matrix $\mathbf{A}$ lässt sich geometrisch als die Fläche des durch die beiden Zeilenvektoren $(a_{11}, a_{12})$ und $(a_{21}, a_{22})$ aufgespannten Parallelogramms interpretieren.
*Die Fläche des durch die beiden Spaltenvektoren $(a_{11}, a_{21})^{\rm T}$ und $(a_{12}, a_{22})^{\rm T}$ festgelegten Parallelogramms ist ebenfalls $|\mathbf{A}|$.
*Dagegen ist die Determinante der Matrix $\mathbf{B}$ bei analoger geometrischer Interpretation als Volumen zu verstehen.

Für $N$ > 2 ist es möglich, sogenannte Unterdeterminanten zu bilden. Die Unterdeterminante einer $N×N$–Matrix bezüglich der Stelle $i, j$ ist die Determinante der $(N– {\rm 1})×(N–{\rm 1})$–Matrix, die sich ergibt, wenn man die $i$-te Zeile und die $j$-te Spalte streicht. Als Kofaktor bezeichnet man dann den Wert der Unterdeterminante gewichtet mit dem Vorzeichen $(–{\rm 1})^{i+j}$.

{{Beispiel}}
Ausgehend von der 3×3–Matrix $\mathbf{B}$ lauten die Kofaktoren der zweiten Zeile:
$$B_{21} = -(b_{12} \cdot b_{23} - b_{13} \cdot
b_{32})\hspace{0.3cm}{\rm da}\hspace{0.3cm} i+j =3,$$
$$B_{22} = +(b_{11} \cdot b_{23} - b_{13} \cdot
b_{31})\hspace{0.3cm}{\rm da}\hspace{0.3cm} i+j=4,$$
$$B_{23} = -(b_{11} \cdot b_{32} - b_{12} \cdot
b_{31})\hspace{0.3cm}{\rm da}\hspace{0.3cm} i+j=5.$$

Die Determinante von $\mathbf{B}$ ergibt sich mit diesen Kofaktoren zu:
$$|{\mathbf{B}}| = b_{21} \cdot B_{21} +b_{22} \cdot B_{22}
+b_{23} \cdot B_{23}.$$
Die Determinante wurde hier nach der zweiten Zeile entwickelt. Entwickelt man $\mathbf{B}$ nach einer anderen Zeile oder Spalte, so ergibt sich für $|\mathbf{B}|$ der gleiche Zahlenwert.
{{end}}

==Grundlagen der Matrizenrechnung: Inverse einer Matrix==
Häufig benötigt man die Inverse $\mathbf{M}^{–1}$ der quadratischen Matrix $\mathbf{M}$. Die inverse Matrix $\mathbf{M}^{–1}$ besitzt die gleiche Dimension $N$ wie $\mathbf{M}$ und ist wie folgt definiert, wobei $\mathbf{E}$ die Einheitsmatrix (Diagonalmatrix) bezeichnet:
$${\mathbf{M}}^{-1} \cdot {\mathbf{M}} ={\mathbf{E}} =
\left[ \begin{array}{cccc} 1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\
0 & 0 & \cdots & 1 \end{array} \right] .$$

Die Inverse der 2×2–Matrix $\mathbf{A}$ lautet demnach:
$$\left[ \begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{array} \right]^{-1} = \frac{1}{|{\mathbf{A}}|} \hspace{0.1cm}\cdot \left[ \begin{array}{cc}
a_{22} & -a_{12} \\
-a_{21} & a_{11}
\end{array} \right].$$

Hierbei gibt $|\mathbf{A}| = a_{11} · a_{22} – a_{12} · a_{21}$ die [[Stochastische_Signaltheorie/Verallgemeinerung_auf_N-dimensionale_Zufallsgrößen#Grundlagen_der_Matrizenrechnung:_Determinante_einer_Matrix|Determinante]] an. Entsprechend gilt für $N =$ 3:
$$\left[ \begin{array}{ccc}
b_{11} & b_{12} & b_{13}\\
b_{21} & b_{22} & b_{23}\\
b_{31} & b_{32} & b_{33}
\end{array}\right]^{-1} = \frac{1}{|{\mathbf{B}}|} \hspace{0.1cm}\cdot\left[ \begin{array}{ccc}
B_{11} & B_{21} & B_{31}\\
B_{12} & B_{22} & B_{32}\\
B_{13} & B_{23} & B_{33}
\end{array}\right].$$

Die Determinante $|\mathbf{B}|$ einer 3×3–Matrix wurde auf der letzten Seite angegeben, ebenso wie die Vorschrift zur Berechnung der Kofaktoren $B_{ij}$. Diese beschreiben die Unterdeterminanten von $\mathbf{B}$, gewichtet mit den Positionsvorzeichen ${\rm (–1)}^{i+j}$. Zu beachten ist die Vertauschung der Zeilen und Spalten bei der Inversen.

{{Display}}

Theory of Stochastic Signals/Generalization to N-Dimensional Random Variables

2017-01-26T20:21:31Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Kreuzkorrelationsfunktion und Kreuzleistungsdichte
|Nächste Seite=Stochastische Systemtheorie
}}
==Korrelationsmatrix==
Bisher wurden nur statistische Bindungen zwischen zwei (skalaren) Zufallsgrößen betrachtet. Für den allgemeineren Fall – einer Zufallsgröße mit $N$ Dimensionen – bietet sich zweckmäßigerweise eine Vektor- bzw. Matrixdarstellung an. Für die folgende Beschreibung wird vorausgesetzt:
*Die $N$–dimensionale Zufallsgröße wird als Vektor dargestellt:
$${\mathbf{x}} = [\hspace{0.03cm}x_1, \hspace{0.03cm}x_2,
\hspace{0.1cm}... \hspace{0.1cm}, \hspace{0.03cm}x_N]^{\rm T}.$$
:Hierbei ist $\mathbf{x}$ ein Spaltenvektor, was aus dem Zusatz „T” – dies steht für „transponiert” – des angegebenen Zeilenvektors hervorgeht.
*Die $N$ Komponenten $x_i$ seien jeweils eindimensionale reelle Gaußsche Zufallsgrößen.

Statistische Bindungen zwischen den $N$ Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:
$${\mathbf{R}} =\left[ R_{ij} \right] = \left[ \begin{array}{cccc}R_{11} & R_{12} & \cdots & R_{1N} \\ R_{21} & R_{22}& \cdots & R_{2N} \\ \cdots & \cdots & \cdots &\cdots \\ R_{N1} & R_{N2} & \cdots & R_{NN} \end{array} \right] .$$
Die $N^2$ Elemente dieser $N×N$-Matrix geben jeweils das gemeinsame Moment erster Ordnung zwischen zwei Komponenten an:
$$R_{ij}= {{\rm E}[x_i \cdot x_j ]} = R_{ji} .$$
In Vektorschreibweise lautet somit die Korrelationsmatrix:
$$\mathbf{R}= {\rm E[\mathbf{x} \cdot {\mathbf{x}}^{\rm T} ]} .$$
Da $\mathbf{x}$ ein Spaltenvektor mit $N$ Dimensionen ist und somit der transponierte Vektor $\mathbf{x}^{\rm T}$ ein Zeilenvektor gleicher Länge, ergibt das Produkt $\mathbf{x} · \mathbf{x}^{\rm T}$ eine $N×N$-Matrix. Dagegen wäre $\mathbf{x}^{\rm T}· \mathbf{x}$ eine 1×1-Matrix, also ein Skalar. Für den hier nicht weiter betrachteten Sonderfall komplexer Komponenten $x_i$ sind auch die Matrixelemente komplex:
$$R_{ij}= {{\rm E}[x_i \cdot x_j^{\star} ]} = R_{ji}^{\star} .$$
Die Realteile der Korrelationsmatrix sind weiterhin symmetrisch zur Hauptdiagonalen, während sich die dazugehörigen Imaginärteile durch das Vorzeichen unterscheiden.

==Kovarianzmatrix==
Man kommt von der Korrelationsmatrix $\mathbf{R}$ zur so genannten Kovarianzmatrix
$${\mathbf{K}} =\left[ K_{ij} \right] = \left[ \begin{array}{cccc} K_{11} & K_{12} & \cdots & K_{1N} \\ K_{21} & K_{22}& \cdots & K_{2N} \\ \cdots & \cdots & \cdots & \cdots \\ K_{N1} & K_{N2} & \cdots & K_{NN} \end{array} \right] ,$$
wenn die Matrixelemente $K_{ij} = {\rm E}[(x_i – m_i) · (x_j – m_j)]$ jeweils ein Zentralmoment erster Ordnung angeben. Mit dem Vektor $\mathbf{m} = [m_1, m_2, ... , m_N]^{\rm T}$ kann somit auch geschrieben werden:
$$\mathbf{K}= {{\rm E}[(\mathbf{x} - \mathbf{m}) (\mathbf{x} - \mathbf{m})^{\rm T} ]} .$$

Es soll ausdrücklich darauf hingewiesen werden, dass $m_1$ den Mittelwert der Komponente $x_1$ und $m_2$ den Mittelwert von $x_2$ bezeichnet – nicht etwa das Moment erster bzw. zweiter Ordnung.

Die Matrix $\mathbf{K}$ zeigt bei reellen mittelwertfreien Gauß–Größen folgende weitere Eigenschaften:
*Das Element der $i$-ten Zeile und $j$-ten Spalte lautet mit den beiden Streuungen $σ_i$ und $σ_j$ und dem [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen#Korrelationskoeffizient|Korrelationskoeffizienten]] $ρ_{ij}$. Formelmäßig gilt $K_{ij} = σ_i · σ_j · ρ_{ij} = K_{ji}.$
*Berücksichtigt man noch die Beziehung $ρ_{ii} =$ 1, so erhält man für die Kovarianzmatrix:
$${\mathbf{K}} =\left[ K_{ij} \right] = \left[ \begin{array}{cccc}
\sigma_{1}^2 & \sigma_{1}\sigma_{2}\rho_{12} & \cdots & \sigma_{1}\sigma_{N}\rho_{1N} \\
\sigma_{2}\sigma_{1}\rho_{21} & \sigma_{2}^2& \cdots & \sigma_{2}\sigma_{N}\rho_{2N} \\ \cdots & \cdots & \cdots & \cdots \\ \sigma_{N}\sigma_{1}\rho_{N1} & \sigma_{N}\sigma_{2}\rho_{N2} &
\cdots & \sigma_{N}^2 \end{array} \right] .$$
*Aufgrund der Beziehung $ρ_{ij} = ρ_{ji}$ ist die Kovarianzmatrix bei reellen Größen symmetrisch zur Hauptdiagonalen. Bei komplexen Größen würde dagegen $ρ_{ij} = ρ_{ji}^{\star}$ gelten.

{{Beispiel}}
Wir betrachten drei Kovarianzmatrizen:
$${\mathbf{K}_2} = \left[ \begin{array}{cc}
1 & -0.5 \\
-0.5 & 1
\end{array} \right],
\hspace{0.2cm}{\mathbf{K}_3} = 4 \cdot \left[ \begin{array}{ccc}
1 & 1/2 & 1/4\\
1/2 & 1 & 3/4 \\
1/4 & 3/4 & 1
\end{array}\right], \hspace{0.2cm}{\mathbf{K}_4} =
\left[
\begin{array}{cccc}
1 & 0 & 0 & 0 \\
0 & 4 & 0 & 0 \\
0 & 0 & 9 & 0 \\
0 & 0 & 0 & 16
\end{array} \right].$$

* $\mathbf{K}_2$ beschreibt eine 2D–Zufallsgröße, wobei der Korrelationskoeffizient $ρ$ zwischen den zwei Komponenten –0.5 beträgt und beide Komponenten die Streuung $σ =$ 1 aufweisen.
*Bei der 3D-Zufallsgröße gemäß $\mathbf{K}_3$ haben alle Komponenten die gleiche Streuung $σ =$ 2. Die stärksten Bindungen bestehen zwischen $x_2$ und $x_3$; wobei $ρ_{23} =$ 3/4 gilt.
*Die vier Komponenten der durch $\mathbf{K}_4$ gekennzeichneten Zufallsgröße sind unkorreliert, bei Gaußscher WDF auch statistisch unabhängig. Die Streuungen sind $σ_i = i$ für $i =$ 1, ... , 4.

{{end}}

==Zusammenhang zwischen Kovarianzmatrix und WDF==
Die ''Wahrscheinlichkeitsdichtefunktion'' einer $N$-dimensionalen Gaußschen Zufallsgröße $\mathbf{x}$ lautet:
$$\mathbf{f_x}(\mathbf{x})= \frac{1}{\sqrt{(2 \pi)^N \cdot
|\mathbf{K}|}}\cdot {\rm exp}{\left[-\frac{1}{2}\cdot(\mathbf{x} -
\mathbf{m})^{\rm T}\cdot\mathbf{K}^{-1} \cdot(\mathbf{x} -
\mathbf{m}) \right]} .$$

Hierbei bezeichnen:
* $\mathbf{x}$ den Spaltenvektor der betrachteten $N$-dimensionalen Zufallsgröße,
* $\mathbf{m}$ den Spaltenvektor der zugehörigen Mittelwerte,
* $|\mathbf{K}|$ die Determinante der $N×N$–Kovarianzmatrix $\mathbf{K}$ – eine skalare Größe,
* $\mathbf{K}^{−1}$ die Inverse von $\mathbf{K}$; diese ist ebenfalls eine $N×N$-Matrix.

Die Multiplikationen des Zeilenvektors $(\mathbf{x} – \mathbf{m})^{\rm T}$, der Matrix $\mathbf{K}^{–1}$ und des Spaltenvektors $(\mathbf{x} – \mathbf{m})$ ergibt im Argument der Exponentialfunktion erwartungsgemäß ein Skalar.

{{Beispiel}}
Wir betrachten wie im Beispiel im letzten Abschnitt wieder eine 4D-Zufallsgröße $\mathbf{x}$, deren Kovarianzmatrix nur auf der Hauptdiagonalen besetzt ist:
$${\mathbf{K}} = \left[
\begin{array}{cccc}
\sigma_{1}^2 & 0 & 0 & 0 \\
0 & \sigma_{2}^2 & 0 & 0 \\
0 & 0 & \sigma_{3}^2 & 0 \\
0 & 0 & 0 & \sigma_{4}^2
\end{array} \right].$$
Deren Determinante ist $|\mathbf{K}| = σ_1^2 · σ_2^2 · σ_3^2 · σ_4^2$. Die inverse Kovarianzmatrix ergibt sich zu:
$${\mathbf{K}}^{-1} \cdot {\mathbf{K}} = \left[
\begin{array}{cccc}
1 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{array} \right]
\hspace{0.5cm}\Rightarrow \hspace{0.5cm} {\mathbf{K}}^{-1} =
\left[
\begin{array}{cccc}
\sigma_{1}^{-2} & 0 & 0 & 0 \\
0 & \sigma_{2}^{-2} & 0 & 0 \\
0 & 0 & \sigma_{3}^{-2} & 0 \\
0 & 0 & 0 & \sigma_{4}^{-2}
\end{array} \right].$$

Für mittelwertfreie Größen $(\mathbf{m = 0})$ lautet somit die WDF:
$$\mathbf{f_{\rm x}}(\mathbf{x})= \frac{1}{{(2 \pi)^2 \cdot \sigma_1\cdot
\sigma_2\cdot \sigma_3\cdot \sigma_4}}\cdot {\rm
exp}{\left[-(\frac{x_1^2}{2\sigma_1^2}
\hspace{0.1cm}+\hspace{0.1cm}\frac{x_2^2}{2\sigma_2^2}\hspace{0.1cm}+\hspace{0.1cm}\frac{x_3^2}{2\sigma_3^2}\hspace{0.1cm}+\hspace{0.1cm}\frac{x_4^2}{2\sigma_4^2})
\right]} .$$
Ein Vergleich mit [[Stochastische_Signaltheorie/Zweidimensionale_Gaußsche_Zufallsgrößen#Wahrscheinlichkeitsdichte-_und_Verteilungsfunktion_.281.29|Kapitel 4.2]] zeigt, dass es sich um eine 4D-Zufallsgröße mit statistisch unabhängigen und unkorrelierten Komponenten handelt, da folgende Bedingung erfüllt ist:
$$\mathbf{f_x}(\mathbf{x})= \mathbf{f_{x1}}(\mathbf{x_1})
\cdot\mathbf{f_{x2}}(\mathbf{x_2})
\cdot\mathbf{f_{x3}}(\mathbf{x_3})
\cdot\mathbf{f_{x4}}(\mathbf{x_4}) .$$

Der Fall korrelierter Komponenten wird in [[Aufgaben:4.15_WDF_und_Korrelationsmatrix|Aufgaben zu diesem Kapitel]]eingehend behandelt.
{{end}}

Die folgenden Links verweisen auf Seiten mit Grundlagen der Matrizenrechnung am Kapitelende:

Determinante einer Matrix

Inverse einer Matrix

==Eigenwerte und Eigenvektoren (1)==
Wir gehen weiter von einer $N×N$–Kovarianzmatrix $\mathbf{K}$ aus. Hieraus lassen sich die $N$ Eigenwerte – im Folgenden mit $λ_1 ... λ_N$ bezeichnet – wie folgt berechnen:
$$|{\mathbf{K}} - \lambda \cdot {\mathbf{E}}| = 0.$$
$\mathbf{E}$ ist die Einheits-Diagonalmatrix der Dimension $N$.

{{Beispiel}}
Ausgehend von einer 2×2-Matrix $\mathbf{K}$ mit $K_{11} = K_{22} =$ 1 und $K_{12} = K_{21} =$ 0.8 erhält man als Bestimmungsgleichung:
$${\rm det}\left[ \begin{array}{cc}
1- \lambda & 0.8 \\
0.8 & 1- \lambda
\end{array} \right] = 0 \hspace{0.5cm}\Rightarrow \hspace{0.5cm}
(1- \lambda)^2 - 0.64 = 0.$$
Die beiden Eigenwerte sind somit $λ_1 =$ 1.8 und $λ_2 =$ 0.2.
{{end}}

Mit den so ermittelten Eigenwerten $λ_i (i = 1, ... , N)$ kann man die dazugehörigen Eigenvektoren $\boldsymbol{\xi_i}$ berechnen. Die $N$ vektoriellen Bestimmungsgleichungen lauten dabei:
$$({\mathbf{K}} - \lambda_i \cdot {\mathbf{E}}) \cdot
{\boldsymbol{\xi_i}} = 0\hspace{0.5cm}(i= 1, ... , N).$$

{{Beispiel}}
In Fortsetzung obiger Rechnung ergeben sich die beiden folgenden Eigenvektoren:
$$\left[ \begin{array}{cc}
1- 1.8 & 0.8 \\
0.8 & 1- 1.8
\end{array} \right]\cdot{\boldsymbol{\xi_1}} = 0 \hspace{0.5cm}\Rightarrow \hspace{0.5cm}
{\boldsymbol{\xi_1}} = {\rm const.} \cdot\left[ \begin{array}{c}
1 \\
1
\end{array} \right],$$
$$\left[ \begin{array}{cc}
1- 0.2 & 0.8 \\
0.8 & 1- 0.2
\end{array} \right]\cdot{\boldsymbol{\xi_2}} = 0 \hspace{0.5cm}\Rightarrow \hspace{0.5cm}
{\boldsymbol{\xi_2}} = {\rm const.} \cdot\left[ \begin{array}{c}
-1 \\
1
\end{array} \right].$$
Bringt man die Eigenvektoren in die so genannte Orthonormalfom (jeweils mit Betrag 1), so lauten sie:
$${\boldsymbol{\xi_1}} = \frac{1}{\sqrt{2}} \cdot\left[ \begin{array}{c}
1 \\
1
\end{array} \right], \hspace{0.5cm}{\boldsymbol{\xi_2}} = \frac{1}{\sqrt{2}} \cdot\left[ \begin{array}{c}
-1 \\
1
\end{array} \right].$$
{{end}}

==Eigenwerte und Eigenvektoren (2)==
Abschließend soll diskutiert werden, wie Eigenwert und Eigenvektor in der Informationstechnik genutzt werden können, beispielsweise zum Zwecke der Datenreduktion.

[[File:P_ID667__Sto_T_4_7_S4_ganz_neu.png | Zur Datenkompression mittels Eigenwertbestimmung | rechts]]
Wir gehen von den Parameterwerten des soeben betrachteten Beispiels aus.
*Mit $σ_1 = σ_2 =$ 1 und $ρ =$ 0.8 ergibt sich die nachfolgend skizzierte 2D-WDF mit elliptischen Höhenlinien.
*Die Ellipsenhauptachse liegt hier wegen $σ_1 = σ_2$ unter einem Winkel von 45 Grad.

In der Grafik ist zusätzlich das $(ξ_1, ξ_2)$-Koordinatensystem eingezeichnet, das durch die Eigenvektoren $\mathbf{ξ}_1$ und $\mathbf{ξ}_2$ der Korrelationsmatrix aufgespannt wird. Die Eigenwerte $λ_1 =$ 1.8 und $λ_2 =$ 0.2 geben die Varianzen bezüglich des neuen Koordinatensystems an. Die Streuungen sind somit $σ_1 = \rm 1.8^{0.5}$ ≈ 1.341 und $σ_2 = \rm 0.2^{0.5}$ ≈ 0.447.

{{Beispiel}}
Soll eine 2D-Zufallsgröße $\mathbf{x}$ in seinen beiden Dimensionen $x_1$ und $x_2$ im Bereich zwischen $–5σ$ und $+5σ$ im Abstand $Δx =$ 0.01 quantisiert werden, so gibt es $\rm 10^6$ mögliche Quantisierungswerte $(σ_1 = σ_2 = σ =$ 1 vorausgesetzt).

Dagegen ist die Anzahl der möglichen Quantisierungswerte bei der gedrehten Zufallsgröße $\mathbf{ξ}$ um den Faktor 1.341 · 0.447 ≈ 0.6 geringer. Das bedeutet: Allein durch die Drehung des Koordinatensystems um 45° ⇒ ''Transformation der zweidimensionalen Zufallsgröße'' wurde eine Datenreduktion um 40% erreicht.

Die Ausrichtung entsprechend den Hauptdiagonalen wurde für den zweidimensionalen Fall bereits auf der Seite [[Stochastische_Signaltheorie/Zweidimensionale_Gaußsche_Zufallsgrößen#Drehung_des_Koordinatensystems_.281.29|Drehung des Koordinatensystems]] im Kapitel 4.2 behandelt, und zwar basierend auf geometrischen und trigonometrischen Überlegungen. Die Lösung des Problems mit Eigenwert und Eigenvektor ist äußerst elegant und zudem problemlos auf beliebig große Dimensionen $N$ erweiterbar.
{{end}}

==Grundlagen der Matrizenrechnung: Determinante einer Matrix==
Wir betrachten die beiden quadratischen Matrizen mit Dimension $N =$ 2 bzw. $N =$ 3:
$${\mathbf{A}} = \left[ \begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{array} \right],
\hspace{0.5cm}{\mathbf{B}} = \left[ \begin{array}{ccc}
b_{11} & b_{12} & b_{13}\\
b_{21} & b_{22} & b_{23}\\
b_{31} & b_{32} & b_{33}
\end{array}\right].$$

Die beiden Determinanten dieser Matrizen lauten:
$$|{\mathbf{A}}| = a_{11} a\cdot a_{22} - a_{12} \cdot a_{21},$$
$$|{\mathbf{B}}| = b_{11} \cdot b_{22} \cdot b_{33} + b_{12} \cdot
b_{23} \cdot b_{31} + b_{13} \cdot b_{21} \cdot b_{32} -$$
$$ -
b_{11} \cdot b_{23} \cdot b_{32} -
b_{12} \cdot b_{21} \cdot b_{33}-
b_{13} \cdot b_{22} \cdot b_{31}.$$

Bitte beachten Sie:
*Die Determinante der Matrix $\mathbf{A}$ lässt sich geometrisch als die Fläche des durch die beiden Zeilenvektoren $(a_{11}, a_{12})$ und $(a_{21}, a_{22})$ aufgespannten Parallelogramms interpretieren.
*Die Fläche des durch die beiden Spaltenvektoren $(a_{11}, a_{21})^{\rm T}$ und $(a_{12}, a_{22})^{\rm T}$ festgelegten Parallelogramms ist ebenfalls $|\mathbf{A}|$.
*Dagegen ist die Determinante der Matrix $\mathbf{B}$ bei analoger geometrischer Interpretation als Volumen zu verstehen.

Für $N$ > 2 ist es möglich, sogenannte Unterdeterminanten zu bilden. Die Unterdeterminante einer $N×N$–Matrix bezüglich der Stelle $i, j$ ist die Determinante der $(N– {\rm 1})×(N–{\rm 1})$–Matrix, die sich ergibt, wenn man die $i$-te Zeile und die $j$-te Spalte streicht. Als Kofaktor bezeichnet man dann den Wert der Unterdeterminante gewichtet mit dem Vorzeichen $(–{\rm 1})^{i+j}$.

{{Beispiel}}
Ausgehend von der 3×3–Matrix $\mathbf{B}$ lauten die Kofaktoren der zweiten Zeile:
$$B_{21} = -(b_{12} \cdot b_{23} - b_{13} \cdot
b_{32})\hspace{0.3cm}{\rm da}\hspace{0.3cm} i+j =3,$$
$$B_{22} = +(b_{11} \cdot b_{23} - b_{13} \cdot
b_{31})\hspace{0.3cm}{\rm da}\hspace{0.3cm} i+j=4,$$
$$B_{23} = -(b_{11} \cdot b_{32} - b_{12} \cdot
b_{31})\hspace{0.3cm}{\rm da}\hspace{0.3cm} i+j=5.$$

Die Determinante von $\mathbf{B}$ ergibt sich mit diesen Kofaktoren zu:
$$|{\mathbf{B}}| = b_{21} \cdot B_{21} +b_{22} \cdot B_{22}
+b_{23} \cdot B_{23}.$$
Die Determinante wurde hier nach der zweiten Zeile entwickelt. Entwickelt man $\mathbf{B}$ nach einer anderen Zeile oder Spalte, so ergibt sich für $|\mathbf{B}|$ der gleiche Zahlenwert.
{{end}}

==Grundlagen der Matrizenrechnung: Inverse einer Matrix==
Häufig benötigt man die Inverse $\mathbf{M}^{–1}$ der quadratischen Matrix $\mathbf{M}$. Die inverse Matrix $\mathbf{M}^{–1}$ besitzt die gleiche Dimension $N$ wie $\mathbf{M}$ und ist wie folgt definiert, wobei $\mathbf{E}$ die Einheitsmatrix (Diagonalmatrix) bezeichnet:
$${\mathbf{M}}^{-1} \cdot {\mathbf{M}} ={\mathbf{E}} =
\left[ \begin{array}{cccc} 1 & 0 & \cdots & 0 \\
0 & 1 & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\
0 & 0 & \cdots & 1 \end{array} \right] .$$

Die Inverse der 2×2–Matrix $\mathbf{A}$ lautet demnach:
$$\left[ \begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{array} \right]^{-1} = \frac{1}{|{\mathbf{A}}|} \hspace{0.1cm}\cdot \left[ \begin{array}{cc}
a_{22} & -a_{12} \\
-a_{21} & a_{11}
\end{array} \right].$$

Hierbei gibt $|\mathbf{A}| = a_{11} · a_{22} – a_{12} · a_{21}$ die [[Stochastische_Signaltheorie/Verallgemeinerung_auf_N-dimensionale_Zufallsgrößen#Grundlagen_der_Matrizenrechnung:_Determinante_einer_Matrix|Determinante]] an. Entsprechend gilt für $N =$ 3:
$$\left[ \begin{array}{ccc}
b_{11} & b_{12} & b_{13}\\
b_{21} & b_{22} & b_{23}\\
b_{31} & b_{32} & b_{33}
\end{array}\right]^{-1} = \frac{1}{|{\mathbf{B}}|} \hspace{0.1cm}\cdot\left[ \begin{array}{ccc}
B_{11} & B_{21} & B_{31}\\
B_{12} & B_{22} & B_{32}\\
B_{13} & B_{23} & B_{33}
\end{array}\right].$$

Die Determinante $|\mathbf{B}|$ einer 3×3–Matrix wurde auf der letzten Seite angegeben, ebenso wie die Vorschrift zur Berechnung der Kofaktoren $B_{ij}$. Diese beschreiben die Unterdeterminanten von $\mathbf{B}$, gewichtet mit den Positionsvorzeichen ${\rm (–1)}^{i+j}$. Zu beachten ist die Vertauschung der Zeilen und Spalten bei der Inversen.

{{Display}}

Theory of Stochastic Signals/Cross-Correlation Function and Cross Power-Spectral Density

2017-01-26T20:12:43Z

LukasWolf:

{{Header
|Untermenü= Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Leistungsdichtespektrum (LDS)
|Nächste Seite=Verallgemeinerung auf N-dimensionale Zufallsgrößen
}}
==Definition der Kreuzkorrelationsfunktion==
Bei vielen technischen Anwendungen interessiert man sich für ein quantitatives Maß zur Beschreibung der statistischen Verwandtschaft zwischen verschiedenen Prozessen bzw. zwischen deren Mustersignalen. Ein solches Maß ist die ''Kreuzkorrelationsfunktion'' (KKF), die hier unter den Voraussetzungen von ''Stationarität'' und ''Ergodizität'' hergeleitet wird.

{{Definition}}
Für die Kreuzkorrelationsfunktion zweier stationärer und ergodischer Prozesse mit den Musterfunktionen $x(t)$ und $y(t)$ gilt:
$$\varphi_{xy}(\tau)={\rm E} [{x(t)\cdot y(t+\tau)}]=\lim_{T_{\rm M}\to\infty}\,\frac{1}{T_{\rm M}}\cdot\int^{T_{\rm M}/{\rm 2}}_{-T_{\rm M}/{\rm 2}}x(t)\cdot y(t+\tau)\,\rm d \it t.$$
{{end}}

Die erste Definitionsgleichung kennzeichnet die Erwartungswertbildung (Scharmittelung), während die zweite Gleichung die Zeitmittelung über eine (möglichst große) Messdauer $T_{\rm M}$ beschreibt.

Ein Vergleich mit der [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Autokorrelationsfunktion_bei_ergodischen_Prozessen_.282.29|AKF-Definition]] zeigt viele Gemeinsamkeiten mit dieser. Setzt man $y(t) = x(t)$, so erhält man $φ_{xy}(τ) = φ_{xx}(τ)$, also die Autokorrelationsfunktion, für die in Abschnitt 4.4 die vereinfachte Schreibweise $φ_x(τ)$ eingeführt wurde.

{{Beispiel}}
Wir betrachten ein Zufallssignal $x(t)$ mit dreieckförmiger AKF $φ_x(τ)$ ⇒ blaue Kurve. Diese AKF–Form ergibt sich zum Beispiel für ein Binärsignal mit gleichwahrscheinlichen bipolaren Amplitudenkoeffizienten (+1 bzw. –1) und bei rechteckförmigem Grundimpuls.

[[File:P_ID434__Sto_T_4_6_S1neu.png | Zur Definition der Kreuzkorrelationsfunktion]]

Betrachten wir dazu noch ein zweites Signal
$$y(t) = \alpha \cdot x (t - t_{\rm 0}),$$
das sich von $x(t)$ nur durch einen Dämpfungsfaktor $α$ und eine Laufzeit $t_0$ unterscheidet, wobei dem obigen Bild $α =$ 0.5 und $t_0 =$ 3 ms zugrunde liegen. Dieses gedämpfte und verschobene Signal besitzt die rot gezeichnete AKF
$$\varphi_{y}(\tau) = \alpha^2 \cdot \varphi_{x}(\tau) .$$
Die Verschiebung um $t_0$ ist in der AKF nicht zu erkennen im Gegensatz zur (grün dargestellten) KKF, für die folgende Beziehung gilt:
$$\varphi_{xy}(\tau) = \alpha \cdot \varphi_{x}(\tau- t_{\rm 0}) .$$
{{end}}

==Eigenschaften der Kreuzkorrelationsfunktion==
Nachfolgend sind wesentliche Eigenschaften der Kreuzkorrelationsfunktion zusammengestellt und die wichtigsten Unterschiede zur AKF herausgearbeitet.
*Die Bildung der Kreuzkorrelationsfunktion ist nicht kommutativ. Vielmehr gibt es stets zwei unterschiedliche Funktionen, nämlich
$$\varphi_{xy}(\tau)={\rm E} [{x(t)\cdot y(t+\tau)}]=\lim_{T_{\rm M}\to\infty}\,\frac{1}{T_{\rm M}}\cdot\int^{T_{\rm M}/{\rm 2}}_{-T_{\rm M}/{\rm 2}}x(t)\cdot y(t+\tau)\,\, \rm d \it t,$$
$$\varphi_{yx}(\tau)={\rm E} [{y(t)\cdot x(t+\tau)}]=\lim_{T_{\rm M}\to\infty}\,\frac{1}{T_{\rm M}}\cdot\int^{T_{\rm M}/{\rm 2}}_{-T_{\rm M}/{\rm 2}}y(t)\cdot x(t+\tau)\,\, \rm d \it t .$$
*Zwischen den beiden Funktionen besteht der Zusammenhang $φ_{yx}(τ) = φ_{xy}(–τ)$. Im Beispiel des letzten Abschnitts hätte $φ_{yx}(τ)$ sein Maximum bei $τ =$ –3 ms.
*Im Allgemeinen tritt das KKF-Maximum nicht bei $τ =$ 0 auf (Ausnahme: $y = α · x$) und dem KKF-Wert $φ_{xy}(τ = 0)$ kommt keine besondere, physikalisch interpretierbare Bedeutung zu wie bei der AKF, bei der dieser Wert die Prozessleistung wiedergibt.
*Der Betrag der KKF ist nach der Schwarzschen Ungleichung für alle $τ$-Werte kleiner oder gleich dem geometrischen Mittel der beiden Signalleistungen:
$$\varphi_{xy}( \tau) \le \sqrt {\varphi_{x}( \tau = 0) \cdot \varphi_{y}( \tau = 0)}.$$
:Im Beispiel auf der letzten Seite gilt das Gleichheitszeichen:
$$\varphi_{xy}( \tau = t_{\rm 0}) = \sqrt {\varphi_{x}( \tau = 0) \cdot \varphi_{y}( \tau = 0)} = \alpha \cdot \varphi_{x}( \tau = {\rm 0}) .$$
*Beinhalten $x(t)$ und $y(t)$ keinen gemeinsamen periodischen Anteil, so zeigt der Grenzwert der KKF für $τ → ∞$ das Produkt der beiden Mittelwerte an:
$$\lim_{\tau \rightarrow \infty} \varphi _{xy} ( \tau ) = m_x \cdot m_y .$$
*Sind zwei Signale $x(t)$ und $y(t)$ unkorreliert, so gilt $φ_{xy}(τ) ≡$ 0, das heißt, es ist $φ_{xy}(τ) =$ 0 für alle Werte von $τ$. Diese Annahme ist beispielsweise bei der gemeinsamen Betrachtung eines Nutz- und eines Störsignals in den meisten Fällen gerechtfertigt.
*Es ist jedoch stets zu beachten, dass die KKF nur die linearen statistischen Bindungen zwischen den Signalen $x(t)$ und $y(t)$ beinhaltet. Bindungen anderer Art – wie beispielsweise für den Fall $y(t) = x(t)^2$ – werden dagegen bei der KKF-Bildung nicht berücksichtigt.

==Anwendungen der Kreuzkorrelationsfunktion==
Die Anwendungen der KKF in Nachrichtensystemen sind vielfältig. Hier einige Beispiele:
*Bei Amplitudenmodulation, aber auch bei BPSK-Systemen (''Binary Phase Shift Keying'') wird zur Demodulation (Rücksetzung des Signals in den ursprünglichen Frequenzbereich) sehr häufig der so genannte Synchrondemodulator verwendet, wobei auch beim Empfänger ein Trägersignal zugesetzt werden muss, und zwar frequenz– und phasensynchron zum Sender. Bildet man die KKF zwischen dem Empfangssignal und dem empfangsseitigen Trägersignal, so lässt sich anhand der Spitze der KKF die phasensynchrone Lage zwischen den beiden Signalen erkennen, und es kann bei Auseinanderdriften nachgeregelt werden.

*Das Mehrfachzugriffsverfahren CDMA (''Code Division Multiple Access'') wird zum Beispiel im Mobilfunkstandard UMTS angewendet. Es erfordert eine strenge Phasensynchronität, und zwar bezüglich der zugesetzten Pseudonoise-Folgen beim Sender (''Bandspreizung'') und beim Empfänger (''Bandstauchung''). Auch dieses Synchronisationsproblem löst man meist mittels der Kreuzkorrelationsfunktion.

*Mit Hilfe der Kreuzkorrelationsfunktion kann festgestellt werden, ob ein bekanntes Signal $s(t)$ in einem verrauschten Empfangssignal $r(t) = α · s(t – t_0) + n(t)$ vorhanden ist oder nicht, und wenn ja, zu welchem Zeitpunkt $t_0$ es auftritt. Aus dem berechneten Wert für $t_0$ lässt sich dann beispielsweise eine Fahrgeschwindigkeit ermitteln (Radartechnik). Diese Aufgabenstellung kann auch mit dem so genannten Matched-Filter gelöst werden, das in Kapitel 5.4 noch eingehend beschrieben wird und das viele Gemeinsamkeiten mit der Kreuzkorrelationsfunktion aufweist.

*Beim so genannten [[Digitalsignalübertragung/Optimale_Empfängerstrategien#Korrelationsempf.C3.A4nger|Korrelationsempfänger]] verwendet man die KKF zur Signaldetektion. Hierbei bildet man die Kreuzkorrelation zwischen dem durch Rauschen und eventuell auch durch Verzerrungen verfälschten Empfangssignal $r(t)$ und allen möglichen Sendesignalen $s_i(t)$, wobei für den Laufindex $i =$ 1, ..., $I$ gelten soll. Entscheidet man $N$ Binärsymbole gemeinsam, so ist $I = {\rm 2}^N$. Man entscheidet sich dann für die Symbolfolge mit dem größten KKF-Wert und erreicht so die minimale Fehlerwahrscheinlichkeit entsprechend der ''Maximum-Likelihood-Entscheidungsregel.''

==Kreuzleistungsdichtespektrum==
Für manche Anwendungen kann es durchaus vorteilhaft sein, die Korrelation zwischen zwei Zufallssignalen im Frequenzbereich zu beschreiben.

{{Definition}}
Die beiden Kreuzleistungsdichtespektren ${\it Φ}_{xy}(f)$ und ${\it Φ}_{yx}(f)$ ergeben sich aus den dazugehörigen Kreuzkorrelationsfunktionen durch die Fouriertransformation:
$${\it \Phi}_{xy}(f)=\int^{+\infty}_{-\infty}\varphi_{xy}({\it \tau}) \cdot {\rm e}^{{\rm -j}\pi f \tau} \rm d \it \tau, $$
$${\it \Phi}_{yx}(f)=\int^{+\infty}_{-\infty}\varphi_{yx}({\it \tau}) \cdot {\rm e}^{{\rm -j}\pi f \tau} \rm d \it \tau.$$
Manchmal wird hierfür auch der Begriff ''spektrale Kreuzleistungsdichte'' verwendet.
{{end}}

Es gilt hier der gleiche Zusammenhang wie zwischen einem deterministischen Signal $x(t)$ und seinem Spektrum $X(f)$ bzw. zwischen der Autokorrelationsfunktion ${\it φ}_x(τ)$ eines ergodischen Prozesses { $x_i(t)$} und dem dazugehörigen Leistungsdichtespektrum ${\it Φ}_x(f)$. Ebenso beschreibt bei diesen Beispielen die [[Signaldarstellung/Fouriertransformation_und_-rücktransformation#Das_zweite_Fourierintegral|Fourierrücktransformation]] ⇒ „Zweites Fourierintegral” den Übergang vom Spektralbereich in den Zeitbereich.

{{Beispiel}}
Wir nehmen hier Bezug zum Beispiel auf der Seite [[Stochastische_Signaltheorie/Kreuzkorrelationsfunktion_und_Kreuzleistungsdichte#Definition_der_Kreuzkorrelationsfunktion|Definition der KKF]] mit den beiden „rechteckförmigen Zufallsgrößen” $x(t)$ und $y(t) = α · x(t – t_0)$. Da die AKF ${\it φ}_x(τ)$ dreieckförmig verläuft, ist – wie in Kapitel 4.5 beschrieben – das LDS ${\it Φ}_x(f) \hspace{0.1cm}{\rm si}^2$-förmig.

[[File:P_ID772__Sto_T_4_6_S1neu.png | Zur Definition der Kreuzkorrelationsfunktion]]

Welche Aussagen können wir aus dieser Grafik für die Spektralfunktionen ableiten?
*Im zitierten Beispiel haben wir festgestellt, dass sich die Autokorrelationsfunktion ${\it φ}_y(τ)$ von ${\it φ}_x(τ)$ nur um den konstanten Faktor $α^2$ unterscheidet.
*Damit ist klar, dass das Leistungsdichtespektrum ${\it Φ}_y(f)$ von ${\it \Phi}_x(f)$ ebenfalls nur um diesen konstanten Faktor $α^2$ abweicht. Beide Spektralfunktionen sind reell.
*Dagegen besitzt das Kreuzleistungsdichtespektrum einen komplexen Funktionsverlauf:
$${\it \Phi}_{xy}(f) ={\it \Phi}^\star_{yx}(f)= \alpha \cdot {\it \Phi}_{x}(f) \hspace{0.05cm}\cdot {\rm e}^{- {\rm j } \hspace{0.02cm}\pi f t_0}.$$

{{end}}

{{Display}}

Theory of Stochastic Signals/Power-Spectral Density

2017-01-26T20:05:51Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Autokorrelationsfunktion (AKF)
|Nächste Seite=Kreuzkorrelationsfunktion und Kreuzleistungsdichte
}}
==Theorem von Wiener-Chintchine==
Im Weiteren beschränken wir uns auf ergodische Prozesse. Wie im [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Zufallsprozesse_.281.29|Kapitel 4.4]] gezeigt wurde, gelten dann die folgenden Aussagen:
*Jede einzelne Musterfunktion $x_i(t)$ ist repräsentativ für den gesamten Zufallsprozess { $x_i(t)$}. Alle Zeitmittelwerte sind somit identisch mit den dazugehörigen Scharmittelwerten.
*Die Autokorrelationsfunktion, die allgemein von den beiden Zeitparametern $t_1$ und $t_2$ beeinflusst wird, hängt nur noch von der Zeitdifferenz $τ = t_2 – t_1$ ab:
$$\varphi_x(t_1,t_2)={\rm E}[x(t_{\rm 1})\cdot x(t_{\rm 2})] = \varphi_x(\tau)= \int^{+\infty}_{-\infty}x(t)\cdot x(t+\tau)\,{\rm d}t.$$

Diese Funktion liefert quantitative Aussagen über die (linearen) statistischen Bindungen innerhalb des ergodischen Prozesses { $x_i(t)$} im Zeitbereich. Die äquivalente Beschreibungsgröße im Frequenzbereich ist die ''spektrale Leistungsdichte,'' häufig auch als ''Leistungsdichtespektrum'' (LDS) bezeichnet.

{{Definition}}
Das Leistungsdichtespektrum (LDS) eines ergodischen Zufallsprozesses { $x_i(t)$} ist die Fouriertransformierte der Autokorrelationsfunktion (AKF):
$${\Phi}_x(f)=\int^{+\infty}_{-\infty}\varphi_x(\tau) \cdot {\rm e}^{- {\rm j\pi} f \tau} {\rm d} \tau. $$
Diesen Funktionalzusammenhang nennt man das Theorem von [https://de.wikipedia.org/wiki/Norbert_Wiener Wiener] und [https://de.wikipedia.org/wiki/Alexander_Jakowlewitsch_Chintschin Chintchine].
{{end}}

Ebenso kann die AKF als Fourierrücktransformierte des LDS berechnet werden (siehe [[Signaldarstellung/Fouriertransformation_und_-rücktransformation|Kapitel 3.1 des Buches Signaldarstellung]]):
$$ \varphi_x(\tau)=\int^{+\infty}_{-\infty} \Phi_x(f) \cdot {\rm e}^{{\rm j\pi} f \tau} {\rm d} f.$$
Die beiden Gleichungen sind nur dann direkt anwendbar, wenn der Zufallsprozess weder einen Gleichanteil noch periodische Anteile beinhaltet. Andernfalls muss man nach den Angaben auf Seite 4 dieses Abschnitts vorgehen: [[Stochastische_Signaltheorie/Leistungsdichtespektrum_(LDS)#Leistungsdichtespektrum_mit_Gleichsignalkomponente|Spektrale Leistungsdichte mit Gleichsignalkomponente]].

==Physikalische Interpretation und Messung==
Das folgende Bild zeigt eine Anordnung zur (näherungsweisen) messtechnischen Bestimmung des Leistungsdichtespektrums $Φ_x(f)$.

[[File: P_ID387__Sto_T_4_5_S2_neu.png | Zur Messung des Leistungsdichtespektrums]]

Hierzu ist folgendes anzumerken:
*Das Zufallssignal $x(t)$ wird auf ein (möglichst) rechteckförmiges und (möglichst) schmalbandiges Filter mit Mittenfrequenz $f$ und Bandbreite $Δf$ gegeben, wobei $Δf$ entsprechend der gewünschten Frequenzauflösung hinreichend klein gewählt werden muss.
*Das entsprechende Ausgangssignal $x_f(t)$ wird quadriert und anschließend der Mittelwert über eine hinreichend lange Messdauer $T_{\rm M}$ gebildet. Damit erhält man die Leistung von $x_f(t)$ bzw. die Leistungsanteile von $x(t)$ im Spektralbereich von $f – Δf/2$ bis $f + Δf/2$:
$$P_{xf} =\overline{x_f(t)^2}=\frac{1}{T_{\rm M}}\cdot\int^{T_{\rm M}}_{0}x_f(t)^2 \hspace{0.1cm}\rm d \it t.$$
*Die Division durch $Δf$ führt von der spektralen Leistung zur spektralen Leistungsdichte:
$${\Phi_{x \rm +}}(f) =\frac{P_{xf}}{{\rm \Delta} f} \hspace {0.5cm} {\rm bzw.} \hspace {0.5cm} \Phi_{x}(f) = \frac{P_{xf}}{{\rm 2 \cdot \Delta} f}.$$
:Hierbei bezeichnet $Φ_{x+}(f) = 2 · Φ_x(f)$ das einseitige, nur für positive Frequenzen definierte LDS. Für negative Frequenzen ist $Φ_{x+}(f) =$ 0. Im Gegensatz dazu gilt für das üblicherweise verwendete zweiseitige LDS: $Φ_x(–f) = Φ_x(f)$.
*Während die Leistung $P_{xf}$ mit kleiner werdender Bandbreite $Δf$ gegen Null tendiert, bleibt die spektrale Leistungsdichte ab einem hinreichend kleinen Wert von $Δf$ nahezu konstant.
*Für die exakte Bestimmung von $Φ_x(f)$ sind zwei Grenzübergänge notwendig:
$${\Phi_x(f)} = \lim_{{\rm \Delta}f\to 0} \hspace{0.2cm} \lim_{T_{\rm M}\to\infty}\hspace{0.2cm} \frac{1}{{\rm 2 \cdot \Delta}f\cdot T_{\rm M}}\cdot\int^{T_{\rm M}}_{0}x_f^2(t) \hspace{0.1cm} \rm d \it t.$$

Aus dieser physikalischen Interpretation folgt weiter, dass das LDS stets reell ist und nie negativ werden kann. Die gesamte Signalleistung von $x(t)$ erhält man dann durch Integration über alle Spektralanteile:
$$P_x = \int^{\infty}_{0}\Phi_{x \rm +}(f) \hspace{0.1cm}{\rm d} f = \int^{+\infty}_{-\infty}\Phi_x(f)\hspace{0.1cm} {\rm d} f .$$

==Reziprozitätsgesetz von AKF-Zeitdauer und LDS-Bandbreite (1)==
Alle [[Signaldarstellung/Gesetzmäßigkeiten_der_Fouriertransformation|Gesetzmäßigkeiten der Fouriertransformation]], hergeleitet im Kapitel 3.2 des Buches „Signaldarstellung” für deterministische Signale, können auch auf die Autokorrelationsfunktion (AKF) und das Leistungsdichtespektrum (LDS) eines Zufallsprozesses angewendet werden. Aufgrund der spezifischen Eigenschaften von AKF (stets reell und gerade) und LDS (stets reell, gerade und nicht-negativ) liefern allerdings nicht alle Gesetze sinnvolle Ergebnisse.

[[File:P_ID390__Sto_T_4_5_S3_Ganz_neu.png | Zum Reziprozitätsgesetz von AKF und LDS]]

Wir betrachten nun wie im Abschnitt [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Interpretation_der_Autokorrelationsfunktion|Interpretation der Autokorrelationsfunktion]] im Kapitel 4.4 zwei unterschiedliche ergodische Zufallsprozesse { $x_i(t)$} und { $y_i(t)$} anhand
*der beiden Mustersignale $x(t)$ bzw. $y(t)$ ⇒ obere Skizze,
*der beiden Autokorrelationsfunktionen $φ_x(τ)$ bzw. $φ_y(τ)$ ⇒ mittlere Skizze,
*der beiden Leistungsdichtespektren $Φ_x(f)$ bzw. $Φ_y(f)$ ⇒ untere Skizze.

Die Interpretation dieser Grafiken erfolgt im nächsten Abschnitt.

==Reziprozitätsgesetz von AKF-Zeitdauer und LDS-Bandbreite (2)==
Anhand der zuletzt gezeigten [[Stochastische_Signaltheorie/Leistungsdichtespektrum_(LDS)#Reziprozit.C3.A4tsgesetz_von_AKF-Zeitdauer_und_LDS-Bandbreite_.281.29|Grafiken]] sind folgende Aussagen möglich:
*Die Flächen unter den LDS-Kurven sind gleich ⇒ die Prozesse besitzen gleiche Leistung:
$${\varphi_x({\rm 0})}\hspace{0.05cm} =\hspace{0.05cm} \int^{+\infty}_{-\infty}{\Phi_x(f)} \hspace{0.1cm} {\rm d} f \hspace{0.2cm} = \hspace{0.2cm}{\varphi_y({\rm 0})} = \int^{+\infty}_{-\infty}{\Phi_y(f)} \hspace{0.1cm} {\rm d} f .$$
*Das aus der klassischen (deterministischen) Systemtheorie bekannte Reziprozitätsgesetz von Zeitdauer und Bandbreite gilt hier ebenfalls: Eine schmale Autokorrelationsfunktion entspricht einem breiten Leistungsdichtespektrum und umgekehrt.
*Als Beschreibungsgröße verwenden wir hier die äquivalente LDS-Bandbreite $∇f$ (man spricht ''Nabla-f''), ähnlich definiert wie die äquivalente AKF-Dauer $∇τ$ in Kapitel 4.4:
$${{\rm \nabla} f_x} = \frac {1}{\Phi_x(f = {\rm 0})} \cdot \int^{+\infty}_{-\infty}{\Phi_x(f)} \hspace{0.1cm} {\rm d} f, \hspace{0.5cm}{ {\rm \nabla} \tau_x} = \frac {\rm 1}{ \varphi_x(\tau = \rm 0)} \cdot \int^{+\infty}_{-\infty}{\varphi_x(\tau )} \hspace{0.1cm} {\rm d} \tau.$$
*Mit diesen Definitionen gilt der folgende grundlegende Zusammenhang:
$${{\rm \nabla} \tau_x} \cdot {{\rm \nabla} f_x} = 1\hspace{1cm}{\rm bzw.}\hspace{1cm}
{{\rm \nabla} \tau_y} \cdot {{\rm \nabla} f_y} = 1.$$

{{Beispiel}}
Wir gehen wieder von der zuletzt gezeigten Grafik aus:
*Die Kenngrößen des höherfrequenten Signals $x(t)$ sind $∇τ_x =$ 0.33 μs und $∇f_x =$ 3 MHz.
*Die äquivalente AKF-Dauer des Signals $y(t)$ ist dreimal so groß: $∇τ_y =$ 1 μs.
*Die äquivalente LDS-Bandbreite beträgt somit nur mehr $∇f_y = ∇f_x/3 =$ 1 MHz.

{{end}}

{{Box}}
'''Beweis:''' Entsprechend den obigen Definitionen gilt:
$${{\rm \nabla} \tau_x} = \frac {\rm 1}{ \varphi_x(\tau = \rm 0)} \cdot \int^{+\infty}_{-\infty}{ \varphi_x(\tau )} \hspace{0.1cm} {\rm d} \tau = \frac {\Phi_x(f = {\rm 0)}}{ \varphi_x(\tau = \rm 0)},$$
$${{\rm \nabla} f_x} = \frac {1}{ \Phi_x(f = {\rm0})} \cdot \int^{+\infty}_{-\infty}{\Phi_x(f)} \hspace{0.1cm} {\rm d} f = \frac {\varphi_x(\tau = {\rm 0)}}{\Phi_x(f = \rm 0)}.$$
⇒ Das Produkt aus äquivalenter AKF-Dauer und äquivalenter LDS-Bandbreite ist gleich 1.
{{end}}

Ein Grenzfall des Reziprozitätsgesetzes stellt das so genannte Weiße Rauschen dar. Dieses beinhaltet alle Spektralanteile (bis ins Unendliche) und die äquivalente LDS-Bandbreite $∇f$ ist unendlich groß. Das hier angegebene Gesetz besagt dann, dass damit für die äquivalente AKF-Dauer $∇τ =$ 0 gelten muss; die AKF des weißen Rauschens ist diracförmig.

Mehr zu dieser Thematik finden Sie in den nachfolgenden Lernvideos, insbesondere im Teil 2:

Der AWGN-Kanal – Teil 1 (Dauer 6:00)
Der AWGN-Kanal – Teil 2 (Dauer 5:15)
Der AWGN-Kanal – Teil 3 (Dauer 6:15)

==Leistungsdichtespektrum mit Gleichsignalkomponente==
Wir gehen zunächst von einem gleichsignalfreien Zufallsprozess { $x_i(t)$} aus. Weiterhin setzen wir voraus, dass der Prozess keinen Gleichanteil und keine periodischen Anteile beinhaltet. Dann gilt:
*Die Autokorrelationsfunktion (AKF) $φ_x(τ)$ verschwindet für $τ → ∞$.
*Das Leistungsdichtespektrum (LDS) $Φ_x(f)$ – berechenbar als die Fouriertransformierte von $φ_x(τ)$ – ist sowohl wert– als auch zeitkontinuierlich und weist keine diskreten Anteile auf.

Wir betrachten nun einen zweiten Zufallsprozess { $y_i(t)$}, der sich vom Prozess { $x_i(t)$} lediglich durch eine zusätzliche Gleichsignalkomponente unterscheidet:
$$\left\{ y_i (t) \right\} = \left\{ x_i (t) + m_y \right\}.$$

Die statistischen Beschreibungsgrößen des mittelwertbehafteten Zufallsprozesses { $y_i(t)$} weisen dann folgende Eigenschaften auf:
*Der Grenzwert der Autokorrelationsfunktion für $τ → ∞$ ist nun nicht mehr Null, sondern $m_y^2$. Im gesamten $τ$-Bereich von $–∞$ bis $+∞$ ist die AKF $φ_y(τ)$ um $m_y^2$ größer als $φ_x(τ)$:
$${\varphi_y ( \tau)} = {\varphi_x ( \tau)} + m_y^2 . $$
*Nach den elementaren Gesetzen der Fouriertransformation führt der konstante AKF-Beitrag im Leistungsdichtespektrum zu einer Diracfunktion $δ(f)$ mit dem Gewicht $m_y^2$:
$${\Phi_y ( f)} = {\Phi_x ( f)} + m_y^2 \cdot \delta (f). $$

Nähere Informationen zur Diracfunktion sind im [[Signaldarstellung/Allgemeine_Beschreibung/Gleichsignal_-_Grenzfall_eines_periodischen_Signals#Zeitsignaldarstellung|Kapitel 2.2]] des Buches „Signaldarstellung” zu finden. Weiterhin möchten wir Sie auf das folgende Lernvideo hinweisen:

Herleitung und Visualisierung der Diracfunktion (Dauer: 2:50)

==Numerische LDS-Ermittlung==
Autokorrelationsfunktion und Leistungsdichtespektrum sind über die [[Signaldarstellung/Fouriertransformation_und_-rücktransformation#Fouriertransformation|Fouriertransformation]] streng miteinander verknüpft. Dieser Zusammenhang gilt auch bei zeitdiskreter AKF-Darstellung, also für
$${\rm A} \{ \varphi_x ( \tau ) \} = \varphi_x ( \tau ) \cdot \sum_{k= - \infty}^{\infty} T_{\rm A} \cdot \delta ( \tau - k \cdot T_{\rm A}).$$

Der Übergang vom Zeit- in den Spektralbereich kann mit folgenden Schritten hergeleitet werden:
*Der Abstand $T_{\rm A}$ zweier Abtastwerte ist durch die absolute Bandbreite $B_x$ (maximal auftretende Frequenz innerhalb des Prozesses) über das Abtasttheorem festgelegt:
$$T_{\rm A}\le\frac{1}{2B_x}.$$
*Die Fouriertransformierte der zeitdiskreten AKF ergibt ein mit ${\rm 1}/T_{\rm A}$ periodisches LDS:
$${\rm A} \{ \varphi_x ( \tau ) \} \hspace{0.3cm} \circ\!\!-\!\!\!-\!\!\!-\!\!\bullet\, \hspace{0.3cm} {\rm P} \{{\Phi_x} ( f) \} = \sum_{\mu = - \infty}^{\infty} {\Phi_x} ( f - \frac {\mu}{T_{\rm A}}).$$
*Da sowohl $φ_x(τ)$ als auch $Φ_x(f)$ gerade und reelle Funktionen sind, gilt der Zusammenhang:
$${\rm P} \{{\Phi_x} ( f) \} = T_{\rm A} \cdot \varphi_x ( k = 0) +2 T_{\rm A} \cdot \sum_{k = 1}^{\infty} \varphi_x ( k T_{\rm A}) \cdot {\rm cos}(2{\rm \pi} k T_{\rm A}).$$
*Das Leistungsdichtespektrum (LDS) des zeitkontinuierlichen Prozesses erhält man aus P{ $Φ_x(f)$} durch Bandbegrenzung auf den Frequenzbereich $|f| ≤ 1/(2T_{\rm A})$.
*Im Zeitbereich bedeutet diese Operation eine Interpolation der einzelnen AKF-Abtastwerte mit der si-Funktion, wobei ${\rm si}(x)$ für $\sin(x)/x$ steht.

{{Beispiel}}
Eine gaußförmige AKF $φ_x(τ)$ wird im Abstand $T_{\rm A}$ abgetastet; das Abtasttheorem ist erfüllt. Die Fouriertransformierte der zeitdiskreten AKF A{ $φ_x(τ)$} wird mit P{ $Φ_x(f)$} bezeichnet. Dieses ist periodisch mit ${\rm 1}/T_{\rm A}$ und dementsprechend unendlich weit ausgedehnt. In der Grafik ist P{ $Φ_x(f)$} als roter Kurvenzug zu erkennen.

[[File:P_ID425__Sto_T_4_5_S5_neu.png | Zeitdiskrete AKF und periodisch fortgesetztes LDS]]

Das LDS $Φ_x(f)$ des zeitkontinuierlichen Prozesses { $x(t)$} erhält man durch Bandbegrenzung auf den im Bild blau hinterlegten Frequenzbereich $|f · T_{\rm A}|$ ≤ 0.5.
{{end}}

==Genauigkeit der numerischen LDS-Berechnung (1)==
Für die nachfolgende Analyse gehen wir von folgenden Annahmen aus:
*Die zeitdiskrete AKF $φ_x(k · T_{\rm A})$ wurde aus $N$ Abtastwerten numerisch ermittelt. Wie bereits auf der Seite [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Genauigkeit_der_numerischen_AKF-Berechnung_.281.29|Genauigkeit der numerischen AKF-Berechnung]] gezeigt wurde, sind diese Werte fehlerhaft und die Fehler korreliert, wenn $N$ nicht hinreichend groß gewählt wurde.
*Zur Berechnung des periodischen Leistungsdichtespektrums (LDS) verwenden wir nur die AKF-Werte $φ_x(0), ... , φ_x(K · T_{\rm A})$:
$${\rm P} \{{\Phi_x} ( f) \} = T_{\rm A} \cdot \varphi_x ( k = 0) +2 T_{\rm A} \cdot \sum_{k = 1}^{K} \varphi_x ( k T_{\rm A})\cdot {\rm cos}(2{\rm \pi} k T_{\rm A}).$$

Die Genauigkeit der LDS-Berechnung wird im starken Maße durch den Parameter $K$ bestimmt:
*Ist $K$ zu klein gewählt, so werden die AKF-Werte $φ_x(k · T_{\rm A})$ mit $k > K$ nicht berücksichtigt.
*Ist $K$ zu groß gewählt, so werden auch solche AKF-Werte berücksichtigt, die eigentlich Null sein sollten und nur durch die numerische AKF-Berechnung endliche Werte besitzen.
*Diese Werte sind allerdings – bedingt durch ein zu kleines $N$ bei der AKF–Ermittlung – nur Fehler, und beinträchtigen die LDS-Berechnung mehr als dass sie einen brauchbaren Beitrag zum Ergebnis liefern.

Diese Aussagen werden nachfolgend anhand eines Beispiels verdeutlicht.

==Genauigkeit der numerischen LDS-Berechnung (2)==

{{Beispiel}}
Wir betrachten hier einen mittelwertfreien Prozess mit statistisch unabhängigen Abtastwerten, so dass nur der AKF–Wert $φ_x(0) = σ_x^2$ von 0 verschieden ist. Ermittelt man die AKF numerisch aus lediglich $N =$ 1000 Abtastwerten, so erhält man auch für $k$ ≠ 0 endliche AKF–Werte. Das obere Bild zeigt, dass diese fehlerhaften Werte bis zu 6% des Maximalwertes betragen können.

[[File:P_ID643__Sto_T_4_5_S5_b.png | Genauigkeit der numerischen LDS-Berechnung]]

Unten ist das numerisch ermittelte LDS dargestellt. Die gelbe Kurve zeigt den theoretischen Verlauf, der im Bereich $|f · T_{\rm A}|$ ≤ 0.5 konstant sein sollte. Die grüne und die violette Kurve verdeutlichen, wie durch $K =$ 3 bzw. $K =$ 10 das Ergebnis gegenüber $K =$ 0 verfälscht wird.

In diesem Fall (statistisch unabhängige Zufallsgrößen) wächst der Fehler monoton mit steigendem $K$. Bei einer Zufallsgröße mit statistischen Bindungen gibt es dagegen jeweils einen optimalen Wert für $K$. Wird dieser zu klein gewählt, so werden signifikante Bindungen nicht berücksichtigt. Ein zu großer Wert führt dagegen zu Oszillationen, die nur auf fehlerhafte AKF–Werte zurückzuführen sind.
{{end}}

{{Display}}

Theory of Stochastic Signals/Auto-Correlation Function

2017-01-26T19:50:56Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Linearkombinationen von Zufallsgrößen
|Nächste Seite=Leistungsdichtespektrum (LDS)
}}
==Zufallsprozesse (1)==
Ein wichtiger Begriff der stochastischen Signaltheorie ist der Zufallsprozess. Nachfolgend sind einige Charakteristika eines solchen ''stochastischen Prozesses'' – diese Bezeichnungen werden sowohl in der Literatur als auch in unserem Tutorial synonym verwendet – zusammengestellt:
*Unter einem Zufallsprozess { $x_i(t)$} verstehen wir ein ''mathematisches Modell'' für ein Ensemble von (vielen) Zufallssignalen, die sich zwar im Detail durchaus voneinander unterscheiden können, trotzdem aber gewisse gemeinsame Eigenschaften aufweisen.
*Zur Beschreibung eines Zufallsprozesses { $x_i(t)$} gehen wir von der Vorstellung aus, dass beliebig viele, in ihren physikalischen und statistischen Eigenschaften völlig gleiche Zufallsgeneratoren vorhanden sind, von denen jeder ein Zufallssignal $x_i(t)$ liefert.
*Jeder Zufallsgenerator gibt trotz gleicher physikalischer Realisierung ein anderes Zeitsignal $x_i(t)$ ab, das für alle Zeiten von $–∞$ bis $+∞$ existiert. Man bezeichnet dieses spezifische Zufallssignal als das $i$-te ''Mustersignal.''
*Jeder Zufallsprozess beinhaltet mindestens eine stochastische Komponente – zum Beispiel die Amplitude, Frequenz oder Phase eines Nachrichtensignals – und kann daher von einem Beobachter nicht exakt vorausgesagt werden.
*Der Zufallsprozess unterscheidet sich von den sonst in der Wahrscheinlichkeitsrechnung bzw. der Statistik üblichen Zufallsexperimenten dadurch, dass das Ergebnis kein ''Ereignis'' ist, sondern ein ''Funktionsverlauf'' (Zeitsignal).
*Betrachtet man den Zufallsprozess { $x_i(t)$} zu einem festen Zeitpunkt, so gelangt man wieder zu dem einfacheren Modell von [[Stochastische_Signaltheorie/Wahrscheinlichkeit_und_relative_Häufigkeit|Kapitel 2.1]], nach dem das Versuchsergebnis ein Ereignis ist, das einer Zufallsgröße zugeordnet werden kann.

==Zufallsprozesse (2)==
Die Aussagen der vorherigen Seite werden nun am Beispiel eines binären Zufallsgenerators verdeutlicht, der – zumindest gedanklich – beliebig oft realisiert werden kann.

[[File:P_ID369__Sto_T_4_4_S1_neu.png | Zur Definition der Zufallsprozesse]]

Die Grafik zeigt drei unterschiedliche Mustersignale mit folgenden Eigenschaften:
*Der hier vorliegende Zufallsprozess { $x_i(t)$} besteht aus einem Ensemble rechteckförmiger Musterfunktionen, die jeweils wie folgt beschrieben werden können:
$$x_i(t)=\sum^{+\infty}_{\nu=-\infty} (a_\nu)_i\cdot g(t-\nu \cdot T ).$$
*Der Grundimpuls $g(t)$ besitzt im Bereich von $–T/2$ bis $+T/2$ den Wert 2V; außerhalb ist er 0. Unter einem Impuls verstehen wir gemäß der Definition im Buch [[Signaldarstellung]] ein sowohl ''deterministisches'' als auch ''energiebegrenztes'' Signal.
*Die Statistik des hier betrachteten Zufallsprozesses ist aomit allein auf die dimensionslosen Amplitudenkoeffizienten $(a_ν)_i ∈$ {0, 1} zurückzuführen, die bei der $i$-ten Musterfunktion mit dem Zeitindex $ν$ versehen sind.
*Trotz der im Detail unterschiedlichen Signalverläufe weisen die skizzierten Mustersignale $x_1(t), x_2(t) , x_3(t)$ und auch alle weiteren Mustersignale $x_4(t), x_5(t), x_6(t),$ ... gewisse Gemeinsamkeiten auf, die nachfolgend herausgearbeitet werden sollen.

==Stationäre Zufallsprozesse==
Definiert man den Momentanwert aller Musterfunktionen $x_i(t)$ zu einem festen Zeitpunkt $t = t_1$ als eine neue Zufallsgröße $x_1 =$ { $x_i(t_1)$}, so lassen sich deren statistische Eigenschaften nach den Aussagen von [[Stochastische_Signaltheorie|Kapitel 2 und Kapitel 3]] beschreiben. In gleicher Weise erhalten wir für den Betrachtungszeitpunkt $t = t_2$ die Zufallsgröße $x_2 =$ { $x_i(t_2)$}.

''Hinweis:'' Beachten Sie bitte, dass $x_1(t)$ und $x_2(t)$ Musterfunktionen des Zufallsprozesses { $x_i(t)$} sind, während die Zufallsgrößen $x_1$ und $x_2$ den Prozess zu den Zeiten $t_1$ und $t_2$ charakterisieren.

[[File:P_ID370__Sto_T_4_4_S2_neu.png | Zur Definition stationärer Zufallsprozesse]]

Die Berechnung der statistischen Kenngrößen muss durch Scharmittelung über alle möglichen Musterfunktionen erfolgen (Mittelung über die Laufvariable $i$, also über alle Realisierungen).

{{Definition}}
Bei einem stationären Zufallsprozess { $x_i(t)$} sind alle statistischen Kenngrößen der Zufallsgrößen $x_1$ und $x_2$ gleich. Auch zu jedem anderen Zeitpunkt ergeben sich genau gleiche Werte.
{{end}}

Die Umkehrung lautet: Man bezeichnet einen Zufallsprozess { $x_i(t)$} als ''nichtstationär,'' wenn er zu verschiedenen Zeitpunkten unterschiedliche statistische Eigenschaften (Mittelwert, Streuung, Momente höherer Ordnung, Auftrittswahrscheinlichkeiten, etc.) aufweist.

{{Beispiel}}
Eine große Anzahl von Mess-Stationen am Äquator ermitteln täglich um 12 Uhr Ortszeit die Temperatur. Mittelt man über all diese Messwerte, so kann man den Einfluss lokaler Indikatoren (z. B. Golfstrom) eliminieren. Trägt man die Mittelwerte (Scharmittelung) über der Zeit auf, so wird sich nahezu eine Konstante ergeben, und man kann von einem ''stationären Prozess'' sprechen.

Eine vergleichbare Messreihe am 50. Breitengrad würde aufgrund der jahreszeitlichen Schwankungen auf einen ''nichtstationären Prozess'' hinweisen mit deutlichen Unterschieden hinsichtlich Mittelwert und Varianz der Mittagstemperatur zwischen Januar und Juli.
{{end}}

==Ergodische Zufallsprozesse==
Eine wichtige Unterklasse der stationären Zufallsprozesse sind die so genannten ergodischen Prozesse mit folgenden Eigenschaften:
*Bei einem ergodischen Prozess { $x_i(t)$} ist jede einzelne Musterfunktion $x_i(t)$ repräsentativ für das gesamte Ensemble.
*Alle statistischen Beschreibungsgrößen eines ergodischen Prozesses kann man aus einer einzigen Musterfunktion durch Zeitmittelung (bezüglich der Laufvariablen $ν$) gewinnen.
*Das bedeutet auch: Bei Ergodizität stimmen die Zeitmittelwerte einer jeden Musterfunktion mit den entsprechenden Scharmittelwerten zu beliebigen Zeitpunkten überein.
*Beispielsweise gilt bei Ergodizität für das Moment $k$-ter Ordnung:
$$m_k=\overline{x^k(t)}={\rm E}[x^k].$$

Die überstreichende Linie kennzeichnet hierbei den Zeitmittelwert, während der Scharmittelwert durch Erwartungswertswertbildung E[ ... ] zu ermitteln ist, wie in [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|Kapitel 2.2]] beschrieben.

[[File:P_ID371__Sto_T_4_4_S3_neu.png | Zur Definition ergodischer Zufallsprozesse]]

'''Anmerkung:''' Die Ergodizität lässt sich aus einer endlichen Anzahl von Musterfunktionen und endlichen Signalausschnitten nicht nachweisen. Allerdings wird in den meisten Anwendungen zwar hypothetisch – aber trotzdem durchaus berechtigt – von Ergodizität ausgegangen. Anhand der gefundenen Ergebnisse muss anschließend die Plausibilität dieser Ergodizitätshypothese überprüft werden.

==Allgemeingültige Beschreibung von Zufallsprozessen==
Ist der zu analysierende Zufallsprozess { $x_i(t)$} nicht stationär und damit mit Sicherheit auch nicht ergodisch, so müssen die Momente stets als Scharmittelwerte bestimmt werden. Im Allgemeinen sind diese zeitabhängig:
$$m_k(t_1) \ne m_k(t_2).$$
Da durch die Momente aber auch die [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente#Charakteristische_Funktion|charakteristische Funktion]] (Fourierrücktransformierte der WDF)
$$ C_x(\Omega) ={\rm\sum^{\infty}_{{\it k}=0}}\frac{m_k}{k!}\cdot \Omega^{k}\circ\!\!-\!\!\!-\!\!\!-\!\!\bullet\,f_{\rm x}(x)$$
festliegt, ist die Wahrscheinlichkeitsdichtefunktion $f_{\rm x}(x)$ ebenfalls zeitabhängig.

Sollen nun nicht nur die Amplitudenverteilungen zu den verschiedenen Zeitpunkten $t_1, t_2,$ ... ermittelt werden, sondern auch die statistischen Bindungen zwischen den Signalwerten zu diesen Zeiten, so muss man auf die zweidimensionale Verbundwahrscheinlichkeitsdichtefunktion übergehen.

Betrachtet man beispielsweise die beiden Zeitpunkte $t_1$ und $t_2$, so ist folgendes zu vermerken:
*Die 2D-WDF ergibt sich entsprechend den Angaben in [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen|Kapitel 4.1]] mit $x = x(t_1)$ und $y = x(t_2)$. Es ist offensichtlich, dass bereits die Ermittlung dieser Größe sehr aufwändig ist.
*Berücksichtigt man weiter, dass zur Erfassung aller statistischen Bindungen innerhalb des Zufallsprozesses eigentlich die $n$-dimensionale Verbundwahrscheinlichkeitsdichtefunktion (VWDF) herangezogen werden müsste, wobei möglichst noch der Grenzwert $n → ∞$ zu bilden ist, so erkennt man die Schwierigkeiten für die Lösung praktischer Probleme.
*Aus diesen Gründen geht man zur Beschreibung der statistischen Bindungen eines Zufallsprozesses auf die Autokorrelationsfunktion über, die nachfolgend definiert wird.

==Allgemeine Definition der Autokorrelationsfunktion==
{{Definition}}
Die Autokorrelationsfunktion (AKF) eines beliebigen Zufallsprozesses { $x_i(t)$} ist gleich dem Erwartungswert des Produkts der Signalwerte zu zwei Zeitpunkten $t_1$ und $t_2$:
$$\varphi_x(t_1,t_2)={\rm E}[x(t_{\rm 1})\cdot x(t_{\rm 2})].$$
Diese Definition gilt unabhängig davon, ob der Zufallsprozess ergodisch oder nichtergodisch ist, und sie gilt auch für nichtstationäre Prozesse.
{{end}}

Ein Vergleich mit [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen|Kapitel 4.1]] zeigt, dass der AKF-Wert $φ_x(t_1, t_2)$ das gemeinsame Moment $m_{11}$ zwischen den beiden Zufallsgrößen $x(t_1)$ und $x(t_2)$ angibt.

''Hinweis:'' Um den Zusammenhang mit der [[Stochastische_Signaltheorie/Kreuzkorrelationsfunktion_und_Kreuzleistungsdichte|Kreuzkorrelationsfunktion]] $φ_{xy}$ zwischen den beiden statistischen Größen $x$ und $y$ deutlich zu machen (siehe Kapitel 4.6), wird in mancher Literatur für die AKF auch häufig die Schreibweise $φ_{xx}(t_1, t_2)$ verwendet.

Während für exakte Aussagen hinsichtlich der statistischen Bindungen eines Zufallsprozesses eigentlich die $n$-dimensionale Verbunddichte (mit $n → ∞$) benötigt wird, werden durch den Übergang auf die Autokorrelationsfunktion implizit folgende Vereinfachungen getroffen:
*Anstelle von unendlich vielen Zeitpunkten werden hier nur zwei betrachtet.
*Anstelle aller Momente $m_{kl}$ zu den beiden Zeitpunkten $t_1$ und $t_2$ mit $k, l ∈$ {1, 2, 3, ...} wird hier nur das gemeinsame Moment $m_{11}$ erfasst.
*Das Moment $m_{11}$ gibt ausschließlich die lineare Abhängigkeit (Korrelation) des Prozesses wieder. Alle statistische Bindungen höherer Ordnung werden dagegen nicht berücksichtigt.
*Deshalb sollte bei der Bewertung von Zufallsprozessen mittels AKF stets berücksichtigt werden, dass diese nur sehr beschränkte Aussagen über die statistischen Bindungen erlaubt.

Die obige Definition der Autokorrelationsfunktion gilt allgemein, also auch für nichtstationäre und nichtergodische Prozesse. Ein Beispiel eines nichtstationären Vorgangs ist das Auftreten von Impulsstörungen im Fernsprechnetz, verursacht durch Wählimpulse in benachbarten Leitungen. Bei Digitalsignalübertragung führen solche nichtstationären Störprozesse meist zu Bündelfehlern.

==Autokorrelationsfunktion bei ergodischen Prozessen (1)==
Im Folgenden beschränken wir uns auf stationäre und ergodische Prozesse. Ein solcher Prozess { $x_i(t)$} wird zum Beispiel bei der Untersuchung von Thermischem Rauschen zugrunde gelegt. Dabei wird von der Vorstellung ausgegangen, dass beliebig viele, in ihren physikalischen und statistischen Eigenschaften völlig gleiche Widerstände vorhanden sind, von denen jeder ein anderes Zufallssignal $x_i(t)$ abgibt.

[[File:P_ID372__Sto_T_4_4_S6_neu.png | Zur Autokorrelationsfunktion bei ergodischen Prozessen]]

Zu dieser Grafik ist anzumerken:
*Die einzelnen Musterfunktionen $x_i(t)$ können zu allen beliebigen Zeiten alle beliebigen Werte annehmen. Das bedeutet, dass der hier betrachtete Zufallsprozess { $x_i(t)$} sowohl wert– als auch zeitkontinuierlich ist.
*Auch wenn über die tatsächlichen Signalwerte der einzelnen Musterfunktionen aufgrund der Stochastik keine Aussagen getroffen werden können, so sind die Momente und die WDF zu allen Zeitpunkten gleich.
*In obiger Grafik ist aus Gründen einer verallgemeinerten Darstellung auch ein Gleichanteil $m_x$ berücksichtigt, der bei Thermischem Rauschen nicht vorhanden ist.

==Autokorrelationsfunktion bei ergodischen Prozessen (2)==
{{Definition}}
Von einem stationären Zufallsprozess { $x_i(t)$} spricht man, wenn seine statistischen Eigenschaften invariant gegenüber Zeitverschiebungen sind. Für die Autokorrelationsfunktion (AKF) bedeutet diese Aussage, dass sie nicht mehr eine Funktion der beiden unabhängigen Zeitvariablen $t_1$ und $t_2$ ist, sondern nur noch von der Zeitdifferenz $τ = t_2 – t_1$ abhängt:
$$\varphi_x(t_1,t_2)\rightarrow{\varphi_x(\tau)={\rm E}[x(t)\cdot x(t+\tau)]}.$$
Die Scharmittelung kann dabei zu jeder beliebigen Zeit $t$ erfolgen.
{{end}}

Unter der weiteren Annahme eines ergodischen Zufallsprozesses können alle Momente auch durch Zeitmittelung über eine einzige ausgewählte Musterfunktion $x(t)$ ermittelt werden. Diese Zeitmittelwerte stimmen mit den entsprechenden Scharmittelwerten überein.

{{Box}}
Damit folgt für die AKF eines ergodischen Prozesses, dessen Mustersignale jeweils von $–∞$ bis $+∞$ reichen $(T_{\rm M}$ bezeichnet die Messdauer):
$$\varphi_x(\tau)=\overline{x(t)\cdot x(t+\tau)}=\lim_{T_{\rm M}\to\infty}\,\frac{1}{T_{\rm M}}\cdot\int^{T_{\rm M}/{\rm 2}}_{-T_{\rm M}/{\rm 2}}x(t)\cdot x(t+\tau)\,\,{\rm d}t.$$
Die überstreichende Linie kennzeichnet die Zeitmittelung über das unendlich ausgedehnte Zeitintervall.
{{end}}

Bei periodischen Signalen kann man auf den Grenzübergang verzichten, so dass in diesem Sonderfall die Autokorrelationsfunktion mit der Periodendauer $T_0$ auch in folgender Weise geschrieben werden kann:
$$\varphi_x(\tau)=\frac{1}{T_{\rm 0}}\cdot\int^{T_{\rm 0}/2}_{-T_{\rm 0}/2}x(t)\cdot x(t+\tau)\,\,{\rm d}t=\frac{1}{T_{\rm 0}}\cdot\int^{T_{\rm 0}}_{\rm 0}x(t)\cdot x(t+\tau)\,\,{\rm d}t .$$
Wichtig ist dabei nur, dass insgesamt genau über eine Periodendauer $T_0$ (oder Vielfache davon) gemittelt wird. Es ist egal, welcher Zeitausschnitt dabei verwendet wird.

==Eigenschaften der Autokorrelationsfunktion==
Nachfolgend sind wichtige Eigenschaften der Autokorrelationsfunktion (AKF) zusammengestellt:
*Ist der betrachtete Zufallsprozess reell, so gilt dies auch für seine AKF.
*Die AKF besitzt die Einheit einer Leistung, beispielsweise Watt („W”). Häufig bezieht man diese auf den Einheitswiderstand 1 Ω; in diesem Fall hat $φ_x(τ)$ die Einheit $„\rm V^2”$ bzw. $„\rm A^2”.$
*Die AKF ist immer eine gerade Funktion ⇒ $φ_x(–τ) = φ_x(τ)$. Alle Phasenbeziehungen des Zufallsprozesses gehen in der AKF verloren.
*Die AKF an der Stelle $τ =$ 0 gibt den quadratischen Mittelwert $m_2$ (Moment 2. Ordnung) und damit die gesamte Signalleistung (Gleich– und Wechselanteil) an:
$$\varphi_x(0)= m_2=\overline{ x^2(t)}.$$
*Das AKF–Maximum ist stets bei $τ =$ 0, und es gilt: $|φ_x(τ)| ≤ φ_x(0)$. Bei nichtperiodischen Prozessen ist für $τ ≠$ 0 der Betrag $|φ_x(τ)|$ stets kleiner als die Leistung $φ_x(0)$.
*Bei einem periodischen Zufallsprozess weist die AKF die gleiche Periodendauer $T_0$ wie die einzelnen Mustersignale $x_i(t)$ auf:
$$\varphi_x(\pm{T_0})=\varphi_x(\pm{2\cdot T_0})= \hspace{0.1cm}... \hspace{0.1cm}= \varphi_x(0).$$
*Der Gleichanteil $m_1$ eines nichtperiodischen Signals kann aus dem Grenzwert der AKF für $τ → ∞$ berechnet werden. Hierbei gilt:
$$\lim_{\tau\to\infty}\,\varphi_x(\tau)= m_1^2=[\overline{ x(t)}]^2.$$
*Dagegen schwankt bei Signalen mit periodischen Anteilen der Grenzwert der AKF für $τ → ∞$ um diesen Endwert (Quadrat des Gleichanteils).

==Interpretation der Autokorrelationsfunktion==
Das nachfolgende Bild zeigt oben je ein Mustersignal zweier verschiedener Prozesse { $x_i(t)$} und { $y_i(t)$}, unten die zugehörigen Autokorrelationsfunktionen. Der Prozess { $y_i(t)$} weist stärkere innere statistische Bindungen auf als { $x_i(t)$}. Spektral gesehen ist er niederfrequenter.

[[File: P_ID373__Sto_T_4_4_S8_neu.png | AKF von hochfrequenten und niederfrequenten Prozessen]]

Anhand dieser Grafiken sind folgende Aussagen möglich:
*Die beiden Mustersignale lassen bereits vermuten, dass beide Prozesse mittelwertfrei sind den gleichen Effektivwert aufweisen.
*Anhand der Autokorrelationsfunktionen werden diese Aussagen bestätigt. Die liearen Mittelwerte $m_x = m_y =$ 0 ergeben sich jeweils aus dem AKF-Grenzwert für $τ → ∞$.
*Wegen $m_x =$ 0 gilt für die Varianz: $σ_x^2 = φ_x(0) = 0.01 \rm V^2$, und der Effektivwert ist somit $σ_x = 0.1 \rm V$. Das Signal $y(t)$ weist die gleiche Varianz und und den gleichen Effektivwert auf.
*Die AKF-Werte fallen um so langsamer ab, je stärker die inneren statistischen Bindungen sind. Während sich das Signal $x(t)$ mit relativ schmaler AKF zeitlich sehr schnell ändert, reichen bei dem niederfrequenteren Signal $y(t)$ die statistischen Bindungen deutlich weiter.
*Das bedeutet aber auch, dass der Signalwert $y(t + τ)$ aus $y(t)$ besser vorhergesagt werden kann als $x(t + τ)$ aus $x(t)$.
*Eine quantitative Kenngröße für die Stärke der statistischen Bindungen ist die äquivalente AKF-Dauer $∇τ$, die sich aus der AKF über das flächengleiche Rechteck ermitteln lässt:
$${ {\rm \nabla} }\tau =\frac{1}{\varphi_x(0)}\cdot\int^{\infty}_{-\infty}\ \varphi_x(\tau)\,\,{\rm d}\tau. \hspace{2cm} \it {Hinweis:} \ {\rm Man \ spricht \ „Nabla–tau”.} $$
:Beim hier betrachteten Prozess (mit gaußähnlicher AKF) ist $∇τ =$ 0.33 μs bzw. $∇τ =$ 1 μs.
*Als ein weiteres Maß für die Stärke der statistischen Bindungen wird in der Literatur häufig die Korrelationsdauer $T_{\rm K}$ verwendet. Diese gibt die Zeitdauer an, bei der die AKF auf die Häfte ihres Maximalwertes abgefallen ist.

==Numerische AKF-Ermittlung (1)==
Bisher haben wir stets zeitkontinuierliche Signale $x(t)$ betrachtet, die für die Darstellung und Simulation mittels Digitalrechner ungeeignet sind. Hierzu ist eine zeitdiskrete Signaldarstellung $〈x_ν〉$ erforderlich, wie im [[Signaldarstellung/Zeitdiskrete_Signaldarstellung|Kapitel 5.1]] von Buch [[Signaldarstellung]] dargelegt. Hier eine kurze Zusammenfassung:

Das zeitdiskrete Signal $〈x_ν〉$ ist die Folge der Abtastwerte $x_ν = x(ν · T_{\rm A}).$ Das zeitkontinuierliche Signal $x(t)$ wird durch die Folge $〈x_ν〉$ vollständig beschrieben, wenn das Abtasttheorem erfüllt ist:
$$T_{\rm A} \le \frac{1}{\rm 2 \cdot B_x}.$$

$B_x$ bezeichnet hierbei die absolute (einseitige) Bandbreite des Analogsignals $x(t)$. Diese sagt aus, dass die Spektralfunktion $X(f)$ für alle Frequenzen $| f | > B_x$ gleich 0 ist.

{{Beispiel}}
Das Bild zeigt einen Ausschnitt eines Audiosignals der Dauer 10 Millisekunden. Obwohl das gesamte Signal ein breites Spektrum mit der Mittenfrequenz bei etwa 500 Hz besitzt, ist während des betrachteten Zeitintervalls ein (nahezu) periodisches Signal mit Periodendauer $T_0 =$ 4.3 Millisekunden zu erkennen. Daraus ergibt sich die Grundfrequenz zu etwa $f_0 =$ 230 Hz.

[[File:P_ID638__Sto_T_4_4_S9_ganz_neu.png | Abtastung eines Audiosignals]]

Blau eingezeichnet sind die Abtastwerte im Abstand $T_{\rm A} =$ 0.5 ms. Diese Folge $〈x_ν〉$ von Abtastwerten würde die gesamte Information über das Signal $x(t)$ beinhalten, wenn das Analogsignal $x(t)$ auf den Frequenzbereich bis 1 kHz begrenzt wäre. Sind im Signal $x(t)$ höhere Frequenzanteile enthalten, so muss $T_{\rm A}$ entsprechend kleiner gewählt werden.
{{end}}

Da nun die Signalwerte nur zu diskreten Zeitpunkten (bei Vielfachen von $T_{\rm A}$) vorliegen, kann man auch die Autokorrelationsfunktion nur zu ganzzahligen Vielfachen von $T_{\rm A}$ bestimmen. Mit den zeitdiskreten Signalwerten $x_ν = x(ν · T_{\rm A})$ und $x_{ν+k} = x((ν+k) · T_{\rm A})$ sowie der zeitdiskreten AKF $φ_k = φ_x(k · T_{\rm A})$ lässt sich somit die AKF–Berechnung wie folgt dargestellen:
$$\varphi_k = \overline {x_\nu \cdot x_{\nu + k}}.$$
Die überstreichende Linie kennzeichnet hierbei wieder die Zeitmittelung.

==Numerische AKF-Ermittlung (2)==
Wir stellen uns nun die Aufgabe, die AKF-Stützstellen $φ_0, ... , φ_l$ aus $N$ Abtastwerten $(x_1, .... , x_N)$ zu ermitteln, wobei der Parameter $l$ sehr viel kleiner als $N$ vorausgesetzt wird. Beispielsweise gelte $l =$ 100 und $N =$ 100000.

Die AKF-Berechnungsvorschrift lautet nun (mit 0 ≤ $k$ ≤ $l$):
$$\varphi_k = \frac{1}{N- k} \cdot \sum_{\nu = 1}^{N - \lambda} x_{\nu} \cdot x_{\nu + k}.$$
Bringen wir $N – k$ auf die linke Seite, so erhalten wir daraus $l +$ 1 Gleichungen, nämlich:
$$k = 0: \hspace{0.4cm}N \cdot \varphi_0 \hspace{1.03cm}=\hspace{0.1cm} x_{\rm 1} \cdot x_{\rm 1} \hspace{0.35cm}+ x_{\rm 2} \cdot x_{\rm 2} \hspace{0.3cm}+ ... \hspace{0.25cm}+x_{\nu} \cdot x_{\nu}\hspace{0.35cm}+ ... \hspace{0.05cm}+x_{N} \cdot x_{N},$$
$$k= 1: \hspace{0.3cm}(N-1) \cdot \varphi_1 \hspace{0.08cm}=\hspace{0.1cm} x_{\rm 1} \cdot x_{\rm 2} \hspace{0.4cm}+ x_{\rm 2} \cdot x_{\rm 3} \hspace{0.3cm}+ ... \hspace{0.18cm}+x_{\nu} \cdot x_{\nu + 1}\hspace{0.01cm}+ ... \hspace{0.08cm}+x_{N-1} \cdot x_{N},$$
$$..................................................$$
$$k \hspace{0.2cm}{\rm allg.:}\hspace{0.31cm}(N - k) \cdot \varphi_k \hspace{0.01cm}=\hspace{0.1cm} x_{\rm 1} \cdot x_{ {\rm 1} + k} \hspace{0.01cm}+ x_{\rm 2} \cdot x_{ {\rm 2}+ k}\hspace{0.1cm} + ... \hspace{0.01cm}+x_{\nu} \cdot x_{\nu+k}\hspace{0.1cm}+ ... \hspace{0.01cm}+x_{N-k} \cdot x_{N},$$
$$..................................................$$
$$k = l: \hspace{0.3cm}(N - l) \cdot \varphi_l \hspace{0.14cm}=\hspace{0.1cm} x_{\rm 1} \cdot x_{ {\rm 1}+l} \hspace{0.09cm}+ x_{\rm 2} \cdot x_{ {\rm 2}+ l} \hspace{0.09cm}+ ... \hspace{0.09cm}+x_{\nu} \cdot x_{\nu+ l} \hspace{0.09cm}+ ... \hspace{0.09cm}+x_{N- l} \cdot x_{N}.$$

Hieraus ergibt sich der folgende Algorithmus:
*Man definiert das Feld AKF[0 : $l$] vom Typ ''float'' und belegt alle Elemente mit Nullen vor.
*Bei jedem Schleifendurchlauf (indiziert mit der Variablen $k$) werden die $l$ + 1 Feldelemente AKF[ $k$] jeweils um den Betrag $x_ν · x_{ν+k}$ erhöht.
*Alle $l$ + 1 Feldelemente werden allerdings nur dann bearbeitet, so lange die Laufvariable $k$ nicht größer als $N – l$ ist. Es ist stets zu berücksichtigen, dass $ν + k ≤ N$ gelten muss. Das bedeutet, dass die Mittelung in den unterschiedlichen Feldern AKF[0] ... AKF[ $l$] über eine unterschiedliche Anzahl von Summanden erfolgt.
*Werden am Ende der Berechnung noch die in AKF[ $k$] gespeicherten Werte durch die Anzahl der Summanden $(N – k)$ dividiert, so enthält dieses Feld die gesuchten diskreten AKF-Werte:
$$\varphi_x(k \cdot T_A)= {\rm AKF} \left[k \right].$$

'''Anmerkung:''' Bei $l << N$ kann man den Algorithmus vereinfachen, indem die Anzahl der Summanden für alle $k$-Werte gleich gewählt werden:
$$\varphi_k = \frac{1}{N- l} \cdot \sum_{\nu = 1}^{N - l} x_{\nu} \cdot x_{\nu + k}.$$

==Genauigkeit der numerischen AKF-Berechnung (1)==
Der entscheidende Parameter für die Qualität der numerischen AKF-Berechnung ist die Anzahl $N$ der berücksichtigten Abtastwerte. Im nachfolgenden oberen Bild sehen Sie das Ergebnis für $N =$ 1000 und darunten für $N =$ 10000 Zufallsgrößen.

[[File:P_ID639__Sto_T_4_4_S9a_Ganz_neu.png | AKF bei statistisch unabhängigen Abtastwerten]]

Die betrachteten Zufallsgrößen sind hier voneinander statistisch unabhängig. Somit sollten eigentlich alle AKF-Werte mit Ausnahme des Wertes bei $k =$ 0 identisch Null sein. Bei $N =$ 10000 (untere Grafik) beträgt der maximale Fehler nur etwa 1% und ist bei dieser Darstellung fast gar nicht sichtbar. Dagegen wächst der Fehler bei $N =$ 1000 bis auf ±6% an (Markierung beachten).

==Genauigkeit der numerischen AKF-Berechnung (2)==
Die Ergebnisse ändern sich, wenn eine Zufallsgröße mit inneren statistischen Bindungen vorliegt. Betrachten wir beispielsweise eine dreieckförmige AKF mit $φ_x(k) ≠$ 0 für $|k|$ ≤ 10, so erkennt man deutlich größere Abweichungen, nämlich Fehler bis zu
*etwa ±15% bei $N =$ 1000,
*etwa ±5% bei $N =$ 10000.

[[File:P_ID640__Sto_T_4_4_S9b_Ganz_neu.png | AKF bei korrelierten Abtastwerten]]

''Begründung des schlechteren Ergebnisses:''
*Aufgrund der inneren statistischen Bindungen liefern nun nicht mehr alle Abtastwerte die volle Information über den zugrundeliegenden Zufallsprozess.
*Außerdem lassen die Bilder erkennen, dass bei der numerischen AKF-Berechnung einer Zufallsgröße mit statistischen Bindungen auch die Fehler korreliert sind.
*Ist – wie beispielsweise im oberen Bild zu sehen – der AKF-Wert $φ_x({\rm 26})$ fälschlicherweise positiv und groß, so ergeben sich auch die benachbarten AKF-Werte $φ_x({\rm 25})$ und $φ_x({\rm 27})$ als positiv und mit ähnlichen Zahlenwerten. Dieser Bereich ist durch das Rechteck markiert.

{{Display}}

Theory of Stochastic Signals/Two-Dimensional Gaussian Random Variables

2017-01-26T19:37:09Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Zweidimensionale Zufallsgrößen
|Nächste Seite=Linearkombinationen von Zufallsgrößen
}}
==Wahrscheinlichkeitsdichte- und Verteilungsfunktion (1)==
Alle bisherigen Aussagen von Kapitel 4 gelten allgemein. Für den Sonderfall Gaußscher Zufallsgrößen – der Name geht auf den Wissenschaftler [https://de.wikipedia.org/wiki/Carl_Friedrich_Gau%C3%9F Carl Friedrich Gauß] zurück – können wir weiterhin vermerken:
*Die Verbundwahrscheinlichkeitsdichtefunktion einer Gaußschen 2D-Zufallsgröße $(x, y)$ mit den Mittelwerten $m_x =$ 0 und $m_y =$ 0 sowie dem Korrelationskoeffizienten $ρ_{xy}$ lautet:
$$f_{\rm xy}(x,y)=\frac{\rm 1}{\rm 2\it\pi \sigma_x \sigma_y \sqrt{\rm 1-\rho_{\it xy}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 (1-\it\rho_{xy}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_x^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_y^{\rm 2}}-\rm 2\it\rho_{xy}\cdot\frac{x \cdot y}{\sigma_x \cdot \sigma_y}\rm ) \rm \Bigg].$$
*Ersetzt man in dieser Gleichung $x$ durch $(x – m_x)$ sowie $y$ durch $(y – m_y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
*Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{\rm x}(x)$ und $f_{\rm y}(y)$ sind in diesem Fall ebenfalls gaußförmig und weisen die Streuungen $σ_x$ bzw. $σ_y$ auf.
*Bei unkorrelierten Komponenten $x$ und $y$ muss in obiger Gleichung $ρ_{xy} =$ 0 eingesetzt werden, und man erhält dann das Ergebnis:
$$f_{\rm xy}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{x}} \cdot\rm e^{-\it {x^{\rm 2}}/{\rm (}{\rm 2\it\sigma_{x}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it y}}\cdot e^{-\it {y^{\rm 2}}/{\rm (}{\rm 2\it\sigma_{y}^{\rm 2}} {\rm )}} = \it f_{\rm x} \rm ( \it x \rm ) \cdot \it f_{\rm y} \rm ( \it y \rm ) .$$

{{Box}}
'''Resümee:'''

Im Sonderfall einer 2D-Zufallsgröße mit Gaußscher WDF $f_{\rm xy}(x, y)$ folgt aus der ''Unkorreliertheit'' auch direkt die ''statistische Unabhängigkeit:''
$$f_{\rm xy}(x,y)= f_{\rm x}(x) \cdot f_{\rm y}(y) . $$

Bei keiner anderen WDF kann aus der ''Unkorreliertheit'' auf die ''statistische Unabhängigkeit'' geschlossen werden. Man kann aber stets ⇒ für jede beliebige 2D–WDF $f_{\rm xy}(x, y)$ von der ''statistischen Unabhängigkeit'' auf die ''Unkorreliertheit'' schließen, weil:
*Sind zwei Zufallsgrößen $x$ und $y$ völlig voneinander (statistisch) unabhängig, so gibt es zwischen ihnen natürlich auch keine ''linearen'' Abhängigkeiten.
{{end}}

==Wahrscheinlichkeitsdichte- und Verteilungsfunktion (2)==
{{Beispiel}}
Das Bild zeigt
*die Wahrscheinlichkeitsdichtefunktion (links) und
*Verteilungsfunktion (rechts)

einer zweidimensionalen Gaußschen Zufallsgröße $(x, y)$ mit relativ starker positiver Korrelation der Einzelkomponenten: $ρ_{xy} =$ 0.8. Wie bei den bisherigen Bildern in diesem Kapitel ist die 2D–Zufallsgröße in $x$–Richtung weiter ausgedehnt als in $y$–Richtung: $σ_x = 2 · σ_y$.

[[File:P_ID630__Sto_T_4_2_S1_neu.png | Gaußsche 2D-WDF und 2D-VTF]]

Diese Darstellungen können wie folgt interpretiert werden:
*Die WDF ist vergleichbar mit einem Bergkamm, der sich von links unten nach rechts oben erstreckt.
*Das Maximum liegt bei $m_x =$ 0 und $m_y =$ 0. Das bedeutet, dass die die 2D–Zufallsgröße mittelwertfrei ist.
*Die zweidimensionale VTF als das Integral in zwei Richtungen über die WDF steigt von links unten nach rechts oben von 0 auf 1 kontinuierlich an.

{{end}}

Das nachfolgende Interaktionsmodul erlaubt die Darstellung der zweidimensionalen WDF und der zweidimensionalen VTF für beliebige Werte von $σ_x, σ_y$ und $ρ_{xy}$:

WDF/VTF bei 2D-Gaußgrößen

==Höhenlinien bei unkorrelierten Zufallsgrößen==
Aus der Bedingungsgleichung $f_{\rm xy}(x, y) =$ const. können die Höhenlinien der WDF berechnet werden. Sind die Komponenten $x$ und $y$ unkorreliert $(ρ_{xy} =$ 0), so erhält man:

[[File:P_ID318__Sto_T_4_2_S2_ganz_neu.png | Höhenlinien der 2D-WDF bei unkorrelierten Größen | rechts]]
$$\frac{x^{\rm 2}}{\sigma_{x}^{\rm 2}}+\frac{y^{\rm 2}}{\sigma_{y}^{\rm 2}} =\rm const.$$
Die Höhenlinien beschreiben in diesem Fall folgende Figuren:
*Kreise (falls $σ_x = σ_y$, grüne Kurve), oder
*Ellipsen (für $σ_x ≠ σ_y$, blaue Kurve) in Ausrichtung der beiden Achsen.

Weitere Informationen zu dieser Thematik mit Signalbeispielen bietet das folgende Lernvideo:
Gaußsche Zufallsgrößen ohne statistische Bindungen (Dauer 2:35).

Sie sehen hier einen Bildschirmabzug dieses Multimedia–Moduls.

[[File:P_ID2911__Sto_T_4_2_S2_unten.png | Bildschirmabzug des hier zitierten Lernvideos]]

==Höhenlinien bei korrelierten Zufallsgrößen==
Bei korrelierten Komponenten $(ρ_{xy}$ ≠ 0) sind die Höhenlinien der WDF stets elliptisch, also auch für den Sonderfall $σ_x = σ_y$. Hier lautet die Bedingungsgleichung $f_{\rm xy}(x, y) =$ const.:
$$\frac{x^{\rm 2} }{\sigma_{x}^{\rm 2}}+\frac{y^{\rm 2} }{\sigma_{y}^{\rm 2} }-{\rm 2}\cdot\rho_{xy}\cdot\frac{x\cdot y}{\sigma_x\cdot \sigma_y}={\rm const.}$$
Das folgende Bild zeigt in hellerem Blau zwei Höhenlinien für unterschiedliche Parametersätze, jeweils mit $ρ_{xy}$ ≠ 0. Die Ellipsenhauptachse ist dunkelblau gestrichelt, und die Korrelationsachse $K(x)$ durchgehend rot eingezeichnet.

[[File:P_ID408__Sto_T_4_2_S3_neu.png | Höhenlinien der 2D-WDF bei korrelierten Größen]]

Anhand dieses Bildes sind folgende Aussagen möglich:
*Die Ellipsenform hängt außer vom Korrelationskoeffizienten $ρ_{xy}$ auch vom Verhältnis der beiden Streuungen $σ_x$ und $σ_y$ ab.
*Auch der Neigungswinkel $α$ der Ellipsenhauptachse (gestrichelte Gerade) gegenüber der $x$-Achse hängt von diesen drei Parametern ab:
$$\alpha = \frac {1}{2} \cdot {\rm arctan } ( 2 \cdot \rho_{xy} \cdot \frac {\sigma_x \cdot \sigma_y}{\sigma_x^2 - \sigma_y^2}).$$
*Die Korrelationsgerade $y = K(x)$ einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Ellipsenhauptachse.
* $K(x)$ kann auch aus dem Schnittpunkt der Höhenlinien und ihrer vertikalen Tangenten geometrisch konstruiert werden, wie in den obigen Skizzen in grüner Farbe angedeutet ist.

Die folgenden Lernvideos beschreiben die Eigenschaften Gaußscher Zufallsgrößen:
Gaußsche Zufallsgrößen ohne statistische Bindungen (Dauer 2:35),
Gaußsche Zufallsgrößen mit statistischen Bindungen (Dauer 3:05).

==Drehung des Koordinatensystems (1)==
Bei manchen Aufgabenstellungen ist es vorteilhaft, das Koordinatensystem zu drehen, wie in der nachfolgenden Grafik angedeutet:

[[File:P_ID430__Sto_T_4_2_S4_Ganz_neu.png | Drehung des Koordinatensystems | rechts]]
*Das $(ξ, η)$-Koordinatensystem ist gegenüber dem ursprünglichen $(x, y)$-System um den Winkel $β$ gedreht.
*Dagegen bezeichnet $α$ den Winkel zwischen der Ellipsenhauptachse und der $x$–Achse.

Zwischen den Koordinaten der beiden Bezugssysteme bestehen folgende Zusammenhänge:
$$\xi = \hspace{0.4cm} \cos (\beta) \cdot x + \sin (\beta) \cdot y \hspace{0.55cm}{\rm bzw. }\hspace{0.5cm} x = \cos (\beta) \cdot \xi - \sin (\beta) \cdot \eta ,$$
$$\eta = - \sin (\beta) \cdot x + \cos (\beta) \cdot y \hspace{0.5cm}{\rm bzw. }\hspace{0.5cm} y = \sin (\beta) \cdot \xi + \cos (\beta) \cdot \eta .$$

Ist $(x, y)$ eine Gaußsche 2D-Zufallsgröße, so ist die neue Zufallsgröße $(ξ, η)$ ebenfalls gaußverteilt.

Setzt man die obigen Gleichungen in die 2D-WDF $f_{\rm xy}(x, y)$ ein und vergleicht die Koeffizienten, so erhält man folgende Bestimmungsgleichungen für $σ_x, σ_y$ und $ρ_{xy}$ bzw. für $σ_ξ, σ_η$ und $ρ_{ξη}$:

$$\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi^2} = \frac {1}{(1 - \rho_{xy}^2) } \left[ \frac {\cos^2 (\beta)}{\sigma_{x}^2 } + \frac {\sin^2 (\beta)}{\sigma_{y}^2 } - 2 \rho_{xy} \cdot \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{x} \cdot \sigma_{y}}\right ] ,$$
$$\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\eta^2} = \frac {1}{(1 - \rho_{xy}^2) } \left[ \frac {\sin^2 (\beta)}{\sigma_{x}^2 } + \frac {\cos^2 (\beta)}{\sigma_{y}^2 } + 2 \rho_{xy} \cdot \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{x} \cdot \sigma_{y}}\right ] ,$$
$$\frac {\rho_{\xi \eta}}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi\cdot \sigma_\eta}= \hspace{11cm}\\ = \frac {1}{(1 - \rho_{xy}^2) } \left[ \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{x}^2 } - \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{y}^2 } + \frac {\rho_{xy}}{\sigma_{x} \cdot \sigma_{y}} \cdot ( \cos^2( \beta) -\sin^2( \beta)) \right ] .$$

Mit diesen drei Gleichungen können die jeweils drei Parameter der beiden Koordinatensysteme direkt umgerechnet werden, was allerdings nur in Sonderfällen ohne erheblichen Rechenaufwand möglich ist. Ein solches Beispiel folgt nachfolgend.

==Drehung des Koordinatensystems (2)==
{{Beispiel}}
Wir betrachten eine Gaußsche 2D-WDF mit $σ_x = σ_y =$ 1 und $ρ_{xy} =$ 0.5. In diesem Fall beträgt der Winkel $α$ der Ellipsenhauptachse 45°.

[[File: P_ID771__Sto_T_4_2_S4_Ganz_neu.png | Drehung des Koordinatensystems | rechts]]
*Dreht man das Koordinatensystem ebenfalls um $(β =)$ 45°, so ergibt sich wegen $σ_x = σ_y$ und wegen $\sin(β) = \cos(β) = {\rm0.5^{½}}$ für den neuen Korrelationskoeffizienten $ρ_{ξη} =$ 0, was einsichtig ist.
*Die beiden Streuungen – bezogen auf das neue Koordinatensystem – ergeben sich dann entsprechend den beiden ersten oberen Gleichungen zu $σ_ξ = {\rm 1.5^{½}}$ und $σ_η = {\rm 0.5^{½}}$.

Dem obigen Bild ist allerdings nicht $β = α$ zugrundegelegt, sondern $β = α/2$. Dann lautet das Gleichungssystem mit $σ_x = σ_y =$ 1, $ρ_{xy} =$ 0.5, $α =$ 45°, $\sin(β) · \cos(β) = \sin(2β)/2 = \sin(α)/2$ und $\cos^2(β) – \sin^2(β) = \cos(2β)= \cos(α)$:

$${\rm (I)}\hspace{0.4cm}\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi^2} = \frac {4}{3} \left[ 1 - \frac {1}{2}\cdot {\sin (\alpha) }\right ] = 0.862 ,$$
$${\rm (II)}\hspace{0.28cm}\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\eta^2} = \frac {4}{3} \left[ 1 + \frac {1}{2}\cdot {\sin (\alpha) }\right ] = 1.805 ,\hspace{0.28cm}\frac {\rm (I)}{\rm (II)}: \frac
{\sigma_\eta}{\sigma_\xi} = \sqrt{\frac{0.862}{1.805}}= 0.691,$$
$${\rm (III)}\hspace{0.14cm}\frac {\rho_{\xi \eta}}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi\cdot \sigma_\eta}= \frac {\rho_{\xi \eta}}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi^2 \cdot 0.691}=\frac {2}{3}\cdot \cos( \alpha) = 0.471.$$

Dividiert man nun die Gleichung (III) durch die Gleichung (I), so erhält man:
$$ \frac {\rho_{\xi \eta}}{0.691}=\frac {0.471}{0.862}\hspace{0.5cm}\Rightarrow\hspace{0.5cm}{\rho_{\xi \eta}}= 0.378.$$

Die beiden weiteren Parameter ergeben sich zu $σ_ξ$ ≈ 1 und $σ_η$ ≈ 0.7.
{{end}}

{{Display}}

Theory of Stochastic Signals/Two-Dimensional Gaussian Random Variables

2017-01-26T19:34:18Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Zweidimensionale Zufallsgrößen
|Nächste Seite=Linearkombinationen von Zufallsgrößen
}}
==Wahrscheinlichkeitsdichte- und Verteilungsfunktion (1)==
Alle bisherigen Aussagen von Kapitel 4 gelten allgemein. Für den Sonderfall Gaußscher Zufallsgrößen – der Name geht auf den Wissenschaftler [https://de.wikipedia.org/wiki/Carl_Friedrich_Gau%C3%9F Carl Friedrich Gauß]] zurück – können wir weiterhin vermerken:
*Die Verbundwahrscheinlichkeitsdichtefunktion einer Gaußschen 2D-Zufallsgröße $(x, y)$ mit den Mittelwerten $m_x =$ 0 und $m_y =$ 0 sowie dem Korrelationskoeffizienten $ρ_{xy}$ lautet:
$$f_{\rm xy}(x,y)=\frac{\rm 1}{\rm 2\it\pi \sigma_x \sigma_y \sqrt{\rm 1-\rho_{\it xy}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 (1-\it\rho_{xy}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_x^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_y^{\rm 2}}-\rm 2\it\rho_{xy}\cdot\frac{x \cdot y}{\sigma_x \cdot \sigma_y}\rm ) \rm \Bigg].$$
*Ersetzt man in dieser Gleichung $x$ durch $(x – m_x)$ sowie $y$ durch $(y – m_y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
*Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{\rm x}(x)$ und $f_{\rm y}(y)$ sind in diesem Fall ebenfalls gaußförmig und weisen die Streuungen $σ_x$ bzw. $σ_y$ auf.
*Bei unkorrelierten Komponenten $x$ und $y$ muss in obiger Gleichung $ρ_{xy} =$ 0 eingesetzt werden, und man erhält dann das Ergebnis:
$$f_{\rm xy}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{x}} \cdot\rm e^{-\it {x^{\rm 2}}/{\rm (}{\rm 2\it\sigma_{x}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it y}}\cdot e^{-\it {y^{\rm 2}}/{\rm (}{\rm 2\it\sigma_{y}^{\rm 2}} {\rm )}} = \it f_{\rm x} \rm ( \it x \rm ) \cdot \it f_{\rm y} \rm ( \it y \rm ) .$$

{{Box}}
'''Resümee:'''

Im Sonderfall einer 2D-Zufallsgröße mit Gaußscher WDF $f_{\rm xy}(x, y)$ folgt aus der ''Unkorreliertheit'' auch direkt die ''statistische Unabhängigkeit:''
$$f_{\rm xy}(x,y)= f_{\rm x}(x) \cdot f_{\rm y}(y) . $$

Bei keiner anderen WDF kann aus der ''Unkorreliertheit'' auf die ''statistische Unabhängigkeit'' geschlossen werden. Man kann aber stets ⇒ für jede beliebige 2D–WDF $f_{\rm xy}(x, y)$ von der ''statistischen Unabhängigkeit'' auf die ''Unkorreliertheit'' schließen, weil:
*Sind zwei Zufallsgrößen $x$ und $y$ völlig voneinander (statistisch) unabhängig, so gibt es zwischen ihnen natürlich auch keine ''linearen'' Abhängigkeiten.
{{end}}

==Wahrscheinlichkeitsdichte- und Verteilungsfunktion (2)==
{{Beispiel}}
Das Bild zeigt
*die Wahrscheinlichkeitsdichtefunktion (links) und
*Verteilungsfunktion (rechts)

einer zweidimensionalen Gaußschen Zufallsgröße $(x, y)$ mit relativ starker positiver Korrelation der Einzelkomponenten: $ρ_{xy} =$ 0.8. Wie bei den bisherigen Bildern in diesem Kapitel ist die 2D–Zufallsgröße in $x$–Richtung weiter ausgedehnt als in $y$–Richtung: $σ_x = 2 · σ_y$.

[[File:P_ID630__Sto_T_4_2_S1_neu.png | Gaußsche 2D-WDF und 2D-VTF]]

Diese Darstellungen können wie folgt interpretiert werden:
*Die WDF ist vergleichbar mit einem Bergkamm, der sich von links unten nach rechts oben erstreckt.
*Das Maximum liegt bei $m_x =$ 0 und $m_y =$ 0. Das bedeutet, dass die die 2D–Zufallsgröße mittelwertfrei ist.
*Die zweidimensionale VTF als das Integral in zwei Richtungen über die WDF steigt von links unten nach rechts oben von 0 auf 1 kontinuierlich an.

{{end}}

Das nachfolgende Interaktionsmodul erlaubt die Darstellung der zweidimensionalen WDF und der zweidimensionalen VTF für beliebige Werte von $σ_x, σ_y$ und $ρ_{xy}$:

WDF/VTF bei 2D-Gaußgrößen

==Höhenlinien bei unkorrelierten Zufallsgrößen==
Aus der Bedingungsgleichung $f_{\rm xy}(x, y) =$ const. können die Höhenlinien der WDF berechnet werden. Sind die Komponenten $x$ und $y$ unkorreliert $(ρ_{xy} =$ 0), so erhält man:

[[File:P_ID318__Sto_T_4_2_S2_ganz_neu.png | Höhenlinien der 2D-WDF bei unkorrelierten Größen | rechts]]
$$\frac{x^{\rm 2}}{\sigma_{x}^{\rm 2}}+\frac{y^{\rm 2}}{\sigma_{y}^{\rm 2}} =\rm const.$$
Die Höhenlinien beschreiben in diesem Fall folgende Figuren:
*Kreise (falls $σ_x = σ_y$, grüne Kurve), oder
*Ellipsen (für $σ_x ≠ σ_y$, blaue Kurve) in Ausrichtung der beiden Achsen.

Weitere Informationen zu dieser Thematik mit Signalbeispielen bietet das folgende Lernvideo:
Gaußsche Zufallsgrößen ohne statistische Bindungen (Dauer 2:35).

Sie sehen hier einen Bildschirmabzug dieses Multimedia–Moduls.

[[File:P_ID2911__Sto_T_4_2_S2_unten.png | Bildschirmabzug des hier zitierten Lernvideos]]

==Höhenlinien bei korrelierten Zufallsgrößen==
Bei korrelierten Komponenten $(ρ_{xy}$ ≠ 0) sind die Höhenlinien der WDF stets elliptisch, also auch für den Sonderfall $σ_x = σ_y$. Hier lautet die Bedingungsgleichung $f_{\rm xy}(x, y) =$ const.:
$$\frac{x^{\rm 2} }{\sigma_{x}^{\rm 2}}+\frac{y^{\rm 2} }{\sigma_{y}^{\rm 2} }-{\rm 2}\cdot\rho_{xy}\cdot\frac{x\cdot y}{\sigma_x\cdot \sigma_y}={\rm const.}$$
Das folgende Bild zeigt in hellerem Blau zwei Höhenlinien für unterschiedliche Parametersätze, jeweils mit $ρ_{xy}$ ≠ 0. Die Ellipsenhauptachse ist dunkelblau gestrichelt, und die Korrelationsachse $K(x)$ durchgehend rot eingezeichnet.

[[File:P_ID408__Sto_T_4_2_S3_neu.png | Höhenlinien der 2D-WDF bei korrelierten Größen]]

Anhand dieses Bildes sind folgende Aussagen möglich:
*Die Ellipsenform hängt außer vom Korrelationskoeffizienten $ρ_{xy}$ auch vom Verhältnis der beiden Streuungen $σ_x$ und $σ_y$ ab.
*Auch der Neigungswinkel $α$ der Ellipsenhauptachse (gestrichelte Gerade) gegenüber der $x$-Achse hängt von diesen drei Parametern ab:
$$\alpha = \frac {1}{2} \cdot {\rm arctan } ( 2 \cdot \rho_{xy} \cdot \frac {\sigma_x \cdot \sigma_y}{\sigma_x^2 - \sigma_y^2}).$$
*Die Korrelationsgerade $y = K(x)$ einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Ellipsenhauptachse.
* $K(x)$ kann auch aus dem Schnittpunkt der Höhenlinien und ihrer vertikalen Tangenten geometrisch konstruiert werden, wie in den obigen Skizzen in grüner Farbe angedeutet ist.

Die folgenden Lernvideos beschreiben die Eigenschaften Gaußscher Zufallsgrößen:
Gaußsche Zufallsgrößen ohne statistische Bindungen (Dauer 2:35),
Gaußsche Zufallsgrößen mit statistischen Bindungen (Dauer 3:05).

==Drehung des Koordinatensystems (1)==
Bei manchen Aufgabenstellungen ist es vorteilhaft, das Koordinatensystem zu drehen, wie in der nachfolgenden Grafik angedeutet:

[[File:P_ID430__Sto_T_4_2_S4_Ganz_neu.png | Drehung des Koordinatensystems | rechts]]
*Das $(ξ, η)$-Koordinatensystem ist gegenüber dem ursprünglichen $(x, y)$-System um den Winkel $β$ gedreht.
*Dagegen bezeichnet $α$ den Winkel zwischen der Ellipsenhauptachse und der $x$–Achse.

Zwischen den Koordinaten der beiden Bezugssysteme bestehen folgende Zusammenhänge:
$$\xi = \hspace{0.4cm} \cos (\beta) \cdot x + \sin (\beta) \cdot y \hspace{0.55cm}{\rm bzw. }\hspace{0.5cm} x = \cos (\beta) \cdot \xi - \sin (\beta) \cdot \eta ,$$
$$\eta = - \sin (\beta) \cdot x + \cos (\beta) \cdot y \hspace{0.5cm}{\rm bzw. }\hspace{0.5cm} y = \sin (\beta) \cdot \xi + \cos (\beta) \cdot \eta .$$

Ist $(x, y)$ eine Gaußsche 2D-Zufallsgröße, so ist die neue Zufallsgröße $(ξ, η)$ ebenfalls gaußverteilt.

Setzt man die obigen Gleichungen in die 2D-WDF $f_{\rm xy}(x, y)$ ein und vergleicht die Koeffizienten, so erhält man folgende Bestimmungsgleichungen für $σ_x, σ_y$ und $ρ_{xy}$ bzw. für $σ_ξ, σ_η$ und $ρ_{ξη}$:

$$\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi^2} = \frac {1}{(1 - \rho_{xy}^2) } \left[ \frac {\cos^2 (\beta)}{\sigma_{x}^2 } + \frac {\sin^2 (\beta)}{\sigma_{y}^2 } - 2 \rho_{xy} \cdot \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{x} \cdot \sigma_{y}}\right ] ,$$
$$\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\eta^2} = \frac {1}{(1 - \rho_{xy}^2) } \left[ \frac {\sin^2 (\beta)}{\sigma_{x}^2 } + \frac {\cos^2 (\beta)}{\sigma_{y}^2 } + 2 \rho_{xy} \cdot \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{x} \cdot \sigma_{y}}\right ] ,$$
$$\frac {\rho_{\xi \eta}}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi\cdot \sigma_\eta}= \hspace{11cm}\\ = \frac {1}{(1 - \rho_{xy}^2) } \left[ \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{x}^2 } - \frac {\sin (\beta) \cdot \cos (\beta)}{\sigma_{y}^2 } + \frac {\rho_{xy}}{\sigma_{x} \cdot \sigma_{y}} \cdot ( \cos^2( \beta) -\sin^2( \beta)) \right ] .$$

Mit diesen drei Gleichungen können die jeweils drei Parameter der beiden Koordinatensysteme direkt umgerechnet werden, was allerdings nur in Sonderfällen ohne erheblichen Rechenaufwand möglich ist. Ein solches Beispiel folgt nachfolgend.

==Drehung des Koordinatensystems (2)==
{{Beispiel}}
Wir betrachten eine Gaußsche 2D-WDF mit $σ_x = σ_y =$ 1 und $ρ_{xy} =$ 0.5. In diesem Fall beträgt der Winkel $α$ der Ellipsenhauptachse 45°.

[[File: P_ID771__Sto_T_4_2_S4_Ganz_neu.png | Drehung des Koordinatensystems | rechts]]
*Dreht man das Koordinatensystem ebenfalls um $(β =)$ 45°, so ergibt sich wegen $σ_x = σ_y$ und wegen $\sin(β) = \cos(β) = {\rm0.5^{½}}$ für den neuen Korrelationskoeffizienten $ρ_{ξη} =$ 0, was einsichtig ist.
*Die beiden Streuungen – bezogen auf das neue Koordinatensystem – ergeben sich dann entsprechend den beiden ersten oberen Gleichungen zu $σ_ξ = {\rm 1.5^{½}}$ und $σ_η = {\rm 0.5^{½}}$.

Dem obigen Bild ist allerdings nicht $β = α$ zugrundegelegt, sondern $β = α/2$. Dann lautet das Gleichungssystem mit $σ_x = σ_y =$ 1, $ρ_{xy} =$ 0.5, $α =$ 45°, $\sin(β) · \cos(β) = \sin(2β)/2 = \sin(α)/2$ und $\cos^2(β) – \sin^2(β) = \cos(2β)= \cos(α)$:

$${\rm (I)}\hspace{0.4cm}\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi^2} = \frac {4}{3} \left[ 1 - \frac {1}{2}\cdot {\sin (\alpha) }\right ] = 0.862 ,$$
$${\rm (II)}\hspace{0.28cm}\frac {1}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\eta^2} = \frac {4}{3} \left[ 1 + \frac {1}{2}\cdot {\sin (\alpha) }\right ] = 1.805 ,\hspace{0.28cm}\frac {\rm (I)}{\rm (II)}: \frac
{\sigma_\eta}{\sigma_\xi} = \sqrt{\frac{0.862}{1.805}}= 0.691,$$
$${\rm (III)}\hspace{0.14cm}\frac {\rho_{\xi \eta}}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi\cdot \sigma_\eta}= \frac {\rho_{\xi \eta}}{(1 - \rho_{\xi \eta}^2) \cdot \sigma_\xi^2 \cdot 0.691}=\frac {2}{3}\cdot \cos( \alpha) = 0.471.$$

Dividiert man nun die Gleichung (III) durch die Gleichung (I), so erhält man:
$$ \frac {\rho_{\xi \eta}}{0.691}=\frac {0.471}{0.862}\hspace{0.5cm}\Rightarrow\hspace{0.5cm}{\rho_{\xi \eta}}= 0.378.$$

Die beiden weiteren Parameter ergeben sich zu $σ_ξ$ ≈ 1 und $σ_η$ ≈ 0.7.
{{end}}

{{Display}}

Theory of Stochastic Signals/Two-Dimensional Random Variables

2017-01-26T19:32:13Z

LukasWolf:

{{Header
|Untermenü=Zufallsgrößen mit statistischen Bindungen
|Vorherige Seite=Weitere Verteilungen
|Nächste Seite=Zweidimensionale Gaußsche Zufallsgrößen
}}
==Eigenschaften und Beispiele==
Als Überleitung zu den Korrelationsfunktionen betrachten wir nun zwei Zufallsgrößen $x$ und $y$, zwischen denen statistische Abhängigkeiten bestehen. Jede der beiden Zufallsgrößen kann für sich alleine mit den in [[Stochastische_Signaltheorie/Wahrscheinlichkeit_und_relative_H%C3%A4ufigkeit|Kapitel 2]] bzw. [[Stochastische_Signaltheorie/Wahrscheinlichkeitsdichtefunktion_(WDF)|Kapitel 3]] eingeführten Kenngrößen beschrieben werden, je nachdem, ob es sich um eine diskrete oder um eine kontinuierliche Zufallsgröße handelt.

Zur Beschreibung der Wechselbeziehungen zwischen zwei Größen $x$ und $y$ ist es zweckmäßig, die beiden Komponenten zu einer zweidimensionalen Zufallsgröße $(x, y)$ zusammenzufassen. Die Einzelkomponenten können Signale sein wie der Real- und Imaginärteil eines phasenmodulierten Signals. Aber es gibt auch in anderen Bereichen eine Vielzahl von 2D-Zufallsgrößen.

{{Beispiel}}
Das folgende linke Diagramm stammt von dem Zufallsexperiment ''Werfen mit zwei Würfeln.'' Nach rechts aufgetragen ist die Augenzahl des ersten Würfels $(W_1)$, nach oben die Summe $S$ beider Würfel. Die beiden Komponenten sind hier jeweils diskrete Zufallsgrößen, zwischen denen statistische Bindungen bestehen. Ist $W_1 =$ 1, so kann $S$ nur Werte zwischen 2 und 7 annehmen und zwar mit jeweils gleicher Warscheinlichkeit, bei $W_1 =$ 6 dagegen die Werte zwischen 7 und 12.

[[File: P_ID162__Sto_T_4_1_S1_neu.png | Beispiele korrelierter Zufallsgrößen]]

Rechts sind die Maximaltemperaturen der 31 Tage im Mai 2002 von München (nach oben) und der Zugspitze (nach rechts) gegenübergestellt. Beide Zufallsgrößen sind wertkontinuierlich. Obwohl die Messpunkte etwa 100 km auseinander liegen und es auf der Zugspitze aufgrund der unterschiedlichen Höhenlagen (knapp 3000 gegenüber 520 Meter) im Mittel um etwa 20 Grad kälter ist als in München, erkennt man doch eine gewisse statistische Abhängigkeit zwischen den beiden Größen $Θ_{\rm M}$ und $Θ_{\rm Z}$: Ist es in München warm, dann sind auch auf der Zugspitze eher angenehme Temperaturen zu erwarten. Der Zusammenhang ist aber nicht deterministisch: Der kälteste Tag im Mai 2002 war in München ein anderer als der kälteste Tag auf der Zugspitze.
{{end}}

==Verbundwahrscheinlichkeitsdichtefunktion==
Wir beschränken uns hier meist auf kontinuierliche Zufallsgrößen. Manchmal wird jedoch auch auf die Besonderheiten zweidimensionaler diskreter Zufallsgrößen genauer eingegangen.

Die meisten der bisherigen, für eindimensionale Zufallsgrößen definierten Kenngrößen können problemlos auf zweidimensionale Größen erweitert werden:
*Die Wahrscheinlichkeitsdichtefunktion der zweidimensionalen Zufallsgröße an der Stelle $(x_\mu, y_\mu)$, die man auch als Verbundwahrscheinlichkeitsdichtefunktion bezeichnet, ist eine Erweiterung der eindimensionalen WDF $(∩$ kennzeichnet die logische UND-Verknüpfung):
$$f_{\rm xy}(x_\mu, \hspace{0.1cm}y_\mu) = \hspace{12.0cm}\\ ...\hspace{0.1cm}= \lim_{\left.{\Delta x\rightarrow 0 \atop {\Delta y\rightarrow 0}}\right.} \frac{{\rm Pr}[(x_\mu-{\rm \Delta} x/{\rm 2 \le} x {\rm \le} x_\mu +{\rm \Delta} x/{\rm 2}) \cap (y_\mu-{\rm \Delta} y/{\rm 2} \le y \le y_\mu +{\rm \Delta}y/{\rm 2})]}{{\rm \Delta} \ x\cdot{\rm \Delta} y}.$$
:Bei diskreten Zufallsgrößen ist die Definition geringfügig zu modifizieren: Bei den jeweils unteren Bereichsgrenzen ist gemäß [[Stochastische_Signaltheorie/Verteilungsfunktion_(VTF)#VTF_bei_diskreten_Zufallsgr.C3.B6.C3.9Fen_.281.29|Kapitel 3.2]] das „≤”–Zeichen durch das „<”–Zeichen zu ersetzen.
*Anhand dieser (Verbund)–WDF $f_{\rm xy}(x, y)$ werden auch statistische Abhängigkeiten innerhalb der zweidimensionalen Zufallsgröße $(x, y)$ vollständig erfasst im Gegensatz zu den beiden eindimensionalen Dichtefunktionen ⇒ Randwahrscheinlichkeitsdichtefunktionen:
$$f_{\rm x}(x) = \int _{-\infty}^{+\infty} f_{\rm xy}(x,y) \,\,{\rm d}y ,$$
$$f_{\rm y}(y) = \int_{-\infty}^{+\infty} f_{\rm xy}(x,y) \,\,{\rm d}x .$$
:Die beiden Randdichtefunktionen $f_x(x)$ und $f_y(y)$ liefern lediglich statistische Aussagen über die Einzelkomponenten $x$ bzw. $y$, nicht jedoch über die Bindungen zwischen diesen.

==Zweidimensionale Verteilungsfunktion==
Auch die 2D-Verteilungsfunktion ist lediglich eine sinnvolle Erweiterung der [[Stochastische_Signaltheorie/Verteilungsfunktion_(VTF)#VTF_bei_kontinuierlichen_Zufallsgr.C3.B6.C3.9Fen_.281.29|eindimensionalen Verteilungsfunktion]] (VTF):
$$F_{\rm xy}(r_{\rm x},r_{\rm y}) = {\rm Pr}\left [(x \le r_{\rm x}) \cap (y \le r_{\rm y}) \right ] .$$
Der Funktionalzusammenhang zwischen zweidimensionaler WDF und zweidimensionaler VTF ist wie im eindimensionalen Fall durch die Integration gegeben, aber nun in zwei Dimensionen. Bei kontinuierlichen Zufallsgrößen gilt:
$$F_{\rm xy}(r_{\rm x},r_{\rm y})=\int_{-\infty}^{r_{\rm y}} \int_{-\infty}^{r_{\rm x}} f_{\rm xy}(x,y) \,\,{\rm d}x \,\, {\rm d}y .$$
Umgekehrt kann auch die Wahrscheinlichkeitsdichtefunktion aus der Verteilungsfunktion durch partielle Differentiation nach $r_{\rm x}$ und $r_{\rm y}$ berechnet werden:
$$f_{\rm xy}(x,y)=\frac{{\rm d}^{\rm 2} F_{\rm xy}(r_{\rm x},r_{\rm y})}{{\rm d} r_{\rm x} \,\, {\rm d} r_{\rm y}}\Bigg|_{\left.{r_{\rm x}=x \atop {r_{\rm y}=y}}\right.}.$$
Bezüglich der Verteilungsfunktion $F_{\rm xy}(r_{\rm x}, r_{\rm y})$ gelten folgende Grenzwerte:
$$F_{\rm xy}(-\infty,-\infty) = 0,$$
$$F_{\rm xy}(r_{\rm x},\infty)=F_{\rm x}(r_{\rm x} ),$$
$$F_{\rm xy}(\infty,r_{\rm y})=F_{\rm y}(r_{\rm y} ) ,$$
$$F_{\rm xy}(\infty,\infty) = 1.$$
Im Grenzfall (unendlich große $r_{\rm x}$ und $r_{\rm y}$) ergibt sich demnach für die 2D-VTF der Wert 1. Daraus erhält man die Normierungsbedingung für die 2D-Wahrscheinlichkeitsdichtefunktion:
$$\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f_{\rm xy}(x,y) \,\,{\rm d}x \,\,{\rm d}y=1 . $$

Beachten Sie den Unterschied zwischen eindimensionalen und zweidimensionalen Zufallsgrößen:
*Bei eindimensionalen Zufallsgrößen ergibt die Fläche unter der WDF stets den Wert 1.
*Bei zweidimensionalen Zufallsgrößen ist das WDF-Volumen immer gleich 1.

==WDF und VTF bei statistisch unabhängigen Komponenten==
Bei statistisch unabhängigen Komponenten $x$ und $y$ gilt für die Verbundwahrscheinlichkeit nach den elementaren Gesetzmäßigkeiten der Statistik, falls $x$ und $y$ wertkontinuierlich sind:
$${\rm Pr} [(x_{\rm 1}\le x \le x_{\rm 2}) \cap( y_{\rm 1}\le y\le y_{\rm 2})] ={\rm Pr} (x_{\rm 1}\le x \le x_{\rm 2}) \cdot {\rm Pr}(y_{\rm 1}\le y\le y_{\rm 2}) .$$
Hierfür kann bei unabhängigen Komponenten auch geschrieben werden:
$${\rm Pr} [(x_{\rm 1}\le x \le x_{\rm 2}) \cap(y_{\rm 1}\le y\le y_{\rm 2})] =\int _{x_{\rm 1}}^{x_{\rm 2}}f_{\rm x}(x) \,{\rm d}x\cdot \int_{y_{\rm 1}}^{y_{\rm 2}} f_{\rm y}(y) \, {\rm d}y.$$
Daraus folgt, dass bei statistischer Unabhängigkeit folgende Bedingung erfüllt sein muss:
$$f_{\rm xy}(x,y)=f_{\rm x}(x) \cdot f_y(y) .$$

{{Beispiel}}
In der Grafik sind die Momentanwerte einer zweidimensionalen Zufallsgröße als Punkte in der $(x, y)$-Ebene eingetragen. Bereiche mit vielen Punkten, die dementsprechend dunkel wirken, kennzeichnen große Werte der WDF $f_{\rm xy}(x, y)$. Dagegen besitzt die Zufallsgröße $(x, y)$ in eher hellen Bereichen nur verhältnismäßig wenig Anteile.

[[File:P_ID153__Sto_T_4_1_S4_nochmals_neu.png | 2D-WDF und 2D-VTF, statistisch unabhängige Komponenten]]

Die Randwahrscheinlichkeitsdichten $f_{\rm x}(x)$ und $f_{\rm y}(y)$ lassen bereits erkennen, dass sowohl $x$ als auch $y$ gaußähnlich und mittelwertfrei sind, und dass die Zufallsgröße $x$ eine größere Streuung als $y$ aufweist. Sie liefern jedoch keine Informationen darüber, ob bei der Zufallsgröße $(x, y)$ statistische Bindungen zwischen den beiden Komponenten bestehen oder nicht.

Anhand der 2D-WDF ist zu erkennen, dass es hier keine statistischen Bindungen zwischen den Komponenten gibt. Bei statistischer Unabhängigkeit liefert jeder Schnitt durch $f_{\rm xy}(x, y)$ parallel zur $y$-Achse eine Funktion, die formgleich mit der Randwahrscheinlichkeitsdichtefunktion $f_{\rm y}(y)$ ist. Ebenso sind alle Schnitte parallel zur $x$-Achse formgleich mit $f_{\rm x}(x)$.

Diese Tatsache ist gleichbedeutend mit der Aussage, dass die 2D-WDF $f_{\rm xy}(x, y)$ als Produkt der beiden Randwahrscheinlichkeitsdichten dargestellt werden kann.
{{end}}

==WDF und VTF bei statistisch abhängigen Komponenten==
Bestehen statistische Bindungen zwischen den Komponenten, so liefern unterschiedliche Schnitte parallel zur $x$- bzw. $y$-Achse jeweils unterschiedliche, nicht formgleiche Funktionen. In diesem Fall lässt sich die Verbund-Wahrscheinlichkeitsdichtefunktion natürlich auch nicht als Produkt der beiden (eindimensionalen) Randwahrscheinlichkeitsdichten beschreiben.

{{Beispiel}}
Die Grafik zeigt die Momentanwerte einer zweidimensionalen Zufallsgröße in der $(x, y)$-Ebene, wobei zwischen $x$ und $y$ nun statistische Bindungen bestehen. Die 2D-Zufallsgröße nimmt in dem blau eingezeichneten Parallelogramm alle Werte mit gleicher Wahrscheinlichkeit an, außerhalb sind keine Werte möglich.

[[File:P_ID156__Sto_T_4_1_S5_neu.png | 2D-WDF und 2D-VTF, statistisch abhängige Komponenten]]

Die Integration über die 2D-WDF $f_{\rm xy}(x, y)$ parallel zu der $x$-Achse führt zur dreieckförmigen Randdichte $f_{\rm y}(y)$, die Integration parallel zur $y$-Achse zur trapezförmigen WDF $f_{\rm x}(x)$.

Aus der zweidimensionalen Wahrscheinlichkeitsdichtefunktion $f_{\rm xy}(x, y)$ ist bereits zu erahnen, dass für jeden $x$-Wert im statistischen Mittel ein anderer $y$-Wert zu erwarten ist. Daran erkennt man ebenfalls, dass hier die Komponenten $x$ und $y$ statistisch voneinander abhängen.
{{end}}

==Erwartungswerte zweidimensionaler Zufallsgrößen (1)==
Ein Sonderfall der statistischen Abhängigkeit ist die Korrelation. Darunter versteht man eine lineare Abhängigkeit zwischen den Einzelkomponenten $x$ und $y$.
*Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
*Aber nicht jede statistische Abhängigkeit beschreibt gleichzeitig eine Korrelation.

Zur quantitativen Erfassung der Korrelation verwendet man verschiedene Erwartungswerte der 2D-Zufallsgröße $(x, y)$, die analog zum eindimensionalen Fall nach [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|Kapitel 2.2]] bzw. [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente|Kapitel 3.3]] definiert sind:
*Für die (nichtzentrierten) Momente gilt die Beziehung:
$$m_{kl}={\rm E}[x^k\cdot y^l]=\int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x^{k} \cdot y^{l} \cdot f_{\rm xy}(x,y) \, {\rm d}x\, {\rm d}y.$$
:Somit sind die beiden linearen Mittelwerte $m_x = m_{10}$ und $m_y = m_{01}.$
*Die auf $m_x$ bzw. $m_y$ bezogenen Zentralmomente lauten:
$$\mu_{kl} = {\rm E}[(x-m_{x})^k \cdot (y-m_{y})^l] .$$
:In dieser allgemein gültigen Definitionsgleichung sind die Varianzen $σ_x²$ und $σ_y²$ der zwei Einzelkomponenten durch $\mu_{20}$ bzw. $\mu_{02}$ mit enthalten.
*Besondere Bedeutung besitzt die sogenannte Kovarianz $(k = l =$ 1), die ein Maß für die lineare statistische Abhängigkeit zwischen den Zufallsgrößen $x$ und $y$ ist:
$$\mu_{11} = {\rm E}[(x-m_{x})\cdot(y-m_{y})] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x-m_{x}) (y-m_{y})\cdot f_{\rm xy}(x,y) \,{\rm d}x \, {\rm d}y .$$

Im Folgenden bezeichnen wir die Kovarianz $\mu_{11}$ teilweise auch mit $\mu_{xy}$, falls sich die Kovarianz auf die Zufallsgrößen $x$ und $y$ bezieht. Die Kovarianz hängt wie folgt mit dem nichtzentrierten Moment $m_{11} = m_{xy} = E[x · y]$ zusammen:
$$\mu_{xy} = m_{xy} -m_{x }\cdot m_{y}.$$
Diese Gleichung ist für die numerische Auswertung von enormen Vorteil, da $m_{xy}, m_x$ und $m_y$ aus den Folgen $〈x_v〉$ und $〈y_v〉$ direkt - also in einem Durchlauf - gefunden werden können. Würde man dagegen die Kovarianz $\mu_{xy}$ entsprechend der oberen Definitionsgleichung direkt berechnen, so müsste man in einem ersten Durchlauf die Mittelwerte $m_x$ und $m_y$ ermitteln und dann in einem zweiten Durchlauf den Erwartungswert ${\rm E}[(x – m_x) · (y – m_y)]$.

==Erwartungswerte zweidimensionaler Zufallsgrößen (2)==
{{Beispiel}}
Nachfolgend sehen Sie die jeweils ersten Elemente zweier Zufallsfolgen $〈x_ν〉$ und $〈y_ν〉$. In der letzten Zeile sind die jeweiligen Produkte $x_ν · y_ν$ angegeben.

[[File:P_ID628__Sto_T_4_1_S6Neu.png | Beispielhafte 2D-Erwartungswerte]]

*Durch Mittelung über die jeweils zehn Folgenelemente erhält man $m_x =$ 0.5, $m_y =$ 1 und $m_{xy} =$ 0.69. Daraus ergibt sich die Kovarianz zu $\mu_{xy} =$ 0.69 – 0.5 · 1 = 0.19.
*Ohne Kenntnis der Gleichung $\mu_{xy} = m_{xy} – m_x · m_y$ hätte man zunächst im ersten Durchlauf die Mittelwerte $m_x$ und $m_y$ ermitteln müssen, um im zweiten Durchlauf die Kovarianz $\mu_{xy}$ als Erwartungswert des Produkts der mittelwertfreien Größen bestimmen zu können.

{{end}}

==Korrelationskoeffizient==
Bei statististischer Unabhängigkeit der beiden Komponenten $x$ und $y$ ist die Kovarianz $\mu_{xy} =$ 0. Das Ergebnis $„\mu_{xy} = 0”$ erhält man auch bei statististisch abhängigen Komponenten $x$ und $y$, wenn diese unkorreliert ⇒ '''linear''' unabhängig sind.

Sind dagegen $x$ und $y$ voll korreliert (z. B.: $y = K · x$), so ergibt sich bei positivem Wert von $K$ für die Kovarianz: $\mu_{xy} = σ_x · σ_y$. Deshalb verwendet man als Beschreibungsgröße häufig anstelle der Kovarianz den Korrelationskoeffizienten:
$$\rho_{xy}=\frac{\mu_{xy}}{\sigma_x \cdot \sigma_y}.$$

Dieser weist folgende Eigenschaften auf:
*Aufgrund der Normierung gilt stets –1 ≤ $ρ_{xy}$ ≤ +1.
*Sind die beiden Zufallsgrößen $x$ und $y$ unkorreliert, so ist $ρ_{xy} =$ 0.
*Bei strenger linearer Abhängigkeit $(x$ und $y$ sind zueinander proportional) ist $ρ_{xy}=$ ±1.

{{Beispiel}}
Die Zufallsgrößen $x$ und $y$ sind wie im Beispiel in [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen#WDF_und_VTF_bei_statistisch_unabh.C3.A4ngigen_Komponenten|Abschnitt 4]] dieses Kapitels gaußförmig verteilt, wobei die Streuungen unterschiedlich sind ⇒ $σ_y$ < $σ_x$.

[[File:P_ID232__Sto_T_4_1_S7a_neu.png | Gaußsche 2D-WDF]]

Im Unterschied zum ersten Beispiel sind aber nun die Zufallsgrößen $x$ und $y$ (positiv) korreliert. Der Korrelationskoeffizient ist dabei $ρ_{xy} =$ 0.8.
{{end}}

Fassen wir zusammen:
*Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem $x$–Wert im statistischen Mittel auch $y$ größer ist als bei kleinerem $x$.
*Dagegen drückt ein negativer Korrelationskoeffizient aus, dass $y$ mit steigendem $x$ im Mittel kleiner wird.

==Korrelationsgerade==
Man kann nun in die $(x, y)$-Ebene eine Gerade durch den „Mittelpunkt” $(m_x, m_y)$ einzeichnen. Diese Gerade $y = K(x)$ bezeichnet man als Korrelationsgerade (oder als Regressionsgerade).

[[File: P_ID1089__Sto_T_4_1_S7b_neu.png | Gaußsche 2D-WDF mit Korrelationsgerade]]

Die Korrelationsgerade besitzt folgende Eigenschaften:
*Die mittlere quadratische Abweichung von dieser Geraden – in $y$-Richtung betrachtet und über alle $N$ Punkte gemittelt – ist minimal:
$$\overline{\varepsilon_y^{\rm 2}}=\frac{\rm 1}{N} \cdot \sum_{\nu=\rm 1}^{N}[y_\nu-K(x_{\nu})]^{\rm 2}={\rm Minimum}.$$
*Die Korrelationsgerade kann man als eine Art „statistische Symmetrieachse“ interpretieren. Die Geradengleichung lautet:
$$y=K(x)=\frac{\sigma_y}{\sigma_x}\cdot\rho_{xy}\cdot(x-m_x)+m_y.$$
*Der Winkel, den die Korrelationsgerade zur $x$-Achse einnimmt, beträgt:
$$\theta_{y\rightarrow x}={\rm arctan}(\frac{\sigma_{y}}{\sigma_{x}}\cdot \rho_{xy}).$$

Durch diese Nomenklatur soll deutlich gemacht werden, dass es sich hier um die Regression von $y$ auf $x$ handelt. Die Regression in Gegenrichtung – also von $x$ auf $y$ – bedeutet dagegen die Minimierung der mittleren quadratischen Abweichung in $x$–Richtung.

Wie die folgende Animation verdeutlicht, ergibt sich dafür im Allgemeinen eine andere Gerade.
Korrelationskoeffizient und Regressionsgerade

{{Display}}

Fehlerhafte Links

2017-01-26T19:32:03Z

LukasWolf:

{{Header
|Untermenü=
|Vorherige Seite=
|Nächste Seite=
}}
'''Fehlerhafte Links in folgenden Kapiteln:'''

Buch Signaldarstellung:
*Grundbegriffe der NT-Prinzip der Nachrichtenübertragung-Nachrichtenquelle
*Grundbegriffe der NT-Prinzip der Nachrichtenübertragung-Übertragungskanal
*Grundbegriffe der NT-Klassifikation von Signalen-Analog- und Digitalsignale
*Grundbegriffe der NT-Rechnen mit komplexen Zahlen-Rechenregeln für komplexe Zahlen
*Periodische Signale-Allgemeine Beschreibung-Resultierende Periodendauer
*Periodische Signale-Gleichsignal-Diracfunktion im Frequenzbereich
*Periodische Signale-Harmonische Schwingung-Definition und Eigenschaften
*Periodische Signale-Harmonische Schwingung-Allgemeine Spektraldarstellung
*Periodische Signale-Fourierreihe-Berechnung der Fourierkoeffizienten
*Periodische Signale-Fourierreihe-Ausnutzung der Symmetrieeigenschaften
*Periodische Signale-Fourierreihe-Das Gibbsche Phänomen
*Periodische Signale-FT-Rücktrafo
*Periodische Signale-Sonderfälle
*Periodische Signale-Gesetzmäßigkeiten der FT
*Periodische Signale-Faltungssatz und Faltungsoperation-Grafische Faltung
*Bandpassartige Signale-Unterschiede und Gemeinsamkeiten-Synthese
*Bandpassartige Signale-Analytisches Signal und zugehörige Spektralfunktion-Zeigerdiagramm einer Summe harmonischer Schwingungen
*Bandpassartige Signale-Analytisches Signal und zugehörige Spektralfunktion-Warum gibt es für das gleiche Signal drei Darstellungsformen?
*Zeit und frequenzdiskrete SD-Zeitdiskrete Signaldarstellung-Das Abtasttheorem
*Zeit und frequenzdiskrete SD-Fehlermöglichkeiten bei Andwendung der DFT-Der mittlere quad. Fehler Qualitätskriterium
*Zeit und frequenzdiskrete SD-Fehlermöglichkeiten bei DFT-Aliasing
*Zeit und frequenzdiskrete SD-FFT-Radix-2-Algorithmus

Buch Lineare zeitinvariante Systeme
*Eigenschaften elektrischer Leitungen-Koaxialkabel-Interaktionsmodul
*Eigenschaften elektrischer Leitungen-Koaxialkabel-Interaktionsmodul #Empfangsgrundimpuls
*Eigenschaften elektrischer Leitungen-Kupfer Doppelader-Impulsantworten von Zweidrahtleitungen (3) Interaktionsmodul fehlt

Buch Stochastische Signaltheorie
*Wahrscheinlichkeitsrechnung-Einige grundlegende Definitionen-Ereignis und Ereignismenge: Videolink fehlt
*Wahrscheinlichkeitsrechnung-Mengentheoretische Grundlagen-Venndiagramm: Videolink
*Wahrscheinlichkeitsrechnung-Statistische Abhängigkeit und Unabh.-Rückschlusswsk. Videolink
*WSKR-Markowketten
*Diskrete ZG-WSK und rel. Häufigkeit-Bernoulli große Zahlen
*Diskrete ZG-WSk und rel. Häufigkeit-Quadratischer Mittelwert – Varianz – Streuung
*Diskrete ZG-WSK und rel Häufigkeit-Wahrscheinlichkeiten der Binomialverteilung
*Diskrete ZG-Poissonverteilung-Momente der Poissonverteilung zwei Module fehlen
*Diskrete ZG-Poissonverteilung-Gegenüberstellung Binomialverteilung - Poissonverteilung Module
*Diskrete ZG-Erzeugung-Reziproke Polynome
*Kontinuierliche Zufallsgrößen-WDF Definition Video
*Kontinuierliche ZG-WDF Diskret Video
*Kontinuierliche ZG-VTF bei kontinuierlichen Zufallsgrößen (2)
*Stochastische_Signaltheorie/Verteilungsfunktion_(VTF)#VTF_bei_kontinuierlichen_Zufallsgr.C3.B6.C3.9Fen_.281.29 LATEX FORMEL funktioniert nicht ???
*Kontinuierliche ZG-Erwartungswerte und Momente-Berechnung als Zeitmittelwert
*Kontinuierliche ZG-Gleichverteilte ZG-Bedeutung der Gleichverteilung für die Nachrichtentechnik
*Kontinuierliche ZG-Gaußverteilte ZG-Wahrscheinlichkeitsdichte- und Verteilungsfunktion
*Kontinuierliche ZG-Gaußverteilte ZG-Überschreitungswahrscheinlichkeit Interaktionsmodul fehlt
*Kontinuierliche ZG-Gaußverteilte ZG-Zentralmomente und Momente
*Kontinuierliche ZG-Gaußverteilte ZG-Erzeugung mittels Additionsmethode Lernvideo
*Kontinuierliche ZG-Exponentialverteilte ZG-Erzeugung einer exponentialverteilten Zufallsgröße (1) Lernvideo + 2 Tools
*Kontinuierliche ZG-Weitere Verteilungen-Riceverteilung Tool
*Kontinuierliche ZG-Zweidimensionale ZG- Korrelationsgerade
*

{{Display}}

Theory of Stochastic Signals/Further Distributions

2017-01-26T19:19:27Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Exponentialverteilte Zufallsgrößen
|Nächste Seite=Zweidimensionale Zufallsgrößen
}}
==Rayleighverteilung==
Diese Verteilung spielt für die Beschreibung zeitvarianter Kanäle – wie sie beispielweise im Mobilfunk vorliegen – eine zentrale Rolle. So weist nichtfrequenzselektives Fading eine solche Verteilung auf, wenn zwischen der festen Basisstation und dem mobilen Teilnehmer keine Sichtverbindung besteht.

Die Rayleighverteilung besitzt folgende charakteristische Eigenschaften:
*Eine rayleighverteilte Zufallsgröße $x$ kann keine negativen Werte annehmen und der theoretisch mögliche Wert $x =$ 0 tritt auch nur mit der Wahrscheinlichkeit 0 auf.
*Für $x$ ≥ 0 hat die WDF mit dem Verteilungsparameter $λ$ den folgenden Verlauf:
$$f_{\rm x}(x)=\frac{x}{\lambda^2}\cdot {\rm e}^{-{x^{\rm 2}} /{({\rm 2} \lambda^{\rm 2})}}.$$
*Das $k$-te Moment einer rayleighverteilten Zufallsgröße $x$ ergibt sich allgemein zu
$$m_k=(2\cdot \lambda^{\rm 2})^{\it k/\rm 2}\cdot {\rm \Gamma}( 1+ \frac{\it k}{\rm 2}) \hspace{0.3cm}{\rm mit }\hspace{0.3cm}{\rm \Gamma}(x)= \int_{0}^{\infty} t^{x-1} \cdot
{\rm e}^{-t} \hspace{0.1cm}{\rm d}t.$$
*Daraus lassen sich Mittelwert und Streuung folgendermaßen berechnen:
$$m_1=\sqrt{2}\cdot \lambda\cdot {\rm \Gamma}(1.5) =
\sqrt{2}\cdot \lambda\cdot {\sqrt{\pi}}/{2} =\lambda\cdot\sqrt{{\pi}/{2}},$$
$$m_2=2 \lambda^2 \cdot {\rm \Gamma}(2) =
2 \lambda^2 \hspace{0.3cm}\Rightarrow \hspace{0.3cm}\sigma
= \sqrt{m_2 - m_1^2}
=\lambda\cdot\sqrt{2-{\pi}/{2}}.$$
*Zur Modellierung einer rayleighverteilten Zufallsgröße $x$ verwendet man zum Beispiel zwei gaußverteilte, mittelwertfreie und statistisch unabhängige Zufallsgrößen $u$ und $υ$, die beide die Streuung $σ = λ$ aufweisen. Die Größen $u$ und $υ$ werden dann wie folgt verknüpft:
$$x=\sqrt{u^2+\upsilon^2}.$$

{{Beispiel}}
Die Grafik zeigt den Zeitverlauf $x(t)$ einer rayleighverteilten Zufallsgröße sowie die zugehörige Dichtefunktion $f_{\rm x}(x)$. Man erkennt aus dieser Darstellung:
*Die Rayleigh-WDF ist stets unsymmetrisch.
*Der Mittelwert $m_1$ liegt etwa 25% oberhalb des WDF-Maximums, das bei $x = λ$ auftritt.

[[File:P_ID62__Sto_T_3_7_S1_neu.png | Mustersignal und WDF einer rayleighverteilten Zufallsgröße|class=fit]]

{{end}}

==Riceverteilung==
Auch diese Verteilung spielt für die Beschreibung zeitvarianter Kanäle eine wichtige Rolle, unter Anderem auch deshalb, weil ''nichtfrequenzselektives Fading'' dann riceverteilt ist, wenn zwischen der Basisstation und dem Mobilteilnehmer eine ''Sichtverbindung'' besteht.

Für die [https://de.wikipedia.org/wiki/Henry_Gordon_Rice Rice]verteilung gelten folgende Aussagen:
*Die Wahrscheinlichkeitsdichtefunkion hat für $x$ > 0 den nachfolgend angegebenen Verlauf, wobei ${\rm I_0}( ... )$ die modifizierte Besselfunktion nullter Ordnung bezeichnet:
$$f_{\rm x}(x)=\frac{x}{\lambda^2}\cdot{\rm e}^{-({C^2+\it x^{\rm 2}})/ ({\rm 2 \it \lambda^{\rm 2}})}\cdot {\rm I_0}(\frac{\it x\cdot C}{\lambda^{\rm 2}}) \hspace{0.4cm}{\rm mit} \hspace{0.4cm} {\rm I_0}(x) = \sum_{k=0}^{\infty}\frac{(x/2)^{2k}}{k! \cdot {\rm \Gamma (k+1)}}.$$
*Der gegenüber der Rayleighverteilung zusätzliche Parameter $C$ ist ein Maß für die „Stärke” der Direktkomponente. Je größer der Quotient $C/λ$ ist, desto mehr nähert sich der Ricekanal dem Gauß-Kanal an. Für $C =$ 0 geht die Riceverteilung in die Rayleighverteilung über.
*Bei der Riceverteilung ist der Ausdruck für das Moment $m_k$ deutlich komplizierter und nur mit Hilfe hypergeometrischer Funktionen angebbar. Ist jedoch $λ$ sehr viel kleiner als $C$, so gilt $m_1 ≈ C$ und $σ ≈ λ$. Unter diesen Voraussetzungen kann die Riceverteilung durch eine Gaußverteilung mit Mittelwert $C$ und Streuung $λ$ angenähert werden.
*Zur Modellierung einer riceverteilten Zufallsgröße $x$ verwenden wir ein ähnliches Modell wie für die Rayleighverteilung, nur muss nun zumindest eine der beiden gaußverteilten und statistisch voneinander unabhängigen Zufallsgrößen $(u$ und/oder $υ$) einen Mittelwert ungleich 0 aufweisen.

{{Beispiel}}
Die Grafik zeigt den zeitlichen Verlauf einer riceverteilten Zufallsgröße $x$ sowie deren Dichtefunktion $f_{\rm x}(x)$, wobei $C/λ =$ 2 gilt. Der Mittelwert $m_1$ ist hier etwas größer als $C$.

[[File:P_ID63__Sto_T_3_7_S2_neu.png | Mustersignal und WDF einer riceverteilten Zufallsgröße]]

Etwas salopp ausgedrückt: Die Riceverteilung ist ein Kompromiss zwischen der Rayleigh- und der Gaußverteilung.
{{end}}

Mit dem folgenden Berechnungstool können Sie sich unter Anderem die Kenngrößen (WDF, VTF, Momente) der Rayleigh- und der Riceverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

==Cauchyverteilung==
Mathematisch sehr interessant (allerdings weniger von praktischer Bedeutung) ist die sogenannte [https://de.wikipedia.org/wiki/Augustin-Louis_Cauchy Cauchy]verteilung mit folgenden Eigenschaften:
*Wahrscheinlichkeitsdichtefunkion und Verteilungsfunktion lauten mit dem Parameter $λ$:
$$f_{\rm x}(x)=\frac{\rm 1}{\it\pi}\cdot\frac{\lambda}{\lambda^2+x^2}, \hspace{2cm} F_{\rm x}(r)=\frac{\rm 1}{2}+{\rm arctan}(\frac{r}{\lambda}).$$
*Bei der Cauchyverteilung besitzen alle Momente mit Ausnahme des linearen Mittelwertes $m_1$ einen unendlich großen Wert, und zwar unabhängig vom Parameter $λ$.
*Damit besitzt diese Verteilung auch eine unendlich große Varianz ⇒ Leistung. Deshalb ist es offensichtlich, dass keine physikalische Größe cauchyverteilt sein kann.
*Eine cauchyverteilte Zufallsgröße $x$ lässt sich aus einer zwischen –1 und +1 gleichverteilten Größe erzeugen, wenn man die folgende nichtlineare Transformation durchführt:
$$x=\lambda\cdot {\rm tan}( {\pi}/{\rm 2}\cdot u).$$

{{Beispiel}}
Der Quotient $u/υ$ zweier unabhängiger gaußverteilter mittelwertfreier Größen $u$ und $υ$ ist mit dem Verteilungsparameter $λ = σ_u/σ_υ$ cauchyverteilt.

[[File:P_ID64__Sto_T_3_7_S3_neu.png | WDF einer cauchyverteilten Zufallsgröße]]

Die Grafik zeigt die Cauchy-WDF. Zu erkennen ist der langsame Abfall dieser Funktion zu den Rändern hin. Da dieser asymptotisch mit $1/x^2$ erfolgt, sind die Varianz und die Momente höherer Ordnung (mit geradzahligem Index) unendlich groß.
{{end}}

==Tschebyscheffsche Ungleichung==
Bei einer Zufallsgröße $x$ mit bekannter WDF $f_{\rm x}(x)$ und VTF $F_{\rm x}(r)$ kann die Wahrscheinlichkeit, dass die Zufallsgröße $x$ betragsmäßig um mehr als einen Wert $ε$ von ihrem Mittelwert $m_{\rm x}$ abweicht, entsprechend der in diesem Kapitel allgemein beschriebenen Weise berechnet werden.

Ist neben dem Mittelwert $m_{\rm x}$ zwar noch die Streuung $σ_{\rm x}$ bekannt, nicht jedoch der exakte WDF-Verlauf, so lässt sich für diese Wahrscheinlichkeit zumindest eine obere Schranke angeben:

[[File:P_ID623__Sto_T_3_7_S4_ganz_neu.png | Tschebyscheffsche Ungleichung | rechts]]

$${\rm Pr}(|x - m_{\rm x}|\ge\varepsilon)\le\frac{\sigma_{x}^{\rm 2}}{\varepsilon^{\rm 2}}. $$

Diese von [https://de.wikipedia.org/wiki/Pafnuti_Lwowitsch_Tschebyschow Pafnuti L. Tschebyscheff] angegebene Schranke – bekannt als „Tschebyscheffsche Ungleichung” – ist im Allgemeinen allerdings nur eine sehr grobe Näherung für die tatsächliche Überschreitungswahrscheinlichkeit. Sie sollte deshalb nur bei unbekanntem Verlauf der WDF $f_{\rm x}(x)$ angewandt werden.

{{Beispiel}}
Wir gehen von einer gaußverteilten und mittelwertfreien Zufallsgröße $x$ aus.
*Damit ist die Wahrscheinlichkeit, dass deren Betrag $|x|$ größer als die 3-fache Streuung (3 · $σ_{\rm x}$) ist, einfach berechenbar und ergibt den Wert ${\rm 2 · Q(3) ≈ 2.7 · 10^{–3}}.$
*Die Tschebyscheffsche Ungleichung liefert hier als eine obere Schranke den deutlich zu großen Wert 1/9 ≈ 0.111, die aber für jede beliebige WDF–Form ebenfalls gelten würde.

{{end}}

{{Display}}

Theory of Stochastic Signals/Further Distributions

2017-01-26T19:18:40Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Exponentialverteilte Zufallsgrößen
|Nächste Seite=Zweidimensionale Zufallsgrößen
}}
==Rayleighverteilung==
Diese Verteilung spielt für die Beschreibung zeitvarianter Kanäle – wie sie beispielweise im Mobilfunk vorliegen – eine zentrale Rolle. So weist nichtfrequenzselektives Fading eine solche Verteilung auf, wenn zwischen der festen Basisstation und dem mobilen Teilnehmer keine Sichtverbindung besteht.

Die Rayleighverteilung besitzt folgende charakteristische Eigenschaften:
*Eine rayleighverteilte Zufallsgröße $x$ kann keine negativen Werte annehmen und der theoretisch mögliche Wert $x =$ 0 tritt auch nur mit der Wahrscheinlichkeit 0 auf.
*Für $x$ ≥ 0 hat die WDF mit dem Verteilungsparameter $λ$ den folgenden Verlauf:
$$f_{\rm x}(x)=\frac{x}{\lambda^2}\cdot {\rm e}^{-{x^{\rm 2}} /{({\rm 2} \lambda^{\rm 2})}}.$$
*Das $k$-te Moment einer rayleighverteilten Zufallsgröße $x$ ergibt sich allgemein zu
$$m_k=(2\cdot \lambda^{\rm 2})^{\it k/\rm 2}\cdot {\rm \Gamma}( 1+ \frac{\it k}{\rm 2}) \hspace{0.3cm}{\rm mit }\hspace{0.3cm}{\rm \Gamma}(x)= \int_{0}^{\infty} t^{x-1} \cdot
{\rm e}^{-t} \hspace{0.1cm}{\rm d}t.$$
*Daraus lassen sich Mittelwert und Streuung folgendermaßen berechnen:
$$m_1=\sqrt{2}\cdot \lambda\cdot {\rm \Gamma}(1.5) =
\sqrt{2}\cdot \lambda\cdot {\sqrt{\pi}}/{2} =\lambda\cdot\sqrt{{\pi}/{2}},$$
$$m_2=2 \lambda^2 \cdot {\rm \Gamma}(2) =
2 \lambda^2 \hspace{0.3cm}\Rightarrow \hspace{0.3cm}\sigma
= \sqrt{m_2 - m_1^2}
=\lambda\cdot\sqrt{2-{\pi}/{2}}.$$
*Zur Modellierung einer rayleighverteilten Zufallsgröße $x$ verwendet man zum Beispiel zwei gaußverteilte, mittelwertfreie und statistisch unabhängige Zufallsgrößen $u$ und $υ$, die beide die Streuung $σ = λ$ aufweisen. Die Größen $u$ und $υ$ werden dann wie folgt verknüpft:
$$x=\sqrt{u^2+\upsilon^2}.$$

{{Beispiel}}
Die Grafik zeigt den Zeitverlauf $x(t)$ einer rayleighverteilten Zufallsgröße sowie die zugehörige Dichtefunktion $f_{\rm x}(x)$. Man erkennt aus dieser Darstellung:
*Die Rayleigh-WDF ist stets unsymmetrisch.
*Der Mittelwert $m_1$ liegt etwa 25% oberhalb des WDF-Maximums, das bei $x = λ$ auftritt.

[[File:P_ID62__Sto_T_3_7_S1_neu.png | Mustersignal und WDF einer rayleighverteilten Zufallsgröße|class=fit]]

{{end}}

==Riceverteilung==
Auch diese Verteilung spielt für die Beschreibung zeitvarianter Kanäle eine wichtige Rolle, unter Anderem auch deshalb, weil ''nichtfrequenzselektives Fading'' dann riceverteilt ist, wenn zwischen der Basisstation und dem Mobilteilnehmer eine ''Sichtverbindung'' besteht.

Für die [https://de.wikipedia.org/wiki/Henry_Gordon_Rice Rice]verteilung gelten folgende Aussagen:
*Die Wahrscheinlichkeitsdichtefunkion hat für $x$ > 0 den nachfolgend angegebenen Verlauf, wobei ${\rm I_0}( ... )$ die modifizierte Besselfunktion nullter Ordnung bezeichnet:
$$f_{\rm x}(x)=\frac{x}{\lambda^2}\cdot{\rm e}^{-({C^2+\it x^{\rm 2}})/ ({\rm 2 \it \lambda^{\rm 2}})}\cdot {\rm I_0}(\frac{\it x\cdot C}{\lambda^{\rm 2}}) \hspace{0.4cm}{\rm mit} \hspace{0.4cm} {\rm I_0}(x) = \sum_{k=0}^{\infty}\frac{(x/2)^{2k}}{k! \cdot {\rm \Gamma (k+1)}}.$$
*Der gegenüber der Rayleighverteilung zusätzliche Parameter $C$ ist ein Maß für die „Stärke” der Direktkomponente. Je größer der Quotient $C/λ$ ist, desto mehr nähert sich der Ricekanal dem Gauß-Kanal an. Für $C =$ 0 geht die Riceverteilung in die Rayleighverteilung über.
*Bei der Riceverteilung ist der Ausdruck für das Moment $m_k$ deutlich komplizierter und nur mit Hilfe hypergeometrischer Funktionen angebbar. Ist jedoch $λ$ sehr viel kleiner als $C$, so gilt $m_1 ≈ C$ und $σ ≈ λ$. Unter diesen Voraussetzungen kann die Riceverteilung durch eine Gaußverteilung mit Mittelwert $C$ und Streuung $λ$ angenähert werden.
*Zur Modellierung einer riceverteilten Zufallsgröße $x$ verwenden wir ein ähnliches Modell wie für die Rayleighverteilung, nur muss nun zumindest eine der beiden gaußverteilten und statistisch voneinander unabhängigen Zufallsgrößen $(u$ und/oder $υ$) einen Mittelwert ungleich 0 aufweisen.

{{Beispiel}}
Die Grafik zeigt den zeitlichen Verlauf einer riceverteilten Zufallsgröße $x$ sowie deren Dichtefunktion $f_{\rm x}(x)$, wobei $C/λ =$ 2 gilt. Der Mittelwert $m_1$ ist hier etwas größer als $C$.

[[File:P_ID63__Sto_T_3_7_S2_neu.png | Mustersignal und WDF einer riceverteilten Zufallsgröße]]

Etwas salopp ausgedrückt: Die Riceverteilung ist ein Kompromiss zwischen der Rayleigh- und der Gaußverteilung.
{{end}}

Mit dem folgenden Berechnungstool können Sie sich unter Anderem die Kenngrößen (WDF, VTF, Momente) der Rayleigh- und der Riceverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

==Cauchyverteilung==
Mathematisch sehr interessant (allerdings weniger von praktischer Bedeutung) ist die sogenannte [https://de.wikipedia.org/wiki/Augustin-Louis_Cauchy Cauchy]verteilung mit folgenden Eigenschaften:
*Wahrscheinlichkeitsdichtefunkion und Verteilungsfunktion lauten mit dem Parameter $λ$:
$$f_{\rm x}(x)=\frac{\rm 1}{\it\pi}\cdot\frac{\lambda}{\lambda^2+x^2}, \hspace{2cm} F_{\rm x}(r)=\frac{\rm 1}{2}+{\rm arctan}(\frac{r}{\lambda}).$$
*Bei der Cauchyverteilung besitzen alle Momente mit Ausnahme des linearen Mittelwertes $m_1$ einen unendlich großen Wert, und zwar unabhängig vom Parameter $λ$.
*Damit besitzt diese Verteilung auch eine unendlich große Varianz ⇒ Leistung. Deshalb ist es offensichtlich, dass keine physikalische Größe cauchyverteilt sein kann.
*Eine cauchyverteilte Zufallsgröße $x$ lässt sich aus einer zwischen –1 und +1 gleichverteilten Größe erzeugen, wenn man die folgende nichtlineare Transformation durchführt:
$$x=\lambda\cdot {\rm tan}( {\pi}/{\rm 2}\cdot u).$$

{{Beispiel}}
Der Quotient $u/υ$ zweier unabhängiger gaußverteilter mittelwertfreier Größen $u$ und $υ$ ist mit dem Verteilungsparameter $λ = σ_u/σ_υ$ cauchyverteilt.

[[File:P_ID64__Sto_T_3_7_S3_neu.png | WDF einer cauchyverteilten Zufallsgröße]]

Die Grafik zeigt die Cauchy-WDF. Zu erkennen ist der langsame Abfall dieser Funktion zu den Rändern hin. Da dieser asymptotisch mit $1/x^2$ erfolgt, sind die Varianz und die Momente höherer Ordnung (mit geradzahligem Index) unendlich groß.
{{end}}

==Tschebyscheffsche Ungleichung==
Bei einer Zufallsgröße $x$ mit bekannter WDF $f_{\rm x}(x)$ und VTF $F_{\rm x}(r)$ kann die Wahrscheinlichkeit, dass die Zufallsgröße $x$ betragsmäßig um mehr als einen Wert $ε$ von ihrem Mittelwert $m_{\rm x}$ abweicht, entsprechend der in diesem Kapitel allgemein beschriebenen Weise berechnet werden.

Ist neben dem Mittelwert $m_{\rm x}$ zwar noch die Streuung $σ_{\rm x}$ bekannt, nicht jedoch der exakte WDF-Verlauf, so lässt sich für diese Wahrscheinlichkeit zumindest eine obere Schranke angeben:

[[File:P_ID623__Sto_T_3_7_S4_ganz_neu.png | Tschebyscheffsche Ungleichung | rechts]]

$${\rm Pr}(|x - m_{\rm x}|\ge\varepsilon)\le\frac{\sigma_{x}^{\rm 2}}{\varepsilon^{\rm 2}}. $$

Diese von [https://de.wikipedia.org/wiki/Pafnuti_Lwowitsch_Tschebyschow Pafnuti] L. Tschebyscheff angegebene Schranke – bekannt als „Tschebyscheffsche Ungleichung” – ist im Allgemeinen allerdings nur eine sehr grobe Näherung für die tatsächliche Überschreitungswahrscheinlichkeit. Sie sollte deshalb nur bei unbekanntem Verlauf der WDF $f_{\rm x}(x)$ angewandt werden.

{{Beispiel}}
Wir gehen von einer gaußverteilten und mittelwertfreien Zufallsgröße $x$ aus.
*Damit ist die Wahrscheinlichkeit, dass deren Betrag $|x|$ größer als die 3-fache Streuung (3 · $σ_{\rm x}$) ist, einfach berechenbar und ergibt den Wert ${\rm 2 · Q(3) ≈ 2.7 · 10^{–3}}.$
*Die Tschebyscheffsche Ungleichung liefert hier als eine obere Schranke den deutlich zu großen Wert 1/9 ≈ 0.111, die aber für jede beliebige WDF–Form ebenfalls gelten würde.

{{end}}

{{Display}}

Theory of Stochastic Signals/Further Distributions

2017-01-26T19:17:02Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Exponentialverteilte Zufallsgrößen
|Nächste Seite=Zweidimensionale Zufallsgrößen
}}
==Rayleighverteilung==
Diese Verteilung spielt für die Beschreibung zeitvarianter Kanäle – wie sie beispielweise im Mobilfunk vorliegen – eine zentrale Rolle. So weist nichtfrequenzselektives Fading eine solche Verteilung auf, wenn zwischen der festen Basisstation und dem mobilen Teilnehmer keine Sichtverbindung besteht.

Die Rayleighverteilung besitzt folgende charakteristische Eigenschaften:
*Eine rayleighverteilte Zufallsgröße $x$ kann keine negativen Werte annehmen und der theoretisch mögliche Wert $x =$ 0 tritt auch nur mit der Wahrscheinlichkeit 0 auf.
*Für $x$ ≥ 0 hat die WDF mit dem Verteilungsparameter $λ$ den folgenden Verlauf:
$$f_{\rm x}(x)=\frac{x}{\lambda^2}\cdot {\rm e}^{-{x^{\rm 2}} /{({\rm 2} \lambda^{\rm 2})}}.$$
*Das $k$-te Moment einer rayleighverteilten Zufallsgröße $x$ ergibt sich allgemein zu
$$m_k=(2\cdot \lambda^{\rm 2})^{\it k/\rm 2}\cdot {\rm \Gamma}( 1+ \frac{\it k}{\rm 2}) \hspace{0.3cm}{\rm mit }\hspace{0.3cm}{\rm \Gamma}(x)= \int_{0}^{\infty} t^{x-1} \cdot
{\rm e}^{-t} \hspace{0.1cm}{\rm d}t.$$
*Daraus lassen sich Mittelwert und Streuung folgendermaßen berechnen:
$$m_1=\sqrt{2}\cdot \lambda\cdot {\rm \Gamma}(1.5) =
\sqrt{2}\cdot \lambda\cdot {\sqrt{\pi}}/{2} =\lambda\cdot\sqrt{{\pi}/{2}},$$
$$m_2=2 \lambda^2 \cdot {\rm \Gamma}(2) =
2 \lambda^2 \hspace{0.3cm}\Rightarrow \hspace{0.3cm}\sigma
= \sqrt{m_2 - m_1^2}
=\lambda\cdot\sqrt{2-{\pi}/{2}}.$$
*Zur Modellierung einer rayleighverteilten Zufallsgröße $x$ verwendet man zum Beispiel zwei gaußverteilte, mittelwertfreie und statistisch unabhängige Zufallsgrößen $u$ und $υ$, die beide die Streuung $σ = λ$ aufweisen. Die Größen $u$ und $υ$ werden dann wie folgt verknüpft:
$$x=\sqrt{u^2+\upsilon^2}.$$

{{Beispiel}}
Die Grafik zeigt den Zeitverlauf $x(t)$ einer rayleighverteilten Zufallsgröße sowie die zugehörige Dichtefunktion $f_{\rm x}(x)$. Man erkennt aus dieser Darstellung:
*Die Rayleigh-WDF ist stets unsymmetrisch.
*Der Mittelwert $m_1$ liegt etwa 25% oberhalb des WDF-Maximums, das bei $x = λ$ auftritt.

[[File:P_ID62__Sto_T_3_7_S1_neu.png | Mustersignal und WDF einer rayleighverteilten Zufallsgröße|class=fit]]

{{end}}

==Riceverteilung==
Auch diese Verteilung spielt für die Beschreibung zeitvarianter Kanäle eine wichtige Rolle, unter Anderem auch deshalb, weil ''nichtfrequenzselektives Fading'' dann riceverteilt ist, wenn zwischen der Basisstation und dem Mobilteilnehmer eine ''Sichtverbindung'' besteht.

Für die Riceverteilung gelten folgende Aussagen:
*Die Wahrscheinlichkeitsdichtefunkion hat für $x$ > 0 den nachfolgend angegebenen Verlauf, wobei ${\rm I_0}( ... )$ die modifizierte Besselfunktion nullter Ordnung bezeichnet:
$$f_{\rm x}(x)=\frac{x}{\lambda^2}\cdot{\rm e}^{-({C^2+\it x^{\rm 2}})/ ({\rm 2 \it \lambda^{\rm 2}})}\cdot {\rm I_0}(\frac{\it x\cdot C}{\lambda^{\rm 2}}) \hspace{0.4cm}{\rm mit} \hspace{0.4cm} {\rm I_0}(x) = \sum_{k=0}^{\infty}\frac{(x/2)^{2k}}{k! \cdot {\rm \Gamma (k+1)}}.$$
*Der gegenüber der Rayleighverteilung zusätzliche Parameter $C$ ist ein Maß für die „Stärke” der Direktkomponente. Je größer der Quotient $C/λ$ ist, desto mehr nähert sich der Ricekanal dem Gauß-Kanal an. Für $C =$ 0 geht die Riceverteilung in die Rayleighverteilung über.
*Bei der Riceverteilung ist der Ausdruck für das Moment $m_k$ deutlich komplizierter und nur mit Hilfe hypergeometrischer Funktionen angebbar. Ist jedoch $λ$ sehr viel kleiner als $C$, so gilt $m_1 ≈ C$ und $σ ≈ λ$. Unter diesen Voraussetzungen kann die Riceverteilung durch eine Gaußverteilung mit Mittelwert $C$ und Streuung $λ$ angenähert werden.
*Zur Modellierung einer riceverteilten Zufallsgröße $x$ verwenden wir ein ähnliches Modell wie für die Rayleighverteilung, nur muss nun zumindest eine der beiden gaußverteilten und statistisch voneinander unabhängigen Zufallsgrößen $(u$ und/oder $υ$) einen Mittelwert ungleich 0 aufweisen.

{{Beispiel}}
Die Grafik zeigt den zeitlichen Verlauf einer riceverteilten Zufallsgröße $x$ sowie deren Dichtefunktion $f_{\rm x}(x)$, wobei $C/λ =$ 2 gilt. Der Mittelwert $m_1$ ist hier etwas größer als $C$.

[[File:P_ID63__Sto_T_3_7_S2_neu.png | Mustersignal und WDF einer riceverteilten Zufallsgröße]]

Etwas salopp ausgedrückt: Die Riceverteilung ist ein Kompromiss zwischen der Rayleigh- und der Gaußverteilung.
{{end}}

Mit dem folgenden Berechnungstool können Sie sich unter Anderem die Kenngrößen (WDF, VTF, Momente) der Rayleigh- und der Riceverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

==Cauchyverteilung==
Mathematisch sehr interessant (allerdings weniger von praktischer Bedeutung) ist die sogenannte [https://de.wikipedia.org/wiki/Augustin-Louis_Cauchy Cauchy]verteilung mit folgenden Eigenschaften:
*Wahrscheinlichkeitsdichtefunkion und Verteilungsfunktion lauten mit dem Parameter $λ$:
$$f_{\rm x}(x)=\frac{\rm 1}{\it\pi}\cdot\frac{\lambda}{\lambda^2+x^2}, \hspace{2cm} F_{\rm x}(r)=\frac{\rm 1}{2}+{\rm arctan}(\frac{r}{\lambda}).$$
*Bei der Cauchyverteilung besitzen alle Momente mit Ausnahme des linearen Mittelwertes $m_1$ einen unendlich großen Wert, und zwar unabhängig vom Parameter $λ$.
*Damit besitzt diese Verteilung auch eine unendlich große Varianz ⇒ Leistung. Deshalb ist es offensichtlich, dass keine physikalische Größe cauchyverteilt sein kann.
*Eine cauchyverteilte Zufallsgröße $x$ lässt sich aus einer zwischen –1 und +1 gleichverteilten Größe erzeugen, wenn man die folgende nichtlineare Transformation durchführt:
$$x=\lambda\cdot {\rm tan}( {\pi}/{\rm 2}\cdot u).$$

{{Beispiel}}
Der Quotient $u/υ$ zweier unabhängiger gaußverteilter mittelwertfreier Größen $u$ und $υ$ ist mit dem Verteilungsparameter $λ = σ_u/σ_υ$ cauchyverteilt.

[[File:P_ID64__Sto_T_3_7_S3_neu.png | WDF einer cauchyverteilten Zufallsgröße]]

Die Grafik zeigt die Cauchy-WDF. Zu erkennen ist der langsame Abfall dieser Funktion zu den Rändern hin. Da dieser asymptotisch mit $1/x^2$ erfolgt, sind die Varianz und die Momente höherer Ordnung (mit geradzahligem Index) unendlich groß.
{{end}}

==Tschebyscheffsche Ungleichung==
Bei einer Zufallsgröße $x$ mit bekannter WDF $f_{\rm x}(x)$ und VTF $F_{\rm x}(r)$ kann die Wahrscheinlichkeit, dass die Zufallsgröße $x$ betragsmäßig um mehr als einen Wert $ε$ von ihrem Mittelwert $m_{\rm x}$ abweicht, entsprechend der in diesem Kapitel allgemein beschriebenen Weise berechnet werden.

Ist neben dem Mittelwert $m_{\rm x}$ zwar noch die Streuung $σ_{\rm x}$ bekannt, nicht jedoch der exakte WDF-Verlauf, so lässt sich für diese Wahrscheinlichkeit zumindest eine obere Schranke angeben:

[[File:P_ID623__Sto_T_3_7_S4_ganz_neu.png | Tschebyscheffsche Ungleichung | rechts]]

$${\rm Pr}(|x - m_{\rm x}|\ge\varepsilon)\le\frac{\sigma_{x}^{\rm 2}}{\varepsilon^{\rm 2}}. $$

Diese von [https://de.wikipedia.org/wiki/Pafnuti_Lwowitsch_Tschebyschow Pafnuti] L. Tschebyscheff angegebene Schranke – bekannt als „Tschebyscheffsche Ungleichung” – ist im Allgemeinen allerdings nur eine sehr grobe Näherung für die tatsächliche Überschreitungswahrscheinlichkeit. Sie sollte deshalb nur bei unbekanntem Verlauf der WDF $f_{\rm x}(x)$ angewandt werden.

{{Beispiel}}
Wir gehen von einer gaußverteilten und mittelwertfreien Zufallsgröße $x$ aus.
*Damit ist die Wahrscheinlichkeit, dass deren Betrag $|x|$ größer als die 3-fache Streuung (3 · $σ_{\rm x}$) ist, einfach berechenbar und ergibt den Wert ${\rm 2 · Q(3) ≈ 2.7 · 10^{–3}}.$
*Die Tschebyscheffsche Ungleichung liefert hier als eine obere Schranke den deutlich zu großen Wert 1/9 ≈ 0.111, die aber für jede beliebige WDF–Form ebenfalls gelten würde.

{{end}}

{{Display}}

Theory of Stochastic Signals/Exponentially Distributed Random Variables

2017-01-26T19:14:10Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite= Gaußverteilte Zufallsgröße
|Nächste Seite=Weitere Verteilungen
}}
==Einseitige Exponentialverteilung==
{{Definition}}
Eine kontinuierliche Zufallsgröße $x$ nennt man (negativ-)exponentialverteilt, wenn sie nur nicht-negative Werte annehmen kann und die WDF für $x$ > 0 folgenden Verlauf hat:
$$f_x(x)=\it \lambda\cdot\rm e^{\it -\lambda \hspace{0.05cm}\cdot \hspace{0.03cm} x}.$$
{{end}}

Das linke Bild zeigt die Wahrscheinlichkeitsdichtefunktion (WDF) einer exponentialverteilten Zufallsgröße $x$. Hervorzuheben ist:
*Definitionsgemäß gilt $f_{\rm x}(0) = λ/2.$
*Je größer der Verteilungsparameter $λ$ ist, um so steiler erfolgt der Abfall.

[[File: P_ID72__Sto_T_3_6_S1_neu.png | WDF und VTF einer exponentialverteilten Zufallsgröße]]

Für die Verteilungsfunktion (rechtes Bild) erhält man für $r$ > 0 durch Integration über die WDF:
$$F_{\rm x}(r)=1-\rm e^{\it -\lambda\hspace{0.05cm}\cdot \hspace{0.03cm} r}.$$

Die Momente der Exponentialverteilung sind allgemein gleich $m_k = k!/λ^k.$ Daraus und aus dem Satz von Steiner ergibt sich für den Mittelwert und die Streuung:
$$m_1=\frac{1}{\lambda},$$
$$\sigma=\sqrt{m_2-m_1^2}=\sqrt{\frac{2}{\lambda^2}-\frac{1}{\lambda^2}}=\frac{1}{\lambda}.$$

{{Beispiel}}
Die Exponentialverteilung hat große Bedeutung für Zuverlässigkeitsuntersuchungen, wobei in diesem Zusammenhang auch der Begriff ''Lebensdauerverteilung'' üblich ist. Bei diesen Anwendungen ist die Zufallsgröße oft die Zeit $t$, die bis zum Ausfall einer Komponente vergeht. Desweiteren ist anzumerken, dass die Exponentialverteilung eng mit der [[Stochastische_Signaltheorie/Poissonverteilung|Poissonverteilung]] in Zusammenhang steht.
{{end}}

==Transformation von Zufallsgrößen==
Zur Erzeugung einer solchen exponentialverteilten Zufallsgröße an einem Digtalrechner kann zum Beispiel eine nichtlineare Transformation verwendet werden. Das zugrunde liegende Prinzip wird hier zunächst allgemein angegeben.

Besitzt eine kontinuierliche Zufallsgröße $u$ die WDF $f_{\rm u}(u)$, so gilt für die WDF der an der nichtlinearen Kennlinie $x = g(u)$ transformierten Zufallsgröße $x$:
$$f_{\rm x}(x)=\frac{f_u(u)}{\mid g'(u)\mid}\Bigg |_{\hspace{0.1cm} u=h(x)}.$$

Hierbei bezeichnet $g'(u)$ die Ableitung der Kennlinie; $h(x)$ gibt die Umkehrfunktion zu $g(u)$ an.

Diese Gleichung gilt allerdings nur unter der Voraussetzung, dass die Ableitung $g'(u)$ ungleich 0 ist. Bei einer Kennlinie mit horizontalen Abschnitten $(g'(u) =$ 0) treten in der WDF zusätzliche Diracfunktionen auf, wenn die Eingangsgröße in diesem Bereich Anteile besitzt. Die Gewichte dieser Diracfunktionen sind gleich den Wahrscheinlichkeiten, dass die Eingangsgröße in diesen Bereichen liegt.

{{Beispiel}}
[[File:P_ID76__Sto_T_3_6_S2_neu.png | Zur Transformation von Zufallsgrößen | rechts]]
Gibt man eine zwischen –2 und +2 dreieckverteilte Zufallsgröße $u$ auf eine Nichtlinerität mit der Kennlinie $x = g(u)$, die im Bereich $|u|$ ≤ 1 die Eingangswerte um den Faktor 3 verstärkt und alle Werte $|u|$ > 1 je nach Vorzeichen auf $x =$ ±3 abbildet, so ergibt sich die rechts skizzierte WDF $f_{\rm x}(x)$. Bitte beachten Sie:
*Aufgrund der Verstärkung um den Faktor 3 ist die WDF $f_{\rm x}(x)$ um diesen Faktor breiter und niedriger als $f_{\rm u}(u).$
*Die horizontalen Begrenzungen der Kennlinie bei $u =$ ±1 führen zu den beiden Diracfunktionen bei $x =$ ±3, jeweils mit Gewicht 1/8 ⇒ grüne Flächen in der WDF $f_{\rm u}(u).$

{{end}}

==Erzeugung einer exponentialverteilten Zufallsgröße (1)==
Es wird vorausgesetzt, dass die zu transformierende Zufallsgröße $u$ gleichverteilt zwischen 0 und 1 ist. Dann kann gezeigt werden, dass durch die monoton steigende Kennlinie
$$x=\frac{1}{\lambda}\cdot \rm ln(\frac{1}{1-\it u})$$
eine einseitig exponentialverteilte Zufallsgröße $x$ mit folgender WDF entsteht:
$$f_{\rm x}(x)=\lambda\cdot\rm e^{\it -\lambda x}\hspace{0.2cm}{\rm f\ddot{u}r}\hspace{0.2cm} {\it x}>0.$$

Für $x =$ 0 ist der WDF-Wert nur halb so groß. Negative $x$-Werte treten nicht auf, da für 0 ≤ $u$ < 1 das Argument der (natürlichen) Logarithmus–Funktion nicht kleiner wird als 1.

Die gleiche WDF erhält man übrigens mit der monoton fallenden Kennlinie
$$x=\frac{1}{\lambda}\cdot \rm ln(\frac{1}{\it u})=-\frac{1}{\lambda}\cdot \rm ln(\it u \rm ).$$

Bei einer Rechnerimplementierung entsprechend der ersten Transformationskennlinie ist der Wert $u =$ 1 auszuschließen, im zweiten Fall der Wert $u =$ 0.

Zur Verdeutlichung der hier abgeleiteten Transformation bieten wir Ihnen ein Lernvideo an:
Erzeugung einer Exponentialverteilung

In einem engen Zusammenhang mit der Exponentialverteilung steht die sogenannte [https://de.wikipedia.org/wiki/Pierre-Simon_Laplace Laplace] - Verteilung mit der Wahrscheinlichkeitsdichtefunktion
$$f_{\rm x}(x)=\frac{\lambda}{2}\cdot\rm e^{\it -\lambda \hspace{0.05cm} \cdot \hspace{0.05cm} | x|}.$$

Diese ist eine ''zweiseitige Exponentialverteilung,'' die insbesondere die Amplitudenverteilung von Sprach- und Musiksignalen ausreichend gut approximiert. Zur Generierung verwendet man eine zwischen ±1 gleichverteilte Zufallsgröße $υ$ (0 ausgeschlossen) und die Transformationskennlinie
$$x=\frac{{\rm sign}(v)}{\lambda}\cdot \rm ln(\it v \rm ).$$

Mit dem folgenden Berechnungstool können Sie sich unter Anderem die Kenngrößen (WDF, VTF, Momente) der Exponential- und der Laplaceverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

Im zweiten Teil des unten aufgeführten Lernvideos wird an Beispielen gezeigt, dass die Laplace-Verteilung für die Beschreibung von Sprach- und Musiksignalen eine große Bedeutung besitzt:
Wahrscheinlichkeit und Wahrscheinlichkeitsdichtefunktion (Dauer 6:30)

==Erzeugung einer exponentialverteilten Zufallsgröße (2)==
'''Ausführliche Herleitung der Transformationskennlinie'''

Es soll eine geeignete Transformationskennlinie $x = g(u)$ ermittelt werden, die aus einer zwischen 0 und 1 gleichverteilten Zufallsgröße $u$ eine einseitig exponentialverteilte Zufallsgröße $x$ formt:
$$f_{\rm u}(u)= \left\{ \begin{array}{*{2}{c}} 1 & \rm falls\hspace{0.3cm} 0 < {\it u} < 1,\\ 0.5 & \rm falls\hspace{0.3cm} {\it u} = 0, {\it u} = 1,\\ 0 & \rm sonst, \\ \end{array} \right.$$
$$ f_{\rm x}(x)= \left\{ \begin{array}{*{2}{c}} \lambda\cdot\rm e^{\it -\lambda x} & \rm falls\hspace{0.3cm} {\it x} > 1,\\ \lambda/2 & \rm falls\hspace{0.3cm} {\it x} = 0 ,\\ 0 & \rm falls\hspace{0.3cm} {\it x} < 1. \\ \end{array} \right.$$

Ausgehend von der allgemeinen Transformationsgleichung
$$f_{\rm x}(x)=\frac{f_{\rm u}(u)}{\mid g'(u) \mid }\Bigg |_{\hspace{0.1cm} u=h(x)}$$
erhält man durch Umstellen und Einsetzen der gegebenen WDF $f_{\rm x}(x):$
$$\mid g'(u)\mid\hspace{0.1cm}=\frac{f_{\rm u}(u)}{f_{\rm x}(x)}\Bigg |_{\hspace{0.1cm} x=g(u)}= {1}/{\lambda} \cdot {\rm e}^{\lambda \hspace{0.05cm}\cdot \hspace{0.05cm}g(u)}.$$
Hierbei gibt $x = g'(u)$ die Ableitung der Kennlinie an, die wir als monoton steigend voraussetzen. Mit dieser Annahme erhält man $|g'(u)| = g'(u) = dx/du$ und die Differentialgleichung
$${\rm d}u = \lambda\ \cdot {\rm e}^{-\lambda x}\, {\rm d}x$$
mit der Lösung
$$u = K - {\rm e}^{-\lambda x}.$$
Aus der Bedingung, dass die Eingangsgröße $u =$ 0 zum Ausgangswert $x =$ 0 führen soll, erhält man für die Konstante $K =$ 1 und damit
$$u = 1- {\rm e}^{-\lambda x}.$$
Löst man diese Gleichung nach $x$ auf, so ergibt sich die vorne angegebene Gleichung:
$$x = \frac{1}{\lambda} \cdot {\rm ln} \left(\frac{1}{1 - u} \right) .$$
Bei einer Rechnerimplementierung ist allerdings sicherzustellen, dass für die gleichverteilte Eingangsgröße $u$ der kritische Wert 1 ausgeschlossen wird. Dies wirkt sich jedoch auf das Endergebnis nicht aus.

q.e.d.

{{Display}}

Theory of Stochastic Signals/Exponentially Distributed Random Variables

2017-01-26T19:12:59Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite= Gaußverteilte Zufallsgröße
|Nächste Seite=Weitere Verteilungen
}}
==Einseitige Exponentialverteilung==
{{Definition}}
Eine kontinuierliche Zufallsgröße $x$ nennt man (negativ-)exponentialverteilt, wenn sie nur nicht-negative Werte annehmen kann und die WDF für $x$ > 0 folgenden Verlauf hat:
$$f_x(x)=\it \lambda\cdot\rm e^{\it -\lambda \hspace{0.05cm}\cdot \hspace{0.03cm} x}.$$
{{end}}

Das linke Bild zeigt die Wahrscheinlichkeitsdichtefunktion (WDF) einer exponentialverteilten Zufallsgröße $x$. Hervorzuheben ist:
*Definitionsgemäß gilt $f_{\rm x}(0) = λ/2.$
*Je größer der Verteilungsparameter $λ$ ist, um so steiler erfolgt der Abfall.

[[File: P_ID72__Sto_T_3_6_S1_neu.png | WDF und VTF einer exponentialverteilten Zufallsgröße]]

Für die Verteilungsfunktion (rechtes Bild) erhält man für $r$ > 0 durch Integration über die WDF:
$$F_{\rm x}(r)=1-\rm e^{\it -\lambda\hspace{0.05cm}\cdot \hspace{0.03cm} r}.$$

Die Momente der Exponentialverteilung sind allgemein gleich $m_k = k!/λ^k.$ Daraus und aus dem Satz von Steiner ergibt sich für den Mittelwert und die Streuung:
$$m_1=\frac{1}{\lambda},$$
$$\sigma=\sqrt{m_2-m_1^2}=\sqrt{\frac{2}{\lambda^2}-\frac{1}{\lambda^2}}=\frac{1}{\lambda}.$$

{{Beispiel}}
Die Exponentialverteilung hat große Bedeutung für Zuverlässigkeitsuntersuchungen, wobei in diesem Zusammenhang auch der Begriff ''Lebensdauerverteilung'' üblich ist. Bei diesen Anwendungen ist die Zufallsgröße oft die Zeit $t$, die bis zum Ausfall einer Komponente vergeht. Desweiteren ist anzumerken, dass die Exponentialverteilung eng mit der [[Stochastische_Signaltheorie/Poissonverteilung|Poissonverteilung]] in Zusammenhang steht.
{{end}}

==Transformation von Zufallsgrößen==
Zur Erzeugung einer solchen exponentialverteilten Zufallsgröße an einem Digtalrechner kann zum Beispiel eine nichtlineare Transformation verwendet werden. Das zugrunde liegende Prinzip wird hier zunächst allgemein angegeben.

Besitzt eine kontinuierliche Zufallsgröße $u$ die WDF $f_{\rm u}(u)$, so gilt für die WDF der an der nichtlinearen Kennlinie $x = g(u)$ transformierten Zufallsgröße $x$:
$$f_{\rm x}(x)=\frac{f_u(u)}{\mid g'(u)\mid}\Bigg |_{\hspace{0.1cm} u=h(x)}.$$

Hierbei bezeichnet $g'(u)$ die Ableitung der Kennlinie; $h(x)$ gibt die Umkehrfunktion zu $g(u)$ an.

Diese Gleichung gilt allerdings nur unter der Voraussetzung, dass die Ableitung $g'(u)$ ungleich 0 ist. Bei einer Kennlinie mit horizontalen Abschnitten $(g'(u) =$ 0) treten in der WDF zusätzliche Diracfunktionen auf, wenn die Eingangsgröße in diesem Bereich Anteile besitzt. Die Gewichte dieser Diracfunktionen sind gleich den Wahrscheinlichkeiten, dass die Eingangsgröße in diesen Bereichen liegt.

{{Beispiel}}
[[File:P_ID76__Sto_T_3_6_S2_neu.png | Zur Transformation von Zufallsgrößen | rechts]]
Gibt man eine zwischen –2 und +2 dreieckverteilte Zufallsgröße $u$ auf eine Nichtlinerität mit der Kennlinie $x = g(u)$, die im Bereich $|u|$ ≤ 1 die Eingangswerte um den Faktor 3 verstärkt und alle Werte $|u|$ > 1 je nach Vorzeichen auf $x =$ ±3 abbildet, so ergibt sich die rechts skizzierte WDF $f_{\rm x}(x)$. Bitte beachten Sie:
*Aufgrund der Verstärkung um den Faktor 3 ist die WDF $f_{\rm x}(x)$ um diesen Faktor breiter und niedriger als $f_{\rm u}(u).$
*Die horizontalen Begrenzungen der Kennlinie bei $u =$ ±1 führen zu den beiden Diracfunktionen bei $x =$ ±3, jeweils mit Gewicht 1/8 ⇒ grüne Flächen in der WDF $f_{\rm u}(u).$

{{end}}

==Erzeugung einer exponentialverteilten Zufallsgröße (1)==
Es wird vorausgesetzt, dass die zu transformierende Zufallsgröße $u$ gleichverteilt zwischen 0 und 1 ist. Dann kann gezeigt werden, dass durch die monoton steigende Kennlinie
$$x=\frac{1}{\lambda}\cdot \rm ln(\frac{1}{1-\it u})$$
eine einseitig exponentialverteilte Zufallsgröße $x$ mit folgender WDF entsteht:
$$f_{\rm x}(x)=\lambda\cdot\rm e^{\it -\lambda x}\hspace{0.2cm}{\rm f\ddot{u}r}\hspace{0.2cm} {\it x}>0.$$

Für $x =$ 0 ist der WDF-Wert nur halb so groß. Negative $x$-Werte treten nicht auf, da für 0 ≤ $u$ < 1 das Argument der (natürlichen) Logarithmus–Funktion nicht kleiner wird als 1.

Die gleiche WDF erhält man übrigens mit der monoton fallenden Kennlinie
$$x=\frac{1}{\lambda}\cdot \rm ln(\frac{1}{\it u})=-\frac{1}{\lambda}\cdot \rm ln(\it u \rm ).$$

Bei einer Rechnerimplementierung entsprechend der ersten Transformationskennlinie ist der Wert $u =$ 1 auszuschließen, im zweiten Fall der Wert $u =$ 0.

Zur Verdeutlichung der hier abgeleiteten Transformation bieten wir Ihnen ein Lernvideo an:
Erzeugung einer Exponentialverteilung

In einem engen Zusammenhang mit der Exponentialverteilung steht die sogenannte [[https://de.wikipedia.org/wiki/Pierre-Simon_Laplace|Laplace]] - Verteilung mit der Wahrscheinlichkeitsdichtefunktion
$$f_{\rm x}(x)=\frac{\lambda}{2}\cdot\rm e^{\it -\lambda \hspace{0.05cm} \cdot \hspace{0.05cm} | x|}.$$

Diese ist eine ''zweiseitige Exponentialverteilung,'' die insbesondere die Amplitudenverteilung von Sprach- und Musiksignalen ausreichend gut approximiert. Zur Generierung verwendet man eine zwischen ±1 gleichverteilte Zufallsgröße $υ$ (0 ausgeschlossen) und die Transformationskennlinie
$$x=\frac{{\rm sign}(v)}{\lambda}\cdot \rm ln(\it v \rm ).$$

Mit dem folgenden Berechnungstool können Sie sich unter Anderem die Kenngrößen (WDF, VTF, Momente) der Exponential- und der Laplaceverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

Im zweiten Teil des unten aufgeführten Lernvideos wird an Beispielen gezeigt, dass die Laplace-Verteilung für die Beschreibung von Sprach- und Musiksignalen eine große Bedeutung besitzt:
Wahrscheinlichkeit und Wahrscheinlichkeitsdichtefunktion (Dauer 6:30)

==Erzeugung einer exponentialverteilten Zufallsgröße (2)==
'''Ausführliche Herleitung der Transformationskennlinie'''

Es soll eine geeignete Transformationskennlinie $x = g(u)$ ermittelt werden, die aus einer zwischen 0 und 1 gleichverteilten Zufallsgröße $u$ eine einseitig exponentialverteilte Zufallsgröße $x$ formt:
$$f_{\rm u}(u)= \left\{ \begin{array}{*{2}{c}} 1 & \rm falls\hspace{0.3cm} 0 < {\it u} < 1,\\ 0.5 & \rm falls\hspace{0.3cm} {\it u} = 0, {\it u} = 1,\\ 0 & \rm sonst, \\ \end{array} \right.$$
$$ f_{\rm x}(x)= \left\{ \begin{array}{*{2}{c}} \lambda\cdot\rm e^{\it -\lambda x} & \rm falls\hspace{0.3cm} {\it x} > 1,\\ \lambda/2 & \rm falls\hspace{0.3cm} {\it x} = 0 ,\\ 0 & \rm falls\hspace{0.3cm} {\it x} < 1. \\ \end{array} \right.$$

Ausgehend von der allgemeinen Transformationsgleichung
$$f_{\rm x}(x)=\frac{f_{\rm u}(u)}{\mid g'(u) \mid }\Bigg |_{\hspace{0.1cm} u=h(x)}$$
erhält man durch Umstellen und Einsetzen der gegebenen WDF $f_{\rm x}(x):$
$$\mid g'(u)\mid\hspace{0.1cm}=\frac{f_{\rm u}(u)}{f_{\rm x}(x)}\Bigg |_{\hspace{0.1cm} x=g(u)}= {1}/{\lambda} \cdot {\rm e}^{\lambda \hspace{0.05cm}\cdot \hspace{0.05cm}g(u)}.$$
Hierbei gibt $x = g'(u)$ die Ableitung der Kennlinie an, die wir als monoton steigend voraussetzen. Mit dieser Annahme erhält man $|g'(u)| = g'(u) = dx/du$ und die Differentialgleichung
$${\rm d}u = \lambda\ \cdot {\rm e}^{-\lambda x}\, {\rm d}x$$
mit der Lösung
$$u = K - {\rm e}^{-\lambda x}.$$
Aus der Bedingung, dass die Eingangsgröße $u =$ 0 zum Ausgangswert $x =$ 0 führen soll, erhält man für die Konstante $K =$ 1 und damit
$$u = 1- {\rm e}^{-\lambda x}.$$
Löst man diese Gleichung nach $x$ auf, so ergibt sich die vorne angegebene Gleichung:
$$x = \frac{1}{\lambda} \cdot {\rm ln} \left(\frac{1}{1 - u} \right) .$$
Bei einer Rechnerimplementierung ist allerdings sicherzustellen, dass für die gleichverteilte Eingangsgröße $u$ der kritische Wert 1 ausgeschlossen wird. Dies wirkt sich jedoch auf das Endergebnis nicht aus.

q.e.d.

{{Display}}

Theory of Stochastic Signals/Gaussian Distributed Random Variables

2017-01-26T19:08:40Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Gleichverteilte Zufallsgröße
|Nächste Seite=Exponentialverteilte Zufallsgrößen
}}
==Allgemeine Beschreibung==
Zufallsgrößen mit Gaußscher Wahrscheinlichkeitsdichtefunktion – die Namensgebung geht dabei auf den bedeutenden Mathematiker, Physiker und Astronomen [https://de.wikipedia.org/wiki/Carl_Friedrich_Gau%C3%9F Carl Friedrich Gauß] zurück – sind wirklichkeitsnahe Modelle für viele physikalische Größen und haben auch für die Nachrichtentechnik eine große Bedeutung. Dies hat mehrere Gründe:
*Nach dem ''zentralen Grenzwertsatz'' besitzt jede Linearkombination statistischer Größen
$$x=\sum\limits_{i=\rm 1}^{\it I}x_i ,$$
:im Grenzfall $(I → ∞)$ eine Gaußsche WDF, so lange die einzelnen Komponenten keine statistischen Bindungen besitzen. Dies gilt (nahezu) für alle Dichtefunktionen der einzelnen Summanden $x_i$.
*Viele ''Rauschprozesse'' erfüllen genau diese Voraussetzung, das heißt, sie setzen sich additiv aus einer sehr großen Anzahl voneinander unabhängiger Einzelbeiträge zusammen, so dass ihre Musterfunktionen (Rauschsignale) eine Gaußsche Amplitudenverteilung aufweisen.
*Legt man ein gaußverteiltes Signal zur spektralen Formung an ein lineares Filter, so ist das Ausgangssignal ebenfalls gaußverteilt. Es ändern sich nur die Verteilungsparameter wie Mittelwert und Streuung sowie die inneren statistischen Bindungen der Abtastwerte.

{{Beispiel}}
Das Bild zeigt links ein Gaußsches Zufallssignal $x_1(t)$ und rechts im Vergleich dazu ein gleichverteiltes Signal $x_2(t)$ mit gleichem Mittelwert $m_1$ und gleicher Streuung $σ$.

[[File:P_ID68__Sto_T_3_5_S1_neu.png | Beispiele Gaußscher Zufallssignale]]

Man erkennt, dass bei der Gaußverteilung im Gegensatz zur Gleichverteilung beliebig große und beliebig kleine Amplitudenwerte auftreten können, auch wenn diese sehr unwahrscheinlich sind im Vergleich zum mittleren Amplitudenbereich.
{{end}}

==Wahrscheinlichkeitsdichte- und Verteilungsfunktion==
Die Wahrscheinlichkeitsdichtefunktion einer gaußverteilten Zufallsgröße lautet allgemein:
$$f_x(x) = \frac{1}{\sqrt{2\pi}\cdot\sigma}\cdot {\rm exp}\left (-\frac{(x-m_1)^2 }{2\sigma^2} \right ).$$
Die Parameter einer Gaußschen WDF sind
*der Mittelwert bzw. der Gleichanteil $m_1$,
*die Streuung bzw. der Effektivwert $σ$.

[[File:P_ID65__Sto_T_3_5_S2_neu.png | WDF und VTF einer gaußverteilten Zufallsgröße]]

Aus der linken Darstellung geht hervor, dass die Streuung $σ$ als der Abstand von Maximalwert und Wendepunkt aus der glockenförmigen WDF $f_{\rm x}(x)$ auch grafisch ermittelt werden kann. Ist $m_1 =$ 0 und $σ =$ 1, so spricht man oft auch von der Normalverteilung.

Rechts ist die Verteilungsfunktion $F_{\rm x}(r)$ einer gaußverteilten Zufallsgröße dargestellt. Die VTF ist punktsymmetrisch um den Mittelwert $m_1$. Durch Integration über die Gaußsche WDF erhält man:
$$F_x(r)= \phi(\frac{\it r-m_{\rm 1}}{\sigma})\hspace{0.5cm}\rm mit\hspace{0.5cm}\rm \phi (\it x\rm ) = \frac{\rm 1}{\sqrt{\rm 2\it \pi}}\int_{-\rm\infty}^{\it x} \rm e^{\it -u^{\rm 2}/\rm 2}\,\, d \it u.$$

Man bezeichnet $ϕ(x)$ als das Gaußsche Fehlerintegral. Dessen Funktionsverlauf ist analytisch nicht berechenbar und muss deshalb aus Tabellen entnommen werden. $ϕ(x)$ lässt sich durch eine Taylorreihe annähern oder aus der in Programmbibliotheken oft vorhandenen Funktion „erf( $x$)” berechnen.

Weitere Informationen zu den gaußverteilten Zufallsgrößen liefert das folgende Lernvideo:
Der AWGN–Kanal – Teil 2

==Überschreitungswahrscheinlichkeit==
Bei der Untersuchung digitaler Übertragungssysteme muss oft die Wahrscheinlichkeit bestimmt werden, dass eine (mittelwertfreie) gaußverteilte Zufallsgröße $x$ mit der Varianz $σ^2$ einen vorgegebenen Wert $x_0$ überschreitet. Für diese Wahrscheinlichkeit gilt:
$$\rm Pr(\it x > x_{\rm 0})=\rm Q({\it x_{\rm 0}}/{\sigma}).$$
Hierbei bezeichnet $Q(x) = 1 − ϕ(x)$ die Komplementärfunktion zu $ϕ(x)$; man nennt diese Funktion das Komplementäre Gaußsche Fehlerintegral und es gilt folgende Berechnungsvorschrift:
$$\rm Q (\it x\rm ) = \frac{\rm 1}{\sqrt{\rm 2\pi}}\int_{\it x}^{\rm +\infty}\hspace{-0.2cm}\rm e^{\it -u^{\rm 2}/\hspace{0.05cm} \rm 2}\,d \it u = \rm 1- \phi (\it x).$$
Dieses Integral ist ebenfalls nicht analytisch lösbar und muss aus Tabellen entnommen werden. In Bibliotheken findet man oft die Funktion „erfc( $x$)”, die mit $Q(x)$ wie folgt zusammenhängt:
$$\rm Q(\it x\rm )={\rm 1}/\hspace{0.05cm}{\rm 2}\cdot \rm erfc({\it x}/{\sqrt{\rm 2}}).$$
Speziell für größere $x$–Werte von (also für kleine Fehlerwahrscheinlichkeiten) liefern die nachfolgend angegebenen Schranken eine brauchbare Abschätzung für das Komplementäre Gaußsche Fehlerintegral. $Q_o(x)$ bezeichnet hierbei eine obere und $Q_u(x)$ eine untere Schranke:
$$\rm Q_o(\it x \rm )=\frac{\rm 1}{\sqrt{\rm 2\pi}\cdot x}\cdot \rm e^{-\it x^{\rm 2}/\hspace{0.05cm}\rm 2}, \hspace{1cm} \rm Q_u(\it x \rm )=\frac{\rm 1-{\rm 1}/{\it x^{\rm 2}}}{\sqrt{\rm 2\pi}\cdot x}\cdot \rm e^{-\it x^{\rm 2}/\hspace{0.05cm}\rm 2} =\rm Q_0(\it x \rm )\left(\rm 1-{\rm 1}/{\it x^{\rm 2}}\right) .$$
Das Grafik zeigt die Q-Funktion in logarithmischer Darstellung für lineare (obere Achse) und logarithmische Abszissenwerte (untere Achse). Die obere Schranke (rote Kreise) ist ab ca. $x =$ 1 brauchbar, die untere Schranke (grüne Rauten) ab $x ≈$ 2. Für $x$-Werte ≥ 4 sind beide Schranken innerhalb der Zeichengenauigkeit vom tatsächlichen Verlauf Q( $x$) nicht mehr zu unterscheiden.

[[File:P_ID621__Sto_T_3_5_S3neu.png | Komplementäres Gaußsches Fehlerintegral]]

==Zentralmomente und Momente==
Die Kenngrößen der Gaußverteilung weisen folgende Eigenschaften auf:
*Die Zentralmomente $\mu_k$ (identisch mit den Momenten $m_k$ der äquivalenten mittelwertfreien Zufallsgröße $x – m_1$) sind bei der Gaußschen WDF wie auch bei der Gleichverteilung aufgrund der symmetrischen Verhältnisse für ungerade Werte von $k$ identisch 0. Das Zentralmoment $\mu_2$ ist definitionsgemäß gleich $σ^2$.
*Alle höheren Zentralmomente mit geradzahligen Werten von $k$ lassen sich bei gaußförmiger WDF – wohlgemerkt: ausschließlich bei dieser – durch die Varianz $σ^2$ ausdrücken:
$$\mu_{k}=(k-\rm 1)\cdot (k-\rm 3)\cdot ... \cdot \rm 3\cdot\rm 1\cdot\sigma^k\hspace{0.2cm}\rm (falls\hspace{0.1cm}\it k\hspace{0.1cm}\rm gerade).$$
*Daraus können die nichtzentrierten Momente $m_k$ wie folgt bestimmt werden:
$$m_k = \sum\limits_{\kappa= 0}^{k} \left( \begin{array}{*{2}{c}} k \\ \kappa \\ \end{array} \right)\cdot \mu_\kappa \cdot {m_1}^{k-\kappa}.$$
:Es ist anzumerken, dass diese Gleichung allgemein gilt, also für beliebige Verteilungen.
*Aus der oberen Gleichung folgt direkt $\mu_4 = 3σ^4$ und daraus für die Kurtosis der Wert $K =$ 3. Den Wert $K$ − 3 bezeichnet man deshalb auch häufig als die Gaußabweichung. Ist diese negativ, so erfolgt der WDF-Abfall schneller als bei der Gaußverteilung. Beispielsweise hat bei einer Gleichverteilung die Gaußabweichung stets den Zahlenwert 1.8 – 3 = –1.2.

{{Beispiel}}
Die ersten Zentralmomente einer Gaußschen Zufallsgröße mit Streuung $σ =$ 1/2 sind:
$$\mu_2 = \frac{1}{4}, \hspace{0.4cm}\mu_4 = \frac{3}{16},\hspace{0.4cm}\mu_6 = \frac{15}{64}, \hspace{0.4cm}\mu_8 = \frac{105}{256}.$$
Alle Zentralmomente mit ungeradem Index sind identisch 0.
{{end}}

Mit dem folgenden Modul können Sie sich die Kenngrößen der Gaußverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

==Erzeugung mittels Additionsmethode==
Dieses einfache, auf dem zentralen Grenzwertsatz basierende Verfahren zur rechnertechnischen Generierung einer Gaußschen Zufallsgröße soll hier nur stichpunktartig skizziert werden:

'''(1)''' Man geht von (zwischen 0 und 1) gleichverteilten und statistisch voneinander unabhängigen Zufallsgrößen $u_i$ aus ⇒ Mittelwert 1/2, Varianz 1/12.

'''(2)''' Man bildet die Summe über $I$ Summanden, wobei $I$ hinreichend groß gewählt werden muss:
$$s=\sum\limits_{i=1}^{I}u_i.$$
Nach dem zentralen Grenzwertsatz ist die Zufallsgröße $s$ mit guter Näherung gaußverteilt, wenn $I$ hinreichend groß gewählt wird. Für $I =$ 2 ergibt sich beispielsweise nur eine Dreieck–WDF (Faltung zweier Rechtecke).

'''(3)''' Der Mittelwert der Zufallsgröße $s$ beträgt somit $I/2$. Da die gleichverteilten Zufallsgrößen $u_i$ als statistisch voneinander unabhängig vorausgesetzt wurden, können auch ihre Varianzen addiert werden, so dass sich für die Varianz von $s$ der Wert $I/12$ ergibt.

'''(4)''' Soll eine gaußverteilte Zufallsgröße $x$ mit anderem Mittelwert $m_x$ und anderer Streuung $σ_x$ erzeugt werden, so muss noch folgende lineare Transformation durchgeführt werden:
$$x=m_x+\frac{\sigma_x}{\sqrt{I/\rm 12}}\cdot[(\sum\limits_{\it i=\rm 1}^{\it I}u_i)-{I}/{\rm 2}].$$

'''(5)''' Mit dem Parameter $I =$ 12 vereinfacht sich die Generierungsvorschrift, was man insbesondere bei rechenzeitkritischen Anwendungen – z. B. bei einer Echtzeitsimulation – ausnutzen kann:
$$x=m_x+\sigma_x\cdot[(\sum\limits_{i=\rm 1}^{12}\it u_i \rm )-\rm 6].$$
Die nach der Additionsmethode (mit Parameter $I$) approximierte Gaußsche Zufallsgröße liefert allerdings nur Werte in einem begrenzten Bereich um den Mittelwert $m_x$. Allgemein gilt:
$$m_x-\sqrt{3 I}\cdot \sigma_x\le x \le m_x+\sqrt{3 I}\cdot \sigma_x.$$

Der Fehler gegenüber der theoretischen Gaußverteilung ist an diesen Grenzen am größten und wird für steigendes $I$ kleiner. Diesen Sachverhalt können Sie sich anhand eines Lernvideos verdeutlichen.
Prinzip der Additionsmethode

==Erzeugung mit dem Verfahren nach Box/Muller==
Bei dieser Methode werden zwei statistisch voneinander unabhängige gaußverteilte Zufallsgrößen $x$ und $y$ aus den beiden zwischen 0 und 1 gleichverteilten und statistisch unabhängigen Zufallsgrößen $u$ und $υ$ durch nichtlineare Transformation erzeugt:
$$x=m_x+\sigma_{x}\cdot\rm cos(2\it \pi u)\cdot\sqrt{\rm -2\cdot \rm ln(\it v)},$$
$$y=m_y+\sigma_{y}\cdot\rm sin(2\it \pi u)\cdot\sqrt{\rm -2\cdot \rm ln(\it v)}.$$

Das Verfahren nach Box und Muller – abgekürzt BM – kann wie folgt charakterisiert werden:
*Der theoretische Hintergrund für die Gültigkeit obiger Generierungsvorschriften basiert auf den Gesetzmäßigkeiten für zweidimensionale Zufallsgrößen (siehe Kapitel 4.1).
*Obige Gleichungen liefern sukszessive zwei Gaußwerte ohne statistische Bindungen untereinander. Diese Tatsache kann man zur Verkürzung der Simulationszeit nutzen, indem man bei jedem Funktionsaufruf ein Tupel $(x, y)$ von Gaußwerten generiert.
*Ein Vergleich der Rechenzeiten zeigt, dass – bei jeweils bestmöglicher Implementierung – das BM-Verfahren der Additionsmethode mit $I =$ 12 etwa um den Faktor 3 überlegen ist.
*Der Wertebereich ist beim BM-Verfahren weniger begrenzt als bei der Additionsmethode, so dass auch kleine Wahrscheinlichkeiten genauer simuliert werden. Aber auch mit dem BM-Verfahren lassen sich keine beliebig kleinen Fehlerwahrscheinlichkeiten simulieren.

{{Beispiel}}
Bei einem 32 Bit-Rechner ist die kleinste darstellbare Floatzahl $2^{–31} ≈ 0.466 · 10^{–9}.$ Für die nachfolgende Abschätzung setzen wir die Parameter $m_x = m_y =$ 0 und $σ_x = σ_y =$ 1 voraus.
*Der Maximalwert des Wurzelausdrucks in der Generierungsvorschrift des BM-Verfahrens kann somit nicht größer als ca. 6.55 werden und ist zudem äußerst unwahrscheinlich.
*Da sowohl die Cosinus- als auch die Sinusfunktion betragsmäßig auf 1 beschränkt ist, wäre das gleichzeitig der maximal mögliche Wert für die Zufallsgrößen $x$ und $y$.

Eine in [ES96]<ref name='ES96'>Eck, P.; Söder, G.: ''Tabulated Inversion, a Fast Method for White Gaussian Noise Simulation.'' In: AEÜ Int. J. Electron. Commun. 50 (1996), S. 41-48.</ref> dokumentierte Simulation über eine Milliarde Abtastwerte hat aber gezeigt, dass das BM-Verfahren nur bis zu Fehlerwahrscheinlichkeiten von $10^{–5}$ die Q-Funktion sehr gut approximiert, dann aber der Kurvenverlauf steil abbricht. Der maximal auftretende Wert des Wurzelausdrucks war dabei nicht 6.55, sondern aufgrund der aktuellen Zufallsgrößen $u$ und $υ$ nur etwa 4.6, womit sich der schlagartige Abfall ab etwa $10^{–5}$ erklären lässt. Bei 64 Bit-Rechenoperationen kann dieses Verfahren natürlich noch deutlich verbessert werden.
{{end}}

==Erzeugung mit dem Verfahren „Tabulated Inversion”==
Bei diesem von P. Eck und G. Söder entwickelten Verfahren [ES96]<ref name='ES96'/> wird wie folgt vorgegangen:

'''(1)''' Die Gauß–WDF wird in $J$ Intervalle mit gleichen Flächeninhalten – und dementsprechend unterschiedlicher Breite – aufgeteilt, wobei $J$ eine Zweierpotenz darstellt.

'''(2)''' Dem Intervall mit Index $j$ wird ein charakteristischer Wert $C_j$ zugeordnet. Somit genügt es, bei jedem Funktionsaufruf nur einen Integer-Zahlengenerator aufzurufen, der die ganzzahligen Werte $j = ±1, ... , ±J/2$ mit gleicher Wahrscheinlichkeit liefert und damit eines der $C_j$ auswählt.

'''(3)''' Wird $J$ hinreichend groß gewählt, z. B. $J = 2^{15} = 32768,$ so können die $C_j$ vereinfachend gleich den Intervallmittelwerten gesetzt werden. Diese Werte muss man nur einmal berechnen und können bereits vor der eigentlichen Simulation in einer Datei abgelegt werden.

'''(4)''' Die Randbereiche sind problematisch und müssen gesondert behandelt werden. Mittels nichtlinearer Transformation wird hierfür ein Floatwert gemäß den Ausläufern der Gauß-WDF bestimmt.

{{Beispiel}}
Die Skizze zeigt die WDF–Aufteilung für $J =$ 16 durch die Intervallgrenzen $I_{–7} ... I_7$. Diese Grenzen wurden so gewählt, dass jedes Intervall die gleiche Fläche $p_j = 1/J =$ 1/16 aufweist. Der charakteristische Wert $C_j$ eines jeden Intervalls liegt genau in der Mitte zwischen $I_{j–1}$ und $I_j$.

[[File:P_ID67__Sto_T_3_5_S7_neu.png | Zur Verdeutlichung des Verfahrens „Tabulated Inversion”]]

Man erzeugt nun eine gleichverteilte diskrete Zufallsgröße $k$ (hier zwischen 1 und 8) und dazu ein Vorzeichenbit. Bei negativem Vorzeichenbit und $k =$ 4 wird somit der Wert −(0.49+0.67)/2 ⇒ $C_4 =$ −0.58 ausgegeben. Bei $k =$ 8 tritt der Sonderfall ein, dass man den Zufallswert $C_8$ durch nichtlineare Transformation entsprechend den Ausläufern der Gaußkurve ermitteln muss.
{{end}}

Die Eigenschaften von „Tabulated Inversion” können wie folgt zusammengefasst werden:
*Diese Methode ist mit $J = 2^{15}$ bei vergleichbarer Simulationsgenauigkeit etwa um den Faktor 8 schneller als das BM-Verfahren.
*Nachteilig ist, dass nun die Überschreitungswahrscheinlichkeit Pr( $x > r$) in den inneren Bereichen nicht mehr kontinuierlich ist, sondern sich aufgrund der Diskretisierung eine Treppenkurve ergibt.
*Dieses Manko kann man durch ein größeres $J$ ausgleichen. Durch die Sonderbehandlung der Ränder eignet sich das Verfahren auch für sehr kleine Fehlerwahrscheinlichkeiten.

==Quellenverzeichnis==
<references/>

{{Display}}

Theory of Stochastic Signals/Gaussian Distributed Random Variables

2017-01-26T19:08:22Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Gleichverteilte Zufallsgröße
|Nächste Seite=Exponentialverteilte Zufallsgrößen
}}
==Allgemeine Beschreibung==
Zufallsgrößen mit Gaußscher Wahrscheinlichkeitsdichtefunktion – die Namensgebung geht dabei auf den bedeutenden Mathematiker, Physiker und Astronomen [[https://de.wikipedia.org/wiki/Carl_Friedrich_Gau%C3%9F|Carl Friedrich Gauß]] zurück – sind wirklichkeitsnahe Modelle für viele physikalische Größen und haben auch für die Nachrichtentechnik eine große Bedeutung. Dies hat mehrere Gründe:
*Nach dem ''zentralen Grenzwertsatz'' besitzt jede Linearkombination statistischer Größen
$$x=\sum\limits_{i=\rm 1}^{\it I}x_i ,$$
:im Grenzfall $(I → ∞)$ eine Gaußsche WDF, so lange die einzelnen Komponenten keine statistischen Bindungen besitzen. Dies gilt (nahezu) für alle Dichtefunktionen der einzelnen Summanden $x_i$.
*Viele ''Rauschprozesse'' erfüllen genau diese Voraussetzung, das heißt, sie setzen sich additiv aus einer sehr großen Anzahl voneinander unabhängiger Einzelbeiträge zusammen, so dass ihre Musterfunktionen (Rauschsignale) eine Gaußsche Amplitudenverteilung aufweisen.
*Legt man ein gaußverteiltes Signal zur spektralen Formung an ein lineares Filter, so ist das Ausgangssignal ebenfalls gaußverteilt. Es ändern sich nur die Verteilungsparameter wie Mittelwert und Streuung sowie die inneren statistischen Bindungen der Abtastwerte.

{{Beispiel}}
Das Bild zeigt links ein Gaußsches Zufallssignal $x_1(t)$ und rechts im Vergleich dazu ein gleichverteiltes Signal $x_2(t)$ mit gleichem Mittelwert $m_1$ und gleicher Streuung $σ$.

[[File:P_ID68__Sto_T_3_5_S1_neu.png | Beispiele Gaußscher Zufallssignale]]

Man erkennt, dass bei der Gaußverteilung im Gegensatz zur Gleichverteilung beliebig große und beliebig kleine Amplitudenwerte auftreten können, auch wenn diese sehr unwahrscheinlich sind im Vergleich zum mittleren Amplitudenbereich.
{{end}}

==Wahrscheinlichkeitsdichte- und Verteilungsfunktion==
Die Wahrscheinlichkeitsdichtefunktion einer gaußverteilten Zufallsgröße lautet allgemein:
$$f_x(x) = \frac{1}{\sqrt{2\pi}\cdot\sigma}\cdot {\rm exp}\left (-\frac{(x-m_1)^2 }{2\sigma^2} \right ).$$
Die Parameter einer Gaußschen WDF sind
*der Mittelwert bzw. der Gleichanteil $m_1$,
*die Streuung bzw. der Effektivwert $σ$.

[[File:P_ID65__Sto_T_3_5_S2_neu.png | WDF und VTF einer gaußverteilten Zufallsgröße]]

Aus der linken Darstellung geht hervor, dass die Streuung $σ$ als der Abstand von Maximalwert und Wendepunkt aus der glockenförmigen WDF $f_{\rm x}(x)$ auch grafisch ermittelt werden kann. Ist $m_1 =$ 0 und $σ =$ 1, so spricht man oft auch von der Normalverteilung.

Rechts ist die Verteilungsfunktion $F_{\rm x}(r)$ einer gaußverteilten Zufallsgröße dargestellt. Die VTF ist punktsymmetrisch um den Mittelwert $m_1$. Durch Integration über die Gaußsche WDF erhält man:
$$F_x(r)= \phi(\frac{\it r-m_{\rm 1}}{\sigma})\hspace{0.5cm}\rm mit\hspace{0.5cm}\rm \phi (\it x\rm ) = \frac{\rm 1}{\sqrt{\rm 2\it \pi}}\int_{-\rm\infty}^{\it x} \rm e^{\it -u^{\rm 2}/\rm 2}\,\, d \it u.$$

Man bezeichnet $ϕ(x)$ als das Gaußsche Fehlerintegral. Dessen Funktionsverlauf ist analytisch nicht berechenbar und muss deshalb aus Tabellen entnommen werden. $ϕ(x)$ lässt sich durch eine Taylorreihe annähern oder aus der in Programmbibliotheken oft vorhandenen Funktion „erf( $x$)” berechnen.

Weitere Informationen zu den gaußverteilten Zufallsgrößen liefert das folgende Lernvideo:
Der AWGN–Kanal – Teil 2

==Überschreitungswahrscheinlichkeit==
Bei der Untersuchung digitaler Übertragungssysteme muss oft die Wahrscheinlichkeit bestimmt werden, dass eine (mittelwertfreie) gaußverteilte Zufallsgröße $x$ mit der Varianz $σ^2$ einen vorgegebenen Wert $x_0$ überschreitet. Für diese Wahrscheinlichkeit gilt:
$$\rm Pr(\it x > x_{\rm 0})=\rm Q({\it x_{\rm 0}}/{\sigma}).$$
Hierbei bezeichnet $Q(x) = 1 − ϕ(x)$ die Komplementärfunktion zu $ϕ(x)$; man nennt diese Funktion das Komplementäre Gaußsche Fehlerintegral und es gilt folgende Berechnungsvorschrift:
$$\rm Q (\it x\rm ) = \frac{\rm 1}{\sqrt{\rm 2\pi}}\int_{\it x}^{\rm +\infty}\hspace{-0.2cm}\rm e^{\it -u^{\rm 2}/\hspace{0.05cm} \rm 2}\,d \it u = \rm 1- \phi (\it x).$$
Dieses Integral ist ebenfalls nicht analytisch lösbar und muss aus Tabellen entnommen werden. In Bibliotheken findet man oft die Funktion „erfc( $x$)”, die mit $Q(x)$ wie folgt zusammenhängt:
$$\rm Q(\it x\rm )={\rm 1}/\hspace{0.05cm}{\rm 2}\cdot \rm erfc({\it x}/{\sqrt{\rm 2}}).$$
Speziell für größere $x$–Werte von (also für kleine Fehlerwahrscheinlichkeiten) liefern die nachfolgend angegebenen Schranken eine brauchbare Abschätzung für das Komplementäre Gaußsche Fehlerintegral. $Q_o(x)$ bezeichnet hierbei eine obere und $Q_u(x)$ eine untere Schranke:
$$\rm Q_o(\it x \rm )=\frac{\rm 1}{\sqrt{\rm 2\pi}\cdot x}\cdot \rm e^{-\it x^{\rm 2}/\hspace{0.05cm}\rm 2}, \hspace{1cm} \rm Q_u(\it x \rm )=\frac{\rm 1-{\rm 1}/{\it x^{\rm 2}}}{\sqrt{\rm 2\pi}\cdot x}\cdot \rm e^{-\it x^{\rm 2}/\hspace{0.05cm}\rm 2} =\rm Q_0(\it x \rm )\left(\rm 1-{\rm 1}/{\it x^{\rm 2}}\right) .$$
Das Grafik zeigt die Q-Funktion in logarithmischer Darstellung für lineare (obere Achse) und logarithmische Abszissenwerte (untere Achse). Die obere Schranke (rote Kreise) ist ab ca. $x =$ 1 brauchbar, die untere Schranke (grüne Rauten) ab $x ≈$ 2. Für $x$-Werte ≥ 4 sind beide Schranken innerhalb der Zeichengenauigkeit vom tatsächlichen Verlauf Q( $x$) nicht mehr zu unterscheiden.

[[File:P_ID621__Sto_T_3_5_S3neu.png | Komplementäres Gaußsches Fehlerintegral]]

==Zentralmomente und Momente==
Die Kenngrößen der Gaußverteilung weisen folgende Eigenschaften auf:
*Die Zentralmomente $\mu_k$ (identisch mit den Momenten $m_k$ der äquivalenten mittelwertfreien Zufallsgröße $x – m_1$) sind bei der Gaußschen WDF wie auch bei der Gleichverteilung aufgrund der symmetrischen Verhältnisse für ungerade Werte von $k$ identisch 0. Das Zentralmoment $\mu_2$ ist definitionsgemäß gleich $σ^2$.
*Alle höheren Zentralmomente mit geradzahligen Werten von $k$ lassen sich bei gaußförmiger WDF – wohlgemerkt: ausschließlich bei dieser – durch die Varianz $σ^2$ ausdrücken:
$$\mu_{k}=(k-\rm 1)\cdot (k-\rm 3)\cdot ... \cdot \rm 3\cdot\rm 1\cdot\sigma^k\hspace{0.2cm}\rm (falls\hspace{0.1cm}\it k\hspace{0.1cm}\rm gerade).$$
*Daraus können die nichtzentrierten Momente $m_k$ wie folgt bestimmt werden:
$$m_k = \sum\limits_{\kappa= 0}^{k} \left( \begin{array}{*{2}{c}} k \\ \kappa \\ \end{array} \right)\cdot \mu_\kappa \cdot {m_1}^{k-\kappa}.$$
:Es ist anzumerken, dass diese Gleichung allgemein gilt, also für beliebige Verteilungen.
*Aus der oberen Gleichung folgt direkt $\mu_4 = 3σ^4$ und daraus für die Kurtosis der Wert $K =$ 3. Den Wert $K$ − 3 bezeichnet man deshalb auch häufig als die Gaußabweichung. Ist diese negativ, so erfolgt der WDF-Abfall schneller als bei der Gaußverteilung. Beispielsweise hat bei einer Gleichverteilung die Gaußabweichung stets den Zahlenwert 1.8 – 3 = –1.2.

{{Beispiel}}
Die ersten Zentralmomente einer Gaußschen Zufallsgröße mit Streuung $σ =$ 1/2 sind:
$$\mu_2 = \frac{1}{4}, \hspace{0.4cm}\mu_4 = \frac{3}{16},\hspace{0.4cm}\mu_6 = \frac{15}{64}, \hspace{0.4cm}\mu_8 = \frac{105}{256}.$$
Alle Zentralmomente mit ungeradem Index sind identisch 0.
{{end}}

Mit dem folgenden Modul können Sie sich die Kenngrößen der Gaußverteilung anzeigen lassen:
WDF, VTF und Momente spezieller Verteilungen

==Erzeugung mittels Additionsmethode==
Dieses einfache, auf dem zentralen Grenzwertsatz basierende Verfahren zur rechnertechnischen Generierung einer Gaußschen Zufallsgröße soll hier nur stichpunktartig skizziert werden:

'''(1)''' Man geht von (zwischen 0 und 1) gleichverteilten und statistisch voneinander unabhängigen Zufallsgrößen $u_i$ aus ⇒ Mittelwert 1/2, Varianz 1/12.

'''(2)''' Man bildet die Summe über $I$ Summanden, wobei $I$ hinreichend groß gewählt werden muss:
$$s=\sum\limits_{i=1}^{I}u_i.$$
Nach dem zentralen Grenzwertsatz ist die Zufallsgröße $s$ mit guter Näherung gaußverteilt, wenn $I$ hinreichend groß gewählt wird. Für $I =$ 2 ergibt sich beispielsweise nur eine Dreieck–WDF (Faltung zweier Rechtecke).

'''(3)''' Der Mittelwert der Zufallsgröße $s$ beträgt somit $I/2$. Da die gleichverteilten Zufallsgrößen $u_i$ als statistisch voneinander unabhängig vorausgesetzt wurden, können auch ihre Varianzen addiert werden, so dass sich für die Varianz von $s$ der Wert $I/12$ ergibt.

'''(4)''' Soll eine gaußverteilte Zufallsgröße $x$ mit anderem Mittelwert $m_x$ und anderer Streuung $σ_x$ erzeugt werden, so muss noch folgende lineare Transformation durchgeführt werden:
$$x=m_x+\frac{\sigma_x}{\sqrt{I/\rm 12}}\cdot[(\sum\limits_{\it i=\rm 1}^{\it I}u_i)-{I}/{\rm 2}].$$

'''(5)''' Mit dem Parameter $I =$ 12 vereinfacht sich die Generierungsvorschrift, was man insbesondere bei rechenzeitkritischen Anwendungen – z. B. bei einer Echtzeitsimulation – ausnutzen kann:
$$x=m_x+\sigma_x\cdot[(\sum\limits_{i=\rm 1}^{12}\it u_i \rm )-\rm 6].$$
Die nach der Additionsmethode (mit Parameter $I$) approximierte Gaußsche Zufallsgröße liefert allerdings nur Werte in einem begrenzten Bereich um den Mittelwert $m_x$. Allgemein gilt:
$$m_x-\sqrt{3 I}\cdot \sigma_x\le x \le m_x+\sqrt{3 I}\cdot \sigma_x.$$

Der Fehler gegenüber der theoretischen Gaußverteilung ist an diesen Grenzen am größten und wird für steigendes $I$ kleiner. Diesen Sachverhalt können Sie sich anhand eines Lernvideos verdeutlichen.
Prinzip der Additionsmethode

==Erzeugung mit dem Verfahren nach Box/Muller==
Bei dieser Methode werden zwei statistisch voneinander unabhängige gaußverteilte Zufallsgrößen $x$ und $y$ aus den beiden zwischen 0 und 1 gleichverteilten und statistisch unabhängigen Zufallsgrößen $u$ und $υ$ durch nichtlineare Transformation erzeugt:
$$x=m_x+\sigma_{x}\cdot\rm cos(2\it \pi u)\cdot\sqrt{\rm -2\cdot \rm ln(\it v)},$$
$$y=m_y+\sigma_{y}\cdot\rm sin(2\it \pi u)\cdot\sqrt{\rm -2\cdot \rm ln(\it v)}.$$

Das Verfahren nach Box und Muller – abgekürzt BM – kann wie folgt charakterisiert werden:
*Der theoretische Hintergrund für die Gültigkeit obiger Generierungsvorschriften basiert auf den Gesetzmäßigkeiten für zweidimensionale Zufallsgrößen (siehe Kapitel 4.1).
*Obige Gleichungen liefern sukszessive zwei Gaußwerte ohne statistische Bindungen untereinander. Diese Tatsache kann man zur Verkürzung der Simulationszeit nutzen, indem man bei jedem Funktionsaufruf ein Tupel $(x, y)$ von Gaußwerten generiert.
*Ein Vergleich der Rechenzeiten zeigt, dass – bei jeweils bestmöglicher Implementierung – das BM-Verfahren der Additionsmethode mit $I =$ 12 etwa um den Faktor 3 überlegen ist.
*Der Wertebereich ist beim BM-Verfahren weniger begrenzt als bei der Additionsmethode, so dass auch kleine Wahrscheinlichkeiten genauer simuliert werden. Aber auch mit dem BM-Verfahren lassen sich keine beliebig kleinen Fehlerwahrscheinlichkeiten simulieren.

{{Beispiel}}
Bei einem 32 Bit-Rechner ist die kleinste darstellbare Floatzahl $2^{–31} ≈ 0.466 · 10^{–9}.$ Für die nachfolgende Abschätzung setzen wir die Parameter $m_x = m_y =$ 0 und $σ_x = σ_y =$ 1 voraus.
*Der Maximalwert des Wurzelausdrucks in der Generierungsvorschrift des BM-Verfahrens kann somit nicht größer als ca. 6.55 werden und ist zudem äußerst unwahrscheinlich.
*Da sowohl die Cosinus- als auch die Sinusfunktion betragsmäßig auf 1 beschränkt ist, wäre das gleichzeitig der maximal mögliche Wert für die Zufallsgrößen $x$ und $y$.

Eine in [ES96]<ref name='ES96'>Eck, P.; Söder, G.: ''Tabulated Inversion, a Fast Method for White Gaussian Noise Simulation.'' In: AEÜ Int. J. Electron. Commun. 50 (1996), S. 41-48.</ref> dokumentierte Simulation über eine Milliarde Abtastwerte hat aber gezeigt, dass das BM-Verfahren nur bis zu Fehlerwahrscheinlichkeiten von $10^{–5}$ die Q-Funktion sehr gut approximiert, dann aber der Kurvenverlauf steil abbricht. Der maximal auftretende Wert des Wurzelausdrucks war dabei nicht 6.55, sondern aufgrund der aktuellen Zufallsgrößen $u$ und $υ$ nur etwa 4.6, womit sich der schlagartige Abfall ab etwa $10^{–5}$ erklären lässt. Bei 64 Bit-Rechenoperationen kann dieses Verfahren natürlich noch deutlich verbessert werden.
{{end}}

==Erzeugung mit dem Verfahren „Tabulated Inversion”==
Bei diesem von P. Eck und G. Söder entwickelten Verfahren [ES96]<ref name='ES96'/> wird wie folgt vorgegangen:

'''(1)''' Die Gauß–WDF wird in $J$ Intervalle mit gleichen Flächeninhalten – und dementsprechend unterschiedlicher Breite – aufgeteilt, wobei $J$ eine Zweierpotenz darstellt.

'''(2)''' Dem Intervall mit Index $j$ wird ein charakteristischer Wert $C_j$ zugeordnet. Somit genügt es, bei jedem Funktionsaufruf nur einen Integer-Zahlengenerator aufzurufen, der die ganzzahligen Werte $j = ±1, ... , ±J/2$ mit gleicher Wahrscheinlichkeit liefert und damit eines der $C_j$ auswählt.

'''(3)''' Wird $J$ hinreichend groß gewählt, z. B. $J = 2^{15} = 32768,$ so können die $C_j$ vereinfachend gleich den Intervallmittelwerten gesetzt werden. Diese Werte muss man nur einmal berechnen und können bereits vor der eigentlichen Simulation in einer Datei abgelegt werden.

'''(4)''' Die Randbereiche sind problematisch und müssen gesondert behandelt werden. Mittels nichtlinearer Transformation wird hierfür ein Floatwert gemäß den Ausläufern der Gauß-WDF bestimmt.

{{Beispiel}}
Die Skizze zeigt die WDF–Aufteilung für $J =$ 16 durch die Intervallgrenzen $I_{–7} ... I_7$. Diese Grenzen wurden so gewählt, dass jedes Intervall die gleiche Fläche $p_j = 1/J =$ 1/16 aufweist. Der charakteristische Wert $C_j$ eines jeden Intervalls liegt genau in der Mitte zwischen $I_{j–1}$ und $I_j$.

[[File:P_ID67__Sto_T_3_5_S7_neu.png | Zur Verdeutlichung des Verfahrens „Tabulated Inversion”]]

Man erzeugt nun eine gleichverteilte diskrete Zufallsgröße $k$ (hier zwischen 1 und 8) und dazu ein Vorzeichenbit. Bei negativem Vorzeichenbit und $k =$ 4 wird somit der Wert −(0.49+0.67)/2 ⇒ $C_4 =$ −0.58 ausgegeben. Bei $k =$ 8 tritt der Sonderfall ein, dass man den Zufallswert $C_8$ durch nichtlineare Transformation entsprechend den Ausläufern der Gaußkurve ermitteln muss.
{{end}}

Die Eigenschaften von „Tabulated Inversion” können wie folgt zusammengefasst werden:
*Diese Methode ist mit $J = 2^{15}$ bei vergleichbarer Simulationsgenauigkeit etwa um den Faktor 8 schneller als das BM-Verfahren.
*Nachteilig ist, dass nun die Überschreitungswahrscheinlichkeit Pr( $x > r$) in den inneren Bereichen nicht mehr kontinuierlich ist, sondern sich aufgrund der Diskretisierung eine Treppenkurve ergibt.
*Dieses Manko kann man durch ein größeres $J$ ausgleichen. Durch die Sonderbehandlung der Ränder eignet sich das Verfahren auch für sehr kleine Fehlerwahrscheinlichkeiten.

==Quellenverzeichnis==
<references/>

{{Display}}

Theory of Stochastic Signals/Uniformly Distributed Random Variables

2017-01-26T19:01:27Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Erwartungswerte und Momente
|Nächste Seite=Gaußverteilte Zufallsgröße
}}
==Allgemeine Beschreibung und Definition==
{{Definition}}
Eine Zufallsgröße $x$ bezeichnet man als gleichverteilt, wenn sie nur Werte im Bereich von $x_{\rm min}$ bis $x_{\rm max}$ annehmen kann, und zwar mit gleicher Wahrscheinlichkeit.
{{end}}

Die Grafik zeigt links die Wahrscheinlichkeitsdichtefunktion (abgekürzt WDF) und rechts die Verteilungsfunktion (kurz VTF) einer gleichverteilten Zufallsgröße $x$.

[[File:P_ID45__Sto_T_3_4_S1_neu100.png | WDF und VTF der Gleichverteilung]]

Daraus können folgende Eigenschaften abgeleitet werden:
*Die WDF $f_{\rm x}(x)$ besitzt im Bereich von $x_{\rm min}$ bis $x_{\rm max}$ den konstanten Wert $1/(x_{\rm max} - x_{\rm min})$, wobei an den beiden Bereichsgrenzen für $f_{\rm x}(x)$ jeweils nur der halbe Wert – also der Mittelwert zwischen links- und rechtsseitigem Grenzwert – zu setzen ist.
*Die Verteilungsfunktion $F_{\rm x}(r)$ steigt im Bereich von $x_{\rm min}$ bis $x_{\rm max}$ linear von 0 auf 1 an.
*Mittelwert und Streuung haben bei der Gleichverteilung die folgenden Werte:
$$m_{\rm 1} = \frac{\it x_ {\rm max} \rm + \it x_{\rm min}}{2},\hspace{0.5cm}
\sigma = \frac{\it x_{\rm max} - \it x_{\rm min}}{2 \sqrt{3}}.$$
*Bei symmetrischer WDF $(x_{\rm min} = –x_{\rm max})$ erhält man als Sonderfall $m_1 =$ 0 und $σ^2 = x_{\rm max}^2/3.$

{{Beispiel}}
Hier sehen Sie zwei Signalverläufe mit gleichförmiger Amplitudenverteilung.

[[File:P_ID618__Sto_T_3_4_S2_neu100.png | Beispiele gleichverteilter Signale]]

*Links ist statistische Unabhängigkeit der einzelnen Abtastwerte vorausgesetzt, das heißt, $x_ν$ kann alle Werte zwischen $x_{\rm min}$ und $x_{\rm max}$ mit gleicher Wahrscheinlichkeit annehmen, und zwar unabhängig von der Vergangenheit $(x_{ν–1}, x_{ν–2}, ...).$
*Beim rechten Signal $y(t)$ ist diese Unabhängigkeit aufeinanderfolgender Signalwerte nicht mehr gegeben. Vielmehr stellt dieses Sägezahnsignal ein deterministisches Signal dar.

{{end}}

==Bedeutung der Gleichverteilung für die Nachrichtentechnik==
Die Bedeutung gleichverteilter Zufallsgrößen für die Informations- und Kommunikationstechnik ist darauf zurückzuführen, dass diese WDF–Form aus Sicht der Informationstheorie unter der Nebenbedingung „Spitzenwertbegrenzung” ein Optimum darstellt. Mit keiner anderen Verteilung als der Gleichverteilung erreicht man unter dieser Voraussetzung eine größere [[Informationstheorie/Differentielle_Entropie#Differentielle_Entropie_einiger_spitzenwertbegrenzter_Zufallsgr.C3.B6.C3.9Fen|differentielle Entropie]]. Mit dieser Thematik beschäftigt sich das [[Informationstheorie/Differentielle_Entropie|Kapitel 4.1]] im Buch [[Informationstheorie]].

Daneben sind unter Anderem noch folgende Punkte zu nennen:
*Die Bedeutung der Gleichverteiltung für die Simulation nachrichtentechnischer Systeme ist darauf zurückzuführen, dass man entsprechende ''Pseudo–Zufallsgeneratoren'' relativ einfach realisieren kann, und dass sich daraus andere Verteilungen (zum Beispiel die Gauß–, die Laplace– und die Exponentialverteilung) leicht ableiten lassen (vgl. Kapitel 3.5 bis 3.7).
*In ''Bildverarbeitung & Bildcodierung'' wird häufig vereinfachend mit der Gleichverteilung anstelle der tatsächlichen, meist sehr viel komplizierteren Verteilung des Originalbildes gerechnet, da der Unterschied des Informationsgehaltes zwischen einem ''natürlichen Bild'' und dem auf der Gleichverteilung basierenden Modell relativ gering ist.
*Für die Modellierung übertragungstechnischer Systeme sind gleichverteilte Zufallsgrößen dagegen die Ausnahme. Ein Beispiel für eine tatsächlich (nahezu) gleichverteilte Zufallsgröße ist die Phase bei kreissymmetrischen Störungen, wie sie beispielsweise bei ''Quadraturmodulationsverfahren'' auftreten.

Das folgende Tool berechnet unter Anderem die Kenngrößen der Gleichverteilung für beliebige Parameter $x_{\rm min}$ und $x_{\rm max}$:
WDF, VTF und Momente spezieller Verteilungen

''Hinweis:'' In dieser Multimedia–Anwendung wird die Gleichverteilung als „Rechteck” bezeichnet.

==Erzeugung einer Gleichverteilung mit PN-Generatoren==
Die heute verwendeten Zufallsgeneratoren sind meist pseudozufällig. Das bedeutet, dass die erzeugte Folge als das Ergebnis eines festen Algorithmuses eigentlich deterministisch ist, für den Anwender jedoch aufgrund der großen Periodenlänge $P$ als stochastisch erscheint. Mehr hierzu im [[Stochastische_Signaltheorie/Erzeugung_von_diskreten_Zufallsgrößen|Kapitel 2.5]].

Für die Systemsimulation haben Pseudozufallsgeneratoren gegenüber echten Zufallsgeneratoren den entscheidenden Vorteil, dass die erzeugten Zufallsfolgen ohne Speicherung reproduzierbar sind, was zum einen den Vergleich verschiedener Systemmodelle ermöglicht und auch die Fehlersuche wesentlich erleichtert. Ein Zufallsgenerator sollte dabei folgende Kriterien erfüllen:
*Die Zufallsgrößen $x_ν$ einer generierten Folge sollten mit sehr guter Näherung gleichverteilt sein. Bei wertdiskreter Darstellung an einem Rechner erfordert dies unter Anderem eine hinreichend ''hohe Bitauflösung,'' zum Beispiel mit 32 oder 64 Bit pro Abtastwert.
*Bildet man aus der sequentiellen Zufallsfolge $〈x_ν〉$ jeweils nichtüberlappende Paare von Zufallsgrößen, beispielsweise $(x_ν, x_{ν+1}), (x_{ν+2}, x_{ν+3})$ ... , so sollten diese ''Tupel'' in einer zweidimensionalen Darstellung innerhalb eines Quadrates ebenfalls gleichverteilt sein.
*Bildet man aus der sequentiellen Folge $〈x_ν〉$ nicht überlappende $n$-''Tupel'' von Zufallsgrößen ⇒ $(x_ν, ... , x_{ν+n–1}), (x_{ν+n}, ... , x_{ν+2n–1})$ usw., so sollten auch diese innerhalb eines $n$-dimensionalen Würfels möglichst die Gleichverteilung ergeben.

Die erste Forderung bezieht sich ausschließlich auf die ''Amplitudenverteilung'' (WDF) und ist im Allgemeinen leichter zu erfüllen. Die beiden weiteren Forderungen sollen eine „ausreichende Zufälligkeit” der Folge gewährleisten. Sie betreffen die statistische Unabhängigkeit aufeinander folgender Zufallswerte.

==Multiplicative Congruental Generator==
Das bekannteste Verfahren zur Erzeugung einer Folge $〈x_ν〉$ mit gleichverteilten Werten zwischen 0 und 1 benutzt die lineare Kongruenz. Das Prinzip wird hier nur stichpunktartig angegeben:

(1) Diese Zufallsgeneratoren basieren auf der sukzessiven Manipulation einer Integervariablen $k$. Geschieht die Zahlendarstellung im Rechner mit $L$ Bit, so nimmt diese Variable bei geeigneter Behandlung des Vorzeichenbits alle Werte zwischen $1$ und $2^{L − 1}$ jeweils genau einmal an.

(2) Die hieraus abgeleitete Zufallsgröße
$$x=\frac{k}{\rm 2^{\it L - \rm 1}} = k\cdot \Delta x \in \{\Delta x, \hspace{0.05cm}2\cdot \Delta x, ... , \hspace{0.05cm}1-\Delta x,\hspace{0.05cm} 1\}$$
ist demnach ebenfalls diskret (mit Stufenzahl $M = 2^{L– 1})$. Ist die Bitanzahl $L$ hinreichend groß, so ist der Abstand $Δx = 1/(2^{L– 1})$ zwischen zwei möglichen Werten sehr klein, und man kann $x$ im Rahmen der Simulationsgenauigkeit durchaus als eine kontinuierliche Zufallsgröße interpretieren.

(3) Die rekursive Generierungsvorschrift eines Multiplicative Congruential Generators lautet:
$$k_\nu=(a\cdot k_{\nu-1})\hspace{0.1cm} \rm mod \hspace{0.1cm} \it m.$$

(4) Die statistischen Eigenschaften der Folge hängen entscheidend von den Parametern $a$ und $m$ ab. Der Startwert $k_0$ hat für die Statistik eine eher untergeordnete Bedeutung.

(5) Die besten Ergebnisse erzielt man mit der Basis $m =2^l–1$, wobei $l$ eine beliebige natürliche Zahl angibt. Weit verbreitet ist bei Rechnern mit 32 Bit-Architektur und einem Vorzeichenbit die Basis $m = 2^{31} – 1 = 2 147 483 647.$ Ein entsprechender Algorithmus lautet:
$$k_\nu=(16807\cdot k_{\nu-1})\hspace{0.1cm} \rm mod\hspace{0.1cm}(2^{31}-1).$$

(6) Für einen solchen Generator ist nur der Startwert $k_0 =$ 0 nicht erlaubt. Für alle anderen Startwerte beträgt die Periodendauer $P = 2^{31} − 2.$

Dieser Algorithmus kann auf einem 32 Bit-Rechner nicht direkt implementiert werden, da das Ergebnis der Multiplikation bis zu 46 Bit beansprucht. Er kann aber so abgewandelt werden, dass zu keinem Zeitpunkt der Berechnung der Integerzahlenbereich von 32 Bit überschritten wird. Das so modifizierte C-Programm ''uniform( )'' ist nachfolgend angegeben.

[[File:P_ID920__Sto_T_3_4_S5.png | Multiplicative Congruental Generator (C-Programm)]]

{{Display}}

Theory of Stochastic Signals/Expected Values and Moments

2017-01-26T18:52:39Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Verteilungsfunktion (VTF)
|Nächste Seite=Gleichverteilte Zufallsgröße
}}
==Berechnung als Scharmittelwert==
Die Wahrscheinlichkeitsdichtefunktion (WDF) bietet ebenso wie die Verteilungsfunktion (VTF) sehr weitreichende Informationen über die betrachtete Zufallsgröße. Weniger Informationen liefern die so genannten ''Erwartungswerte'' und ''Momente.''

Für diskrete Zufallsgrößen wurden deren Berechnungsmöglichkeiten bereits in [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|Kapitel 2.2]] angegeben. Nun werden diese integrativen Beschreibungsgrößen ''Erwartungswert'' bzw. ''Moment'' allgemeiner und im Zusammenhang mit der Wahrscheinlichkeitsdichtefunktion betrachtet.

{{Definition}}
Der Erwartungswert bezüglich einer beliebigen Gewichtungsfunktion $g(x)$ kann mit der WDF $f_{\rm x}(x)$ in folgender Weise berechnet werden:
$$\rm E[\it g \rm (x \rm ) \rm ] = \int_{-\infty}^{+\infty} g(x)\cdot f_{\rm x}(x) \,{\rm d}x.$$
Setzt man in diese Gleichung für $g(x) = x^k$ ein, so erhält man das Moment $k$-ter Ordnung:
$$m_k = \rm E[\it x^k \rm ] = \int_{-\infty}^{+\infty} x^k\cdot f_{\rm x} \rm (x \rm ) \, {\rm d}x.$$
{{end}}

Aus dieser Gleichung folgt
*mit $k =$ 1 für den ''linearen Mittelwert:''
$$m_1 = \rm E[\it x \rm ] = \int_{-\infty}^{ \rm +\infty} x\cdot f_{\rm x} \rm (x \rm ) \,{\rm d}x,$$
*mit $k =$ 2 für den ''quadratischen Mittelwert:''
$$m_2 = \rm E[\it x^{\rm 2} \rm ] = \int_{-\infty}^{ \rm +\infty} x^{\rm 2}\cdot f_{\rm x} \rm (x \rm ) \,{\rm d}x.$$

Bei einer diskreten, $M$-stufigen Zufallsgröße erhält man auch mit den hier angegebenen Formeln wieder die bereits in Kapitel 2.2 angegebenen Gleichungen (Berechnung als Scharmittelwert):
$$m_1 = \sum\limits_{\mu= \rm1}^{\it M}\hspace{0.15cm}p_\mu\cdot x_\mu,\hspace{0.5cm}
m_2 = \sum\limits_{\mu= \rm1}^{\it M}\hspace{0.15cm}p_\mu\cdot x_\mu^2.$$

Hierbei ist berücksichtigt, dass das Integral über die Diracfunktion $δ(x)$ gleich 1 ist.

In Zusammenhang mit Signalen sind auch folgende Bezeichnungen üblich:
* $m_1$ gibt den Gleichanteil an,
* $m_2$ entspricht der (auf den Einheitswiderstand 1 Ω bezogenen) Signalleistung.

Bezeichnet $x$ beispielsweise eine Spannung, so hat $m_1$ die Einheit $„{\rm V}”$ und $m_2$ die Einheit $„{\rm V}^2”.$ Will man die Leistung in „Watt”, so muss $m_2$ noch durch den Widerstandswert dividiert werden.

==Zentralmomente==
Eine besonders große Bedeutung haben in der Statistik die Zentralmomente, die im Gegensatz zu den herkömmlichen Momenten jeweils auf den Mittelwert $m_1$ bezogen sind:

$$\mu_k = {\rm E}[(x-m_{\rm 1})^k] = \int_{-\infty}^{+\infty} (x-m_{\rm 1})^k\cdot f_x(x) \,\rm d \it x.$$

$$\mu_k = \rm E[\it \rm (x-m_{\rm 1}\rm )^k\rm ] = \int_{-\infty}^{\rm +\infty} \rm (x-m_{\rm 1}\rm )^k\cdot f_{\rm x}\rm (x\rm ) \,\rm d \it x.$$

$$\mu_k = {\rm E}[(x-m_{1})^k] = \int_{-\infty}^{+\infty} (x-m_{\rm 1})^k\cdot f_x(x) \,\rm d \it x.$$

$$\mu_k = {\rm E}[(x-m_1)^k] = \int_{-\infty}^{+\infty} (x-m_1)^k\cdot f_x(x) \,{\rm d} x$$

Die nichtzentrierten Momente $m_k$ kann man direkt in die zentrierten Momente $\mu_k$ umrechnen:
$$\mu_k = \sum\limits_{\kappa= 0}^{k} \left( \begin{array}{*{2}{c}} k \\ \kappa \\ \end{array} \right)\cdot m_\kappa \cdot (-m_1)^{k-\kappa}.$$

Nach den allgemein gültigen Gleichungen der letzten Seite ergeben sich die formalen Größen $m_0 =$ 1 und $\mu_0 =$ 1. Für das Zentralmoment erster Ordnung gilt nach obiger Definition stets $\mu_1 =$ 0.

In der Gegenrichtung gelten folgende Gleichungen für $k =$ 1, $k =$ 2, usw.:
$$m_k = \sum\limits_{\kappa= 0}^{k} \left( \begin{array}{*{2}{c}} k \\ \kappa \\ \end{array} \right)\cdot \mu_\kappa \cdot {m_1}^{k-\kappa}.$$

{{Beispiel}}
Bei einer binären Zufallsgröße mit den Wahrscheinlichkeiten
*Pr(0) = 1 – $p$, und
*Pr(1) = $p$

haben alle Momente den genau gleichen Wert $p$:
$$m_1 = m_2 = m_3 = m_4 = ... \hspace{0.05cm}= p.$$
Mit den obigen Gleichungen erhält man dann für die ersten drei Zentralmomente:
$$\begin{align*} \mu_2 & = m_2 - m_1^2 = p -p^2, \\ \mu_3 & = m_3 - 3 \cdot m_2 \cdot m_1 + 2 \cdot m_1^3 = p - 3 \cdot p^2 + 2 \cdot p^3, \\ \mu_4 & = m_4 - 4 \cdot m_3 \cdot m_1 + 6 \cdot m_2 \cdot m_1^2 - 3 \cdot m_1^4 = p - 4 \cdot p^2 + 6 \cdot p^3- 3 \cdot p^4. \end{align*}$$
{{end}}

==Einige häufig auftretende Zentralmomente==
Aus der Definition im letzten Abschnitt können folgende Kenngrößen abgeleitet werden:
*Die Varianz $σ^2$ der betrachteten Zufallsgröße ist das Zentralmoment zweiter Ordnung $(\mu_2).$ Diese entspricht physikalisch der Wechselleistung und die Streuung $σ$ gibt den Effektivwert an. Aus dem linearen und dem quadratischen Mittelwert ist die Varianz nach dem in folgender Weise berechenbar ⇒ Satz von Steiner:
$$\sigma^{2} = m_2 - m_1^{2}.$$
*Die sog. Charliersche Schiefe $S$ bezeichnet das auf $σ^3$ bezogene dritte Zentralmoment. Bei symmetrischer Dichtefunktion ist diese Kenngröße immer 0. Je größer $S = \mu_3/σ^3$ ist, um so unsymmetrischer verläuft die WDF um den Mittelwert $m_1$. Beispielsweise ergibt sich für die [[Stochastische_Signaltheorie/Exponentialverteilte_Zufallsgrößen#Einseitige_Exponentialverteilung|Exponentialverteilung]] (unabhängig vom Verteilungsparameter $λ$) die Schiefe $S =$ 2.
*Auch das Zentralmoment vierter Ordnung spielt für die Analyse statistischer Größen eine Rolle. Als Kurtosis bezeichnet man den Quotienten $K = \mu_4/σ^4.$ Bei einer [[Stochastische_Signaltheorie/Gaußverteilte_Zufallsgröße#Wahrscheinlichkeitsdichte-_und_Verteilungsfunktion|gaußverteilten Zufallsgröße]] ergibt sich hierfür immer der Wert $K =$ 3. Anhand dieser Kenngröße kann man beispielsweise überprüfen, ob eine vorliegende Zufallsgröße tatsächlich gaußisch ist.
*Weist die WDF weniger Ausläufer auf als die Gaußverteilung, so ist die Kurtosis $K$ < 3, zum Beispiel gilt für die Gleichverteilung $K =$ 1.8. Dagegen weist $K$ > 3 darauf hin, dass die Ausläufer ausgeprägter als bei der Gaußverteilung sind. Für die Laplaceverteilung ⇒ zweiseitige Exponentialverteilung ergibt sich beispielsweise der Wert $K =$ 6.

==Berechnung als Zeitmittelwert==
Die Erwartungswertberechnung nach den bisherigen Gleichungen dieses Abschnitts entspricht einer ''Scharmittelung,'' das heißt einer Mittelung über alle möglichen Werte $x_\mu$.

Die Momente $m_k$ können aber auch als Zeitmittelwerte bestimmt werden, wenn der die Zufallsgröße erzeugende stochastische Prozess stationär und ergodisch ist. Die genaue Definition für einen solchen Zufallsprozess finden Sie in [[Stochastische_Signaltheorie/Autokorrelationsfunktion_(AKF)#Zufallsprozesse_.281.29|Kapitel 4.4]]. Eine Zeitmittelung wird im Folgenden stets durch eine überstreichende Linie gekennzeichnet.

Bei zeitdiskreter Betrachtung wird das Zufallssignal $x(t)$ durch die Zufallsfolge $〈x_ν〉$ ersetzt. Bei endlicher Folgenlänge lauten diese Zeitmittelwerte mit $ν =$ 1, 2, ... , $N:$
$$m_k=\overline{x_{\nu}^{k}}=\frac{1}{N} \cdot \sum\limits_{\nu=1}^{N}x_{\nu}^{k},$$
$$m_1=\overline{x_{\nu}}=\frac{1}{N} \cdot \sum\limits_{\nu=1}^{N}x_{\nu},$$
$$m_2=\overline{x_{\nu}^{2}}=\frac{1}{N} \cdot \sum\limits_{\nu=1}^{N}x_{\nu}^{2}.$$

Sollen die Momente (oder Erwartungswerte) per Simulation bestimmt werden, so geschieht dies in der Praxis meist durch eine Zeitmittelung. Die Momentenberechnung als Zeitmittelwerte unterscheidet sich bei diskreten bzw. kontinuierlichen Zufallsgrößen nur mariginal.

Die in diesem Abschnitt behandelte Thematik ist in einem Lernvideo zusammengefasst:
Momente von diskreten Zufallsgrößen (Dauer: 6:30)

==Charakteristische Funktion==
Ein weiterer Sonderfall eines Erwartungswertes ist die charakteristische Funktion, wobei hier für die Bewertungsfunktion $g(x) = exp(\rm {j}Ωx)$ zu setzen ist:
$$C_x({\it \Omega}) = {\rm E}[{\rm e}^{{\rm j} \hspace{0.05cm} {\it \Omega} \hspace{0.05cm} x}] = \int_{-\infty}^{+\infty} {\rm e}^{{\rm j} \hspace{0.05cm} {\it \Omega} \hspace{0.05cm} x}\cdot f_{\rm x}(x) \hspace{0.1cm}{\rm d}x.$$

Ein Vergleich mit dem Buch [[Signaldarstellung]] – [[Signaldarstellung/Fouriertransformation_und_-rücktransformation|Kapitel 3.1]] zeigt, dass die charakteristische Funktion die Fourierrücktransformierte der Wahrscheinlichkeitsdichtefunktion darstellt:
$$C_x ({\it \Omega}) \hspace{0.3cm} \circ \!\!-\!\!\!-\!\!\!-\!\! \bullet \hspace{0.3cm} f_{\rm x}(x).$$

Ist die Zufallsgröße $x$ dimensionslos, so ist auch das Argument $Ω$ der charakteristischen Funktion ohne Einheit. Das Symbol $Ω$ wurde gewählt, da das Argument hier einen gewissen Bezug zur Kreisfrequenz beim zweiten Fourierintegral aufweist (gegenüber der Darstellung im $f$-Bereich fehlt der Faktor 2π im Exponenten). Es wird aber nochmals eindringlich darauf hingewiesen, dass – wenn man einen Bezug zur Systemtheorie herstellen will – $C_x(Ω)$ der „Zeitfunktion” und $f_{\rm x}(x)$ der „Spektralfunktion” entspricht.

Entwickelt man die komplexe Funktion exp( $\rm {j}Ωx$) in eine Potenzreihe und vertauscht Summation und Erwartungswertbildung, so folgt die Reihendarstellung der charakteristischen Funktion:
$$C_x ( {\it \Omega}) = 1 + \sum_{k=1}^{\infty}\hspace{0.2cm}\frac{m_k}{k!} \cdot ({\rm j} \hspace{0.01cm}{\it \Omega})^k .$$
Die [[Aufgaben:3.4_Charakteristische_Funktion|Aufgabe A3.4]] zeigt weitere Eigenschaften der charakteristischen Funktion auf.

{{Beispiel}}
Bei einer symmetrischen binären (zweipunktverteilten) Zufallsgröße $x ∈$ {–1, +1} mit den Wahrscheinlichkeiten Pr(–1) = Pr(+1) = 1/2 verläuft die charakteristische Funktion cosinusförmig. Das Analogon in der Systemtheorie ist, dass das Spektrum eines Cosinussignals mit der Kreisfrequenz $Ω_0$ aus zwei Diracfunktionen bei $±Ω_0$ besteht.

Eine Gleichverteilung zwischen $±y_0$ besitzt nach den Gesetzen der Fouriertransformation – Näheres im Buch [[Signaldarstellung]], Kapitel 3.1 – die folgende charakteristische Funktion:
$$\begin{align*} C_y({\it \Omega}) = \frac{1}{2 y_0} \cdot \int_{-y_0}^{+y_0} {\rm e}^{{\rm j} \hspace{0.05cm} {\it \Omega} \hspace{0.05cm} y} \,{\rm d}y &= \frac{ {\rm e}^{ {\rm j} \hspace{0.05cm} y_0 \hspace{0.05cm}{\it \Omega} } - {\rm e}^{-{\rm j} \hspace{0.05cm} y_0 \hspace{0.05cm} {\it \Omega} } }{2 {\rm j} \cdot y_0 \cdot {\it \Omega} } = \frac{ {\rm sin}(y_0 \cdot {\it \Omega})}{ y_0 \cdot {\it \Omega} } = {\rm si}(y_0 \cdot {\it \Omega}). \end{align*}$$
Die Funktion si( $x) = \sin(x)/x$ kennen wir bereits aus dem Buch [[Signaldarstellung]]. Sie ist auch unter dem Namen ''Spaltfunktion'' bekannt.
{{end}}

{{Display}}

Theory of Stochastic Signals/Cumulative Distribution Function

2017-01-26T18:37:33Z

LukasWolf:

{{Header
|Untermenü=Kontinuierliche Zufallsgrößen
|Vorherige Seite=Wahrscheinlichkeitsdichtefunktion (WDF)
|Nächste Seite=Erwartungswerte und Momente
}}
==VTF bei kontinuierlichen Zufallsgrößen (1)==
Zur Beschreibung von Zufallsgrößen wird neben der [[Stochastische_Signaltheorie/Wahrscheinlichkeitsdichtefunktion_(WDF)|Wahrscheinlichkeitsdichtefunktion]] auch häufig die Verteilungsfunktion (VTF) herangezogen, die wie folgt definiert ist:

{{Definition}}
Die Verteilungsfunktion $F_{\rm x}(r)$ entspricht der Wahrscheinlichkeit, dass die Zufallsgröße $x$ kleiner oder gleich einem reellen Zahlenwert $r$ ist:
$$F_{\rm x}(\it r) \rm = \rm Pr(\it x \le r).$$
{{end}}

Bei einer kontinuierlichen Zufallsgröße sind bezüglich der VTF folgende Aussagen möglich:
*Die Verteilungsfunktion ist aus der WDF $f_{\rm x}(x)$ durch Integration berechenbar. Es gilt:
$$F_{\rm x}(r) \rm = \int_{-\infty}^{r}f_x(x)\,{\rm d}x.$$
*Da die WDF nie negativ ist, steigt $F_{\rm x}(r)$ zumindest schwach monoton an, und liegt stets zwischen den beiden Grenzwerten $F_{\rm x}(r → \hspace{0.05cm} – \hspace{0.05cm} ∞) =$ 0 und $F_{\rm x}(r → +∞) =$ 1.
*Umgekehrt lässt sich die Wahrscheinlichkeitsdichtefunktion aus der Verteilungsfunktion durch Differentiation bestimmen:
$$f_{\rm x}(x)=\frac{\rm d\it F_{\rm x}(r)}{\rm d \it r}\Bigg |_{\hspace{0.1cm}r=x}.$$
:Der Zusatz $„r = x”$ macht deutlich, dass bei unserer Nomenklatur das Argument der WDF die Zufallsgröße selbst ist, während das VTF–Argument eine beliebige reelle Variable $r$ ist.

Hinweise zur Nomenklatur: Hätten wir wie bei WDF und VTF zwischen Zufallsgröße $X$ und Realisierungen $x ∈ X$ unterschieden ⇒ $f_{\rm X}(x), F_{\rm X}(x),$ so ergäbe sich folgende Nomenklatur:
$$F_{\rm X}(\it x) \rm = \rm Pr(\it X \le x) \rm = \int_{-\infty}^{x}f_{\rm x}(\xi)\,{\rm d}\xi.$$

Leider haben wir uns zu Beginn unseres LNTwww–Projektes (2001) für die obige Nomenklatur entschieden, was nun (2016) nicht mehr zu ändern ist, auch im Hinblick der realisierten Lernvideos. Wir bleiben also bei $„f_{\rm x}(x)”$ anstelle von $„f_{\rm X}(x)”$ sowie $„F_{\rm x}(r)”$ anstelle von $„F_{\rm X}(x)”.$

==VTF bei kontinuierlichen Zufallsgrößen (2)==
{{Beispiel}}
Das linke Bild zeigt das Foto ''Lena,'' das häufig als Testvorlage für Bildcodierverfahren dient. Wird dieses Bild in 256 × 256 Bildpunkte (Pixel) unterteilt, und ermittelt man für jedes einzelne Pixel die Helligkeit, so erhält man eine Folge $〈x_ν〉$ von Grauwerten, deren Länge $N = 256^2 = 65536$ beträgt.
Der Grauwert $x$ ist dabei eine wertkontinuierliche Zufallsgröße, wobei die Zuordnung zu Zahlenwerten willkürlich erfolgt. Beispielsweise sei „Schwarz” durch den Wert $x =$ 0 und „Weiß” durch $x =$ 1 charakterisiert. Der Zahlenwert $x =$ 0.5 kennzeichnet dann eine mittlere Graufärbung.

[[File:P_ID617__Sto_T_3_2_S1b_neu.png | WDF und VTF eines wertkontinuierlichen Bildes]]

Im mittleren Bild ist die WDF $f_{\rm x}(x)$ dargestellt, die in der Literatur auch oft als ''Grauwertstatistik'' bezeichnet wird. Es ist ersichtlich, dass im Originalbild einige Grauwerte bevorzugt sind und die beiden Extremwerte $x =$ 0 („tiefes Schwarz”) bzw. $x =$ 1 („reines Weiß”) nur sehr selten auftreten. Die Verteilungsfunktion $F_{\rm x}(r)$ dieser kontinuierlichen Zufallsgröße ist stetig und steigt, wie das rechte Bild zeigt, von 0 auf 1 monoton und stetig an.

''Anmerkung:'' Genau genommen ist bei einem am Computer darstellbaren Bild – im Gegensatz zu einem echten Foto – der Grauwert stets eine diskrete Zufallsgröße. Bei großer Auflösung der Farbinformation („Farbtiefe”) kann man diese Zufallsgröße allerdings näherungsweise als kontinuierlich betrachten.
{{end}}

Die in diesem Abschnitt behandelte Thematik ist in einem Lernvideo zusammengefasst:
Zusammenhang zwischen WDF und VTF (2-teilig: Dauer 6:40 – 3:20)

==VTF bei diskreten Zufallsgrößen (1)==
Für die Berechnung der Verteilungsfunktion einer diskreten Zufallsgröße $x$ aus deren WDF muss stets von einer etwas allgemeineren Gleichung ausgegangen werden. Hier gilt mit $ε$ > 0:
$$F_{\rm x}(r)=\lim_{\varepsilon\to 0}\int_{-\infty}^{r+\varepsilon}f_x(x)\,{\rm d}x.$$

Die Berechnung der Verteilungsfunktion durch Grenzwertbildung ist aufgrund des „≤”-Zeichens in der [[Stochastische_Signaltheorie/Verteilungsfunktion_(VTF)#VTF_bei_kontinuierlichen_Zufallsgr.C3.B6.C3.9Fen_.281.29|Definition]] erforderlich. Berücksichtigt man weiterhin, dass bei einer diskreten Zufallsgröße die WDF aus einer Summe von gewichteten [[Signaldarstellung/Allgemeine_Beschreibung/Gleichsignal_-_Grenzfall_eines_periodischen_Signals#Diracfunktion_im_Frequenzbereich|Diracfunktionen]] besteht, so erhält man:
$$F_{\rm x}(r)=\lim_{\varepsilon\to 0}\int_{-\infty}^{r+\varepsilon}\sum\limits_{\mu= \rm1}^{\it M}p_\mu\cdot \delta(x-x_\mu)\,{\rm d}x.$$
Vertauscht man in dieser Gleichung Integration und Summation, und berücksichtigt man zudem, dass die Integration über die Diracfunktion die Sprungfunktion ergibt, so erhält man:
$$F_{\rm x}(r)=\sum\limits_{\mu= \rm 1}^{\it M}p_\mu\cdot \gamma_0 (r-x_\mu),\hspace{0.4cm\rm mit} \hspace{0.4cm}\gamma_0(x)=\lim_{\epsilon\to 0}\int_{-\infty}^{x+\epsilon}\delta (u)\,\rm d \it u = \left\{ \begin{array}{*{2}{c}} \rm 0 \rm falls\hspace{0.1cm}\it x< \rm 0,\\ 1 \rm falls\hspace{0.1cm}\it x\ge \rm 0. \\ \end{array} \right.$$
Hier ist zu bemerken:
* $γ_0(x)$ unterscheidet sich von der in der Systemtheorie üblichen Sprungfunktion $γ(x)$ dadurch, dass an der Sprungstelle $x =$ 0 der rechtsseitige Grenzwert Eins gültig ist (anstelle des Mittelwertes 1/2 zwischen links- und rechtsseitigem Grenzwert).
*Mit obiger VTF-Definition gilt dann für die Wahrscheinlichkeit von kontinuierlichen und diskreten Zufallsgrößen gleichermaßen, und natürlich auch für ''gemischte Zufallsgrößen'' mit diskreten und kontinuierlichen Anteilen:
$${\rm Pr}(x_{\rm u}<x \le x_{\rm o})=F_x(x_{\rm o})-F_x(x_{\rm u}).$$
*Bei rein kontinuierlichen Zufallsgrößen können in dieser Gleichung das „Kleiner”–Zeichen und das „Kleiner / Gleich”–Zeichen gegenseitig ersetzt werden.
$${\rm Pr}(x_{\rm u}<x \le x_{\rm o}) ={\rm Pr}(x_{\rm u}\le x \le x_{\rm o}) ={\rm Pr}(x_{\rm u}\le x < x_{\rm o}) ={\rm Pr}(x_{\rm u}<x < x_{\rm o}).$$

==VTF bei diskreten Zufallsgrößen (2)==
{{Beispiel}}
Wird nun der Grauwert des ''Lena''–Fotos mit acht Stufen quantisiert, so dass jedes einzelne Pixel durch drei Bit dargestellt und digital übertragen werden kann, so ergibt sich die diskrete Zufallsgröße $q$. Durch die Quantisierung geht allerdings ein Teil der Bildinformation verloren, was sich im quantisierten Bild durch deutlich erkennbare „Konturen” auswirkt.

[[File:P_ID74__Sto_T_3_2_S2b_neu.png | WDF und VTF eines wertdiskreten Bildes]]

Die dazugehörige Wahrscheinlichkeitsdichtefunktion $f_{\rm q}(q)$ setzt sich aus $M =$ 8 Diracfunktionen zusammen, wobei bei der hier gewählten Quantisierung den möglichen Graustufen die Werte $q_\mu = (\mu$ – 1)/7 mit $\mu =$ 1, 2, ... , 8 zugeordnet sind. Die Gewichte der Diracfunktionen kann man aus der WDF $f_{\rm x}(x)$ des Originalbildes berechnen. Man erhält
$$p_\mu=\rm Pr(\it q \rm = q_\mu \rm ) \rm = \rm Pr(\frac{2\it \mu-\rm 3}{14}< {\it x} \le\frac{2\it \mu- \rm 1}{14}) \rm = \int_{(2\it \mu- \rm 3)/14}^{(2\mu-1)/14}\it f_{\rm x}(x)\,{\rm d}x,$$

wobei für die undefinierten Randbereiche $(x$ < 0 bzw. $x$ > 1) jeweils $f_{\rm x}(x) =$ 0 zu setzen ist.

Da im Originalbild die Graustufen $x ≈$ 0 („sehr tiefes Schwarz”) bzw. $x ≈$ 1 („nahezu reines Weiß”) weitgehend fehlen, sind die Wahrscheinlichkeiten $p_1 ≈ p_8 ≈$ 0, und in der WDF sind tatsächlich nur sechs Diracfunktionen sichtbar. Die beiden fehlenden Diracfunktionen bei 0 und 1 sind in der mittleren Grafik durch Punkte markiert.

Die rechts skizzierte Verteilungsfunktion $F_{\rm q}(r)$ weist entsprechend dem oben Gesagten sechs Unstetigkeitsstellen auf, bei denen jeweils der rechtsseitige Grenzwert gültig ist.
{{end}}

Die in diesem Abschnitt behandelte Thematik ist im folgenden Lernvideo zusammengefasst: Zusammenhang zwischen WDF und VTF (2-teilig: Dauer 6:40 – 3:20)

{{Display}}