Informationsgehalt – Entropie – Redundanz (1)
Wir gehen von einer M–stufigen digitalen Nachrichtenquelle aus, die das Quellensignal
\(q(t) = \sum_{(\nu)} a_\nu \cdot {\rm \delta} ( t - \nu \cdot T)\hspace{0.3cm}{\rm mit}\hspace{0.3cm}a_\nu \in \{ a_1, ... , a_\mu , ... , a_{ M}\}\)
abgibt. Die Quellensymbolfolge 〈qν〉 ist auf die Folge 〈aν〉 der dimensionslosen Amplitudenkoeffizienten abgebildet. Vereinfachend wird zunächst für die Zeitlaufvariable ν = 1, ... , N gesetzt, während der Vorratsindex μ stets Werte zwischen 1 und M annehmen kann.
Ist das ν–te Folgenelement gleich aμ, so kann dessen Informationsgehalt mit der Wahrscheinlichkeit pνμ = Pr(aν = aμ) wie folgt berechnet werden:
\[I_\nu = \log_2 \frac{1}{p_{\nu \mu}}= {\rm ld} \frac{1}{p_{\nu \mu}} \hspace{1cm}{\rm (Einheit: \hspace{0.15cm}bit)}\hspace{0.05cm}.\]
Der Logarithmus zur Basis 2 ⇒ log2 wird oft auch mit „ld(x)” ⇒ Logarithmus dualis bezeichnet. Bei der numerischen Auswertung wird die Hinweiseinheit „bit” hinzugefügt. Mit dem Zehner-Logarithmus lg(x) bzw. dem natürlichen Logarithmus ln(x) gilt:
\[{\rm log_2}(x) = \frac{{\rm lg}(x)}{{\rm lg}(2)}= \frac{{\rm ln}(x)}{{\rm ln}(2)}\hspace{0.05cm}.\]
Nach dieser auf C. E. Shannon zurückgehenden Definition von Information ist der Informationsgehalt eines Symbols umso größer, je kleiner dessen Auftrittswahrscheinlichkeit ist.
\[H = \lim_{N \to \infty} \frac{1}{N} \cdot \sum_{\nu = 1}^N I_\nu =
\lim_{N \to \infty} \frac{1}{N} \cdot \sum_{\nu = 1}^N \hspace{0.1cm}{\rm log_2}\hspace{0.05cm} \frac{1}{p_{\nu \mu}} \hspace{1cm}{\rm (Einheit: \hspace{0.15cm}bit)}\hspace{0.05cm}.\]
Natürlich kann die Entropie auch durch Scharmittelung berechnet werden.
Sind die Folgenelemente aν statistisch voneinander unabhängig, so sind die Auftrittswahrscheinlichkeiten pνμ = pμ unabhängig von ν und man erhält in diesem Sonderfall für die Entropie:
\[H = \sum_{\mu = 1}^M p_{ \mu} \cdot {\rm log_2}\hspace{0.1cm} \frac{1}{p_{ \mu}}\hspace{0.05cm}.\]
Bestehen dagegen statistische Bindungen zwischen benachbarten Amplitudenkoeffizienten aν, so muss zur Entropieberechnung die kompliziertere Definitionsgleichung herangezogen werden.
Informationsgehalt – Entropie – Redundanz (2)
Der Maximalwert der Entropie ergibt sich immer dann, wenn die M Auftrittswahrscheinlichkeiten (der statistisch unabhängigen Symbole) alle gleich sind (pμ = 1/M):
\(H_{\rm max} = \sum_{\mu = 1}^M \hspace{0.1cm}\frac{1}{M} \cdot {\rm log_2} (M) = {\rm log_2} (M) \cdot \sum_{\mu = 1}^M \hspace{0.1cm} \frac{1}{M} = {\rm log_2} (M)
\hspace{1cm}{\rm (Einheit: \hspace{0.15cm}bit)}\hspace{0.05cm}.\)
Man bezeichnet Hmax als den Entscheidungsgehalt (bzw. als Nachrichtengehalt) und den Quotienten
\(r = \frac{H_{\rm max}-H}{H_{\rm max}}\)
als dierelative Redundanz. Da stets 0 ≤ H ≤ Hmax gilt, kann die relative Redundanz Werte zwischen 0 und 1 (einschließlich dieser Grenzwerte) annehmen.
Aus der Herleitung dieser Beschreibungsgrößen ist offensichtlich, dass ein redundanzfreies Digitalsignal (r = 0) folgende Eigenschaften erfüllen muss:
- Die Amplitudenkoeffizienten aν sind statistisch unabhängig; Pr(aν = aμ) ist für alle ν identisch.
- Die M möglichen Koeffizienten aμ treten mit gleicher Wahrscheinlichkeit pμ = 1/M auf.
- der unterschiedlichen Häufigkeiten (beispielsweise tritt „e” deutlich häufiger auf als „u”) und
- von statistischen Bindungen (zum Beispiel folgt auf „q” der Buchstabe „u” viel öfters als „e”)
beträgt nach Karl Küpfmüller die Entropie der deutschen Sprache nur H = 1.3 bit/Zeichen. Daraus ergibt sich die relative Redundanz zu r ≈ (5 – 1.3)/5 = 74%. Für englische Texte wurde von Claude E. Shannon die Entropie mit H = 1 bit/Zeichen angegeben (r = 80%).
\(\)
[[File:||class=fit]]