Difference between revisions of "Aufgaben:Exercise 1.1: Entropy of the Weather"

From LNTwww
Line 60: Line 60:
 
{Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) $H_{\rm P}$ der Datei „Paradies”? Interpretieren Sie das Ergebnis?
 
{Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) $H_{\rm P}$ der Datei „Paradies”? Interpretieren Sie das Ergebnis?
 
|type="{}"}
 
|type="{}"}
$H_{\rm P}\ = $ { 0. } $\ \rm bit/Anfrage$
+
$H_{\rm P}\ = $ { 0.211 3% } $\ \rm bit/Anfrage$
  
  

Revision as of 14:06, 25 April 2017

Verschiedene Binärquellen

Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung $x$ zurück, nämlich

  • $x = \mathbf{B}$: Das Wetter ist eher schlecht.
  • $x = \mathbf{G}$: Das Wetter ist eher gut.


Die Daten wurden über viele Jahre für verschiedene Gebiete in Dateien abgelegt, so dass die Entropien der $\mathbf{B/G}$–Folgen ermittelt werden können:

$$H = p_{\rm B} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm B}} + p_{\rm G} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm G}}$$

mit dem Logarithmus dualis

$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( = {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$

„lg” kennzeichnet hierbei den Logarithmus zur Basis 10. Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit „bit/Anfrage” anzufügen ist.

Die Grafik zeigt diese binären Folgen jeweils für 60 Tage und folgende Regionen:

  • Region „Durchwachsen”:    $p_{\rm B} = p_{\rm G} =0.5$,
  • Region „Regenloch”:             $p_{\rm B} = 0.8, \; p_{\rm G} =0.2$,
  • Region „Angenehm”:            $p_{\rm B} = 0.2, \; p_{\rm G} =0.8$,
  • Region „Paradies”:                $p_{\rm B} = 1/30, \; p_{\rm G} =29/30$.


Schließlich ist auch noch die Datei „Unbekannt” angegeben, deren statistische Eigenschaften zu schätzen sind.


Hinweise:

  • Die Aufgabe gehört zum Kapitel Gedächtnislose Nachrichtenquellen.
  • Sollte die Eingabe des Zahlenwertes „0” erforderlich sein, so geben Sie bitte „0.” ein.
  • Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse $\rm B$ und $\rm G$ statistisch unabhängig seien, eine für die Wetterpraxis allerdings eher unrealistische Annahme.


Fragebogen

1

Welche Entropie $H_{\rm D}$ weist die Datei "Durchwachsen" auf?

$H_{\rm D}\ = $

$\ \rm bit/Anfrage$

2

Welche Entropie $H_{\rm RD}$ weist die Datei „Regenloch” auf?

$H_{\rm R}\ = $

$\ \rm bit/Anfrage$

3

Welche Entropie $H_{\rm A}$ weist die Datei „Angenehm” auf?

$H_{\rm A}\ = $

$\ \rm bit/Anfrage$

4

Wie groß sind die Informationsgehalte der Ereignisse $\rm B$ und $\rm G$ bezogen auf die Datei „Paradies”?

$I_{\rm B}\ = $

$\ \rm bit/Anfrage$
$I_{\rm G}\ = $

$\ \rm bit/Anfrage$

5

Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) $H_{\rm P}$ der Datei „Paradies”? Interpretieren Sie das Ergebnis?

$H_{\rm P}\ = $

$\ \rm bit/Anfrage$

6

Welche Aussagen könnten für die Datei „Unbekannt” gelten?

Die Ereignisse $\rm B$ und $\rm G$ sind etwa gleichwahrscheinlich.
Die Folgenelemente sind statistisch voneinander unabhängig.
Die Entropie dieser Datei ist $H_\text{U} \approx 0.7 \; \rm bit/Anfrage$.
Die Entropie dieser Datei ist $H_\text{U} = 1.5 \; \rm bit/Anfrage$.


Musterlösung

1.  Bei der Datei „Durchwachsen” sind die beiden Wahrscheinlichkeiten pG und pB gleich, jeweils 0.5. Damit ergibt sich für die Entropie:

$$H_{\rm D} = 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} + 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} \hspace{0.15cm}\underline {= 1\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
2.  Mit pB = 0.8 und pG = 0.2 erhält man einen kleineren Entropiewert:
$$H_{\rm R} \hspace{0.1cm} = \hspace{0.1cm} 0.8 \cdot {\rm log}_2\hspace{0.1cm}\frac{5}{4} + 0.2 \cdot {\rm log}_2\hspace{0.1cm}\frac{5}{1}= 0.8 \cdot{\rm log}_2\hspace{0.1cm}5 - 0.8 \cdot {\rm log}_2\hspace{0.1cm}4 + 0.2 \cdot {\rm log}_2 \hspace{0.15cm} 5 =\\ \hspace{0.1cm} = \hspace{0.1cm}{\rm log}_2\hspace{0.1cm}5 - 0.8 \cdot {\rm log}_2\hspace{0.1cm}4 = \frac{{\rm lg} \hspace{0.1cm}5}{{\rm lg}\hspace{0.1cm}2} - 0.8 \cdot 2 = \frac{0.699}{0.301} - 1.6 \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
3.  In der Datei „Angenehm” sind die Wahrscheinlichkeiten gegenüber der Datei „Regenloch” genau vertauscht. Durch diese Vertauschung wird die Entropie nicht verändert:
$$H_{\rm A} = H_{\rm R} \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
4.   Mit pB = 1/30 und pG = 29/30 ergeben sich folgende Informationsgehalte:
$$I_{\rm B} \hspace{0.1cm} = \hspace{0.1cm} {\rm log}_2\hspace{0.1cm}30 = \frac{{\rm lg}\hspace{0.1cm}30}{{\rm lg}\hspace{0.1cm}2} = \frac{1.477}{0.301} \hspace{0.15cm} \underline {= 4.907\,{\rm bit/Anfrage}}\hspace{0.05cm},\\ I_{\rm G} \hspace{0.1cm} = \hspace{0.1cm} {\rm log}_2\hspace{0.1cm}\frac{30}{29} = \frac{{\rm lg}\hspace{0.1cm}1.034}{{\rm lg}\hspace{0.1cm}2} = \frac{1.477}{0.301} \hspace{0.15cm} \underline {= 0.049\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
5.   Die Entropie HP ist der mittlere Informationsgehalt der beiden Ereignisse „B” und „G”:
$$H_{\rm P} = \frac{1}{30} \cdot 4.907 + \frac{29}{30} \cdot 0.049 = 0.164 + 0.047 \hspace{0.15cm} \underline {= 0.211\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$
Obwohl das Ereignis „B” seltener auftritt als „G”, ist sein Beitrag zur Entropie größer.
6.   Die Ereignisse „B” und „G” sind bei der Datei „Unbekannt” tatsächlich gleichwahrscheinlich: Die 60 dargestellten Symbole teilen sich auf in 30 mal „G” und 30 mal „B”. Es bestehen nun aber starke statistische Bindungen innerhalb der zeitlichen Folge. Nach längeren Schönwetterperioden folgen meist viele schlechte Tage am Stück.
Aufgrund dieser statistischen Abhängigkeit innerhalb der B/G–Folge ist HU ≈ 0.72 bit/Anfrage kleiner als HD = 1 bit/Anfrage. HD ist gleichzeitig das Maximum für M = 2 ⇒ die letzte Aussage ist mit Sicherheit falsch. Richtig sind demnach die Aussagen 1 und 3.