Difference between revisions of "Aufgaben:Exercise 1.1: Entropy of the Weather"

From LNTwww
m (Textersetzung - „*Sollte die Eingabe des Zahlenwertes „0” erforderlich sein, so geben Sie bitte „0.” ein.“ durch „ “)
Line 3: Line 3:
 
}}
 
}}
  
[[File:Inf_A_1_1_vers2.png|right|Verschiedene Binärquellen]]
+
[[File:Inf_A_1_1_vers2.png|right|frame|Fünf verschiedene Binärquellen]]
 
Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung $x$ zurück, nämlich
 
Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung $x$ zurück, nämlich
  
* $x =  \rm B$: Das Wetter ist eher schlecht.
+
* $x =  \rm B$:   Das Wetter ist eher schlecht.
* $x =  \rm G$: Das Wetter ist eher gut.
+
* $x =  \rm G$:   Das Wetter ist eher gut.
  
  
Line 15: Line 15:
 
mit dem <i>Logarithmus dualis</i>
 
mit dem <i>Logarithmus dualis</i>
 
:$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( =  {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$
 
:$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( =  {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$
&bdquo;lg&rdquo; kennzeichnet hierbei den Logarithmus zur Basis 10. Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit &bdquo;bit/Anfrage&rdquo; anzufügen ist.
+
$\lg$ kennzeichnet hierbei den Logarithmus zur Basis $10$. Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit $\text{bit/Anfrage}$ anzufügen ist.
  
Die Grafik zeigt diese binären Folgen jeweils für 60 Tage und folgende Regionen:
+
Die Grafik zeigt diese binären Folgen jeweils für $60$ Tage und folgende Regionen:
  
 
* Region &bdquo;Durchwachsen&rdquo;: &nbsp;&nbsp; $p_{\rm B} = p_{\rm G} =0.5$,
 
* Region &bdquo;Durchwachsen&rdquo;: &nbsp;&nbsp; $p_{\rm B} = p_{\rm G} =0.5$,
Line 26: Line 26:
  
 
Schließlich ist auch noch die Datei &bdquo;Unbekannt&rdquo; angegeben, deren statistische Eigenschaften zu schätzen sind.
 
Schließlich ist auch noch die Datei &bdquo;Unbekannt&rdquo; angegeben, deren statistische Eigenschaften zu schätzen sind.
 +
 +
 +
  
  
Line 31: Line 34:
 
*Die Aufgabe gehört zum  Kapitel [[Informationstheorie/Gedächtnislose_Nachrichtenquellen|Gedächtnislose Nachrichtenquellen]].
 
*Die Aufgabe gehört zum  Kapitel [[Informationstheorie/Gedächtnislose_Nachrichtenquellen|Gedächtnislose Nachrichtenquellen]].
 
   
 
   
*Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse $\rm B$ und $\rm G$ statistisch unabhängig seien, eine für die Wetterpraxis allerdings eher unrealistische Annahme.
+
*Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse $\rm B$ und $\rm G$ statistisch unabhängig seien, eine für die Wetterpraxis eher unrealistische Annahme.
 +
 
 +
 
  
  
Line 39: Line 44:
 
{Welche Entropie $H_{\rm D}$ weist die Datei "Durchwachsen" auf?
 
{Welche Entropie $H_{\rm D}$ weist die Datei "Durchwachsen" auf?
 
|type="{}"}
 
|type="{}"}
$H_{\rm D}\ = $  { 1 3% } $\ \rm bit/Anfrage$
+
$H_{\rm D}\ = \ $  { 1 3% } $\ \rm bit/Anfrage$
  
  
{Welche Entropie $H_{\rm RD}$ weist die Datei &bdquo;Regenloch&rdquo; auf?
+
{Welche Entropie $H_{\rm R}$ weist die Datei &bdquo;Regenloch&rdquo; auf?
 
|type="{}"}
 
|type="{}"}
$H_{\rm R}\ = $ { 0.722 3% }  $\ \rm bit/Anfrage$
+
$H_{\rm R}\ = \ $ { 0.722 3% }  $\ \rm bit/Anfrage$
  
  
 
{Welche Entropie $H_{\rm A}$ weist die Datei &bdquo;Angenehm&rdquo; auf?
 
{Welche Entropie $H_{\rm A}$ weist die Datei &bdquo;Angenehm&rdquo; auf?
 
|type="{}"}
 
|type="{}"}
$H_{\rm A}\ = $ { 0.722 3% } $\ \rm bit/Anfrage$
+
$H_{\rm A}\ = \ $ { 0.722 3% } $\ \rm bit/Anfrage$
  
  
 
{Wie groß sind die Informationsgehalte der Ereignisse $\rm B$ und $\rm G$ bezogen auf die Datei &bdquo;Paradies&rdquo;?
 
{Wie groß sind die Informationsgehalte der Ereignisse $\rm B$ und $\rm G$ bezogen auf die Datei &bdquo;Paradies&rdquo;?
 
|type="{}"}
 
|type="{}"}
$I_{\rm B}\ = $ { 4.907 3% } $\ \rm bit/Anfrage$
+
$I_{\rm B}\ = \ $ { 4.907 3% } $\ \rm bit/Anfrage$
$I_{\rm G}\ = $ { 0.049 3% } $\ \rm bit/Anfrage$
+
$I_{\rm G}\ = \ $ { 0.049 3% } $\ \rm bit/Anfrage$
  
  
{Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) $H_{\rm P}$ der Datei &bdquo;Paradies&rdquo;? Interpretieren Sie das Ergebnis?
+
{Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) $H_{\rm P}$ der Datei &bdquo;Paradies&rdquo;? <br>Interpretieren Sie das Ergebnis?
 
|type="{}"}
 
|type="{}"}
$H_{\rm P}\ = $ { 0.211 3% } $\ \rm bit/Anfrage$
+
$H_{\rm P}\ = \ $ { 0.211 3% } $\ \rm bit/Anfrage$
  
  

Revision as of 11:04, 18 September 2018

Fünf verschiedene Binärquellen

Eine Wetterstation fragt täglich verschiedene Regionen ab und bekommt als Antwort jeweils eine Meldung $x$ zurück, nämlich

  • $x = \rm B$:   Das Wetter ist eher schlecht.
  • $x = \rm G$:   Das Wetter ist eher gut.


Die Daten wurden über viele Jahre für verschiedene Gebiete in Dateien abgelegt, so dass die Entropien der $\rm B/G$–Folgen ermittelt werden können:

$$H = p_{\rm B} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm B}} + p_{\rm G} \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{p_{\rm G}}$$

mit dem Logarithmus dualis

$${\rm log}_2\hspace{0.1cm}p=\frac{{\rm lg}\hspace{0.1cm}p}{{\rm lg}\hspace{0.1cm}2}\hspace{0.3cm} \left ( = {\rm ld}\hspace{0.1cm}p \right ) \hspace{0.05cm}.$$

$\lg$ kennzeichnet hierbei den Logarithmus zur Basis $10$. Zu erwähnen ist ferner, dass jeweils noch die Pseudoeinheit $\text{bit/Anfrage}$ anzufügen ist.

Die Grafik zeigt diese binären Folgen jeweils für $60$ Tage und folgende Regionen:

  • Region „Durchwachsen”:    $p_{\rm B} = p_{\rm G} =0.5$,
  • Region „Regenloch”:             $p_{\rm B} = 0.8, \; p_{\rm G} =0.2$,
  • Region „Angenehm”:            $p_{\rm B} = 0.2, \; p_{\rm G} =0.8$,
  • Region „Paradies”:                $p_{\rm B} = 1/30, \; p_{\rm G} =29/30$.


Schließlich ist auch noch die Datei „Unbekannt” angegeben, deren statistische Eigenschaften zu schätzen sind.



Hinweise:

  • Für die vier ersten Dateien wird vorausgesetzt, dass die Ereignisse $\rm B$ und $\rm G$ statistisch unabhängig seien, eine für die Wetterpraxis eher unrealistische Annahme.



Fragebogen

1

Welche Entropie $H_{\rm D}$ weist die Datei "Durchwachsen" auf?

$H_{\rm D}\ = \ $

$\ \rm bit/Anfrage$

2

Welche Entropie $H_{\rm R}$ weist die Datei „Regenloch” auf?

$H_{\rm R}\ = \ $

$\ \rm bit/Anfrage$

3

Welche Entropie $H_{\rm A}$ weist die Datei „Angenehm” auf?

$H_{\rm A}\ = \ $

$\ \rm bit/Anfrage$

4

Wie groß sind die Informationsgehalte der Ereignisse $\rm B$ und $\rm G$ bezogen auf die Datei „Paradies”?

$I_{\rm B}\ = \ $

$\ \rm bit/Anfrage$
$I_{\rm G}\ = \ $

$\ \rm bit/Anfrage$

5

Wie groß ist die Entropie (das heißt: der mittlere Informationsgehalt) $H_{\rm P}$ der Datei „Paradies”?
Interpretieren Sie das Ergebnis?

$H_{\rm P}\ = \ $

$\ \rm bit/Anfrage$

6

Welche Aussagen könnten für die Datei „Unbekannt” gelten?

Die Ereignisse $\rm B$ und $\rm G$ sind etwa gleichwahrscheinlich.
Die Folgenelemente sind statistisch voneinander unabhängig.
Die Entropie dieser Datei ist $H_\text{U} \approx 0.7 \; \rm bit/Anfrage$.
Die Entropie dieser Datei ist $H_\text{U} = 1.5 \; \rm bit/Anfrage$.


Musterlösung

(1)  Bei der Datei „Durchwachsen” sind die beiden Wahrscheinlichkeiten gleich: $p_{\rm B} = p_{\rm G} =0.5$. Damit ergibt sich für die Entropie:

$$H_{\rm D} = 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} + 0.5 \cdot {\rm log}_2\hspace{0.1cm}\frac{1}{0.5} \hspace{0.15cm}\underline {= 1\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$

(2)  Mit $p_{\rm B} = 0.8$, und $p_{\rm G} =0.2$ erhält man einen kleineren Entropiewert:

$$H_{\rm R} \hspace{-0.05cm}= \hspace{-0.05cm}0.8 \cdot {\rm log}_2\hspace{0.05cm}\frac{5}{4} \hspace{-0.05cm}+ \hspace{-0.05cm}0.2 \cdot {\rm log}_2\hspace{0.05cm}\frac{5}{1}\hspace{-0.05cm}=\hspace{-0.05cm} 0.8 \cdot{\rm log}_2\hspace{0.05cm}5\hspace{-0.05cm} - \hspace{-0.05cm}0.8 \cdot {\rm log}_2\hspace{0.05cm}4 \hspace{-0.05cm}+ \hspace{-0.05cm}0.2 \cdot {\rm log}_2 \hspace{0.05cm} 5 \hspace{-0.05cm}=\hspace{-0.05cm} {\rm log}_2\hspace{0.05cm}5\hspace{-0.05cm} -\hspace{-0.05cm} 0.8 \cdot {\rm log}_2\hspace{0.1cm}4\hspace{-0.05cm} = \hspace{-0.05cm} \frac{{\rm lg} \hspace{0.1cm}5}{{\rm lg}\hspace{0.1cm}2} \hspace{-0.05cm}-\hspace{-0.05cm} 1.6 \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$

(3)  In der Datei „Angenehm” sind die Wahrscheinlichkeiten gegenüber der Datei „Regenloch” genau vertauscht. Durch diese Vertauschung wird die Entropie jedoch nicht verändert:

$$H_{\rm A} = H_{\rm R} \hspace{0.15cm} \underline {= 0.722\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$

(4)  Mit $p_{\rm B} = 1/30$ und $p_{\rm G} =29/30$ ergeben sich folgende Informationsgehalte:

$$I_{\rm B} \hspace{0.1cm} = \hspace{0.1cm} {\rm log}_2\hspace{0.1cm}30 = \frac{{\rm lg}\hspace{0.1cm}30}{{\rm lg}\hspace{0.1cm}2} = \frac{1.477}{0.301} \hspace{0.15cm} \underline {= 4.907\,{\rm bit/Anfrage}}\hspace{0.05cm},$$
$$I_{\rm G} \hspace{0.1cm} = \hspace{0.1cm} {\rm log}_2\hspace{0.1cm}\frac{30}{29} = \frac{{\rm lg}\hspace{0.1cm}1.034}{{\rm lg}\hspace{0.1cm}2} = \frac{1.477}{0.301} \hspace{0.15cm} \underline {= 0.049\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$

(5)  Die Entropie $H_{\rm P}$ ist der mittlere Informationsgehalt der beiden Ereignisse $\rm B$ und $\rm G$:

$$H_{\rm P} = \frac{1}{30} \cdot 4.907 + \frac{29}{30} \cdot 0.049 = 0.164 + 0.047 \hspace{0.15cm} \underline {= 0.211\,{\rm bit/Anfrage}}\hspace{0.05cm}.$$

Obwohl das Ereignis $\rm B$ seltener auftritt als $\rm G$, ist sein Beitrag zur Entropie größer.


(6)  Richtig sind die Aussagen 1 und 3:

  • Die Ereignisse $\rm B$ und $\rm G$ sind bei der Datei „Unbekannt” tatsächlich gleichwahrscheinlich: Die 60 dargestellten Symbole teilen sich auf in 30 mal $\rm B$ und 30 mal& $\rm GB$.
  • Es bestehen nun aber starke statistische Bindungen innerhalb der zeitlichen Folge. Nach längeren Schönwetterperioden folgen meist viele schlechte Tage am Stück.
  • Aufgrund dieser statistischen Abhängigkeit innerhalb der $\rm B/G$–Folgen–Folge ist $H_\text{U} = 0.72 \; \rm bit/Anfrage$ kleiner als $H_\text{D} = 1 \; \rm bit/Anfrage$.
  • $H_\text{D}$ ist gleichzeitig das Maximum für $M = 2$   ⇒   die letzte Aussage ist mit Sicherheit falsch.