Difference between revisions of "Applets:Korrelation und Regressionsgerade"

From LNTwww
m (Text replacement - "„" to """)
 
(37 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{LntAppletLink|verteilungen}}  
+
{{LntAppletLink|correlation}}  
  
 
==Programmbeschreibung==
 
==Programmbeschreibung==
 
<br>
 
<br>
In diesem Applet werden binäre&nbsp; $(M=2)$&nbsp; und ternäre&nbsp; $(M=3)$&nbsp; Kanalmodelle ohne Gedächtnis betrachtet mit jeweils&nbsp; $M$&nbsp; Eingängen&nbsp; $X$&nbsp; und&nbsp; $M$&nbsp; Ausgängen&nbsp; $Y$.&nbsp; Ein solches Nachrichtensystem ist durch die Wahrscheinlichkeitsfunktion&nbsp; $P_X(X)$&nbsp; und die Matrix&nbsp; $P_{\hspace{0.01cm}Y\hspace{0.03cm} \vert \hspace{0.01cm}X}(Y\hspace{0.03cm}  \vert \hspace{0.03cm} X)$&nbsp; der Übergangswahrscheinlichkeiten vollständig bestimmt.
+
Als einfaches Beispiel einer 2D-Zufallsgröße&nbsp; $(X, Y)$&nbsp; betrachten wir den Fall, dass diese nur vier Werte annehmen kann:
 +
*Punkt&nbsp; $1$&nbsp; bei&nbsp; $(x_1, \ y_1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_1$: &nbsp; Die Parameter&nbsp; $x_1, \ y_1, \ p_1$&nbsp; sind im Applet per Slider einstellbar.
 +
*Punkt&nbsp; $2$&nbsp; bei&nbsp; $(x_2, \ y_2)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_2$: &nbsp; Die Parameter liegen durch den Punkt&nbsp; $1$&nbsp; fest: &nbsp; $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
 +
*Punkt&nbsp; $3$&nbsp; bei&nbsp; $(+1, +1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_3 = 0.5-p_1$: &nbsp; Die Lage dieses Punktes ist im Applet fest vorgegeben.
 +
*Punkt&nbsp; $4$&nbsp; bei&nbsp; $(-1, -1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_4 = p_3$: &nbsp; Dieser Punkt liegt ebenso wie der Punkt&nbsp; $3$&nbsp; auf der Winkelhalbierenden.
  
Für diese binären bzw. ternären Systeme werden folgende informationstheoretische Beschreibungsgrößen hergeleitet und verdeutlicht:
 
*die&nbsp; ''Quellenentropie'' &nbsp; $H(X)$&nbsp; und die&nbsp; ''Sinkenentropie'' &nbsp; $H(Y)$,
 
*die&nbsp; ''Äquivokation'' &nbsp; (&bdquo;Rückschlussentropie&rdquo;)&nbsp; $H(X|Y)$&nbsp; und die &nbsp; ''Irrelevanz'' (&bdquo;Streuentropie&rdquo;)&nbsp; $H(Y|X)$,
 
*die&nbsp; ''Verbundentropie'' &nbsp; $H(XY)$&nbsp; sowie die ''Transinformation''&nbsp; (englisch:&nbsp; ''Mutual Information'')&nbsp; $I(X; Y)$,
 
*die&nbsp; ''Kanalkapazität'' &nbsp; als die entscheidende Kenngröße digitaler Kanalmodelle ohne Gedächtnis:
 
:$$C = \max_{P_X(X)} \hspace{0.15cm}  I(X;Y)  \hspace{0.05cm}.$$
 
  
Diese informationstheoretische Größen können sowohl in analytische geschlossener Form berechnet oder durch Auswertung von Quellen&ndash; und Sinkensymbolfolge simulativ ermittelt werden.
+
Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:
 +
* Die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; unter dem Winkel&nbsp; $\theta_{X \to Y}$ &nbsp; &rArr; &nbsp; blaue Kurve,
 +
* die Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; unter dem Winkel&nbsp; $\theta_{Y \to X}$ &nbsp; &rArr; &nbsp; rote Kurve, 
 +
* eine Hilfsgerade&nbsp; "$\rm (HG)$" unter dem Winkel&nbsp; $\theta_{\rm HG}$ &nbsp; &rArr; &nbsp; grüne Kurve, optional.  
  
==Theoretischer Hintergrund==
 
<br>
 
===Zugrunde liegendes Modell der Digitalsignalübertragung ===
 
 
Die Menge der möglichen&nbsp; '''Quellensymbole'''&nbsp; wird durch die diskrete Zufallsgröße&nbsp; $X$&nbsp; charakterisiert.&nbsp;
 
*Im binären Fall &nbsp; &rArr; &nbsp; $M_X= |X| = 2$&nbsp; gilt&nbsp; $X = \{\hspace{0.05cm}{\rm A}, \hspace{0.15cm} {\rm B} \hspace{0.05cm}\}$&nbsp; mit der Wahrscheinlichkeitsfunktion&nbsp; $($englisch:&nbsp; ''Probability Mass Function'',&nbsp; $\rm PMF)$  &nbsp; $P_X(X)= \big (p_{\rm A},\hspace{0.15cm}p_{\rm B}\big)$&nbsp; sowie den Quellensymbolwahrscheinlichkeiten&nbsp; $p_{\rm A}$&nbsp; und&nbsp; $p_{\rm B}=1- p_{\rm A}$.
 
*Entsprechend gilt für eine Ternärquelle&nbsp; &rArr; &nbsp; $M_X= |X| = 3$: &nbsp; &nbsp; $X = \{\hspace{0.05cm}{\rm A}, \hspace{0.15cm} {\rm B}, \hspace{0.15cm} {\rm C} \hspace{0.05cm}\}$, &nbsp; &nbsp; $P_X(X)= \big (p_{\rm A},\hspace{0.15cm}p_{\rm B},\hspace{0.15cm}p_{\rm C}\big)$, &nbsp; &nbsp; $p_{\rm C}=1- p_{\rm A}-p_{\rm B}$.
 
 
 
Die Menge der möglichen&nbsp; '''Sinkensymbole'''&nbsp; wird durch die diskrete Zufallsgröße&nbsp; $Y$&nbsp; charakterisiert.&nbsp; Diese entstammen der gleichen Symbolmenge wie die Quellensymbole &nbsp; &rArr; &nbsp; $M_Y=M_X = M$.&nbsp; Zur Vereinfachung der nachfolgenden Beschreibung bezeichnen wir diese mit Kleinbuchstaben, zum Beispiel für&nbsp; $M=3$: &nbsp;&nbsp; $Y = \{\hspace{0.05cm}{\rm a}, \hspace{0.15cm} {\rm b}, \hspace{0.15cm} {\rm c} \hspace{0.05cm}\}$. 
 
 
Der Zusammenhang zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist durch ein&nbsp; '''digitales Kanalmodell ohne Gedächtnis'''&nbsp; $($englisch:&nbsp; ''Discrete Memoryless Channel'',&nbsp; $\rm DMC)$&nbsp; festgelegt. Die linke  Grafik zeigt dieses für&nbsp; $M=2$&nbsp; und die rechte  Grafik für&nbsp; $M=3$.
 
  
[[File:Transinf_1_neu.png|center|frame|Digitales Kanalmodell für&nbsp; $M=2$&nbsp; (links) und für&nbsp; $M=3$&nbsp; (rechts). <br>Bitte beachten Sie:&nbsp; In der rechten Grafik sind nicht alle Übergänge beschriftet]]
+
Als Zahlenwerte werden die zur Berechnung von&nbsp; $\theta_{X \to Y}$&nbsp; und&nbsp; $\theta_{Y \to X}$&nbsp; benötigten statistischen Kenngrößen ausgegeben:
 +
* die Streuungen (Standardabweichungen)&nbsp; $\sigma_X$&nbsp; und&nbsp; $\sigma_Y$&nbsp; der Komponenten&nbsp; $X$&nbsp; bzw.&nbsp; $Y$,
 +
*die Kovarianz&nbsp; $\mu_{XY}$&nbsp; &rArr; &nbsp; Zentralmoment erster Ordnung der 2D-Zufallsgröße&nbsp; $(X, Y)$,
 +
*der Korrelationskoeffizient&nbsp; $\rho_{XY}$&nbsp; zwischen den 2D-Zufallsgröße&nbsp; $X$&nbsp; und&nbsp; $Y$.
  
Die folgende Beschreibung gilt für den einfacheren Fall&nbsp; $M=2$.&nbsp; Für die Berechnung aller informationstheoretischer Größen im nächsten Abschnitt benötigen wir außer&nbsp; $P_X(X)$&nbsp; und&nbsp;  $P_Y(Y)$&nbsp; noch die zweidimensionalen Wahrscheinlichkeitsfunktionen&nbsp; $($jeweils eine&nbsp; $2\times2$&ndash;Matrix$)$&nbsp; aller
 
#&nbsp; [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#Bedingte_Wahrscheinlichkeit|bedingten Wahrscheinlichkeiten]] &nbsp; &rArr; &nbsp; $P_{\hspace{0.01cm}Y\hspace{0.03cm} \vert \hspace{0.01cm}X}(Y\hspace{0.03cm}  \vert \hspace{0.03cm} X)$ &nbsp; &rArr; &nbsp; durch das DMC&ndash;Modell vorgegeben;
 
#&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Verbundwahrscheinlichkeiten]]&nbsp; &rArr; &nbsp; $P_{XY}(X,\hspace{0.1cm}Y)$;
 
#&nbsp; [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#R.C3.BCckschlusswahrscheinlichkeit|Rückschlusswahrscheinlichkeiten]] &nbsp; &rArr; &nbsp; $P_{\hspace{0.01cm}X\hspace{0.03cm} \vert \hspace{0.03cm}Y}(X\hspace{0.03cm}  \vert \hspace{0.03cm} Y)$.
 
 
   
 
   
 +
Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in $x$&ndash; und $y$&ndash;Richtung zu dieser lässt sich nachvollziehen, dass
  
[[File:Transinf_2.png|right|frame|Betrachtetes Modell des Binärkanals]]
+
* die rote Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; die Eigenschaft hat, dass der mittlere quadrische Abstand  aller Punkte in&nbsp; $y$&ndash;Richtung &nbsp; &rArr; &nbsp; ${\rm MQA}_Y$&nbsp; von dieser minimal ist,  
{{GraueBox|TEXT=
+
* während für die blaue Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; der mittlere quadrische Abstand aller Punkte in&nbsp; $x$&ndash;Richtung &nbsp; &rArr; &nbsp; ${\rm MQA}_X$&nbsp; zum Minimum führt.  
$\text{Beispiel 1}$:&nbsp; Wir betrachten den skizzierten Binärkanal.
 
* Die Verfälschungswahrscheinlichkeiten seien:
 
 
 
:$$\begin{align*}p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A}  & =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.95\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A}  = {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.05\hspace{0.05cm},\\
 
p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B}  & {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.40\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B}  =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.60\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{\hspace{0.01cm}Y\hspace{0.05cm} \vert \hspace{0.05cm}X}(Y\hspace{0.05cm}  \vert \hspace{0.05cm} X) =
 
\begin{pmatrix}
 
0.95  & 0.05\\
 
0.4 & 0.6
 
\end{pmatrix} \hspace{0.05cm}.$$
 
  
*Außerdem gehen wir von nicht gleichwahrscheinlichen Quellensymbolen aus:
 
 
   
 
   
:$$P_X(X) = \big ( p_{\rm A},\ p_{\rm B} \big )=
 
\big ( 0.1,\ 0.9 \big )
 
\hspace{0.05cm}.$$
 
  
*Für die Wahrscheinlichkeitsfunktion der Sinke ergibt sich somit:
 
 
 
:$$P_Y(Y) = \big [ {\rm Pr}( Y\hspace{-0.1cm} = {\rm a})\hspace{0.05cm}, \ {\rm Pr}( Y \hspace{-0.1cm}= {\rm b}) \big ] = \big ( 0.1\hspace{0.05cm},\ 0.9 \big ) \cdot
 
\begin{pmatrix}
 
0.95  & 0.05\\
 
0.4 & 0.6
 
\end{pmatrix} $$
 
  
:$$\Rightarrow \hspace{0.3cm}  {\rm Pr}( Y \hspace{-0.1cm}= {\rm a}) =
+
==Theoretischer Hintergrund==
0.1 \cdot 0.95 + 0.9 \cdot 0.4 = 0.455\hspace{0.05cm},\hspace{1.0cm}
+
<br>
{\rm Pr}( Y \hspace{-0.1cm}= {\rm b})  = 1 - {\rm Pr}( Y \hspace{-0.1cm}= {\rm a}) = 0.545.$$
+
===Erwartungswerte von 2D&ndash;Zufallsgrößen und Korrelationskoeffizient===
  
*Die Verbundwahrscheinlichkeiten&nbsp; $p_{\mu \kappa} = \text{Pr}\big[(X = μ) (Y = κ)\big]$&nbsp; zwischen Quelle und Sinke sind:
+
Wir betrachten eine zweidimensionale&nbsp; $\rm (2D)$&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; mit der Wahrscheinlichkeitsdichtefunktion&nbsp; $\rm (WDF)$&nbsp; $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; statistische Abhängigkeiten bestehen.&nbsp;  Ein Sonderfall ist die ''Korrelation''.
 
:$$\begin{align*}p_{\rm Aa} & =  p_{\rm a} \cdot p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} = 0.095\hspace{0.05cm},\hspace{0.5cm}p_{\rm Ab} =  p_{\rm b} \cdot p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A} = 0.005\hspace{0.05cm},\\
 
p_{\rm Ba} & =  p_{\rm a} \cdot p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B} = 0.360\hspace{0.05cm},
 
\hspace{0.5cm}p_{\rm Bb} =  p_{\rm b} \cdot p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B} = 0.540\hspace{0.05cm}.
 
\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{XY}(X,\hspace{0.1cm}Y) =  
+
{{BlaueBox|TEXT=
\begin{pmatrix}  
+
$\text{Definition:}$&nbsp; Unter&nbsp; '''Korrelation'''&nbsp; versteht man eine ''lineare Abhängigkeit''&nbsp; zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$.  
0.095  & 0.005\\
+
*Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.  
0.36 & 0.54
+
*Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.}}
\end{pmatrix} \hspace{0.05cm}.$$
 
 
* Für die Rückschlusswahrscheinlichkeiten erhält man:
 
  
:$$\begin{align*}p_{\rm A\hspace{0.03cm}\vert \hspace{0.03cm}a} & =  p_{\rm Aa}/p_{\rm a} = 0.095/0.455 = 0.2088\hspace{0.05cm},\hspace{0.5cm}p_{\rm A\hspace{0.03cm}\vert \hspace{0.03cm}b}  =  p_{\rm Ab}/p_{\rm b} = 0.005/0.545 = 0.0092\hspace{0.05cm},\\
 
p_{\rm B\hspace{0.03cm}\vert \hspace{0.03cm}a} & =  p_{\rm Ba}/p_{\rm a} = 0.36/0.455 = 0.7912\hspace{0.05cm},\hspace{0.5cm}p_{\rm B\hspace{0.03cm}\vert \hspace{0.03cm}b}  =  p_{\rm Bb}/p_{\rm b} = 0.54/0.545 = 0.9908\hspace{0.05cm}
 
\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm} P_{\hspace{0.01cm}X\hspace{0.05cm} \vert \hspace{0.05cm}Y}(X\hspace{0.05cm} \vert \hspace{0.05cm} Y) =
+
Für das Folgende setzen wir voraus, dass&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; mittelwertfrei seien &nbsp; &rArr; &nbsp; ${\rm E}\big [ X \big ] = {\rm E}\big [ Y \big ]=0$.&nbsp; Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:
\begin{pmatrix}  
+
* die&nbsp; '''Varianzen'''&nbsp; in&nbsp; $X$&ndash;&nbsp; bzw. in&nbsp; $Y$&ndash;Richtung:
0.2088 & 0.0092\\
+
:$$\sigma_X^2= {\rm E}\big [ X^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}x^2 \cdot f_{X}(x) \, {\rm d}x\hspace{0.05cm},\hspace{0.5cm}\sigma_Y^2= {\rm E}\big [Y^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}y^2 \cdot f_{Y}(y) \, {\rm d}y\hspace{0.05cm};$$
0.7912 & 0.9908
+
* die&nbsp; '''Kovarianz'''&nbsp; zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$:
\end{pmatrix} \hspace{0.05cm}.$$ }}
+
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$
<br clear=all><br><br>
 
===Definition und Interpretation verschiedener Entropiefunktionen ===
 
  
Im&nbsp; [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen|$\rm LNTwww$&ndash;Theorieteil]]&nbsp; werden alle für 2D&ndash;Zufallsgrößen relevanten Entropien definiert, die auch für die Digitalsignalübertragung gelten.&nbsp; Zudem finden Sie dort zwei Schaubilder, die den Zusammenhang zwischen den einzelnen Entropien illustrieren.&nbsp;  
+
Bei statistischer Unabhängigkeit der beiden Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist die Kovarianz&nbsp; $\mu_{XY} \equiv 0$.&nbsp;  
*Für die Digitalsignalübertragung ist die rechte Darstellung zweckmäßig, bei der die Richtung von der Quelle&nbsp; $X$&nbsp; zur Sinke&nbsp; $Y$&nbsp; erkennbar ist.&nbsp;  
 
*Wir interpretieren nun ausgehend von dieser Grafik die einzelnen informationstheoretischen Größen.
 
  
 +
*Das Ergebnis&nbsp; $\mu_{XY} = 0$&nbsp; ist auch bei statistisch abhängigen Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.
 +
*Die  statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung&nbsp; $Y=X^2.$
  
[[File:P_ID2781__Inf_T_3_3_S2.png|center|frame|Zwei informationstheoretische Modelle für die Digitalsignalübertragung.
 
<br>Bitte beachten Sie:&nbsp; In der rechten Grafik ist&nbsp; $H_{XY}$&nbsp; nicht darstellbar]]
 
  
*Die&nbsp; '''Quellenentropie'''&nbsp; (englisch:&nbsp; ''Source Entropy''&nbsp;)&nbsp; $H(X)$&nbsp; bezeichnet den mittleren Informationsgehalt der Quellensymbolfolge.&nbsp; Mit dem Symbolumfang&nbsp; $|X|$&nbsp; gilt:
+
Man spricht dann  von&nbsp; '''vollständiger Korrelation''', wenn die (deterministische) Abhängigkeit zwischen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; durch die Gleichung&nbsp; $Y = K · X$&nbsp; ausgedrückt wird.  
 
:$$H(X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(X)}\right ] \hspace{0.1cm}
 
= -{\rm E} \big [ {\rm log}_2 \hspace{0.1cm}{P_X(X)}\big ] \hspace{0.2cm}
 
=\hspace{0.2cm} \sum_{\mu = 1}^{|X|}
 
P_X(x_{\mu}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(x_{\mu})} \hspace{0.05cm}.$$
 
  
*Die&nbsp; '''Äquivokation'''&nbsp; (auch&nbsp; ''Rückschlussentropie'' genannt, englisch:&nbsp; ''Equivocation''&nbsp;)&nbsp; $H(X|Y)$&nbsp; gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Sinke&nbsp; $Y$&nbsp; genau Bescheid weiß, durch Beobachtung der Quelle&nbsp; $X$&nbsp; gewinnt:
+
Dann ergibt sich  für die Kovarianz:
+
* $\mu_{XY} = σ_X · σ_Y$&nbsp; bei positivem Wert von&nbsp; $K$,  
:$$H(X|Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{-0.01cm}Y}(X\hspace{-0.01cm} |\hspace{0.03cm} Y)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
+
* $\mu_{XY} = -σ_X · σ_Y$&nbsp; bei negativem&nbsp; $K$&ndash;Wert.   
  P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{0.03cm}Y}
 
(\hspace{0.05cm}x_{\mu}\hspace{0.03cm} |\hspace{0.05cm} y_{\kappa})}
 
\hspace{0.05cm}.$$
 
  
*Die Äquivokation ist der Anteil der Quellenentropie&nbsp; $H(X)$, der durch Kanalstörungen&nbsp; (bei digitalem Kanal:&nbsp; Übertragungsfehler)&nbsp; verloren geht.&nbsp; Es verbleibt die&nbsp; '''Transinformation'''&nbsp; (englisch:&nbsp; ''Mutual Information'')&nbsp; $I(X; Y)$, die zur Sinke gelangt:
 
 
:$$I(X;Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_{XY}(X, Y)}{P_X(X) \cdot P_Y(Y)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
 
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa})}{P_{\hspace{0.05cm}X}(\hspace{0.05cm}x_{\mu}) \cdot P_{\hspace{0.05cm}Y}(\hspace{0.05cm}y_{\kappa})}
 
\hspace{0.05cm} = H(X) - H(X|Y) \hspace{0.05cm}.$$
 
  
'''Hallo Veronika, bitte diese Gleichung an Beispielen überprüfen und mir zeigen, wie es geht. Ich stelle mich zu blöd!'''
+
Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.  
  
*Die&nbsp; '''Irrelevanz'''&nbsp; (manchmal auch&nbsp; ''Streuentropie''&nbsp; genannt, englisch:&nbsp; ''Irrelevance'')&nbsp; $H(Y|X)$&nbsp; gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Quelle&nbsp; $X$&nbsp; genau Bescheid weiß, durch Beobachtung der Sinke&nbsp; $Y$&nbsp; gewinnt:
+
{{BlaueBox|TEXT= 
+
$\text{Definition:}$&nbsp; Der&nbsp; '''Korrelationskoeffizient'''&nbsp; ist der Quotient aus der Kovarianz&nbsp; $\mu_{XY}$&nbsp; und dem Produkt der Effektivwerte&nbsp; $σ_X$&nbsp; und&nbsp; $σ_Y$&nbsp; der beiden Komponenten:  
:$$H(Y|X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{0.03cm} X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
+
:$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}.$$}}
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{0.03cm}X}
 
(\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu})}
 
\hspace{0.05cm}.$$
 
  
*Die&nbsp; '''Sinkenentropie'''&nbsp; $H(Y)$, der mittlere Informationsgehalt der Sinke, ist die Summe aus der nützlichen Transinformation&nbsp; $I(X; Y)$&nbsp; und der Irrelevanz&nbsp; $H(Y|X)$, die ausschließlich von Kanalfehlern herrührt:
 
 
 
:$$H(Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_Y(Y)}\right ] \hspace{0.1cm}
 
= -{\rm E} \big [ {\rm log}_2 \hspace{0.1cm}{P_Y(Y)}\big ] \hspace{0.2cm} =I(X;Y) + H(Y|X)
 
\hspace{0.05cm}.$$
 
  
*Die&nbsp; '''Verbundentropie'''&nbsp; $H(XY)$&nbsp; gibt ist den mittleren Informationsgehalt der 2D&ndash;Zufallsgröße&nbsp; $XY$&nbsp;an.&nbsp sie beschreibt zudem eine obere Schranke für die Summe aus Quellenentropie und Sinkenentropie:
+
Der Korrelationskoeffizient&nbsp; $\rho_{XY}$&nbsp; weist folgende Eigenschaften auf:
 +
*Aufgrund der Normierung gilt stets&nbsp; $-1 \le  ρ_{XY}  ≤ +1$.
 +
*Sind die beiden Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; unkorreliert, so ist&nbsp; $ρ_{XY} = 0$.
 +
*Bei strenger linearer Abhängigkeit zwischen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist&nbsp; $ρ_{XY}= ±1$ &nbsp; &rArr; &nbsp; vollständige Korrelation.
 +
*Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem&nbsp; $X$–Wert im statistischen Mittel auch&nbsp; $Y$&nbsp; größer ist als bei kleinerem&nbsp; $X$.
 +
*Dagegen drückt ein negativer Korrelationskoeffizient aus, dass&nbsp; $Y$&nbsp; mit steigendem&nbsp; $X$&nbsp; im Mittel kleiner wird. 
  
:$$H(XY) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] = \sum_{\mu = 1}^{M}  \hspace{0.1cm} \sum_{\kappa = 1}^{K} \hspace{0.1cm}
 
P_{XY}(x_{\mu}\hspace{0.05cm}, y_{\kappa}) \cdot {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(x_{\mu}\hspace{0.05cm}, y_{\kappa})}\le H(X) + H(Y) \hspace{0.05cm}.$$
 
  
[[File:Transinf_2.png|right|frame|Betrachtetes Modell des Binärkanals]]
+
[[File:Korrelation_1c.png|right|frame| 2D-WDF&nbsp; $f_{XY}(x, y)$&nbsp; sowie die zugehörigen Randwahrscheinlichkeitsdichten&nbsp; $f_{X}(x)$&nbsp; und&nbsp; $f_{Y}(y)$]]
{{GraueBox|TEXT=
+
{{GraueBox|TEXT=
$\text{Beispiel 2}$:&nbsp; Es gelten die gleichen Voraussetzungen wie für das&nbsp; [[Applets:Transinformation_bei_binären_und_ternären_Nachrichtensystemen#Zugrunde_liegendes_Modell_der_Digitalsignal.C3.BCbertragung|$\text{Beispiel 1}$]]:&nbsp;
+
$\text{Beispiel 1:}$&nbsp; Die 2D&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; sei diskret und kann nur vier verschiedene Werte annehmen:
 +
*$(+0.5,\ 0)$&nbsp; sowie $(-0.5,\ 0)$&nbsp; jeweils mit der Wahrscheinlichkeit&nbsp; $0.3$,
 +
*$(+1,\ +\hspace{-0.09cm}1)$&nbsp; sowie $(-1,\ -\hspace{-0.09cm}1)$&nbsp; jeweils mit der Wahrscheinlichkeit&nbsp; $0.2$.
  
'''(1)'''&nbsp; Die Quellensymbole sind nicht gleichwahrscheinlich:
 
:$$P_X(X) = \big ( p_{\rm A},\ p_{\rm B} \big )=
 
\big ( 0.1,\ 0.9 \big )
 
\hspace{0.05cm}.$$
 
'''(2)'''&nbsp; Die Verfälschungswahrscheinlichkeiten seien: 
 
:$$\begin{align*}p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A}  & =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.95\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A}  =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.05\hspace{0.05cm},\\
 
p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B}  & =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.40\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B}  =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.60\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{\hspace{0.01cm}Y\hspace{0.05cm} \vert \hspace{0.05cm}X}(Y\hspace{0.05cm} \vert \hspace{0.05cm} X) =  
+
$\rm (A)$&nbsp; Die Varianzen bzw. die Streuungen können aus &nbsp; $f_{X}(x)$&nbsp; und&nbsp; $f_{Y}(y)$&nbsp; berechnet werden:
\begin{pmatrix}
+
:$$\sigma_X^2 = 2 \cdot \big [0.2 \cdot 1^2 + 0.3 \cdot 0.5^2 \big] = 0.55\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_X = 0.7416,$$
0.95  & 0.05\\
+
:$$\sigma_Y^2 =  \big [0.2 \cdot (-1)^2 + 0.6 \cdot 0^2 +0.2 \cdot (+1)^2 \big] = 0.4\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_Y = 0.6325.$$
0.4 & 0.6
 
\end{pmatrix} \hspace{0.05cm}.$$
 
  
[[File:Inf_T_1_1_S4_vers2.png|frame|Binäre Entropiefunktion als Funktion von&nbsp; $p$|right]]
+
$\rm (B)$&nbsp; Für die Kovarianz ergibt sich der folgende Erwartungswert:
*Wegen Voraussetzung&nbsp; '''(1)'''&nbsp; erhält man so für die Quellenentropie mit der&nbsp; [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Bin.C3.A4re_Entropiefunktion|binären Entropiefunktion]]&nbsp; $H_{\rm bin}(p)$:&nbsp;
+
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$
  
:$$H(X) =  p_{\rm A} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm A}\hspace{0.1cm} } + p_{\rm B} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{p_{\rm B} }= H_{\rm bin} (p_{\rm A}) = H_{\rm bin} (0.1)= 0.469 \ {\rm bit}
+
$\rm (C)$&nbsp; Damit erhält man für den Korrelationskoeffizienten:
\hspace{0.05cm};$$
+
:$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528.
 +
$$}}
 +
<br clear=all>
  
::$$H_{\rm bin} (p) =  p \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p\hspace{0.1cm} } + (1 - p) \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{1 - p} \hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit\hspace{0.15cm}oder\hspace{0.15cm}bit/Symbol)}
+
===Eigenschaften der Regressionsgeraden===
\hspace{0.05cm}.$$
+
[[File:Korrelation_5_neu.png|frame|Gaußsche 2D-WDF mit Korrelationsgerade&nbsp; $K$]]
 +
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; anzugeben, deren $\text{2D-WDF}$&nbsp; $f_{XY}(x, y)$&nbsp; durch Punkte &nbsp;$(x_1, y_1 )$&nbsp; ...&nbsp; $(x_N, y_N )$&nbsp; in der&nbsp; $(x,\ y)$&ndash;Ebene vorgegeben ist.&nbsp; Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen:&nbsp;
 +
:Gesucht ist die Gleichung der Geraden&nbsp; $K$&nbsp; &rArr; &nbsp; $y=c_{\rm opt} \cdot x$&nbsp; mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als&nbsp; ''Korrelationsgerade''. Diese kann als eine  Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden.  
  
* Entsprechend gilt für die Sinkenentropie mit der PMF&nbsp; $P_Y(Y) = \big ( p_{\rm a},\ p_{\rm b} \big )=
+
Bei einer großen Menge&nbsp; $N$&nbsp; empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter&nbsp; $C = c_{\rm opt}$&nbsp; zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in&nbsp; $x$&ndash; oder in&nbsp; $y$&ndash;Richtung definiert.
\big ( 0.455,\ 0.545 \big )$:
 
:$$H(Y) =  H_{\rm bin} (0.455)= 0.994 \ {\rm bit}
 
\hspace{0.05cm}.$$
 
*Als nächstes berechnen wir die Verbundentropie:
 
:$$H(XY) =  p_{\rm Aa} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Aa}\hspace{0.1cm} }+ p_{\rm Ab} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Ab}\hspace{0.1cm} }+p_{\rm Ba} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Ba}\hspace{0.1cm} }+ p_{\rm Bb} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Bb}\hspace{0.1cm} }$$
 
:$$\Rightarrow \hspace{0.3cm}H(XY) =    0.095 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.095 } +0.005 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.005 }+0.36 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.36 }+0.54 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.54 }= 1.371 \ {\rm bit}
 
\hspace{0.05cm}.$$
 
  
Entsprechend dem oberen linken Schaubild sind somit auch die restlichen informationstheoretischen Größen berechenbar:
+
Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade&nbsp; $K$&nbsp; identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien&nbsp; (siehe [[Applets:Korrelation_und_Regressionsgerade#Der_Sonderfall_Gau.C3.9Fscher_2D.E2.80.93Zufallsgr.C3.B6.C3.9Fen|Abschnitt 2.3]]).
[[File:Transinf_4.png|right|frame|Informationstheoretisches Modell für&nbsp; $\text{Beispiel 2}$]]
 
  
*die&nbsp; '''Äquivokation'''&nbsp; (oder Rückschlussentropie):
 
 
:$$H(X \vert Y) \hspace{-0.01cm} =\hspace{-0.01cm}  H(XY) \hspace{-0.01cm} -\hspace{-0.01cm}  H(Y) \hspace{-0.01cm}  = \hspace{-0.01cm}  1.371\hspace{-0.01cm}  -\hspace{-0.01cm}  0.994\hspace{-0.01cm} =\hspace{-0.01cm}  0.377\ {\rm bit}
 
\hspace{0.05cm},$$
 
  
*die '''Irrelevanz'''&nbsp; (oder Streuentropie):
+
$\text{(a)}\hspace{0.5cm}  \text{Regressionsgerade }R_{Y \to X}$ &nbsp; &nbsp; (rote Gerade in der App)
 
   
 
   
:$$H(Y \vert X) = H(XY) - H(X)  = 1.371 - 0.994 = 0.902\ {\rm bit}
+
Hier wird der&nbsp; $y$&ndash;Wert auf den&nbsp; $x$&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen "Zurückfallen" des Wortes "Regression" entspricht.
\hspace{0.05cm}.$$
 
  
*die&nbsp; '''Transinformation'''&nbsp; (englisch&nbsp; ''Mutual Information''):
+
*'''Geradengleichung''',&nbsp; Winkel&nbsp; $\theta_{Y \to X}$&nbsp; der Geraden&nbsp; $R_{Y \to X}$&nbsp; zur&nbsp; $x$&ndash;Achse:
+
:$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
:$$I(X;Y) = H(X) + H(Y) - H(XY) = 0.469 + 0.994 - 1.371 = 0.092\ {\rm bit}
+
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{Y \to X}$&nbsp; in&nbsp; $y$&ndash;Richtung ist minimal:
\hspace{0.05cm},$$
+
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
 +
:Die zweite Gleichung gilt nur, wenn alle Punkte&nbsp; $(x_n, y_n )$&nbsp; der 2D&ndash;WDF gleichwahrscheinlich sind.
  
Die Ergebnisse sind in nebenstehender Grafik  zusammengefasst.
 
  
''Anmerkung'':&nbsp; Äquivokation und Irrelevanz könnte man (allerdfings mit Mehraufwand) auch direkt aus den entsprechenden Wahrscheinlichkeitsfunktionen berechnen, zum Beispiel:
+
$\text{(b)}\hspace{0.5cm}   \text{Regressionsgerade }R_{X \to Y}$ &nbsp; &nbsp; (blaue Gerade in der App)
 
 
:$$H(Y \vert X) = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.05cm}\in \hspace{0.05cm}XY} \hspace{-0.2cm} P_{XY}(x,\hspace{0.05cm}y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}\vert \hspace{0.03cm}X}
 
(\hspace{0.05cm}y\hspace{0.03cm} \vert \hspace{0.05cm} x)}= p_{\rm Aa} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} } +
 
p_{\rm Ab} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A} } +
 
p_{\rm Ba} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B} } +
 
p_{\rm Bb} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B} } = 0.902 \ {\rm bit} \hspace{0.05cm}.$$}}
 
  
 +
Die Regression in Gegenrichtung&nbsp; $($also von&nbsp; $X$&nbsp; auf&nbsp; $Y)$&nbsp; bedeutet dagegen, dass der&nbsp;$x$&ndash;Wert auf den&nbsp;$y$&ndash;Wert zurückgeführt wird.&nbsp; Für&nbsp; ${\rm MQA}_X$&nbsp; ergibt sich der minimale Wert. 
  
[[File:Transinf_3.png|right|frame|Betrachtetes Modell des Ternärkanals:<br>Rote Übergänge stehen für&nbsp; $p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} = p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B} = p_{\rm c\hspace{0.03cm}\vert \hspace{0.03cm}C} = q$&nbsp; und blaue für&nbsp; $p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A} = p_{\rm c\hspace{0.03cm}\vert \hspace{0.03cm}A}  =\text{...}= p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}C}= (1-q)/2$]]
+
*'''Geradengleichung''',&nbsp; Winkel&nbsp; $\theta_{X \to Y}$&nbsp; der Geraden&nbsp; $R_{X \to Y}$&nbsp; zur &nbsp; $x$&ndash;Achse:
{{GraueBox|TEXT=
+
:$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
$\text{Beispiel 3}$:&nbsp; Nun betrachten wir ein Übertragungssystem mit&nbsp; $M_X = M_Y = M=3$.&nbsp;
+
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden&nbsp; $R_{X \to Y}$&nbsp; in&nbsp; $x$&ndash;Richtung ist minimal:  
 
+
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
'''(1)'''&nbsp; Die Quellensymbole seien gleichwahrscheinlich:  
+
 
:$$P_X(X) = \big ( p_{\rm A},\ p_{\rm B},\ p_{\rm C} \big )=
+
[[File:Korrelation_5a.png|right|frame| Die beiden Regressionsgeraden]]
\big ( 1/3,\ 1/3,\ 1/3 \big )\hspace{0.30cm}\Rightarrow\hspace{0.30cm}H(X)={\rm log_2}\hspace{0.1cm}3 \approx 1.585 \ {\rm bit}
+
{{GraueBox|TEXT=
\hspace{0.05cm}.$$
+
$\text{Beispiel 2:}$&nbsp;  Es gelten die gleichen Voraussetzungen wie im&nbsp; $\text{Beispiel 1}$&nbsp; und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.
'''(2)'''&nbsp; Das Kanalmodell ist symmetrisch &nbsp; &rArr; &nbsp; auch die Sinkensymbole sind gleichwahrscheinlich:
 
:$$P_Y(Y) = \big ( p_{\rm a},\ p_{\rm b},\ p_{\rm c} \big )=
 
\big ( 1/3,\ 1/3,\ 1/3 \big )\hspace{0.30cm}\Rightarrow\hspace{0.30cm}H(Y)={\rm log_2}\hspace{0.1cm}3 \approx 1.585 \ {\rm bit}
 
\hspace{0.05cm}.$$
 
'''(3)'''&nbsp; Die Verbundwahrscheinlichkeiten ergeben sich wie folgt:  
 
:$$p_{\rm Aa}= p_{\rm Bb}= p_{\rm Cc}= q/M,$$
 
:$$p_{\rm Ab}= p_{\rm Ac}= p_{\rm Ba}= p_{\rm Bc} = p_{\rm Ca}= p_{\rm Cb} = (1-q)/(2M)$$
 
:$$\Rightarrow\hspace{0.30cm}H(XY) = 3 \cdot p_{\rm Aa} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Aa}\hspace{0.1cm}  }+6 \cdot p_{\rm Ab} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Ab}\hspace{0.1cm} }= \
 
\text{...} \ = q \cdot {\rm log_2}\hspace{0.1cm}\frac{M}{q }+ (1-q) \cdot {\rm log_2}\hspace{0.1cm}\frac{M}{(1-q)/2 }.$$
 
[[File:Transinf_10.png|right|frame|Einige Ergebnisse zum&nbsp; $\text{Beispiel 3}$]]  
 
'''(4)'''&nbsp; Für die Transinformation erhält man nach einigen Umformungen unter Berücksichtigung der Gleichung&nbsp;
 
:$$I(X;Y) = H(X) + H(Y) - H(XY)\text{:}$$
 
:$$I(X;Y) = {\rm log_2}\ (M) - (1-q) -H_{\rm bin}(q).$$
 
* Bei fehlerfreier Ternärübertragung&nbsp; $(q=1)$&nbsp; gilt&nbsp; $I(X;Y) = H(X) = H(Y)={\rm log_2}\hspace{0.1cm}3$.
 
* Mit&nbsp; $q=0.8$&nbsp; sinkt die Transinformaion schon auf&nbsp; $I(X;Y) = 0.663$&nbsp; und mit&nbsp; $q=0.5$&nbsp; auf&nbsp; $0.085$&nbsp; bit.
 
*Der ungünstigste Fall aus informationstheoretischer Sicht ist&nbsp; $q=1/3$&nbsp; &rArr; &nbsp; $I(X;Y) = 0$.
 
*Dagegen ist der aus der aus Sicht der Übertragungstheorie ungünstigste Fall&nbsp; $q=0$&nbsp; &rArr; &nbsp; &bdquo;kein einziges Übertragungssymbol kommt richtig an&rdquo;&nbsp; aus informationstheoretischer Sicht gar nicht so schlecht.
 
* Um dieses gute Ergebnis nutzen zu können, ist allerdings sendeseitig eine Kanalcodierung erforderlich. }}
 
<br><br>
 
===Definition und Bedeutung der Kanalkapazität ===
 
 
 
Berechnet man die Transinformation&nbsp; $I(X, Y)$&nbsp; wie zuletzt im&nbsp; $\text{Beispiel 2}$&nbsp; ausgeführt,&nbsp; so hängt diese nicht nur vom diskreten gedächtnislosen Kanal&nbsp; (englisch:&nbsp; ''Discrete Memoryless Channel'',&nbsp; kurz DMC)&nbsp; ab, sondern auch von der Quellenstatistik  &nbsp;  ⇒  &nbsp;  $P_X(X)$&nbsp; ab.&nbsp; Ergo: &nbsp; '''Die Transinformation'''&nbsp; $I(X, Y)$&nbsp;''' ist keine reine Kanalkenngröße'''.
 
 
 
{{BlaueBox|TEXT=
 
$\text{Definition:}$&nbsp; Die von&nbsp; [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon]&nbsp; eingeführte&nbsp; '''Kanalkapazität'''&nbsp; (englisch:&nbsp; ''Channel Capacity'')&nbsp; lautet gemäß seinem Standardwerk&nbsp; [Sha48]<ref name = ''Sha48''>Shannon, C.E.: ''A Mathematical Theory of Communication''. In: Bell Syst. Techn. J. 27 (1948), S. 379-423 und S. 623-656.</ref>:
 
 
:$$C = \max_{P_X(X)} \hspace{0.15cm}  I(X;Y)  \hspace{0.05cm}.$$
 
  
Oft wird die Zusatzeinheit „bit/Kanalzugriff” hinzugefügt,&nbsp; bei englischen Texten „bit/use”.&nbsp; Da nach dieser Definition stets die bestmögliche Quellenstatistik zugrunde liegt,&nbsp; hängt&nbsp; $C$&nbsp; nur von den Kanaleigenschaften &nbsp; ⇒ &nbsp; $P_{Y \vert X}(Y \vert X)$ ab,&nbsp; nicht jedoch von der Quellenstatistik &nbsp; &nbsp; $P_X(X)$.&nbsp; }}
+
In der oberen Grafik ist die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; als blaue Kurve eingezeichnet:
 +
* Hierfür ergibt sich&nbsp; $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1$&nbsp; und dementsprechend&nbsp; $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
 +
*Für den mittleren Abstand aller vier Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{X \to Y}$&nbsp; in&nbsp; $x$&ndash;Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
 +
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
 +
*Jede Gerade mit einem anderen Winkel als&nbsp; $45^\circ$&nbsp; führt hier zu einem größeren&nbsp; ${\rm MQA}_X$.
  
  
Shannon benötigte die Kanalbeschreibungsgröße&nbsp; $C$&nbsp; zur Formulierung des Kanalcodierungstheorems – eines der Highlights der von ihm begründeten Informationstheorie.
+
Betrachten wir nun die rote Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; in der unteren Grafik.
 +
* Hierfür ergibt sich&nbsp; $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$&nbsp; und&nbsp; $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
 +
*Hier ist nun der mittlere Abstand der vier Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{Y \to X}$&nbsp; in&nbsp; $y$&ndash;Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
 +
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$
  
{{BlaueBox|TEXT=
+
Die im Text erwähnte  "Korrelationsgerade" mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.}}
$\text{Shannons Kanalcodierungstheorem:}$&nbsp;
 
*Zu jedem Übertragungskanal mit der Kanalkapazität&nbsp; $C > 0$&nbsp; existiert (mindestens) ein&nbsp; $(k, n)$–Blockcode,&nbsp; dessen (Block–)Fehlerwahrscheinlichkeit gegen Null geht,&nbsp; so lange die Coderate&nbsp; $R = k/n$&nbsp; kleiner oder gleich der Kanalkapazität ist: &nbsp; $R ≤ C.$
 
* Voraussetzung hierfür ist allerdings,&nbsp; dass für die Blocklänge dieses Codes gilt: &nbsp; $n → ∞.$
 
  
 +
===Der Sonderfall Gaußscher 2D&ndash;Zufallsgrößen===
  
$\text{Umkehrschluss von Shannons Kanalcodierungstheorem:}$&nbsp;
+
Im Sonderfall einer mittelwertfreien &nbsp; [[Theory_of_Stochastic_Signals/Zweidimensionale_Gaußsche_Zufallsgrößen|Gaußschen 2&ndash;Zufallsgröße]]&nbsp; $(X,\ Y)$&nbsp; lautet die Verbundwahrscheinlichkeitsdichtefunktion:
 +
:$$f_{XY}(x,y)=\frac{\rm 1}{\rm 2\it\pi \cdot \sigma_X \cdot \sigma_Y \cdot \sqrt{\rm 1-\rho_{\it XY}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 \cdot(1-\it\rho_{XY}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_X^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_Y^{\rm 2}}-\rm 2\cdot\it\rho_{XY}\cdot\frac{x \cdot y}{\sigma_X \cdot \sigma_Y}\rm ) \rm \Bigg].$$
 +
*Ersetzt man&nbsp;  $x$&nbsp; durch&nbsp; $(x - m_X)$&nbsp; sowie&nbsp; $y$&nbsp; durch&nbsp; $(y- m_Y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
 +
*Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{X}(x)$&nbsp; und $f_{Y}(y)$&nbsp; einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen&nbsp; $σ_X$&nbsp; bzw.&nbsp; $σ_Y$.
 +
*Bei unkorrelierten Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; muss in obiger Gleichung&nbsp; $ρ_{XY} = 0$&nbsp; eingesetzt werden,&nbsp; und man erhält dann das Ergebnis:
 +
[[File:Korrelation_7a.png|right|frame| $K$,&nbsp; $R_{Y \to X}$&nbsp; und&nbsp; $R_{X \to Y}$&nbsp; bei Gaußschen 2D&ndash;Zufallsgrößen]]
 +
:$$f_{XY}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{X}} \cdot\rm e^{-\it {x^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{X}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it Y}}\cdot e^{-\it {y^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{Y}^{\rm 2}} {\rm )}} = \it  f_{X} \rm (  \it  x \rm ) \cdot \it  f_{Y} \rm (  \it  y \rm ) .$$
 
   
 
   
Ist die Rate&nbsp; $R$&nbsp; des verwendeten&nbsp; $(n$, $k)$–Blockcodes größer als die Kanalkapazität&nbsp; $C$,&nbsp; so ist niemals eine beliebig kleine Blockfehlerwahrscheinlichkeit nicht erreichbar.}}
+
*Bei korrelierten Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$ &nbsp; &rArr; &nbsp; $ρ_{XY} \ne 0$&nbsp; sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade&nbsp; $K$&nbsp; ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
 
+
:$$\theta_{\rm K} = {1}/{2} \cdot {\rm arctan } \ ( 2 \cdot \rho_{XY} \cdot \frac {\sigma_X \cdot \sigma_Y}{\sigma_X^2 - \sigma_Y^2}).$$
 
 
[[File:Transinf_9.png|right|frame|Informationsheoretischer Größen für <br>verschiedene&nbsp; $p_{\rm A}$&nbsp; und&nbsp; $p_{\rm B}= 1- p_{\rm A}$ ]]
 
{{GraueBox|TEXT=
 
$\text{Beispiel 4}$:&nbsp; Wir betrachten den gleichen diskreten gedächtnislosen Kanal wie im &nbsp;$\text{Beispiel 2}$.&nbsp;
 
In diesem&nbsp;$\text{Beispiel 2}$&nbsp; wurden die Symbolwahrscheinlichkeiten&nbsp; $p_{\rm A} = 0.1$&nbsp; und&nbsp; $p_{\rm B}= 1- p_{\rm A}=0.9$&nbsp; vorausgesetzt.&nbsp; Damit ergab sich die Transinformation zu&nbsp;  $I(X;Y)= 0.092$&nbsp; bit/Kanalzugriff &nbsp; &rArr; &nbsp; siehe erste Zeile, vierte Spalte in der Tabelle.
 
 
 
Die&nbsp; '''Kanalkapazität'''&nbsp; ist die Transinformation&nbsp; $I(X, Y)$&nbsp; bei bestmöglichen Symbolwahrscheinlichkeiten&nbsp; $p_{\rm A} = 0.55$&nbsp; und&nbsp; $p_{\rm B}= 1- p_{\rm A}=0.45$:
 
:$$C = \max_{P_X(X)} \hspace{0.15cm}  I(X;Y) = 0.284 \ \rm bit/Kanalzugriff \hspace{0.05cm}.$$
 
 
 
Aus der Tabelle erkennt man weiter&nbsp; (auf die Zusatzeinheit &bdquo;bit/Kanalzugriff&bdquo; verzichten wir im Folgenden):
 
*Der Parameter&nbsp; $p_{\rm A} = 0.1$&nbsp; war sehr ungünstig gewählt, weil beim vorliegenden Kanal das Symbol&nbsp; $\rm A$&nbsp; mehr verfälscht wird als&nbsp; $\rm B$.&nbsp; Schon mit&nbsp; $p_{\rm A} = 0.9$&nbsp; ergibt sich ein etwas besserer Wert:&nbsp; $I(X; Y)=0.130$.
 
*Aus dem gleichen Grund liefert&nbsp; $p_{\rm A} = 0.55$,&nbsp; $p_{\rm B} = 0.45$&nbsp; ein etwas besseres Ergebnis als gleichwahrscheinliche Symbole&nbsp; $p_{\rm A} = p_{\rm B} =0.5$.
 
*Je unsymmetrischer der Kanal ist, um so mehr weicht die optimale Wahrscheinlichkeitsfunktion&nbsp; $P_X(X)$&nbsp; von der Gleichverteilung ab.&nbsp; Im Umkehrschluss:&nbsp; Bei symmetrischem Kanal ergibt sich stets die Gleichverteilung.}}
 
 
 
 
 
Der Ternärkanal von &nbsp;$\text{Beispiel 3}$&nbsp; ist symmetrisch.&nbsp; Deshalb ist hier&nbsp; $P_X(X) = \big ( 1/3,\ 1/3,\ 1/3 \big )$&nbsp; für jeden&nbsp; $q$&ndash;Wert optimal, und die in der Ergebnistabelle angegebene Transinformation&nbsp;  $I(X;Y)$&nbsp; ist gleichzeitig die Kanalkapazität&nbsp;  $C$. 
 
 
 
 
 
  
 +
*Die (rote) Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.&nbsp; Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
 +
* In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.&nbsp; Die (blaue) Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.
 +
<br clear=all>
  
  
Line 284: Line 167:
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
*Lösung nach Drücken von &bdquo;Hide solution&rdquo;.
+
*Lösung nach Drücken von "Musterlösung".
*Aufgabenstellung und Lösung in Englisch.
+
*Die Nummer&nbsp; '''0'''&nbsp; entspricht einem "Reset":&nbsp; Gleiche Einstellung wie beim Programmstart.
 
 
 
 
Die Nummer '''0''' entspricht einem &bdquo;Reset&rdquo;:
 
*Gleiche Einstellung wie beim Programmstart.
 
*Ausgabe eines &bdquo;Reset&ndash;Textes&rdquo; mit weiteren Erläuterungen zum Applet.
 
  
  
In der folgenden Beschreibung bedeutet
+
In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:
*'''Blau''': &nbsp; Verteilungsfunktion 1 (im Applet blau markiert),
+
*'''Rot''': &nbsp; &nbsp; Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; (im Applet rot gezeichnet),
*'''Rot''': &nbsp; &nbsp; Verteilungsfunktion 2 (im Applet rot markiert).
+
*'''Blau''': &nbsp; Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; (im Applet blau gezeichnet).
  
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(1)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=5, \ p=0.4)$ und '''Rot''': Binomialverteilung $(I=10, \ p=0.2)$.
+
'''(1)'''&nbsp; Mit welcher Parametereinstellung sind die beiden Regressionsgeraden&nbsp; $R_{Y \to X}$&nbsp; und&nbsp; $R_{X \to Y}$&nbsp; deckungsgleich?}}
:Wie lauten die Wahrscheinlichkeiten ${\rm Pr}(z=0)$ und ${\rm Pr}(z=1)$?}}
 
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Blau: }{\rm Pr}(z=0)=0.6^5=7.78\%, \hspace{0.3cm}{\rm Pr}(z=1)=0.4 \cdot 0.6^4=25.92\%;$
 
  
$\hspace{1.85cm}\text{Rot: }{\rm Pr}(z=0)=0.8^10=10.74\%, \hspace{0.3cm}{\rm Pr}(z=1)=0.2 \cdot 0.8^9=26.84\%.$
+
::*&nbsp;Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel&nbsp;  $45^\circ$&nbsp; verlaufen &nbsp; &rArr; &nbsp; "Winkelhalbierende".
 +
::*&nbsp;Da die fest vorgegebenen Punkte&nbsp; $3$&nbsp; und&nbsp; $4$&nbsp; auf der Winkelhalbierenden liegen, muss dies auch für die Punkte&nbsp; $1$&nbsp; und&nbsp; $2$&nbsp; gelten &nbsp; &rArr; &nbsp; $y_1 = x_1$.
 +
::*&nbsp;Dies gilt für alle Parametereinstellungen&nbsp; $y_1 = x_1$&nbsp; und auch für alle&nbsp; $p_1$&nbsp; im erlaubten Bereich von &nbsp; $0$&nbsp; bis&nbsp; $0.5$.  
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(2)'''&nbsp; Es gelten weiter die Einstellungen von '''(1)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(3 \le z \le 5)$?}}
+
'''(2)'''&nbsp; Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$&nbsp; Interpretieren Sie die Ergebnisse.&nbsp; Aktivieren Sie hierzu die Hilfsgerade. }}
 
 
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Es gilt }{\rm Pr}(3 \le z \le 5) = {\rm Pr}(z=3) + {\rm Pr}(z=4) + {\rm Pr}(z=5)\text{, oder }
+
::*&nbsp;Diese Einstellung stimmt mit den Voraussetzungen zu&nbsp; $\text{Beispiel 1}$&nbsp; und&nbsp; $\text{Beispiel 2}$&nbsp; überein.&nbsp; Insbesondere gilt&nbsp; $ \theta_{X \to Y}= 45^\circ$&nbsp; und &nbsp;$ \theta_{Y \to X}\approx 36^\circ$.
{\rm Pr}(3 \le z \le 5) = {\rm Pr}(z \le 5) - {\rm Pr}(z \le 2)$.
+
::*&nbsp;Durch Variation des Winkels&nbsp; $ \theta_{\rm HG}$&nbsp; erkennt man, dass für&nbsp; $ \theta_{\rm HG}= 45^\circ$&nbsp;  die Kenngröße&nbsp; ${\rm MQA}_X =0.15$&nbsp; tatsächlich den kleinsten Wert annimmt.
 
+
::*&nbsp;Ebenso ergibt sich der kleinstmögliche Abstand&nbsp; ${\rm MQA}_Y =0.109$&nbsp; in&nbsp; $y$&ndash;Richtung  für&nbsp; $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden&nbsp; $R_{Y \to X}$.  
$\hspace{1.85cm}\text{Blau: }{\rm Pr}(3 \le z \le 5) = 0.2304+ 0.0768 + 0.0102 =1 - 0.6826 = 0.3174;$
 
 
 
$\hspace{1.85cm}\text{Rot: }{\rm Pr}(3 \le z \le 5) = 0.2013 + 0.0881 + 0.0264 = 0.9936 - 0.6778 = 0.3158.$
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(3)'''&nbsp; Es gelten weiter die Einstellungen von '''(1)'''. Wie unterscheiden sich der Mittelwert $m_1$ und die Streuung $\sigma$ der beiden Binomialverteilungen?}}
+
'''(3)'''&nbsp; Es gelten zunächst weiter die Einstellungen von&nbsp; '''(2)'''.&nbsp; Wie ändern sich die Ergebnisse nach Variation von&nbsp; $p_1$&nbsp; im erlaubten Bereich&nbsp; $(0\le p_1 \le 0.5)$?}}
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Mittelwert:}\hspace{0.2cm}m_\text{1} = I \cdot p\hspace{0.3cm} \Rightarrow\hspace{0.3cm} m_\text{1, Blau}  = 5 \cdot 0.4\underline{ = 2 =} \ m_\text{1, Rot} = 10 \cdot 0.2; $
 
  
$\hspace{1.85cm}\text{Streuung:}\hspace{0.4cm}\sigma = \sqrt{I \cdot p \cdot (1-p)} = \sqrt{m_1 \cdot (1-p)}\hspace{0.3cm}\Rightarrow\hspace{0.3cm} \sigma_{\rm Blau} = \sqrt{2 \cdot 0.6} =1.095 < \sigma_{\rm Rot} = \sqrt{2 \cdot 0.8} = 1.265.$
+
::*&nbsp;Die blaue Regressionsgerade&nbsp; $ R_{X \to Y}$&nbsp; verläuft weiter unter dem Winkel&nbsp; $ \theta_{X \to Y}= 45^\circ$ &nbsp; &rArr; &nbsp; es gilt hier&nbsp; $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von&nbsp; $p_1 < 0.5$.
 +
::*&nbsp;Im Grenzfall&nbsp; $p_1 = 0.5$&nbsp; ist wegen&nbsp; $\sigma_Y =0$&nbsp; die blaue Regressionsgerade undefiniert.&nbsp; Es handelt sich nurmehr um eine 1D&ndash;Zufallsgröße&nbsp; $X$. 
 +
::*&nbsp;Mit&nbsp; $p_1=0$&nbsp; sind nur die äußeren Punkte&nbsp; $3$&nbsp; und&nbsp; $4$&nbsp; wirksam &nbsp; &rArr; &nbsp; $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,&nbsp; mit&nbsp; $p_1=0.5$&nbsp; nur die inneren Punkte&nbsp;  &rArr; &nbsp; $ \theta_{Y \to X}= 0^\circ$.
 +
::*&nbsp;Dazwischen wird&nbsp; $ R_{Y \to X}$&nbsp; kontinuierlich flacher.&nbsp; Sind alle Punkte gleichwahrscheinlich&nbsp; $(p_1=0.25)$, dann ist&nbsp; $\theta_{Y \to X}\approx 38.7^\circ$.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(4)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=15, p=0.3)$ und '''Rot''': Poissonverteilung $(\lambda=4.5)$.
+
'''(4)'''&nbsp; Nun gelte&nbsp; $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.&nbsp; Variieren Sie&nbsp; $0\le p_1 < 0.5$&nbsp; und interpretieren Sie die Ergebnisse.&nbsp; $(p_1 = 0.5$&nbsp; sollte man ausschließen$)$.}}
:Welche Unterschiede ergeben sich  zwischen beiden Verteilungen hinsichtlich Mittelwert $m_1$ und Varianz $\sigma^2$?}}
 
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Beide Verteilungern haben gleichen Mittelwert:}\hspace{0.2cm}m_\text{1, Blau}  = I \cdot p\ = 15 \cdot 0.3\hspace{0.15cm}\underline{ = 4.5 =} \  m_\text{1, Rot} = \lambda$;
 
  
$\hspace{1.85cm} \text{Binomialverteilung: }\hspace{0.2cm} \sigma_\text{Blau}^2 = m_\text{1, Blau} \cdot (1-p)\hspace{0.15cm}\underline { = 3.15} \le \text{Poissonverteilung: }\hspace{0.2cm} \sigma_\text{Rot}^2 = \lambda\hspace{0.15cm}\underline { = 4.5}$;
+
::*&nbsp;Wegen&nbsp; $\sigma_X \le \sigma_Y$&nbsp; liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle&nbsp; $p_1 \ne 0.5$&nbsp; die Winkelhalbierende ist &nbsp; &rArr; &nbsp; $ \theta_{Y \to X}\approx 45^\circ$.
 +
::*&nbsp;Der Winkel der blauen Regressionsgerade wächst von&nbsp; $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$&nbsp; bis&nbsp; $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$&nbsp; kontinuierlich an.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(5)'''&nbsp; Es gelten die Einstellungen von '''(4)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(z  \gt 10)$ und ${\rm Pr}(z \gt 15)$?}}
+
'''(5)'''&nbsp; Beginnen Sie mit&nbsp; $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$&nbsp; und vergrößern Sie&nbsp; $y_1$&nbsp; bis zum Endwert&nbsp; $y_1 = +0.8$.&nbsp; Interpretieren Sie die Ergebnisse.}}
 
 
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomial: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - {\rm Pr}(z  \le 10) = 1 - 0.9993 = 0.0007;\hspace{0.3cm} {\rm Pr}(z \gt 15) = 0 \ {\rm  (exakt)}$.
+
::*&nbsp;Für&nbsp; $y_1 =-0.8$&nbsp; ist&nbsp; $ \theta_{X \to Y}= 77.6^\circ$&nbsp; und&nbsp; $ \theta_{Y \to X}= 12.4^\circ$.&nbsp; Mit steigendem&nbsp; $y_1$&nbsp; verläuft&nbsp; $ R_{X \to Y}$&nbsp; (blau) flacher und&nbsp; $R_{Y \to X}$&nbsp; (rot) steiler.
 
+
::*&nbsp;Im Endpunkt&nbsp; $(y_1 = +0.8)$&nbsp; verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel&nbsp; $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.
$\hspace{1.85cm}\text{Poisson: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - 0.9933 = 0.0067;\hspace{0.3cm}{\rm Pr}(z \gt 15) \gt  0 \ ( \approx 0)$
 
 
 
$\hspace{1.85cm} \text{Näherung: }\hspace{0.2cm}{\rm Pr}(z \gt 15) \ge {\rm Pr}(z = 16) = \lambda^{16}/{16!}\approx 2 \cdot 10^{-22}$.
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(6)'''&nbsp; Es gelten weiter die Einstellungen von '''(4)'''. Mit welchen Parametern ergeben sich symmetrische Verteilungen um $m_1$?}}
+
'''(6)'''&nbsp; Abschließend gelte&nbsp; $x_1 = +1,\ y_1 = -1$.&nbsp; Variieren Sie&nbsp; $p_1$&nbsp; im gesamten zulässigen Bereich&nbsp; $0\le p_1 \le 0.5$.&nbsp; Wann sind&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; unkorreliert?}}
  
 +
::*&nbsp;Für&nbsp; $p_1 = 0$&nbsp; gilt&nbsp; $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$&nbsp; Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
 +
::*&nbsp;Für&nbsp; $p_1 = 0.25$&nbsp; sind die Winkel&nbsp; $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$&nbsp; Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen &nbsp; &rArr; &nbsp; $\mu_{XY}=0$.
 +
::*&nbsp;Anschließend drehen beide Geraden weiter in gleicher Richtung.&nbsp; Für&nbsp; $p_1 = 0.5$&nbsp; gilt schließlich:&nbsp; $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomialverung mit }p = 0.5\text{:  }p_\mu =  {\rm Pr}(z  = \mu)\text{ symmetrisch um } m_1 = I/2 = 7.5 \ ⇒  \ p_μ = p_{I–μ}\ ⇒  \  p_8 = p_7, \ p_9 = p_6,  \text{usw.}$
 
 
$\hspace{1.85cm}\text{Die Poissonverteilung wird dagegen nie symmetrisch, da sie sich bis ins Unendliche erstreckt!}$
 
  
 
==Zur Handhabung des Applets==
 
==Zur Handhabung des Applets==
[[File:Handhabung_binomial.png|left|600px]]
+
[[File:Anleitung_korrelation_version2.png|left|600px]]
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Vorauswahl für blauen Parametersatz
+
<br><br><br><br><br>
 
+
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Einstellung der&nbsp; $x$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''  
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Parametereingabe $I$ und $p$ per Slider
 
 
 
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Vorauswahl für roten Parametersatz
 
 
 
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Parametereingabe $\lambda$ per Slider
 
 
 
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Graphische Darstellung der Verteilungen
 
  
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Momentenausgabe für blauen Parametersatz
+
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Einstellung der&nbsp; $y$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''
  
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Momentenausgabe für roten Parametersatz
+
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Einstellung der&nbsp; Wahrscheinlichkeiten aller Punkte
  
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Variation der grafischen Darstellung
+
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Hilfsgerade mit Winkel&nbsp; $\theta_{\rm HG}$&nbsp; einblenden
  
 +
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Ausgabe der&nbsp; $\rm MQA$&ndash;Werte für Regressions&ndash; und Hilfsgerade
  
$\hspace{1.5cm}$&bdquo;$+$&rdquo; (Vergrößern),
+
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Numerikausgabe der statistischen Kenngrößen
  
$\hspace{1.5cm}$ &bdquo;$-$&rdquo; (Verkleinern)
+
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Grafikbereich zur Darstellung der Regressionsgeraden
  
$\hspace{1.5cm}$ &bdquo;$\rm o$&rdquo; (Zurücksetzen)
+
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Bereich für Übungen:&nbsp; Aufgabenauswahl, Fragen, Musterlösungen
 
 
$\hspace{1.5cm}$ &bdquo;$\leftarrow$&rdquo; (Verschieben nach links),  usw.
 
 
 
&nbsp; &nbsp; '''( I )''' &nbsp; &nbsp; Ausgabe von ${\rm Pr} (z = \mu)$ und ${\rm Pr} (z  \le \mu)$
 
 
 
&nbsp; &nbsp; '''(J)''' &nbsp; &nbsp; Bereich für die Versuchsdurchführung
 
 
<br clear=all>
 
<br clear=all>
<br>'''Andere Möglichkeiten zur Variation der grafischen Darstellung''':
 
*Gedrückte Shifttaste und Scrollen:  Zoomen im Koordinatensystem,
 
*Gedrückte Shifttaste und linke Maustaste: Verschieben des Koordinatensystems.
 
 
 
==Über die Autoren==
 
==Über die Autoren==
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
*Die erste Version wurde 2003 von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Ji_Li_.28Bachelorarbeit_EI_2003.2C_Diplomarbeit_EI_2005.29|Ji Li]] im Rahmen ihrer Diplomarbeit mit &bdquo;FlashMX&ndash;Actionscript&rdquo; erstellt (Betreuer: [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
+
*Die erste Version wurde 2005 von [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Studierende#Bettina_Hirner_.28Diplomarbeit_LB_2005.29|Bettina Hirner]] im Rahmen ihrer Diplomarbeit mit "FlashMX&ndash;Actionscript" erstellt (Betreuer: [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
*2018 wurde das Programm  von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Jimmy_He_.28Bachelorarbeit_2018.29|Jimmy He]]  (Bachelorarbeit, Betreuer: [[Biografien_und_Bibliografien/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  auf &bdquo;HTML5&rdquo; umgesetzt und neu gestaltet.
+
*2020 wurde das Programm  von [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Studierende#Veronika_Hofmann_.28Ingenieurspraxis_Math_2020.29|Veronika Hofmann]]  (Ingenieurspraxis Mathematik, Betreuer: [[Benedikt Leible]] und [[Biographies_and_Bibliographies/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  unter "HTML5" neu gestaltet.
  
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
  
{{LntAppletLink|verteilungen}}
+
{{LntAppletLink|correlation}}

Latest revision as of 16:46, 28 May 2021

Open Applet in a new tab

Programmbeschreibung


Als einfaches Beispiel einer 2D-Zufallsgröße  $(X, Y)$  betrachten wir den Fall, dass diese nur vier Werte annehmen kann:

  • Punkt  $1$  bei  $(x_1, \ y_1)$  mit Wahrscheinlichkeit  $p_1$:   Die Parameter  $x_1, \ y_1, \ p_1$  sind im Applet per Slider einstellbar.
  • Punkt  $2$  bei  $(x_2, \ y_2)$  mit Wahrscheinlichkeit  $p_2$:   Die Parameter liegen durch den Punkt  $1$  fest:   $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
  • Punkt  $3$  bei  $(+1, +1)$  mit Wahrscheinlichkeit  $p_3 = 0.5-p_1$:   Die Lage dieses Punktes ist im Applet fest vorgegeben.
  • Punkt  $4$  bei  $(-1, -1)$  mit Wahrscheinlichkeit  $p_4 = p_3$:   Dieser Punkt liegt ebenso wie der Punkt  $3$  auf der Winkelhalbierenden.


Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:

  • Die Regressionsgerade  $R_{X \to Y}$  unter dem Winkel  $\theta_{X \to Y}$   ⇒   blaue Kurve,
  • die Regressionsgerade  $R_{Y \to X}$  unter dem Winkel  $\theta_{Y \to X}$   ⇒   rote Kurve,
  • eine Hilfsgerade  "$\rm (HG)$" unter dem Winkel  $\theta_{\rm HG}$   ⇒   grüne Kurve, optional.


Als Zahlenwerte werden die zur Berechnung von  $\theta_{X \to Y}$  und  $\theta_{Y \to X}$  benötigten statistischen Kenngrößen ausgegeben:

  • die Streuungen (Standardabweichungen)  $\sigma_X$  und  $\sigma_Y$  der Komponenten  $X$  bzw.  $Y$,
  • die Kovarianz  $\mu_{XY}$  ⇒   Zentralmoment erster Ordnung der 2D-Zufallsgröße  $(X, Y)$,
  • der Korrelationskoeffizient  $\rho_{XY}$  zwischen den 2D-Zufallsgröße  $X$  und  $Y$.


Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in $x$– und $y$–Richtung zu dieser lässt sich nachvollziehen, dass

  • die rote Regressionsgerade  $R_{X \to Y}$  die Eigenschaft hat, dass der mittlere quadrische Abstand aller Punkte in  $y$–Richtung   ⇒   ${\rm MQA}_Y$  von dieser minimal ist,
  • während für die blaue Regressionsgerade  $R_{Y \to X}$  der mittlere quadrische Abstand aller Punkte in  $x$–Richtung   ⇒   ${\rm MQA}_X$  zum Minimum führt.



Theoretischer Hintergrund


Erwartungswerte von 2D–Zufallsgrößen und Korrelationskoeffizient

Wir betrachten eine zweidimensionale  $\rm (2D)$–Zufallsgröße  $(X,\ Y)$  mit der Wahrscheinlichkeitsdichtefunktion  $\rm (WDF)$  $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten  $X$  und  $Y$  statistische Abhängigkeiten bestehen.  Ein Sonderfall ist die Korrelation.

$\text{Definition:}$  Unter  Korrelation  versteht man eine lineare Abhängigkeit  zwischen den Einzelkomponenten  $X$  und  $Y$.

  • Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
  • Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.


Für das Folgende setzen wir voraus, dass  $X$  und  $Y$  mittelwertfrei seien   ⇒   ${\rm E}\big [ X \big ] = {\rm E}\big [ Y \big ]=0$.  Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:

  • die  Varianzen  in  $X$–  bzw. in  $Y$–Richtung:
$$\sigma_X^2= {\rm E}\big [ X^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}x^2 \cdot f_{X}(x) \, {\rm d}x\hspace{0.05cm},\hspace{0.5cm}\sigma_Y^2= {\rm E}\big [Y^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}y^2 \cdot f_{Y}(y) \, {\rm d}y\hspace{0.05cm};$$
  • die  Kovarianz  zwischen den Einzelkomponenten  $X$  und  $Y$:
$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$

Bei statistischer Unabhängigkeit der beiden Komponenten  $X$  und  $Y$  ist die Kovarianz  $\mu_{XY} \equiv 0$. 

  • Das Ergebnis  $\mu_{XY} = 0$  ist auch bei statistisch abhängigen Komponenten  $X$  und  $Y$  möglich, nämlich dann, wenn diese unkorreliert, also  linear unabhängig  sind.
  • Die statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung  $Y=X^2.$


Man spricht dann von  vollständiger Korrelation, wenn die (deterministische) Abhängigkeit zwischen  $X$  und  $Y$  durch die Gleichung  $Y = K · X$  ausgedrückt wird.

Dann ergibt sich für die Kovarianz:

  • $\mu_{XY} = σ_X · σ_Y$  bei positivem Wert von  $K$,
  • $\mu_{XY} = -σ_X · σ_Y$  bei negativem  $K$–Wert.


Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.

$\text{Definition:}$  Der  Korrelationskoeffizient  ist der Quotient aus der Kovarianz  $\mu_{XY}$  und dem Produkt der Effektivwerte  $σ_X$  und  $σ_Y$  der beiden Komponenten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}.$$


Der Korrelationskoeffizient  $\rho_{XY}$  weist folgende Eigenschaften auf:

  • Aufgrund der Normierung gilt stets  $-1 \le ρ_{XY} ≤ +1$.
  • Sind die beiden Zufallsgrößen  $X$  und  $Y$  unkorreliert, so ist  $ρ_{XY} = 0$.
  • Bei strenger linearer Abhängigkeit zwischen  $X$  und  $Y$  ist  $ρ_{XY}= ±1$   ⇒   vollständige Korrelation.
  • Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem  $X$–Wert im statistischen Mittel auch  $Y$  größer ist als bei kleinerem  $X$.
  • Dagegen drückt ein negativer Korrelationskoeffizient aus, dass  $Y$  mit steigendem  $X$  im Mittel kleiner wird.


2D-WDF  $f_{XY}(x, y)$  sowie die zugehörigen Randwahrscheinlichkeitsdichten  $f_{X}(x)$  und  $f_{Y}(y)$

$\text{Beispiel 1:}$  Die 2D–Zufallsgröße  $(X,\ Y)$  sei diskret und kann nur vier verschiedene Werte annehmen:

  • $(+0.5,\ 0)$  sowie $(-0.5,\ 0)$  jeweils mit der Wahrscheinlichkeit  $0.3$,
  • $(+1,\ +\hspace{-0.09cm}1)$  sowie $(-1,\ -\hspace{-0.09cm}1)$  jeweils mit der Wahrscheinlichkeit  $0.2$.


$\rm (A)$  Die Varianzen bzw. die Streuungen können aus   $f_{X}(x)$  und  $f_{Y}(y)$  berechnet werden:

$$\sigma_X^2 = 2 \cdot \big [0.2 \cdot 1^2 + 0.3 \cdot 0.5^2 \big] = 0.55\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_X = 0.7416,$$
$$\sigma_Y^2 = \big [0.2 \cdot (-1)^2 + 0.6 \cdot 0^2 +0.2 \cdot (+1)^2 \big] = 0.4\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_Y = 0.6325.$$

$\rm (B)$  Für die Kovarianz ergibt sich der folgende Erwartungswert:

$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$

$\rm (C)$  Damit erhält man für den Korrelationskoeffizienten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528. $$


Eigenschaften der Regressionsgeraden

Gaußsche 2D-WDF mit Korrelationsgerade  $K$

Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen  $X$  und  $Y$  anzugeben, deren $\text{2D-WDF}$  $f_{XY}(x, y)$  durch Punkte  $(x_1, y_1 )$  ...  $(x_N, y_N )$  in der  $(x,\ y)$–Ebene vorgegeben ist.  Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen: 

Gesucht ist die Gleichung der Geraden  $K$  ⇒   $y=c_{\rm opt} \cdot x$  mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als  Korrelationsgerade. Diese kann als eine Art  „statistische Symmetrieachse“  interpretiert werden.

Bei einer großen Menge  $N$  empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter  $C = c_{\rm opt}$  zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in  $x$– oder in  $y$–Richtung definiert.

Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade  $K$  identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien  (siehe Abschnitt 2.3).


$\text{(a)}\hspace{0.5cm} \text{Regressionsgerade }R_{Y \to X}$     (rote Gerade in der App)

Hier wird der  $y$–Wert auf den  $x$–Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen "Zurückfallen" des Wortes "Regression" entspricht.

  • Geradengleichung,  Winkel  $\theta_{Y \to X}$  der Geraden  $R_{Y \to X}$  zur  $x$–Achse:
$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung ist minimal:
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
Die zweite Gleichung gilt nur, wenn alle Punkte  $(x_n, y_n )$  der 2D–WDF gleichwahrscheinlich sind.


$\text{(b)}\hspace{0.5cm} \text{Regressionsgerade }R_{X \to Y}$     (blaue Gerade in der App)

Die Regression in Gegenrichtung  $($also von  $X$  auf  $Y)$  bedeutet dagegen, dass der $x$–Wert auf den $y$–Wert zurückgeführt wird.  Für  ${\rm MQA}_X$  ergibt sich der minimale Wert.

  • Geradengleichung,  Winkel  $\theta_{X \to Y}$  der Geraden  $R_{X \to Y}$  zur   $x$–Achse:
$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden  $R_{X \to Y}$  in  $x$–Richtung ist minimal:
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
Die beiden Regressionsgeraden

$\text{Beispiel 2:}$  Es gelten die gleichen Voraussetzungen wie im  $\text{Beispiel 1}$  und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.

In der oberen Grafik ist die Regressionsgerade  $R_{X \to Y}$  als blaue Kurve eingezeichnet:

  • Hierfür ergibt sich  $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1$  und dementsprechend  $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
  • Für den mittleren Abstand aller vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{X \to Y}$  in  $x$–Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
  • Jede Gerade mit einem anderen Winkel als  $45^\circ$  führt hier zu einem größeren  ${\rm MQA}_X$.


Betrachten wir nun die rote Regressionsgerade  $R_{Y \to X}$  in der unteren Grafik.

  • Hierfür ergibt sich  $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$  und  $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
  • Hier ist nun der mittlere Abstand der vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$

Die im Text erwähnte "Korrelationsgerade" mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.

Der Sonderfall Gaußscher 2D–Zufallsgrößen

Im Sonderfall einer mittelwertfreien   Gaußschen 2–Zufallsgröße  $(X,\ Y)$  lautet die Verbundwahrscheinlichkeitsdichtefunktion:

$$f_{XY}(x,y)=\frac{\rm 1}{\rm 2\it\pi \cdot \sigma_X \cdot \sigma_Y \cdot \sqrt{\rm 1-\rho_{\it XY}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 \cdot(1-\it\rho_{XY}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_X^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_Y^{\rm 2}}-\rm 2\cdot\it\rho_{XY}\cdot\frac{x \cdot y}{\sigma_X \cdot \sigma_Y}\rm ) \rm \Bigg].$$
  • Ersetzt man  $x$  durch  $(x - m_X)$  sowie  $y$  durch  $(y- m_Y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
  • Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{X}(x)$  und $f_{Y}(y)$  einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen  $σ_X$  bzw.  $σ_Y$.
  • Bei unkorrelierten Komponenten  $X$  und  $Y$  muss in obiger Gleichung  $ρ_{XY} = 0$  eingesetzt werden,  und man erhält dann das Ergebnis:
$K$,  $R_{Y \to X}$  und  $R_{X \to Y}$  bei Gaußschen 2D–Zufallsgrößen
$$f_{XY}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{X}} \cdot\rm e^{-\it {x^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{X}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it Y}}\cdot e^{-\it {y^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{Y}^{\rm 2}} {\rm )}} = \it f_{X} \rm ( \it x \rm ) \cdot \it f_{Y} \rm ( \it y \rm ) .$$
  • Bei korrelierten Komponenten  $X$  und  $Y$   ⇒   $ρ_{XY} \ne 0$  sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade  $K$  ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
$$\theta_{\rm K} = {1}/{2} \cdot {\rm arctan } \ ( 2 \cdot \rho_{XY} \cdot \frac {\sigma_X \cdot \sigma_Y}{\sigma_X^2 - \sigma_Y^2}).$$
  • Die (rote) Regressionsgerade  $R_{Y \to X}$  einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.  Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
  • In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.  Die (blaue) Regressionsgerade  $R_{X \to Y}$  ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.



Versuchsdurchführung

Exercises binomial fertig.png
  • Wählen Sie zunächst die Nummer 1 ... 6 der zu bearbeitenden Aufgabe.
  • Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
  • Lösung nach Drücken von "Musterlösung".
  • Die Nummer  0  entspricht einem "Reset":  Gleiche Einstellung wie beim Programmstart.


In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:

  • Rot:     Regressionsgerade  $R_{Y \to X}$  (im Applet rot gezeichnet),
  • Blau:   Regressionsgerade  $R_{X \to Y}$  (im Applet blau gezeichnet).


(1)  Mit welcher Parametereinstellung sind die beiden Regressionsgeraden  $R_{Y \to X}$  und  $R_{X \to Y}$  deckungsgleich?

  •  Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel  $45^\circ$  verlaufen   ⇒   "Winkelhalbierende".
  •  Da die fest vorgegebenen Punkte  $3$  und  $4$  auf der Winkelhalbierenden liegen, muss dies auch für die Punkte  $1$  und  $2$  gelten   ⇒   $y_1 = x_1$.
  •  Dies gilt für alle Parametereinstellungen  $y_1 = x_1$  und auch für alle  $p_1$  im erlaubten Bereich von   $0$  bis  $0.5$.

(2)  Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$  Interpretieren Sie die Ergebnisse.  Aktivieren Sie hierzu die Hilfsgerade.

  •  Diese Einstellung stimmt mit den Voraussetzungen zu  $\text{Beispiel 1}$  und  $\text{Beispiel 2}$  überein.  Insbesondere gilt  $ \theta_{X \to Y}= 45^\circ$  und  $ \theta_{Y \to X}\approx 36^\circ$.
  •  Durch Variation des Winkels  $ \theta_{\rm HG}$  erkennt man, dass für  $ \theta_{\rm HG}= 45^\circ$  die Kenngröße  ${\rm MQA}_X =0.15$  tatsächlich den kleinsten Wert annimmt.
  •  Ebenso ergibt sich der kleinstmögliche Abstand  ${\rm MQA}_Y =0.109$  in  $y$–Richtung für  $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden  $R_{Y \to X}$.

(3)  Es gelten zunächst weiter die Einstellungen von  (2).  Wie ändern sich die Ergebnisse nach Variation von  $p_1$  im erlaubten Bereich  $(0\le p_1 \le 0.5)$?

  •  Die blaue Regressionsgerade  $ R_{X \to Y}$  verläuft weiter unter dem Winkel  $ \theta_{X \to Y}= 45^\circ$   ⇒   es gilt hier  $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von  $p_1 < 0.5$.
  •  Im Grenzfall  $p_1 = 0.5$  ist wegen  $\sigma_Y =0$  die blaue Regressionsgerade undefiniert.  Es handelt sich nurmehr um eine 1D–Zufallsgröße  $X$.
  •  Mit  $p_1=0$  sind nur die äußeren Punkte  $3$  und  $4$  wirksam   ⇒   $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,  mit  $p_1=0.5$  nur die inneren Punkte  ⇒   $ \theta_{Y \to X}= 0^\circ$.
  •  Dazwischen wird  $ R_{Y \to X}$  kontinuierlich flacher.  Sind alle Punkte gleichwahrscheinlich  $(p_1=0.25)$, dann ist  $\theta_{Y \to X}\approx 38.7^\circ$.

(4)  Nun gelte  $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.  Variieren Sie  $0\le p_1 < 0.5$  und interpretieren Sie die Ergebnisse.  $(p_1 = 0.5$  sollte man ausschließen$)$.

  •  Wegen  $\sigma_X \le \sigma_Y$  liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle  $p_1 \ne 0.5$  die Winkelhalbierende ist   ⇒   $ \theta_{Y \to X}\approx 45^\circ$.
  •  Der Winkel der blauen Regressionsgerade wächst von  $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$  bis  $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$  kontinuierlich an.

(5)  Beginnen Sie mit  $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$  und vergrößern Sie  $y_1$  bis zum Endwert  $y_1 = +0.8$.  Interpretieren Sie die Ergebnisse.

  •  Für  $y_1 =-0.8$  ist  $ \theta_{X \to Y}= 77.6^\circ$  und  $ \theta_{Y \to X}= 12.4^\circ$.  Mit steigendem  $y_1$  verläuft  $ R_{X \to Y}$  (blau) flacher und  $R_{Y \to X}$  (rot) steiler.
  •  Im Endpunkt  $(y_1 = +0.8)$  verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel  $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.

(6)  Abschließend gelte  $x_1 = +1,\ y_1 = -1$.  Variieren Sie  $p_1$  im gesamten zulässigen Bereich  $0\le p_1 \le 0.5$.  Wann sind  $X$  und  $Y$  unkorreliert?

  •  Für  $p_1 = 0$  gilt  $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$  Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
  •  Für  $p_1 = 0.25$  sind die Winkel  $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$  Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen   ⇒   $\mu_{XY}=0$.
  •  Anschließend drehen beide Geraden weiter in gleicher Richtung.  Für  $p_1 = 0.5$  gilt schließlich:  $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$


Zur Handhabung des Applets

Anleitung korrelation version2.png






    (A)     Einstellung der  $x$–Koordinaten für  (1)  und  (2)

    (B)     Einstellung der  $y$–Koordinaten für  (1)  und  (2)

    (C)     Einstellung der  Wahrscheinlichkeiten aller Punkte

    (D)     Hilfsgerade mit Winkel  $\theta_{\rm HG}$  einblenden

    (E)     Ausgabe der  $\rm MQA$–Werte für Regressions– und Hilfsgerade

    (F)     Numerikausgabe der statistischen Kenngrößen

    (G)     Grafikbereich zur Darstellung der Regressionsgeraden

    (H)     Bereich für Übungen:  Aufgabenauswahl, Fragen, Musterlösungen

Über die Autoren

Dieses interaktive Berechnungstool wurde am Lehrstuhl für Nachrichtentechnik der Technischen Universität München konzipiert und realisiert.

Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster

Open Applet in a new tab