Difference between revisions of "Applets:Korrelation und Regressionsgerade"

From LNTwww
m (Text replacement - "„" to """)
 
(33 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{LntAppletLink|verteilungen}}  
+
{{LntAppletLink|correlation}}  
  
 
==Programmbeschreibung==
 
==Programmbeschreibung==
 
<br>
 
<br>
 +
Als einfaches Beispiel einer 2D-Zufallsgröße&nbsp; $(X, Y)$&nbsp; betrachten wir den Fall, dass diese nur vier Werte annehmen kann:
 +
*Punkt&nbsp; $1$&nbsp; bei&nbsp; $(x_1, \ y_1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_1$: &nbsp; Die Parameter&nbsp; $x_1, \ y_1, \ p_1$&nbsp; sind im Applet per Slider einstellbar.
 +
*Punkt&nbsp; $2$&nbsp; bei&nbsp; $(x_2, \ y_2)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_2$: &nbsp; Die Parameter liegen durch den Punkt&nbsp; $1$&nbsp; fest: &nbsp; $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
 +
*Punkt&nbsp; $3$&nbsp; bei&nbsp; $(+1, +1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_3 = 0.5-p_1$: &nbsp; Die Lage dieses Punktes ist im Applet fest vorgegeben.
 +
*Punkt&nbsp; $4$&nbsp; bei&nbsp; $(-1, -1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_4 = p_3$: &nbsp; Dieser Punkt liegt ebenso wie der Punkt&nbsp; $3$&nbsp; auf der Winkelhalbierenden.
 +
 +
 +
Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:
 +
* Die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; unter dem Winkel&nbsp; $\theta_{X \to Y}$ &nbsp; &rArr; &nbsp; blaue Kurve,
 +
* die Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; unter dem Winkel&nbsp; $\theta_{Y \to X}$ &nbsp; &rArr; &nbsp; rote Kurve, 
 +
* eine Hilfsgerade&nbsp; "$\rm (HG)$" unter dem Winkel&nbsp; $\theta_{\rm HG}$ &nbsp; &rArr; &nbsp; grüne Kurve, optional.   
 +
 +
 +
Als Zahlenwerte werden die zur Berechnung von&nbsp; $\theta_{X \to Y}$&nbsp; und&nbsp; $\theta_{Y \to X}$&nbsp; benötigten statistischen Kenngrößen ausgegeben:
 +
* die Streuungen (Standardabweichungen)&nbsp; $\sigma_X$&nbsp; und&nbsp; $\sigma_Y$&nbsp; der Komponenten&nbsp; $X$&nbsp; bzw.&nbsp; $Y$,
 +
*die Kovarianz&nbsp; $\mu_{XY}$&nbsp; &rArr; &nbsp; Zentralmoment erster Ordnung der 2D-Zufallsgröße&nbsp; $(X, Y)$,
 +
*der Korrelationskoeffizient&nbsp; $\rho_{XY}$&nbsp; zwischen den 2D-Zufallsgröße&nbsp; $X$&nbsp; und&nbsp; $Y$.
 +
 +
 +
Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in $x$&ndash; und $y$&ndash;Richtung zu dieser lässt sich nachvollziehen, dass
 +
 +
* die rote Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; die Eigenschaft hat, dass der mittlere quadrische Abstand  aller Punkte in&nbsp; $y$&ndash;Richtung &nbsp; &rArr; &nbsp; ${\rm MQA}_Y$&nbsp; von dieser  minimal ist,
 +
* während für die blaue Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; der mittlere quadrische Abstand aller Punkte in&nbsp; $x$&ndash;Richtung &nbsp; &rArr; &nbsp; ${\rm MQA}_X$&nbsp; zum Minimum führt.
 +
 +
 +
  
  
Line 23: Line 49:
 
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] =  \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$
 
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] =  \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$
  
Bei statististischer Unabhängigkeit der beiden Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist die Kovarianz&nbsp; $\mu_{XY} \equiv 0$.&nbsp;  
+
Bei statistischer Unabhängigkeit der beiden Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist die Kovarianz&nbsp; $\mu_{XY} \equiv 0$.&nbsp;  
  
 
*Das Ergebnis&nbsp; $\mu_{XY} = 0$&nbsp; ist auch bei statistisch abhängigen Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.  
 
*Das Ergebnis&nbsp; $\mu_{XY} = 0$&nbsp; ist auch bei statistisch abhängigen Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.  
Line 51: Line 77:
  
  
[[File:Korrelation_1a.png|right|frame| 2D-WDF&nbsp; $f_{XY}(x, y)$&nbsp; sowie die zugehörigen Randwahrscheinlichkeitsdichten&nbsp; $f_{X}(x)$&nbsp; und&nbsp; $f_{Y}(y)$]]
+
[[File:Korrelation_1c.png|right|frame| 2D-WDF&nbsp; $f_{XY}(x, y)$&nbsp; sowie die zugehörigen Randwahrscheinlichkeitsdichten&nbsp; $f_{X}(x)$&nbsp; und&nbsp; $f_{Y}(y)$]]
 
{{GraueBox|TEXT=   
 
{{GraueBox|TEXT=   
 
$\text{Beispiel 1:}$&nbsp;  Die 2D&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; sei diskret und kann nur vier verschiedene Werte annehmen:
 
$\text{Beispiel 1:}$&nbsp;  Die 2D&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; sei diskret und kann nur vier verschiedene Werte annehmen:
Line 65: Line 91:
 
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$
 
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$
  
$\rm (C)$&nbsp; Damit erhält man für den Korrelationskoeffizient:
+
$\rm (C)$&nbsp; Damit erhält man für den Korrelationskoeffizienten:
 
:$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528.
 
:$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528.
 
$$}}
 
$$}}
 
<br clear=all>
 
<br clear=all>
  
===Regressionsgerade===
+
===Eigenschaften der Regressionsgeraden===
[[File: P_ID1089__Sto_T_4_1_S7b_neu.png |frame| Gaußsche 2D-WDF mit Korrelationsgerade]]
+
[[File:Korrelation_5_neu.png|frame|Gaußsche 2D-WDF mit Korrelationsgerade&nbsp; $K$]]
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; zu anzugeben, deren $\text{2D-WDF}$&nbsp; $f_{XY}(x, y)$&nbsp; durch Punkte &nbsp;$(x_1, y_1 )$&nbsp; ... &nbsp;$(x_N, y_N )$&nbsp; in der&nbsp; $(x,\ y)$&ndash;Ebene vorgegeben ist. Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen:&nbsp; Gesucht ist die Gleichung der Geraden&nbsp; $K$&nbsp; &rArr; &nbsp; $y=c_{\rm opt} \cdot x$&nbsp; mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als&nbsp; ''Korrelationsgerade''. Diese kann als eine  Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden.  
+
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; anzugeben, deren $\text{2D-WDF}$&nbsp; $f_{XY}(x, y)$&nbsp; durch Punkte &nbsp;$(x_1, y_1 )$&nbsp; ...&nbsp; $(x_N, y_N )$&nbsp; in der&nbsp; $(x,\ y)$&ndash;Ebene vorgegeben ist.&nbsp; Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen:&nbsp;  
 +
:Gesucht ist die Gleichung der Geraden&nbsp; $K$&nbsp; &rArr; &nbsp; $y=c_{\rm opt} \cdot x$&nbsp; mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als&nbsp; ''Korrelationsgerade''. Diese kann als eine  Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden.  
  
Bei einer großen Datenmenge&nbsp; $N$&nbsp; ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter&nbsp; $C = c_{\rm opt}$&nbsp; zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in&nbsp; $x$&ndash; oder in&nbsp; $y$&ndash;Richtung definiert.
+
Bei einer großen Menge&nbsp; $N$&nbsp; empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter&nbsp; $C = c_{\rm opt}$&nbsp; zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in&nbsp; $x$&ndash; oder in&nbsp; $y$&ndash;Richtung definiert.
  
$\text{(a)}\hspace{0.5cm}  \text{Regressionsgerade }R_{y \to x}$ &nbsp; &nbsp; (rote Gerade in der App)
+
Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade&nbsp; $K$&nbsp; identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien&nbsp; (siehe [[Applets:Korrelation_und_Regressionsgerade#Der_Sonderfall_Gau.C3.9Fscher_2D.E2.80.93Zufallsgr.C3.B6.C3.9Fen|Abschnitt 2.3]]).
 +
 
 +
 
 +
$\text{(a)}\hspace{0.5cm}  \text{Regressionsgerade }R_{Y \to X}$ &nbsp; &nbsp; (rote Gerade in der App)
 
   
 
   
Der&nbsp;$y$&ndash;Wert wird auf den&nbsp;$x$&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen &bdquo;Zurückfallen&rdquo; des Wortes &bdquo;Regression&rdquo; entspricht.
+
Hier wird der&nbsp; $y$&ndash;Wert auf den&nbsp; $x$&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen "Zurückfallen" des Wortes "Regression" entspricht.
  
*Geradengleichung,&nbsp; Winkel&nbsp; $\theta_{y \to x}$&nbsp; der Geraden&nbsp; $R_{y \to x}$&nbsp; zur &nbsp; $x$&ndash;Achse:
+
*'''Geradengleichung''',&nbsp; Winkel&nbsp; $\theta_{Y \to X}$&nbsp; der Geraden&nbsp; $R_{Y \to X}$&nbsp; zur&nbsp; $x$&ndash;Achse:
:$$y=C_{y \to x} \cdot x \ \ \text{mit} \ \ C_{y \to x}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{y\hspace{0.05cm}\rightarrow \hspace{0.05cm}x}={\rm arctan}\ (C_{y \to x}).$$
+
:$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
*Kriterium:&nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{y \to x}$&nbsp; in&nbsp; $y$&ndash;Richtung ist minimal:  
+
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{Y \to X}$&nbsp; in&nbsp; $y$&ndash;Richtung ist minimal:  
:$${\rm MQA}_y = {\rm E} \big [ y_n - C_{y \to x} \cdot x_n\big ]^2 = \overline{\varepsilon_y^{\rm 2} }=\frac{\rm 1}{N} \cdot \sum_{\nu=\rm 1}^{N}\; \;\big [y_n - C_{y \to x} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
+
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
 
:Die zweite Gleichung gilt nur, wenn alle Punkte&nbsp; $(x_n, y_n )$&nbsp; der 2D&ndash;WDF gleichwahrscheinlich sind.
 
:Die zweite Gleichung gilt nur, wenn alle Punkte&nbsp; $(x_n, y_n )$&nbsp; der 2D&ndash;WDF gleichwahrscheinlich sind.
  
  
$\text{(b)}\hspace{0.5cm}  \text{Regressionsgerade }R_{x \to y}$ &nbsp; &nbsp; (blaue Gerade in der App)
+
$\text{(b)}\hspace{0.5cm}  \text{Regressionsgerade }R_{X \to Y}$ &nbsp; &nbsp; (blaue Gerade in der App)
 
Der&nbsp;$y$&ndash;Wert wird auf den&nbsp;$x$&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen &bdquo;Zurückfallen&rdquo; des Wortes &bdquo;Regression&rdquo; entspricht.
 
  
*Geradengleichung,&nbsp; Winkel&nbsp; $\theta_{y \to x}$&nbsp; der Geraden&nbsp; $R_{y \to x}$&nbsp; zur &nbsp; $x$&ndash;Achse:
+
Die Regression in Gegenrichtung&nbsp; $($also von&nbsp; $X$&nbsp; auf&nbsp; $Y)$&nbsp; bedeutet dagegen, dass der&nbsp;$x$&ndash;Wert auf den&nbsp;$y$&ndash;Wert zurückgeführt wird.&nbsp; Für&nbsp; ${\rm MQA}_X$&nbsp; ergibt sich der minimale Wert.   
:$$y=C_{y \to x} \cdot x \ \ \text{mit} \ \ C_{y \to x}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{y\hspace{0.05cm}\rightarrow \hspace{0.05cm}x}={\rm arctan}\ (C_{y \to x}).$$
 
*Kriterium:&nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{y \to x}$&nbsp; in&nbsp; $y$&ndash;Richtung ist minimal:
 
:$${\rm MQA}_y = {\rm E} \big [ y_n - C_{y \to x} \cdot x_n\big ]^2 = \overline{\varepsilon_y^{\rm 2} }=\frac{\rm 1}{N} \cdot \sum_{\nu=\rm 1}^{N}\; \;\big [y_n - C_{y \to x} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
 
:Die zweite Gleichung gilt nur, wenn alle Punkte&nbsp; $(x_n, y_n )$&nbsp; der 2D&ndash;WDF gleichwahrscheinlich sind.   
 
Wir betrachten eine zweidimensionale&nbsp; $\rm (2D)$&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; mit der Wahrscheinlichkeitsdichtefunktion&nbsp; $\rm (WDF)$&nbsp; $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; statistische Abhängigkeiten bestehen.&nbsp;  Ein Sonderfall ist die ''Korrelation''.
 
[[File: P_ID1089__Sto_T_4_1_S7b_neu.png  |frame| Gaußsche 2D-WDF mit Korrelationsgerade]]
 
{{BlaueBox|TEXT=  
 
$\text{Definition:}$&nbsp; Als&nbsp; '''Korrelationsgerade'''&nbsp; bezeichnet man  die Gerade&nbsp; $y = K(x)$&nbsp;  in der&nbsp; $(x, y)$&ndash;Ebene durch den „Mittelpunkt”&nbsp; $(m_x, m_y)$. Manchmal wird diese Gerade auch&nbsp;  ''Regressionsgerade''&nbsp; genannt.
 
  
Die Korrelationsgerade besitzt folgende Eigenschaften:   
+
*'''Geradengleichung''',&nbsp; Winkel&nbsp; $\theta_{X \to Y}$&nbsp; der Geraden&nbsp; $R_{X \to Y}$&nbsp; zur &nbsp; $x$&ndash;Achse:
 +
:$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
 +
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden&nbsp; $R_{X \to Y}$&nbsp; in&nbsp; $x$&ndash;Richtung ist minimal:
 +
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
 +
 
 +
[[File:Korrelation_5a.png|right|frame| Die beiden Regressionsgeraden]]
 +
{{GraueBox|TEXT= 
 +
$\text{Beispiel 2:}$&nbsp; Es gelten die gleichen Voraussetzungen wie im&nbsp; $\text{Beispiel 1}$&nbsp; und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.
  
*Die mittlere quadratische Abweichung von dieser Geraden – in&nbsp; $y$&ndash;Richtung betrachtet und über alle&nbsp; $N$&nbsp; Punkte gemittelt – ist minimal:  
+
In der oberen Grafik ist die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; als blaue Kurve eingezeichnet:
:$$\overline{\varepsilon_y^{\rm 2} }=\frac{\rm 1}{N} \cdot \sum_{\nu=\rm 1}^{N}\; \;\big [y_\nu - K(x_{\nu})\big ]^{\rm 2}={\rm Minimum}.$$
+
* Hierfür ergibt sich&nbsp; $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1$&nbsp; und dementsprechend&nbsp; $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
*Die Korrelationsgerade kann als eine Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden. Die Geradengleichung lautet:
+
*Für den mittleren Abstand aller vier Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{X \to Y}$&nbsp; in&nbsp; $x$&ndash;Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):  
:$$y=K(x)=\frac{\sigma_y}{\sigma_x}\cdot\rho_{xy}\cdot(x - m_x)+m_y.$$}}
+
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
 +
*Jede Gerade mit einem anderen Winkel als&nbsp; $45^\circ$&nbsp; führt hier zu einem größeren&nbsp; ${\rm MQA}_X$.
  
  
Der Winkel, den die Korrelationsgerade zur&nbsp; $x$&ndash;Achse einnimmt, beträgt:
+
Betrachten wir nun die rote Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; in der unteren Grafik.
:$$\theta_{y\hspace{0.05cm}\rightarrow \hspace{0.05cm}x}={\rm arctan}\ (\frac{\sigma_{y} }{\sigma_{x} }\cdot \rho_{xy}).$$
+
* Hierfür ergibt sich&nbsp; $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$&nbsp; und&nbsp; $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
 +
*Hier ist nun der mittlere Abstand der vier Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{Y \to X}$&nbsp; in&nbsp; $y$&ndash;Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
 +
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$
  
Durch diese Nomenklatur soll deutlich gemacht werden, dass es sich hier um die Regression von&nbsp; $y$&nbsp; auf&nbsp; $x$&nbsp; handelt.  
+
Die im Text erwähnte  "Korrelationsgerade" mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.}}
  
*Die Regression in Gegenrichtung – also von&nbsp; $x$&nbsp; auf&nbsp; $y$ – bedeutet dagegen die Minimierung der mittleren quadratischen Abweichung in&nbsp; $x$–Richtung.
+
===Der Sonderfall Gaußscher 2D&ndash;Zufallsgrößen===
  
*Das interaktive Applet&nbsp; [[Applets:Korrelationskoeffizient_%26_Regressionsgerade|Korrelationskoeffizient und Regressionsgerade]]&nbsp; verdeutlicht, dass sich im Allgemeinen&nbsp; $($falls&nbsp; $σ_y \ne σ_x)$&nbsp; für die Regression von&nbsp; $x$&nbsp; auf&nbsp; $y$&nbsp; ein anderer Winkel und damit auch eine andere Regressionsgerade ergeben wird:  
+
Im Sonderfall einer mittelwertfreien &nbsp; [[Theory_of_Stochastic_Signals/Zweidimensionale_Gaußsche_Zufallsgrößen|Gaußschen 2&ndash;Zufallsgröße]]&nbsp; $(X,\ Y)$&nbsp; lautet die Verbundwahrscheinlichkeitsdichtefunktion:
:$$\theta_{x\hspace{0.05cm}\rightarrow \hspace{0.05cm} y}={\rm arctan}\ (\frac{\sigma_{x}}{\sigma_{y}}\cdot \rho_{xy}).$$
+
:$$f_{XY}(x,y)=\frac{\rm 1}{\rm 2\it\pi \cdot \sigma_X \cdot \sigma_Y \cdot \sqrt{\rm 1-\rho_{\it XY}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 \cdot(1-\it\rho_{XY}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_X^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_Y^{\rm 2}}-\rm 2\cdot\it\rho_{XY}\cdot\frac{x \cdot y}{\sigma_X \cdot \sigma_Y}\rm ) \rm \Bigg].$$
 +
*Ersetzt man&nbsp;  $x$&nbsp; durch&nbsp; $(x - m_X)$&nbsp; sowie&nbsp; $y$&nbsp; durch&nbsp; $(y- m_Y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
 +
*Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{X}(x)$&nbsp; und $f_{Y}(y)$&nbsp; einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen&nbsp; $σ_X$&nbsp; bzw.&nbsp; $σ_Y$.
 +
*Bei unkorrelierten Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; muss in obiger Gleichung&nbsp; $ρ_{XY} = 0$&nbsp; eingesetzt werden,&nbsp; und man erhält dann das Ergebnis:
 +
[[File:Korrelation_7a.png|right|frame| $K$,&nbsp; $R_{Y \to X}$&nbsp; und&nbsp; $R_{X \to Y}$&nbsp; bei Gaußschen 2D&ndash;Zufallsgrößen]]
 +
:$$f_{XY}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{X}} \cdot\rm e^{-\it {x^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{X}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it Y}}\cdot e^{-\it {y^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{Y}^{\rm 2}} {\rm )}} = \it  f_{X} \rm (  \it  x \rm ) \cdot \it  f_{Y} \rm ( \it  y \rm ) .$$
 +
 +
*Bei korrelierten Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$ &nbsp; &rArr; &nbsp; $ρ_{XY} \ne 0$&nbsp; sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade&nbsp; $K$&nbsp; ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
 +
:$$\theta_{\rm K} = {1}/{2} \cdot {\rm arctan } \ ( 2 \cdot \rho_{XY} \cdot \frac {\sigma_X \cdot \sigma_Y}{\sigma_X^2 - \sigma_Y^2}).$$
  
 +
*Die (rote) Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.&nbsp; Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
 +
* In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.&nbsp; Die (blaue) Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.
 +
<br clear=all>
  
  
Line 126: Line 167:
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
*Lösung nach Drücken von &bdquo;Hide solution&rdquo;.
+
*Lösung nach Drücken von "Musterlösung".
*Aufgabenstellung und Lösung in Englisch.  
+
*Die Nummer&nbsp; '''0'''&nbsp; entspricht einem "Reset":&nbsp; Gleiche Einstellung wie beim Programmstart.
  
  
Die Nummer '''0''' entspricht einem &bdquo;Reset&rdquo;:
+
In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:
*Gleiche Einstellung wie beim Programmstart.
+
*'''Rot''': &nbsp; &nbsp; Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; (im Applet rot gezeichnet),
*Ausgabe eines &bdquo;Reset&ndash;Textes&rdquo; mit weiteren Erläuterungen zum Applet.
+
*'''Blau''': &nbsp; Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; (im Applet blau gezeichnet).
 
 
 
 
In der folgenden Beschreibung bedeutet
 
*'''Blau''': &nbsp; Verteilungsfunktion 1 (im Applet blau markiert),
 
*'''Rot''': &nbsp; &nbsp; Verteilungsfunktion 2 (im Applet rot markiert).
 
  
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(1)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=5, \ p=0.4)$ und '''Rot''': Binomialverteilung $(I=10, \ p=0.2)$.
+
'''(1)'''&nbsp; Mit welcher Parametereinstellung sind die beiden Regressionsgeraden&nbsp; $R_{Y \to X}$&nbsp; und&nbsp; $R_{X \to Y}$&nbsp; deckungsgleich?}}
:Wie lauten die Wahrscheinlichkeiten ${\rm Pr}(z=0)$ und ${\rm Pr}(z=1)$?}}
 
  
 
+
::*&nbsp;Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel&nbsp;  $45^\circ$&nbsp; verlaufen &nbsp; &rArr; &nbsp; "Winkelhalbierende".
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Blau: }{\rm Pr}(z=0)=0.6^5=7.78\%, \hspace{0.3cm}{\rm Pr}(z=1)=0.4 \cdot 0.6^4=25.92\%;$
+
::*&nbsp;Da die fest vorgegebenen Punkte&nbsp; $3$&nbsp; und&nbsp; $4$&nbsp; auf der Winkelhalbierenden liegen, muss dies auch für die Punkte&nbsp; $1$&nbsp; und&nbsp; $2$&nbsp; gelten &nbsp; &rArr; &nbsp; $y_1 = x_1$.
 
+
::*&nbsp;Dies gilt für alle Parametereinstellungen&nbsp; $y_1 = x_1$&nbsp; und auch für alle&nbsp; $p_1$&nbsp; im erlaubten Bereich von &nbsp; $0$&nbsp; bis&nbsp; $0.5$.  
$\hspace{1.85cm}\text{Rot: }{\rm Pr}(z=0)=0.8^10=10.74\%, \hspace{0.3cm}{\rm Pr}(z=1)=0.2 \cdot 0.8^9=26.84\%.$
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(2)'''&nbsp; Es gelten weiter die Einstellungen von '''(1)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(3 \le z \le 5)$?}}
+
'''(2)'''&nbsp; Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$&nbsp; Interpretieren Sie die Ergebnisse.&nbsp; Aktivieren Sie hierzu die Hilfsgerade. }}
  
 
+
::*&nbsp;Diese Einstellung stimmt mit den Voraussetzungen zu&nbsp; $\text{Beispiel 1}$&nbsp; und&nbsp; $\text{Beispiel 2}$&nbsp; überein.&nbsp; Insbesondere gilt&nbsp; $ \theta_{X \to Y}= 45^\circ$&nbsp; und &nbsp;$ \theta_{Y \to X}\approx 36^\circ$.
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Es gilt }{\rm Pr}(3 \le z \le 5) = {\rm Pr}(z=3) + {\rm Pr}(z=4) + {\rm Pr}(z=5)\text{, oder }
+
::*&nbsp;Durch Variation des Winkels&nbsp; $ \theta_{\rm HG}$&nbsp; erkennt man, dass für&nbsp; $ \theta_{\rm HG}= 45^\circ$&nbsp;  die Kenngröße&nbsp; ${\rm MQA}_X =0.15$&nbsp; tatsächlich den kleinsten Wert annimmt.
{\rm Pr}(3 \le z \le 5) = {\rm Pr}(z \le 5) - {\rm Pr}(z \le 2)$.
+
::*&nbsp;Ebenso ergibt sich der kleinstmögliche Abstand&nbsp; ${\rm MQA}_Y =0.109$&nbsp; in&nbsp; $y$&ndash;Richtung  für&nbsp; $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden&nbsp; $R_{Y \to X}$.  
 
 
$\hspace{1.85cm}\text{Blau: }{\rm Pr}(3 \le z \le 5) = 0.2304+ 0.0768 + 0.0102 =1 - 0.6826 = 0.3174;$
 
 
 
$\hspace{1.85cm}\text{Rot: }{\rm Pr}(3 \le z \le 5) = 0.2013 + 0.0881 + 0.0264 = 0.9936 - 0.6778 = 0.3158.$
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(3)'''&nbsp; Es gelten weiter die Einstellungen von '''(1)'''. Wie unterscheiden sich der Mittelwert $m_1$ und die Streuung $\sigma$ der beiden Binomialverteilungen?}}
+
'''(3)'''&nbsp; Es gelten zunächst weiter die Einstellungen von&nbsp; '''(2)'''.&nbsp; Wie ändern sich die Ergebnisse nach Variation von&nbsp; $p_1$&nbsp; im erlaubten Bereich&nbsp; $(0\le p_1 \le 0.5)$?}}
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Mittelwert:}\hspace{0.2cm}m_\text{1} = I \cdot p\hspace{0.3cm} \Rightarrow\hspace{0.3cm} m_\text{1, Blau}  = 5 \cdot 0.4\underline{ = 2 =} \ m_\text{1, Rot} = 10 \cdot 0.2; $
 
  
$\hspace{1.85cm}\text{Streuung:}\hspace{0.4cm}\sigma = \sqrt{I \cdot p \cdot (1-p)} = \sqrt{m_1 \cdot (1-p)}\hspace{0.3cm}\Rightarrow\hspace{0.3cm} \sigma_{\rm Blau} = \sqrt{2 \cdot 0.6} =1.095 < \sigma_{\rm Rot} = \sqrt{2 \cdot 0.8} = 1.265.$
+
::*&nbsp;Die blaue Regressionsgerade&nbsp; $ R_{X \to Y}$&nbsp; verläuft weiter unter dem Winkel&nbsp; $ \theta_{X \to Y}= 45^\circ$ &nbsp; &rArr; &nbsp; es gilt hier&nbsp; $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von&nbsp; $p_1 < 0.5$.
 +
::*&nbsp;Im Grenzfall&nbsp; $p_1 = 0.5$&nbsp; ist wegen&nbsp; $\sigma_Y =0$&nbsp; die blaue Regressionsgerade undefiniert.&nbsp; Es handelt sich nurmehr um eine 1D&ndash;Zufallsgröße&nbsp; $X$. 
 +
::*&nbsp;Mit&nbsp; $p_1=0$&nbsp; sind nur die äußeren Punkte&nbsp; $3$&nbsp; und&nbsp; $4$&nbsp; wirksam &nbsp; &rArr; &nbsp; $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,&nbsp; mit&nbsp; $p_1=0.5$&nbsp; nur die inneren Punkte&nbsp;  &rArr; &nbsp; $ \theta_{Y \to X}= 0^\circ$.
 +
::*&nbsp;Dazwischen wird&nbsp; $ R_{Y \to X}$&nbsp; kontinuierlich flacher.&nbsp; Sind alle Punkte gleichwahrscheinlich&nbsp; $(p_1=0.25)$, dann ist&nbsp; $\theta_{Y \to X}\approx 38.7^\circ$.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(4)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=15, p=0.3)$ und '''Rot''': Poissonverteilung $(\lambda=4.5)$.
+
'''(4)'''&nbsp; Nun gelte&nbsp; $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.&nbsp; Variieren Sie&nbsp; $0\le p_1 < 0.5$&nbsp; und interpretieren Sie die Ergebnisse.&nbsp; $(p_1 = 0.5$&nbsp; sollte man ausschließen$)$.}}
:Welche Unterschiede ergeben sich  zwischen beiden Verteilungen hinsichtlich Mittelwert $m_1$ und Varianz $\sigma^2$?}}
 
  
 
+
::*&nbsp;Wegen&nbsp; $\sigma_X \le \sigma_Y$&nbsp; liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle&nbsp; $p_1 \ne 0.5$&nbsp; die Winkelhalbierende ist &nbsp; &rArr; &nbsp; $ \theta_{Y \to X}\approx 45^\circ$.
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Beide Verteilungern haben gleichen Mittelwert:}\hspace{0.2cm}m_\text{1, Blau}  =  I \cdot p\ = 15 \cdot 0.3\hspace{0.15cm}\underline{ = 4.5 =} \ m_\text{1, Rot} = \lambda$;
+
::*&nbsp;Der Winkel der blauen Regressionsgerade wächst von&nbsp; $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$&nbsp; bis&nbsp; $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$&nbsp; kontinuierlich an.
 
 
$\hspace{1.85cm} \text{Binomialverteilung: }\hspace{0.2cm} \sigma_\text{Blau}^2 = m_\text{1, Blau} \cdot (1-p)\hspace{0.15cm}\underline { = 3.15} \le \text{Poissonverteilung: }\hspace{0.2cm} \sigma_\text{Rot}^2 = \lambda\hspace{0.15cm}\underline { = 4.5}$;
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(5)'''&nbsp; Es gelten die Einstellungen von '''(4)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(z  \gt 10)$ und ${\rm Pr}(z \gt 15)$?}}
+
'''(5)'''&nbsp; Beginnen Sie mit&nbsp; $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$&nbsp; und vergrößern Sie&nbsp; $y_1$&nbsp; bis zum Endwert&nbsp; $y_1 = +0.8$.&nbsp; Interpretieren Sie die Ergebnisse.}}
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomial: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - {\rm Pr}(z  \le 10) = 1 - 0.9993 = 0.0007;\hspace{0.3cm} {\rm Pr}(z \gt 15) = 0 \ {\rm  (exakt)}$.
 
 
 
$\hspace{1.85cm}\text{Poisson: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - 0.9933 = 0.0067;\hspace{0.3cm}{\rm Pr}(z \gt 15) \gt  0 \ ( \approx 0)$
 
  
$\hspace{1.85cm} \text{Näherung: }\hspace{0.2cm}{\rm Pr}(z \gt 15) \ge {\rm Pr}(z = 16) = \lambda^{16}/{16!}\approx 2 \cdot 10^{-22}$.
+
::*&nbsp;Für&nbsp; $y_1 =-0.8$&nbsp; ist&nbsp; $ \theta_{X \to Y}= 77.6^\circ$&nbsp; und&nbsp; $ \theta_{Y \to X}= 12.4^\circ$.&nbsp; Mit steigendem&nbsp; $y_1$&nbsp; verläuft&nbsp; $ R_{X \to Y}$&nbsp; (blau) flacher und&nbsp; $R_{Y \to X}$&nbsp; (rot) steiler.
 +
::*&nbsp;Im Endpunkt&nbsp; $(y_1 = +0.8)$&nbsp; verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel&nbsp; $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(6)'''&nbsp; Es gelten weiter die Einstellungen von '''(4)'''. Mit welchen Parametern ergeben sich symmetrische Verteilungen um $m_1$?}}
+
'''(6)'''&nbsp; Abschließend gelte&nbsp; $x_1 = +1,\ y_1 = -1$.&nbsp; Variieren Sie&nbsp; $p_1$&nbsp; im gesamten zulässigen Bereich&nbsp; $0\le p_1 \le 0.5$.&nbsp; Wann sind&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; unkorreliert?}}
  
 +
::*&nbsp;Für&nbsp; $p_1 = 0$&nbsp; gilt&nbsp; $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$&nbsp; Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
 +
::*&nbsp;Für&nbsp; $p_1 = 0.25$&nbsp; sind die Winkel&nbsp; $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$&nbsp; Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen &nbsp; &rArr; &nbsp; $\mu_{XY}=0$.
 +
::*&nbsp;Anschließend drehen beide Geraden weiter in gleicher Richtung.&nbsp; Für&nbsp; $p_1 = 0.5$&nbsp; gilt schließlich:&nbsp; $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomialverung mit }p = 0.5\text{:  }p_\mu =  {\rm Pr}(z  = \mu)\text{ symmetrisch um } m_1 = I/2 = 7.5 \ ⇒  \ p_μ = p_{I–μ}\ ⇒  \  p_8 = p_7, \ p_9 = p_6,  \text{usw.}$
 
 
$\hspace{1.85cm}\text{Die Poissonverteilung wird dagegen nie symmetrisch, da sie sich bis ins Unendliche erstreckt!}$
 
  
 
==Zur Handhabung des Applets==
 
==Zur Handhabung des Applets==
[[File:Handhabung_binomial.png|left|600px]]
+
[[File:Anleitung_korrelation_version2.png|left|600px]]
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Vorauswahl für blauen Parametersatz
+
<br><br><br><br><br>
 
+
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Einstellung der&nbsp; $x$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''  
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Parametereingabe $I$ und $p$ per Slider
 
 
 
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Vorauswahl für roten Parametersatz
 
 
 
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Parametereingabe $\lambda$ per Slider
 
 
 
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Graphische Darstellung der Verteilungen
 
  
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Momentenausgabe für blauen Parametersatz
+
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Einstellung der&nbsp; $y$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''
  
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Momentenausgabe für roten Parametersatz
+
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Einstellung der&nbsp; Wahrscheinlichkeiten aller Punkte
  
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Variation der grafischen Darstellung
+
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Hilfsgerade mit Winkel&nbsp; $\theta_{\rm HG}$&nbsp; einblenden
  
 +
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Ausgabe der&nbsp; $\rm MQA$&ndash;Werte für Regressions&ndash; und Hilfsgerade
  
$\hspace{1.5cm}$&bdquo;$+$&rdquo; (Vergrößern),
+
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Numerikausgabe der statistischen Kenngrößen
  
$\hspace{1.5cm}$ &bdquo;$-$&rdquo; (Verkleinern)
+
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Grafikbereich zur Darstellung der Regressionsgeraden
  
$\hspace{1.5cm}$ &bdquo;$\rm o$&rdquo; (Zurücksetzen)
+
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Bereich für Übungen:&nbsp; Aufgabenauswahl, Fragen, Musterlösungen
 
 
$\hspace{1.5cm}$ &bdquo;$\leftarrow$&rdquo; (Verschieben nach links),  usw.
 
 
 
&nbsp; &nbsp; '''( I )''' &nbsp; &nbsp; Ausgabe von ${\rm Pr} (z = \mu)$ und ${\rm Pr} (z  \le \mu)$
 
 
 
&nbsp; &nbsp; '''(J)''' &nbsp; &nbsp; Bereich für die Versuchsdurchführung
 
 
<br clear=all>
 
<br clear=all>
<br>'''Andere Möglichkeiten zur Variation der grafischen Darstellung''':
 
*Gedrückte Shifttaste und Scrollen:  Zoomen im Koordinatensystem,
 
*Gedrückte Shifttaste und linke Maustaste: Verschieben des Koordinatensystems.
 
 
 
==Über die Autoren==
 
==Über die Autoren==
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
*Die erste Version wurde 2003 von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Ji_Li_.28Bachelorarbeit_EI_2003.2C_Diplomarbeit_EI_2005.29|Ji Li]] im Rahmen ihrer Diplomarbeit mit &bdquo;FlashMX&ndash;Actionscript&rdquo; erstellt (Betreuer: [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
+
*Die erste Version wurde 2005 von [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Studierende#Bettina_Hirner_.28Diplomarbeit_LB_2005.29|Bettina Hirner]] im Rahmen ihrer Diplomarbeit mit "FlashMX&ndash;Actionscript" erstellt (Betreuer: [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
*2018 wurde das Programm  von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Jimmy_He_.28Bachelorarbeit_2018.29|Jimmy He]]  (Bachelorarbeit, Betreuer: [[Biografien_und_Bibliografien/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  auf &bdquo;HTML5&rdquo; umgesetzt und neu gestaltet.
+
*2020 wurde das Programm  von [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Studierende#Veronika_Hofmann_.28Ingenieurspraxis_Math_2020.29|Veronika Hofmann]]  (Ingenieurspraxis Mathematik, Betreuer: [[Benedikt Leible]] und [[Biographies_and_Bibliographies/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  unter "HTML5" neu gestaltet.
  
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
  
{{LntAppletLink|verteilungen}}
+
{{LntAppletLink|correlation}}

Latest revision as of 16:46, 28 May 2021

Open Applet in a new tab

Programmbeschreibung


Als einfaches Beispiel einer 2D-Zufallsgröße  $(X, Y)$  betrachten wir den Fall, dass diese nur vier Werte annehmen kann:

  • Punkt  $1$  bei  $(x_1, \ y_1)$  mit Wahrscheinlichkeit  $p_1$:   Die Parameter  $x_1, \ y_1, \ p_1$  sind im Applet per Slider einstellbar.
  • Punkt  $2$  bei  $(x_2, \ y_2)$  mit Wahrscheinlichkeit  $p_2$:   Die Parameter liegen durch den Punkt  $1$  fest:   $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
  • Punkt  $3$  bei  $(+1, +1)$  mit Wahrscheinlichkeit  $p_3 = 0.5-p_1$:   Die Lage dieses Punktes ist im Applet fest vorgegeben.
  • Punkt  $4$  bei  $(-1, -1)$  mit Wahrscheinlichkeit  $p_4 = p_3$:   Dieser Punkt liegt ebenso wie der Punkt  $3$  auf der Winkelhalbierenden.


Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:

  • Die Regressionsgerade  $R_{X \to Y}$  unter dem Winkel  $\theta_{X \to Y}$   ⇒   blaue Kurve,
  • die Regressionsgerade  $R_{Y \to X}$  unter dem Winkel  $\theta_{Y \to X}$   ⇒   rote Kurve,
  • eine Hilfsgerade  "$\rm (HG)$" unter dem Winkel  $\theta_{\rm HG}$   ⇒   grüne Kurve, optional.


Als Zahlenwerte werden die zur Berechnung von  $\theta_{X \to Y}$  und  $\theta_{Y \to X}$  benötigten statistischen Kenngrößen ausgegeben:

  • die Streuungen (Standardabweichungen)  $\sigma_X$  und  $\sigma_Y$  der Komponenten  $X$  bzw.  $Y$,
  • die Kovarianz  $\mu_{XY}$  ⇒   Zentralmoment erster Ordnung der 2D-Zufallsgröße  $(X, Y)$,
  • der Korrelationskoeffizient  $\rho_{XY}$  zwischen den 2D-Zufallsgröße  $X$  und  $Y$.


Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in $x$– und $y$–Richtung zu dieser lässt sich nachvollziehen, dass

  • die rote Regressionsgerade  $R_{X \to Y}$  die Eigenschaft hat, dass der mittlere quadrische Abstand aller Punkte in  $y$–Richtung   ⇒   ${\rm MQA}_Y$  von dieser minimal ist,
  • während für die blaue Regressionsgerade  $R_{Y \to X}$  der mittlere quadrische Abstand aller Punkte in  $x$–Richtung   ⇒   ${\rm MQA}_X$  zum Minimum führt.



Theoretischer Hintergrund


Erwartungswerte von 2D–Zufallsgrößen und Korrelationskoeffizient

Wir betrachten eine zweidimensionale  $\rm (2D)$–Zufallsgröße  $(X,\ Y)$  mit der Wahrscheinlichkeitsdichtefunktion  $\rm (WDF)$  $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten  $X$  und  $Y$  statistische Abhängigkeiten bestehen.  Ein Sonderfall ist die Korrelation.

$\text{Definition:}$  Unter  Korrelation  versteht man eine lineare Abhängigkeit  zwischen den Einzelkomponenten  $X$  und  $Y$.

  • Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
  • Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.


Für das Folgende setzen wir voraus, dass  $X$  und  $Y$  mittelwertfrei seien   ⇒   ${\rm E}\big [ X \big ] = {\rm E}\big [ Y \big ]=0$.  Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:

  • die  Varianzen  in  $X$–  bzw. in  $Y$–Richtung:
$$\sigma_X^2= {\rm E}\big [ X^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}x^2 \cdot f_{X}(x) \, {\rm d}x\hspace{0.05cm},\hspace{0.5cm}\sigma_Y^2= {\rm E}\big [Y^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}y^2 \cdot f_{Y}(y) \, {\rm d}y\hspace{0.05cm};$$
  • die  Kovarianz  zwischen den Einzelkomponenten  $X$  und  $Y$:
$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$

Bei statistischer Unabhängigkeit der beiden Komponenten  $X$  und  $Y$  ist die Kovarianz  $\mu_{XY} \equiv 0$. 

  • Das Ergebnis  $\mu_{XY} = 0$  ist auch bei statistisch abhängigen Komponenten  $X$  und  $Y$  möglich, nämlich dann, wenn diese unkorreliert, also  linear unabhängig  sind.
  • Die statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung  $Y=X^2.$


Man spricht dann von  vollständiger Korrelation, wenn die (deterministische) Abhängigkeit zwischen  $X$  und  $Y$  durch die Gleichung  $Y = K · X$  ausgedrückt wird.

Dann ergibt sich für die Kovarianz:

  • $\mu_{XY} = σ_X · σ_Y$  bei positivem Wert von  $K$,
  • $\mu_{XY} = -σ_X · σ_Y$  bei negativem  $K$–Wert.


Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.

$\text{Definition:}$  Der  Korrelationskoeffizient  ist der Quotient aus der Kovarianz  $\mu_{XY}$  und dem Produkt der Effektivwerte  $σ_X$  und  $σ_Y$  der beiden Komponenten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}.$$


Der Korrelationskoeffizient  $\rho_{XY}$  weist folgende Eigenschaften auf:

  • Aufgrund der Normierung gilt stets  $-1 \le ρ_{XY} ≤ +1$.
  • Sind die beiden Zufallsgrößen  $X$  und  $Y$  unkorreliert, so ist  $ρ_{XY} = 0$.
  • Bei strenger linearer Abhängigkeit zwischen  $X$  und  $Y$  ist  $ρ_{XY}= ±1$   ⇒   vollständige Korrelation.
  • Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem  $X$–Wert im statistischen Mittel auch  $Y$  größer ist als bei kleinerem  $X$.
  • Dagegen drückt ein negativer Korrelationskoeffizient aus, dass  $Y$  mit steigendem  $X$  im Mittel kleiner wird.


2D-WDF  $f_{XY}(x, y)$  sowie die zugehörigen Randwahrscheinlichkeitsdichten  $f_{X}(x)$  und  $f_{Y}(y)$

$\text{Beispiel 1:}$  Die 2D–Zufallsgröße  $(X,\ Y)$  sei diskret und kann nur vier verschiedene Werte annehmen:

  • $(+0.5,\ 0)$  sowie $(-0.5,\ 0)$  jeweils mit der Wahrscheinlichkeit  $0.3$,
  • $(+1,\ +\hspace{-0.09cm}1)$  sowie $(-1,\ -\hspace{-0.09cm}1)$  jeweils mit der Wahrscheinlichkeit  $0.2$.


$\rm (A)$  Die Varianzen bzw. die Streuungen können aus   $f_{X}(x)$  und  $f_{Y}(y)$  berechnet werden:

$$\sigma_X^2 = 2 \cdot \big [0.2 \cdot 1^2 + 0.3 \cdot 0.5^2 \big] = 0.55\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_X = 0.7416,$$
$$\sigma_Y^2 = \big [0.2 \cdot (-1)^2 + 0.6 \cdot 0^2 +0.2 \cdot (+1)^2 \big] = 0.4\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_Y = 0.6325.$$

$\rm (B)$  Für die Kovarianz ergibt sich der folgende Erwartungswert:

$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$

$\rm (C)$  Damit erhält man für den Korrelationskoeffizienten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528. $$


Eigenschaften der Regressionsgeraden

Gaußsche 2D-WDF mit Korrelationsgerade  $K$

Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen  $X$  und  $Y$  anzugeben, deren $\text{2D-WDF}$  $f_{XY}(x, y)$  durch Punkte  $(x_1, y_1 )$  ...  $(x_N, y_N )$  in der  $(x,\ y)$–Ebene vorgegeben ist.  Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen: 

Gesucht ist die Gleichung der Geraden  $K$  ⇒   $y=c_{\rm opt} \cdot x$  mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als  Korrelationsgerade. Diese kann als eine Art  „statistische Symmetrieachse“  interpretiert werden.

Bei einer großen Menge  $N$  empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter  $C = c_{\rm opt}$  zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in  $x$– oder in  $y$–Richtung definiert.

Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade  $K$  identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien  (siehe Abschnitt 2.3).


$\text{(a)}\hspace{0.5cm} \text{Regressionsgerade }R_{Y \to X}$     (rote Gerade in der App)

Hier wird der  $y$–Wert auf den  $x$–Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen "Zurückfallen" des Wortes "Regression" entspricht.

  • Geradengleichung,  Winkel  $\theta_{Y \to X}$  der Geraden  $R_{Y \to X}$  zur  $x$–Achse:
$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung ist minimal:
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
Die zweite Gleichung gilt nur, wenn alle Punkte  $(x_n, y_n )$  der 2D–WDF gleichwahrscheinlich sind.


$\text{(b)}\hspace{0.5cm} \text{Regressionsgerade }R_{X \to Y}$     (blaue Gerade in der App)

Die Regression in Gegenrichtung  $($also von  $X$  auf  $Y)$  bedeutet dagegen, dass der $x$–Wert auf den $y$–Wert zurückgeführt wird.  Für  ${\rm MQA}_X$  ergibt sich der minimale Wert.

  • Geradengleichung,  Winkel  $\theta_{X \to Y}$  der Geraden  $R_{X \to Y}$  zur   $x$–Achse:
$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden  $R_{X \to Y}$  in  $x$–Richtung ist minimal:
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
Die beiden Regressionsgeraden

$\text{Beispiel 2:}$  Es gelten die gleichen Voraussetzungen wie im  $\text{Beispiel 1}$  und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.

In der oberen Grafik ist die Regressionsgerade  $R_{X \to Y}$  als blaue Kurve eingezeichnet:

  • Hierfür ergibt sich  $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1$  und dementsprechend  $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
  • Für den mittleren Abstand aller vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{X \to Y}$  in  $x$–Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
  • Jede Gerade mit einem anderen Winkel als  $45^\circ$  führt hier zu einem größeren  ${\rm MQA}_X$.


Betrachten wir nun die rote Regressionsgerade  $R_{Y \to X}$  in der unteren Grafik.

  • Hierfür ergibt sich  $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$  und  $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
  • Hier ist nun der mittlere Abstand der vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$

Die im Text erwähnte "Korrelationsgerade" mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.

Der Sonderfall Gaußscher 2D–Zufallsgrößen

Im Sonderfall einer mittelwertfreien   Gaußschen 2–Zufallsgröße  $(X,\ Y)$  lautet die Verbundwahrscheinlichkeitsdichtefunktion:

$$f_{XY}(x,y)=\frac{\rm 1}{\rm 2\it\pi \cdot \sigma_X \cdot \sigma_Y \cdot \sqrt{\rm 1-\rho_{\it XY}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 \cdot(1-\it\rho_{XY}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_X^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_Y^{\rm 2}}-\rm 2\cdot\it\rho_{XY}\cdot\frac{x \cdot y}{\sigma_X \cdot \sigma_Y}\rm ) \rm \Bigg].$$
  • Ersetzt man  $x$  durch  $(x - m_X)$  sowie  $y$  durch  $(y- m_Y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
  • Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{X}(x)$  und $f_{Y}(y)$  einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen  $σ_X$  bzw.  $σ_Y$.
  • Bei unkorrelierten Komponenten  $X$  und  $Y$  muss in obiger Gleichung  $ρ_{XY} = 0$  eingesetzt werden,  und man erhält dann das Ergebnis:
$K$,  $R_{Y \to X}$  und  $R_{X \to Y}$  bei Gaußschen 2D–Zufallsgrößen
$$f_{XY}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{X}} \cdot\rm e^{-\it {x^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{X}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it Y}}\cdot e^{-\it {y^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{Y}^{\rm 2}} {\rm )}} = \it f_{X} \rm ( \it x \rm ) \cdot \it f_{Y} \rm ( \it y \rm ) .$$
  • Bei korrelierten Komponenten  $X$  und  $Y$   ⇒   $ρ_{XY} \ne 0$  sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade  $K$  ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
$$\theta_{\rm K} = {1}/{2} \cdot {\rm arctan } \ ( 2 \cdot \rho_{XY} \cdot \frac {\sigma_X \cdot \sigma_Y}{\sigma_X^2 - \sigma_Y^2}).$$
  • Die (rote) Regressionsgerade  $R_{Y \to X}$  einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.  Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
  • In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.  Die (blaue) Regressionsgerade  $R_{X \to Y}$  ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.



Versuchsdurchführung

Exercises binomial fertig.png
  • Wählen Sie zunächst die Nummer 1 ... 6 der zu bearbeitenden Aufgabe.
  • Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
  • Lösung nach Drücken von "Musterlösung".
  • Die Nummer  0  entspricht einem "Reset":  Gleiche Einstellung wie beim Programmstart.


In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:

  • Rot:     Regressionsgerade  $R_{Y \to X}$  (im Applet rot gezeichnet),
  • Blau:   Regressionsgerade  $R_{X \to Y}$  (im Applet blau gezeichnet).


(1)  Mit welcher Parametereinstellung sind die beiden Regressionsgeraden  $R_{Y \to X}$  und  $R_{X \to Y}$  deckungsgleich?

  •  Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel  $45^\circ$  verlaufen   ⇒   "Winkelhalbierende".
  •  Da die fest vorgegebenen Punkte  $3$  und  $4$  auf der Winkelhalbierenden liegen, muss dies auch für die Punkte  $1$  und  $2$  gelten   ⇒   $y_1 = x_1$.
  •  Dies gilt für alle Parametereinstellungen  $y_1 = x_1$  und auch für alle  $p_1$  im erlaubten Bereich von   $0$  bis  $0.5$.

(2)  Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$  Interpretieren Sie die Ergebnisse.  Aktivieren Sie hierzu die Hilfsgerade.

  •  Diese Einstellung stimmt mit den Voraussetzungen zu  $\text{Beispiel 1}$  und  $\text{Beispiel 2}$  überein.  Insbesondere gilt  $ \theta_{X \to Y}= 45^\circ$  und  $ \theta_{Y \to X}\approx 36^\circ$.
  •  Durch Variation des Winkels  $ \theta_{\rm HG}$  erkennt man, dass für  $ \theta_{\rm HG}= 45^\circ$  die Kenngröße  ${\rm MQA}_X =0.15$  tatsächlich den kleinsten Wert annimmt.
  •  Ebenso ergibt sich der kleinstmögliche Abstand  ${\rm MQA}_Y =0.109$  in  $y$–Richtung für  $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden  $R_{Y \to X}$.

(3)  Es gelten zunächst weiter die Einstellungen von  (2).  Wie ändern sich die Ergebnisse nach Variation von  $p_1$  im erlaubten Bereich  $(0\le p_1 \le 0.5)$?

  •  Die blaue Regressionsgerade  $ R_{X \to Y}$  verläuft weiter unter dem Winkel  $ \theta_{X \to Y}= 45^\circ$   ⇒   es gilt hier  $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von  $p_1 < 0.5$.
  •  Im Grenzfall  $p_1 = 0.5$  ist wegen  $\sigma_Y =0$  die blaue Regressionsgerade undefiniert.  Es handelt sich nurmehr um eine 1D–Zufallsgröße  $X$.
  •  Mit  $p_1=0$  sind nur die äußeren Punkte  $3$  und  $4$  wirksam   ⇒   $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,  mit  $p_1=0.5$  nur die inneren Punkte  ⇒   $ \theta_{Y \to X}= 0^\circ$.
  •  Dazwischen wird  $ R_{Y \to X}$  kontinuierlich flacher.  Sind alle Punkte gleichwahrscheinlich  $(p_1=0.25)$, dann ist  $\theta_{Y \to X}\approx 38.7^\circ$.

(4)  Nun gelte  $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.  Variieren Sie  $0\le p_1 < 0.5$  und interpretieren Sie die Ergebnisse.  $(p_1 = 0.5$  sollte man ausschließen$)$.

  •  Wegen  $\sigma_X \le \sigma_Y$  liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle  $p_1 \ne 0.5$  die Winkelhalbierende ist   ⇒   $ \theta_{Y \to X}\approx 45^\circ$.
  •  Der Winkel der blauen Regressionsgerade wächst von  $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$  bis  $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$  kontinuierlich an.

(5)  Beginnen Sie mit  $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$  und vergrößern Sie  $y_1$  bis zum Endwert  $y_1 = +0.8$.  Interpretieren Sie die Ergebnisse.

  •  Für  $y_1 =-0.8$  ist  $ \theta_{X \to Y}= 77.6^\circ$  und  $ \theta_{Y \to X}= 12.4^\circ$.  Mit steigendem  $y_1$  verläuft  $ R_{X \to Y}$  (blau) flacher und  $R_{Y \to X}$  (rot) steiler.
  •  Im Endpunkt  $(y_1 = +0.8)$  verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel  $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.

(6)  Abschließend gelte  $x_1 = +1,\ y_1 = -1$.  Variieren Sie  $p_1$  im gesamten zulässigen Bereich  $0\le p_1 \le 0.5$.  Wann sind  $X$  und  $Y$  unkorreliert?

  •  Für  $p_1 = 0$  gilt  $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$  Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
  •  Für  $p_1 = 0.25$  sind die Winkel  $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$  Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen   ⇒   $\mu_{XY}=0$.
  •  Anschließend drehen beide Geraden weiter in gleicher Richtung.  Für  $p_1 = 0.5$  gilt schließlich:  $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$


Zur Handhabung des Applets

Anleitung korrelation version2.png






    (A)     Einstellung der  $x$–Koordinaten für  (1)  und  (2)

    (B)     Einstellung der  $y$–Koordinaten für  (1)  und  (2)

    (C)     Einstellung der  Wahrscheinlichkeiten aller Punkte

    (D)     Hilfsgerade mit Winkel  $\theta_{\rm HG}$  einblenden

    (E)     Ausgabe der  $\rm MQA$–Werte für Regressions– und Hilfsgerade

    (F)     Numerikausgabe der statistischen Kenngrößen

    (G)     Grafikbereich zur Darstellung der Regressionsgeraden

    (H)     Bereich für Übungen:  Aufgabenauswahl, Fragen, Musterlösungen

Über die Autoren

Dieses interaktive Berechnungstool wurde am Lehrstuhl für Nachrichtentechnik der Technischen Universität München konzipiert und realisiert.

Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster

Open Applet in a new tab