Processing math: 100%

Difference between revisions of "Applets:Korrelation und Regressionsgerade"

From LNTwww
m (Text replacement - "„" to """)
 
(21 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{LntAppletLink|verteilungen}}  
+
{{LntAppletLink|correlation}}  
  
 
==Programmbeschreibung==
 
==Programmbeschreibung==
 
<br>
 
<br>
 +
Als einfaches Beispiel einer 2D-Zufallsgröße&nbsp; (X,Y)&nbsp; betrachten wir den Fall, dass diese nur vier Werte annehmen kann:
 +
*Punkt&nbsp; 1&nbsp; bei&nbsp; (x1, y1)&nbsp; mit Wahrscheinlichkeit&nbsp; p1: &nbsp; Die Parameter&nbsp; x1, y1, p1&nbsp; sind im Applet per Slider einstellbar.
 +
*Punkt&nbsp; 2&nbsp; bei&nbsp; (x2, y2)&nbsp; mit Wahrscheinlichkeit&nbsp; p2: &nbsp; Die Parameter liegen durch den Punkt&nbsp; 1&nbsp; fest: &nbsp; x2=x1, y2=y1, p2=p1.
 +
*Punkt&nbsp; 3&nbsp; bei&nbsp; (+1,+1)&nbsp; mit Wahrscheinlichkeit&nbsp; p3=0.5p1: &nbsp; Die Lage dieses Punktes ist im Applet fest vorgegeben.
 +
*Punkt&nbsp; 4&nbsp; bei&nbsp; (1,1)&nbsp; mit Wahrscheinlichkeit&nbsp; p4=p3: &nbsp; Dieser Punkt liegt ebenso wie der Punkt&nbsp; 3&nbsp; auf der Winkelhalbierenden.
 +
 +
 +
Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:
 +
* Die Regressionsgerade&nbsp; RXY&nbsp; unter dem Winkel&nbsp; θXY &nbsp; &rArr; &nbsp; blaue Kurve,
 +
* die Regressionsgerade&nbsp; RYX&nbsp; unter dem Winkel&nbsp; θYX &nbsp; &rArr; &nbsp; rote Kurve, 
 +
* eine Hilfsgerade&nbsp; "(HG)" unter dem Winkel&nbsp; θHG &nbsp; &rArr; &nbsp; grüne Kurve, optional.   
 +
 +
 +
Als Zahlenwerte werden die zur Berechnung von&nbsp; θXY&nbsp; und&nbsp; θYX&nbsp; benötigten statistischen Kenngrößen ausgegeben:
 +
* die Streuungen (Standardabweichungen)&nbsp; σX&nbsp; und&nbsp; σY&nbsp; der Komponenten&nbsp; X&nbsp; bzw.&nbsp; Y,
 +
*die Kovarianz&nbsp; μXY&nbsp; &rArr; &nbsp; Zentralmoment erster Ordnung der 2D-Zufallsgröße&nbsp; (X,Y),
 +
*der Korrelationskoeffizient&nbsp; ρXY&nbsp; zwischen den 2D-Zufallsgröße&nbsp; X&nbsp; und&nbsp; Y.
 +
 +
 +
Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in x&ndash; und y&ndash;Richtung zu dieser lässt sich nachvollziehen, dass
 +
 +
* die rote Regressionsgerade&nbsp; RXY&nbsp; die Eigenschaft hat, dass der mittlere quadrische Abstand  aller Punkte in&nbsp; y&ndash;Richtung &nbsp; &rArr; &nbsp; MQAY&nbsp; von dieser  minimal ist,
 +
* während für die blaue Regressionsgerade&nbsp; RYX&nbsp; der mittlere quadrische Abstand aller Punkte in&nbsp; x&ndash;Richtung &nbsp; &rArr; &nbsp; MQAX&nbsp; zum Minimum führt.
 +
 +
 +
  
  
Line 23: Line 49:
 
:μXY=E[XY]=++x yfXY(x,y)dxdy.
 
:μXY=E[XY]=++x yfXY(x,y)dxdy.
  
Bei statististischer Unabhängigkeit der beiden Komponenten&nbsp; X&nbsp; und&nbsp; Y&nbsp; ist die Kovarianz&nbsp; μXY0.&nbsp;  
+
Bei statistischer Unabhängigkeit der beiden Komponenten&nbsp; X&nbsp; und&nbsp; Y&nbsp; ist die Kovarianz&nbsp; μXY0.&nbsp;  
  
 
*Das Ergebnis&nbsp; μXY=0&nbsp; ist auch bei statistisch abhängigen Komponenten&nbsp; X&nbsp; und&nbsp; Y&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.  
 
*Das Ergebnis&nbsp; μXY=0&nbsp; ist auch bei statistisch abhängigen Komponenten&nbsp; X&nbsp; und&nbsp; Y&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.  
Line 70: Line 96:
 
<br clear=all>
 
<br clear=all>
  
===Regressionsgerade===
+
===Eigenschaften der Regressionsgeraden===
 
[[File:Korrelation_5_neu.png|frame|Gaußsche 2D-WDF mit Korrelationsgerade&nbsp; K]]
 
[[File:Korrelation_5_neu.png|frame|Gaußsche 2D-WDF mit Korrelationsgerade&nbsp; K]]
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen&nbsp; X&nbsp; und&nbsp; Y&nbsp; zu anzugeben, deren 2D-WDF&nbsp; fXY(x,y)&nbsp; durch Punkte &nbsp;(x1,y1)&nbsp; ...&nbsp; (xN,yN)&nbsp; in der&nbsp; (x, y)&ndash;Ebene vorgegeben ist.&nbsp; Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen:&nbsp;  
+
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen&nbsp; X&nbsp; und&nbsp; Y&nbsp; anzugeben, deren 2D-WDF&nbsp; fXY(x,y)&nbsp; durch Punkte &nbsp;(x1,y1)&nbsp; ...&nbsp; (xN,yN)&nbsp; in der&nbsp; (x, y)&ndash;Ebene vorgegeben ist.&nbsp; Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen:&nbsp;  
 
:Gesucht ist die Gleichung der Geraden&nbsp; K&nbsp; &rArr; &nbsp; y=coptx&nbsp; mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand&nbsp; (MQA)&nbsp; aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als&nbsp; ''Korrelationsgerade''. Diese kann als eine  Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden.  
 
:Gesucht ist die Gleichung der Geraden&nbsp; K&nbsp; &rArr; &nbsp; y=coptx&nbsp; mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand&nbsp; (MQA)&nbsp; aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als&nbsp; ''Korrelationsgerade''. Diese kann als eine  Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden.  
  
 
Bei einer großen Menge&nbsp; N&nbsp; empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter&nbsp; C=copt&nbsp; zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in&nbsp; x&ndash; oder in&nbsp; y&ndash;Richtung definiert.
 
Bei einer großen Menge&nbsp; N&nbsp; empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter&nbsp; C=copt&nbsp; zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in&nbsp; x&ndash; oder in&nbsp; y&ndash;Richtung definiert.
  
Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade&nbsp; K&nbsp; identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien. <br>'''Stimmt das?'''
+
Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade&nbsp; K&nbsp; identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien&nbsp; (siehe [[Applets:Korrelation_und_Regressionsgerade#Der_Sonderfall_Gau.C3.9Fscher_2D.E2.80.93Zufallsgr.C3.B6.C3.9Fen|Abschnitt 2.3]]).  
  
  
 
(a)Regressionsgerade RYX &nbsp; &nbsp; (rote Gerade in der App)
 
(a)Regressionsgerade RYX &nbsp; &nbsp; (rote Gerade in der App)
 
   
 
   
Hier wird der&nbsp; y&ndash;Wert auf den&nbsp; x&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen &bdquo;Zurückfallen&rdquo; des Wortes &bdquo;Regression&rdquo; entspricht.
+
Hier wird der&nbsp; y&ndash;Wert auf den&nbsp; x&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen "Zurückfallen" des Wortes "Regression" entspricht.
  
 
*'''Geradengleichung''',&nbsp; Winkel&nbsp; θYX&nbsp; der Geraden&nbsp; RYX&nbsp; zur&nbsp; x&ndash;Achse:
 
*'''Geradengleichung''',&nbsp; Winkel&nbsp; θYX&nbsp; der Geraden&nbsp; RYX&nbsp; zur&nbsp; x&ndash;Achse:
Line 93: Line 119:
 
(b)Regressionsgerade RXY &nbsp; &nbsp; (blaue Gerade in der App)
 
(b)Regressionsgerade RXY &nbsp; &nbsp; (blaue Gerade in der App)
  
Die Regression in Gegenrichtung&nbsp; (also von&nbsp; X&nbsp; auf&nbsp; Y)&nbsp; bedeutet dagegen, dass der&nbsp;x&ndash;Wert auf den&nbsp;y&ndash;Wert zurückgeführt wird.&nbsp; Für&nbsp; ${\rm MQA}_Y$&nbsp; ergibt sich der minimale Wert.   
+
Die Regression in Gegenrichtung&nbsp; (also von&nbsp; X&nbsp; auf&nbsp; Y)&nbsp; bedeutet dagegen, dass der&nbsp;x&ndash;Wert auf den&nbsp;y&ndash;Wert zurückgeführt wird.&nbsp; Für&nbsp; ${\rm MQA}_X$&nbsp; ergibt sich der minimale Wert.   
  
 
*'''Geradengleichung''',&nbsp; Winkel&nbsp; θXY&nbsp; der Geraden&nbsp; RXY&nbsp; zur &nbsp; x&ndash;Achse:
 
*'''Geradengleichung''',&nbsp; Winkel&nbsp; θXY&nbsp; der Geraden&nbsp; RXY&nbsp; zur &nbsp; x&ndash;Achse:
:$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_X}{\sigma_Y}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_Y^2},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
+
:$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
 
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; (xn,yn)&nbsp; von der Regressionsgeraden&nbsp; RXY&nbsp; in&nbsp; x&ndash;Richtung ist minimal:  
 
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; (xn,yn)&nbsp; von der Regressionsgeraden&nbsp; RXY&nbsp; in&nbsp; x&ndash;Richtung ist minimal:  
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{x \to y}\big ]^{\rm 2}={\rm Minimum}.$$
+
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
 
    
 
    
 
[[File:Korrelation_5a.png|right|frame| Die beiden Regressionsgeraden]]
 
[[File:Korrelation_5a.png|right|frame| Die beiden Regressionsgeraden]]
Line 104: Line 130:
 
Beispiel 2:&nbsp;  Es gelten die gleichen Voraussetzungen wie im&nbsp; Beispiel 1&nbsp; und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.
 
Beispiel 2:&nbsp;  Es gelten die gleichen Voraussetzungen wie im&nbsp; Beispiel 1&nbsp; und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.
  
In der oberen Grafik ist die Regressionsgerade&nbsp; $R_{x \to y}$&nbsp; als blaue Kurve eingezeichnet:
+
In der oberen Grafik ist die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; als blaue Kurve eingezeichnet:
* Hierfür ergibt sich&nbsp; $C_{X \to Y}=\mu_{XY}/{\sigma_Y^2} = 1&nbsp; und dementsprechend&nbsp; \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
+
* Hierfür ergibt sich&nbsp; $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1&nbsp; und dementsprechend&nbsp; \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
 
*Für den mittleren Abstand aller vier Punkte&nbsp; (xn,yn)&nbsp; von der Regressionsgeraden RXY&nbsp; in&nbsp; x&ndash;Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):  
 
*Für den mittleren Abstand aller vier Punkte&nbsp; (xn,yn)&nbsp; von der Regressionsgeraden RXY&nbsp; in&nbsp; x&ndash;Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):  
 
:MQAX=E[xnyn/Cxy]2=2[0.2[11/1]2+0.3[0.50/1]2]=0.15.
 
:MQAX=E[xnyn/Cxy]2=2[0.2[11/1]2+0.3[0.50/1]2]=0.15.
Line 114: Line 140:
 
* Hierfür ergibt sich&nbsp; CYX=μXY/σ2X=0.4/0.550.727&nbsp; und&nbsp; θYX=arctan (0.727)36.
 
* Hierfür ergibt sich&nbsp; CYX=μXY/σ2X=0.4/0.550.727&nbsp; und&nbsp; θYX=arctan (0.727)36.
 
*Hier ist nun der mittlere Abstand der vier Punkte&nbsp; (xn,yn)&nbsp; von der Regressionsgeraden RYX&nbsp; in&nbsp; y&ndash;Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
 
*Hier ist nun der mittlere Abstand der vier Punkte&nbsp; (xn,yn)&nbsp; von der Regressionsgeraden RYX&nbsp; in&nbsp; y&ndash;Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{y \to x} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$
+
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$
  
Die im Text erwähnte  &bdquo;Korrelationsgerade&rdquo; mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand&nbsp; (MQA)&nbsp; aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.}}
+
Die im Text erwähnte  "Korrelationsgerade" mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand&nbsp; (MQA)&nbsp; aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.}}
  
===Testbereich===
+
===Der Sonderfall Gaußscher 2D&ndash;Zufallsgrößen===  
  
'''Bitte überprüfen'''
+
Im Sonderfall einer mittelwertfreien &nbsp; [[Theory_of_Stochastic_Signals/Zweidimensionale_Gaußsche_Zufallsgrößen|Gaußschen 2&ndash;Zufallsgröße]]&nbsp; (X, Y)&nbsp; lautet die Verbundwahrscheinlichkeitsdichtefunktion:
[[File:Korrelation_6a.png|left|frame| ???]]
+
:fXY(x,y)=12πσXσY1ρ2XYexp[12(1ρ2XY)(x2σ2X+y2σ2Y2ρXYxyσXσY)].
 +
*Ersetzt man&nbsp;  x&nbsp; durch&nbsp; (xmX)&nbsp; sowie&nbsp; y&nbsp; durch&nbsp; (ymY), so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
 +
*Die beiden Randwahrscheinlichkeitsdichtefunktionen fX(x)&nbsp; und fY(y)&nbsp; einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen&nbsp; σX&nbsp; bzw.&nbsp; σY.
 +
*Bei unkorrelierten Komponenten&nbsp; X&nbsp; und&nbsp; Y&nbsp; muss in obiger Gleichung&nbsp; ρXY=0&nbsp; eingesetzt werden,&nbsp; und man erhält dann das Ergebnis:
 +
[[File:Korrelation_7a.png|right|frame| K,&nbsp; RYX&nbsp; und&nbsp; RXY&nbsp; bei Gaußschen 2D&ndash;Zufallsgrößen]]  
 +
:fXY(x,y)=12πσXex2/(2σ2X)12πσYey2/(2σ2Y)=fX(x)fY(y).
 +
 +
*Bei korrelierten Komponenten&nbsp; X&nbsp; und&nbsp; Y &nbsp; &rArr; &nbsp; ρXY0&nbsp; sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade&nbsp; K&nbsp; ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
 +
:θK=1/2arctan (2ρXYσXσYσ2Xσ2Y).
  
*Hier habe ich als Test neben der roten und der blauen Geraden noch die grüne Gerade H mit Winkel $\arctan(\rho) = \arctan(0.853)\approx 40^\circ$ eingezeichnet.
+
*Die (rote) Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.&nbsp; Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
*Sollte das die Korrelationsgerade K sein, dann müsste  der mittlere quadratische (Euklidische) Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal sein.
+
* In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.&nbsp; Die (blaue) Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.  
* Müsste dann für diese Gerade ${\rm MQA}={\rm MQA}_X + {\rm MQA}_Y$ minimal sein?
 
* Bitte für mehrere Parametersätze überprüfen. Ich hoffe, dass das nicht allgemein stimmt.
 
 
<br clear=all>
 
<br clear=all>
'''Bitte recherchieren. Das kann man mit dem Programm nicht überprüfen'''
+
 
[[File:Korrelation_7a.png|left|frame| Gaußsche 2D]]<br>
 
* Könnte das wenigstens bei Gaußschen 2D&ndash;Zufallsgrößen gelten
 
* Durch die Tangenten sind die Regressionsgeraden bestimmt.
 
* Im anderen LNTwww und im Carolin-Programm bezeichnen wir die schwarze Gerade als Ellipsenhauptache und die rote Gerade als Korrelationsgerade.
 
* Wenn das stimmt, müsste ich das ändern. Die Änderungen im Programm selbst wären minimal.
 
<br clear=all>
 
===Der Sonderfall Gaußscher 2D&ndash;Zufallsgrößen===
 
Fehlt noch.
 
  
 
==Versuchsdurchführung==
 
==Versuchsdurchführung==
'''Eventuell noch überarbeiten'''
+
 
 
[[File:Exercises_binomial_fertig.png|right]]
 
[[File:Exercises_binomial_fertig.png|right]]
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
*Lösung nach Drücken von &bdquo;Hide solution&rdquo;.
+
*Lösung nach Drücken von "Musterlösung".
*Aufgabenstellung und Lösung in Englisch.
+
*Die Nummer&nbsp; '''0'''&nbsp; entspricht einem "Reset":&nbsp; Gleiche Einstellung wie beim Programmstart.
 
 
  
Die Nummer '''0''' entspricht einem &bdquo;Reset&rdquo;:
 
*Gleiche Einstellung wie beim Programmstart.
 
*Ausgabe eines &bdquo;Reset&ndash;Textes&rdquo; mit weiteren Erläuterungen zum Applet.
 
'''Ende Überarbeitung'''
 
'''Voreinstellung für Nummer 0 wie bei den Beispielen vorne'''
 
  
 
In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:
 
In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:
Line 159: Line 177:
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(1)'''&nbsp; Mit welcher Parametereinstellung sind die beiden Regressionsgerade&nbsp; RYX&nbsp; und&nbsp; RXY&nbsp; deckungsgleich?}}
+
'''(1)'''&nbsp; Mit welcher Parametereinstellung sind die beiden Regressionsgeraden&nbsp; RYX&nbsp; und&nbsp; RXY&nbsp; deckungsgleich?}}
  
::*&nbsp;Es ist offensichtlich, dass gleiche Regressionsgerade nur möglich sind, wenn diese unter dem Winkel&nbsp;  45&nbsp; verlaufen &nbsp; &rArr; &nbsp; &bdquo;Winkelhalbierende&rdquo;.
+
::*&nbsp;Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel&nbsp;  45&nbsp; verlaufen &nbsp; &rArr; &nbsp; "Winkelhalbierende".
 
::*&nbsp;Da die fest vorgegebenen Punkte&nbsp; 3&nbsp; und&nbsp; 4&nbsp; auf der Winkelhalbierenden liegen, muss dies auch für die Punkte&nbsp; 1&nbsp; und&nbsp; 2&nbsp; gelten &nbsp; &rArr; &nbsp; y1=x1.
 
::*&nbsp;Da die fest vorgegebenen Punkte&nbsp; 3&nbsp; und&nbsp; 4&nbsp; auf der Winkelhalbierenden liegen, muss dies auch für die Punkte&nbsp; 1&nbsp; und&nbsp; 2&nbsp; gelten &nbsp; &rArr; &nbsp; y1=x1.
 
::*&nbsp;Dies gilt für alle Parametereinstellungen&nbsp; y1=x1&nbsp; und auch für alle&nbsp; p1&nbsp; im erlaubten Bereich von &nbsp; 0&nbsp; bis&nbsp; 0.5.  
 
::*&nbsp;Dies gilt für alle Parametereinstellungen&nbsp; y1=x1&nbsp; und auch für alle&nbsp; p1&nbsp; im erlaubten Bereich von &nbsp; 0&nbsp; bis&nbsp; 0.5.  
Line 168: Line 186:
 
'''(2)'''&nbsp; Nun gelte x1=0.5, y1=0, p1=0.3&nbsp; Interpretieren Sie die Ergebnisse.&nbsp; Aktivieren Sie hierzu die Hilfsgerade. }}
 
'''(2)'''&nbsp; Nun gelte x1=0.5, y1=0, p1=0.3&nbsp; Interpretieren Sie die Ergebnisse.&nbsp; Aktivieren Sie hierzu die Hilfsgerade. }}
  
::*&nbsp;Diese Einstellung stimmt mit den Voraussetzungen von&nbsp; Beispiel 1&nbsp; und&nbsp; Beispiel 2&nbsp; überein.&nbsp; Insbesondere gilt&nbsp; $ \theta_{X \to Y}= 45^\circ.&nbsp; und &nbsp; \theta_{Y \to X}\approx 36^\circ$.
+
::*&nbsp;Diese Einstellung stimmt mit den Voraussetzungen zu&nbsp; Beispiel 1&nbsp; und&nbsp; Beispiel 2&nbsp; überein.&nbsp; Insbesondere gilt&nbsp; θXY=45&nbsp; und &nbsp;θYX36.
::*&nbsp;Durch Variation des Winkels&nbsp; $ \theta_{\rm H}$&nbsp; erkennt man, dass tatsächlich für&nbsp; $ \theta_{\rm H}= 45^\circ&nbsp;  die Kenngröße&nbsp;{\rm MQA}_X =0.15$&nbsp; den kleinsmöglichen Wert annimmt.
+
::*&nbsp;Durch Variation des Winkels&nbsp; $ \theta_{\rm HG}&nbsp; erkennt man, dass für&nbsp; \theta_{\rm HG}= 45^\circ&nbsp;  die Kenngröße&nbsp;{\rm MQA}_X =0.15$&nbsp; tatsächlich den kleinsten Wert annimmt.
::*&nbsp;Ebenso ergibt sich der kleinsmöglicher Abstand&nbsp; MQAY=0.109&nbsp; in&nbsp; y&ndash;Richtung  für&nbsp; $ \theta_{\rm H}= 36^\circ$, also entsprechend der Regressionsgeraden &nbsp;&nbsp; $R_{y \to x}$.   
+
::*&nbsp;Ebenso ergibt sich der kleinstmögliche Abstand&nbsp; MQAY=0.109&nbsp; in&nbsp; y&ndash;Richtung  für&nbsp; $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden&nbsp; $R_{Y \to X}$.   
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(3)'''&nbsp; Es gelten zunächst weiter die Einstellungen von&nbsp; '''(2)'''.&nbsp; Wie ändern sich die Ergebnisse nach Variation des Parameters&nbsp; p1&nbsp; im erlaubten Bereich&nbsp; (0p10.5)?}}
+
'''(3)'''&nbsp; Es gelten zunächst weiter die Einstellungen von&nbsp; '''(2)'''.&nbsp; Wie ändern sich die Ergebnisse nach Variation von&nbsp; p1&nbsp; im erlaubten Bereich&nbsp; (0p10.5)?}}
 
 
::*&nbsp;Die blaue Regressionsgerade verläuft weiter unter dem Winkel&nbsp; θXY=45.&nbsp; Das heißt:&nbsp; es gilt hier&nbsp; μXY=σ2Y, und zwar unabhängig von &nbsp; p1.
 
::*&nbsp;Mit&nbsp; p1=0&nbsp; sind nur die äußeren Punkte&nbsp; 3&nbsp; und&nbsp; 4&nbsp; wirksam &nbsp; &rArr; &nbsp; θYX=θXY=45,&nbsp; mit&nbsp; p1=0.5&nbsp; nur die inneren Punkte&nbsp; 1&nbsp; und&nbsp; 2&nbsp; &rArr; &nbsp; θYX=0.
 
::*&nbsp;Dazwischen wird die rote Regressionsgerade kontinuierlich flacher.&nbsp; Sind alle Punkte gleichwahrscheinlich&nbsp; (p1=0.25), dann ist&nbsp; θYX38.7.
 
  
 +
::*&nbsp;Die blaue Regressionsgerade&nbsp; RXY&nbsp; verläuft weiter unter dem Winkel&nbsp; θXY=45 &nbsp; &rArr; &nbsp; es gilt hier&nbsp; μXY=σ2Y, und zwar unabhängig von&nbsp; p1<0.5.
 +
::*&nbsp;Im Grenzfall&nbsp; p1=0.5&nbsp; ist wegen&nbsp; σY=0&nbsp; die blaue Regressionsgerade undefiniert.&nbsp; Es handelt sich nurmehr um eine 1D&ndash;Zufallsgröße&nbsp; X
 +
::*&nbsp;Mit&nbsp; p1=0&nbsp; sind nur die äußeren Punkte&nbsp; 3&nbsp; und&nbsp; 4&nbsp; wirksam &nbsp; &rArr; &nbsp; θYX=θXY=45,&nbsp; mit&nbsp; p1=0.5&nbsp; nur die inneren Punkte&nbsp;  &rArr; &nbsp; θYX=0.
 +
::*&nbsp;Dazwischen wird&nbsp; RYX&nbsp; kontinuierlich flacher.&nbsp; Sind alle Punkte gleichwahrscheinlich&nbsp; (p1=0.25), dann ist&nbsp; θYX38.7.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(4)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=15, p=0.3)undRot:Poissonverteilung(\lambda=4.5)$.
+
'''(4)'''&nbsp; Nun gelte&nbsp; $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.&nbsp; Variieren Sie&nbsp; $0\le p_1 < 0.5$&nbsp; und interpretieren Sie die Ergebnisse.&nbsp; $(p_1 = 0.5&nbsp; sollte man ausschließen)$.}}
:Welche Unterschiede ergeben sich  zwischen beiden Verteilungen hinsichtlich Mittelwert m1 und Varianz $\sigma^2$?}}
 
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Beide Verteilungern haben gleichen Mittelwert:}\hspace{0.2cm}m_\text{1, Blau}  = I \cdot p\ = 15 \cdot 0.3\hspace{0.15cm}\underline{ = 4.5 =} \  m_\text{1, Rot} = \lambda$;
 
  
$\hspace{1.85cm} \text{Binomialverteilung: }\hspace{0.2cm} \sigma_\text{Blau}^2 = m_\text{1, Blau} \cdot (1-p)\hspace{0.15cm}\underline { = 3.15} \le \text{Poissonverteilung: }\hspace{0.2cm} \sigma_\text{Rot}^2 = \lambda\hspace{0.15cm}\underline { = 4.5}$;
+
::*&nbsp;Wegen&nbsp; $\sigma_X \le \sigma_Y&nbsp; liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle&nbsp;p_1 \ne 0.5&nbsp; die Winkelhalbierende ist &nbsp; &rArr; &nbsp; \theta_{Y \to X}\approx 45^\circ$.
 +
::*&nbsp;Der Winkel der blauen Regressionsgerade wächst von&nbsp; $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)&nbsp; bis&nbsp; \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$&nbsp; kontinuierlich an.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(5)'''&nbsp; Es gelten die Einstellungen von '''(4)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(z  \gt 10)und{\rm Pr}(z \gt 15)$?}}
+
'''(5)'''&nbsp; Beginnen Sie mit&nbsp; $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$&nbsp; und vergrößern Sie&nbsp; $y_1$&nbsp; bis zum Endwert&nbsp; $y_1 = +0.8$.&nbsp; Interpretieren Sie die Ergebnisse.}}
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomial: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - {\rm Pr}(z  \le 10) = 1 - 0.9993 = 0.0007;\hspace{0.3cm} {\rm Pr}(z \gt 15) = 0 \ {\rm  (exakt)}$.
 
 
 
$\hspace{1.85cm}\text{Poisson: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - 0.9933 = 0.0067;\hspace{0.3cm}{\rm Pr}(z \gt 15) \gt  0 \ ( \approx 0)$
 
  
$\hspace{1.85cm} \text{Näherung: }\hspace{0.2cm}{\rm Pr}(z \gt 15) \ge {\rm Pr}(z = 16) = \lambda^{16}/{16!}\approx 2 \cdot 10^{-22}$.
+
::*&nbsp;Für&nbsp; y1=0.8&nbsp; ist&nbsp; $ \theta_{X \to Y}= 77.6^\circ&nbsp; und&nbsp; \theta_{Y \to X}= 12.4^\circ$.&nbsp; Mit steigendem&nbsp; y1&nbsp; verläuft&nbsp; $ R_{X \to Y}$&nbsp; (blau) flacher und&nbsp; $R_{Y \to X}$&nbsp; (rot) steiler.
 +
::*&nbsp;Im Endpunkt&nbsp; $(y_1 = +0.8)&nbsp; verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel&nbsp; \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(6)'''&nbsp; Es gelten weiter die Einstellungen von '''(4)'''. Mit welchen Parametern ergeben sich symmetrische Verteilungen um $m_1$?}}
+
'''(6)'''&nbsp; Abschließend gelte&nbsp; x1=+1, y1=1.&nbsp; Variieren Sie&nbsp; p1&nbsp; im gesamten zulässigen Bereich&nbsp; $0\le p_1 \le 0.5.&nbsp; Wann sind&nbsp;X$&nbsp; und&nbsp; $Y$&nbsp; unkorreliert?}}
 
 
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomialverung mit }p = 0.5\text{}p_\mu =  {\rm Pr}(z  = \mu)\text{ symmetrisch um } m_1 = I/2 = 7.5 \ ⇒  \ p_μ = p_{I–μ}\ ⇒  \ p_8 = p_7, \ p_9 = p_6,  \text{usw.}$  
+
::*&nbsp;Für&nbsp; p1=0&nbsp; gilt&nbsp; $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$&nbsp; Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
 +
::*&nbsp;Für&nbsp; $p_1 = 0.25&nbsp; sind die Winkel&nbsp; \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.&nbsp; Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen &nbsp; &rArr; &nbsp;\mu_{XY}=0$.
 +
::*&nbsp;Anschließend drehen beide Geraden weiter in gleicher Richtung.&nbsp; Für&nbsp; $p_1 = 0.5&nbsp; gilt schließlich:&nbsp; \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$
  
Die Poissonverteilung wird dagegen nie symmetrisch, da sie sich bis ins Unendliche erstreckt!
 
  
 
==Zur Handhabung des Applets==
 
==Zur Handhabung des Applets==
[[File:Handhabung_binomial.png|left|600px]]
+
[[File:Anleitung_korrelation_version2.png|left|600px]]
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Vorauswahl für blauen Parametersatz
+
<br><br><br><br><br>
 
+
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Einstellung der&nbsp; $x$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''  
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Parametereingabe $I$ und p per Slider
 
 
 
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Vorauswahl für roten Parametersatz
 
 
 
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Parametereingabe λ per Slider
 
 
 
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Graphische Darstellung der Verteilungen
 
 
 
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Momentenausgabe für blauen Parametersatz
 
 
 
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Momentenausgabe für roten Parametersatz
 
 
 
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Variation der grafischen Darstellung
 
  
 +
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Einstellung der&nbsp; y&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''
  
&bdquo;+&rdquo; (Vergrößern),
+
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Einstellung der&nbsp; Wahrscheinlichkeiten aller Punkte
  
$\hspace{1.5cm}$ &bdquo;&rdquo; (Verkleinern)
+
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Hilfsgerade mit Winkel&nbsp; $\theta_{\rm HG}$&nbsp; einblenden
  
&bdquo;$\rm o$&rdquo; (Zurücksetzen)
+
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Ausgabe der&nbsp; $\rm MQA$&ndash;Werte für Regressions&ndash; und Hilfsgerade
  
&bdquo;&rdquo; (Verschieben nach links),  usw.
+
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Numerikausgabe der statistischen Kenngrößen
  
&nbsp; &nbsp; '''( I )''' &nbsp; &nbsp; Ausgabe von Pr(z=μ) und Pr(zμ)
+
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Grafikbereich zur Darstellung der Regressionsgeraden
  
&nbsp; &nbsp; '''(J)''' &nbsp; &nbsp; Bereich für die Versuchsdurchführung
+
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Bereich für Übungen:&nbsp; Aufgabenauswahl, Fragen, Musterlösungen
 
<br clear=all>
 
<br clear=all>
<br>'''Andere Möglichkeiten zur Variation der grafischen Darstellung''':
 
*Gedrückte Shifttaste und Scrollen:  Zoomen im Koordinatensystem,
 
*Gedrückte Shifttaste und linke Maustaste: Verschieben des Koordinatensystems.
 
 
 
==Über die Autoren==
 
==Über die Autoren==
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
*Die erste Version wurde 2003 von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Ji_Li_.28Bachelorarbeit_EI_2003.2C_Diplomarbeit_EI_2005.29|Ji Li]] im Rahmen ihrer Diplomarbeit mit &bdquo;FlashMX&ndash;Actionscript&rdquo; erstellt (Betreuer: [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
+
*Die erste Version wurde 2005 von [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Studierende#Bettina_Hirner_.28Diplomarbeit_LB_2005.29|Bettina Hirner]] im Rahmen ihrer Diplomarbeit mit "FlashMX&ndash;Actionscript" erstellt (Betreuer: [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
*2018 wurde das Programm  von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Jimmy_He_.28Bachelorarbeit_2018.29|Jimmy He]]  (Bachelorarbeit, Betreuer: [[Biografien_und_Bibliografien/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  auf &bdquo;HTML5&rdquo; umgesetzt und neu gestaltet.
+
*2020 wurde das Programm  von [[Biographies_and_Bibliographies/An_LNTwww_beteiligte_Studierende#Veronika_Hofmann_.28Ingenieurspraxis_Math_2020.29|Veronika Hofmann]]  (Ingenieurspraxis Mathematik, Betreuer: [[Benedikt Leible]] und [[Biographies_and_Bibliographies/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  unter "HTML5" neu gestaltet.
  
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
  
{{LntAppletLink|verteilungen}}
+
{{LntAppletLink|correlation}}

Latest revision as of 16:46, 28 May 2021

Open Applet in a new tab

Programmbeschreibung


Als einfaches Beispiel einer 2D-Zufallsgröße  (X,Y)  betrachten wir den Fall, dass diese nur vier Werte annehmen kann:

  • Punkt  1  bei  (x1, y1)  mit Wahrscheinlichkeit  p1:   Die Parameter  x1, y1, p1  sind im Applet per Slider einstellbar.
  • Punkt  2  bei  (x2, y2)  mit Wahrscheinlichkeit  p2:   Die Parameter liegen durch den Punkt  1  fest:   x2=x1, y2=y1, p2=p1.
  • Punkt  3  bei  (+1,+1)  mit Wahrscheinlichkeit  p3=0.5p1:   Die Lage dieses Punktes ist im Applet fest vorgegeben.
  • Punkt  4  bei  (1,1)  mit Wahrscheinlichkeit  p4=p3:   Dieser Punkt liegt ebenso wie der Punkt  3  auf der Winkelhalbierenden.


Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:

  • Die Regressionsgerade  RXY  unter dem Winkel  θXY   ⇒   blaue Kurve,
  • die Regressionsgerade  RYX  unter dem Winkel  θYX   ⇒   rote Kurve,
  • eine Hilfsgerade  "(HG)" unter dem Winkel  θHG   ⇒   grüne Kurve, optional.


Als Zahlenwerte werden die zur Berechnung von  θXY  und  θYX  benötigten statistischen Kenngrößen ausgegeben:

  • die Streuungen (Standardabweichungen)  σX  und  σY  der Komponenten  X  bzw.  Y,
  • die Kovarianz  μXY  ⇒   Zentralmoment erster Ordnung der 2D-Zufallsgröße  (X,Y),
  • der Korrelationskoeffizient  ρXY  zwischen den 2D-Zufallsgröße  X  und  Y.


Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in x– und y–Richtung zu dieser lässt sich nachvollziehen, dass

  • die rote Regressionsgerade  RXY  die Eigenschaft hat, dass der mittlere quadrische Abstand aller Punkte in  y–Richtung   ⇒   MQAY  von dieser minimal ist,
  • während für die blaue Regressionsgerade  RYX  der mittlere quadrische Abstand aller Punkte in  x–Richtung   ⇒   MQAX  zum Minimum führt.



Theoretischer Hintergrund


Erwartungswerte von 2D–Zufallsgrößen und Korrelationskoeffizient

Wir betrachten eine zweidimensionale  (2D)–Zufallsgröße  (X, Y)  mit der Wahrscheinlichkeitsdichtefunktion  (WDF)  fXY(x,y), wobei zwischen den Einzelkomponenten  X  und  Y  statistische Abhängigkeiten bestehen.  Ein Sonderfall ist die Korrelation.

Definition:  Unter  Korrelation  versteht man eine lineare Abhängigkeit  zwischen den Einzelkomponenten  X  und  Y.

  • Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
  • Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.


Für das Folgende setzen wir voraus, dass  X  und  Y  mittelwertfrei seien   ⇒   E[X]=E[Y]=0.  Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:

  • die  Varianzen  in  X–  bzw. in  Y–Richtung:
σ2X=E[X2]=+x2fX(x)dx,σ2Y=E[Y2]=+y2fY(y)dy;
  • die  Kovarianz  zwischen den Einzelkomponenten  X  und  Y:
μXY=E[XY]=++x yfXY(x,y)dxdy.

Bei statistischer Unabhängigkeit der beiden Komponenten  X  und  Y  ist die Kovarianz  μXY0

  • Das Ergebnis  μXY=0  ist auch bei statistisch abhängigen Komponenten  X  und  Y  möglich, nämlich dann, wenn diese unkorreliert, also  linear unabhängig  sind.
  • Die statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung  Y=X2.


Man spricht dann von  vollständiger Korrelation, wenn die (deterministische) Abhängigkeit zwischen  X  und  Y  durch die Gleichung  Y=K·X  ausgedrückt wird.

Dann ergibt sich für die Kovarianz:

  • μXY=σX·σY  bei positivem Wert von  K,
  • μXY=σX·σY  bei negativem  K–Wert.


Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.

Definition:  Der  Korrelationskoeffizient  ist der Quotient aus der Kovarianz  μXY  und dem Produkt der Effektivwerte  σX  und  σY  der beiden Komponenten:

ρXY=μXYσXσY.


Der Korrelationskoeffizient  ρXY  weist folgende Eigenschaften auf:

  • Aufgrund der Normierung gilt stets  1ρXY+1.
  • Sind die beiden Zufallsgrößen  X  und  Y  unkorreliert, so ist  ρXY=0.
  • Bei strenger linearer Abhängigkeit zwischen  X  und  Y  ist  ρXY=±1   ⇒   vollständige Korrelation.
  • Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem  X–Wert im statistischen Mittel auch  Y  größer ist als bei kleinerem  X.
  • Dagegen drückt ein negativer Korrelationskoeffizient aus, dass  Y  mit steigendem  X  im Mittel kleiner wird.


2D-WDF  fXY(x,y)  sowie die zugehörigen Randwahrscheinlichkeitsdichten  fX(x)  und  fY(y)

Beispiel 1:  Die 2D–Zufallsgröße  (X, Y)  sei diskret und kann nur vier verschiedene Werte annehmen:

  • (+0.5, 0)  sowie (0.5, 0)  jeweils mit der Wahrscheinlichkeit  0.3,
  • (+1, +1)  sowie (1, 1)  jeweils mit der Wahrscheinlichkeit  0.2.


(A)  Die Varianzen bzw. die Streuungen können aus   fX(x)  und  fY(y)  berechnet werden:

σ2X=2[0.212+0.30.52]=0.55σX=0.7416,
σ2Y=[0.2(1)2+0.602+0.2(+1)2]=0.4σY=0.6325.

(B)  Für die Kovarianz ergibt sich der folgende Erwartungswert:

μXY=E[XY]=2[0.211+0.30.50]=0.4.

(C)  Damit erhält man für den Korrelationskoeffizienten:

ρXY=μXYσXσY=0.40.74160.63250.8528.


Eigenschaften der Regressionsgeraden

Gaußsche 2D-WDF mit Korrelationsgerade  K

Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen  X  und  Y  anzugeben, deren 2D-WDF  fXY(x,y)  durch Punkte  (x1,y1)  ...  (xN,yN)  in der  (x, y)–Ebene vorgegeben ist.  Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen: 

Gesucht ist die Gleichung der Geraden  K  ⇒   y=coptx  mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand  (MQA)  aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als  Korrelationsgerade. Diese kann als eine Art  „statistische Symmetrieachse“  interpretiert werden.

Bei einer großen Menge  N  empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter  C=copt  zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in  x– oder in  y–Richtung definiert.

Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade  K  identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien  (siehe Abschnitt 2.3).


(a)Regressionsgerade RYX     (rote Gerade in der App)

Hier wird der  y–Wert auf den  x–Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen "Zurückfallen" des Wortes "Regression" entspricht.

  • Geradengleichung,  Winkel  θYX  der Geraden  RYX  zur  x–Achse:
y=CYXx   mit   CYX=σYσXρXY=μXYσ2X,θYX=arctan (CYX).
  • Kriterium:   Der mittlere Abstand aller Punkte  (xn,yn)  von der Regressionsgeraden RYX  in  y–Richtung ist minimal:
MQAY=E[ynCYXxn]2=1NNn=1[ynCYXxn]2=Minimum.
Die zweite Gleichung gilt nur, wenn alle Punkte  (xn,yn)  der 2D–WDF gleichwahrscheinlich sind.


(b)Regressionsgerade RXY     (blaue Gerade in der App)

Die Regression in Gegenrichtung  (also von  X  auf  Y)  bedeutet dagegen, dass der x–Wert auf den y–Wert zurückgeführt wird.  Für  MQAX  ergibt sich der minimale Wert.

  • Geradengleichung,  Winkel  θXY  der Geraden  RXY  zur   x–Achse:
y=CXYx  mit  CXY=σYσXρXY=σ2YμXY,θXY=arctan (CXY).
  • Kriterium:   Der mittlere Abstand aller Punkte  (xn,yn)  von der Regressionsgeraden  RXY  in  x–Richtung ist minimal:
MQAX=E[xnyn/CXY]2=1NNn=1[xnyn/CXY]2=Minimum.
Die beiden Regressionsgeraden

Beispiel 2:  Es gelten die gleichen Voraussetzungen wie im  Beispiel 1  und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.

In der oberen Grafik ist die Regressionsgerade  RXY  als blaue Kurve eingezeichnet:

  • Hierfür ergibt sich  CXY=σ2Y/μXY=1  und dementsprechend  θXY=arctan (1)=45.
  • Für den mittleren Abstand aller vier Punkte  (xn,yn)  von der Regressionsgeraden RXY  in  x–Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
MQAX=E[xnyn/Cxy]2=2[0.2[11/1]2+0.3[0.50/1]2]=0.15.
  • Jede Gerade mit einem anderen Winkel als  45  führt hier zu einem größeren  MQAX.


Betrachten wir nun die rote Regressionsgerade  RYX  in der unteren Grafik.

  • Hierfür ergibt sich  CYX=μXY/σ2X=0.4/0.550.727  und  θYX=arctan (0.727)36.
  • Hier ist nun der mittlere Abstand der vier Punkte  (xn,yn)  von der Regressionsgeraden RYX  in  y–Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
MQAY=E[ynCYXxn]2=2[0.2[10.7271]2+0.3[00.7270.5]2]0.109.

Die im Text erwähnte "Korrelationsgerade" mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand  (MQA)  aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.

Der Sonderfall Gaußscher 2D–Zufallsgrößen

Im Sonderfall einer mittelwertfreien   Gaußschen 2–Zufallsgröße  (X, Y)  lautet die Verbundwahrscheinlichkeitsdichtefunktion:

fXY(x,y)=12πσXσY1ρ2XYexp[12(1ρ2XY)(x2σ2X+y2σ2Y2ρXYxyσXσY)].
  • Ersetzt man  x  durch  (xmX)  sowie  y  durch  (ymY), so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
  • Die beiden Randwahrscheinlichkeitsdichtefunktionen fX(x)  und fY(y)  einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen  σX  bzw.  σY.
  • Bei unkorrelierten Komponenten  X  und  Y  muss in obiger Gleichung  ρXY=0  eingesetzt werden,  und man erhält dann das Ergebnis:
KRYX  und  RXY  bei Gaußschen 2D–Zufallsgrößen
fXY(x,y)=12πσXex2/(2σ2X)12πσYey2/(2σ2Y)=fX(x)fY(y).
  • Bei korrelierten Komponenten  X  und  Y   ⇒   ρXY0  sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade  K  ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
θK=1/2arctan (2ρXYσXσYσ2Xσ2Y).
  • Die (rote) Regressionsgerade  RYX  einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.  Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
  • In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.  Die (blaue) Regressionsgerade  RXY  ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.



Versuchsdurchführung

Exercises binomial fertig.png
  • Wählen Sie zunächst die Nummer 1 ... 6 der zu bearbeitenden Aufgabe.
  • Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
  • Lösung nach Drücken von "Musterlösung".
  • Die Nummer  0  entspricht einem "Reset":  Gleiche Einstellung wie beim Programmstart.


In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:

  • Rot:     Regressionsgerade  RYX  (im Applet rot gezeichnet),
  • Blau:   Regressionsgerade  RXY  (im Applet blau gezeichnet).


(1)  Mit welcher Parametereinstellung sind die beiden Regressionsgeraden  RYX  und  RXY  deckungsgleich?

  •  Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel  45  verlaufen   ⇒   "Winkelhalbierende".
  •  Da die fest vorgegebenen Punkte  3  und  4  auf der Winkelhalbierenden liegen, muss dies auch für die Punkte  1  und  2  gelten   ⇒   y1=x1.
  •  Dies gilt für alle Parametereinstellungen  y1=x1  und auch für alle  p1  im erlaubten Bereich von   0  bis  0.5.

(2)  Nun gelte x1=0.5, y1=0, p1=0.3  Interpretieren Sie die Ergebnisse.  Aktivieren Sie hierzu die Hilfsgerade.

  •  Diese Einstellung stimmt mit den Voraussetzungen zu  Beispiel 1  und  Beispiel 2  überein.  Insbesondere gilt  θXY=45  und  θYX36.
  •  Durch Variation des Winkels  θHG  erkennt man, dass für  θHG=45  die Kenngröße  MQAX=0.15  tatsächlich den kleinsten Wert annimmt.
  •  Ebenso ergibt sich der kleinstmögliche Abstand  MQAY=0.109  in  y–Richtung für  θHG=36, also entsprechend der Geraden  RYX.

(3)  Es gelten zunächst weiter die Einstellungen von  (2).  Wie ändern sich die Ergebnisse nach Variation von  p1  im erlaubten Bereich  (0p10.5)?

  •  Die blaue Regressionsgerade  RXY  verläuft weiter unter dem Winkel  θXY=45   ⇒   es gilt hier  μXY=σ2Y, und zwar unabhängig von  p1<0.5.
  •  Im Grenzfall  p1=0.5  ist wegen  σY=0  die blaue Regressionsgerade undefiniert.  Es handelt sich nurmehr um eine 1D–Zufallsgröße  X.
  •  Mit  p1=0  sind nur die äußeren Punkte  3  und  4  wirksam   ⇒   θYX=θXY=45,  mit  p1=0.5  nur die inneren Punkte  ⇒   θYX=0.
  •  Dazwischen wird  RYX  kontinuierlich flacher.  Sind alle Punkte gleichwahrscheinlich  (p1=0.25), dann ist  θYX38.7.

(4)  Nun gelte  x1=0, y1=0.5, p1=0.3.  Variieren Sie  0p1<0.5  und interpretieren Sie die Ergebnisse.  (p1=0.5  sollte man ausschließen).

  •  Wegen  σXσY  liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle  p10.5  die Winkelhalbierende ist   ⇒   θYX45.
  •  Der Winkel der blauen Regressionsgerade wächst von  θXY=45 (p1=0)  bis  θXY90 (p10.5)  kontinuierlich an.

(5)  Beginnen Sie mit  x1=0.8, y1=0.8, p1=0.25  und vergrößern Sie  y1  bis zum Endwert  y1=+0.8.  Interpretieren Sie die Ergebnisse.

  •  Für  y1=0.8  ist  θXY=77.6  und  θYX=12.4.  Mit steigendem  y1  verläuft  RXY  (blau) flacher und  RYX  (rot) steiler.
  •  Im Endpunkt  (y1=+0.8)  verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel  θXY=θYX=45.

(6)  Abschließend gelte  x1=+1, y1=1.  Variieren Sie  p1  im gesamten zulässigen Bereich  0p10.5.  Wann sind  X  und  Y  unkorreliert?

  •  Für  p1=0  gilt  θXY=θYX=45.  Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
  •  Für  p1=0.25  sind die Winkel  θXY=90, θYX=0.  Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen   ⇒   μXY=0.
  •  Anschließend drehen beide Geraden weiter in gleicher Richtung.  Für  p1=0.5  gilt schließlich:  θXY=135=45, θYX=45.


Zur Handhabung des Applets

Anleitung korrelation version2.png






    (A)     Einstellung der  x–Koordinaten für  (1)  und  (2)

    (B)     Einstellung der  y–Koordinaten für  (1)  und  (2)

    (C)     Einstellung der  Wahrscheinlichkeiten aller Punkte

    (D)     Hilfsgerade mit Winkel  θHG  einblenden

    (E)     Ausgabe der  MQA–Werte für Regressions– und Hilfsgerade

    (F)     Numerikausgabe der statistischen Kenngrößen

    (G)     Grafikbereich zur Darstellung der Regressionsgeraden

    (H)     Bereich für Übungen:  Aufgabenauswahl, Fragen, Musterlösungen

Über die Autoren

Dieses interaktive Berechnungstool wurde am Lehrstuhl für Nachrichtentechnik der Technischen Universität München konzipiert und realisiert.

Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster

Open Applet in a new tab