Korrelation und Regressionsgerade
Contents
Programmbeschreibung
Theoretischer Hintergrund
Erwartungswerte von 2D–Zufallsgrößen und Korrelationskoeffizient
Wir betrachten eine zweidimensionale (2D)–Zufallsgröße (X, Y) mit der Wahrscheinlichkeitsdichtefunktion (WDF) fXY(x,y), wobei zwischen den Einzelkomponenten X und Y statistische Abhängigkeiten bestehen. Ein Sonderfall ist die Korrelation.
Definition: Unter Korrelation versteht man eine lineare Abhängigkeit zwischen den Einzelkomponenten X und Y.
- Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
- Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.
Für das Folgende setzen wir voraus, dass X und Y mittelwertfrei seien ⇒ E[X]=E[Y]=0. Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:
- die Varianzen in X– bzw. in Y–Richtung:
- σ2X=E[X2]=∫+∞−∞x2⋅fX(x)dx,σ2Y=E[Y2]=∫+∞−∞y2⋅fY(y)dy;
- die Kovarianz zwischen den Einzelkomponenten X und Y:
- μXY=E[X⋅Y]=∫+∞−∞∫+∞−∞x ⋅y⋅fXY(x,y)dxdy.
Bei statististischer Unabhängigkeit der beiden Komponenten X und Y ist die Kovarianz μXY≡0.
- Das Ergebnis μXY=0 ist auch bei statistisch abhängigen Komponenten X und Y möglich, nämlich dann, wenn diese unkorreliert, also linear unabhängig sind.
- Die statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung Y=X2.
Man spricht dann von vollständiger Korrelation, wenn die (deterministische) Abhängigkeit zwischen X und Y durch die Gleichung Y=K·X ausgedrückt wird.
Dann ergibt sich für die Kovarianz:
- μXY=σX·σY bei positivem Wert von K,
- μXY=−σX·σY bei negativem K–Wert.
Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.
Definition: Der Korrelationskoeffizient ist der Quotient aus der Kovarianz μXY und dem Produkt der Effektivwerte σX und σY der beiden Komponenten:
- ρXY=μXYσX⋅σY.
Der Korrelationskoeffizient ρXY weist folgende Eigenschaften auf:
- Aufgrund der Normierung gilt stets −1≤ρXY≤+1.
- Sind die beiden Zufallsgrößen X und Y unkorreliert, so ist ρXY=0.
- Bei strenger linearer Abhängigkeit zwischen X und Y ist ρXY=±1 ⇒ vollständige Korrelation.
- Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem X–Wert im statistischen Mittel auch Y größer ist als bei kleinerem X.
- Dagegen drückt ein negativer Korrelationskoeffizient aus, dass Y mit steigendem X im Mittel kleiner wird.
Beispiel 1: Die 2D–Zufallsgröße (X, Y) sei diskret und kann nur vier verschiedene Werte annehmen:
- (+0.5, 0) sowie (−0.5, 0) jeweils mit der Wahrscheinlichkeit 0.3,
- (+1, +1) sowie (−1, −1) jeweils mit der Wahrscheinlichkeit 0.2.
(A) Die Varianzen bzw. die Streuungen können aus fX(x) und fY(y) berechnet werden:
- σ2X=2⋅[0.2⋅12+0.3⋅0.52]=0.55⇒σX=0.7416,
- σ2Y=[0.2⋅(−1)2+0.6⋅02+0.2⋅(+1)2]=0.4⇒σY=0.6325.
(B) Für die Kovarianz ergibt sich der folgende Erwartungswert:
- μXY=E[X⋅Y]=2⋅[0.2⋅1⋅1+0.3⋅0.5⋅0]=0.4.
(C) Damit erhält man für den Korrelationskoeffizient:
- ρXY=μXYσX⋅σY=0.40.7416⋅0.6325≈0.8528.
Regressionsgerade
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen X und Y zu anzugeben, deren 2D-WDF fXY(x,y) durch Punkte (x1,y1) ... (xN,yN) in der (x, y)–Ebene vorgegeben ist. Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen: Gesucht ist die Gleichung der Geraden K ⇒ y=copt⋅x mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand (MQA) aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als Korrelationsgerade. Diese kann als eine Art „statistische Symmetrieachse“ interpretiert werden.
Bei einer großen Datenmenge N ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter C=copt zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in x– oder in y–Richtung definiert.
(a)Regressionsgerade RY→X (rote Gerade in der App)
Der y–Wert wird auf den x–Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen „Zurückfallen” des Wortes „Regression” entspricht.
- Geradengleichung, Winkel θY→X der Geraden RY→X zur x–Achse:
- y=CY→X⋅x mit CY→X=σYσX⋅ρXY=μXYσ2X,θY→X=arctan (CY→X).
- Kriterium: Der mittlere Abstand aller Punkte (xn,yn) von der Regressionsgeraden RY→X in y–Richtung ist minimal:
- MQAY=E[yn−CY→X⋅xn]2=1N⋅N∑ν=1[yn−CY→X⋅xn]2=Minimum.
- Die zweite Gleichung gilt nur, wenn alle Punkte (xn,yn) der 2D–WDF gleichwahrscheinlich sind.
(b)Regressionsgerade RX→Y (blaue Gerade in der App)
Die Regression in Gegenrichtung (also von X auf Y) bedeutet dagegen, dass der x–Wert auf den y–Wert zurückgeführt wird. Für MQAY ergibt sich der minimale Wert.
- Geradengleichung, Winkel θX→Y der Geraden RX→Y zur x–Achse:
- y=CX→Y⋅x mit CX→Y=σXσY⋅ρXY=μXYσ2Y,θX→Y=arctan (CX→Y).
- Kriterium: Der mittlere Abstand aller Punkte (xn,yn) von der Regressionsgeraden RX→Y in x–Richtung ist minimal:
- MQAX=E[xn−yn/Cx→y]2=1N⋅N∑ν=1[xn−yn/Cx→y]2=Minimum.
Beispiel 2: Es gelten die gleichen Voraussetzungen wie im Beispiel 1 und es werden auch die dort gefundenen Ergebnisse verwendet.
In der oberen Grafik ist die Regressionsgerade Rx→y als blaue Kurve eingezeichnet:
- Hierfür ergibt sich Cx→y=μXY/σ2Y=1 und dementsprechend θx→y=arctan (1)=45∘.
- Für den mittleren Abstand aller vier Punkte (xn,yn) von der Regressionsgeraden Rx→y in x–Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die blaue Horizontale):
- MQAX=E[xn−yn/Cx→y]2=2⋅[0.2⋅[1−1/1]2+0.3⋅[0.5−0/1]2]=0.15.
- Jede Gerade mit einem anderen Winkel als 45∘ führt hier zu einem größeren MQAX.
Betrachten wir nun die rote Regressionsgerade Ry→x in der unteren Grafik.
- Hierfür ergibt sich Cy→x=μXY/σ2X=0.4/0.55≈0.727 und θy→x=arctan (0.727)≈36∘.
- Hier ist nun der mittlere Abstand der vier Punkte (xn,yn) von der Regressionsgeraden Ry→x in y–Richtung minimal (beachten Sie die roten Vertikalen):
- MQAY=E[yn−Cy→x⋅xn]2=2⋅[0.2⋅[1−0.727⋅1]2+0.3⋅[0−0.727⋅0.5]2]≈0.109.
Die im Text erwähnte „Korrelationsgerade” mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand (MQA) aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.
Versuchsdurchführung
Eventuell noch überarbeiten
- Wählen Sie zunächst die Nummer 1 ... 6 der zu bearbeitenden Aufgabe.
- Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
- Lösung nach Drücken von „Hide solution”.
- Aufgabenstellung und Lösung in Englisch.
Die Nummer 0 entspricht einem „Reset”:
- Gleiche Einstellung wie beim Programmstart.
- Ausgabe eines „Reset–Textes” mit weiteren Erläuterungen zum Applet.
Ende Überarbeitung Voreinstellung für Nummer 0 wie bei den Beispielen vorne
In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:
- Rot: Regressionsgerade Ry→x (im Applet rot gezeichnet),
- Blau: Regressionsgerade Rx→y (im Applet blau gezeichnet).
(1) Mit welcher Parametereinstellung sind die beiden Regressionsgerade Ry→x und Rx→y deckungsgleich?
- Es ist offensichtlich, dass gleiche Regressionsgerade nur möglich sind, wenn diese unter dem Winkel 45∘ verlaufen ⇒ „Winkelhalbierende”.
- Da die fest vorgegebenen Punkte 3 und 4 auf der Winkelhalbierenden liegen, muss dies auch für die Punkte 1 und 2 gelten ⇒ y1=x1.
- Dies gilt für alle Parametereinstellungen y1=x1 und auch für alle p1 im erlaubten Bereich von 0 bis 0.5.
(2) Nun gelte x1=0.5, y1=0, p1=0.3 Interpretieren Sie die Ergebnisse. Aktivieren Sie hierzu die Hilfsgerade.
- Diese Einstellung stimmt mit den Voraussetzungen von Beispiel 1 und Beispiel 2 überein. Insbesondere gilt θx→y=45∘. und θy→x≈36∘.
- Durch Variation des Winkels θH erkennt man, dass tatsächlich für θH=45∘ die Kenngröße MQAX=0.15 den kleinsmöglichen Wert annimmt.
- Ebenso ergibt sich der kleinsmöglicher Abstand MQAY=0.109 in y–Richtung für θH=36∘, also entsprechend der Regressionsgeraden Ry→x.
(3) Es gelten zunächst weiter die Einstellungen von (2). Wie ändern sich die Ergebnisse nach Variation des Parameters p1 im erlaubten Bereich (0≤p1≤0.5)?
- Die blaue Regressionsgerade verläuft weiter unter dem Winkel θY→X=45∘. und θy→x≈36∘.
⇒Mittelwert:m1=I⋅p⇒m1, Blau=5⋅0.4=2=_ m1, Rot=10⋅0.2;
Streuung:σ=√I⋅p⋅(1−p)=√m1⋅(1−p)⇒σBlau=√2⋅0.6=1.095<σRot=√2⋅0.8=1.265.
(4) Setzen Sie Blau: Binomialverteilung (I=15,p=0.3) und Rot: Poissonverteilung (λ=4.5).
- Welche Unterschiede ergeben sich zwischen beiden Verteilungen hinsichtlich Mittelwert m1 und Varianz σ2?
⇒Beide Verteilungern haben gleichen Mittelwert:m1, Blau=I⋅p =15⋅0.3=4.5=_ m1, Rot=λ;
Binomialverteilung: σ2Blau=m1, Blau⋅(1−p)=3.15_≤Poissonverteilung: σ2Rot=λ=4.5_;
(5) Es gelten die Einstellungen von (4). Wie groß sind die Wahrscheinlichkeiten Pr(z>10) und Pr(z>15)?
⇒Binomial: Pr(z>10)=1−Pr(z≤10)=1−0.9993=0.0007;Pr(z>15)=0 (exakt).
Poisson: Pr(z>10)=1−0.9933=0.0067;Pr(z>15)>0 (≈0)
Näherung: Pr(z>15)≥Pr(z=16)=λ16/16!≈2⋅10−22.
(6) Es gelten weiter die Einstellungen von (4). Mit welchen Parametern ergeben sich symmetrische Verteilungen um m1?
\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomialverung mit }p = 0.5\text{: }p_\mu = {\rm Pr}(z = \mu)\text{ symmetrisch um } m_1 = I/2 = 7.5 \ ⇒ \ p_μ = p_{I–μ}\ ⇒ \ p_8 = p_7, \ p_9 = p_6, \text{usw.}
\hspace{1.85cm}\text{Die Poissonverteilung wird dagegen nie symmetrisch, da sie sich bis ins Unendliche erstreckt!}
Zur Handhabung des Applets
(A) Vorauswahl für blauen Parametersatz
(B) Parametereingabe I und p per Slider
(C) Vorauswahl für roten Parametersatz
(D) Parametereingabe \lambda per Slider
(E) Graphische Darstellung der Verteilungen
(F) Momentenausgabe für blauen Parametersatz
(G) Momentenausgabe für roten Parametersatz
(H) Variation der grafischen Darstellung
\hspace{1.5cm}„+” (Vergrößern),
\hspace{1.5cm} „-” (Verkleinern)
\hspace{1.5cm} „\rm o” (Zurücksetzen)
\hspace{1.5cm} „\leftarrow” (Verschieben nach links), usw.
( I ) Ausgabe von {\rm Pr} (z = \mu) und {\rm Pr} (z \le \mu)
(J) Bereich für die Versuchsdurchführung
Andere Möglichkeiten zur Variation der grafischen Darstellung:
- Gedrückte Shifttaste und Scrollen: Zoomen im Koordinatensystem,
- Gedrückte Shifttaste und linke Maustaste: Verschieben des Koordinatensystems.
Über die Autoren
Dieses interaktive Berechnungstool wurde am Lehrstuhl für Nachrichtentechnik der Technischen Universität München konzipiert und realisiert.
- Die erste Version wurde 2003 von Ji Li im Rahmen ihrer Diplomarbeit mit „FlashMX–Actionscript” erstellt (Betreuer: Günter Söder).
- 2018 wurde das Programm von Jimmy He (Bachelorarbeit, Betreuer: Tasnád Kernetzky ) auf „HTML5” umgesetzt und neu gestaltet.