Lineare Regression - LinkFang.de





Lineare Regression


Die lineare Regression, die einen Spezialfall des allgemeinen Konzepts der Regressionsanalyse darstellt, ist ein statistisches Verfahren, mit dem versucht wird, eine beobachtete abhängige Variable durch eine oder mehrere unabhängige Variablen zu erklären. Das Beiwort „linear“ ergibt sich dabei daraus, dass die Regressionskoeffizienten (nicht unbedingt auch die Variablen selbst) in diesem Fall in erster Potenz in das Regressionsmodell eingehen.

Einfache lineare Regression

Das einfache lineare Regressionsmodell geht von zwei metrischen Größen aus: einer Einflussgröße [math]x[/math] und einer Zielgröße [math]y[/math]. Zu beiden liegen [math]n[/math] Messungen [math](x_1; y_1), \ldots, (x_n; y_n)[/math] vor, die in einem funktionalen Zusammenhang stehen, der sich aus einem systematischen und einem stochastischen Teil zusammensetzt:

[math]y_i =\underbrace{m(x_i) }_\text{systematische Komponente}+ \underbrace{\varepsilon_i }_\text{stochastische Komponente}[/math]

Die einfache lineare Regression versucht, statt mit einer beliebigen Anzahl von Parametern [math]\theta_1, \theta_2, \dots, \theta_K[/math], einen linearen Zusammenhang zwischen der Einfluss- und der Zielgröße mithilfe von zwei linearen Parametern [math]\theta_1[/math] und [math]\theta_2[/math] herzustellen ([math]K=2[/math]). Aus diesem Grund wird die Regressionsfunktion [math]m[/math] wie folgt spezifiziert:

[math]m(x) = \theta_1 +\theta_2 x [/math] (Linearität),

woraus sich das einfach lineare Regressionsmodell ergibt:

[math]y_i = \theta_1 +\theta_2 \ x_i + \varepsilon_i, \quad i=1,\dots,n[/math]

Bildlich gesprochen wird eine Gerade durch die Punktwolke der Messung gelegt. In der gängigen Literatur wird die Gerade oft durch den Achsenabschnitt [math]\beta_0[/math] und die Steigung [math]\beta_1[/math] beschrieben. Die abhängige Variable (in diesem Kontext oft auch endogene Variable genannt) [math]y[/math] kann dadurch in Abhängigkeit vom Regressor (oft auch exogene Variable genannt) [math]x[/math], bei oben genannter Notation, wie folgt dargestellt werden:

[math]y_i = \beta_0 + \beta_1 \ x_i + \varepsilon_i, \quad i=1,\dots,n[/math]

Dabei ist [math]\varepsilon_i[/math] ein additiver stochastischer Fehlerterm, der Abweichungen vom idealen Zusammenhang – also der Geraden – achsenparallel misst. Im Gegensatz zur exogenen und endogenen Variablen ist die Zufallskomponente [math]\varepsilon_i[/math] nicht direkt beobachtbar. Ihre Realisationen sind nur Indirekt über die Regression beobachtbar und heißen Residuen.

In Bezug auf den Fehlerterm werden folgende Annahmen getroffen:

  • Die Fehlerterme sind unabhängig: [math]\varepsilon_i, \dots,\varepsilon_n[/math] sind voneinander unabhängige Zufallsvariablen.
  • Der Erwartungswert der additiven Fehlerterme ist Null: [math]\forall i\colon \operatorname{E}(\varepsilon_i) = 0[/math]
  • Die Fehlerterme sind unkorreliert: [math]\forall i \ne j\colon \operatorname{Cov}( \varepsilon_i, \varepsilon_j)=\operatorname{E}[(\varepsilon_i - \operatorname{E}(\varepsilon_i))(( \varepsilon_j - \operatorname{E}( \varepsilon_j))]= \operatorname{E}(\varepsilon_i \varepsilon_j)= 0[/math]
  • und besitzen eine konstante Varianz (Homoskedastizität): [math]\forall i\colon \operatorname{Var}(\varepsilon_i) = \operatorname{E}[(\varepsilon_i- \operatorname{E}(\varepsilon_i))^2]= \sigma^2 = const. [/math]

Alle oben genannten Annahmen über die Fehlerterme lassen sich so zusammenfassen:

[math]\forall i\colon \varepsilon_i \stackrel{i.i.d.}{\sim} (0,\sigma^2)[/math]

Optionale Annahme:

  • Die Fehlerterme sind normalverteilt: [math]\varepsilon_i \sim \mathcal{N}(0,\sigma^2)[/math]

Aus der Normalverteilung der Fehlerterme folgt, dass auch [math]y_i[/math] normalverteilt ist:

[math]y_i \sim \mathcal{N}(\operatorname{E}(y_i), \operatorname{Var}(y_i))[/math].

Die Verteilung der [math]y_i[/math] hängt also von der Verteilung der Fehlerterme ab. Der Erwartungswert der abhängigen Variablen, bei gegebenen Daten [math]x_i[/math] lautet:

[math]\operatorname{E}(y_i|x_i)=\operatorname{E}(\beta_0 + \beta_1 x_i +\varepsilon_i)=\beta_0 + \beta_1 x_i[/math]

Für die Varianz der abhängigen Variablen gilt:

[math]\operatorname{Var}(y_i) = \operatorname{Var}(\beta_0 + \beta_1 x_i +\varepsilon_i)=\sigma^2[/math]

Damit ergibt sich für die Verteilung der abhängigen bzw. endogenen Variablen:

[math]y_i \sim \mathcal{N}(\beta_0 + \beta_1 x_i,\sigma^2)[/math]

Da aufgrund der Annahme, dass die Fehlerterme im Mittel null sein müssen, der bedingte Erwartungswert von [math]y_i[/math] ([math]\operatorname{E}(y_i|x_i)[/math]) dem wahren Modell

[math]y_i= \beta_0 + \beta_1 x_i[/math]

entspricht, stellen wir mit der Annahme über die Fehlerterme die Forderung, dass unser Modell im Mittel korrekt sein muss.

Schätzung der Regressionskoeffizienten

Um nun die Parameter der Gerade zu bestimmen, wird die Summe der quadrierten Fehlerterme mittels der Methode der kleinsten Quadrate minimiert.

[math](b_0 , b_1) =\underset{\beta_0,\,\beta_1 \in \mathbb{R}}{\operatorname{arg\,min}} \ S(\beta_0,\,\beta_1)= \underset{\beta_0,\,\beta_1 \in \mathbb{R}}{\operatorname{arg\,min}} \sum_{i=1}^n \varepsilon_i^2 = \underset{\beta_0,\,\beta_1 \in \mathbb{R}}{\operatorname{arg\,min}} \sum_{i=1}^n (y_i-(\beta_0 + \beta_1 x_i))^2[/math]

Die Bedingungen erster Ordnung lauten:

[math]\left. \frac{\partial S(\beta_0,\,\beta_1)}{\partial \beta_0 } \right|_{b_0} \overset \mathrm{!} = \; 0[/math]
[math]\left. \frac{\partial S(\beta_0,\,\beta_1)}{\partial \beta_1 } \right|_{b_1} \overset \mathrm{!} = \; 0[/math]

Durch Nullsetzen der partiellen Ableitungen nach [math]\beta_0[/math] und [math]\beta_1[/math] ergeben sich die gesuchten Parameter, bei denen die Residuenquadratsumme minimal wird:

[math]b_1 = \frac{n \cdot\boldsymbol x^T \boldsymbol y - 1\!\!1^T \boldsymbol x \cdot 1\!\!1^T \boldsymbol y}{n \cdot \boldsymbol x^T \boldsymbol x - (1\!\!1^T \boldsymbol x)^2}= \frac{\sum\limits_{i=1}^n (x_i - \bar x)(y_i - \bar y)}{\sum\limits_{i=1}^n (x_i - \bar x)^2}= \frac{ \operatorname{Cov}[x, y] }{ \operatorname{Var}[x] }[/math]
[math]b_0 = \frac{1}{n}(1\!\!1^T \boldsymbol y - b_1 \cdot 1\!\!1^T \boldsymbol x)= \bar y - b_1 \bar x[/math]

Dabei ist der Vektor [math]1\!\!1^T = (1 \dots 1)^T[/math] der [math]n[/math]-dimensionale Einsvektor. Für einen Vektor [math]\boldsymbol x[/math] ist also [math]1\!\!1^T \boldsymbol x [/math] die Summe seiner Komponenten. Des Weiteren ergibt sich die zweite Gleichheit, bei der Berechnung von [math]b_1[/math], durch Anwendung des Verschiebungssatzes.

Beispiel

Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt, wobei die Variablen [math]\beta_0, \beta_1[/math] durch [math]\alpha, \beta[/math] ersetzt werden.

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wird in [math]n = 6[/math] Geschäften ein Testverkauf durchgeführt und man erhält sechs Wertepaare mit dem jeweiligen Ladenpreis einer Flasche [math]x[/math] (in Euro) sowie der Zahl der jeweils verkauften Flaschen [math]y[/math]:

Geschäft [math]i[/math] 1 2 3 4 5 6
Flaschenpreis [math]x_i[/math] 20 16 15 16 13 10
verkaufte Menge [math]y_i[/math] 0 3 7 4 6 10

In Matrixform kann das Beispiel verallgemeinert wie folgt dargestellt werden:

[math] \begin{pmatrix}y_1 \\ y_2 \\ y_3 \\ y_4 \\ y_5 \\ y_6 \end{pmatrix} = \begin{pmatrix}1 & x_1 \\1 & x_2 \\1 & x_3 \\1 & x_4 \\1 & x_5 \\1 & x_6 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} + \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \epsilon_3 \\ \epsilon_4 \\ \epsilon_5 \\ \epsilon_6 \end{pmatrix} [/math]

Als Streudiagramm von Preis und abgesetzter Menge an Sektflaschen ergibt sich folgende Grafik:

Berechnung der Regressionsgeraden

Man geht von folgendem statistischen Modell aus:

Betrachtet werden zwei Variablen [math]y[/math] und [math]x[/math], die vermutlich ungefähr in einem linearen Zusammenhang

[math]y \approx \alpha + \beta x[/math]

stehen. Auf die Vermutung, dass es sich um einen linearen Zusammenhang handelt, kommt man, wenn man das obige Streudiagramm betrachtet. Dort erkennt man, dass die eingetragenen Datenpunkte nahezu auf einer Linie liegen. Im Weiteren sind [math]x[/math] als unabhängige und [math]y[/math] als abhängige Variable definiert. Es existieren von [math]x[/math] und [math]y[/math] je [math]n[/math] Beobachtungen [math]x_i[/math] und [math]y_i[/math], wobei [math]i[/math] von [math]1[/math] bis [math]n[/math] geht. Der funktionale Zusammenhang [math]y= f(x)[/math] zwischen [math]x[/math] und [math]y[/math] kann nicht exakt festgestellt werden, da [math]\alpha + \beta x[/math] von einer Störgröße [math]\varepsilon[/math] überlagert wird. Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse (menschliches Verhalten oder Messungenauigkeiten oder Ähnliches) darstellt. Es ergibt sich also das Modell

[math]y = \alpha + \beta x + \varepsilon\;[/math] oder genauer [math]y_i = \alpha + \beta x_i + \varepsilon_i.[/math]

Da [math]\alpha[/math] und [math]\beta[/math] nicht bekannt sind, kann [math]y[/math] nicht in die Komponenten [math]\alpha + \beta x[/math] und [math]\varepsilon[/math] zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die Parameter [math]\alpha[/math] und [math]\beta[/math] durch [math]a[/math] und [math]b[/math] gefunden werden, damit ergibt sich

[math]y_i = a + bx_i + e_i[/math]

mit dem Residuum [math]e_i[/math] der Stichprobe. Das Residuum gibt die Differenz zwischen den Messwerten [math]y_i[/math] und der Regressionsgerade [math]a + bx_i[/math] an. Des Weiteren bezeichnet man mit [math]\hat{y}_i[/math] den Schätzwert für [math]y_i[/math]. Es gilt

[math]\hat{y}_i = a + bx_i[/math]

und somit kann man das Residuum schreiben als [math]e_i = y_i - \hat{y}_i[/math].

Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch die Punktwolke legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen [math]e_i[/math] der Punkte von dieser Ausgleichsgeraden minimiert wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.

Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert wie folgt die Residuenquadratsumme:

[math]RSS = SS_\mathrm{Res} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow \mathrm{min!}[/math]

bezüglich [math]a[/math] und [math]b[/math]. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalengleichungen.

Die gesuchten Regressionskoeffizienten sind die Lösungen

[math]b = \frac{SS_{xy}}{SS_{xx}} = \frac{\frac{1}{n} \sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\frac{1}{n} \sum\limits_{i=1}^n (x_i- \bar x)^2} = \frac{n\sum\limits_{i=1}^n x_i y_i - \sum\limits_{i=1}^n x_i \sum\limits_{i=1}^n y_i}{n \sum\limits_{i=1}^n x_i^2 - \left(\sum\limits_{i=1}^n x_i\right)^2}[/math]

und

[math]a = \bar y - b \bar x = \frac{\sum\limits_{i=1}^n x_i^2 \sum\limits_{i=1}^n y_i - \sum\limits_{i=1}^n x_i \sum\limits_{i=1}^n x_i y_i}{n \sum\limits_{i=1}^n x_i^2 - \left(\sum\limits_{i=1}^n x_i\right)^2}[/math]

mit [math]\bar x[/math] als arithmetischem Mittel der [math]x[/math]-Werte und [math]\bar y[/math] als arithmetischem Mittel der [math]y[/math]-Werte. [math]SS_{xy}[/math] stellt die empirische Kovarianz zwischen den [math]x_i[/math] und [math]y_i[/math] dar. [math]SS_{xx}[/math] bezeichnet die empirische Varianz der [math]x_i[/math]. Man nennt diese Schätzer auch Kleinste-Quadrate-Schätzer (KQ) (englisch: Ordinary Least Squares-Estimator (OLS)).

Für das folgende Zahlenbeispiel ergibt sich [math]\bar{x}=15[/math] und [math]\bar{y}=5[/math]. Somit erhält man die Schätzwerte für [math]a[/math] und [math]b[/math] durch einfaches Einsetzen in obige Formeln. Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.

[math]\ i[/math] Flaschenpreis [math]\ x_i[/math] verkaufte Menge [math]\ y_i[/math] [math]\ (x_i-\bar x) [/math] [math]\ (y_i-\bar y)[/math] [math]\ (x_i-\bar x)(y_i-\bar y)[/math] [math](x_i-\bar x)^2[/math] [math](y_i-\bar y)^2[/math] [math]\ \hat{y}_i[/math]
1 20 0 5 −5 −25 25 25 0,09
2 16 3 1 −2 −2 1 4 4,02
3 15 7 0 2 0 0 4 5,00
4 16 4 1 −1 −1 1 1 4,02
5 13 6 −2 1 −2 4 1 6,96
6 10 10 −5 5 −25 25 25 9,91
Summe 90 30 0 0 −55 56 60 30,00

Es ergibt sich in dem Beispiel

[math]b = \frac{-55}{56} = -0{,}98[/math] und [math]a = 5 - (-0{,}98) \cdot 15 = 19{,}73[/math].

Die geschätzte Regressionsgerade lautet somit

[math]\hat{y}_i = 19{,}73 -0{,}98\cdot x_i[/math],

sodass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt ceteris paribus um ungefähr eine Flasche sinkt.

Erwartungstreue des Kleinste-Quadrate-Schätzers

Für die Regressionsgleichung [math]y_i = \alpha + \beta \cdot x_i +\varepsilon _i[/math] lässt sich zeigen, dass die Schätzer [math]b[/math] für [math] \beta[/math] und [math]a[/math] für [math]\alpha[/math] erwartungstreu sind, das heißt, es gilt [math]\operatorname{E}(b) = \beta[/math] und [math]\operatorname{E}(a) = \alpha[/math]. Der Kleinste-Quadrate-Schätzer schätzt also die wahren Werte der Koeffizienten „im Mittel richtig“. Das folgt aus der Linearität des Erwartungswerts und der Voraussetzung [math]\operatorname{E}(\varepsilon_i) = 0[/math]. Damit folgt nämlich

[math]\operatorname{E}(y_i) = \alpha + \beta x_i[/math]

und

[math]\operatorname{E}(\bar y) = \alpha + \beta \bar{x}[/math].

Als Erwartungswert von [math]b[/math] ergibt sich daher:

[math]\operatorname{E}(b) = \operatorname{E}\left(\frac{\sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum\limits_{i=1}^n \left(x_i- \bar x\right)^2}\right) = \frac{\sum\limits_{i=1}^n (x_i- \bar x)\operatorname{E}(y_i- \bar y)}{\sum\limits_{i=1}^n \left(x_i- \bar x\right)^2} = \frac{\sum\limits_{i=1}^n (x_i- \bar x)(\alpha + \beta x_i - (\alpha + \beta \bar{x}))}{\sum\limits_{i=1}^n \left(x_i- \bar x\right)^2} = \beta[/math]

Für den Erwartungswert von [math]a[/math] erhält man schließlich:

[math]\operatorname{E}(a) = \operatorname{E}(\bar{y} - b \bar{x}) = \operatorname{E}(\bar{y}) - \operatorname{E}(b)\bar{x} = \alpha + \beta \bar{x} - \beta \bar{x} = \alpha[/math]

Bildliche Darstellung und Interpretation

]

Wie in der statistischen Literatur immer wieder betont wird, ist ein hoher Wert des Korrelationskoeffizienten zweier Zufallsvariablen [math]X[/math] und [math]Y[/math] allein noch kein hinreichender Beleg für den kausalen (d. h. ursächlichen) Zusammenhang von [math]X[/math] und [math]Y[/math], ebenso wenig für dessen mögliche Richtung.

Anders als gemeinhin beschrieben, sollte man es daher bei der linearen Regression zweier Zufallsvariablen [math]X[/math] und [math]Y[/math] stets mit nicht nur einer, sondern zwei voneinander unabhängigen Regressionsgeraden zu tun haben: der ersten für die vermutete lineare Abhängigkeit [math]y=g_x(x)[/math], der zweiten für die nicht minder mögliche Abhängigkeit [math]x=g_y(y)[/math].[1]

Bezeichnet man die Richtung der [math]x[/math]-Achse als Horizontale und die der [math]y[/math]-Achse als Vertikale, läuft die Berechnung des Regressionskoeffizienten also im ersten Fall auf das üblicherweise bestimmte Minimum der vertikalen quadratischen Abweichungen hinaus, im zweiten Fall dagegen auf das Minimum der horizontalen quadratischen Abweichungen.

Rein äußerlich betrachtet bilden die beiden Regressionsgeraden [math]y=g_x(x)[/math] und [math]x=g_y(y)[/math] eine Schere, deren Schnitt- und Angelpunkt der Schwerpunkt der untersuchten Punktwolke [math]P(\bar x|\bar y)[/math] ist. Je weiter sich diese Schere öffnet, desto geringer ist die Korrelation beider Variablen, bis hin zur Orthogonalität beider Regressionsgeraden, zahlenmäßig ausgedrückt durch den Korrelationskoeffizienten [math]0[/math] bzw. Schnittwinkel [math]90^\circ[/math].

Umgekehrt nimmt die Korrelation beider Variablen umso mehr zu, je mehr sich die Schere schließt – bei Kollinearität der Richtungsvektoren beider Regressionsgeraden schließlich, also dann, wenn beide bildlich übereinander liegen, nimmt [math]r_{xy}[/math] je nach Vorzeichen der Kovarianz den Maximalwert [math]+1[/math] oder [math]-1[/math] an, was bedeutet, dass zwischen [math]X[/math] und [math]Y[/math] ein streng linearer Zusammenhang besteht und sich (wohlgemerkt nur in diesem einen einzigen Fall) die Berechnung einer zweiten Regressionsgeraden erübrigt.

Wie der nachfolgenden Tabelle zu entnehmen, haben die Gleichungen der beiden Regressionsgeraden große formale Ähnlichkeit, etwa, was ihre Anstiege [math]b_x[/math] bzw. [math]b_y[/math] angeht, die gleich den jeweiligen Regressionskoeffizienten sind und sich nur durch ihre Nenner unterscheiden: im ersten Fall die Varianz von [math]X[/math], im zweiten die von [math]Y[/math]:

Regressionskoeffizient[math]_x[/math] Korrelationskoeffizient Regressionskoeffizient[math]_y[/math]
[math]\beta_x = \frac{\operatorname{Cov}(X,Y)}{\operatorname{Var}(X)}[/math] [math]\rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sqrt {\operatorname{Var}(X)\cdot \operatorname{Var}(Y)}}[/math] [math]\beta_y = \frac{\operatorname{Cov}(X,Y)}{\operatorname{Var}(Y)}[/math]
Empirischer Regressionskoeffizient[math]_x[/math] Empirischer Korrelationskoeffizient Empirischer Regressionskoeffizient[math]_y[/math]
[math]\begin{align} b_x &= \frac{SS_{xy}}{SS_{xx}} \\ &= \frac{\sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum\limits_{i=1}^n (x_i- \bar x)^2}\end{align}[/math] [math]\begin{align} r_{xy} &= \frac{SS_{xy}}{\sqrt {SS_{xx} \cdot SS_{yy}}} \\ &= \frac {\sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)} {\sqrt { \sum\limits_{i=1}^n(x_i-\bar x)^2\cdot \sum\limits_{i=1}^n(y_i-\bar y)^2 } }\end{align}[/math] [math]\begin{align} b_y &= \frac{SS_{xy}}{SS_{yy}} \\ &= \frac{\sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum\limits_{i=1}^n (y_i- \bar y)^2}\end{align}[/math]
Regressionsgerade[math]_x[/math] Bestimmtheitsmaß Regressionsgerade[math]_y[/math]
[math]y = a_x + b_x \cdot x[/math] [math]R^2 = \frac {SS_{xy}^2}{SS_{xx} \cdot SS_{yy}} = r_{xy}^2 = b_x b_y[/math] [math]x = a_y + b_y \cdot y[/math]
[math]y = \bar y + b_x \cdot (x - \bar x)[/math] [math]y = \bar y + \frac {1} {b_y} \cdot (x - \bar x)[/math]

Zu erkennen ist außerdem die mathematische Mittelstellung des Korrelationskoeffizienten und seines Quadrats, des sogenannten Bestimmtheitsmaßes, gegenüber den beiden Regressionskoeffizienten, dadurch entstehend, dass man anstelle der Varianzen von [math]X[/math] bzw. [math]Y[/math] deren geometrisches Mittel

[math]\bar{x}_\mathrm{geom}=\sqrt {\operatorname{Var}(X)\cdot \operatorname{Var}(Y)}[/math]

in den Nenner setzt. Betrachtet man die Differenzen [math]x_i- \bar x[/math] als Komponenten eines [math]n[/math]-dimensionalen Vektors [math]\boldsymbol x[/math] und die Differenzen [math]y_i- \bar y[/math] als Komponenten eines [math]n[/math]-dimensionalen Vektors [math]\boldsymbol y[/math], lässt sich der Korrelationskoeffizient schließlich auch als Kosinus des von beiden Vektoren eingeschlossenen Winkels [math]\theta[/math] interpretieren:

[math]r_{xy} = \frac {\sum\limits_{i=1}^n (x_i- \bar x) \cdot (y_i- \bar y)} {\sqrt {\sum\limits_{i=1}^n(x_i-\bar x)^2} \cdot \sqrt {\sum\limits_{i=1}^n(y_i-\bar y)^2} } = \frac { \boldsymbol x \circ \boldsymbol y } { |\boldsymbol x| \cdot |\boldsymbol y| } = \cos \theta[/math]

Beispiel in Kurzdarstellung

Für das vorangegangene Sektkellerei-Beispiel ergab sich folgende Tabelle:

[math]\ i[/math] Flaschenpreis [math]\ x_i[/math] verkaufte Menge [math]\ y_i[/math] [math]\ (x_i-\bar x) [/math] [math]\ (y_i-\bar y) [/math] [math]\ (x_i-\bar x)(y_i-\bar y)[/math] [math](x_i-\bar x)^2[/math] [math](y_i-\bar y)^2[/math] [math]\ \hat{y}_i[/math]
1 20 0 5 −5 −25 25 25 0,09
2 16 3 1 −2 −2 1 4 4,02
3 15 7 0 2 0 0 4 5,00
4 16 4 1 −1 −1 1 1 4,02
5 13 6 −2 1 −2 4 1 6,96
6 10 10 −5 5 −25 25 25 9,91
Summe 90 30 0 0 −55 56 60 30,00

Daraus ergeben sich folgende Werte:

Koeffizient Allgemeine Formel Wert im Beispiel
Steigung der Regressionsgerade [math]b[/math] [math]b = \frac{\sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum\limits_{i=1}^n (x_i- \bar x)^2}[/math] [math]b = \frac{-55}{56} = -0{,}98[/math]
Achsenabschnitt der Regressionsgerade [math]a[/math] [math]a = \bar y - b \bar x[/math] [math]a = \frac{30}{6} - (-0{,}98)\cdot \frac{90}{6} = 19{,}73[/math]
Empirische Korrelation [math]r_{xy}[/math] [math]r_{xy} = \frac {\sum\limits_{i=1}^n (x_i- \bar x)(y_i- \bar y)} {\sqrt { \sum\limits_{i=1}^n(x_i-\bar x)^2\cdot \sum\limits_{i=1}^n(y_i-\bar y)^2 } }[/math] [math]r_{xy} = \frac{-55}{\sqrt{56\cdot 60}}=-0{,}95[/math]
Bestimmtheitsmaß [math]R^2[/math] [math]R^2=r_{xy}^2[/math] [math]R^2=(-0{,}95)^2=0{,}90[/math]

Die geschätzte Regressiongerade ist [math]\hat{y} = a + b \cdot x =19{,}73 -0{,}98 \cdot x[/math] mit einem Bestimmtheitsmaß [math]R^2[/math] von etwa [math]0{,}9[/math]. Das Bestimmtheitsmaß sagt aus, dass [math]90\,%[/math] der Variation in der abhängigen Variablen durch den Regressor erklärt werden kann. Allerdings hat das [math]R^2[/math] im Allgemeinen nur eingeschränkte Aussagekraft, weshalb man das Pseudo-Bestimmtheitsmaß ([math]\text{Pseudo-R}^2[/math]) heranziehen sollte.

Multiple lineare Regression

Im Folgenden wird ausgehend von der einfachen linearen Regression die multiple Regression eingeführt. Die Response bzw. endogene Variable [math]y[/math] hängt linear von mehreren fest vorgegebenen erklärenden Variablen [math]x_1,\ldots, x_k[/math] ab:

[math]y_t = x_{t1}\beta_1 + x_{t2}\beta_2+ \dotsb +x_{tK} \beta_K + \varepsilon_t[/math],

wobei [math]\varepsilon_t[/math] wieder die Störgröße repräsentiert. Also ist [math]\varepsilon_t[/math] eine Zufallsvariable und daher ist [math]y[/math] als lineare Transformation von [math]\varepsilon_t[/math] ebenfalls eine Zufallsvariable. Liegen für die [math]x_{tK}[/math], unsere Daten, und die endogenen Variablen [math]y_t [/math], [math]T[/math] Datenpaare vor:

[math](y_1; x_{11},\ldots,x_{1K} ),(y_2; x_{21},\ldots,x_{2K} ), \ldots, (y_T; x_{T1},\ldots,x_{TK} )[/math],

ergibt sich folgendes Gleichungssystem:

[math]\begin{matrix} y_1 = x_{11}\beta_1 + x_{12}\beta_2 \, + & \cdots & +\,x_{1K} \beta_K + \varepsilon_t\\ y_2 = x_{21}\beta_1 + x_{22}\beta_2 \, + & \cdots & +\,x_{2K} \beta_K + \varepsilon_t\\ &\vdots&\\ y_T = x_{T1}\beta_1 + x_{T2}\beta_2 \, + & \cdots & +\,x_{TK} \beta_K + \varepsilon_t\\ \end{matrix}[/math]

Ferner lässt sich das aus [math]T[/math] Gleichungen bestehende Gleichungssystem nun kompakter darstellen als

[math]\boldsymbol y = \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon[/math]

[math]K[/math] gibt somit die Anzahl der zu schätzenden Parameter [math]\beta_1, \beta_2, \dots, \beta_K[/math] an. In der einfachen linearen Regression wurde nur der Fall [math]K=2[/math] betrachtet, ausgehend davon wird nun die multiple Regression als Verallgemeinerung dessen mit [math]K \geq 3[/math] präsentiert. Wie bei der einfachen linearen Regression ist [math]x_{t1}[/math] in Anwendungen meist konstant gleich [math]1[/math], woraus sich ergibt, dass im multiplen Fall die erste Spalte der Datenmatrix den Einsvektor der Dimension [math]T[/math] darstellt. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement [math]\varepsilon_t[/math] als eine eigene Zufallsvariable interpretiert und ebenso jedes [math]y_t[/math].

Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält den [math](T \times 1)[/math]-Spaltenvektor der abhängigen Variablen [math]y[/math], den der Störgröße [math]\boldsymbol \varepsilon[/math] als Zufallsvektor und den [math](K \times 1)[/math]-Spaltenvektor der Regressionskoeffizienten [math]\beta_k[/math]:

[math]\boldsymbol y= \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_t \\ \vdots \\ y_T \end{pmatrix}_{(T \times 1)} \;, \; \; \; \; \; [/math] [math] \boldsymbol\varepsilon= \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_t \\ \vdots \\ \varepsilon_T \end{pmatrix} _{(T \times 1)} \; \; \; \; [/math] und [math]\; \; \; \boldsymbol \beta= \begin{pmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \\ \vdots \\ \beta_K \end{pmatrix}_{(K \times 1)} [/math]

Die Datenmatrix [math]\boldsymbol{X}[/math] lautet in ausgeschriebener Form:

[math]\boldsymbol X= \begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1k} & \cdots & x_{1K}\\ x_{21} & x_{22} & \cdots & x_{2k} & \cdots & x_{2K}\\ \vdots & \vdots & \ddots & \vdots & \ddots & \vdots\\ x_{t1} & x_{t2} & \cdots & x_{tk} & \cdots & x_{tK}\\ \vdots & \vdots & \ddots & \vdots & \ddots & \vdots\\ x_{T1} & x_{T2} & \cdots & x_{Tk} & \cdots & x_{TK} \end{pmatrix}_{(T \times K)} = \begin{pmatrix} \ \boldsymbol x_1^T \\ \ \boldsymbol x_2^T \\ \vdots\\ \ \boldsymbol x_t^T \\ \vdots\\ \\ \boldsymbol x_T^T \end{pmatrix}_{(T \times K)} = \begin{pmatrix} \boldsymbol x_{(1)} \boldsymbol x_{(2)} & \cdots & \boldsymbol x_{(t)} & \cdots & \boldsymbol x_{(T)} \end{pmatrix}_{(T \times K)} [/math], wobei [math]\boldsymbol x_{(1)}=1\!\!1_T = \begin{pmatrix} 1\\ 1 \\ \vdots\\ 1 \\ \vdots\\ 1 \end{pmatrix}_{(T \times 1)} [/math]

Aufgrund der unterschiedlichen Schreibweisen für [math]\boldsymbol{X}[/math] lässt sich erkennen, dass sich das Modell [math]\boldsymbol y = \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon[/math] auch darstellen lässt als:

[math]y_t = x_{t1} \beta_1 + x_{t2} \beta_2 + \dotsb + x_{tK} \beta_K + \varepsilon_t = \boldsymbol x_{t}^T \boldsymbol \beta + \varepsilon_t, \quad t=1,2, \dots ,T[/math]

Repräsentationen:

[math]y_t[/math]: sind beobachtete Zufallsvariablen
[math]x_{tk}[/math]: sind beobachtbare, nicht zufällige, bekannte Variablen
[math]\beta_1, \beta_2, \beta_1, \dotsb, \beta_k[/math]: sind unbekannte skalare Parameter
[math]e_t[/math]: sind unbeobachtbare Zufallsvariablen

Des Weiteren trifft man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, dieselben Annahmen. Im Fall der multiplen Regression lauten sie:

[math]\operatorname{E}(\boldsymbol{\varepsilon}) =\boldsymbol 0 \ [/math], [math]\mbox{Cov}(\boldsymbol{\varepsilon})=\sigma^2 \boldsymbol I_T[/math] und [math]\boldsymbol \varepsilon\sim \mathcal{N}(\boldsymbol 0, \sigma^2 \boldsymbol I_T)[/math],

wobei wir nun, statt nur die Varianzen und Kovarianzen der Fehlerterme einzeln zu betrachten, diese beiden in folgender Varianz- Kovarianzmatrix zusammenfassen:

[math]\mbox{Cov}(\boldsymbol{\varepsilon}):=\operatorname{E}[(\boldsymbol \varepsilon -E(\boldsymbol \varepsilon)) (\boldsymbol \varepsilon - \operatorname{E}(\boldsymbol \varepsilon))^T ]=\operatorname{E}(\boldsymbol \varepsilon \boldsymbol \varepsilon^T ) =\begin{pmatrix} \operatorname{Var}[\varepsilon_1] & \operatorname{Cov}[\varepsilon_1, \varepsilon_2] & \cdots & \operatorname{Cov}[\varepsilon_1, \varepsilon_T] \\ \\ \operatorname{Cov}[\varepsilon_2, \varepsilon_1] &\operatorname{Var}[\varepsilon_2] & \cdots & \operatorname{Cov}[\varepsilon_2, \varepsilon_T] \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \operatorname{Cov}[\varepsilon_T, \varepsilon_1] & \operatorname{Cov}[\varepsilon_T, \varepsilon_2] & \cdots & \operatorname{Var}[\varepsilon_T] \end{pmatrix} = \sigma^2 \begin{pmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \ddots & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \cdots & 0 & 1 \end{pmatrix}_{(T \times T)}=\sigma^2 \boldsymbol I_T[/math]

Somit gilt für [math]\boldsymbol{y}[/math]

[math]\operatorname{E}(\boldsymbol{y}) = \boldsymbol{X} \boldsymbol{\beta}[/math] mit [math]\mbox{Cov}(\boldsymbol{y})=\sigma^2 \boldsymbol I_T[/math].

Schätzung der Regressionskoeffizienten nach der Methode der kleinsten Quadrate

Auch im multiplen linearen Regressionsmodell wird nach der Methode der kleinsten Quadrate minimiert, das heißt, es soll [math]\boldsymbol{\beta}[/math] so gewählt werden, dass die euklidische Norm [math]\|\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta}\|_2[/math] minimal wird. Im Folgenden wird jedoch der Ansatz benutzt, dass das matrizielle quadratische Pendant zur Residuenquadratsumme minimiert wird. Dazu wird vorausgesetzt, dass [math]\boldsymbol X[/math] den Rang [math]K[/math] hat. Dann ist [math]\boldsymbol{X}^T \boldsymbol X[/math] invertierbar und man erhält als Minimierungsproblem:

[math]S(\boldsymbol \beta)=\boldsymbol \varepsilon^T \boldsymbol \varepsilon =(\boldsymbol y - \boldsymbol X \boldsymbol \beta)^T(\boldsymbol y - \boldsymbol X \boldsymbol \beta)=\boldsymbol y^T\boldsymbol y-2\boldsymbol\beta^T\boldsymbol X^T\boldsymbol y+\boldsymbol\beta^T\boldsymbol X^T\boldsymbol X\boldsymbol\beta \rightarrow \mathrm{min!}[/math]

Bedingung erster Ordnung (Nullsetzen des Gradienten):

[math]\frac{\partial S(\boldsymbol \beta)}{\partial\boldsymbol \beta} =\begin{pmatrix} \frac{\partial S(\boldsymbol \beta)}{\partial\beta_1} \\ \frac{\partial S(\boldsymbol \beta)}{\partial\beta_2} \\ \vdots \\ \frac{\partial S(\boldsymbol \beta)}{\partial\beta_K} \end{pmatrix} \overset \mathrm{!} = \; 0 [/math]

Die partiellen Ableitungen erster Ordnung lauten:

[math]\begin{align} \frac{\partial S(\boldsymbol \beta)}{\partial\beta_1} &= \frac{\partial(\boldsymbol y^T \boldsymbol y)}{\partial\beta_1}-\frac{\partial (2\boldsymbol \beta^T\boldsymbol X^T\boldsymbol y)}{\partial\beta_1}+ \frac{\partial(\boldsymbol \beta^T\boldsymbol{X}^T \boldsymbol X \boldsymbol \beta) }{\partial\beta_1} = -2 \boldsymbol x_{(1)}^T\boldsymbol y+2\boldsymbol x_{(1)}^T\boldsymbol X \boldsymbol \beta \\ \frac{\partial S(\boldsymbol \beta)}{\partial\beta_2} &= \frac{\partial(\boldsymbol y^T \boldsymbol y)}{\partial\beta_2}-\frac{\partial (2\boldsymbol \beta^T\boldsymbol X^T\boldsymbol y)}{\partial\beta_2}+ \frac{\partial(\boldsymbol \beta^T\boldsymbol{X}^T \boldsymbol X \boldsymbol \beta) }{\partial\beta_2} = -2 \boldsymbol x_{(2)}^T\boldsymbol y+2\boldsymbol x_{(2)}^T\boldsymbol X \boldsymbol \beta \\ \vdots \\ \frac{\partial S(\boldsymbol \beta)}{\partial\beta_K} &= \frac{\partial(\boldsymbol y^T \boldsymbol y)}{\partial\beta_K}-\frac{\partial (2\boldsymbol \beta^T\boldsymbol X^T\boldsymbol y)}{\partial\beta_K}+ \frac{\partial(\boldsymbol \beta^T\boldsymbol{X}^T \boldsymbol X \boldsymbol \beta) }{\partial\beta_K} = -2\boldsymbol x_{(K)}^T\boldsymbol y+2\boldsymbol x_{(K)}^T\boldsymbol X \boldsymbol \beta \end{align}[/math]

Dies zeigt, dass sich die Bedingung erster Ordnung wie folgt kompakt darstellen lässt:

[math]\frac{\partial S(\boldsymbol \beta)}{\partial\boldsymbol \beta} =-2\boldsymbol X^T\boldsymbol y+2\boldsymbol X\boldsymbol X \boldsymbol \beta \; \overset \mathrm{!} = \; 0[/math]

Durch linksseitige Multiplikation der Gleichung mit der Inversen der positiv definiten und symmetrischen Matrix [math](\boldsymbol X^T \boldsymbol X)[/math] erhält man als Lösung des Minimierungsproblems den Vektor der geschätzten Regressionskoeffizienten [math]\boldsymbol{b}[/math] mit den Normalgleichungen:

[math]\boldsymbol b = \begin{pmatrix} b_1 \\ b_2 \\ \vdots\\ b_k \\ \vdots \\ b_K \end{pmatrix} = (\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol y [/math]

Für die Varianz-Kovarianz-Matrix des Parameterschätzers ergibt sich (dargestellt in kompakter Form):

[math]\operatorname{Cov}(\boldsymbol b)=\operatorname{E}((\boldsymbol b-\operatorname{E}(\boldsymbol b))(\boldsymbol b-\operatorname{E}(\boldsymbol b))^T)=\operatorname{E}((\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T\boldsymbol \varepsilon \boldsymbol \varepsilon^T\boldsymbol X (\boldsymbol{X}^T \boldsymbol X )^{-1})=(\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T\underbrace{\operatorname{E}(\boldsymbol \varepsilon \boldsymbol \varepsilon^T)}_{\sigma^2 \boldsymbol I_T} \boldsymbol \boldsymbol X (\boldsymbol{X}^T \boldsymbol X )^{-1}= \sigma^2 (\boldsymbol X^T \boldsymbol X)^{-1}[/math]

In Matrix-Notation:[2]

[math]\begin{align} \operatorname{Cov}(\boldsymbol b) &= \begin{pmatrix} \operatorname{E}[(b_1 - \operatorname{E}(b_1))(b_1 - \operatorname{E}(b_1))] & \operatorname{E}[(b_1 - \operatorname{E}(b_1))(b_2 - \operatorname{E}(b_2))] & \cdots & \operatorname{E}[(b_1 - \operatorname{E}(b_1))(b_K - \operatorname{E}(b_K))] \\ \\ \operatorname{E}[(b_2 - \operatorname{E}(b_2))(b_1 - \operatorname{E}(b_1))] & \operatorname{E}[(b_2 - \operatorname{E}(b_2))(b_2 - \operatorname{E}(b_2))] & \cdots & \operatorname{E}[(b_2 - \operatorname{E}(b_2))(b_K - \operatorname{E}(b_K))] \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \operatorname{E}[(b_K - \operatorname{E}(b_K))(b_1 - \operatorname{E}(b_1))] & \operatorname{E}[(b_K - \operatorname{E}(b_K))(b_2 - \operatorname{E}(b_2))] & \cdots & \operatorname{E}[(b_K - \operatorname{E}(b_K))(b_K - \operatorname{E}(b_K))] \end{pmatrix} \\ \\ &= \begin{pmatrix} \operatorname{Var}[b_1] & \operatorname{Cov}[b_1, b_2] & \cdots & \operatorname{Cov}[b_1, b_K] \\ \\ \operatorname{Cov}[b_2, b_1] & \operatorname{Var}[b_2] & \cdots & \operatorname{Cov}[b_2, b_K] \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \operatorname{Cov}[b_K, b_1] & \operatorname{Cov}[b_K, b_2] & \cdots & \operatorname{Var}[b_K] \end{pmatrix}_{(K \times K)} \end{align}[/math]

Da die geschätzte Varianz der KQ-Fehlerterme [math]\hat\sigma^2= \frac{ (\boldsymbol y - \boldsymbol X \boldsymbol b)^T (\boldsymbol y - \boldsymbol X \boldsymbol b)}{T-K}[/math] lautet, gilt für die geschätzte Varianz-Kovarianz-Matrix:

[math]\widehat{\operatorname{Cov}(\boldsymbol b)}= \hat\sigma^2 (\boldsymbol X^T \boldsymbol X)^{-1}= \frac{\hat\boldsymbol \varepsilon^T \hat\boldsymbol \varepsilon}{T-K} (\boldsymbol X^T \boldsymbol X)^{-1}[/math]

Man erhält mit Hilfe des Kleinste-Quadrate-Schätzers [math]\boldsymbol{b}[/math] das Gleichungssystem

[math]\boldsymbol y = \boldsymbol X \boldsymbol b + \boldsymbol \varepsilon = \hat{\boldsymbol{y}} + \boldsymbol \varepsilon,[/math]

wobei [math]\boldsymbol \varepsilon[/math] der Vektor der Residuen und [math]\hat{\boldsymbol{y}}[/math] die Schätzung für [math]\boldsymbol{y}[/math] ist. Das Interesse der Analyse liegt vor allem in der Schätzung [math]\hat{\boldsymbol{y}}_ 0[/math] oder in der Prognose der abhängigen Variablen [math]\boldsymbol{y}[/math] für ein gegebenes Tupel von [math]{\boldsymbol{x}}_0[/math]. Diese berechnet sich als

[math]\hat{\boldsymbol{y_0}} = b_1 x_{01} + b_2 x_{02}+ \dotsb + b_K x_{0K}=\hat{\boldsymbol{x_0^T}} {\boldsymbol{b}}[/math].

Eigenschaften des Kleinste-Quadrate-Schätzers

Erwartungstreue

Im multiplen Fall kann man ebenfalls zeigen, dass der Kleinste-Quadrate-Schätzer erwartungstreu ist. Dies gilt allerdings nur, wenn die Annahme der Exogenität der Regressoren gegeben ist. Wenn man also davon ausgeht, dass die exogenen Variablen keine Zufallsvariablen sind, sondern wie in einem Experiment kontrolliert werden können, gilt [math]\forall k\in \{1, \dotsc, K\}\colon \operatorname{E}(x_{tk }\varepsilon_t)=\operatorname{E}(x_{tk}) \cdot \operatorname{E}(\varepsilon_t)=0[/math] bzw. [math]\operatorname{E}(\boldsymbol x^T \boldsymbol \cdot \boldsymbol \varepsilon) =\boldsymbol 0[/math] und damit

[math]\operatorname{E}(\boldsymbol b)=\operatorname{E}( (\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol y)=\operatorname{E}( (\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T (\boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon ))=\operatorname{E}( (\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol X \boldsymbol \beta + (\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol \varepsilon ))= \boldsymbol \beta.[/math]

Falls die Exogenitätsannahme nicht zutrifft, [math]E(\boldsymbol x^T \boldsymbol \cdot \boldsymbol \varepsilon) \boldsymbol \ne 0 [/math], ist der Kleinste-Quadrate-Schätzer nicht erwartungstreu, sondern verzerrt (englisch: biased), d. h., im Mittel weicht der Parameterschätzer vom wahren Parameter ab:

[math]\operatorname{Bias}(\boldsymbol b)=\operatorname{E}(\boldsymbol b)-\boldsymbol \beta \ne 0[/math]

Der Erwartungswert des Parameterschätzers für [math]\boldsymbol b[/math] ist also nicht gleich dem wahren Parameter.

Effizienz

Der Kleinste-Quadrate-Schätzer ist linear:

[math]\boldsymbol b =\underbrace{(\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T }_{\boldsymbol A} \boldsymbol y=\boldsymbol A \boldsymbol y[/math]

Nach dem Satz von Gauß-Markow ist der Schätzer [math]\boldsymbol{b}[/math], BLUE (Best Linear Unbiased Estimator), das heißt, er ist derjenige lineare erwartungstreue Schätzer, der unter allen linearen erwartungstreuen Schätzern die kleinste Varianz bzw. Varianz-Kovarianz-Matrix besitzt. Für diese Eigenschaften der Schätzfunktion [math]\boldsymbol{b}[/math] braucht keine Verteilungsinformation der Störgröße vorzuliegen.

Konsistenz

Der KQ-Schätzer ist unter den bisherigen Annahmen unverzerrt [math]\operatorname{E}(\boldsymbol b)=0[/math], wobei die Stichprobengröße [math]T[/math] keinen Einfluss auf die Unverzerrtheit hat (schwaches Gesetz der großen Zahlen). Ein Schätzer ist genau dann konsistent, wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert. Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schätzers mit ein, wenn die Anzahl der Beobachtungen größer wird.

Für die Folge [math](\boldsymbol b_n)_{n \in \N}[/math] gilt, dass sie in Wahrscheinlichkeit gegen den wahren Wert konvergiert

[math]\forall\epsilon \gt 0\colon \lim_{n \to \infty}P(|\boldsymbol b_n-\boldsymbol \beta |\geq \epsilon )=0[/math]

oder vereinfacht ausgedrückt:

[math]\boldsymbol b_n\stackrel{p}{\rightarrow} \boldsymbol \beta[/math] bzw. [math]\operatorname{plim}(\boldsymbol b) = \boldsymbol \beta[/math]

Die Konsistenz kann wie folgt gezeigt werden:[3]

[math]\operatorname{plim}(\boldsymbol b) =\operatorname{plim}((\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol y)=\boldsymbol \beta+\operatorname{plim}((\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol \varepsilon)=\boldsymbol \beta+\operatorname{plim}\left(\frac{(\boldsymbol{X}^T \boldsymbol X )^{-1}}{T}\right) \cdot \operatorname{plim}\left( \frac{(\boldsymbol{X}^T \boldsymbol \varepsilon)}{T} \right)=\boldsymbol\beta[/math]

Folglich ist der Kleinste-Quadrate-Schätzer konsistent. Die Eigenschaft besagt, dass mit steigender Stichprobengröße die Wahrscheinlichkeit, dass der Schätzer [math]\boldsymbol b[/math] vom wahren Parameter [math]\boldsymbol \beta[/math] abweicht, sinkt.

Normal lineares Modell

Zu dem bisherigen Modell

[math]\boldsymbol y = \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon[/math]
[math]\operatorname{E}(\boldsymbol\varepsilon_t) = 0[/math]
[math]\operatorname{E}(\boldsymbol{\varepsilon}) =\boldsymbol 0[/math]
[math]\mbox{Cov}(\boldsymbol{\varepsilon})=\sigma^2 \boldsymbol I_T[/math],

dessen Annahmen sich wie folgt zusammenfassen ließen

[math]\boldsymbol \varepsilon \sim (\boldsymbol 0, \sigma^2\boldsymbol I_T)[/math],

wird hier zusätzlich von der Annahme ausgegangen, dass die Fehlerterme normalverteilt sind:

[math]\boldsymbol \varepsilon\sim \mathcal{N}( \boldsymbol 0, \sigma^2 \boldsymbol I_T)[/math]

Dadurch ergibt sich das normal lineare Modell:

[math]\boldsymbol y = \boldsymbol X \boldsymbol \beta + \boldsymbol \varepsilon[/math] mit [math]\boldsymbol \varepsilon\sim \mathcal{N}(\boldsymbol 0, \sigma^2 \boldsymbol I_T)[/math] und [math]\boldsymbol y \sim \mathcal{N}( \boldsymbol X \boldsymbol \beta, \sigma^2 \boldsymbol I_T)[/math]

Maximum-Likelihood-Schätzung

Das normal lineare Modell lässt sich mithilfe der Maximum-Likelihood-Methode schätzen. Dazu wird zunächst die einzelne Wahrscheinlichkeitsdichte des Fehlervektors, der einer Normalverteilung folgt, benötigt. Sie lautet:

[math]f( \varepsilon_t | \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\operatorname{exp}\left\{-\frac{\left(y_t -\boldsymbol x_{t}^T \boldsymbol \beta \right)^2}{2\sigma^2}\right\}[/math]

Da sich der Fehlerterm auch als [math]\varepsilon_t= y_t-\boldsymbol x_{t}^T \boldsymbol \beta[/math] darstellen lässt, kann man die einzelne Dichte auch schreiben als

[math]f(y_t |\boldsymbol x_{t}^T, \boldsymbol \beta, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\operatorname{exp}\left\{-\frac{\left(y_t -\boldsymbol x_{t}^T \boldsymbol \beta \right)^2}{2\sigma^2}\right\}[/math].

Aufgrund der Unabhängigkeitsannahme lässt sich die gemeinsame Wahrscheinlichkeitsdichte [math]f[/math] als Produkt der einzelnen Randdichten [math]f_1,\dots,f_T[/math] darstellen. Die gemeinsame Dichte [math]f(y_1,y_2,\dots,y_T|\boldsymbol X, \boldsymbol \beta, \sigma^2)=f(y_1 |\boldsymbol x_{1}^T, \boldsymbol \beta, \sigma^2)\cdot f(y_2 |\boldsymbol x_{2}^T, \boldsymbol \beta, \sigma^2) \cdot\ldots\cdot f(y_T |\boldsymbol x_{T}^T, \boldsymbol \beta, \sigma^2)[/math] lautet bei unterstellter stochastischer Unabhängigkeit dann

[math] f(y_1,y_2,\dots, y_T|\boldsymbol X, \boldsymbol \beta, \sigma^2)=\prod_{t=1}^T f_t(y_t|\boldsymbol x_t, \boldsymbol \beta, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\operatorname{exp}\left\{-\frac{\left(y_1 -\boldsymbol x_{1}^T \boldsymbol \beta \right)^2}{2\sigma^2}\right\}\cdot\ldots\cdot\frac{1}{\sqrt{2\pi\sigma^2}}\operatorname{exp}\left\{-\frac{\left(y_T -\boldsymbol x_{T}^T \boldsymbol \beta\right)^2}{2\sigma^2}\right\}[/math]
[math]=(2\pi\sigma^2)^{-\frac{T}{2}}\operatorname{exp}\left\{-\frac{\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)}{2\sigma^2}\right\}. [/math]

Da wir uns nun nicht für ein bestimmtes Ergebnis bei gegebenen Parametern interessieren, sondern diejenigen Parameter suchen, die am besten zu unseren Daten passen, denen also die größte Wahrscheinlichkeit zugeordnet wird, dass sie den wahren Parametern entsprechen, lässt sich nun die Likelihood-Funktion als gemeinsame Wahrscheinlichkeitsdichte in Abhängigkeit der Parameter, formulieren.

[math]L(\boldsymbol \beta, \sigma^2; \boldsymbol y, \boldsymbol X)=(2\pi\sigma^2)^{-\frac{T}{2}}\operatorname{exp}\left\{-\frac{\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)}{2\sigma^2}\right\} [/math]

Durch Logarithmieren der Likelihood-Funktion ergibt sich die Log-Likelihood-Funktion in Abhängigkeit von den Parametern:

[math] \ell(\boldsymbol \beta, \sigma^2;\boldsymbol y,\boldsymbol X )=\ln\left(L(\boldsymbol \beta, \sigma^2;\boldsymbol y,\boldsymbol X )\right)=-\frac{T}{2} \cdot \ln(2\pi)-\frac{T}{2}\cdot\ln(\sigma^2)-\frac{\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)}{2\sigma^2} [/math]

Diese Funktion gilt es nun bzgl. der Parameter zu maximieren. Es ergibt sich also folgendes Maximierungsproblem:

[math]\tilde\sigma^2=\underset{\sigma^2}{\operatorname{arg\,max}} \ \ell(\boldsymbol \beta, \sigma^2|\boldsymbol y,\boldsymbol X) [/math]
[math]\tilde\boldsymbol\beta=\underset{\beta}{\operatorname{arg\,max}} \ \ell(\boldsymbol \beta, \sigma^2|\boldsymbol y,\boldsymbol X) [/math]

Die beiden Score-Funktionen lauten:

[math]\left. \frac{\partial \ell(\boldsymbol \beta, \sigma^2;\boldsymbol y,\boldsymbol X )}{\partial \boldsymbol \beta } \right|_{\begin{array}{ccc} \boldsymbol \beta=\tilde\boldsymbol b\\ \sigma^2= \tilde\sigma^2 \end{array}} =-\frac{1}{2 \sigma^2}\cdot \underbrace{\frac{\partial((\boldsymbol y-\boldsymbol X \boldsymbol \beta)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right))}{\partial \boldsymbol \beta }}_{2\boldsymbol X^T\boldsymbol y+2\boldsymbol X\boldsymbol X \boldsymbol \beta} \; \overset \mathrm{!} = \; 0[/math]
[math]\left. \frac{\partial \ell(\boldsymbol \beta, \sigma^2;\boldsymbol y,\boldsymbol X )}{\partial \sigma^2 } \right|_{\begin{array}{ccc} \boldsymbol \beta=\tilde\boldsymbol b\\ \sigma^2= \tilde\sigma^2 \end{array}} =-\frac{T}{2 \sigma^2}+\frac{1}{2 \sigma^4}\cdot((\boldsymbol y-\boldsymbol X \boldsymbol \beta)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right)) \; \overset \mathrm{!} = \; 0[/math]

Beim partiellen Ableiten wird ersichtlich, dass der Ausdruck

[math]\frac{\partial((\boldsymbol y-\boldsymbol X \boldsymbol \beta)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol \beta\right))}{\partial \boldsymbol \beta }=2\boldsymbol X^T\boldsymbol y+2\boldsymbol X\boldsymbol X \boldsymbol \beta[/math]

bereits aus der Herleitung des KQ-Schätzers bekannt ist. Somit reduziert sich das Maximum-Likelihood-Opimierungsproblem auf das KQ-Optimierungsproblem. Daraus folgt, dass der KQ-Schätzer dem ML-Schätzer entspricht:

[math]\boldsymbol \tilde b = \boldsymbol b = (\boldsymbol{X}^T \boldsymbol X )^{-1}\boldsymbol {X}^T \boldsymbol y [/math]

Der ML-Schätzer für die Varianz, der sich auch aus der zweiten partiellen Ableitung ergibt, lautet:

[math]\tilde\sigma^2=\frac{(\boldsymbol y- \boldsymbol X \tilde \boldsymbol \beta)^T(\boldsymbol y-\boldsymbol X\tilde \boldsymbol \beta)}{T}=\frac{(T-K)\hat\sigma^2}{T} [/math]

Der Wert der Log-Likelihood-Funktion, bewertet an der Stelle der geschätzten Koeffizienten:

[math] \ell(\boldsymbol b, \tilde\sigma^2;\boldsymbol y,\boldsymbol X )=\ln\left(L(\boldsymbol b,\tilde\sigma^2;\boldsymbol y,\boldsymbol X )\right)=-\frac{T}{2} \cdot \ln(2\pi)-\frac{T}{2}\cdot\ln(\tilde\sigma^2)-\frac{\left(\boldsymbol y-\boldsymbol X \boldsymbol b\right)^T\left(\boldsymbol y-\boldsymbol X \boldsymbol b\right)}{2\tilde\sigma^2} [/math]

Heteroskedastisches Modell

Falls die die Annahme der Homoskedastizität nicht erfüllt ist, d. h. die Diagonalelemente der Varianz-Kovarianz-Matrix nicht identisch sind, ergibt sich folgendes Modell:

[math]\forall t: y_t=\boldsymbol x_{t}^T \boldsymbol \beta + \varepsilon_t [/math] mit
[math]E(\boldsymbol \varepsilon) =\boldsymbol 0 [/math] und [math]\operatorname{Cov}(\boldsymbol \varepsilon)=\operatorname{E}(\boldsymbol \varepsilon \boldsymbol\varepsilon^T)=\sigma^2 \boldsymbol \Psi = \boldsymbol \Phi[/math]

Allgemeine Varianz-Kovarianz-Matrix bei Heteroskedastizität:

[math]\operatorname{E}(\boldsymbol \varepsilon \boldsymbol\varepsilon^T)=\begin{pmatrix} \sigma^2_1 & 0 & \cdots & 0 \\ 0 & \sigma^2_2 & \ddots & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \cdots & 0 & \sigma^2_T \end{pmatrix}=\boldsymbol \Phi[/math]

Hierbei wird angenommen, dass [math]\boldsymbol \Psi[/math] eine bekannte, positiv definite und symmetrische Matrix der Dimension [math]T \times T[/math] ist.

Falls die spezielle Form der multiplikativen Heteroskedastizität vorliegt, nimmt die allgemeine Varianz-Kovarianz-Matrix folgende Form an:

[math]\operatorname{E}(\boldsymbol \varepsilon \boldsymbol\varepsilon^T)=\begin{pmatrix} \operatorname{exp}(\boldsymbol z_1^T \boldsymbol \alpha) & 0 & \cdots & 0 \\ 0 & \operatorname{exp}(\boldsymbol z_2^T \boldsymbol \alpha) & \ddots & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \cdots & 0 & \operatorname{exp}(\boldsymbol z_T^T \boldsymbol \alpha) \end{pmatrix}=\sigma^2 \boldsymbol \Psi =\boldsymbol \Phi[/math]

Paneldatenregression

Das allgemeine lineare Paneldaten-Modell lässt zu, dass der Achsenabschnitt und die Steigungsparameter zum einen über die Individuen [math]i[/math] (in Querschnittsdimension) und zum anderen über die Zeit [math]t[/math] variieren (nicht-zeitinvariant). Das allgemeine lineare Paneldaten-Modell lautet:

[math]y_{it}= \alpha_{it}+ \boldsymbol x^T_{it} \boldsymbol \beta_{it} + e_{it},\;\; i=1, \dots, N; \;\; t=1, \dots, T[/math]

Hierbei ist [math]y_{it}[/math] eine skalar vorliegende abhängige Variable, [math]\boldsymbol x^T_{it}[/math] ist ein [math](K \times 1)[/math]-Vektor von unabhängigen Variablen, [math]e_{it}[/math] ist ein skalar vorliegender Fehlerterm. Da dieses Modell zu allgemein ist und nicht schätzbar ist, wenn es mehr Parameter als Beobachtungen gibt, müssen bezüglich der Variation von [math]\alpha_{it}[/math] und[math]\beta_{it}[/math] mit [math]i[/math] und [math]t[/math] und bezüglich des Verhaltens des Fehlerterms einschränkende Annahmen getroffen werden. Diese zusätzlichen Restriktionen und die darauf aufbauenden Modelle sind Themen der linearen Paneldatenmodelle.

Ausgewählte Schätzfunktionen

Die Schätzwerte der [math]y_i[/math] berechnen sich als

[math]\hat{\boldsymbol y} = \boldsymbol {Xb} = \boldsymbol X (\boldsymbol X ^T \boldsymbol X )^{-1} \boldsymbol X ^T \boldsymbol y[/math],

wobei man dies auch kürzer als

[math]\hat{\boldsymbol y} = \boldsymbol H \boldsymbol y[/math] mit [math]\boldsymbol {H} \in \mathbb{R}^{n \times n}[/math]

schreiben kann. Die Matrix [math]\boldsymbol {H}[/math] ist die Matrix der Orthogonalprojektion auf den Spaltenraum von [math]\boldsymbol X[/math] und hat maximal den Rang [math]K[/math]. Sie wird auch Hat-Matrix genannt, weil sie [math]\boldsymbol {y}[/math] "den Hut aufsetzt" und somit zum Schätzer macht.

Die Residuen werden ermittelt als

[math]\boldsymbol \varepsilon = \boldsymbol {y}-\hat{\boldsymbol {y}} = \boldsymbol y - \boldsymbol {Xb} = \boldsymbol y - \boldsymbol H \boldsymbol y = (I_n - \boldsymbol H) \boldsymbol y[/math],

wobei [math](I_n - \boldsymbol H)[/math] mit [math]\boldsymbol {H}[/math] vergleichbare Eigenschaften hat.

Da [math]\boldsymbol {X}[/math] fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von [math]\boldsymbol {y}[/math] und damit von [math]\boldsymbol {\varepsilon}[/math] darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.

Die Quadratsumme [math]SS_\mathrm{Res}[/math] (von engl. „residual sum of squares“) der Residuen ergibt in Matrix-Notation

[math]SS_\mathrm{Res} = \boldsymbol {\varepsilon}^T \boldsymbol \varepsilon = \boldsymbol {y}^T (I_n - \boldsymbol H)^T (I_n - \boldsymbol H) \boldsymbol y = \boldsymbol y^T (I_n - \boldsymbol H) \boldsymbol y[/math].

Dies kann auch geschrieben werden als

[math]SS_\mathrm{Res} = \boldsymbol {\varepsilon}^T \boldsymbol \varepsilon = \|y-\hat{y} \|_2^2=\sum\limits_{i=1}^{n}(y_i-\hat{y}_i)^2[/math].

Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen:

[math]\hat \sigma^2 = \frac{SS_\mathrm{Res}}{n-K}=\frac{\sum\limits_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-K}[/math]

Schätzen und Testen

Für die inferentielle Regression (Schätzen und Testen) wird noch die Information über die Verteilung der Störgröße [math]\boldsymbol \varepsilon[/math] gefordert. Zusätzlich zu den bereits weiter oben aufgeführten Annahmen hat man hier als weitere Annahme:

  • Die Störgröße [math]\boldsymbol \varepsilon[/math] ist normalverteilt.
[math]\boldsymbol \varepsilon\sim \mathcal{N}(\boldsymbol 0, \sigma^2 \boldsymbol I_n)[/math]

D. h., die Störgrößen sind multivariat normalverteilt mit dem Erwartungswert [math]\boldsymbol {0}[/math] und der Varianz-Kovarianz-Matrix [math]\sigma^2\boldsymbol I_n[/math], wobei [math]\boldsymbol {0}[/math] den Nullvektor und [math]\boldsymbol I_n[/math] die Einheitsmatrix der Dimension [math]n[/math] bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig. Da die interessierenden Schätzer zum größten Teil lineare Transformationen von [math]\boldsymbol {\varepsilon}[/math] sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation χ2-verteilt mit [math]n-K[/math] Freiheitsgraden.

Beweisskizze: Sei

[math]\boldsymbol {w}=\boldsymbol {y}-\boldsymbol {X}\boldsymbol {\beta}[/math],

damit erhält man

[math]\begin{align} \boldsymbol {w}^T(I_n-\boldsymbol {H})\boldsymbol {w}/\sigma^2 &= (\boldsymbol {y}-\boldsymbol {X}\boldsymbol {\beta})^T (I_n-\boldsymbol {H}) (I_n-\boldsymbol {H}) (\boldsymbol {y}-\boldsymbol {X}\boldsymbol {\beta}) / \sigma^2 \\ &= \boldsymbol {y}^T (I_n-\boldsymbol {H})\boldsymbol {y}/\sigma^2 \\ &= SS_\mathrm{Res} / \sigma^2 \sim \chi^2_{n-K}, \end{align}[/math]

wobei

[math](I_n - \boldsymbol {H})\boldsymbol {X}=0[/math]

und der Satz von Cochran verwendet wurden.

            

Ferner gilt ebenso

[math]\|\hat{\boldsymbol y} - \boldsymbol X \boldsymbol \beta\|_2^2 / \sigma^2 \sim \chi^2_K[/math].

Güte des Regressionsmodells

Hat man eine Regression ermittelt, ist man auch an der Güte dieser Regression interessiert. Im Fall [math]x_{t1} = 1[/math] für alle [math]t[/math] wird häufig als Maß für die Güte das Bestimmtheitsmaß [math]R^2[/math] verwendet. Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei [math]1[/math] liegt, desto besser ist die Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch das Hypothesenpaar [math]H_0 \colon R^2=0[/math] gegen [math]H_1 \colon R^2 \ne 0[/math] mit der Prüfgröße

[math]F = \frac{SS_\mathrm{Reg}/(K-1)}{SS_\mathrm{Res}/(n-K)}=\frac{\frac{SS_\mathrm{Reg}}{SS_\mathrm{Total}}/(K-1)} {\frac{SS_\mathrm{Res}}{SS_\mathrm{Total}}/(n-K)}=\frac{R^2/(K-1)}{(1-R^2)/(n-K)} \sim F_{K-1, n-K}[/math]

testen. Die Prüfgröße [math]F[/math] ist F-verteilt mit [math]K[/math] und [math]n-K[/math] Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau [math]\alpha[/math] den kritischen Wert [math]F(1-\alpha; K; n-K)[/math], das [math](1-\alpha)[/math]-Quantil der F-Verteilung mit [math]K-1[/math] und [math]n-K[/math] Freiheitsgraden, wird [math]H_0[/math] abgelehnt. [math]R^2[/math] ist dann ausreichend groß, [math]x[/math] trägt also vermutlich genügend viel Information zur Erklärung von [math]y[/math] bei.

Unter den Voraussetzungen des klassischen linearen Regressionsmodells ist der Test ein Spezialfall der einfaktoriellen ANOVA. Für jeden Beobachtungswert [math]x_t[/math] ist die Störgröße [math]\varepsilon_t\sim \mathcal{N}(0, \sigma^2)[/math] und damit [math]y_t \sim \mathcal{N}(\mu_t=\beta_1 x_{t1} + \beta_2 x_{t2}+ \dotsb+\beta_K x_{tK}, \sigma^2)[/math]-verteilt (mit [math]\mu_t[/math] der wahre Regressionswert in der Grundgesamtheit), d. h., die Voraussetzungen der ANOVA sind erfüllt. Sind alle [math]\beta_t[/math]-Koeffizienten gleich null, so ist dies äquivalent zur Nullhypothese der ANOVA: [math]H_0: \mu_1= \ldots =\mu_T[/math].

Die Residualanalyse, bei der man die Residuen über den unabhängigen Variablen aufträgt, gibt Aufschluss über

Ein Ziel bei der Residualanalyse ist es, die Voraussetzung der unbeobachteten Residuen [math]\varepsilon_t[/math] zu überprüfen. Hierbei ist es wichtig zu beachten, dass

[math]e_t \neq \varepsilon_t[/math]

gilt. [math]e_t[/math] ist mit der Formel [math]e_t= y_t- \hat{y}_t[/math] berechenbar. Im Gegensatz hierzu ist die Störgröße [math]\varepsilon_t[/math] nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen soll für das Modell gelten

[math]\operatorname{Var}(\varepsilon_t) = \sigma^2 = const.[/math]

Es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als Homoskedastizität bezeichnet und ist auf die Residuen übertragbar. Dies bedeutet: Wenn man die unabhängigen Variablen [math]x[/math] gegen die Residuen [math]e[/math] aufträgt, sollten keine systematischen Muster erkennbar sein.

In den obigen drei Grafiken wurden die unabhängigen Variablen [math]x[/math] gegen die Residuen [math]e[/math] geplottet, und im Beispiel 1 sieht man, dass hier tatsächlich kein erkennbares Muster in den Residuen vorliegt, d. h., dass die Annahme der Varianzhomogenität erfüllt ist. In den Beispielen 2 und 3 dagegen ist diese Annahme nicht erfüllt: Man erkennt ein Muster. Zur Anwendung der linearen Regression sind daher hier zunächst geeignete Transformationen durchzuführen. So ist im Beispiel 2 ein Muster zu erkennen, das an eine Sinus-Funktion erinnert, womit hier eine Daten-Transformation der Form [math]a \sin(t x_t + c)[/math] denkbar wäre, während im Beispiel 3 ein Muster zu erkennen ist, das an eine Parabel erinnert, in diesem Fall also eine Daten-Transformation der Form [math]a(x_t-c)^2[/math] angebracht sein könnte.

Beitrag der einzelnen Regressoren zur Erklärung der abhängigen Variablen

Man ist daran interessiert, ob man einzelne Parameter oder Regressoren aus dem Regressionsmodell entfernen kann, ob also ein Regressor nicht (oder nur gering) zur Erklärung von [math]\boldsymbol y[/math] beiträgt. Dies ist dann möglich, falls ein Parameter [math]\beta_k[/math] gleich null ist, somit testet man die Nullhypothese [math]H_0\colon \beta_k =0[/math]. Das heißt, man testet, ob der [math]k[/math]-te Parameter gleich Null ist. Wenn dies der Fall ist, kann der zugehörige [math]k[/math]-te Regressor [math]x_k[/math] aus dem Modell entfernt werden. Der Vektor [math]\boldsymbol b[/math] ist als lineare Transformation von [math]\boldsymbol y[/math] verteilt wie

[math]\boldsymbol b \sim \mathcal{N}\left(\boldsymbol \beta, \sigma^2 {(\boldsymbol X^T \boldsymbol X)}^{-1}\right)[/math].

Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Varianz-Kovarianz-Matrix

[math]\widehat {Cov} (\boldsymbol b) = \hat \sigma^2 (\boldsymbol X^T \boldsymbol X)^{-1}[/math].

Die geschätzte Varianz [math]\sigma ^2[/math] eines Regressionskoeffizienten [math]b_k[/math] steht als k-tes Diagonalelement in der geschätzten Varianz-Kovarianz-Matrix. Es ergibt sich die Prüfgröße

[math]t_k = \frac {b_k}{ \hat \sigma _{b_k}} \sim t_{n-K}[/math],

wobei die Wurzel der geschätzten Varianz [math]\hat \sigma ^2 _{b_k} = \hat \sigma^2 (\boldsymbol X^T \boldsymbol X)^{-1}_{kk}[/math] des [math]k[/math]-ten Parameters dessen geschätzten Standardfehler [math]\hat \sigma _{b_k}[/math] darstellt.

Die Prüf- bzw. Pivotgröße ist t-verteilt mit [math]n-K[/math] Freiheitsgraden. Ist [math]|t_k|[/math] größer als der kritische Wert [math]t_{(1-\alpha/2 ,n-K)}[/math], dem [math](1-\alpha/2)[/math]-Quantil der [math]t[/math]-Verteilung mit [math]n-K[/math] Freiheitsgraden, wird die Hypothese abgelehnt. Somit wird der Regressor [math]x_k[/math] im Modell beibehalten und der Beitrag des Regressors [math]x_k[/math] zur Erklärung von [math]\boldsymbol y[/math] ist signifikant groß, d. h. signifikant von null verschieden.

Prognose

Ein einfaches Modell zur Prognose von endogenen Variablen ergibt sich durch

[math]\boldsymbol y_0 =\boldsymbol X_0 \beta +\boldsymbol e_0[/math],

wobei [math]\boldsymbol y_0[/math] den Vektor von zukünftigen abhängigen Variablen und [math]\boldsymbol X_0[/math] die Matrix der erklärenden Variablen zum Zeitpunkt [math]T_0[/math] darstellt.

Die Voraussage wird wie folgt dargestellt: [math]\hat\boldsymbol y_0 =\boldsymbol X_0 \boldsymbol b[/math], woraus sich folgender Voraussagefehler ergibt: [math]\hat\boldsymbol y_0 -\boldsymbol y_0[/math]

Eigenschaften des Voraussagefehlers:

Der Voraussagefehler ist im Mittel null: [math]\operatorname{E}(\hat\boldsymbol y_0 -\boldsymbol y_0)=E(\boldsymbol X_0( \boldsymbol b- \boldsymbol \beta)- e_0)=0[/math]

Die Varianz-Kovarianz-Matrix des Voraussagefehlers lautet: [math]E[(\hat\boldsymbol y_0 -\boldsymbol y_0-E(\hat\boldsymbol y_0 -\boldsymbol y_0))((\hat\boldsymbol y_0 -\boldsymbol y_0-E(\hat\boldsymbol y_0 -\boldsymbol y_0))^T]=\sigma^2[\boldsymbol X_0(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X_0^T +\boldsymbol I][/math]

Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den durchschnittlichen Prognosewert [math]E(Y_0)[/math] ermitteln. Es ergibt sich als Varianz der Prognose

[math]\operatorname{Var} (\boldsymbol {\hat{y}}_0) = \sigma^2 (x_{01} x_{02} \ldots x_{0K} )^T (\boldsymbol X ^T \boldsymbol X )^{-1} \begin{pmatrix} x_{01}\\ x_{02}\\ \vdots\\ x_{0K}\\ \end{pmatrix}=\sigma^2 \boldsymbol {x}_0^T (\boldsymbol X ^T \boldsymbol X )^{-1} \boldsymbol {x}_0 [/math].

Man erhält dann als [math](1- \alpha)[/math]-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz

[math][\boldsymbol {\hat{y}}_0 - s \cdot t_{1-\alpha /2; n-K} \; ; \; \boldsymbol {\hat{y}}_0 + s \cdot t_{1-\alpha /2; n-K}][/math].

Speziell für den Fall der einfachen linearen Regression ergibt sich das Prognose-Konfidenzintervall:

[math]KI_{1- \alpha}=\left[ \boldsymbol {\hat{y}}_0 - t_{1- \alpha/2 ; n-K} \cdot \hat \sigma \cdot \sqrt {\frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum\limits_{i=1}^n (x_i - \bar x)^2 }} \; ; \; \boldsymbol {\hat{y}}_0 + t_{1- \alpha/2 ; n-K} \cdot \hat \sigma \cdot \sqrt {\frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum\limits_{i=1}^n (x_i - \bar x)^2 }} \right][/math]

Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable [math]x_0[/math] sich vom „Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.

Verallgemeinerte Kleinste-Quadrate-Methode

Um die unbekannten Parameter im linearen Regressionsmodell effizient zu schätzen, kann die GLS-Methode (englisch für Generalized Least Squares) herangezogen werden. Diese Methode kann benutzt werden, falls ein bestimmter Grad an Korrelation zwischen den Residuen vorliegt, oder wenn Heteroskedastizität vorliegt, oder beides. Die GLS-Methode minimiert im Gegensatz zur KQ-Methode eine gewichtete Summe der quadrierten Residuen. Der GLS-Schätzer für den Parametervektor lautet:

[math] \hat{\boldsymbol\beta} = (\boldsymbol{X}^T\boldsymbol\Psi ^{-1} \boldsymbol X )^{-1}\boldsymbol {X}^T\boldsymbol\Psi ^{-1} \boldsymbol y [/math]

Der GLS- Schätzer ist ebenfalls BLUE. Weitere Eigenschaften:

Varianz- Kovarianzmatrix des GLS- Schätzers:

[math]\operatorname{Cov}( \hat{\boldsymbol\beta} )= \sigma^2 (\boldsymbol X^T \boldsymbol\Psi ^{-1} \boldsymbol X)^{-1}[/math]

Der GLS- Schätzer ist erwartungstreu:

[math]\operatorname{E}( \hat{\boldsymbol\beta} )=\operatorname{E}( (\boldsymbol{X}^T\boldsymbol\Psi ^{-1} \boldsymbol X )^{-1}\boldsymbol {X}^T\boldsymbol\Psi ^{-1} \boldsymbol y)=\beta+\operatorname{E}( (\boldsymbol{X}^T\boldsymbol\Psi ^{-1} \boldsymbol X )^{-1}\boldsymbol {X}^T\boldsymbol\Psi ^{-1} \boldsymbol e)= \boldsymbol \beta.[/math]

Beispiel

Zur Illustration der multiplen Regression wird im folgenden Beispiel untersucht, wie die abhängige Variable [math]y[/math]: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd. Euro) von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen Deutschland (in jeweiligen Preisen; Mrd. EUR)“ abhängt. Die Daten sind im Portal Statistik zu finden. Da man in der Regel die Berechnung eines Regressionsmodells am Computer durchführt, wird in diesem Beispiel exemplarisch dargestellt, wie eine multiple Regression mit der Statistik-Software R durchgeführt werden kann.

Variable Beschreibung der Variablen
[math]\text{BWSb95}[/math] Bruttowertschöpfung in Preisen von 95 (bereinigt)
[math]\text{BBLandFF}[/math] Bruttowertschöpfung von Land- und Forstwirtschaft, Fischerei
[math]\text{BBProdG}[/math] Bruttowertschöpfung des produzierenden Gewerbes ohne Baugewerbe
[math]\text{BBBau}[/math] Bruttowertschöpfung im Baugewerbe
[math]\text{BBHandGV}[/math] Bruttowertschöpfung von Handel, Gastgewerbe und Verkehr
[math]\text{BBFinVerm}[/math] Bruttowertschöpfung durch Finanzierung, Vermietung und Unternehmensdienstleister
[math]\text{BBDienstOEP}[/math] Bruttowertschöpfung von öffentlichen und privaten Dienstleistern

Zunächst lässt man sich ein Streudiagramm ausgeben. Es zeigt, dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der wirtschaftlichen Bereiche positiv korreliert ist. Das erkennt man daran, dass die Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.

In einem ersten Schritt gibt man das Modell mit allen Regressoren in R ein:

lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)

Anschließend lässt man sich in R ein Summary des Modells mit allen Regressoren ausgeben, dann erhält man folgende Auflistung:

Residuals:
    Min     1Q      Median  3Q     Max
    −1.5465 −0.8342 −0.1684 0.5747 1.5564

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.6533 30.1373 4.833 0.000525 ***
BBLandFF      0.4952  2.4182 0.205 0.841493
BBProdG       0.9315  0.1525 6.107 7.67e−05 ***
BBBau         2.1671  0.2961 7.319 1.51e−05 ***
BBHandGV      0.9697  0.3889 2.494 0.029840 *
BBFinVerm     0.1118  0.2186 0.512 0.619045
BBDienstÖP    0.4053  0.1687 2.402 0.035086 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.222 on 11 degrees of freedom
Multiple R-Squared: 0.9889, Adjusted R-squared: 0.9828
F-statistic: 162.9 on 6 and 11 DF, p-value: 4.306e−10

Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von [math]F = 162{,}9[/math]. Diese Prüfgröße hat einen p-Wert von [math]4{,}306 \cdot 10^{-10}[/math], somit ist die Anpassung signifikant gut.

Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von [math]\alpha=0,05[/math], dass die Variablen [math]\text{BBLandFF}[/math] und [math]\text{BBFinVerm}[/math] offensichtlich die Variable [math]\text{BWSb95}[/math] nur unzureichend erklären können. Dies erkennt man daran, dass die zugehörigen [math]t[/math]-Werte zu diesen beiden Variablen verhältnismäßig klein sind, und somit die Hypothese, dass die Koeffizienten dieser Variablen null sind, nicht verworfen werden kann.

Die Variablen [math]\text{BBBau}[/math] und [math]\text{BBDienstOEP}[/math] sind gerade noch signifikant. Besonders stark korreliert ist [math]y[/math] (in diesem Beispiel also [math]\text{BWSb95}[/math]) mit den Variablen [math]\text{BBProdG}[/math] und [math]\text{BBBau}[/math], was man an den zugehörigen hohen [math]t[/math]-Werten erkennen kann.

Im nächsten Schritt werden die nicht-signifikanten Regressoren [math]\text{BBLandFF}[/math] und [math]\text{BBFinVerm}[/math] aus dem Modell entfernt:

lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)

Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann erhält man folgende Auflistung:

Residuals:
     Min      1Q       Median   3Q      Max
     −1.34447 −0.96533 −0.05579 0.82701 1.42914

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept) 158.00900 10.87649 14.528 2.05e−09 ***
BBProdG       0.93203  0.14115  6.603 1.71e−05 ***
BBBau         2.03613  0.16513 12.330 1.51e−08 ***
BBHandGV      1.13213  0.13256  8.540 1.09e−06 ***
BBDienstÖP    0.36285  0.09543  3.802 0.0022 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.14 on 13 degrees of freedom
Multiple R-Squared: 0.9886, Adjusted R-squared: 0.985
F-statistic: 280.8 on 4 and 13 DF, p-value: 1.783e−12

Dieses Modell liefert eine Prüfgröße von [math]F = 280{,}8[/math]. Diese Prüfgröße hat einen p-Wert von [math]1{,}783 \cdot 10^{-12}[/math], somit ist die Anpassung besser als im ersten Modell. Dies ist vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Regressoren signifikant sind.

Regularisierung der Regression

Um ein gewünschtes Verhalten der Regression zu gewährleisten und somit eine Überanpassung an den Trainingsdatensatz zu vermeiden, gibt es die Möglichkeit, den Regressionsterm mit Penalty-Termen zu versehen, die als Nebenbedingungen auftreten.

Zu den bekanntesten Regularisierungen gehören hierbei:[4][5]

  • Die [math]L_1[/math]-Regularisierung (auch LASSO-Regularisierung genannt): Durch [math]\boldsymbol \hat{\beta} = \underset{\boldsymbol \beta}{\operatorname{arg\ min}} (\| \boldsymbol y- \boldsymbol X \boldsymbol \beta \|^2 + \lambda \|\boldsymbol \beta\|_1)[/math] werden bevorzugt einzelne Elemente des Vektors [math]\boldsymbol \hat{\beta}[/math] minimiert. Die übrigen Elemente des Vektors können jedoch (betragsmäßig) große Werte annehmen. Dies begünstigt die Bildung dünnbesetzter Matrizen, was effizientere Algorithmen ermöglicht.
  • Die [math]L_2[/math]-Regularisierung (auch Ridge-Regularisierung genannt): Durch [math]\boldsymbol \hat{\beta} = \underset{\boldsymbol \beta}{\operatorname{arg\min}} (\| \boldsymbol y-\boldsymbol X\boldsymbol \beta \|^2 + \lambda \|\boldsymbol \beta\|^2)[/math] wird der gesamte Vektor [math]\boldsymbol \hat{\beta}[/math] gleichmäßig minimiert, die Matrizen sind jedoch voller.
  • Das elastische Netz: Hierbei wird durch den Ausdruck [math]\boldsymbol \hat{\beta} = \underset{\boldsymbol \beta}{\operatorname{arg\min}} (\| \boldsymbol y-\boldsymbol X \boldsymbol \beta \|^2 + \lambda_2 \|\boldsymbol \beta\|^2 + \lambda_1 \|\boldsymbol \beta\|_1)[/math] sowohl die [math]L_1[/math]- als auch die[math]L_2[/math]-Regularisierung durchgeführt.

Spezielle Anwendungen der Regressionsanalyse

Spezielle Anwendungen der Regressionsanalyse beziehen sich auch auf die Analyse von diskreten und im Wertebereich eingeschränkten abhängigen Variablen. Hierbei kann unterschieden werden nach Art der abhängigen Variablen und Art der Einschränkung des Wertebereichs. Im Folgenden werden die Regressionsmodelle, die an dieser Stelle angewandt werden können, aufgeführt. Nähere Angaben hierzu finden sich bei Frone (1997)[6] sowie Long (1997)[7].

Modelle für unterschiedliche Arten abhängiger Variablen (Generalisierte Lineare Modelle):

Modelle für unterschiedliche Arten eingeschränkter Wertebereiche:

Anwendung in der Ökonometrie

Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:

Einzelnachweise

  1. Walter Gellert, Herbert Küstner, Manfred Hellwich, Herbert Kästner (Hrsg.): Kleine Enzyklopädie Mathematik. Leipzig 1970, S. 669–670.
  2. G. Judge und R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 201.
  3. G. Judge und R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 266.
  4. Andrew Y. Ng: Feature selection, L1 vs. L2 regularization, and rotational invariance. In: Proceedings of 2004 International Conference on Machine Learning (ICML). (PDF).
  5. Hui Zou, Trevor Hastie: Regularization and Variable Selection via the Elastic Net. (PDF).
  6. M. R. Frone: Regression models for discrete and limited dependent variables. Research Methods Forum No. 2, 1997 online. (Memento vom 7. Januar 2007 im Internet Archive)
  7. J. S. Long: Regression models for categorical and limited dependent variables. Sage, Thousand Oaks, CA 1997.

Siehe auch

Literatur

  • Norman R. Draper, Harry Smith: Applied Regression Analysis. Wiley, New York 1998.
  • Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Modelle, Methoden und Anwendungen. Springer Verlag, Berlin/ Heidelberg/ New York 2007, ISBN 978-3-540-33932-8.
  • Gerhard Opfer: Numerische Mathematik für Anfänger. 2. Auflage. Vieweg Verlag, 1994.
  • Volker Oppitz, Volker Nollau: Taschenbuch Wirtschaftlichkeitsrechnung. Carl Hanser Verlag, 2003, ISBN 3-446-22463-7.
  • Volker Oppitz: Gabler Lexikon Wirtschaftlichkeitsrechnung. Gabler-Verlag, 1995, ISBN 3-409-19951-9.
  • Peter Schönfeld: Methoden der Ökonometrie. Berlin/ Frankfurt 1969.
  • Dieter Urban, Jochen Mayerl: Regressionsanalyse: Theorie, Technik und Anwendung. 2. überarb. Auflage. VS Verlag, Wiesbaden 2006, ISBN 3-531-33739-4.
  • E. Zeidler (Hrsg.): Taschenbuch der Mathematik. (Bekannt als Bronstein und Semendjajew.) Stuttgart/ Leipzig/ Wiesbaden 2003.
  • K. Backhaus, B. Erichson, W. Plinke, R. Weiber: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 12. Auflage. Berlin u. a. 2008.
  • W. Zucchini, A. Schlegel, O. Nenadíc, S. Sperlich: Statistik für Bachelor- und Masterstudenten. Springer Verlag, Berlin/ Heidelberg 2009.
  • A. Colin Cameron, Pravin K. Trivedi: Microeconometrics. Methods and Applications. Cambridge University Press, 2005, ISBN 0521848059.
  • G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998.

Weblinks

 Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien
 Commons: Lineare Regression  – Sammlung von Bildern, Videos und Audiodateien

Kategorien: Regressionsmodell | Ausgleichsrechnung

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Lineare Regression (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.