Lineare Regression

Lineare Regression wird in der Statistik häufig eingesetzt, um den Zusammenhang zweier Variablen darzustellen. Nennen wir diese \(x\) und \(y\). Im einfachsten Fall ist eine der Variablen unabhängig, also zum Beispiel \(x\). Die zweite Variable ist linear abhängig von der Ersten. Ein Beispiel für \(x\) wäre "Anzahl Raucher" und für \(y\) "Todesfälle durch Lungenkrebs". Hat man Daten zu den Variablen erhoben, kann man diese in einer Punktewolke darstellen. Mit der linearen Regression lässt sich eine Gerade berechnen, die die Punktewolke beschreibt. Es wird die Gerade gewählt, die die Summe der quadratischen Abstände der Punkte zu der Geraden minimiert. Klicke in die untere Grafik, um Punkte hinzuzufügen und beobachte, wie sich die Gerade ändert.

Vielleicht hast du schon bemerkt, dass die lineare Regression anfällig gegenüber "Ausreißer" ist. Ein Ausreißer ist ein Punkt, der sehr stark von den anderen Beobachtungen abweicht. Das liegt daran, dass die quadratischen Abstände berechnet werden. Das Quadrieren sorgt also dafür, dass Ausreißer sehr stark gewichtet werden. Oft sind Ausreißer aber beispielsweise aus Messfehlern entstanden, sodass diese Übergewichtung ungewünscht ist.

Berechnung der Parameter der Geraden

Die Geraden-Gleichung kennt man aus der Schule: \( y = mx + t \). Wir müssen also aus den vorhandenen Datenpunkten diese beiden Parameter \(m \) und \(t\) bestimmen, dann können wir die Gerade zeichnen. Nennen wir unsere Punkte \((x_1,y_1), (x_2,y_2), ... , (x_n,y_n)\).
Wir wissen, dass folgendes gelten muss: $$ y_1 = mx_1 + t $$ $$y_2 = mx_2 + t$$ $$ ... $$ $$y_n = mx_n + t $$ Das Problem ist, dass alle Punkte auf einer Geraden liegen müssen, um dieses Gleichungssystem lösen zu können. Das ist aber eher unrealistisch. Man bringt alles auf eine Seite \(y_1 - mx_1 - t = 0 \) und sieht, dass die Null auf der rechten Seite der optimale Wert für jeden Punkt wäre. Der Trick ist jetzt für "alle Punkte möglichst nahe an die Null zu kommen". Deswegen werden die quadratischen Abstände minimiert: $$ \min_{t,m}((y_1 - mx_1 - t)^2 + (y_2 - mx_2 - t)^2 + ... + (y_n - mx_n - t)^2) $$ Die quadratischen Abstände werden auch Residuen genannt. Das Optimierungsproblem kann mit relativ einfach mit linearer Algebra gelöst werden. Zuerst wird das (unlösbare) Gleichungssystem aufgestellt: $$ \begin{pmatrix} x_1 & 1 \\ x_2 & 1 \\ ... & ... \\ x_n & 1 \end{pmatrix} \begin{pmatrix} m \\ t \end{pmatrix} = \begin{pmatrix} y_1 \\ y_2 \\ ... \\ y_n \end{pmatrix} $$ Um Schreibarbeit zu sparen wird folgendes definiert: $$ A = \begin{pmatrix} x_1 & 1 \\ x_2 & 1 \\ ... & ... \\ x_n & 1 \end{pmatrix}$$ $$\vec{x} = \begin{pmatrix} m \\ t \end{pmatrix} $$ $$ \vec{b} = \begin{pmatrix} y_1 \\ y_2 \\ ... \\ y_n \end{pmatrix} $$ Das Gleichungssystem wird mit Hilfe der Pseudoinversen gelöst, da A nicht invertierbar ist. Zuerst wird mit \(A^T \) von links multipliziert: $$ A^T A \vec{x} = A^T \vec{b} $$ Dann die Inverse der invertierbaren Matrix \(A^T A\) von links multipliziert: $$ (A^T A)^{-1}A^T A \vec{x} = (A^T A)^{-1} A^T \vec{b} $$ Und es folgt: $$ \vec{x} = (A^T A)^{-1} A^T \vec{b} $$