Statistik-Probleme lösen
Wie führe ich eine Regressionsanalyse in R durch (Anleitung für Anfänger)?
Projekt-Plan
Lade die aktuelle R-Version von CRAN (https://cran.r-project.org/) und die kostenlose RStudio Desktop Version von Posit (https://posit.co/download/rstudio-desktop/) herunter.
- Installiere zuerst R, dann RStudio.
- Starte RStudio nach der Installation.
Erledigt, wenn: RStudio geöffnet ist und der Befehl
versionin der Konsole eine Version >= 4.4.0 anzeigt.
Öffne RStudio und gib in die Konsole ein: install.packages("tidyverse").
- Dieses Meta-Paket enthält ggplot2 (Visualisierung) und dplyr (Datenmanipulation).
- Lade die Bibliothek mit
library(tidyverse). Erledigt, wenn: Der Befehllibrary(tidyverse)ohne Fehlermeldung ausgeführt wird.
Suche auf YouTube nach dem Video 'Linear Regression Clearly Explained' von Josh Starmer (StatQuest).
- Fokus: Verstehe, was die Sum of Squared Residuals ist.
- Verstehe die Bedeutung von Slope (Steigung) und Intercept (Achsenabschnitt). Erledigt, wenn: Du den Unterschied zwischen einer beobachteten Datenpunkt und der Vorhersage (Residual) erklären kannst.
Nutze den eingebauten Datensatz: data(mtcars).
- Betrachte die ersten Zeilen mit
head(mtcars). - Erstelle ein Streudiagramm zur Prüfung der Linearität:
plot(mtcars$hp, mtcars$mpg). Erledigt, wenn: Ein Scatterplot in RStudio erscheint, der den Zusammenhang zwischen PS (hp) und Verbrauch (mpg) zeigt.
Erstelle das Modell mit der Syntax: model <- lm(mpg ~ hp, data = mtcars).
mpgist die abhängige Variable (was wir erklären wollen).hpist die unabhängige Variable (der Prädiktor). Erledigt, wenn: Das Objektmodelin deinem 'Environment' Fenster in RStudio gelistet ist.
Führe summary(model) aus und analysiere die Ausgabe:
- Coefficients (Estimate): Wie stark ändert sich mpg pro PS?
- Pr(>|t|): Ist der p-Wert < 0.05? (Statistische Signifikanz).
- Multiple R-squared: Wie viel Prozent der Varianz erklärt das Modell? Erledigt, wenn: Du schriftlich festhältst, ob PS einen signifikanten Einfluss auf den Verbrauch hat.
Erstelle eine professionelle Grafik:
ggplot(mtcars, aes(x = hp, y = mpg)) + geom_point() + geom_smooth(method = "lm", col = "blue") + theme_minimal().
- Die blaue Linie zeigt den Trend, der graue Bereich das Konfidenzintervall. Erledigt, wenn: Ein Diagramm mit Datenpunkten und einer blauen Regressionsgerade angezeigt wird.
Führe plot(model) aus. R generiert 4 diagnostische Plots.
- Achte besonders auf den 'Residuals vs Fitted' Plot. Die Punkte sollten zufällig um die Null-Linie streuen. Erledigt, wenn: Du bestätigen kannst, dass kein klares Muster (z.B. U-Form) in den Residuen vorliegt.
Wende das Gelernte eigenständig an:
- Datensatz:
iris. - Aufgabe: Sage die
Sepal.Length(Kelchblattlänge) durch diePetal.Length(Kronblattlänge) voraus. - Befehl:
lm(Sepal.Length ~ Petal.Length, data = iris). Erledigt, wenn: Du das R-squared für dieses neue Modell berechnet hast.
Fasse die 5 wichtigsten Befehle in einem Dokument zusammen:
lm(y ~ x, data = d)(Modellbau)summary(m)(Ergebnisse)predict(m, newdata)(Vorhersage)resid(m)(Residuen extrahieren)geom_smooth(method="lm")(Visualisierung). Erledigt, wenn: Ein einseitiges PDF oder eine Textdatei als Referenz für zukünftige Probleme existiert.