Offizielle Vorlage

Statistik-Probleme lösen

A
von @Admin
Bildung & Lernen

Wie führe ich eine Regressionsanalyse in R durch (Anleitung für Anfänger)?

Projekt-Plan

10 Aufgaben
1.

Lade die aktuelle R-Version von CRAN (https://cran.r-project.org/) und die kostenlose RStudio Desktop Version von Posit (https://posit.co/download/rstudio-desktop/) herunter.

  • Installiere zuerst R, dann RStudio.
  • Starte RStudio nach der Installation. Erledigt, wenn: RStudio geöffnet ist und der Befehl version in der Konsole eine Version >= 4.4.0 anzeigt.
2.

Öffne RStudio und gib in die Konsole ein: install.packages("tidyverse").

  • Dieses Meta-Paket enthält ggplot2 (Visualisierung) und dplyr (Datenmanipulation).
  • Lade die Bibliothek mit library(tidyverse). Erledigt, wenn: Der Befehl library(tidyverse) ohne Fehlermeldung ausgeführt wird.
3.

Suche auf YouTube nach dem Video 'Linear Regression Clearly Explained' von Josh Starmer (StatQuest).

  • Fokus: Verstehe, was die Sum of Squared Residuals ist.
  • Verstehe die Bedeutung von Slope (Steigung) und Intercept (Achsenabschnitt). Erledigt, wenn: Du den Unterschied zwischen einer beobachteten Datenpunkt und der Vorhersage (Residual) erklären kannst.
4.

Nutze den eingebauten Datensatz: data(mtcars).

  • Betrachte die ersten Zeilen mit head(mtcars).
  • Erstelle ein Streudiagramm zur Prüfung der Linearität: plot(mtcars$hp, mtcars$mpg). Erledigt, wenn: Ein Scatterplot in RStudio erscheint, der den Zusammenhang zwischen PS (hp) und Verbrauch (mpg) zeigt.
5.

Erstelle das Modell mit der Syntax: model <- lm(mpg ~ hp, data = mtcars).

  • mpg ist die abhängige Variable (was wir erklären wollen).
  • hp ist die unabhängige Variable (der Prädiktor). Erledigt, wenn: Das Objekt model in deinem 'Environment' Fenster in RStudio gelistet ist.
6.

Führe summary(model) aus und analysiere die Ausgabe:

  • Coefficients (Estimate): Wie stark ändert sich mpg pro PS?
  • Pr(>|t|): Ist der p-Wert < 0.05? (Statistische Signifikanz).
  • Multiple R-squared: Wie viel Prozent der Varianz erklärt das Modell? Erledigt, wenn: Du schriftlich festhältst, ob PS einen signifikanten Einfluss auf den Verbrauch hat.
7.

Erstelle eine professionelle Grafik: ggplot(mtcars, aes(x = hp, y = mpg)) + geom_point() + geom_smooth(method = "lm", col = "blue") + theme_minimal().

  • Die blaue Linie zeigt den Trend, der graue Bereich das Konfidenzintervall. Erledigt, wenn: Ein Diagramm mit Datenpunkten und einer blauen Regressionsgerade angezeigt wird.
8.

Führe plot(model) aus. R generiert 4 diagnostische Plots.

  • Achte besonders auf den 'Residuals vs Fitted' Plot. Die Punkte sollten zufällig um die Null-Linie streuen. Erledigt, wenn: Du bestätigen kannst, dass kein klares Muster (z.B. U-Form) in den Residuen vorliegt.
9.

Wende das Gelernte eigenständig an:

  • Datensatz: iris.
  • Aufgabe: Sage die Sepal.Length (Kelchblattlänge) durch die Petal.Length (Kronblattlänge) voraus.
  • Befehl: lm(Sepal.Length ~ Petal.Length, data = iris). Erledigt, wenn: Du das R-squared für dieses neue Modell berechnet hast.
10.

Fasse die 5 wichtigsten Befehle in einem Dokument zusammen:

  1. lm(y ~ x, data = d) (Modellbau)
  2. summary(m) (Ergebnisse)
  3. predict(m, newdata) (Vorhersage)
  4. resid(m) (Residuen extrahieren)
  5. geom_smooth(method="lm") (Visualisierung). Erledigt, wenn: Ein einseitiges PDF oder eine Textdatei als Referenz für zukünftige Probleme existiert.
0
0

Diskussion

Melde dich an, um an der Diskussion teilzunehmen.

Lade Kommentare...