Lineare Regression
Die lineare Regression untersucht den Zusammenhang zwischen einer abhängigen Variablen (Kriterium) und einer oder mehreren unabhängigen Variablen (Prädiktoren). Die unabhängigen Variablen dienen dabei als Prädiktoren, mit deren Hilfe die abhängige Variable (Kriterium) vorhergesagt werden soll.
Einfache vs. multiple lineare Regression
Man kann zwischen der einfachen und der multiplen linearen Regression unterscheiden:
Einfache lineare Regression:
→ Modelliert die Beziehung zwischen einer unabhängigen Variable (Prädiktor) und einer abhängigen Variablen (Kriterium).
Beispiel: Vorhersage des Gewichts (Kriterium) basierend auf der Größe (Prädiktor).
Multiple lineare Regression:
→ Modelliert die Beziehung zwischen mehreren unabhängigen Variablen (Prädiktoren) und einer abhängigen Variablen (Kriterium).
Beispiel: Vorhersage des Gewichts (Kriterium) basierend auf Größe, Alter und Geschlecht (Prädiktoren).
Voraussetzungen
Skalenniveaus:Intervall- oder Verhältnisskala auf dem Kriterium
Linearität der Beziehung: Die Beziehung zwischen der abhängigen Variable und jeder unabhängigen Variable sollte linear sein.
Keine zu starke Multikollinearität: Multikollinearität tritt auf, wenn zwei oder mehr der unabhängigen Variablen stark korreliert sind, was die Schätzgenauigkeit der Koeffizienten beeinträchtigen kann
Homoskedastizität der Residuen: Die Varianz der Residuen (die Unterschiede zwischen beobachteten und vorhergesagten Werten) sollte konstant über alle Werte der unabhängigen Variablen sein. Heteroskedastizität (ungleiche Varianz) kann zu ineffizienten Schätzungen und falschen Schlussfolgerungen führen.
Normalverteilung der Residuen:
Unabhängigkeit der Residuen: Die Residuen sollten unabhängig voneinander sein, d.h., es sollte keine Autokorrelation vorliegen. Autokorrelation tritt häufig bei Zeitreihendaten auf, wenn aufeinanderfolgende Beobachtungen miteinander korreliert sind.
Keine Ausreißer, Hebelwerte oder einflussreiche Beobachtungen: Ausreißer können das Regressionsmodell erheblich verzerren und zu irreführenden Ergebnissen führen.
Tutorials zur Überprüfung der Voraussetzungen finden Sie auf der Seite von Björn Walther: R - Björn Walther
Formel der linearen Regression
Bei der linearen Regression wird der Zusammenhang der abhängigen Variable mit den unabhängigen Variablen als eine lineare Funktion dargestellt. Die lineare Regressionsgleichung kann für den einfachsten Fall – die einfache lineare Regression mit einer unabhängigen Variable – wie folgt dargestellt werden:

Hierbei ist:
- Y: Die abhängige Variable, die wir vorhersagen wollen.
- X1: Die unabhängige Variable, die zur Vorhersage von Y verwendet wird.
- β0: Der Achsenabschnitt (Intercept) der Regressionsgeraden, also der geschätzte Wert von Y, wenn X=0.
- β1: Der Regressionskoeffizient (Steigung), der den durchschnittlichen Zuwachs in Y angibt, der mit einer Einheitserhöhung in X verbunden ist.
- ϵ: Der Fehlerterm (Residuum), der die Abweichungen der beobachteten Werte von den durch das Modell vorhergesagten Werten erfasst.
Erweiterung auf multiple lineare Regression:
Bei der multiplen linearen Regression, bei der mehrere unabhängige Variablen zur Vorhersage der abhängigen Variable verwendet werden, erweitert sich die Formel zu:

Jedes βi (für i = 1, 2, ..., n) ist der Regressionskoeffizient für die entsprechende unabhängige Variable Xi, und er misst den durchschnittlichen Einfluss dieser Variablen auf Y, unter der Bedingung, dass alle anderen Variablen konstant gehalten werden.
Erweiterungen
Moderierte Regression
Das Grundkonzept der moderierten Regression besteht darin zu untersuchen, ob und wie ein moderierender Faktor den Einfluss einer unabhängigen Variable (UV) auf eine abhängige Variable (AV) verändert. Dies wird oft in Form einer Interaktion zwischen der unabhängigen Variable und der Moderatorvariable modelliert.
Beispiel:Einfluss von Ernährung auf Gewichtsverlust, moderiert durch das Geschlecht:
- Haupteffekt: Eine kalorienarme Ernährung führt zu Gewichtsverlust.
- Moderationseffekt: Das Geschlecht könnte den Einfluss der Ernährung auf den Gewichtsverlust beeinflussen, wobei möglicherweise Frauen und Männer unterschiedlich auf dieselbe Diät reagieren (bpsw. könnte bei Männern der Effekt der Ernährung auf Gewichtsverlust stärker sein als bei Frauen)
Mediationsanalyse
Die Mediationsanalyse ist eine statistische Methode, die verwendet wird, um zu erklären, wie eine unabhängige Variable (UV) eine abhängige Variable (AV) durch eine oder mehrere Mediatorvariablen beeinflusst. Der Mediator ist eine Variable, die den kausalen Weg zwischen der unabhängigen und der abhängigen Variable erklärt oder vermittelt.
Mediation untersucht also den Prozess, durch den eine unabhängige Variable ihre Wirkung auf eine abhängige Variable ausübt. Anstatt nur die direkte Beziehung zwischen UV und AV zu betrachten, schaut Mediation auf den indirekten Effekt, der durch die Mediatorvariable übertragen wird.
Beispiel: Wird der Effekt von Arbeitszufriedenheit (UV) auf Produktivität (AV) durch das Stressniveau (Mediator) mediiert? Die Hypothese ist, dass eine hohe Arbeitszufriedenheit das Stressniveau senkt und dadurch die Produktivität erhöht.
Lineare Regression mit kategorialen UVs
In die lineare Regression können auch kategoriale unabhängige Variablen (Prädiktoren) aufgenommen werden. Hierzu muss allerdings eine Kodierung der kategorialen Variable vollzogen werden. Prominente Beispiele sind die Dummykodierung und die Effektkodierung.
Beispiel: Sagt das Studienfach (Mathematik vs. BWL vs. Geographie) das Einstiegsgehalt vorher?
Logistische Regression
Um ordinale abhängige Variablen vorherzusagen, muss statt der linearen Regression auf die logistische Regression zurückgegriffen werden.
Beispiel: Sagt die Vorbereitungszeit auf eine Klausur (in Stunden) das Bestehen eines Tests (Bestehen vs. Nicht-Bestehen) vorher?
Durchführung und Interpretation (Tutorials von Björn Walther):
Erweiterungen:
Der Forschungsprozess
Quantitative vs. Qualitative Forschung
Quantitative Unterrsuchungsmethoden
- Experiment
- Quasi-Experiment
- Korrelative Untersuchungsdesigns
- Querschnitt-Studie
- Längsschnitt-Studie
- Trend-Studie
Quantitative Auswertung