Inferenzstatistik: wichtige Konzepte

Nullhypothese

Die Nullhypothese ist die Hypothese, dass es keinen Effekt oder Unterschied gibt, also dass beobachtete Unterschiede nur durch Zufall entstanden sind.

 

Beispiel: Vergleich der durchschnittlichen Testwerte von zwei Klassen

 

Fragestellung: Unterscheiden sich die durchschnittlichen Testwerte der Klasse A und der Klasse B signifikant voneinander?

 

Nullhypothese (H₀): „Es gibt keinen signifikanten Unterschied in den durchschnittlichen Testwerten zwischen Klasse A und Klasse B.“

Formell ausgedrückt: H₀: μA = μB

Hierbei steht:

  • μA für den Mittelwert der Testwerte in Klasse A
  • μB für den Mittelwert der Testwerte in Klasse B

 

Alternativhypothese (H₁): „Es gibt einen signifikanten Unterschied in den durchschnittlichen Testwerten zwischen Klasse A und Klasse B.“

Formell ausgedrückt: H₁: μA ≠ μB

Statistische Signifikanz

Statistische Signifikanz ist ein Konzept, das in der Hypothesenprüfung verwendet wird, um zu beurteilen, ob ein beobachtetes Ergebnis wahrscheinlich auf Zufall oder auf einen tatsächlichen Effekt zurückzuführen ist. Der Kern der statistischen Signifikanz liegt in der Berechnung des p-Werts.

p-Wert

Der p-Wert (probability value) ist ein Maß dafür, wie gut die beobachteten Daten mit der Nullhypothese (H₀) vereinbar sind. 

Interpretation des p-Werts:

  • Ein niedriger p-Wert (typischerweise ≤ 0,05) weist darauf hin, dass die beobachteten Daten unter der Nullhypothese unwahrscheinlich sind. Dies deutet darauf hin, dass der Effekt oder Unterschied wahrscheinlich nicht durch Zufall erklärt werden kann, und die Nullhypothese wird verworfen.
  • Ein hoher p-Wert (> 0,05) deutet darauf hin, dass die Daten unter der Nullhypothese wahrscheinlich sind. Dies bedeutet, dass es keine ausreichenden Beweise gibt, um die Nullhypothese abzulehnen, und der beobachtete Effekt könnte durch Zufall erklärt werden.
Signifikanzniveau (α)

Das Signifikanzniveau (α) ist die Schwelle, die festlegt, wie streng der Test sein muss, um die Nullhypothese abzulehnen. Typischerweise wird ein Signifikanzniveaus von 0,05 verwendet.

Beispiel: Bei einem Signifikanzniveau von 0,05 bedeutet ein p-Wert von 0,03, dass das Ergebnis statistisch signifikant ist, da es kleiner als das Signifikanzniveau ist.

Fehlerarten

Typ-I-Fehler: Falsches Ablehnen der Nullhypothese, wenn sie tatsächlich wahr ist (auch als α-Fehler bekannt).

Typ-II-Fehler: Falsches Beibehalten der Nullhypothese, wenn sie tatsächlich falsch ist (auch als β-Fehler bekannt). 

Bedeutung der statistischen Signifikanz

Statistische Signifikanz hilft zu bestimmen, ob die Ergebnisse eines Experiments oder einer Studie nicht nur durch Zufall verursacht wurden. Es ist wichtig, die statistische Signifikanz im Kontext der praktischen Relevanz zu betrachten. Ein Ergebnis kann statistisch signifikant sein, aber die tatsächliche Bedeutung oder der Effekt in der realen Welt muss separat bewertet werden.

Effektgröße

Die Effektgröße quantifiziert die Stärke eines Phänomens. Sie wird verwendet, um die praktische Bedeutung eines Ergebnisses zu beurteilen.

Beispiele: Cohen's d (für Mittelwertsunterschiede), Pearson's r (für Korrelationen), Eta-Quadrat (für ANOVA).

 

Konfidenzintervall

Ein Konfidenzintervall gibt den Bereich an, in dem ein unbekannter Populationsparameter (z.B. Mittelwert) mit einer bestimmten Wahrscheinlichkeit liegt (meist 95 %).

Beispiel: Ein 95%-Konfidenzintervall für den Mittelwert bedeutet, dass wir zu 95 % sicher sind, dass der wahre Mittelwert der Population innerhalb dieses Intervalls liegt.

 

Power

Die Power eines Tests gibt an, wie wahrscheinlich es ist, dass der Test einen tatsächlichen Effekt erkennt (d.h. die Nullhypothese ablehnt, wenn sie falsch ist). Eine hohe Power reduziert das Risiko eines Fehlers 2. Art (fälschliche Annahme der Nullhypothese).

Beispiel: Eine Power von 0,8 (80 %) bedeutet, dass in 80 % der Fälle ein tatsächlicher Effekt erkannt wird.

Einseitiges vs. Zweiseitiges Testen

In der statistischen Hypothesenprüfung gibt es zwei Hauptansätze zur Formulierung der Alternativhypothese: einseitiges und zweiseitiges Testen. Die Wahl des Tests hängt davon ab, welche spezifische Fragestellung untersucht wird.

 
Einseitiges Testen

Beim einseitigen Testen wird nur in eine Richtung getestet, um festzustellen, ob der Effekt oder Unterschied in nur einer Richtung signifikant ist.

Hypothesenformulierung

  • Nullhypothese (H₀): Es gibt keinen Effekt oder Unterschied (z.B. μ ≤ μ₀).
  • Alternativhypothese (H₁): Der Effekt oder Unterschied ist nur in eine Richtung signifikant (z.B. μ > μ₀ oder μ < μ₀).

 

Beispiel: Angenommen, wir wollen prüfen, ob die durchschnittliche Klausurnote der Schüler:innen, die eine bereitgestellte Lernapp verwenden, besser ist als bei Schüler:innen ohne Zugang zur Lernapp. Unsere Nullhypothese könnte lauten: „Die durchschnittliche Klausurnote der Schüler:innen mit Lernapp ist nicht besser als die der Schüler:innen ohne App“. Die Alternativhypothese wäre: „Die durchschnittliche Klausurnote der Schüler:innen mit Lernapp ist besser als die der Schüler:innen ohne App“.

 

Vorteile / Nachteile

  • Vorteil: Ein einseitiger Test hat mehr statistische Power, um Unterschiede in der getesteten Richtung zu erkennen, da der gesamte kritische Bereich des Tests nur auf eine Seite verteilt ist.
  • Nachteil: Der Test kann keinen Effekt in der anderen Richtung nachweisen. Wenn der wahre Effekt in der entgegengesetzten Richtung liegt, wird dieser Test dies nicht erfassen.
Zweiseitiges Testen

Beim zweiseitigen Testen wird in beide Richtungen getestet, um festzustellen, ob der Effekt oder Unterschied signifikant von der Nullhypothese abweicht, unabhängig davon, in welche Richtung der Unterschied besteht.

Hypothesenformulierung:

  • Nullhypothese (H₀): Es gibt keinen Effekt oder Unterschied (z.B. μ = μ₀).
  • Alternativhypothese (H₁): Der Effekt oder Unterschied kann in beide Richtungen signifikant sein (z.B. μ ≠ μ₀).

 

Beispiel: Angenommen, wir möchten prüfen, ob es einen Unterschied im durchschnittlichen Testwert zwischen zwei Lehrplänen gibt, ohne eine bestimmte Richtung vorzuschreiben. Unsere Nullhypothese könnte lauten: „Der durchschnittliche Testwert der beiden Lehrpläne ist gleich“ (μ_A = μ_B). Die Alternativhypothese wäre: „Der durchschnittliche Testwert der beiden Lehrpläne ist unterschiedlich“ (μ_A ≠ μ_B).

 

Vorteile / Nachteile

  • Vorteil: Ein zweiseitiger Test ist flexibler, da er Unterschiede in beiden Richtungen erkennen kann. Er ist also umfassender, wenn keine spezifische Richtung des Effekts vorhergesagt wird.
  • Nachteil: Der Test hat weniger statistische Power in der getesteten Richtung, da der kritische Bereich auf beide Seiten verteilt ist, was zu einem höheren Schwellenwert für die Signifikanz führt.