Inferenzstatistik: wichtige Konzepte

Nullhypothese

Die Nullhypothese ist die Hypothese, dass es in der Population keinen Effekt oder Unterschied gibt, also dass beobachtete Unterschiede nur durch Zufall entstanden sind.

 

Beispiel: Vergleich der Blutdruckwerte zwischen Medikamenten- und Placebogruppe

 

Fragestellung: Unterscheiden sich die durchschnittlichen Blutdruckwerte zwischen einer Gruppe, die ein neues Medikament zur Blutdrucksenkung erhält, und einer Kontrollgruppe, die ein Placebo erhält?

Nullhypothese (H₀): "Es gibt keinen Unterschied in den durchschnittlichen Blutdruckwerten zwischen der Medikamenten- und der Placebogruppe."

Formell ausgedrückt: H0: μMed  = μPlac            oder             H0: μMed  - μPlac = 0 

Hierbei steht:

  • μMed für den Populationsmittelwert des Blutdrucks in der Medikamentengruppe
  • μPlac für den Populationsmittelwert des Blutdrucks in der Placebogruppe.

 

Alternativhypothese (H₁): "Es gibt einen Unterschied in den durchschnittlichen Blutdruckwerten zwischen der Medikamenten- und der Placebogruppe."

Formell ausgedrückt: H1: μMed ≠ μPlac            oder             H1: μMed  - μPlac ≠  0 

Statistische Signifikanz

Statistische Signifikanz ist ein Konzept, das in der Hypothesenprüfung verwendet wird, um zu beurteilen, ob ein beobachtetes Ergebnis wahrscheinlich auf Zufall oder auf einen tatsächlichen Effekt zurückzuführen ist. Der Kern der statistischen Signifikanz liegt in der Berechnung des p-Werts.

p-Wert

Der p-Wert (probability value) ist ein Maß dafür, wie gut die beobachteten Daten mit der Nullhypothese (H₀) vereinbar sind. 

Interpretation des p-Werts:

  • Ein niedriger p-Wert (typischerweise ≤ 0,05) weist darauf hin, dass die beobachteten Daten unter der Nullhypothese unwahrscheinlich sind. Dies deutet darauf hin, dass der Effekt oder Unterschied wahrscheinlich nicht durch Zufall erklärt werden kann, und die Nullhypothese wird verworfen.
  • Ein hoher p-Wert (> 0,05) deutet darauf hin, dass die Daten unter der Nullhypothese wahrscheinlich sind. Dies bedeutet, dass es keine ausreichenden Beweise gibt, um die Nullhypothese abzulehnen, und der beobachtete Effekt könnte durch Zufall erklärt werden.
Signifikanzniveau (α)

Das Signifikanzniveau (α) ist die Schwelle, die festlegt, wie streng der Test sein muss, um die Nullhypothese abzulehnen. Typischerweise wird ein Signifikanzniveaus von 0,05 verwendet.

Beispiel: Bei einem Signifikanzniveau von 0,05 bedeutet ein p-Wert von 0,03, dass das Ergebnis statistisch signifikant ist, da es kleiner als das Signifikanzniveau ist.

Einfluss der Stichprobengröße auf den p-Wert: Es ist zu beachten, dass der p-Wert auch von der Größe der Stichprobe beeinflusst wird. Je größer die Stichprobe, desto mehr Teststärke (Power) hat der statistische Test, um auch kleine Effekte zu erkennen. Dies kann dazu führen, dass mit zunehmender Stichprobengröße auch sehr kleine und möglicherweise irrelevante Unterschiede als statistisch signifikant ausgewiesen werden. Daher sollte bei der Interpretation von p-Werten auch die Stichprobengröße berücksichtigt werden, um zu beurteilen, ob ein signifikantes Ergebnis auch praktisch bedeutsam ist.

Fehlerarten

Typ-I-Fehler: Falsches Ablehnen der Nullhypothese, wenn sie tatsächlich wahr ist (auch als α-Fehler bekannt).

Typ-II-Fehler: Falsches Beibehalten der Nullhypothese, wenn sie tatsächlich falsch ist (auch als β-Fehler bekannt). 

Bedeutung der statistischen Signifikanz

Statistische Signifikanz hilft zu bestimmen, ob die Ergebnisse eines Experiments oder einer Studie nicht nur durch Zufall verursacht wurden. Es ist wichtig, die statistische Signifikanz im Kontext der praktischen Relevanz zu betrachten. Ein Ergebnis kann statistisch signifikant sein, aber die tatsächliche Bedeutung oder der Effekt in der realen Welt muss separat bewertet werden.

Effektgröße

Die Effektgröße quantifiziert die Stärke eines Phänomens. Sie wird verwendet, um die praktische Bedeutung eines Ergebnisses zu beurteilen.

Beispiele: Cohen's d (für Mittelwertsunterschiede), Pearson's r (für Korrelationen), Eta-Quadrat (für ANOVA).

 

Konfidenzintervall

Das (1−α)-Konfidenzintervall bezeichnet den Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer Wahrscheinlichkeit von 1−α den Populationsparameter überdeckt.

Ein Konfidenzniveau von 95% bedeutet beispielsweise, dass in 95% aller Stichproben der Populationsparameter innerhalb des Konfidenzintervalls liegt

 

Das Konzept des Konfidenzintervalls ist eng mit dem Prinzip des statistischen Testens verbunden. Das erkennt man daran, dass das Konfidenzniveau (1−α) des Konfidenzintervalls die Gegenwahrscheinlichkeit des Signifikanzniveaus α darstellt.

Nehmen wir noch einmal das obige Beispiel “Vergleich der Blutdruckwerte zwischen Medikamenten- und Placebogruppe”. Hierbei ist der zu schätzende Populationsparameter die Mittelwertsdifferenz im Blutdruck der beiden Populationen: μMed  - μPlac

Die Ablehnung der Nullhypothese H0: μMed  - μPlac = 0 bei einem Signifikanzniveau von 5% entspricht dann der Feststellung, dass ein 95%-Konfidenzintervall des Populationsparameters den Wert 0 nicht einschließt. 

Power

Die Power eines Tests gibt an, wie wahrscheinlich es ist, dass der Test einen tatsächlichen Effekt erkennt (d.h. die Nullhypothese ablehnt, wenn sie falsch ist). Eine hohe Power reduziert das Risiko eines Fehlers 2. Art (fälschliche Annahme der Nullhypothese).

Beispiel: Eine Power von 0,8 (80 %) bedeutet, dass in 80 % der Fälle ein tatsächlicher Effekt erkannt wird.

Einseitiges vs. Zweiseitiges Testen

In der statistischen Hypothesenprüfung gibt es zwei Hauptansätze zur Formulierung der Alternativhypothese: einseitiges und zweiseitiges Testen. Die Wahl des Tests hängt davon ab, welche spezifische Fragestellung untersucht wird.

 
Einseitiges Testen

Beim einseitigen Testen wird nur in eine Richtung getestet, um festzustellen, ob der Effekt oder Unterschied in nur einer Richtung signifikant ist.

Hypothesenformulierung

  • Nullhypothese (H₀): Der Effekt oder Unterschied ist nicht größer (oder kleiner) als ein bestimmter Wert (z.B. μ ≤ μ₀).
  • Alternativhypothese (H₁): Der Effekt oder Unterschied ist größer (oder kleiner) als der spezifizierte Wert(z.B. μ > μ₀).

 

Beispiel: Angenommen, wir wollen prüfen, ob die durchschnittliche Klausurnote der Schüler:innen, die eine bereitgestellte Lernapp verwenden, besser ist als bei Schüler:innen ohne Zugang zur Lernapp. Unsere Nullhypothese könnte lauten: „Die durchschnittliche Klausurnote der Schüler:innen mit Lernapp ist nicht besser als die der Schüler:innen ohne App“. Die Alternativhypothese wäre: „Die durchschnittliche Klausurnote der Schüler:innen mit Lernapp ist besser als die der Schüler:innen ohne App“.

 

Vorteile / Nachteile

  • Vorteil: Ein einseitiger Test hat mehr statistische Power, um Unterschiede in der getesteten Richtung zu erkennen, da der gesamte kritische Bereich des Tests nur auf eine Seite verteilt ist.
  • Nachteil: Der Test kann keinen Effekt in der anderen Richtung nachweisen. Wenn der wahre Effekt in der entgegengesetzten Richtung liegt, wird dieser Test dies nicht erfassen.
Zweiseitiges Testen

Beim zweiseitigen Testen wird in beide Richtungen getestet, um festzustellen, ob der Effekt oder Unterschied signifikant von der Nullhypothese abweicht, unabhängig davon, in welche Richtung der Unterschied besteht.

Hypothesenformulierung:

  • Nullhypothese (H₀): Es gibt keinen Effekt oder Unterschied (z.B. μ = μ₀).
  • Alternativhypothese (H₁):  Es gibt einen Effekt oder Unterschied (z.B. μ ≠ μ₀).

 

Beispiel: Angenommen, wir möchten prüfen, ob es einen Unterschied im durchschnittlichen Testwert zwischen zwei Lehrplänen gibt, ohne eine bestimmte Richtung vorzuschreiben. Unsere Nullhypothese könnte lauten: „Der durchschnittliche Testwert der beiden Lehrpläne ist gleich“ (μ_A = μ_B). Die Alternativhypothese wäre: „Der durchschnittliche Testwert der beiden Lehrpläne ist unterschiedlich“ (μ_A ≠ μ_B).

 

Vorteile / Nachteile

  • Vorteil: Ein zweiseitiger Test ist flexibler, da er Unterschiede in beiden Richtungen erkennen kann. Er ist also umfassender, wenn keine spezifische Richtung des Effekts vorhergesagt wird.
  • Nachteil: Der Test hat weniger statistische Power in der getesteten Richtung, da der kritische Bereich auf beide Seiten verteilt ist, was zu einem höheren Schwellenwert für die Signifikanz führt.