Deskriptivstatistik

Maße

Maße der zentralen Tendenz und Dispersionsmaße sind grundlegende Konzepte der Deskriptivstatistik, die verwendet werden, um Datenmengen zu beschreiben und zu analysieren.

Maße der zentralen Tendenz geben an, wo der "Mittelpunkt" einer Datenverteilung liegt. Die bekanntesten Maße sind:

    •    Arithmetisches Mittel (Durchschnitt): Die Summe aller Werte, geteilt durch die Anzahl der Werte.

    •    Median: Der Wert, der in einer sortierten Datenreihe in der Mitte liegt, also 50 % der Werte über und 50 % der Werte unter sich hat.

    •    Modus: Der am häufigsten vorkommende Wert in einer Datenreihe.

 

Dispersionsmaße (oder Streuungsmaße) geben Auskunft darüber, wie stark die Daten um den Mittelpunkt streuen, also wie "breit" die Verteilung ist. Wichtige Dispersionsmaße sind:

    •    Spannweite: Der Unterschied zwischen dem größten und dem kleinsten Wert.

    •    Varianz: Das durchschnittliche Quadrat der Abweichungen der Werte vom arithmetischen Mittel, was die Streuung in den Daten beschreibt.

    •    Standardabweichung: Die Quadratwurzel der Varianz, die das Ausmaß der Streuung in derselben Einheit wie die Daten angibt.

 

Diese Maße helfen, die Eigenschaften einer Datenverteilung besser zu verstehen und zu interpretieren.

Je nach Skalenniveau dürfen unterschiedliche Maße verwendet werden.

SkalenniveauMaße der zentralen TendenzDispersionsmaße
NominalskalaModusKeine
OrdinalskalaModus, MedianSpannweite
IntervallskalaModus, Median, Arithmetisches MittelSpannweite, Varianz, Standardabweichung
VerhältnisskalaModus, Median, Arithmetisches MittelSpannweite, Varianz, Standardabweichung, Variationskoeffizient

 

Tutorial von Björn Walther: Deskriptive Statistik in R - Björn Walther


Grafiken

Balkendiagramm (Bar Chart):

      •    Verwendet, um kategoriale Daten darzustellen (Skalenniveau: Nominal)

      •    Die Höhe (oder Länge) der Balken repräsentiert die Häufigkeit oder den Wert einer Kategorie

      •    Besonders nützlich für den Vergleich von verschiedenen Kategorien

Tutorial von Björn Walther

 

Histogramm:

      •    Eine spezielle Form des Balkendiagramms, das kontinuierliche Daten in Intervallen (Klassen) darstellt (Skalenniveau: Metrisch)

      •    Die Höhe der Balken zeigt an, wie viele Datenpunkte in jedes Intervall fallen

      •    Verwendet, um die Verteilung einer numerischen Variable darzustellen

Tutorial von Björn Walther

 

Kreisdiagramm (Pie Chart):

      •    Zeigt die relative Häufigkeit oder den Anteil jeder Kategorie in einem Datensatz (Skalenniveau: Nominal)

      •    Der Kreis ist in Segmente unterteilt, wobei die Größe jedes Segments dem Anteil der jeweiligen Kategorie entspricht

      •    Eignet sich gut für die Darstellung von Anteilen in einer Gesamtheit

Tutorial von Björn Walther

 

Boxplot (Box-and-Whisker Plot):

      •    Verwendet, um die Verteilung einer numerischen Variable zu visualisieren (Skalenniveau: Metrisch)

      •    Zeigt den Median, das untere und obere Quartil sowie Ausreißer

      •    Eignet sich gut, um die Streuung und Symmetrie der Daten zu visualisieren und Ausreißer zu identifizieren

Tutorial von Björn Walther

 

Streudiagramm (Scatterplot):

      •    Verwendet, um den Zusammenhang zwischen zwei numerischen Variablen darzustellen (Skalenniveau: Metrisch)

      •    Jeder Punkt repräsentiert ein Paar von Werten (einer auf der x-Achse, einer auf der y-Achse)

      •    Nützlich, um Korrelationen oder Trends zwischen den Variablen zu erkennen

Tutorial von Björn Walther