Häufigkeitsverteilungstabellen
Archivierte Inhalte
Informationen, die als archiviert gekennzeichnet sind, werden zu Referenz-, Forschungs- oder Archivierungszwecken bereitgestellt. Sie unterliegen nicht den Webstandards der kanadischen Regierung und wurden seit ihrer Archivierung nicht verändert oder aktualisiert. Bitte kontaktieren Sie uns, wenn Sie ein anderes als das verfügbare Format wünschen.
- Beispiel 1 – Konstruieren einer Häufigkeitsverteilungstabelle
- Beispiel 2 – Konstruieren einer kumulativen Häufigkeitsverteilungstabelle
- Klassenintervalle
- Beispiel 3 – Konstruieren einer Häufigkeitsverteilungstabelle für eine große Anzahl von Beobachtungen
- Relative Häufigkeit und prozentuale Häufigkeit
- Beispiel 4 – Konstruieren von Tabellen mit relativer Häufigkeit und prozentualer Häufigkeit
Die Häufigkeit (f) einer bestimmten Beobachtung ist die Anzahl, wie oft die Beobachtung in den Daten vorkommt. Die Verteilung einer Variablen ist das Muster der Häufigkeiten der Beobachtung. Häufigkeitsverteilungen werden als Häufigkeitstabellen, Histogramme oder Polygone dargestellt.
Häufigkeitsverteilungen können entweder die tatsächliche Anzahl der Beobachtungen zeigen, die in jeden Bereich fallen, oder den Prozentsatz der Beobachtungen. Im letzteren Fall wird die Verteilung als relative Häufigkeitsverteilung bezeichnet.
Häufigkeitsverteilungstabellen können sowohl für kategorische als auch für numerische Variablen verwendet werden. Kontinuierliche Variablen sollten nur mit Klassenintervallen verwendet werden, was in Kürze erklärt wird.
Beispiel 1 – Erstellen einer Häufigkeitsverteilungstabelle
Eine Umfrage wurde in der Maple Avenue durchgeführt. In jedem der 20 Häuser wurden die Personen gefragt, wie viele Autos auf ihren Haushalt zugelassen sind. Die Ergebnisse wurden wie folgt aufgezeichnet:
1, 2, 1, 0, 3, 4, 0, 1, 1, 1, 2, 2, 3, 2, 3, 2, 1, 4, 0, 0
Mit den folgenden Schritten können Sie diese Daten in einer Häufigkeitsverteilungstabelle darstellen.
- Teilen Sie die Ergebnisse (x) in Intervalle ein und zählen Sie dann die Anzahl der Ergebnisse in jedem Intervall. In diesem Fall wären die Intervalle die Anzahl der Haushalte ohne Auto (0), mit einem Auto (1), mit zwei Autos (2) und so weiter.
- Erstellen Sie eine Tabelle mit separaten Spalten für die Intervallnummern (die Anzahl der Autos pro Haushalt), die gezählten Ergebnisse und die Häufigkeit der Ergebnisse in jedem Intervall. Beschriften Sie diese Spalten mit Anzahl der Autos, Strichliste und Häufigkeit.
- Lesen Sie die Liste der Daten von links nach rechts und setzen Sie eine Strichliste in die entsprechende Zeile. Das erste Ergebnis ist z. B. eine 1, also setzen Sie einen Strich in die Zeile, neben der die 1 in der Intervallspalte (Anzahl der Autos) steht. Das nächste Ergebnis ist eine 2, also setzen Sie eine Zählmarke in die Zeile neben der 2, und so weiter. Wenn Sie bei der fünften Markierung angelangt sind, ziehen Sie eine Linie durch die vier vorangegangenen Markierungen, um die endgültigen Häufigkeitsberechnungen leichter ablesen zu können.
- Addieren Sie die Anzahl der Markierungen in jeder Zeile und tragen Sie sie in die letzte Spalte mit dem Titel Häufigkeit ein.
Ihre Häufigkeitsverteilungstabelle für diese Übung sollte wie folgt aussehen:
Anzahl der Autos (x) | Summe | Häufigkeit (f) |
---|---|---|
0 | 4 | |
1 | 6 | |
2 | 5 | |
3 | 3 | |
4 | 2 |
Bei einem schnellen Blick auf diese Häufigkeitsverteilungstabelle, können wir sehen, dass von 20 befragten Haushalten 4 Haushalte kein Auto hatten, 6 Haushalte hatten 1 Auto, usw.
Beispiel 2 – Konstruieren einer kumulativen Häufigkeitsverteilungstabelle
Eine kumulative Häufigkeitsverteilungstabelle ist eine detailliertere Tabelle. Sie sieht fast genauso aus wie eine Häufigkeitsverteilungstabelle, hat aber zusätzliche Spalten, die die kumulative Häufigkeit und den kumulativen Prozentsatz der Ergebnisse angeben.
Bei einem kürzlich stattgefundenen Schachturnier mussten alle 10 Teilnehmer ein Formular ausfüllen, in dem ihre Namen, ihre Adresse und ihr Alter angegeben waren. Das Alter der Teilnehmer wurde wie folgt erfasst:
36, 48, 54, 92, 57, 63, 66, 76, 66, 80
Mit den folgenden Schritten können Sie diese Daten in einer Tabelle der kumulativen Häufigkeitsverteilung darstellen.
- Teilen Sie die Ergebnisse in Intervalle ein und zählen Sie dann die Anzahl der Ergebnisse in jedem Intervall. In diesem Fall sind 10er-Intervalle angemessen. Da 36 das niedrigste Alter und 92 das höchste Alter ist, beginnen Sie die Intervalle bei 35 bis 44 und beenden die Intervalle mit 85 bis 94.
- Erstellen Sie eine Tabelle ähnlich der Häufigkeitsverteilungstabelle, aber mit drei zusätzlichen Spalten.
- Listen Sie in der ersten Spalte oder der Spalte „Unterer Wert“ den unteren Wert der Ergebnisintervalle auf. Zum Beispiel würden Sie in der ersten Zeile die Zahl 35 eintragen.
- Die nächste Spalte ist die Spalte Oberer Wert. Hier tragen Sie den oberen Wert der Ergebnisintervalle ein. Zum Beispiel würden Sie die Zahl 44 in die erste Zeile setzen.
- Die dritte Spalte ist die Spalte Häufigkeit. Erfassen Sie, wie oft ein Ergebnis zwischen dem unteren und dem oberen Wert auftritt. In die erste Zeile setzen Sie die Zahl 1.
- Die vierte Spalte ist die Spalte „Kumulative Häufigkeit“. Hier addieren wir die kumulative Häufigkeit der vorherigen Zeile zur Häufigkeit der aktuellen Zeile. Da es sich um die erste Zeile handelt, ist die kumulierte Häufigkeit gleich der Häufigkeit. In der zweiten Zeile wird jedoch die Häufigkeit für das Intervall 35-44 (d. h. 1) zu der Häufigkeit für das Intervall 45-54 (d. h. 2) addiert. Die kumulative Häufigkeit ist also 3, d. h. wir haben 3 Teilnehmer in der Altersgruppe 34 bis 54.
1 + 2 = 3
- Die nächste Spalte ist die Spalte „Prozentsatz“. In dieser Spalte geben Sie den prozentualen Anteil der Häufigkeit an. Dazu dividieren Sie die Häufigkeit durch die Gesamtzahl der Ergebnisse und multiplizieren mit 100. In diesem Fall ist die Häufigkeit der ersten Zeile 1 und die Gesamtzahl der Ergebnisse ist 10. Der Prozentsatz würde dann 10,0 betragen.
10.0. (1 ÷ 10) X 100 = 10,0
- Die letzte Spalte ist Kumulativer Prozentsatz. In dieser Spalte dividieren Sie die kumulative Häufigkeit durch die Gesamtzahl der Ergebnisse und multiplizieren dann mit 100, um einen Prozentsatz zu erhalten. Beachten Sie, dass die letzte Zahl in dieser Spalte immer gleich 100,0 sein sollte. In diesem Beispiel ist die kumulative Häufigkeit 1 und die Gesamtzahl der Ergebnisse ist 10, daher ist der kumulative Prozentsatz der ersten Zeile 10,0.
10.0. (1 ÷ 10) X 100 = 10,0
Die Tabelle der kumulativen Häufigkeitsverteilung sollte wie folgt aussehen:
Tabelle 2. Alter der Teilnehmer an einem Schachturnier Unterer Wert Oberer Wert Häufigkeit (f) Kumulative Häufigkeit Prozentsatz Kumulierter Prozentsatz 35 44 1 1 10.0 10.0 45 54 2 3 20.0 30.0 55 64 2 5 20.0 50.0 65 74 2 7 20.0 70.0 75 84 2 9 20.0 90.0 85 94 1 10 10.0 100.0
Weitere Informationen zur Erstellung von Summenhäufigkeitstabellen finden Sie im Abschnitt über die kumulative Häufigkeit und den kumulativen Prozentsatz.
Klassenintervalle
Wenn eine Variable eine große Anzahl von Werten annimmt, dann ist es einfacher, die Daten darzustellen und zu handhaben, indem man die Werte in Klassenintervalle gruppiert. Kontinuierliche Variablen werden eher in Klassenintervallen dargestellt, während diskrete Variablen in Klassenintervallen gruppiert werden können oder auch nicht.
Zur Veranschaulichung: Nehmen wir an, wir legen Altersbereiche für eine Studie über junge Menschen fest, wobei wir die Möglichkeit berücksichtigen, dass auch einige ältere Menschen in den Geltungsbereich unserer Studie fallen.
Die Häufigkeit eines Klassenintervalls ist die Anzahl der Beobachtungen, die in einem bestimmten vordefinierten Intervall auftreten. Wenn also zum Beispiel 20 Personen im Alter von 5 bis 9 Jahren in den Daten unserer Studie vorkommen, ist die Häufigkeit für das Intervall 5-9 20.
Die Endpunkte eines Klassenintervalls sind die niedrigsten und höchsten Werte, die eine Variable annehmen kann. Die Intervalle in unserer Studie sind also 0 bis 4 Jahre, 5 bis 9 Jahre, 10 bis 14 Jahre, 15 bis 19 Jahre, 20 bis 24 Jahre und 25 Jahre und älter. Die Endpunkte des ersten Intervalls sind 0 und 4, wenn die Variable diskret ist, und 0 und 4,999, wenn die Variable kontinuierlich ist. Die Endpunkte der anderen Klassenintervalle würden auf die gleiche Weise bestimmt werden.
Die Klassenintervallbreite ist die Differenz zwischen dem unteren Endpunkt eines Intervalls und dem unteren Endpunkt des nächsten Intervalls. Wenn die kontinuierlichen Intervalle unserer Studie also 0 bis 4, 5 bis 9 usw. sind, ist die Breite der ersten fünf Intervalle 5, und das letzte Intervall ist offen, da ihm kein höherer Endpunkt zugewiesen ist. Die Intervalle könnten auch als 0 bis weniger als 5, 5 bis weniger als 10, 10 bis weniger als 15, 15 bis weniger als 20, 20 bis weniger als 25 und 25 und darüber geschrieben werden.
Regeln für Datensätze, die eine große Anzahl von Beobachtungen enthalten
Zusammenfassend lässt sich sagen, dass Sie die folgenden Grundregeln befolgen sollten, wenn Sie eine Häufigkeitsverteilungstabelle für einen Datensatz erstellen, der eine große Anzahl von Beobachtungen enthält:
- Finden Sie die niedrigsten und höchsten Werte der Variablen
- Bestimmen Sie die Breite der Klassenintervalle
- Einschließen Sie alle möglichen Werte der Variablen.
Bei der Entscheidung über die Breite der Klassenintervalle müssen Sie einen Kompromiss finden zwischen Intervallen, die kurz genug sind, damit nicht alle Beobachtungen in dasselbe Intervall fallen, aber lang genug, damit Sie nicht nur eine Beobachtung pro Intervall haben.
Es ist auch wichtig sicherzustellen, dass die Klassenintervalle sich gegenseitig ausschließen.
Beispiel 3 – Erstellen einer Häufigkeitsverteilungstabelle für eine große Anzahl von Beobachtungen
Dreißig AA-Batterien wurden getestet, um festzustellen, wie lange sie halten würden. Die Ergebnisse wurden, auf die Minute genau, wie folgt aufgezeichnet:
423, 369, 387, 411, 393, 394, 371, 377, 389, 409, 392, 408, 431, 401, 363, 391, 405, 382, 400, 381, 399, 415, 428, 422, 396, 372, 410, 419, 386, 390
Benutzen Sie die Schritte in Beispiel 1 und die oben genannten Regeln, um eine Häufigkeitsverteilungstabelle zu erstellen.
Antwort
Der niedrigste Wert ist 363 und der höchste ist 431.
Bei den gegebenen Daten und einem Klassenintervall von 10 ist das Intervall für die erste Klasse 360 bis 369 und schließt 363 (den niedrigsten Wert) ein. Denken Sie daran, dass es immer genug Klassenintervalle geben sollte, damit der höchste Wert enthalten ist.
Die fertige Häufigkeitsverteilungstabelle sollte so aussehen:
Batterielebensdauer, Minuten (x) | Summe | Frequenz (f) |
---|---|---|
360-369 | 2 | |
370-379 | 3 | |
380-389 | 5 | |
390-399 | 7 | |
400-409 | 5 | |
410-419 | 4 | |
420-429 | 3 | |
430-439 | 1 | |
Gesamt | 30 |
Relative Häufigkeit und prozentuale Häufigkeit
Ein Analyst, der diese Daten untersucht, möchte vielleicht nicht nur wissen, wie lange Batterien halten, sondern auch, welcher Anteil der Batterien in jedes Klassenintervall der Batterielebensdauer fällt.
Diese relative Häufigkeit einer bestimmten Beobachtung oder eines Klassenintervalls wird gefunden, indem die Häufigkeit (f) durch die Anzahl der Beobachtungen (n) geteilt wird: das heißt, (f ÷ n). Also:
Relative Häufigkeit = Häufigkeit ÷ Anzahl der Beobachtungen
Die prozentuale Häufigkeit wird gefunden, indem jeder relative Häufigkeitswert mit 100 multipliziert wird. Also:
Prozentuale Häufigkeit = relative Häufigkeit X 100 = f ÷ n X 100
Beispiel 4 – Erstellen von Tabellen der relativen Häufigkeit und der prozentualen Häufigkeit
Verwenden Sie die Daten aus Beispiel 3, um eine Tabelle zu erstellen, in der die relative Häufigkeit und die prozentuale Häufigkeit für jedes Intervall der Batterielebensdauer angegeben sind.
So sieht diese Tabelle aus:
Batterielebensdauer, Minuten (x) | Frequenz (f) | Relative Frequenz | Prozentuale Frequenz |
---|---|---|---|
360-369 | 2 | 0.07 | 7 |
370-379 | 3 | 0.10 | 10 |
380-389 | 5 | 0.17 | 17 |
390-399 | 7 | 0.23 | 23 |
400-409 | 5 | 0.17 | 17 |
410-419 | 4 | 0.13 | 13 |
420-429 | 3 | 0.10 | 10 |
430-439 | 1 | 0.03 | 3 |
Gesamt | 30 | 1.00 | 100 |
Ein Analytiker dieser Daten könnte nun sagen, dass:
- 7% der AA-Batterien eine Lebensdauer von 360 Minuten bis zu aber weniger als 370 Minuten haben, und dass
- die Wahrscheinlichkeit, dass eine zufällig ausgewählte AA-Batterie eine Lebensdauer in diesem Bereich hat, ungefähr 0.07.
Denken Sie daran, dass diese analytischen Aussagen davon ausgehen, dass eine repräsentative Stichprobe gezogen wurde. In der realen Welt würde ein Analytiker auch eine Schätzung der Variabilität heranziehen (siehe Abschnitt „Streuungsmaße“), um die Analyse zu vervollständigen. Für unseren Zweck ist es jedoch ausreichend zu wissen, dass Häufigkeitsverteilungstabellen wichtige Informationen über die Grundgesamtheit liefern können, aus der eine Stichprobe gezogen wurde.