Bootstrapping ist ein statistisches Verfahren, bei dem aus einem einzelnen Datensatz viele simulierte Stichproben erzeugt werden. Mit diesem Verfahren können Sie Standardfehler berechnen, Konfidenzintervalle konstruieren und Hypothesentests für zahlreiche Arten von Stichprobenstatistiken durchführen. Bootstrap-Methoden sind alternative Ansätze zu traditionellen Hypothesentests und zeichnen sich dadurch aus, dass sie einfacher zu verstehen und für mehr Bedingungen gültig sind.
In diesem Blogbeitrag erkläre ich die Grundlagen von Bootstrapping, vergleiche Bootstrapping mit konventionellen statistischen Methoden und erkläre, wann es die bessere Methode sein kann. Zusätzlich werde ich ein Beispiel mit realen Daten durcharbeiten, um Bootstrapping-Konfidenzintervalle zu erstellen.
Bootstrapping und traditionelle Hypothesentests sind inferenzstatistische Verfahren
Bei Bootstrapping und traditionellen Methoden werden Stichproben verwendet, um Rückschlüsse auf Populationen zu ziehen. Um dieses Ziel zu erreichen, behandeln diese Verfahren die einzelne Stichprobe, die eine Studie erhält, nur als eine von vielen Zufallsstichproben, die die Studie hätte erheben können.
Aus einer einzelnen Stichprobe können Sie eine Vielzahl von Stichprobenstatistiken berechnen, wie z. B. den Mittelwert, den Median und die Standardabweichung, aber wir konzentrieren uns hier auf den Mittelwert.
Angenommen, ein Analyst wiederholt seine Studie viele Male. In dieser Situation wird der Mittelwert von Stichprobe zu Stichprobe variieren und eine Verteilung der Stichprobenmittelwerte bilden. Statistiker bezeichnen diese Art der Verteilung als Stichprobenverteilung. Stichprobenverteilungen sind von entscheidender Bedeutung, da sie den Wert Ihrer Stichprobenstatistik in den breiteren Kontext vieler anderer möglicher Werte stellen.
Während es nicht möglich ist, eine Studie viele Male durchzuführen, können beide Methoden Stichprobenverteilungen schätzen. Unter Verwendung des größeren Kontextes, den Stichprobenverteilungen bieten, können diese Verfahren Konfidenzintervalle konstruieren und Hypothesentests durchführen.
: Unterschiede zwischen deskriptiver und inferentieller Statistik
Unterschiede zwischen Bootstrapping und traditionellen Hypothesentests
Ein Hauptunterschied zwischen Bootstrapping und traditioneller Statistik ist die Art und Weise, wie sie Stichprobenverteilungen schätzen.
Traditionelle Hypothesentestverfahren erfordern Gleichungen, die Stichprobenverteilungen unter Verwendung der Eigenschaften der Stichprobendaten, des Versuchsplans und einer Teststatistik schätzen. Um gültige Ergebnisse zu erhalten, müssen Sie die richtige Teststatistik verwenden und die Annahmen erfüllen. Ich beschreibe diesen Prozess ausführlicher in anderen Beiträgen – Links unten.
Die Bootstrap-Methode verwendet einen ganz anderen Ansatz zur Schätzung von Stichprobenverteilungen. Diese Methode nimmt die Stichprobendaten, die eine Studie erhält, und führt dann immer wieder Stichproben durch, um viele simulierte Stichproben zu erzeugen. Jede dieser simulierten Stichproben hat ihre eigenen Eigenschaften, z. B. den Mittelwert. Wenn Sie die Verteilung dieser Mittelwerte in einem Histogramm grafisch darstellen, können Sie die Stichprobenverteilung des Mittelwertes beobachten. Sie müssen sich nicht um Teststatistiken, Formeln und Annahmen kümmern.
Das Bootstrap-Verfahren verwendet diese Stichprobenverteilungen als Grundlage für Konfidenzintervalle und Hypothesentests. Schauen wir uns an, wie dieses Resampling-Verfahren funktioniert.
Wie t-Tests funktionieren und wie der F-Test in der ANOVA funktioniert
Wie Bootstrapping Ihre Daten resampelt, um simulierte Datensätze zu erstellen
Bootstrapping resampelt den Originaldatensatz mit Ersetzung viele tausend Mal, um simulierte Datensätze zu erstellen. Bei diesem Prozess werden Zufallsstichproben aus dem Originaldatensatz gezogen. So funktioniert es:
- Die Bootstrap-Methode hat eine gleiche Wahrscheinlichkeit, jeden Originaldatenpunkt zufällig für die Aufnahme in die neu abgetasteten Datensätze zu ziehen.
- Das Verfahren kann einen Datenpunkt mehr als einmal für einen neu abgetasteten Datensatz auswählen. Diese Eigenschaft ist der „with replacement“-Aspekt des Prozesses.
- Die Prozedur erstellt neu abgetastete Datensätze, die die gleiche Größe wie der Originaldatensatz haben.
Der Prozess endet damit, dass Ihre simulierten Datensätze viele verschiedene Kombinationen der Werte haben, die im Originaldatensatz vorhanden sind. Jeder simulierte Datensatz hat seinen eigenen Satz an Stichprobenstatistiken, wie z. B. den Mittelwert, den Median und die Standardabweichung. Bootstrapping-Verfahren verwenden die Verteilung der Stichprobenstatistiken über die simulierten Stichproben als Stichprobenverteilung.
Beispiel für Bootstrap-Stichproben
Lassen Sie uns einen einfachen Fall durcharbeiten. Nehmen wir an, eine Studie sammelt fünf Datenpunkte und erstellt vier Bootstrap-Stichproben, wie unten gezeigt.
Dieses einfache Beispiel illustriert die Eigenschaften von Bootstrap-Stichproben. Die neu abgetasteten Datensätze haben die gleiche Größe wie der Originaldatensatz und enthalten nur Werte, die im Originaldatensatz vorhanden sind. Außerdem können diese Werte in den neu abgetasteten Datensätzen häufiger oder seltener vorkommen als im Originaldatensatz. Schließlich ist der Resampling-Prozess zufällig und könnte einen anderen Satz simulierter Datensätze erzeugen.
Natürlich würde man in einer echten Studie hoffen, einen größeren Stichprobenumfang zu haben, und man würde Tausende von resampelten Datensätzen erzeugen. Angesichts der enormen Anzahl von resampelten Datensätzen werden Sie immer einen Computer verwenden, um diese Analysen durchzuführen.
Wie gut funktioniert Bootstrapping?
Resampling bedeutet, dass Sie Ihren einen Datensatz viele Male wiederverwenden. Das scheint fast zu schön, um wahr zu sein! Tatsächlich kommt der Begriff „Bootstrapping“ von der unmöglichen Phrase, sich an den eigenen Stiefelschlaufen hochzuziehen! Wenn man jedoch die Leistung von Computern nutzt, um aus einem Datensatz zufällig Tausende von simulierten Datensätzen zu erstellen, erhält man aussagekräftige Ergebnisse.
Die Bootstrap-Methode gibt es seit 1979, und ihre Verwendung hat zugenommen. Verschiedene Studien haben in den letzten Jahrzehnten festgestellt, dass Bootstrap-Stichprobenverteilungen den korrekten Stichprobenverteilungen nahe kommen.
Um zu verstehen, wie es funktioniert, müssen Sie sich vor Augen halten, dass Bootstrapping keine neuen Daten erzeugt. Stattdessen wird die ursprüngliche Stichprobe als Proxy für die reale Population behandelt und dann eine Zufallsstichprobe daraus gezogen. Folglich ist die zentrale Annahme für Bootstrapping, dass die ursprüngliche Stichprobe die tatsächliche Population genau repräsentiert.
Der Resampling-Prozess erzeugt viele mögliche Stichproben, die eine Studie hätte ziehen können. Die verschiedenen Kombinationen von Werten in den simulierten Stichproben liefern zusammen eine Schätzung der Variabilität zwischen den aus derselben Population gezogenen Stichproben. Die Bandbreite dieser möglichen Stichproben ermöglicht es dem Verfahren, Konfidenzintervalle zu konstruieren und Hypothesentests durchzuführen. Wichtig ist, dass Bootstrapping mit zunehmender Stichprobengröße unter den meisten Bedingungen gegen die korrekte Stichprobenverteilung konvergiert.
Sehen wir uns nun ein Beispiel für diese Prozedur in Aktion an!
Beispiel für die Verwendung von Bootstrapping zur Erstellung von Konfidenzintervallen
In diesem Beispiel werde ich Bootstrapping verwenden, um ein Konfidenzintervall für einen Datensatz zu erstellen, der die Körperfettanteile von 92 jugendlichen Mädchen enthält. Ich habe diesen Datensatz in meinem Beitrag über die Identifizierung der Verteilung Ihrer Daten verwendet. Diese Daten folgen nicht der Normalverteilung. Da sie die Normalitätsannahme der traditionellen Statistik nicht erfüllen, sind sie ein guter Kandidat für Bootstrapping. Obwohl, die große Stichprobengröße könnte uns diese Annahme umgehen lassen. Das Histogramm unten zeigt die Verteilung der ursprünglichen Stichprobendaten.
Laden Sie sich den CSV-Datensatz herunter, um es selbst auszuprobieren: body_fat.
Durchführen der Bootstrap-Prozedur
Um die Bootstrap-Stichproben zu erstellen, verwende ich Statistics101, ein Programm, das es als Geschenk gibt. Dies ist ein großartiges Simulationsprogramm, mit dem ich auch schon das Monty-Hall-Problem gelöst habe!
Mit Hilfe der Programmiersprache habe ich ein Skript geschrieben, das meinen Originaldatensatz nimmt und ihn 500.000 Mal mit Ersetzung neu abtastet. Dieser Prozess erzeugt 500.000 Bootstrap-Stichproben mit jeweils 92 Beobachtungen. Das Programm berechnet den Mittelwert jeder Stichprobe und stellt die Verteilung dieser 500.000 Mittelwerte in dem unten stehenden Histogramm dar. Statistiker bezeichnen diese Art der Verteilung als Stichprobenverteilung der Mittelwerte. Bootstrapping-Methoden erstellen diese Verteilungen mithilfe von Resampling, während traditionelle Methoden Gleichungen für Wahrscheinlichkeitsverteilungen verwenden. Laden Sie dieses Skript herunter, um es selbst auszuführen: BodyFatBootstrapCI.
Um das Bootstrapped-Konfidenzintervall zu erstellen, verwenden wir einfach Perzentile. Für ein 95%-Konfidenzintervall müssen wir die mittleren 95% der Verteilung identifizieren. Dazu verwenden wir das 97,5. Perzentil und das 2,5. Perzentil (97,5 – 2,5 = 95). Mit anderen Worten, wenn wir alle Stichprobenmittelwerte von niedrig bis hoch ordnen und dann die niedrigsten 2,5 % und die höchsten 2,5 % der Mittelwerte abschneiden, bleiben die mittleren 95 % der Mittelwerte übrig. Dieser Bereich ist unser Bootstrapped-Konfidenzintervall!
Für die Körperfettdaten berechnet das Programm ein 95% Bootstrapped-Konfidenzintervall des Mittelwertes. Wir können zu 95 % sicher sein, dass der Populationsmittelwert in diesen Bereich fällt.
Dieses Intervall hat die gleiche Breite wie das traditionelle Konfidenzintervall für diese Daten und unterscheidet sich nur um einige Prozentpunkte. Die beiden Methoden liegen sehr nahe beieinander.
Beachten Sie, wie sich die Stichprobenverteilung im Histogramm einer Normalverteilung annähert, obwohl die zugrunde liegende Datenverteilung schief ist. Diese Annäherung erfolgt dank des zentralen Grenzwertsatzes. Mit zunehmendem Stichprobenumfang konvergiert die Stichprobenverteilung gegen eine Normalverteilung, unabhängig von der zugrunde liegenden Datenverteilung (mit einigen Ausnahmen). Weitere Informationen zu diesem Theorem finden Sie in meinem Beitrag über den zentralen Grenzwertsatz.
Vergleichen Sie diesen Prozess mit der Erstellung von Konfidenzintervallen mit traditionellen statistischen Methoden.
Vorteile von Bootstrapping gegenüber traditioneller Statistik
Leser meines Blogs wissen, dass ich intuitive Erklärungen komplexer statistischer Methoden liebe. Und Bootstrapping passt genau in diese Philosophie. Dieses Verfahren ist viel einfacher zu verstehen als die komplexen Gleichungen, die für die Wahrscheinlichkeitsverteilungen der traditionellen Methoden benötigt werden. Bootstrapping bietet jedoch noch weitere Vorteile, als nur leicht verständlich zu sein!
Bootstrapping macht keine Annahmen über die Verteilung Ihrer Daten. Sie nehmen lediglich eine Stichprobenziehung Ihrer Daten vor und verwenden die Stichprobenverteilung, die sich daraus ergibt. Dann arbeiten Sie mit dieser Verteilung, was auch immer sie sein mag, wie wir es im Beispiel getan haben.
Im Gegensatz dazu gehen die traditionellen Methoden oft davon aus, dass die Daten der Normalverteilung oder einer anderen Verteilung folgen. Bei der Normalverteilung können Sie mit dem zentralen Grenzwertsatz diese Annahme für Stichprobengrößen, die größer als ~30 sind, umgehen. Folglich können Sie Bootstrapping für eine größere Vielfalt von Verteilungen, unbekannten Verteilungen und kleineren Stichprobengrößen verwenden. Stichprobenumfänge von nur 10 können verwendbar sein.
In diesem Sinne verwenden alle traditionellen Methoden Gleichungen, die die Stichprobenverteilung für eine bestimmte Stichprobenstatistik schätzen, wenn die Daten einer bestimmten Verteilung folgen. Leider gibt es keine Formeln für alle Kombinationen von Stichprobenstatistiken und Datenverteilungen! Zum Beispiel gibt es keine bekannte Stichprobenverteilung für Mediane, was Bootstrapping zur perfekten Analyse dafür macht. Andere Analysen haben Annahmen wie Gleichheit der Varianzen. Keiner dieser Punkte ist jedoch ein Problem für Bootstrapping.
Für welche Stichprobenstatistiken kann ich Bootstrapping verwenden?
Während sich dieser Blogbeitrag auf den Stichprobenmittelwert konzentriert, kann die Bootstrap-Methode eine breite Palette von Stichprobenstatistiken und -eigenschaften analysieren. Zu diesen Statistiken gehören u. a. Mittelwert, Median, Modus, Standardabweichung, Varianzanalyse, Korrelationen, Regressionskoeffizienten, Proportionen, Odds Ratios, Varianz in binären Daten und multivariate Statistiken.
Es gibt mehrere, meist esoterische Bedingungen, unter denen Bootstrapping nicht geeignet ist, z. B. wenn die Varianz der Population unendlich ist oder wenn die Populationswerte am Median diskontinuierlich sind. Und es gibt verschiedene Bedingungen, unter denen Anpassungen des Bootstrapping-Prozesses notwendig sind, um Verzerrungen auszugleichen. Diese Fälle gehen jedoch über den Rahmen dieses einführenden Blogbeitrags hinaus.