Bootstrapping jest procedurą statystyczną, która polega na ponownym próbkowaniu pojedynczego zbioru danych w celu utworzenia wielu symulowanych próbek. Proces ten pozwala na obliczanie błędów standardowych, konstruowanie przedziałów ufności i testowanie hipotez dla wielu typów statystyk. Metody bootstrapowe są alternatywnym podejściem do tradycyjnego testowania hipotez i są godne uwagi ze względu na to, że są łatwiejsze do zrozumienia i ważne dla większej ilości warunków.
W tym wpisie na blogu, wyjaśniam podstawy bootstrapowania, porównuję bootstrapowanie do konwencjonalnych metod statystycznych i wyjaśniam, kiedy może to być lepsza metoda. Dodatkowo, przejdę przez przykład używając prawdziwych danych do stworzenia bootstrapowanych przedziałów ufności.
Bootstrapping i tradycyjne testowanie hipotez są inferencyjnymi procedurami statystycznymi
Obaj metody bootstrappingu i tradycyjne używają próbek do wyciągania wniosków o populacjach. Aby osiągnąć ten cel, procedury te traktują pojedynczą próbkę, którą uzyskuje się w badaniu, jako jedną z wielu losowych próbek, które badanie mogło zebrać.
Z pojedynczej próbki można obliczyć różne statystyki, takie jak średnia, mediana i odchylenie standardowe – my jednak skupimy się na średniej.
Załóżmy, że analityk powtarza swoje badanie wiele razy. W tej sytuacji średnia będzie się różnić w zależności od próbki i utworzy rozkład średnich z próbek. Statystycy określają ten typ rozkładu jako rozkład próbkowania. Rozkłady próbkowania są kluczowe, ponieważ umieszczają wartość statystyki z próby w szerszym kontekście wielu innych możliwych wartości.
Pomimo, że wielokrotne wykonywanie badania jest niewykonalne, obie metody mogą oszacować rozkłady próbkowania. Wykorzystując większy kontekst, jaki zapewniają rozkłady próbkowania, procedury te mogą konstruować przedziały ufności i przeprowadzać testowanie hipotez.
: Różnice pomiędzy statystyką opisową a wnioskowaniem
Różnice pomiędzy bootstrappingiem a tradycyjnym testowaniem hipotez
Podstawową różnicą pomiędzy bootstrappingiem a tradycyjnymi statystykami jest sposób w jaki szacują one rozkłady próbkowania.
Tradycyjne procedury testowania hipotez wymagają równań, które szacują rozkłady próbkowania używając właściwości danych z próby, projektu eksperymentalnego i statystyki testowej. Aby uzyskać prawidłowe wyniki, należy użyć odpowiedniej statystyki testowej i spełnić założenia. Opisuję ten proces bardziej szczegółowo w innych postach – linki poniżej.
Metoda bootstrapowa wykorzystuje zupełnie inne podejście do szacowania rozkładów próbkowania. Metoda ta bierze dane próbki, które badanie uzyskuje, a następnie ponownie próbuje je w kółko, aby utworzyć wiele symulowanych próbek. Każda z tych symulowanych próbek ma swoje własne właściwości, takie jak średnia. Kiedy wykreślisz rozkład tych średnich na histogramie, możesz zaobserwować rozkład próbkowania średniej. Nie musisz się martwić o statystyki testowe, wzory i założenia.
Procedura bootstrapowa wykorzystuje te rozkłady próbkowania jako podstawę dla przedziałów ufności i testowania hipotez. Przyjrzyjmy się, jak działa proces ponownego próbkowania.
: Jak działają testy t i jak działa test F w ANOVA
Jak Bootstrapping dokonuje ponownego próbkowania danych w celu utworzenia symulowanych zbiorów danych
Bootstrapping dokonuje ponownego próbkowania oryginalnego zbioru danych z zastąpieniem wiele tysięcy razy w celu utworzenia symulowanych zbiorów danych. Proces ten polega na losowaniu próbek z oryginalnego zbioru danych. Oto jak to działa:
- Metoda bootstrapowa ma równe prawdopodobieństwo losowego wylosowania każdego oryginalnego punktu danych do włączenia do ponownie próbkowanego zbioru danych.
- Procedura może wybrać punkt danych więcej niż raz do ponownie próbkowanego zbioru danych. Ta właściwość jest aspektem procesu „z zastąpieniem”.
- Procedura tworzy ponownie próbkowane zbiory danych, które są tej samej wielkości co oryginalne zbiory danych.
Proces kończy się tym, że symulowane zbiory danych mają wiele różnych kombinacji wartości, które istnieją w oryginalnych zbiorach danych. Każdy symulowany zbiór danych ma swój własny zestaw statystyk próbkowych, takich jak średnia, mediana i odchylenie standardowe. Procedury Bootstrappingu używają rozkładu statystyki próbki w symulowanych próbkach jako rozkładu próbkowania.
Przykład Próbki Bootstrap
Popracujmy przez prosty przypadek. Załóżmy, że badanie gromadzi pięć punktów danych i tworzy cztery próbki bootstrapowe, jak pokazano poniżej.
Ten prosty przykład ilustruje właściwości próbek bootstrapowych. Próbkowane zestawy danych mają taki sam rozmiar jak oryginalny zestaw danych i zawierają tylko wartości, które istnieją w oryginalnym zestawie. Ponadto, wartości te mogą pojawiać się częściej lub rzadziej w ponownie próbkowanych zbiorach danych niż w oryginalnym zbiorze danych. Wreszcie, proces ponownego próbkowania jest losowy i mógł utworzyć inny zestaw symulowanych zbiorów danych.
Oczywiście, w prawdziwym badaniu miałbyś nadzieję mieć większą wielkość próby i utworzyłbyś tysiące ponownie próbkowanych zbiorów danych. Biorąc pod uwagę ogromną liczbę ponownie próbkowanych zestawów danych, zawsze będziesz używał komputera do wykonania tych analiz.
Jak dobrze działa próbkowanie bootstrappingowe?
Próbkowanie polega na wielokrotnym wykorzystaniu jednego zestawu danych. Wydaje się to zbyt piękne, aby mogło być prawdziwe! W rzeczywistości, termin „bootstrapping” pochodzi od niemożliwego wyrażenia podciągania się za własne sznurki! Jednak użycie mocy komputerów do losowego ponownego próbkowania jednego zbioru danych w celu stworzenia tysięcy symulowanych zbiorów danych daje znaczące wyniki.
Metoda bootstrapowa istnieje od 1979 roku, a jej użycie wzrosło. Różne badania przeprowadzone w ciągu ostatnich dekad wykazały, że rozkłady próbkowania bootstrapowego są zbliżone do prawidłowych rozkładów próbkowania.
Aby zrozumieć jak to działa, należy pamiętać, że bootstrapowanie nie tworzy nowych danych. Zamiast tego, traktuje oryginalną próbkę jako przybliżenie dla prawdziwej populacji i następnie losuje z niej próbki. W konsekwencji, głównym założeniem bootstrappingu jest to, że oryginalna próba dokładnie reprezentuje rzeczywistą populację.
Proces ponownego próbkowania tworzy wiele możliwych prób, które badanie mogło wylosować. Różne kombinacje wartości w symulowanych próbkach wspólnie zapewniają oszacowanie zmienności pomiędzy próbkami losowymi wylosowanymi z tej samej populacji. Zakres tych potencjalnych próbek umożliwia procedurę konstruowania przedziałów ufności i testowania hipotez. Co ważne, wraz ze wzrostem wielkości próbki, bootstrapping zbiegnie się do poprawnego rozkładu próbkowania w większości warunków.
Zobaczmy teraz przykład tej procedury w akcji!
Przykład użycia bootstrappingu do tworzenia przedziałów ufności
W tym przykładzie, użyję bootstrappingu do skonstruowania przedziału ufności dla zbioru danych, który zawiera procentową zawartość tłuszczu w ciele 92 dorastających dziewcząt. Użyłem tego zbioru danych w moim poście na temat identyfikacji rozkładu twoich danych. Dane te nie są zgodne z rozkładem normalnym. Ponieważ nie spełniają one założenia normalności tradycyjnych statystyk, są dobrym kandydatem do bootstrappingu. Chociaż, duży rozmiar próbki może pozwolić nam ominąć to założenie. Poniższy histogram wyświetla rozkład oryginalnych danych próbki.
Pobierz zestaw danych CSV, aby spróbować samemu: body_fat.
Wykonanie procedury bootstrap
Aby stworzyć bootstrapowane próbki, używam Statistics101, który jest programem typu giftware. Jest to świetny program symulacyjny, którego użyłem również do rozwiązania problemu Monty Hall’a!
Używając jego języka programowania, napisałem skrypt, który bierze mój oryginalny zestaw danych i ponownie próbuje go z zastąpieniem 500,000 razy. Proces ten daje 500 000 bootstrapowanych próbek z 92 obserwacjami w każdej. Program oblicza średnią dla każdej próbki i przedstawia rozkład tych 500 000 średnich na poniższym histogramie. Statystycy określają ten typ rozkładu jako próbkowy rozkład średnich. Metody bootstrappingu tworzą te rozkłady za pomocą ponownego próbkowania, podczas gdy tradycyjne metody używają równań dla rozkładów prawdopodobieństwa. Pobierz ten skrypt, aby uruchomić go samodzielnie: BodyFatBootstrapCI.
Aby stworzyć bootstrapowany przedział ufności, używamy po prostu percentyli. Dla 95% przedziału ufności, musimy zidentyfikować środkowe 95% dystrybucji. Aby to zrobić, używamy 97,5 percentyla i 2,5 percentyla (97,5 – 2,5 = 95). Innymi słowy, jeśli zamówimy wszystkie średnie próbki od niskich do wysokich, a następnie odetniemy najniższe 2,5% i najwyższe 2,5% średnich, środkowe 95% średnich pozostanie. Ten zakres to nasz bootstrapowany przedział ufności!
Dla danych dotyczących tkanki tłuszczowej program oblicza 95% bootstrapowany przedział ufności średniej. Możemy być pewni na 95%, że średnia populacji mieści się w tym przedziale.
Ten przedział ma taką samą szerokość jak tradycyjny przedział ufności dla tych danych, a różni się tylko o kilka punktów procentowych. Obie metody są bardzo zbliżone.
Zauważ, że rozkład próbkowania na histogramie jest zbliżony do rozkładu normalnego, mimo że podstawowy rozkład danych jest skośny. Przybliżenie to zachodzi dzięki centralnemu twierdzeniu granicznemu. Wraz ze wzrostem rozmiaru próbki, rozkład próbkowania zbiega się do rozkładu normalnego niezależnie od rozkładu danych bazowych (z kilkoma wyjątkami). Aby uzyskać więcej informacji na temat tego twierdzenia, przeczytaj mój post o centralnym twierdzeniu granicznym.
Porównaj ten proces z tym, jak tradycyjne metody statystyczne tworzą przedziały ufności.
Korzyści płynące z zastosowania bootstrappingu w stosunku do tradycyjnej statystyki
Czytelnicy mojego bloga wiedzą, że uwielbiam intuicyjne wyjaśnienia złożonych metod statystycznych. I właśnie bootstrapping wpisuje się w tę filozofię. Ten proces jest znacznie łatwiejszy do zrozumienia niż skomplikowane równania wymagane dla rozkładów prawdopodobieństwa tradycyjnych metod. Jednakże, bootstrapping zapewnia więcej korzyści niż tylko łatwość zrozumienia!
Bootstrapping nie przyjmuje założeń dotyczących rozkładu danych. Po prostu ponownie próbkujesz dane i używasz dowolnego rozkładu próbkowania, który się pojawi. Następnie, pracujesz z tym rozkładem, czymkolwiek by on nie był, tak jak to zrobiliśmy w przykładzie.
Odwrotnie, tradycyjne metody często zakładają, że dane podążają za rozkładem normalnym lub jakimś innym rozkładem. Dla rozkładu normalnego, centralne twierdzenie graniczne może pozwolić ci ominąć to założenie dla wielkości próbek większych niż ~ 30. W związku z tym można używać bootstrappingu dla większej różnorodności rozkładów, nieznanych rozkładów i mniejszych rozmiarów próbek. Rozmiary próbek tak małe jak 10 mogą być użyteczne.
W tym duchu, wszystkie tradycyjne metody używają równań, które szacują rozkład próbkowania dla określonej statystyki próbki, gdy dane podążają za określonym rozkładem. Niestety, wzory dla wszystkich kombinacji statystyk próby i rozkładów danych nie istnieją! Na przykład, nie jest znany rozkład próbkowania dla mediany, co sprawia, że bootstrapping jest dla niej idealną analizą. Inne analizy mają założenia takie jak równość wariancji. Jednakże, żaden z tych problemów nie jest problemem dla bootstrappingu.
Dla jakich statystyk próbki mogę użyć bootstrappingu?
Mimo, że ten wpis na blogu skupia się na średniej próbki, metoda bootstrap może analizować szeroki zakres statystyk próbki i właściwości. Statystyki te obejmują między innymi średnią, medianę, tryb, odchylenie standardowe, analizę wariancji, korelacje, współczynniki regresji, proporcje, ilorazy szans, wariancję w danych binarnych i statystyki wielowymiarowe.
Istnieją różne, głównie ezoteryczne, warunki kiedy bootstrapping nie jest odpowiedni, takie jak gdy wariancja populacji jest nieskończona, lub gdy wartości populacji są nieciągłe na medianie. Istnieją też różne warunki, w których konieczne są poprawki w procesie bootstrappingu, aby skorygować stronniczość. Jednakże, te przypadki wykraczają poza zakres tego wstępnego wpisu na blogu.