Introduzione al Bootstrapping in statistica con un esempio

Bootstrapping è una procedura statistica che ricampiona un singolo set di dati per creare molti campioni simulati. Questo processo permette di calcolare errori standard, costruire intervalli di confidenza ed eseguire test di ipotesi per numerosi tipi di statistiche campionarie. I metodi di bootstrap sono approcci alternativi ai tradizionali test d’ipotesi e si distinguono per essere più facili da capire e validi per più condizioni.

In questo post del blog, spiego le basi del bootstrap, confronto il bootstrap con i metodi statistici convenzionali e spiego quando può essere il metodo migliore. Inoltre, lavorerò attraverso un esempio utilizzando dati reali per creare intervalli di confidenza bootstrapping.

Bootstrapping e test di ipotesi tradizionali sono procedure statistiche inferenziali

Sia il bootstrapping che i metodi tradizionali utilizzano campioni per trarre conclusioni sulle popolazioni. Per raggiungere questo obiettivo, queste procedure trattano il singolo campione che uno studio ottiene come uno dei tanti campioni casuali che lo studio avrebbe potuto raccogliere.

Da un singolo campione, è possibile calcolare una varietà di statistiche campionarie, come la media, la mediana e la deviazione standard – ma qui ci concentreremo sulla media.

Ora, supponiamo che un analista ripeta il suo studio molte volte. In questa situazione, la media varierà da campione a campione e formerà una distribuzione di medie campionarie. Gli statistici si riferiscono a questo tipo di distribuzione come una distribuzione di campionamento. Le distribuzioni di campionamento sono cruciali perché collocano il valore della vostra statistica campione nel contesto più ampio di molti altri valori possibili.

Mentre eseguire uno studio molte volte è impossibile, entrambi i metodi possono stimare le distribuzioni di campionamento. Utilizzando il contesto più ampio che le distribuzioni di campionamento forniscono, queste procedure possono costruire intervalli di confidenza ed eseguire test di ipotesi.

: Differenze tra statistiche descrittive e inferenziali

Differenze tra bootstrapping e test di ipotesi tradizionale

Una differenza primaria tra il bootstrapping e le statistiche tradizionali è il modo in cui stimano le distribuzioni di campionamento.

Le procedure tradizionali di test di ipotesi richiedono equazioni che stimano le distribuzioni di campionamento utilizzando le proprietà dei dati del campione, il disegno sperimentale e una statistica di test. Per ottenere risultati validi, è necessario utilizzare la corretta statistica di test e soddisfare le ipotesi. Descrivo questo processo in modo più dettagliato in altri post – link qui sotto.

Il metodo bootstrap usa un approccio molto diverso per stimare le distribuzioni di campionamento. Questo metodo prende i dati campione che uno studio ottiene, e poi li ricampiona più e più volte per creare molti campioni simulati. Ognuno di questi campioni simulati ha le sue proprietà, come la media. Quando si graficizza la distribuzione di queste medie su un istogramma, si può osservare la distribuzione di campionamento della media. Non c’è bisogno di preoccuparsi di statistiche di test, formule e ipotesi.

La procedura bootstrap usa queste distribuzioni di campionamento come base per gli intervalli di confidenza e i test di ipotesi. Diamo un’occhiata a come funziona questo processo di ricampionamento.

: Come funzionano i test t e come funziona il test F nell’ANOVA

Come il bootstrap ricampiona i tuoi dati per creare insiemi di dati simulati

Bootstrapping ricampiona il set di dati originale con sostituzione molte migliaia di volte per creare insiemi di dati simulati. Questo processo comporta l’estrazione di campioni casuali dal set di dati originale. Ecco come funziona:

Il metodo bootstrap ha un’uguale probabilità di estrarre a caso ogni punto dei dati originali da includere nei set di dati ricampionati.
La procedura può selezionare un punto dei dati più di una volta per un set di dati ricampionato. Questa proprietà è l’aspetto “con sostituzione” del processo.
La procedura crea set di dati ricampionati che hanno le stesse dimensioni del set di dati originale.

Il processo termina con i vostri set di dati simulati che hanno molte combinazioni diverse dei valori che esistono nel set di dati originale. Ogni set di dati simulato ha il proprio set di statistiche campionarie, come la media, la mediana e la deviazione standard. Le procedure di bootstrap utilizzano la distribuzione delle statistiche campionarie tra i campioni simulati come distribuzione di campionamento.

Esempio di campioni bootstrap

Lavoriamo su un caso semplice. Supponiamo che uno studio raccolga cinque punti dati e crei quattro campioni bootstrap, come mostrato qui sotto.

Questo semplice esempio illustra le proprietà dei campioni bootstrap. I set di dati ricampionati hanno le stesse dimensioni del set di dati originale e contengono solo i valori che esistono nel set originale. Inoltre, questi valori possono apparire più o meno frequentemente nei set di dati ricampionati che nel set di dati originale. Infine, il processo di ricampionamento è casuale e potrebbe aver creato un diverso insieme di set di dati simulati.

Naturalmente, in uno studio reale, si spera di avere una dimensione del campione più grande, e si creerebbero migliaia di set di dati ricampionati. Dato l’enorme numero di set di dati ricampionati, userete sempre un computer per eseguire queste analisi.

Quanto bene funziona il Bootstrapping?

Il ricampionamento comporta il riutilizzo di un set di dati molte volte. Sembra quasi troppo bello per essere vero! Infatti, il termine “bootstrapping” deriva dalla frase impossibile di tirarsi su con le proprie gambe! Tuttavia, utilizzando la potenza dei computer per ricampionare in modo casuale il vostro set di dati per creare migliaia di set di dati simulati, si ottengono risultati significativi.

Il metodo bootstrap esiste dal 1979, e il suo utilizzo è aumentato. Vari studi nel corso dei decenni successivi hanno determinato che le distribuzioni di campionamento bootstrap si avvicinano alle distribuzioni di campionamento corrette.

Per capire come funziona, tenete a mente che il bootstrap non crea nuovi dati. Invece, tratta il campione originale come un proxy della popolazione reale e poi estrae campioni casuali da esso. Di conseguenza, il presupposto centrale del bootstrapping è che il campione originale rappresenti accuratamente la popolazione reale.

Il processo di ricampionamento crea molti possibili campioni che uno studio avrebbe potuto prelevare. Le varie combinazioni di valori nei campioni simulati forniscono collettivamente una stima della variabilità tra campioni casuali tratti dalla stessa popolazione. La gamma di questi campioni potenziali permette alla procedura di costruire intervalli di confidenza ed eseguire test di ipotesi. È importante notare che all’aumentare della dimensione del campione, il bootstrapping converge sulla corretta distribuzione del campione nella maggior parte delle condizioni.

Vediamo ora un esempio di questa procedura in azione!

Esempio di utilizzo del bootstrapping per creare intervalli di confidenza

Per questo esempio, utilizzerò il bootstrapping per costruire un intervallo di confidenza per un set di dati che contiene le percentuali di grasso corporeo di 92 ragazze adolescenti. Ho usato questo set di dati nel mio post sull’identificazione della distribuzione dei tuoi dati. Questi dati non seguono la distribuzione normale. Poiché non soddisfa l’ipotesi di normalità della statistica tradizionale, è un buon candidato per il bootstrapping. Anche se, la grande dimensione del campione potrebbe permetterci di bypassare questo presupposto. L’istogramma qui sotto mostra la distribuzione dei dati del campione originale.

Scaricate il dataset CSV per provarlo voi stessi: body_fat.

Per eseguire la procedura bootstrap

Per creare i campioni bootstrap, sto usando Statistics101, che è un programma giftware. Si tratta di un ottimo programma di simulazione che ho usato anche per affrontare il problema Monty Hall!

Utilizzando il suo linguaggio di programmazione, ho scritto uno script che prende il mio set di dati originale e lo ricampiona con sostituzione 500.000 volte. Questo processo produce 500.000 campioni bootstrapped con 92 osservazioni in ciascuno. Il programma calcola la media di ogni campione e traccia la distribuzione di queste 500.000 medie nell’istogramma qui sotto. Gli statistici si riferiscono a questo tipo di distribuzione come distribuzione di campionamento delle medie. I metodi di bootstrapping creano queste distribuzioni usando il ricampionamento, mentre i metodi tradizionali usano equazioni per le distribuzioni di probabilità. Scaricate questo script per eseguirlo voi stessi: BodyFatBootstrapCI.

Per creare l’intervallo di confidenza bootstrap, usiamo semplicemente i percentili. Per un intervallo di confidenza del 95%, dobbiamo identificare il 95% medio della distribuzione. Per farlo, usiamo il 97,5° percentile e il 2,5° percentile (97,5 – 2,5 = 95). In altre parole, se ordiniamo tutte le medie del campione dal basso all’alto, e poi tagliamo il 2,5% più basso e il 2,5% più alto delle medie, rimane il 95% medio delle medie. Questo intervallo è il nostro intervallo di confidenza bootstrapped!

Per i dati sul grasso corporeo, il programma calcola un intervallo di confidenza bootstrapped del 95% della media. Possiamo essere sicuri al 95% che la media della popolazione rientri in questo intervallo.

Questo intervallo ha la stessa larghezza dell’intervallo di confidenza tradizionale per questi dati, ed è diverso solo di alcuni punti percentuali. I due metodi sono molto vicini.

Nota come la distribuzione di campionamento nell’istogramma approssima una distribuzione normale anche se la distribuzione dei dati sottostanti è asimmetrica. Questa approssimazione avviene grazie al teorema del limite centrale. All’aumentare della dimensione del campione, la distribuzione di campionamento converge su una distribuzione normale indipendentemente dalla distribuzione dei dati sottostante (con poche eccezioni). Per maggiori informazioni su questo teorema, leggete il mio post sul teorema del limite centrale.

Confrontate questo processo con il modo in cui i metodi statistici tradizionali creano gli intervalli di confidenza.

Benefici del bootstrapping rispetto alla statistica tradizionale

Chi legge il mio blog sa che amo le spiegazioni intuitive di metodi statistici complessi. E il bootstrapping si adatta perfettamente a questa filosofia. Questo processo è molto più facile da comprendere rispetto alle complesse equazioni richieste per le distribuzioni di probabilità dei metodi tradizionali. Tuttavia, il bootstrapping offre più vantaggi che essere semplicemente facile da capire!

Bootstrapping non fa ipotesi sulla distribuzione dei vostri dati. Semplicemente si ricampionano i dati e si usa qualsiasi distribuzione di campionamento emerga. Poi si lavora con quella distribuzione, qualunque essa sia, come abbiamo fatto nell’esempio.

Al contrario, i metodi tradizionali spesso assumono che i dati seguano la distribuzione normale o qualche altra distribuzione. Per la distribuzione normale, il teorema del limite centrale potrebbe permettervi di aggirare questo presupposto per dimensioni del campione maggiori di ~30. Di conseguenza, potete usare il bootstrapping per una più ampia varietà di distribuzioni, distribuzioni sconosciute e dimensioni del campione più piccole. Dimensioni del campione piccole come 10 possono essere utilizzabili.

In questo senso, tutti i metodi tradizionali usano equazioni che stimano la distribuzione di campionamento per una specifica statistica del campione quando i dati seguono una particolare distribuzione. Sfortunatamente, non esistono formule per tutte le combinazioni di statistiche campionarie e distribuzioni di dati! Per esempio, non esiste una distribuzione di campionamento nota per le mediane, il che rende il bootstrapping l’analisi perfetta per questo. Altre analisi hanno presupposti come l’uguaglianza delle varianze. Tuttavia, nessuno di questi problemi è un problema per il bootstrap.

Per quali statistiche del campione posso usare il bootstrap?

Mentre questo post del blog si concentra sulla media del campione, il metodo bootstrap può analizzare una vasta gamma di statistiche e proprietà del campione. Queste statistiche includono la media, la mediana, la modalità, la deviazione standard, l’analisi della varianza, le correlazioni, i coefficienti di regressione, le proporzioni, gli odds ratio, la varianza nei dati binari e le statistiche multivariate, tra le altre.

Ci sono diverse condizioni, per lo più esoteriche, quando il bootstrap non è appropriato, come quando la varianza della popolazione è infinita, o quando i valori della popolazione sono discontinui alla mediana. E ci sono varie condizioni in cui è necessario apportare modifiche al processo di bootstrapping per correggere le distorsioni. Tuttavia, questi casi vanno oltre lo scopo di questo post introduttivo del blog.

Guinguette Marais Poitevin

Blog