Introduction au bootstrapping en statistique avec un exemple

Le bootstrapping est une procédure statistique qui rééchantillonne un seul ensemble de données pour créer de nombreux échantillons simulés. Ce processus vous permet de calculer les erreurs standard, de construire des intervalles de confiance et d’effectuer des tests d’hypothèse pour de nombreux types de statistiques d’échantillons. Les méthodes de bootstrap sont des approches alternatives aux tests d’hypothèses traditionnels et sont remarquables pour être plus faciles à comprendre et valables pour plus de conditions.

Dans ce billet de blog, j’explique les bases du bootstrap, je compare le bootstrap aux méthodes statistiques conventionnelles et j’explique quand il peut être la meilleure méthode. De plus, je travaillerai sur un exemple utilisant des données réelles pour créer des intervalles de confiance bootstrappés.

Le bootstrapping et les tests d’hypothèse traditionnels sont des procédures statistiques inférentielles

Le bootstrapping et les méthodes traditionnelles utilisent tous deux des échantillons pour tirer des inférences sur les populations. Pour atteindre cet objectif, ces procédures traitent l’échantillon unique qu’une étude obtient comme un seul des nombreux échantillons aléatoires que l’étude aurait pu recueillir.

À partir d’un échantillon unique, vous pouvez calculer une variété de statistiques d’échantillon, telles que la moyenne, la médiane et l’écart type – mais nous nous concentrerons ici sur la moyenne.

Maintenant, supposons qu’un analyste répète son étude de nombreuses fois. Dans cette situation, la moyenne va varier d’un échantillon à l’autre et former une distribution de moyennes d’échantillons. Les statisticiens qualifient ce type de distribution de distribution d’échantillonnage. Les distributions d’échantillonnage sont cruciales car elles placent la valeur de votre statistique d’échantillon dans le contexte plus large de nombreuses autres valeurs possibles.

Bien qu’effectuer une étude de nombreuses fois soit infaisable, les deux méthodes peuvent estimer les distributions d’échantillonnage. En utilisant le contexte plus large que les distributions d’échantillonnage fournissent, ces procédures peuvent construire des intervalles de confiance et effectuer des tests d’hypothèse.

: Différences entre les statistiques descriptives et inférentielles

Différences entre le bootstrapping et les tests d’hypothèses traditionnels

Une différence principale entre le bootstrapping et les statistiques traditionnelles est la façon dont ils estiment les distributions d’échantillonnage.

Les procédures traditionnelles de tests d’hypothèses nécessitent des équations qui estiment les distributions d’échantillonnage en utilisant les propriétés des données de l’échantillon, le plan expérimental et une statistique de test. Pour obtenir des résultats valides, vous devrez utiliser la bonne statistique de test et satisfaire les hypothèses. Je décris ce processus plus en détail dans d’autres posts – liens ci-dessous.

La méthode bootstrap utilise une approche très différente pour estimer les distributions d’échantillonnage. Cette méthode prend les données d’échantillon qu’une étude obtient, puis les rééchantillonne encore et encore pour créer de nombreux échantillons simulés. Chacun de ces échantillons simulés possède ses propres propriétés, telles que la moyenne. Lorsque vous représentez graphiquement la distribution de ces moyennes sur un histogramme, vous pouvez observer la distribution d’échantillonnage de la moyenne. Vous n’avez pas à vous soucier des statistiques de test, des formules et des hypothèses.

La procédure bootstrap utilise ces distributions d’échantillonnage comme base pour les intervalles de confiance et les tests d’hypothèse. Voyons comment fonctionne ce processus de rééchantillonnage.

: Comment fonctionnent les tests t et comment fonctionne le test F dans l’ANOVA

Comment le bootstrap rééchantillonne vos données pour créer des ensembles de données simulées

Le bootstrap rééchantillonne l’ensemble de données original avec remplacement plusieurs milliers de fois pour créer des ensembles de données simulées. Ce processus consiste à tirer des échantillons aléatoires de l’ensemble de données d’origine. Voici comment cela fonctionne :

La méthode bootstrap a une probabilité égale de tirer au hasard chaque point de données original pour l’inclure dans les ensembles de données rééchantillonnés.
La procédure peut sélectionner un point de données plus d’une fois pour un ensemble de données rééchantillonné. Cette propriété est l’aspect « avec remplacement » du processus.
La procédure crée des ensembles de données rééchantillonnés qui sont de la même taille que l’ensemble de données original.

Le processus se termine avec vos ensembles de données simulés ayant de nombreuses combinaisons différentes des valeurs qui existent dans l’ensemble de données original. Chaque ensemble de données simulées possède son propre ensemble de statistiques d’échantillon, comme la moyenne, la médiane et l’écart type. Les procédures de bootstrap utilisent la distribution des statistiques d’échantillon sur l’ensemble des échantillons simulés comme distribution d’échantillonnage.

Exemple d’échantillons bootstrap

Travaillons sur un cas facile. Supposons qu’une étude recueille cinq points de données et crée quatre échantillons bootstrap, comme indiqué ci-dessous.

Cet exemple simple illustre les propriétés des échantillons bootstrap. Les ensembles de données rééchantillonnés ont la même taille que l’ensemble de données original et ne contiennent que des valeurs qui existent dans l’ensemble original. En outre, ces valeurs peuvent apparaître plus ou moins fréquemment dans les ensembles de données rééchantillonnés que dans l’ensemble de données original. Enfin, le processus de rééchantillonnage est aléatoire et aurait pu créer un ensemble différent de jeux de données simulés.

Bien sûr, dans une étude réelle, vous espéreriez avoir un échantillon de plus grande taille, et vous créeriez des milliers de jeux de données rééchantillonnés. Compte tenu du nombre énorme d’ensembles de données rééchantillonnés, vous utiliserez toujours un ordinateur pour effectuer ces analyses.

Comment fonctionne le bootstrapping ?

Le rééchantillonnage consiste à réutiliser votre unique ensemble de données plusieurs fois. Cela semble presque trop beau pour être vrai ! En fait, le terme « bootstrapping » vient de l’expression impossible de se relever par ses propres bouts de bois ! Cependant, l’utilisation de la puissance des ordinateurs pour rééchantillonner de manière aléatoire votre unique ensemble de données afin de créer des milliers d’ensembles de données simulés produit des résultats significatifs.

La méthode bootstrap existe depuis 1979, et son utilisation s’est accrue. Diverses études menées au cours des décennies écoulées ont déterminé que les distributions d’échantillonnage bootstrap se rapprochent des distributions d’échantillonnage correctes.

Pour comprendre comment cela fonctionne, gardez à l’esprit que le bootstrap ne crée pas de nouvelles données. Au lieu de cela, il traite l’échantillon d’origine comme un proxy de la population réelle, puis tire des échantillons aléatoires de celui-ci. Par conséquent, l’hypothèse centrale du bootstrapping est que l’échantillon d’origine représente fidèlement la population réelle.

Le processus de rééchantillonnage crée de nombreux échantillons possibles qu’une étude aurait pu tirer. Les diverses combinaisons de valeurs dans les échantillons simulés fournissent collectivement une estimation de la variabilité entre les échantillons aléatoires tirés de la même population. La gamme de ces échantillons potentiels permet à la procédure de construire des intervalles de confiance et d’effectuer des tests d’hypothèse. Fait important, à mesure que la taille de l’échantillon augmente, le bootstrapping converge vers la distribution d’échantillonnage correcte dans la plupart des conditions.

Maintenant, voyons un exemple de cette procédure en action !

Exemple d’utilisation du bootstrapping pour créer des intervalles de confiance

Pour cet exemple, je vais utiliser le bootstrapping pour construire un intervalle de confiance pour un ensemble de données qui contient les pourcentages de graisse corporelle de 92 adolescentes. J’ai utilisé cet ensemble de données dans mon post sur l’identification de la distribution de vos données. Ces données ne suivent pas la distribution normale. Comme elles ne répondent pas à l’hypothèse de normalité des statistiques traditionnelles, elles constituent un bon candidat pour le bootstrapping. Cependant, la grande taille de l’échantillon pourrait nous permettre de contourner cette hypothèse. L’histogramme ci-dessous affiche la distribution des données de l’échantillon original.

Téléchargez le jeu de données CSV pour l’essayer vous-même : body_fat.

Exécution de la procédure de bootstrap

Pour créer les échantillons bootstrappés, j’utilise Statistics101, qui est un programme cadeau. C’est un excellent programme de simulation que j’ai également utilisé pour m’attaquer au problème de Monty Hall !

En utilisant son langage de programmation, j’ai écrit un script qui prend mon ensemble de données original et le rééchantillonne avec remplacement 500 000 fois. Ce processus produit 500 000 échantillons bootstrapped avec 92 observations dans chacun. Le programme calcule la moyenne de chaque échantillon et trace la distribution de ces 500 000 moyennes dans l’histogramme ci-dessous. Les statisticiens appellent ce type de distribution la distribution d’échantillonnage des moyennes. Les méthodes de bootstrapping créent ces distributions en utilisant le rééchantillonnage, tandis que les méthodes traditionnelles utilisent des équations pour les distributions de probabilité. Téléchargez ce script pour l’exécuter vous-même : BodyFatBootstrapCI.

Pour créer l’intervalle de confiance bootstrappé, nous utilisons simplement les percentiles. Pour un intervalle de confiance de 95 %, nous devons identifier le milieu de 95 % de la distribution. Pour ce faire, nous utilisons le 97,5e centile et le 2,5e centile (97,5 – 2,5 = 95). En d’autres termes, si nous classons toutes les moyennes de l’échantillon de la plus basse à la plus haute, puis que nous éliminons les 2,5 % des moyennes les plus basses et les 2,5 % des moyennes les plus élevées, il reste les 95 % intermédiaires des moyennes. Cette plage est notre intervalle de confiance bootstrapped !

Pour les données de graisse corporelle, le programme calcule un intervalle de confiance bootstrapped de 95 % de la moyenne . Nous pouvons être sûrs à 95 % que la moyenne de la population se situe dans cette plage.

Cet intervalle a la même largeur que l’intervalle de confiance traditionnel pour ces données, et il ne diffère que de quelques points de pourcentage. Les deux méthodes sont très proches.

Voyez comment la distribution d’échantillonnage dans l’histogramme se rapproche d’une distribution normale, même si la distribution des données sous-jacentes est asymétrique. Cette approximation se produit grâce au théorème de la limite centrale. À mesure que la taille de l’échantillon augmente, la distribution d’échantillonnage converge vers une distribution normale, quelle que soit la distribution des données sous-jacentes (à quelques exceptions près). Pour en savoir plus sur ce théorème, lisez mon billet sur le théorème de la limite centrale.

Comparez ce processus à la façon dont les méthodes statistiques traditionnelles créent des intervalles de confiance.

Avantages du bootstrapping par rapport aux statistiques traditionnelles

Les lecteurs de mon blog savent que j’adore les explications intuitives des méthodes statistiques complexes. Et, le bootstrapping s’inscrit parfaitement dans cette philosophie. Ce processus est beaucoup plus facile à comprendre que les équations complexes requises pour les distributions de probabilité des méthodes traditionnelles. Cependant, le bootstrapping offre plus d’avantages que sa simple facilité de compréhension !

Le bootstrapping ne fait pas d’hypothèses sur la distribution de vos données. Vous rééchantillonnez simplement vos données et utilisez la distribution d’échantillonnage qui en ressort. Ensuite, vous travaillez avec cette distribution, quelle qu’elle soit, comme nous l’avons fait dans l’exemple.

À l’inverse, les méthodes traditionnelles supposent souvent que les données suivent la distribution normale ou une autre distribution. Pour la distribution normale, le théorème de la limite centrale pourrait vous permettre de contourner cette hypothèse pour les tailles d’échantillon supérieures à ~30. Par conséquent, vous pouvez utiliser le bootstrapping pour une plus grande variété de distributions, de distributions inconnues et de tailles d’échantillon plus petites. Des tailles d’échantillon aussi petites que 10 peuvent être utilisables.

Dans cette veine, toutes les méthodes traditionnelles utilisent des équations qui estiment la distribution d’échantillonnage pour une statistique d’échantillon spécifique lorsque les données suivent une distribution particulière. Malheureusement, les formules pour toutes les combinaisons de statistiques d’échantillon et de distributions de données n’existent pas ! Par exemple, il n’existe pas de distribution d’échantillonnage connue pour les médianes, ce qui fait que le bootstrapping est l’analyse parfaite pour cela. D’autres analyses comportent des hypothèses telles que l’égalité des variances. Cependant, aucune de ces questions ne constitue un problème pour le bootstrap.

Pour quelles statistiques d’échantillon puis-je utiliser le bootstrap ?

Bien que cet article de blog se concentre sur la moyenne d’échantillon, la méthode bootstrap peut analyser un large éventail de statistiques et de propriétés d’échantillon. Ces statistiques comprennent la moyenne, la médiane, le mode, l’écart-type, l’analyse de la variance, les corrélations, les coefficients de régression, les proportions, les rapports de cotes, la variance des données binaires et les statistiques multivariées, entre autres.

Il existe plusieurs conditions, pour la plupart ésotériques, dans lesquelles le bootstrap n’est pas approprié, comme lorsque la variance de la population est infinie, ou lorsque les valeurs de la population sont discontinues à la médiane. De plus, il existe diverses conditions dans lesquelles il est nécessaire d’apporter des modifications au processus de bootstrapping pour corriger les biais. Cependant, ces cas dépassent la portée de ce billet de blog d’introduction.

Guinguette Marais Poitevin

Blog