Introduction to Bootstrapping in Statistics with an example

ブートストラップとは、1つのデータセットを再標本化して、多くのシミュレーションされたサンプルを作成する統計手順です。 このプロセスにより、標準誤差の計算、信頼区間の構築、および多数のタイプのサンプル統計に対する仮説検定の実行が可能になります。

このブログ記事では、ブートストラップの基本を説明し、ブートストラップを従来の統計手法と比較し、どのような場合に優れた手法となり得るかを説明します。

ブートストラップ法と従来の仮説検定は、推測のための統計手順です

ブートストラップ法と従来の方法は、サンプルを使用して集団に関する推測を行います。

単一のサンプルから、平均値、中央値、標準偏差など、さまざまなサンプル統計量を計算することができますが、ここでは平均値に焦点を当てます。 この場合、平均値はサンプルごとに異なり、サンプルの平均値の分布が形成されます。 統計学者は、このような分布をサンプリング分布と呼んでいます。

調査を何度も行うことは現実的ではありませんが、どちらの方法でもサンプリング分布を推定することができます。 サンプリング分布が提供するより大きな文脈を利用して、これらの手順は信頼区間を構築し、仮説検証を実行することができます。

従来の仮説検定の手順では、サンプル データの特性、実験デザイン、および検定統計量を使用してサンプリング分布を推定する方程式を必要とします。 有効な結果を得るためには、適切な検定統計量を使用し、仮定を満たす必要があります。

ブートストラップ法は、サンプリング分布の推定に非常に異なるアプローチを使用します。 この方法では、研究で得られたサンプルデータを取得し、それを何度も何度も再サンプリングして、多くのシミュレートされたサンプルを作成します。 これらのシミュレートされたサンプルは,平均値などの独自の特性を持っています. この平均値の分布をヒストグラムにすると、平均値のサンプリング分布を観察することができます。

ブートストラップ法では、このサンプリング分布を信頼区間や仮説検定の基礎としています。

: t-テストのしくみと ANOVA での F-テストのしくみ

How Bootstrapping Resamples Your Data to Create Simulated Datasets

ブートストラップ法は、元のデータセットを何千回も置き換えて再サンプリングし、シミュレートされたデータセットを作成します。 このプロセスでは、元のデータセットからランダムなサンプルを抽出します。

  1. ブートストラップ法は、再サンプルされたデータセットに含まれる各オリジナルのデータポイントをランダムに抽出する確率が等しくなります。
  2. この手順では、再サンプルされたデータセットに複数のデータポイントを選択することができます。

このプロセスでは、元のデータセットに存在する値のさまざまな組み合わせを持つ、シミュレートされたデータセットが作成されます。 シミュレーションされた各データセットには、平均値、中央値、標準偏差などのサンプル統計のセットがあります。

ブートストラップサンプルの例

簡単なケースを見てみましょう。

この簡単な例は、ブートストラップ サンプルの特性を示しています。 再サンプルされたデータセットは、元のデータセットと同じサイズで、元のセットに存在する値のみを含んでいます。 さらに、これらの値は、元のデータセットに比べて、再サンプルされたデータセットに多く現れたり、少なく現れたりします。

もちろん、実際の研究では、より大きなサンプル サイズを持つことを望み、何千もの再サンプルされたデータセットを作成するでしょう。

How Well Does Bootstrapping Work?

リサンプリングでは、1つのデータセットを何度も再利用します。 あまりにも素晴らしいことのように思えます。 実際、「ブートストラップ」という言葉は、「自分の靴ひもで自分を引き上げる」という不可能な言葉に由来しています。

ブートストラップ法は1979年に開発されて以来、その使用頻度は増加しています。

仕組みを理解するために、ブートストラップ法は新しいデータを作成しないことを覚えておいてください。 その代わりに、元のサンプルを実際の母集団の代理として扱い、そこから無作為にサンプルを抽出します。

再サンプリングのプロセスでは、調査で抽出された可能性のある多くのサンプルを作成します。 シミュレーションされたサンプルの様々な値の組み合わせは、同じ母集団から抽出された無作為のサンプル間のばらつきの推定値を提供します。 これらの潜在的なサンプルの範囲により、信頼区間を構築し、仮説検証を行うことができます。

では、この手順の動作例を見てみましょう!

Example of Using Bootstrapping to Create Confidence Intervals

この例では、ブートストラップ法を使用して、92 人の思春期の少女の体脂肪率を含むデータセットの信頼区間を構築します。 このデータセットは、「データの分布を特定する」という投稿で使用しました。 これらのデータは、正規分布に従っていません。 伝統的な統計学の正規性の仮定を満たしていないので、ブートストラップ法の良い候補です。 しかし、サンプルサイズが大きいので、この仮定を回避することができるかもしれません。

CSV データセットをダウンロードして、自分で試してみてください: body_fat.

ブートストラップ手順の実行

ブートストラップされたサンプルを作成するために、Statistics101 を使用していますが、これはギフトウェアのプログラムです。 これは、モンティ・ホール問題に取り組む際にも使用したことがある、素晴らしいシミュレーション プログラムです!

そのプログラミング言語を使用して、元のデータセットを取得し、置換を伴う再標本化を 500,000 回行うスクリプトを書きました。 このプロセスは、それぞれに92個のオブザベーションを持つ500,000個のブートストラップサンプルを生成します。 このプログラムは、各サンプルの平均を計算し、これらの500,000個の平均の分布を下のヒストグラムにプロットします。 統計学者は、このような分布を平均のサンプリング分布と呼んでいます。 ブートストラップ法では、再サンプリングを用いてこのような分布を作成しますが、従来の方法では確率分布の方程式を用います。 このスクリプトをダウンロードして、自分で実行してみてください。 BodyFatBootstrapCI.

ブートストラップ法による信頼区間を作成するには、単純にパーセンタイルを使用します。 95%信頼区間の場合は、分布の中央95%を特定する必要があります。 そのためには、97.5パーセンタイルと2.5パーセンタイルを使用します (97.5 – 2.5 = 95)。 言い換えれば、すべてのサンプルの平均値を低い方から高い方へと並べ、平均値の最低2.5%と最高2.5%を切り落とすと、平均値の真ん中95%が残ります。 この範囲がブートストラップ法による信頼区間です!

体脂肪のデータでは、プログラムは平均値の95%ブートストラップ法による信頼区間を計算します。

この区間は、これらのデータに対する従来の信頼区間と同じ幅を持っており、数パーセントの差しかありません。

基礎となるデータ分布が歪んでいるにもかかわらず、ヒストグラムのサンプリング分布が正規分布に近似していることに注目してください。 この近似は、中心極限の定理のおかげです。 サンプルサイズが大きくなると、基礎となるデータの分布に関わらず、サンプリング分布は正規分布に収束します(一部例外あり)。

このプロセスを、従来の統計手法が信頼区間を作成する方法と比較してみてください。

Benefits of Bootstrapping over Traditional Statistics

私のブログの読者は、私が複雑な統計手法を直感的に説明するのが好きなことを知っています。 そして、ブートストラップ法は、この哲学にぴったりです。 このプロセスは、従来の手法の確率分布に必要な複雑な方程式よりも、はるかに理解しやすいものです。

ブートストラップ法では、データの分布について仮定を立てません。 単にデータを再サンプリングして、出てきたサンプリング分布を使用するだけです。

逆に、従来の方法では、データが正規分布またはその他の分布に従っていると仮定することがよくあります。 正規分布の場合、中心極限定理により、サンプル サイズが ~30 より大きい場合は、この仮定を回避することができます。 その結果、より多様な分布、未知の分布、より小さなサンプルサイズでブートストラップを使用することができます。

この流れで、すべての伝統的な方法は、データが特定の分布に従っているときに、特定のサンプル統計のサンプリング分布を推定する方程式を使用します。 しかし、残念ながら、標本統計量とデータの分布のすべての組み合わせに対する公式は存在しません。 例えば、中央値のサンプリング分布は知られていませんので、ブートストラップ法はそのための完璧な分析です。 他の分析では、分散の等質性のような仮定があります。

For Which Sample Statistics Can I Use Bootstrapping?

このブログの記事ではサンプル平均に焦点を当てていますが、ブートストラップ法は幅広いサンプル統計と特性を分析できます。 これらの統計には、平均、中央値、最頻値、標準偏差、分散分析、相関、回帰係数、比率、オッズ比、バイナリ データの分散、および多変量統計などがあります。 また、偏りを調整するためにブートストラップ法に手を加える必要がある場合もあります。 しかし、そのようなケースは、この入門ブログの記事の範囲を超えています。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です