統計学入門

学習成果

  • 希望する信頼度と誤差の範囲で母平均と母集団の割合を推定するのに必要なサンプルサイズを計算する

選挙の年になると、新聞では割合やパーセンテージで信頼区間を示す記事を目にします。 たとえば、大統領選に立候補している特定の候補者の世論調査では、その候補者の得票率が 3 パーセントポイント以内で 40% であることが示されるかもしれません (サンプルが十分に大きい場合)。

株式市場の投資家は、毎週上がる株と下がる株の本当の割合に興味があります。 パソコンを販売している企業は、アメリカでパソコンを所有している世帯の割合に関心があります。

比率の信頼区間、サンプルサイズ、誤差範囲、信頼レベルを求める手順は、母平均の場合と似ていますが、計算式は異なります。 まず、基礎となる分布は二項分布です。 Xが二項確率変数であれば、X ~ B(n, p)であり、nは試行回数、pは成功確率である。 割合を求めるには,成功数の確率変数であるXを試行回数(またはサンプルサイズ)であるnで割ります.

displaystyle{P’}=frac{{X}}{{n}}

(確率変数を「Pハット」と表記することもある。)

nが大きく、pが0または1に近くない場合、二項分布の近似として正規分布を用いることができる。

Indisplaystyle{X}~{N}{({n}{p},\sqrt{{n}{p}{q}})}

確率変数である平均と標準偏差を
nで割ると、推定割合と呼ばれるP′を確率変数とする割合の正規分布が得られます。 割合とは、成功の数をnで割ったものであることを思い出してください。

Displaystyle\frac{{X}}{{n}}={P’}{sim}{N}{(˶‾᷅˵‾᷄˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵‾᷄˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵‾᷄˵‾᷅˵‾᷅˵‾᷅˵‾᷅˵代数を使って簡単にしてみましょう。

displaystyle\\{{n}{p}{q}}}}}{n}}=\{{{p}{q}}}{{n}}}}

P′は割合の正規分布に従う。

Displaystyle\frac{{X}}{{n}}={P’}{sim}{N}{(\frac{{n}{p}}}{{n}},\frac{{sqrt{{n}{p}{q}}}}}{{n}})}

信頼区間は(p′ – EBP, p′ + EBP)の形をしています。 EBPは割合の誤差境界です。

displaystyle{p’}=\frac{{x}}{{n}}

p′=成功の推定割合(p′は真の割合であるpの点推定値です。

x = 成功した数

n = サンプルの大きさ

割合の誤差境界はEBP = ˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ ) q’ = 1-p’ です。

この式は、「適切な標準偏差」が異なることを除けば、平均の誤差範囲の式と似ています。 平均の場合、母集団の標準偏差がわかっている場合、使用する適切な標準偏差は ˶ˆ꒳ˆ˵ ) です。 割合の場合,適切な標準偏差は,\displaystyle\sqrt{frac{{pq}}{{n}}}である.

誤差境界式では,標本割合p′とq′は,未知の母集団の割合pとqの推定値である。

信頼区間は,成功の数np′と失敗の数nq′がともに5より大きい場合にのみ使用することができます。

比率の正規分布の場合,z-scoreの式は次のようになります。 もしも,\\\\\\\\\\\\\\⁾⁾(p. \z = displaystyle\frac{p’-p}}{{\sqrt{pqn}}}

Example

ある市場調査会社が、大都市に住む成人のうち携帯電話を持っている人の割合を推定するよう依頼されたとする。 無作為に選ばれたこの都市の成人居住者500人を対象に、携帯電話を持っているかどうかを調査します。 調査対象となった500人のうち、421人が「はい」と答えました – 携帯電話を持っています。

  • 最初の解決策はステップバイステップです(解決策A)。
  • 2番目の解決策はTI-83, 83+ or 84 calculatorsの関数を使用します(解決策B)。

解決策A:

X = 携帯電話を持っているサンプルの人の数とします。 Xは二項式である。

X ~ B(500, ˶ˆ꒳ˆ˵ )

信頼区間を計算するためには、p′, q′, EBPを求めなければならない。

n = 500

x = 成功した数 = 421

p’= displaystyle\frac{{x}}{{n}} =\frac{{421}}{{500}} = 0.842

p′ = 0.842が標本比率で,これが母集団比率の点推定値となります。

q′ = 1 – p′ = 1 – 0.842 = 0.158

CL = 0.95なので,α = 1 – CL = 1 – 0.95 = 0.05 (α) = 0.025.

そうすると、 ˶‾᷄ -̫ ‾᷅˵˵={z}_{0.025} = 1.96

TI-83, 83+, 84+ の電卓コマンド invNorm(0.975,0,1)を使って z0.025 を求める。 z0.025の右の面積は0.025、左の面積は0.975であることを覚えておいてください。

EBP = ˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )96)\displaystyle\sqrt{\frac{{(0.842)(0.158)}}{{500}}} = 0.032

p‘−EBP=0.842−0.032=0.81

p′+EBP=0.842+0.032=0.874

真の二項式母集団比率の信頼区間は( p′ – EBP, p′ + EBP) = (0.810, 0.874) です。

解釈

この都市のすべての成人居住者の81%から87.4%が携帯電話を持っていると95%の信頼度で推定されます。

95%信頼度の説明

このようにして作られた信頼区間の95%が、この都市のすべての成人居住者の携帯電話を持っている人口比率の真の値を含むことになります。

ソリューション B:

STATTESTS に矢印を移動します。

A:1-PropZintENTERC-LevelCalculateENTERを押します。信頼区間は (0.81003, 0.87397) です。

try it

無作為に選ばれた250人がタブレットを所有しているかどうかを調査したとします。 調査対象者250人のうち、98人がタブレットを所有していると回答しました。 95% の信頼水準を使用して、タブレットを所有している人の真の割合の信頼区間推定値を計算します。

(0.3315, 0.4525)

クラスのプロジェクトとして、大きな大学の政治学の学生が、有権者として登録している学生の割合を推定したいとします。 500 人の学生にアンケートを取り、300 人が有権者として登録していることがわかりました。

  • 最初の解決策はステップバイステップです(解決策A)。
  • 2番目の解決策はTI-83、83+、または84電卓の機能を使用します(解決策B)。

解答A:

x = 300, n = 500

p’ =displaystyle\\frac{{x}}{{n}} = frac{{300}}{{500}} = 0.600
CL = 0.90であるから、α = 1 – CL = 1 – 0.90 = 0.10

Displaystyle\frac{{\alpha}}{{2}} = 0.05
Displaystyle{z}_{\alpha}}{{2}} = ୨୧{z}_{0.05} = 1.645

TI-83, 83+, 84+ の電卓コマンド invNorm(0.95,0,1)を使って z0.05 を求める。 z0.05の右の面積が0.05で、左の面積が0.95であることを覚えておいてください。 これは、他の電卓の適切なコマンドを使用したり、コンピュータを使用したり、標準的な正規確率表を使用して求めることもできます。

EBP = ˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ )036

真の二項母集団比率の信頼区間は (p′ – EBP, p′ + EBP) = (0.564,0.636) です。

解釈

  • We estimated with 90% confidence that the true percent of all students are registered voters is 56.4% between 63.6%
  • Alternate Wording: We estimated with 90% confidence that 56.4% and 63.6% of all students are registered voters.

Explanation of 90% Confidence Level

このようにして作られた信頼区間のうち90%は、登録された有権者である学生の母数の真の値を含んでいることになります。

解答B:

STATTESTSへ矢印を移動します。

A:1-PropZintへ矢印を移動します。

ENTERを押します。

矢印を下に移動して「300」と入力します。

C-Levelに移動し、0.90と入力します。

CalculateENTERを押します。

信頼区間は(0.564, 0.636)です。

ある学生が、学校の制服に関する新しい法律に学区内の学生が賛成しているか反対しているかを調べるために、自分の学校を調査しました。

  1. 新法案に反対する学生の真の割合に対する 90% 信頼区間を計算し、その信頼区間を解釈します。
  2. 300 人の学生のサンプルでは、68% が iPod とスマートフォンを所有していると答えました。

解答

  1. (0.7731, 0.8269); 新法案に反対する地区の全学生の真の割合は77.31%から82.69%の間であることを90%の信頼度で推定します
  2. 最初の解答はステップバイステップです(解答A)。 2つ目の解答は、TI-83, 83+, 84の電卓の関数を使用しています(解答B)

解答A

  • 学生の68%がiPodとスマートフォンを所有していることがわかります。 p′=0.68, q′=1′=1-0.68=0.32
  • CL=0.97なので、α=1-0.97=0.03
  • z0.015の左側の面積は0.015であることがわかる。015の左の面積は0.015、z0.015の右の面積は1 – 0.015 = 0.985
  • TI 83, 83+, 84+電卓の関数InvNorm(.985,0,1)を使って、z0.015 = 2.17

EBP = ˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) (˶ˆ꒳ˆ˵ ) = (1.645)˶ˆ꒳ˆ˵ ) (0.68)(0.32)}}{{300}} = 0.0269

  • iPodとスマートフォンを所有している全学生の真の割合は、0.6531から0.7069の間であることを97%確信しています

解答B

  1. STATを押し、TESTSに矢印を合わせます。
  2. A:1-PropZintに矢印を移動。
  3. Enterを押す。
  4. xに矢印を移動し、300*0.68.
  5. nに矢印を移動し、300を入力。
  6. C-Levelにローダウンして0.97を入力。
  7. CalculateにローダウンしてENTERを押す。
  8. 信頼区間は(0.6531, 0.7069)である。

“Plus Four” Confidence Interval for p

比率の信頼区間を計算するプロセスには、ある程度の誤差があります。 母集団の真の割合がわからないため、サンプリング分布の適切な標準偏差を計算するために点推定を使用せざるを得ません。

幸いなことに、より正確な信頼区間を作成することができる簡単な調整があります。 単純に、4つの追加観測があると仮定します。 これらのオブザベーションのうち2つは成功で、2つは失敗です。

コンピュータによる研究では、この方法の有効性が実証されています。

Example

25人の統計学の学生に無作為に質問しました。 “過去1週間にタバコを吸ったことがありますか?” と質問しました。 6人の学生が過去1週間以内に喫煙したと答えました。

解答A:

25人中6人が過去1週間に喫煙したと回答したので、x = 6、n = 25となります。

p’ = displaystyle\frac{{x}}{{n}} =\frac{{{8}}{{29}} = 0.276

q’ = 1-p’ – 1-0.276 = 0.724

CL = 0.95なので、 ˶ˆ꒳ˆ˵ )025}={1.96}
タバコを吸う統計学の学生の真の割合は0.113から0.439の間であることを95%確信しています。

解答B:

STATを押してTESTSに矢印を合わせます。

プラス4法では、2つの成功と2つの失敗という、さらに4つの試行を想定していることを覚えておいてください。

x に矢印を合わせて 8 を入力します。

n に矢印を合わせて 29 を入力します。

C-Level に矢印を合わせて 0 を入力します。

「Calculate」を矢印で選択し、Enterキーを押します。

信頼区間は(0.113, 0.439)となります。

州立大学の新入生65人の無作為抽出サンプルのうち、31人が専攻を宣言しました。 プラス4」法を用いて、専攻を宣言したState Universityの新入生の真の割合の96%信頼区間を求めなさい。

解答A:

「プラス4」法を用いると、x = 31 + 2 = 33、n = 65 + 4 = 69となります。

CL = 0.96なので、.

z0.02 = 2.054

State Uのすべての新入生のうち、35.4%から60.2%が専攻を宣言していることを96%確信しています。

解決策B:

STATを押して、TESTSに矢印を移動します。

A:1-PropZintに矢印を合わせ、

Enterを押します。

xに矢印を合わせ、33を入力します。

nに矢印を合わせ、69を入力します。

C-Levelに矢印を合わせ、0.96を入力します。

Calculateに矢印を合わせ、Enterを押します。

信頼区間は (0.355, 0.602) です。

ハーバード大学の Berkman Center for Internet & Society は最近、10 代のインターネット ユーザーのプライバシー管理の習慣を分析する研究を行いました。 50人のティーンエイジャーの中で、13人がFacebookに500人以上の友達がいると回答しました。

解答A:

「プラス・フォー」を使うと、x = 13 + 2 = 15、n = 50 + 4 = 54となります。

CL = 0.90 なので、.

z0.05 = 1.645

10 代の若者のうち、17.8% から 37.8% が Facebook で 500 人以上の友達がいると報告することを 90% 確信しています。

解決策 B:

STAT を押して、TESTS に移動します。

A:1-PropZintに矢印を合わせ、

Enterを押します。

xに矢印を合わせて15を入力し、

nに矢印を合わせて54を入力し、

C-Levelに矢印を合わせて0.90を入力し、

Calculateに矢印を合わせてEnterを押します。

信頼区間は (0.178, 0.378) です。

例6で参照したBerkman Centerの研究では、10代の若者に小規模なフォーカスグループで話を聞き、さらに電話でもインタビューを行いました。 この研究が終了したとき、588人の10代の若者がFacebookの友達についての質問に答え、159人が500人以上の友達がいると答えました。 プラス4」法を使って、このより多くのサンプルに基づいて、500人以上のFacebookの友達がいると回答した10代の若者の真の割合の90%信頼区間を求めます。

解答A:

「プラス4」法を用いて、x = 159 + 2 = 161、n = 588 + 4 = 592となります。

CL = 0.90なので、.

24.2%から30.2%の10代の若者がいることを90%確信できます。

STAT を押し、TESTS に移動します。

A:1-PropZint に移動します。

x に矢印を合わせて 161 を入力します。

n に矢印を合わせて 592 を入力します。

C-Level に矢印を合わせて 0.90 を入力します。

Calculate に矢印を合わせて ENTER を押します。

信頼区間は (0.242, 0.302) です。

結論

大きなサンプルの信頼区間は、例6の区間よりも狭くなります。 大きいサンプルは小さいサンプルよりも常により正確な信頼区間が得られます。 プラス4」法は、小さいサンプルに大きな影響を与えます。 点推定値が0.26(13/50)から0.278(15/54)にシフトします。 また、EPBへの影響は小さく、0.102から0.100に変化しました。 大規模なサンプルでは、ポイント推定値の変化も小さく、0.270(159/588)から0.272(161/592)となりました。

サンプルサイズnの計算

研究者が特定の誤差範囲を望む場合、必要なサンプルサイズを計算するために誤差範囲の公式を使用することができます。

母集団の割合を表す誤差境界式はEBP = ˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )

nを解くとサンプルサイズの方程式が得られます。

\displaystyle{n}=\frac{{{\left({z}_{\frac{{\alpha}}{{2}}}\right)}^{2}({p’}{q’})}}{{{EBP}^{2}}}

Example

Suppose ある携帯電話会社が、携帯電話でテキストメッセージを利用している50歳以上の顧客の現在の割合を調べたいとします。

問題から、EBP = 0.03 (3%=0.03)であり、信頼度が90%であることがわかります。

しかしながら、nを求めるためには、推定(サンプル)比率p′を知る必要があります。 q′ = 1 – p′であることを覚えておいてください。 しかし,我々はまだp′を知りません。 p′とq′を掛け合わせるので,p′q′ = (0.5)(0.5) = 0.25となり,可能な限り大きな積になるので,両方とも0.5にします。 (他の製品も試してみましょう。 (0.6)(0.4) = 0.24; (0.3)(0.7) = 0.21; (0.2)(0.8) = 0.16 など)。 これにより、実際の母集団の割合から3%ポイント以内であることを90%の自信を持って確信できる、十分に大きなサンプルが得られます。

答えを次の大きな値に丸めてください。

やってみよう

あるインターネット・マーケティング会社が、スマートフォンで広告をクリックする顧客の現在の割合を調べたいとします。

スマートフォンで広告をクリックする顧客の割合を推定するためには、何人の顧客を調査すればよいでしょうか。 “Democrats, Republicans Divided on Opinion of Music Icons.” Public Policy Polling. http://www.publicpolicypolling.com/Day2MusicPoll.pdf (accessed July 2, 2013).

Madden, Mary, Amanda Lenhart, Sandra Coresi, Urs Gasser, Maeve Duggan, Aaron Smith, and Meredith Beaton. “Teens, Social Media, and Privacy.” PewInternet, 2013. Available online at http://www.pewinternet.org/Reports/2013/Teens-Social-Media-And-Privacy.aspx (accessed July 2, 2013).

Prince Survey Research Associates International. “2013 Teen and Privacy Management Survey”. Pew Research Center: Internet and American Life Project. Available online at http://www.pewinternet.org/~/media//Files/Questionnaire/2013/Methods%20and%20Questions_Teens%20and%20Social%20Media.pdf (accessed July 2, 2013).

Saad, Lydia. “米国の労働者の4人に3人は定年後も働く予定:必要に迫られてではなく、選択によってそうすると答えた人がわずかに多い。” Gallup® Economy, 2013. Available online at http://www.gallup.com/poll/162758/three-four-workers-plan-work-past-retirement-age.aspx (accessed July 2, 2013).

The Field Poll.

Zogby. “New SUNYIT/Zogby Analytics Poll: Few Americans Worry about Emergency Situations Occurring in Their Community; Only one in 3 have an Emergency Plan; 70% Support Infrastructure ‘Investment’ for National Security.”. Zogby Analytics, 2013.

“52% Say Big-Time College Athletics Corrupt Education Process.” (52% Say Big-Time College Athletics Corrupt Education Process.). Rasmussen Reports, 2013. Available online at http://www.rasmussenreports.com/public_content/lifestyle/sports/may_2013/52_say_big_time_college_athletics_corrupt_education_process (accessed July 2, 2013).

Concept Review

多くの調査質問のように、一部の統計測定は、定量的データではなく定性的データを測定します。 この場合、推定される母数は比率です。 母集団の平均値の信頼区間を作成するのと同じような手順で、真の母集団の割合の信頼区間を作成することができます。

p′はサンプルの割合を表し,x/nとします。ここで,xは成功数,nはサンプルサイズを表します。 q′ = 1 – p′とします。

(下限値、上限値)

信頼区間を計算するための「プラス4」法は、サンプリング分布の標準偏差を計算する際に、母集団の割合の推定値を使用することによってもたらされる誤差のバランスをとるための試みです。 単純に、2つは成功、2つは失敗という4つの追加試験を想像してみてください。 を計算して、信頼区間を求めます。

式の復習

′ = x / n ここで x は成功の数、n はサンプルサイズを表します。
変数p′は二項分布を持ち、ここに示す正規分布で近似することができます。
EBP = ˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˶ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵ )(˵ˆ꒳ˆ˵)
(下限値、上限値)=(p’-EBP,p’+EBP)=(p’ – ˶ˆ꒳ˆ˵ )(sqrt{˶ˆ꒳ˆ˵ ), p’+ \displaystyle({z}_{\frac{{\alpha}}{{2}}})(\sqrt{\frac{{p’q’}}{{n}}}))
n =\displaystyle\frac{{({z}_{\frac{{\alpha}}{{2}}}{p’q’}}}{{{EBP}^{2}}}provides 母集団の割合を信頼度1-α、誤差EBPで推定するために必要な参加者数です。

単一の人口比率に対する正規分布を使用する p′ = ˶ˆ꒳ˆ˵ )

EBP = \(p’+q’) = 1

信頼区間の形式は (p′ – EBP, p′ + EBP)となる。

DisplaystyleOverline{x}はμの点推定値

p′はρの点推定値

sはσの点推定値

です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です