Introduzione alla statistica

Risultati dell’apprendimento

  • Calcolare la dimensione del campione necessaria per stimare una media di popolazione e una proporzione di popolazione dato un livello di confidenza desiderato e un margine di errore

Durante un anno di elezioni, vediamo articoli sui giornali che indicano intervalli di confidenza in termini di proporzioni o percentuali. Per esempio, un sondaggio per un particolare candidato alla presidenza potrebbe mostrare che il candidato ha il 40% dei voti entro tre punti percentuali (se il campione è abbastanza grande). Spesso, i sondaggi elettorali sono calcolati con il 95% di confidenza, così, i sondaggisti sarebbero sicuri al 95% che la vera proporzione di elettori che hanno favorito il candidato sarebbe tra 0,37 e 0,43: (0,40 – 0,03,0,40 + 0,03).

Gli investitori nel mercato azionario sono interessati alla vera proporzione di azioni che salgono e scendono ogni settimana. Le aziende che vendono personal computer sono interessate alla proporzione di famiglie negli Stati Uniti che possiedono personal computer. Gli intervalli di confidenza possono essere calcolati per la vera proporzione di azioni che salgono o scendono ogni settimana e per la vera proporzione di famiglie negli Stati Uniti che possiedono personal computer.

La procedura per trovare l’intervallo di confidenza, la dimensione del campione, il limite di errore e il livello di confidenza per una proporzione è simile a quella per la media della popolazione, ma le formule sono diverse.

Come fate a sapere che avete a che fare con un problema di proporzioni? Innanzitutto, la distribuzione sottostante è una distribuzione binomiale. Se X è una variabile casuale binomiale, allora X ~ B(n, p) dove n è il numero di prove e p è la probabilità di successo. Per formare una proporzione, prendete X, la variabile casuale per il numero di successi e dividetela per n, il numero di prove (o la dimensione del campione). La variabile casuale P′(leggi “P primo”) è quella proporzione,

displaystyle{P’}=frac{X}}{{n}}

(A volte la variabile casuale è indicata come \displaystyle\hat{P}, leggi “P cappello”.)

Quando n è grande e p non è vicino a zero o uno, possiamo usare la distribuzione normale per approssimare la binomiale.

displaystyle{X}~{N}{({n}{p},\sqrt{{n}{p}{q}})}

Se dividiamo la variabile casuale, la media e la deviazione standard per
n, otteniamo una distribuzione normale di proporzioni con P′, chiamata proporzione stimata, come variabile casuale. (Ricordiamo che una proporzione è il numero di successi diviso per n.)

displaystyle\frac{{X}}{n}}={P’}{sim}{N}(\frac{n}{p}},\frac{sqrt{{{n}p}{q}}}}}{n})}

Usando l’algebra per semplificare:

displaystyle{frac{{sqrt{{n}{p}{q}}}}}{n}}=sqrt{{frac{p}{q}}}{n}}}}

P′ segue una distribuzione normale per proporzioni:

displaystyle\frac{X}}{n}={P’}{sim}{N}{(\frac{{n}{p}},\frac{\sqrt{{n}{p}{q}}}}}{n})}

L’intervallo di confidenza ha la forma (p′ – EBP, p′ + EBP). EBP è il limite di errore per la proporzione.

displaystyle{p’}=\frac{x}}{{n}}

p′ = la proporzione stimata di successi (p′ è una stima puntuale per p, la proporzione vera.)

x = il numero di successi

n = la dimensione del campione

L’errore limite per una proporzione è EBP = \displaystyle({z}_{frac{\alpha}}{2}})(\sqrt{frac{p’q’}{{n}}) dove q’ = 1-p’.

Questa formula è simile alla formula dell’errore limite per una media, eccetto che la “deviazione standard appropriata” è diversa. Per una media, quando la deviazione standard della popolazione è nota, la deviazione standard appropriata che usiamo è \displaystyle\frac{{sigma}}}{sqrt{n}}}. Per una proporzione, la deviazione standard appropriata è \displaystyle\sqrt{frac{pq}}{n}}. Tuttavia, nella formula dell’errore limite, usiamo \displaystyle\sqrt{frac{p’q’}}} come deviazione standard, invece di \displaystyle\sqrt{frac{pq}}}.

Nella formula dell’errore limite, le proporzioni del campione p′ e q′ sono stime delle proporzioni sconosciute della popolazione p e q. Le proporzioni stimatep′ e q′ sono usate perché p e q non sono note. Le proporzioni campionarie p′ e q′ sono calcolate dai dati: p′ è la proporzione stimata di successi, e q′ è la proporzione stimata di fallimenti.

L’intervallo di confidenza può essere usato solo se il numero di successi np′ e il numero di fallimenti nq′ sono entrambi maggiori di cinque.

Note

Per la distribuzione normale delle proporzioni, la formula del punteggio z è la seguente. Se \displaystyle{P’}{sim}{N}(p, \allora la formula del punteggio z è z = \displaystyle\frac{p’-p}}{{{sqrt{pqn}}}

Esempio

Supponiamo che una società di ricerche di mercato sia incaricata di stimare la percentuale di adulti che vivono in una grande città e che possiedono telefoni cellulari. Cinquecento residenti adulti selezionati a caso in questa città sono intervistati per determinare se hanno telefoni cellulari. Delle 500 persone intervistate, 421 hanno risposto di sì – possiedono telefoni cellulari. Usando un livello di confidenza del 95%, calcola un intervallo di confidenza stimato per la vera proporzione di residenti adulti di questa città che possiedono telefoni cellulari.

  • La prima soluzione è passo per passo (Soluzione A).
  • La seconda soluzione usa una funzione delle calcolatrici TI-83, 83+ o 84 (Soluzione B).

Soluzione A:

Lascia che X = il numero di persone nel campione che hanno telefoni cellulari. X è binomiale.

X ~ B(500, \displaystyle\frac{421}}{{500}})

Per calcolare l’intervallo di confidenza, devi trovare p′, q′, eEBP.

n = 500

x = il numero di successi = 421

p’= \displaystyle\frac{{x}}{n}}==frac{421}{500}} = 0,842

p′ = 0.842 è la proporzione del campione; questa è la stima puntuale della proporzione della popolazione.

q′ = 1 – p′ = 1 – 0,842 = 0,158

Siccome CL = 0,95, allora α = 1 – CL = 1 – 0.95 = 0,05 (α) = 0,025.

Allora \displaystyle{z}_{\frac{\alpha}}{{2}}={z}_{0,025} = 1,96

Usa il comando invNorm(0,975,0,1) della calcolatrice TI-83, 83+ o 84+ per trovare z0,025. Ricordate che l’area a destra di z0,025 è 0,025 e l’area a sinistra di z0,025 è 0,975. Questo può anche essere trovato usando comandi appropriati su altre calcolatrici, usando un computer, o usando una tabella di probabilità Normale Standard.

EBP = \displaystyle({z}_{frac{{alpha}}{2}})(\sqrt{frac{p’q’}}{{n}}) = (1.96)\displaystyle\sqrt{\frac{{(0.842)(0.158)}}{{500}}} = 0.032

p‘−EBP=0.842−0.032=0.81

p′+EBP=0.842+0.032=0.874

L’intervallo di confidenza per la vera proporzione binomiale della popolazione è ( p′ – EBP, p′ + EBP) = (0,810, 0,874).

Interpretazione

Stimiamo con il 95% di confidenza che tra l’81% e l’87,4% di tutti i residenti adulti di questa città hanno telefoni cellulari.

Spiegazione del livello di confidenza del 95%

Il novantacinque per cento degli intervalli di confidenza costruiti in questo modo conterrebbero il vero valore della proporzione di popolazione di tutti i residenti adulti di questa città che hanno telefoni cellulari.

Soluzione B:

Premere STAT e puntare la freccia suTESTS.

Freccia giù fino a A:1-PropZint. Premere ENTER.Freccia giù fino a e inserire 421.Freccia giù fino a e inserire 500.Freccia giù fino a C-Level e inserire .95.Freccia giù fino a Calculate e premere ENTER.L’intervallo di confidenza è (0,81003, 0,87397).

prova

Supponiamo che 250 persone selezionate a caso siano intervistate per determinare se possiedono un tablet. Dei 250 intervistati, 98 hanno riferito di possedere un tablet. Usando un livello di confidenza del 95%, calcola un intervallo di confidenza stimato per la vera proporzione di persone che possiedono tablet.

(0.3315, 0.4525)

Esempio

Per un progetto di classe, uno studente di scienze politiche di una grande università vuole stimare la percentuale di studenti che sono elettori registrati. Fa un sondaggio tra 500 studenti e scopre che 300 sono elettori registrati. Calcola un intervallo di confidenza del 90% per la vera percentuale di studenti che sono registrati come elettori e interpreta l’intervallo di confidenza.

  • La prima soluzione è passo per passo (Soluzione A).
  • La seconda soluzione usa una funzione delle calcolatrici TI-83, 83+, o 84 (Soluzione B).

Soluzione A:

x = 300 e n = 500

p’ =\displaystyle\frac{x}}{n}} = \frac{300}}{500}} = 0,600
Siccome CL = 0,90, allora α = 1 – CL = 1 – 0,90 = 0.10

displaystyle\frac{\alpha}}{2}} = 0,05
displaystyle{z}_{\frac{\alpha}{2}} = \displaystyle{z}_{0,05} = 1,645

Utilizza il comando invNorm(0,95,0,1) della calcolatrice TI-83, 83+ o 84+ per trovare z0,05. Ricordate che l’area a destra di z0,05 è 0,05 e l’area a sinistra di z0,05 è 0,95. Questo può anche essere trovato usando comandi appropriati su altre calcolatrici, usando un computer, o usando una tabella di probabilità normale standard.

EBP = \displaystyle({z}_{\frac{alpha}}{2}})(\sqrt{\frac{p’q’}{n}}) = (1.645)\displaystyle\sqrt{\frac{(0.6)(0.4)}}{{{500}} = 0.036

L’intervallo di confidenza per la vera proporzione binomiale della popolazione è (p′ – EBP, p′ + EBP) = (0,564,0,636).

Interpretazione

  • Stimiamo con il 90% di confidenza che la vera percentuale di tutti gli studenti che sono registrati come elettori è tra il 56,4% e il 63,6%.
  • Formulazione alternativa: Stimiamo con il 90% di confidenza che tra il 56,4% e il 63,6% di TUTTI gli studenti sono registrati come elettori.

Spiegazione del livello di confidenza del 90%

Il 90% di tutti gli intervalli di confidenza costruiti in questo modo contengono il vero valore della percentuale di popolazione di studenti che sono registrati come elettori.

Soluzione B:

Premi STAT e freccia suTESTS.

Freccia giù fino a A:1-PropZint.

Premere ENTER.

Freccia giù fino a e inserire 300.

Freccia giù fino a e inserire 500.

Freccia giù fino a C-Level e inserisci 0.90.

Freccia giù fino a Calculate e premi ENTER.

L’intervallo di confidenza è (0,564, 0,636).

Esempio

Uno studente fa un sondaggio nella sua scuola per vedere se gli studenti del distretto scolastico sono a favore o contro la nuova legislazione riguardante le uniformi scolastiche. Fa un sondaggio su 600 studenti e scopre che 480 sono contrari alla nuova legislazione.

  1. Computa un intervallo di confidenza del 90% per la vera percentuale di studenti che sono contrari alla nuova legislazione e interpreta l’intervallo di confidenza.
  2. In un campione di 300 studenti, il 68% ha detto di possedere un iPod e uno smart phone. Calcola un intervallo di confidenza del 97% per la vera percentuale di studenti che possiedono un iPod e uno smartphone.

Soluzione

  1. (0,7731, 0,8269); stimiamo con il 90% di confidenza che la vera percentuale di tutti gli studenti del distretto che sono contrari alla nuova legislazione sia tra il 77,31% e l’82,69%.
  2. La prima soluzione è passo dopo passo (soluzione A). La seconda soluzione usa una funzione delle calcolatrici TI-83, 83+ o 84 (Soluzione B)

Soluzione A

  • Il 68% degli studenti possiede un iPod e uno smartphone. p′=0.68, q′=1′=1-0.68=0.32
  • Siccome CL = 0.97, sappiamo α=1-0.97=0.03
  • L’area a sinistra di z0.015 è 0,015, e l’area a destra di z0,015 è 1 – 0,015 = 0,985.
  • Utilizzando la calcolatrice TI 83, 83+, o 84+ funzione InvNorm(.985,0,1), z0.015 = 2,17

EBP = \displaystyle({z}_{{\frac{\alpha}}{2}})(\sqrt{\frac{p’q’}{n}}}) = (1,645)\displaystyle\sqrt{\frac{(0,68)(0,32)}{{300}} = 0.0269

  • Siamo sicuri al 97% che la vera proporzione di tutti gli studenti che possiedono un iPod e uno smartphone sia tra 0,6531 e 0,7069.

Soluzione B

  1. Premere STAT e puntare la freccia su TESTI.
  2. Freccia giù su A:1-PropZint.
  3. Premere ENTER.
  4. Freccia giù su x e inserire 300*0.68.
  5. Freccia giù su n e inserire 300.
  6. Freccia giù su C-Level e inserisci 0.97.
  7. Freccia giù su Calculate e premi ENTER.
  8. L’intervallo di confidenza è (0.6531, 0.7069).

Intervallo di confidenza “più quattro” per p

C’è una certa quantità di errore introdotto nel processo di calcolo di un intervallo di confidenza per una proporzione. Poiché non conosciamo la vera proporzione della popolazione, siamo costretti a usare stime puntuali per calcolare la deviazione standard appropriata della distribuzione di campionamento. Gli studi hanno dimostrato che la stima risultante della deviazione standard può essere errata.

Fortunatamente, c’è un semplice aggiustamento che ci permette di produrre intervalli di confidenza più accurati. Facciamo semplicemente finta di avere quattro osservazioni aggiuntive. Due di queste osservazioni sono successi e due sono fallimenti. La nuova dimensione del campione, quindi, è n + 4, e il nuovo conteggio dei successi è x + 2.

Studi informatici hanno dimostrato l’efficacia di questo metodo. Dovrebbe essere usato quando il livello di confidenza desiderato è almeno il 90% e la dimensione del campione è almeno dieci.

Esempio

A un campione casuale di 25 studenti di statistica è stato chiesto: “Hai fumato una sigaretta nell’ultima settimana?” Sei studenti hanno riferito di aver fumato nell’ultima settimana. Usa il metodo del “più quattro” per trovare un intervallo di confidenza del 95% per la vera proporzione di studenti di statistica che fumano.

Soluzione A:

Sei studenti su 25 hanno dichiarato di aver fumato nell’ultima settimana, quindi x = 6 e n = 25. Poiché stiamo usando il metodo “più quattro”, useremo x = 6 + 2 = 8 e n = 25 + 4 = 29.

p’ = \displaystyle\frac{x}}{{n}}==frac{8}}{29}} = 0.276

q’ = 1-p’ – 1-0.276 = 0.724

Siccome CL = 0.95, sappiamo \displaystyle{z}_{0.025}={1.96}
Siamo sicuri al 95% che la vera proporzione di tutti gli studenti di statistica che fumano sigarette sia tra 0.113 e 0.439.

Soluzione B:

Premere STAT e puntare la freccia su TESTS.

Freccia in basso su A:1-PropZint. Premi ENTER.

Ricorda che il metodo plus-four assume quattro prove aggiuntive: due successi e due fallimenti. Non è necessario cambiare il processo di calcolo dell’intervallo di confidenza; semplicemente aggiornate i valori di x e n per riflettere queste prove aggiuntive.

Freccia giù su x e inserite otto.

Freccia giù su n e inserite 29.

Freccia giù su C-Level e inserite 0.95.

Freccia in basso su Calcola e premi ENTER.

L’intervallo di confidenza è (0,113, 0,439).

Esempio

Su un campione casuale di 65 matricole dell’Università statale, 31 studenti hanno dichiarato una laurea. Usa il metodo “più quattro” per trovare un intervallo di confidenza del 96% per la vera proporzione di matricole della State University che hanno dichiarato una specializzazione.

Soluzione A:

Utilizzando il “più quattro”, abbiamo x = 31 + 2 = 33 e n = 65 + 4 = 69.

Siccome CL = 0,96, sappiamo .

z0,02 = 2,054

Siamo sicuri al 96% che tra il 35,4% e il 60,2% di tutte le matricole della State U hanno dichiarato una specializzazione.

Soluzione B:

Premere STAT e puntare la freccia su TESTI.

Freccia giù fino a A:1-PropZint.

Premere ENTER.

Freccia giù fino a x e inserire 33.

Freccia giù fino a n e inserire 69.

Freccia giù fino a C-Level e inserire 0.96.

Freccia giù per Calculate e premere ENTER.

L’intervallo di confidenza è (0,355, 0,602).

Esempio

Il Berkman Center for Internet & Society di Harvard ha recentemente condotto uno studio analizzando le abitudini di gestione della privacy degli utenti adolescenti di Internet. In un gruppo di 50 adolescenti, 13 hanno riferito di avere più di 500 amici su Facebook. Usa il metodo del “più quattro” per trovare un intervallo di confidenza del 90% per la vera proporzione di adolescenti che riferirebbero di avere più di 500 amici su Facebook.

Soluzione A:

Utilizzando il “più quattro”, abbiamo x = 13 + 2 = 15 e n = 50 + 4 = 54.

Siccome CL = 0,90, sappiamo che .

z0,05 = 1,645

Siamo sicuri al 90% che tra il 17,8% e il 37,8% di tutti gli adolescenti riporti di avere più di 500 amici su Facebook.

Soluzione B:

Premere STAT e puntare la freccia su TESTI.

Freccia giù fino a A:1-PropZint.

Premete ENTER.

Freccia giù fino a x e inserite 15.

Freccia giù fino a n e inserite 54.

Freccia giù fino a C-Level e inserite 0.90.

Freccia giù fino a Calculate e premete ENTER.

L’intervallo di confidenza è (0,178, 0,378).

Esempio

Lo studio del Berkman Center citato nell’esempio 6 ha parlato con gli adolescenti in piccoli focus group, ma ha anche intervistato altri adolescenti per telefono. Quando lo studio è stato completato, 588 adolescenti hanno risposto alla domanda sui loro amici di Facebook e 159 hanno detto di avere più di 500 amici. Usa il metodo del “più quattro” per trovare un intervallo di confidenza del 90% per la vera proporzione di adolescenti che riferirebbero di avere più di 500 amici su Facebook basandosi su questo campione più grande. Confronta i risultati con quelli dell’esempio 6.

Soluzione A:

Utilizzando il “più-quattro”, abbiamo x = 159 + 2 = 161 e n = 588 + 4 = 592.

Siccome CL = 0,90, sappiamo .

Siamo sicuri al 90% che tra il 24.2% e il 30,2% di tutti gli adolescenti riferiscono di avere più di 500 amici su Facebook.

Soluzione B:

Premere STAT e puntare la freccia su TESTS.

Freccia giù fino a A:1-PropZint. Premere ENTER.

Freccia giù su x e inserire 161.

Freccia giù su n e inserire 592.

Freccia giù su C-Level e inserire 0.90.

Freccia giù su Calculate e premere ENTER.

L’intervallo di confidenza è (0,242, 0,302).

Conclusione

L’intervallo di confidenza per il campione più grande è più stretto di quello dell’esempio 6. I campioni più grandi daranno sempre intervalli di confidenza più precisi dei campioni più piccoli. Il metodo “più quattro” ha un impatto maggiore sul campione più piccolo. Sposta la stima puntuale da 0,26 (13/50) a 0,278 (15/54). Ha un impatto minore sull’EPB, cambiandolo da 0,102 a 0,100. Nel campione più grande, la stima puntuale subisce uno spostamento minore: da 0,270 (159/588) a 0,272 (161/592). È facile vedere che il metodo plus-four ha il maggiore impatto sui campioni più piccoli.

Calcolare la dimensione del campione n
Se i ricercatori desiderano uno specifico margine di errore, allora possono usare la formula dell’errore limite per calcolare la dimensione del campione richiesta.

La formula dell’errore limite per una proporzione della popolazione è EBP = \displaystyle({z}_{\frac{\alpha}}{2}})(\sqrt{frac{p’q’}{n}})

Solvendo per n si ottiene un’equazione per la dimensione del campione.

\displaystyle{n}=\frac{{{\left({z}_{\frac{{\alpha}}{{2}}}\right)}^{2}({p’}{q’})}}{{{EBP}^{2}}}

Example

Suppose che una compagnia di telefonia mobile voglia determinare l’attuale percentuale di clienti dai 50 anni in su che usano i messaggi di testo sui loro telefoni cellulari. Quanti clienti con più di 50 anni dovrebbe intervistare l’azienda per essere sicura al 90% che la proporzione stimata (campione) sia entro tre punti percentuali della vera proporzione della popolazione di clienti con più di 50 anni che usano i messaggi di testo sui loro telefoni cellulari.

Soluzione:

Dal problema, sappiamo che EBP = 0,03 (3%=0,03) e perché il livello di confidenza è 90%.

Tuttavia, per trovare n, dobbiamo conoscere la proporzione stimata (campione) p′. Ricordate che q′ = 1 – p′. Ma non conosciamo ancora p′. Poiché moltiplichiamo p′ e q′ insieme, li rendiamo entrambi uguali a 0,5 perché p′q′ = (0,5)(0,5) = 0,25 risulta il più grande prodotto possibile. (Prova altri prodotti: (0.6)(0.4) = 0.24; (0.3)(0.7) = 0.21; (0.2)(0.8) = 0.16 e così via). Il più grande prodotto possibile ci dà il più grande n. Questo ci dà un campione abbastanza grande in modo che possiamo essere sicuri al 90% che siamo entro tre punti percentuali della vera proporzione della popolazione. Per calcolare la dimensione del campione n, usare la formula e fare le sostituzioni.

Avvicinare la risposta al valore superiore successivo. La dimensione del campione dovrebbe essere di 752 clienti di età superiore ai 50 anni per essere sicuri al 90% che la proporzione stimata (campione) sia entro tre punti percentuali della vera proporzione della popolazione di tutti i clienti di età superiore ai 50 anni che usano i messaggi di testo sui loro telefoni cellulari.

prova

Supponiamo che una società di internet marketing voglia determinare la percentuale attuale di clienti che cliccano sugli annunci sui loro smartphone. Quanti clienti dovrebbe intervistare l’azienda per essere sicura al 90% che la percentuale stimata sia entro cinque punti percentuali della vera percentuale della popolazione di clienti che cliccano sugli annunci sui loro smartphone?

271 clienti dovrebbero essere intervistati. “Democratici, repubblicani divisi sull’opinione delle icone musicali”. Public Policy Polling. Disponibile online all’indirizzo http://www.publicpolicypolling.com/Day2MusicPoll.pdf (accesso 2 luglio 2013).

Madden, Mary, Amanda Lenhart, Sandra Coresi, Urs Gasser, Maeve Duggan, Aaron Smith, e Meredith Beaton. “Adolescenti, social media e privacy”. PewInternet, 2013. Disponibile online all’indirizzo http://www.pewinternet.org/Reports/2013/Teens-Social-Media-And-Privacy.aspx (accesso 2 luglio 2013).

Prince Survey Research Associates International. “2013 Teen and Privacy Management Survey”. Pew Research Center: Progetto Internet e Vita Americana. Disponibile online all’indirizzo http://www.pewinternet.org/~/media//Files/Questionnaire/2013/Methods%20and%20Questions_Teens%20and%20Social%20Media.pdf (accesso 2 luglio 2013).

Saad, Lydia. “Tre lavoratori statunitensi su quattro prevedono di lavorare fino all’età della pensione: un po’ di più dicono che lo faranno per scelta piuttosto che per necessità”. Gallup® Economy, 2013. Disponibile online all’indirizzo http://www.gallup.com/poll/162758/three-four-workers-plan-work-past-retirement-age.aspx (accesso 2 luglio 2013).

Il sondaggio sul campo. Disponibile online all’indirizzo http://field.com/fieldpollonline/subscribers/ (accesso 2 luglio 2013).

Zogby. “Nuovo sondaggio SUNYIT/Zogby Analytics: pochi americani si preoccupano delle situazioni di emergenza che si verificano nella loro comunità; solo uno su tre ha un piano di emergenza; il 70% sostiene gli ‘investimenti’ infrastrutturali per la sicurezza nazionale”. Zogby Analytics, 2013. Disponibile online all’indirizzo http://www.zogbyanalytics.com/news/299-americans-neither-worried-nor-prepared-in-case-of-a-disaster-sunyit-zogby-analytics-poll (visitato il 2 luglio 2013).

“52% dice che i grandi atleti dei college corrompono il processo educativo”. Rasmussen Reports, 2013. Disponibile online all’indirizzo http://www.rasmussenreports.com/public_content/lifestyle/sports/may_2013/52_say_big_time_college_athletics_corrupt_education_process (accesso 2 luglio 2013).

Revisione del concetto

Alcune misure statistiche, come molte domande del sondaggio, misurano dati qualitativi piuttosto che quantitativi. In questo caso, il parametro della popolazione da stimare è una proporzione. È possibile creare un intervallo di confidenza per la vera proporzione della popolazione seguendo procedure simili a quelle usate per creare intervalli di confidenza per le medie della popolazione. Le formule sono leggermente diverse, ma seguono lo stesso ragionamento.

Lasciamo che p′ rappresenti la proporzione del campione, x/n, dove x rappresenta il numero di successi e n la dimensione del campione. Sia q′ = 1 – p′. Allora l’intervallo di confidenza per una proporzione della popolazione è dato dalla seguente formula:

(limite inferiore, limite superiore)

Il metodo “più quattro” per calcolare gli intervalli di confidenza è un tentativo di bilanciare l’errore introdotto utilizzando le stime della proporzione della popolazione quando si calcola la deviazione standard della distribuzione del campione. Immaginate semplicemente quattro prove aggiuntive nello studio; due sono successi e due sono fallimenti. Calcolate , e procedete a trovare l’intervallo di confidenza. Quando le dimensioni del campione sono piccole, questo metodo ha dimostrato di fornire intervalli di confidenza più accurati rispetto alla formula standard utilizzata per campioni più grandi.

Rassegna della formula

p′ = x / n dove x rappresenta il numero di successi e n rappresenta la dimensione del campione. La variabile p′ è la proporzione del campione e serve come stima puntuale per la vera proporzione della popolazione.
q′ = 1 – p′
La variabile p′ ha una distribuzione binomiale che può essere approssimata con la distribuzione normale mostrata qui.
EBP = \displaystyle({z}_{{\frac{\alpha}}{2}})(\sqrt{\frac{p’q’}{n}})
Intervallo di fiducia per una proporzione:
(limite inferiore, limite superiore)= (p’ – EBP, p’ + EBP) = (p’ – \displaystyle({z}_{\frac{\alpha}{{2}})(\sqrt{\frac{p’q’}}}), p’+ \displaystyle({z}_{\frac{{\alpha}}{{2}}})(\sqrt{\frac{{p’q’}}{{n}}}))
n =\displaystyle\frac{{({z}_{\frac{{\alpha}}{{2}}}{p’q’}}}{{{EBP}^{2}}}provides il numero di partecipanti necessari per stimare la proporzione della popolazione con fiducia 1 – α e margine di errore EBP.

Utilizzare la distribuzione normale per una singola proporzione di popolazione p′ = \displaystyle\frac{x}}{{n}}

EBP = \displaystyle({z}_{\frac{\alpha}}{2}})(\sqrt{\frac{p’q’}}{{n}})(p’+q’) = 1

L’intervallo di confidenza ha il formato (p′ – EBP, p′ + EBP).

displaystyle\overline{x} è una stima puntuale per μ

p′ è una stima puntuale per ρ

s è una stima puntuale per σ

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *