- Comportamiento de la media muestral (barra x)
- La distribución muestral de la media muestral
Comportamiento de la media muestral (barra x)
Hasta ahora, hemos discutido el comportamiento del estadístico p-hat, la proporción muestral, en relación con el parámetro p, la proporción poblacional (cuando la variable de interés es categórica).
Ahora pasamos a explorar el comportamiento del estadístico x-bar, la media muestral, en relación con el parámetro μ (mu), la media poblacional (cuando la variable de interés es cuantitativa).
Comencemos con un ejemplo.
EJEMPLO 9: Comportamiento de las medias muestrales
Se registran los pesos de los nacimientos de todos los bebés de una ciudad. El peso medio al nacer es de 3.500 gramos, µ = mu = 3.500 g. Si recogemos muchas muestras aleatorias de 9 bebés a la vez, ¿cómo cree que se comportarán las medias muestrales?
De nuevo, estamos trabajando con una variable aleatoria, ya que las muestras aleatorias tendrán medias que varían de forma impredecible a corto plazo pero que exhiben patrones a largo plazo.
Basándonos en nuestra intuición y en lo que hemos aprendido sobre el comportamiento de las proporciones muestrales, podríamos esperar lo siguiente sobre la distribución de las medias muestrales:
Centro: Algunas medias muestrales estarán en el lado bajo – digamos 3.000 gramos o así – mientras que otras estarán en el lado alto – digamos 4.000 gramos o así. En el muestreo repetido, podríamos esperar que las muestras aleatorias promedien hacia la media de la población subyacente de 3.500 g. En otras palabras, la media de las medias de las muestras será µ (mu), al igual que la media de las proporciones de las muestras fue p.
Distribución: Para las muestras grandes, podríamos esperar que las medias muestrales no se alejen demasiado de la media poblacional de 3.500. Las medias muestrales inferiores a 3.000 o superiores a 4.000 podrían ser sorprendentes. En el caso de las muestras más pequeñas, nos sorprendería menos que las medias muestrales se alejaran bastante de 3.500. En otras palabras, podríamos esperar una mayor variabilidad en las medias de las muestras más pequeñas. Así que el tamaño de la muestra volverá a desempeñar un papel en la dispersión de la distribución de las medidas de la muestra, como hemos observado para las proporciones de la muestra.
Forma: Las medias muestrales más cercanas a 3.500 serán las más comunes, y las medias muestrales alejadas de 3.500 en cualquier dirección serán progresivamente menos probables. En otras palabras, la forma de la distribución de las medias muestrales debería abultarse en el centro y estrecharse en los extremos con una forma que es algo normal. Esto, de nuevo, es lo que vimos cuando observamos las proporciones de la muestra.
Comentario:
- La distribución de los valores de la media muestral (barra x) en muestras repetidas se llama distribución muestral de la barra x.
Veamos una simulación:
Los resultados que encontramos en nuestras simulaciones no son sorprendentes. La teoría avanzada de la probabilidad lo confirma afirmando lo siguiente:
La distribución muestral de la media muestral
Si se toman muestras aleatorias repetidas de un tamaño n determinado de una población de valores para una variable cuantitativa, donde la media poblacional es μ (mu) y la desviación típica poblacional es σ (sigma) entonces la media de todas las medias muestrales (barras x) es la media poblacional μ (mu).
En cuanto a la dispersión de todas las medias muestrales, la teoría dicta el comportamiento de forma mucho más precisa que decir que hay menos dispersión para las muestras más grandes. De hecho, la desviación estándar de todas las medias muestrales está directamente relacionada con el tamaño de la muestra, n como se indica a continuación.
Dado que la raíz cuadrada del tamaño de la muestra n aparece en el denominador, la desviación estándar sí disminuye a medida que aumenta el tamaño de la muestra.
Aprende haciendo: Distribución muestral (barra x)
Comparemos y contrastaremos lo que ahora sabemos sobre las distribuciones muestrales de las medias y proporciones muestrales.
Ahora investigaremos la forma de la distribución muestral de las medias muestrales. Cuando hablábamos de la distribución muestral de las proporciones muestrales, decíamos que esta distribución es aproximadamente normal si np ≥ 10 y n(1 – p) ≥ 10. En otras palabras, teníamos una pauta basada en el tamaño de la muestra para determinar las condiciones en las que podíamos utilizar cálculos de probabilidad normal para las proporciones muestrales.
¿Cuándo será aproximadamente normal la distribución de las medias muestrales? Depende esto del tamaño de la muestra?
Parece razonable que una población con una distribución normal tendrá medias muestrales que se distribuyen normalmente incluso para muestras muy pequeñas. Hemos visto esto ilustrado en la simulación anterior con muestras de tamaño 10.
¿Qué ocurre si la distribución de la variable en la población está muy sesgada? Tienen las medias de las muestras una distribución sesgada también? Si tomamos muestras realmente grandes, ¿se distribuirán las medias muestrales de forma más normal?
En la siguiente simulación, investigaremos estas cuestiones.
Para resumir, la distribución de las medias muestrales será aproximadamente normal siempre que el tamaño de la muestra sea lo suficientemente grande. Este descubrimiento es probablemente el resultado más importante presentado en los cursos de introducción a la estadística. Se enuncia formalmente como el Teorema del Límite Central.
Dependeremos del Teorema del Límite Central una y otra vez para hacer cálculos de probabilidad normal cuando utilicemos las medias muestrales para sacar conclusiones sobre una media poblacional. Ahora sabemos que podemos hacer esto incluso si la distribución de la población no es normal.
¿Qué tamaño de muestra necesitamos para asumir que las medias muestrales se distribuirán normalmente? Bueno, realmente depende de la distribución de la población, como hemos visto en la simulación. La regla general es que las muestras de tamaño 30 o superior tendrán una distribución bastante normal independientemente de la forma de la distribución de la variable en la población.
Comentario:
- Para las variables categóricas, nuestra afirmación de que las proporciones muestrales son aproximadamente normales para un n suficientemente grande es en realidad un caso especial del Teorema Central del Límite. En este caso, pensamos en los datos como 0’s y 1’s y la «media» de estos 0’s y 1’s es igual a la proporción que hemos comentado.
Antes de trabajar con algunos ejemplos, vamos a comparar y contrastar lo que ahora sabemos sobre las distribuciones muestrales de las medias y las proporciones muestrales.
Ejemplo 10: Uso de la distribución muestral de x-bar
El tamaño de los hogares en Estados Unidos tiene una media de 2,6 personas y una desviación estándar de 1,4 personas. Debe quedar claro que esta distribución está sesgada hacia la derecha, ya que el valor más pequeño posible es un hogar de 1 persona, pero los hogares más grandes pueden ser realmente muy grandes.
(a) ¿Cuál es la probabilidad de que un hogar elegido al azar tenga más de 3 personas?
En este caso no debe utilizarse una aproximación normal, porque la distribución del tamaño de los hogares estaría considerablemente sesgada hacia la derecha. No tenemos suficiente información para resolver este problema.
(b) ¿Cuál es la probabilidad de que el tamaño medio de una muestra aleatoria de 10 hogares sea superior a 3?
Para cualquiera, 10 es un tamaño de muestra pequeño. El Teorema del Límite Central no garantiza que la media de la muestra procedente de una población sesgada sea aproximadamente normal a menos que el tamaño de la muestra sea grande.
(c) ¿Cuál es la probabilidad de que el tamaño medio de una muestra aleatoria de 100 hogares sea superior a 3?
Ahora podemos invocar el Teorema del Límite Central: aunque la distribución del tamaño de los hogares X está sesgada, la distribución del tamaño medio de los hogares de la muestra (barra x) es aproximadamente normal para un tamaño de muestra grande como 100. Su media es la misma que la media de la población, 2.6, y su desviación estándar es la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra:
Para encontrar
Estandarizamos 3 a en una puntuación z restando la media y dividiendo el resultado por la desviación estándar (de la media de la muestra). A continuación, podemos encontrar la probabilidad utilizando la calculadora o tabla normal estándar.
Los hogares de más de 3 personas son, por supuesto, bastante comunes, pero sería extremadamente inusual que el tamaño medio de una muestra de 100 hogares fuera superior a 3.
El propósito de la siguiente actividad es dar una práctica guiada para encontrar la distribución muestral de la media de la muestra (x-bar), y utilizarla para aprender sobre la probabilidad de obtener ciertos valores de x-bar.