Definición de la distribución del muestreo

Qué es una distribución muestral?

Una distribución muestral es una distribución de probabilidad de una estadística obtenida a partir de un número mayor de muestras extraídas de una población específica. La distribución muestral de una población dada es la distribución de frecuencias de un rango de resultados diferentes que podrían ocurrir para una estadística de una población.

En estadística, una población es el conjunto del que se extrae una muestra estadística. Una población puede referirse a un grupo entero de personas, objetos, eventos, visitas al hospital o mediciones. Así pues, puede decirse que una población es una observación agregada de sujetos agrupados por una característica común.

  • Una distribución muestral es una estadística a la que se llega mediante un muestreo repetido de una población mayor.
  • Describe un rango de posibles resultados que de una estadística, como la media o la moda de alguna variable, como realmente existe una población.
  • La mayoría de los datos analizados por los investigadores se extraen de muestras y no de poblaciones.

Comprender la distribución del muestreo

Una gran cantidad de datos extraídos y utilizados por académicos, estadísticos, investigadores, comercializadores, analistas, etc. son en realidad muestras, no poblaciones. Una muestra es un subconjunto de una población. Por ejemplo, un investigador médico que quisiera comparar el peso medio de todos los bebés nacidos en América del Norte entre 1995 y 2005 con los nacidos en América del Sur en el mismo periodo de tiempo no puede, en un tiempo razonable, extraer los datos de toda la población de más de un millón de partos que se produjeron en ese periodo de diez años. En cambio, sólo utilizará el peso de, por ejemplo, 100 bebés, en cada continente para sacar una conclusión. El peso de 200 bebés utilizados es la muestra y el peso medio calculado es la media muestral.

Supongamos ahora que, en lugar de tomar una sola muestra de 100 pesos de recién nacidos de cada continente, el investigador médico toma repetidas muestras aleatorias de la población general y calcula la media muestral de cada grupo de muestras. Así, para América del Norte, extrae datos de 100 pesos de recién nacidos registrados en EE.UU., Canadá y México de la siguiente manera: cuatro muestras de 100 de hospitales seleccionados de EE.UU., cinco muestras de 70 de Canadá y tres registros de 150 de México, para un total de 1200 pesos de recién nacidos agrupados en 12 conjuntos. También recoge una muestra de datos de 100 pesos al nacer de cada uno de los 12 países de Sudamérica.

Cada muestra tiene su propia media muestral y la distribución de las medias muestrales se conoce como distribución muestral.

El peso medio calculado para cada conjunto de muestras es la distribución muestral de la media. No sólo se puede calcular la media a partir de una muestra. A partir de los datos de la muestra se pueden calcular otros estadísticos, como la desviación estándar, la varianza, la proporción y el rango. La desviación típica y la varianza miden la variabilidad de la distribución muestral.

El número de observaciones de una población, el número de observaciones de una muestra y el procedimiento utilizado para extraer los conjuntos de muestras determinan la variabilidad de una distribución muestral. La desviación estándar de una distribución muestral se denomina error estándar. Mientras que la media de una distribución muestral es igual a la media de la población, el error estándar depende de la desviación estándar de la población, del tamaño de la población y del tamaño de la muestra.

El conocimiento de la diferencia entre la media de cada uno de los conjuntos de muestras y la media de la población indica la proximidad de la media de la muestra a la media de la población. El error estándar de la distribución muestral disminuye a medida que aumenta el tamaño de la muestra.

Consideraciones especiales

Una población o un conjunto de números de la muestra tendrá una distribución normal. Sin embargo, como una distribución de muestreo incluye múltiples conjuntos de observaciones, no tendrá necesariamente una forma de campana.

Siguiendo con nuestro ejemplo, el peso medio de la población de bebés en América del Norte y en América del Sur tiene una distribución normal porque algunos bebés tendrán un peso inferior (por debajo de la media) o un peso superior (por encima de la media), y la mayoría de los bebés estarán en el medio (alrededor de la media). Si el peso medio de los recién nacidos en América del Norte es de siete libras, el peso medio de la muestra en cada uno de los 12 conjuntos de observaciones de la muestra registrados para América del Norte será también cercano a las siete libras.

Sin embargo, si se representa gráficamente cada una de las medias calculadas en cada uno de los 1.200 grupos de muestra, la forma resultante puede dar lugar a una distribución uniforme, pero es difícil predecir con certeza cuál será la forma real. Cuantas más muestras utilice el investigador de la población de más de un millón de figuras de peso, el gráfico empezará a formar una distribución normal.

Dodaj komentarz