Saltar la navegación

5. Teorema central del límite

Mano sacando un conejo de una chistera en una pared
 Imagen de kadluba bajo licencia Creative Commons

¿Ya te has familiarizado con esto de las distribuciones muestrales?

Parece todo un poco extraño, ¿verdad? Una distribución dentro de otra, un parámetro se convierte en variable, la media de las medias,... Uff, ¡qué lío!

Bueno, no tanto es así, y es que como te puedes imaginar, esto no sale de la chistera de un mago cual conejo saltarín, sino que todo tiene un fundamento, y eso precisamente es lo que vamos a ver en este apartado, aunque ya algo te han adelantado en el vídeo del apartado 2.

Lo que acabas de ver en los apartados anteriores de este tema es importantísimo, pues ten en cuenta que la distribución de la variable X se asocia a toda la población y conocer una característica de toda la población es complicado. De muestras no hay excesivos problemas, pero de toda la población... Pues bien, en la siguiente unidad, vamos a ver cómo se hace el salto de pasar la información de una muestra a toda la población, pero para ello son esenciales los resultados que acabas de ver.

De momento, sabemos la distribución que sigue la muestra (la media, la suma o diferencia de medias o la proporción) a partir de la distribución de la población, y en la próxima unidad, utilizando lo que acabamos de estudiar en estos apartados, veremos el paso contrario, que es lo verdaderamente interesante.

Por cierto, ¿no te ha resultado curioso que todo se aproxime a una normal? Sí, otra vez la distribución normal.

Como vamos a ver en el siguiente teorema, bajo ciertas condiciones, las cosas pueden parecerse mucho a una normal, y como recordarás, calcular probabilidades en una normal era bastante fácil.

¡Ah! este teorema es uno de los más importantes, o el que más quizás, de la estadística y la probabilidad, y todavía no lo hemos dicho, pero se llama Teorema Central del Límite.

Importante

El Teorema Central del Límite nos indica que si tenemos una serie de variables aleatoria independientes (el valor de una no influye en la otra) e idénticamente distribuidas (todas las variables tienen la misma distribución y por tanto, los mismos parámetros), la distribución de la suma de esas variables (si el número de variables que se suman es suficientemente grande) se aproxima a una Distribución Normal.

Lo precisamos todavía más, porque no se aproxima a una normal cualquiera sino que podemos saber a cuál:

Si tenemos n variables aleatorias X1, X2, X3,..., Xn todas ellas independientes entre sí y todas ellas con media µ y desviación típica σ, la suma de esas variables genera una nueva variable aleatoria que se aproximará a una distribución Normal de media y desviación típica

 

 

La coletilla de si el número es suficientemente grande no es ninguna tontería, pues lo que en realidad se aproxima es el límite de la suma de las variables cuando el número de variables tiende a infinito. O sea, que para que esto funcione, el número de variables o de datos que se han de sumar tiene que ser grande. A efectos prácticos nos vale con que al menos haya 30 datos, es decir, para aplicar este teorema tiene que cumplirse que n ≥ 30.

Ojo, fíjate que en ningún momento estamos diciendo que la variable X tenga que ser una distribución normal, sino que sea lo que sea la distribución de la variable en la población, la suma de muchas observaciones se va a aproximar a una normal.

Si ya de por sí la población de partida sigue una distribución normal, ese resultado se cumple siempre, sea el tamaño el que sea. No importa el valor de n.

Ejemplo o ejercicio resuelto

Según el estudio realizado por TisBet Survey, el número de días que un habitante de Lanjarón sale a pasear en bicicleta por la sierra sigue una distribución Normal de media 6,7 días y desviación típica 2,1. ¿Es muy probable que si juntamos 10 personas, entre las 10 hagan más de 80 días?
Sobre un examen de 10 preguntas tipo test, el número de preguntas acertadas sigue una media de 3,3 y una desviación típica de 1,49. ¿Qué distribución sigue la suma de las preguntas acertadas de 40 exámenes? ¿Habrá más de 100 preguntas acertadas entre todos?

AV - Pregunta de Elección Múltiple

Pregunta

1) Una variable aleatoria tiene una media de 12 unidades y una desviación típica de 2 unidades. La suma de las puntuaciones de 20 observaciones tiene aproximadamente una distribución:

Respuestas

N(12 ; 40)

N(240; 28,28)

N(240; 40)

No se puede determinar.

Retroalimentación

Pregunta

2) El tiempo que se tarda en encontrar aparcamiento en un parking sigue una determinada distribución de probabilidad en la que la media es 5 minutos y la desviación típica es 0,8. La distribución del tiempo total invertido por 30 coches elegidos al azar de entre los que entran en el parking sigue una distribución:

Respuestas

N(5 ; 0,8)

N( 150 ; 26,8)

N( 150; 24)

No puede determinarse.

Retroalimentación

Pregunta

 Caja de sardinas
 Imagen de FreeCat bajo licencia Creative Commons
3) Las sardinas que llegan a una lonja tienen un peso que se distribuye según una normal N(197 ; 48), donde el peso se expresa en gramos. Un distribuidor las empaqueta en bolsas de 12 unidades. ¿Qué distribución sigue el peso de las bolsas de sardinas?

Respuestas

N(197 ; 489)

N(2364 ; 166,3)

N(2364 ; 576)

No se puede determinar.

Retroalimentación

Actividad de Lectura

En los apartados anteriores has visto que la distribución de la media muestral es ¿Por qué es esto así? Pues fácil, a partir del Teorema Central del Límite.

Fíjate que acabamos de ver que la suma de las n variables, con las condiciones del Teorema, sigue una distribución Normal:

 

 

La media y la desviación típica de cualquier variable aleatoria cumplen que si la variable se multiplica por un número real, estos parámetros quedan también multiplicados por dicho número. Por ejemplo, imagina una variable aleatoria A que tenga de media 2 y desviación típica 0,4. La media de la variable aleatoria 3·A sería 3·2, o sea, 6, y la desviación típica 3·0,4 o lo que es lo mismo 1,2.

Bien, pues si recuerdas la fórmula de la media, ésta era , es decir, la nueva variable ΣXi la dividimos entre el tamaño de la muestra "n", o lo que es lo mismo, la multiplicamos por .

Si aplicamos la propiedad que acabamos de ver, la media muestral cumplirá que:

Media Desviación típica

Luego efectivamente, se cumple que .

 

Las poblaciones normales

En el caso de que los datos vengan de una población normal, hemos dicho que es irrelevante el número de datos. No es necesario que haya 30 o más. Esto es debido a la propiedad reproductiva de la distribución Normal.

Esta propiedad nos dice que si hay dos variables aleatorias independientes que siguen distribuciones de probabilidad normales, la suma de ellas es también una distribución Normal con media la suma de las medias y varianza la suma de las varianzas.

Si suponemos que nuestra variable X~N(μ,σ), como cada Xi también tiene esa distribución, la suma de las n observaciones tendrá:

Media Varianza
μ+μ+...+μ = n·μ σ22+...+σ2 = n·σ2

Y por tanto la desviación típica sería .

Es por esto entonces por lo que se cumple que sea n el valor que sea y por tanto también, .

Esta propiedad de la reproductividad, es la que se utiliza para justificar también la distribución muestral de la suma de medias y diferencia de medias.