5. Teorema central del límite

Mano sacando un conejo de una chistera en una pared

Imagen de kadluba bajo licencia Creative Commons

¿Ya te has familiarizado con esto de las distribuciones muestrales?

Parece todo un poco extraño, ¿verdad? Una distribución dentro de otra, un parámetro se convierte en variable, la media de las medias,... Uff, ¡qué lío!

Bueno, no tanto es así, y es que como te puedes imaginar, esto no sale de la chistera de un mago cual conejo saltarín, sino que todo tiene un fundamento, y eso precisamente es lo que vamos a ver en este apartado, aunque ya algo te han adelantado en el vídeo del apartado 2.

Lo que acabas de ver en los apartados anteriores de este tema es importantísimo, pues ten en cuenta que la distribución de la variable X se asocia a toda la población y conocer una característica de toda la población es complicado. De muestras no hay excesivos problemas, pero de toda la población... Pues bien, en la siguiente unidad, vamos a ver cómo se hace el salto de pasar la información de una muestra a toda la población, pero para ello son esenciales los resultados que acabas de ver.

De momento, sabemos la distribución que sigue la muestra (la media, la suma o diferencia de medias o la proporción) a partir de la distribución de la población, y en la próxima unidad, utilizando lo que acabamos de estudiar en estos apartados, veremos el paso contrario, que es lo verdaderamente interesante.

Por cierto, ¿no te ha resultado curioso que todo se aproxime a una normal? Sí, otra vez la distribución normal.

Como vamos a ver en el siguiente teorema, bajo ciertas condiciones, las cosas pueden parecerse mucho a una normal, y como recordarás, calcular probabilidades en una normal era bastante fácil.

¡Ah! este teorema es uno de los más importantes, o el que más quizás, de la estadística y la probabilidad, y todavía no lo hemos dicho, pero se llama Teorema Central del Límite.

Importante

El Teorema Central del Límite nos indica que si tenemos una serie de variables aleatoria independientes (el valor de una no influye en la otra) e idénticamente distribuidas (todas las variables tienen la misma distribución y por tanto, los mismos parámetros), la distribución de la suma de esas variables (si el número de variables que se suman es suficientemente grande) se aproxima a una Distribución Normal.

Lo precisamos todavía más, porque no se aproxima a una normal cualquiera sino que podemos saber a cuál:

Si tenemos n variables aleatorias X₁, X₂, X₃,..., X_n todas ellas independientes entre sí y todas ellas con media µ y desviación típica σ, la suma de esas variables genera una nueva variable aleatoria que se aproximará a una distribución Normal de media y desviación típica

La coletilla de si el número es suficientemente grande no es ninguna tontería, pues lo que en realidad se aproxima es el límite de la suma de las variables cuando el número de variables tiende a infinito. O sea, que para que esto funcione, el número de variables o de datos que se han de sumar tiene que ser grande. A efectos prácticos nos vale con que al menos haya 30 datos, es decir, para aplicar este teorema tiene que cumplirse que n ≥ 30.

Ojo, fíjate que en ningún momento estamos diciendo que la variable X tenga que ser una distribución normal, sino que sea lo que sea la distribución de la variable en la población, la suma de muchas observaciones se va a aproximar a una normal.

Si ya de por sí la población de partida sigue una distribución normal, ese resultado se cumple siempre, sea el tamaño el que sea. No importa el valor de n.

Ejemplo o ejercicio resuelto

Según el estudio realizado por TisBet Survey, el número de días que un habitante de Lanjarón sale a pasear en bicicleta por la sierra sigue una distribución Normal de media 6,7 días y desviación típica 2,1. ¿Es muy probable que si juntamos 10 personas, entre las 10 hagan más de 80 días?

Retroalimentación

Dos personas paseando por el campo en bicicleta

Piensa un momento, fíjate que la respuesta que de una persona es una variable aleatoria que sigue una distribución normal N(6,7;2,1), pues esa persona está dentro de la localidad objeto de estudio. Como le preguntamos a 10 personas, tenemos 10 variables aleatorias, todas con la misma distribución normal, que vamos a llamar X₁, X₂, X₃,... X₁₀.

Puesto que queremos saber una probabilidad sobre la suma de las respuestas que han dado las diez personas, hemos de encontrar la distribución de la variable S₁₀ = X₁ + X₂ + ...+X₁₀, y para ello, aplicamos el teorema que acabamos de ver_.(Llamamos S₁₀ a la suma de las 10 variables para abreviar un poco la expresión y no escribir continuamente X₁+X₂+...)

En primer lugar, vemos que se cumplen las condiciones del teorema:

Las variables son independientes, pues la encuesta se habrá hecho de forma que la respuesta de una persona no influya en la de otra. (¡Ves lo importante que hacer bien la encuesta!)
Las variables están idénticamente distribuidas, pues todas las personas están dentro de la misma población y por tanto, todas siguen una distribución normal N(6,7;2,1).
El tamaño de la muestra no es superior a 30, pero como la población ya de por sí es normal, no importa el tamaño.

Entonces aplicando el resultado anterior, podemos afirmar que: , o lo que es lo mismo,

Ahora ya podemos calcular la probabilidad de la misma forma que lo hacíamos en el tema 4 de la unidad anterior:

P(S₁₀ > 80) = P( Z > 1,96) = 1 - 0,9750 = 0,025.

Así que no, no es demasiado probable que entre las 10 personas salgan más de 80 días a pasear en bicicleta.

Sobre un examen de 10 preguntas tipo test, el número de preguntas acertadas sigue una media de 3,3 y una desviación típica de 1,49. ¿Qué distribución sigue la suma de las preguntas acertadas de 40 exámenes? ¿Habrá más de 100 preguntas acertadas entre todos?

Retroalimentación

Imagen de knittymarie bajo licencia Creative Commons

Podemos entender que los 40 exámenes corresponden a 40 alumnos distintos, así, llamamos X₁al número de preguntas acertadas en el primer examen, X₂ al del segundo y así sucesivamente X₄₀ al n.º de respuestas acertadas en el cuadragésimo examen. Todas ellas tienen una distribución de probabilidad de la que sabemos su media es 3,3 y su desviación típica 1,49.

Las variables son independientes, pues el número de respuestas de un examen no influye en el otro.
Las variables son idénticamente distribuidas; tienen todas la misma media y la misma distribución.
La muestra tiene un tamaño suficiente, pues n = 40 y por tanto mayor que 30.

Por tanto, podemos aplicar el Teorema Central del Límite y obtenemos entonces que la variable aleatoria resultante de sumar las puntuaciones de las cuarenta variables sigue una distribución normal de media μ = 40·3,3 = 132 y una desviación típica σ = = 9,42

S₄₀ = X₁ + X₂ +...+ X₄₀ ~ N(132 ; 9,42)

La segunda pregunta nos pide la probabilidad de que entre todos sumen más de 100 preguntas acertadas, luego tenemos que calcular P(S₄₀ > 100).

Como siempre, el primer paso tipificar:

Y por último terminamos calculando la probabilidad haciendo el cambio pertinente con las reglas de cálculo de probabilidades en la distribución normal y buscando la probabilidad en la tabla de probabilidades de la normal N(0,1).

Así que, es prácticamente seguro que se van a superar esas 100 preguntas acertadas.

Actividad de Lectura

En los apartados anteriores has visto que la distribución de la media muestral es ¿Por qué es esto así? Pues fácil, a partir del Teorema Central del Límite.

Fíjate que acabamos de ver que la suma de las n variables, con las condiciones del Teorema, sigue una distribución Normal:

La media y la desviación típica de cualquier variable aleatoria cumplen que si la variable se multiplica por un número real, estos parámetros quedan también multiplicados por dicho número. Por ejemplo, imagina una variable aleatoria A que tenga de media 2 y desviación típica 0,4. La media de la variable aleatoria 3·A sería 3·2, o sea, 6, y la desviación típica 3·0,4 o lo que es lo mismo 1,2.

Bien, pues si recuerdas la fórmula de la media, ésta era , es decir, la nueva variable ΣX_i la dividimos entre el tamaño de la muestra "n", o lo que es lo mismo, la multiplicamos por .

Si aplicamos la propiedad que acabamos de ver, la media muestral cumplirá que:

Media	Desviación típica

Luego efectivamente, se cumple que .

Las poblaciones normales

En el caso de que los datos vengan de una población normal, hemos dicho que es irrelevante el número de datos. No es necesario que haya 30 o más. Esto es debido a la propiedad reproductiva de la distribución Normal.

Esta propiedad nos dice que si hay dos variables aleatorias independientes que siguen distribuciones de probabilidad normales, la suma de ellas es también una distribución Normal con media la suma de las medias y varianza la suma de las varianzas.

Si suponemos que nuestra variable X~N(μ,σ), como cada X_i también tiene esa distribución, la suma de las n observaciones tendrá:

Media	Varianza
μ+μ+...+μ = n·μ	σ²+σ²+...+σ²= n·σ²

Y por tanto la desviación típica sería .

Es por esto entonces por lo que se cumple que sea n el valor que sea y por tanto también, .

Esta propiedad de la reproductividad, es la que se utiliza para justificar también la distribución muestral de la suma de medias y diferencia de medias.

Obra publicada con Licencia Creative Commons Reconocimiento No comercial Sin obra derivada 4.0

« Anterior | Siguiente »

Material creado a partir de contenidos disponibles en la Consejería de Educación de la Junta de Andalucía bajo licencia Creative Commons
Mi especial agradecimiento al profesorado del IEDA por su labor en el desarrollo y mantenimiento de estos materiales
Aníbal de la Torre

5. Teorema central del límite

Importante

Ejemplo o ejercicio resuelto

Retroalimentación

Retroalimentación

AV - Pregunta de Elección Múltiple

Pregunta

Respuestas

Retroalimentación

Solución

Pregunta

Respuestas

Retroalimentación

Solución

Pregunta

Respuestas

Retroalimentación

Solución

Actividad de Lectura

Retroalimentación