Saltar la navegación

1. Correlación de variables

Algunas de las noticias que has podido oír referentes a nuestra historia sobre el cambio climático, han sido, entre otras, las siguientes:

  • La población mundial en el año 2050 aumentará en más de mil millones de personas, y con ello las emisiones de CO2, según datos de la ONU.
  • La Agencia Estatal de Meteorología prevé que la temperatura en España aumentará hasta en 6 ºC en 2100.
  • El nivel del mar podría aumentar hasta un metro para 2100 según científicos australianos.

En este tema veremos que, si entre dos variables de una determinada situación existe cierta relación, podremos hacer previsiones sobre el comportamiento futuro de estas.

    Hemos visto anteriormente que gráficamente podemos observar de manera aproximada la existencia de correlación entre dos variables:

    Nube de puntos Nube de puntos

    Como puedes ver, en ambas la correlación es positiva. Pero, ¿crees que en los dos casos existe la misma dependencia entre las variables? Por lo que se puede apreciar en las gráficas, en el Estudio A la dependencia parece ser más fuerte que en el Estudio B. Por tanto, debe existir alguna forma para medir la correlación.

    A continuación, definiremos dos parámetros, la covarianza y el coeficiente de correlación lineal, que nos servirán para establecer esta medida.

    Importante

    La covarianza de una variable bidimensional \((X,Y)\), que representaremos por \(\sigma_{XY}\), es una medida estadística que se calcula usando la expresión:

    \( \sigma_{XY} = \displaystyle \frac {\sum x_i y_i}{N}-\overline x \overline y\) para tablas sencillas: \(\begin{array} {|r|r|}\hline X &  & & \\ \hline Y & & & \\ \hline \end{array} \)

    \( \sigma_{XY} = \displaystyle \frac {\sum x_i y_j n_{ij}}{N}-\overline x \overline y\) para tablas dobles: \(\begin{array} {|c|c|c|c|}\hline X/Y &  & & &\\ \hline & & & &\\ \hline
    & & & &\\ \hline
    & & && \\ \hline
    \end{array}\)

    El signo de la covarianza nos permitirá saber el tipo de correlación:

    • Si la covarianza es positiva, la correlación será directa.
    • Si la covarianza es negativa, la correlación será inversa.

    Ejercicio 1

    En un estudio sociológico se está analizando el nivel de estudios de la población y el salario mensual de estos. Los datos obtenidos se reflejan en esta tabla:

    \( \begin{array} {|l|c|c|c|c|c|}
    \hline
    X \text {: Nivel de estudios} &1&2&3&4&5 \\
    \hline Y \text {: Ingresos €} &700&940&1120&1300&2180 \\
    \hline
    \end{array}\)

    donde...

    • 1: Sin titulación
    • 2: Estudios secundarios
    • 3: Técnicos de grado medio
    • 4: Bachillerato
    • 5: Técnicos superiores o licenciados.

    ¿Cuál es el valor de la covarianza?

    Ejercicio 2

    A la salida de un restaurante se hace una encuesta en la que se pregunta el número de persona que vienen a comer juntas, X, y la calificación de 1 a 4 que le pondrían al restaurante, Y. Los datos recogidos se han ordenado en la tabla:

    \[\begin{array} {|c|c|c|c|}\hline X/Y &1&2&3&4\\
    \hline
    1&0&1&0&0\\ \hline
    2&2&3&4&1 \\ \hline
    3&2&3&6&1 \\ \hline
    4&0&0&2&0 \\ \hline
    \end{array}\]

    Importante

    Para poder concretar el nivel de correlación que tienen dos variables estadísticas, disponemos del coeficiente de correlación lineal de Pearson. Y para calcularlo, necesitamos conocer el valor de las desviaciones típicas marginales de cada variable \(\sigma_x \text{y} \sigma_y\), ya que su expresión viene dada por:

    \[r=\displaystyle \frac {\sigma_{xy}}{\sigma_x \sigma_y}\]

    El valor del coeficiente de correlación lineal \(r\) siempre será un número comprendido entre -1 y 1 \( ( -1 \le r \le 1 ) \). Su signo nos indicará el sentido de la correlación (positiva o negativa) y mientras más próximo esté su valor a 1 o -1, más fuerte será la correlación.

    Si elevamos al cuadrado el coeficiente de correlación lineal obtenemos el coeficiente de determinación \(r^2\), que determina la calidad del modelo para replicar los resultados. Siempre estará comprendido entre 0 y 1.

    Interpretación: Según el valor de \(r\), la correlación entre las dos variables será:

    • \(r=0\): No existe correlación (correlación nula).
    • \(r=1\): La correlación es perfecta y positiva (correlación funcional positiva).
    • \(r=-1\): La correlación es perfecta y negativa (correlación funcional negativa).
    • \(r\) próximo a \(1\): La correlación es fuerte y positiva.
    • \(r\) próximo a \(-1\): La correlación es fuerte pero negativa.
    • \(r\) próximo a \(0\): La correlación es débil.

    Ejercicio 3

    Calcula el coeficiente de Pearson del ejercicio anterior.

    Ejercicio 4

    Una de las enfermedades que más preocupó y más alarma social creó desde finales de los 80 y la década de los 90 fue el Sida, por lo desconocido, por la inexistencia de medicamentos y vacunas para la enfermedad y por la serie de personalidades famosas de todos los ámbitos que sucumbieron ante dicha enfermedad.

    Tenemos los siguientes datos del comportamiento de esta enfermedad en la provincia de Sevilla. En la siguiente tabla, se muestra el número de casos producidos en la provincia desde el año 92 hasta 2007:

    \[\begin{array}{|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|}
    \hline
    \text{Año}&1992&1993&1994&1995&1996&1997&1998&1999&2000&2001&2002&2003&2004&2005&2006&2007\\
    \hline
    \text{Casos}&141&187&266&273&220&175&140&138&98&111&96&95&67&74&50&22\\
    \hline
    \end{array} \] 

    De manera evidente se ve que el número de casos ha ido disminuyendo a lo largo de los años salvo algunos repuntes, pero, ¿este comportamiento es regular o es un poco aleatorio?

    Ejercicio 5

    Pregunta

    Vamos a resolver la siguiente situación realizando todos los pasos que hemos visto en los ejemplos resueltos:

    En una cofradía de pescadores, las capturas registradas de sardinas, en kilogramos, y el precio de subasta en la lonja, en €/kg, fueron los siguientes: 

    Sardinas (kg) 2000 2400 2500 3000 2900 2800 3160
    Precio (€/kg) 1,80 1,68 1,65 1,32 1,44 1,50 1,20

    ¿Qué relación existe entre el número de kilos capturados y el precio de venta en la lonja?

    1) La media de los kilos de sardinas capturados es:

    Respuestas

    3126 kg

    3024 kg

    2680 kg

    Retroalimentación

    Pregunta

    2) La desviación típica de la variable "kilos capturados" es:

    Respuestas

    269,07 kg

    46,74 kg

    -398,4 kg

    372,02 kg

    Retroalimentación

    Pregunta

    3) La media de la segunda variable, "precio de venta en la subasta del kilo de sardinas es"

    Respuestas

    1,49 €/kg

    1,51 €/kg

    1,53 €/kg

    1,55 €/kg

    Retroalimentación

    Pregunta

    4) La desviación típica de la segunda variable es:

    Respuestas

    0,19 €/kg

    -0.19 €/kg

    2,21 €/kg

    -2,21 €/kg

    Retroalimentación

    Pregunta

    5) La covarianza de la variable bidimensional (X,Y), SXY es:

    Respuestas

    60,78

    269,07 kg

    -142,678

    -70,88

    Retroalimentación

    Pregunta

    6) Si te han salido todos los cálculos anteriores, puedes comprobar que el valor del coeficiente de correlación es 0,97. A raíz de este valor, podemos decir que la dependencia entre las dos variables es negativa y:

    Respuestas

    Fuerte

    Muy fuerte

    Débil

    Muy débil

    Retroalimentación