11
Dpto. Biología-Geología IES Castillo de Cote Cultura científica DOCUMENTO 5 ANÁLISIS DE CORRELACIÓN Cuando se estudian en forma conjunta dos características (variables estadísticas) de una muestra, se dice que estamos analizando una variables estadística bidimensional. La correlación es el grado de relación que existe entre ambas características, y la regresión es la forma de expresar matemáticamente dicha relación (dado dos variables, la correlación nos va a permitir hacer estimaciones del valor de una de ellas conociendo el valor de la otra variables, tal y como veremos). Los diagramas de dispersión son muy útiles para estudiar correlación entre dos variables, entendiéndose por tal, a los planos cartesianos en los que se marcan los puntos correspondientes a los pares ordenados (X,Y) de los valores de las variables. Podemos clasificar la correlación de varias maneras: a) Según la relación entre variables: podemos obtener una correlación lineal, representada con mediante una línea recta; o una correlación no lineal, representada mediante una línea curva. b) Según el número de variables: podemos tener una correlación simple, dónde la variable dependiente actúa sobre la variable independiente; una correlación múltiple, donde la variable dependiente actúa sobre varias variables independientes; o una correlación parcial, donde la relación que existe entre una variable dependiente y una independiente es de tal forma que los demás factores permanecen constantes. c) Según el valor cuantitativo: podemos tener una correlación perfecta, donde el valor del coeficiente de correlación es 1; una correlación imperfecta, donde el coeficiente de correlación es menor a 1; o una correlación nula, donde el coeficiente de correlación es 0, no existiendo por tanto, correlación entre ambas variables. d) Según el signo: podemos tener una correlación positiva, cuando al aumentar o disminuir el valor de una de las variables, aumenta o disminuye también el valor correspondiente de la otra variable; o correlación negativa, cuando al aumentar o disminuir el valor de una variable disminuye o aumenta el valor de correspondiente de la otra variable. Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las dos variables y en qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el grado de asociación entre las variables; el

Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

DOCUMENTO 5

ANÁLISIS DE CORRELACIÓN

Cuando se estudian en forma conjunta dos características (variables estadísticas) de una

muestra, se dice que estamos analizando una variables estadística bidimensional. La correlación

es el grado de relación que existe entre ambas características, y la regresión es la forma de

expresar matemáticamente dicha relación (dado dos variables, la correlación nos va a permitir

hacer estimaciones del valor de una de ellas conociendo el valor de la otra variables, tal y como

veremos).

Los diagramas de dispersión son muy útiles para estudiar correlación entre dos variables,

entendiéndose por tal, a los planos cartesianos en los que se marcan los puntos correspondientes

a los pares ordenados (X,Y) de los valores de las variables.

Podemos clasificar la correlación de varias maneras:

a) Según la relación entre variables: podemos obtener una correlación lineal, representada

con mediante una línea recta; o una correlación no lineal, representada mediante una

línea curva.

b) Según el número de variables: podemos tener una correlación simple, dónde la variable

dependiente actúa sobre la variable independiente; una correlación múltiple, donde la

variable dependiente actúa sobre varias variables independientes; o una correlación

parcial, donde la relación que existe entre una variable dependiente y una independiente

es de tal forma que los demás factores permanecen constantes.

c) Según el valor cuantitativo: podemos tener una correlación perfecta, donde el valor del

coeficiente de correlación es 1; una correlación imperfecta, donde el coeficiente de

correlación es menor a 1; o una correlación nula, donde el coeficiente de correlación es 0,

no existiendo por tanto, correlación entre ambas variables.

d) Según el signo: podemos tener una correlación positiva, cuando al aumentar o disminuir

el valor de una de las variables, aumenta o disminuye también el valor correspondiente

de la otra variable; o correlación negativa, cuando al aumentar o disminuir el valor de

una variable disminuye o aumenta el valor de correspondiente de la otra variable.

Los coeficientes de correlación son medidas que indican la situación relativa de los mismos

sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado

de relación existente entre las dos variables y en qué medida se relacionan. Son números que

varían entre los límites +1 y -1. Su magnitud indica el grado de asociación entre las variables; el

Page 2: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

valor r = 0 indica que no existe relación entre las variables. Por el contrario, los valores +1 o -1

son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o

negativa (al crecer o decrecer X, decrece o crece Y).

Anteriormente, de izquierda a derecha puede observarse tres tipos de correlación:

a) Donde r=0, es decir, no existe relación alguna entre las variables X e Y.

b) Donde r= 0,8; es decir, existe una tendencia clara. Puede observarse como la

“nube de puntos” representada sigue una relación directamente proporcional

(conforme aumenta la variable X también lo hace Y).

c) Donde r=1, es decir, todos los puntos representados “tocan” la recta. Se trata de

una correlación perfecta.

En estas dos últimas gráficas puede observarse, de izquierda a derecha, una correlación

perfecta, cuyo r= -1 (el signo nos indica que las variables son inversamente

proporcionales, es decir, cuando aumenta el valor X disminuye Y) y una correlación donde

r= -0,8; dónde el signo nos indica que es inversamente proporcional y el valor 0,8; que no

se trata de una correlación perfecta, aunque sí fuertemente relacionadas.

Para interpretar el coeficiente de correlación podemos utilizar la siguiente escala:

Page 3: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

VALOR DE “r” SIGNIFICADO

-1 Correlación negativa perfecta

-0,9 a -0,99 Correlación negativa muy alta

-0,7 a -0,89 Correlación negativa alta

-0,4 a 0,69 Correlación negativa moderada

-0,2 a -0,39 Correlación negativa baja

-0,01 a -0,19 Correlación negativa muy baja

0 Correlación nula

0,01 a 0,19 Correlación positiva muy baja

0,2 a 0,39 Correlación positiva baja

0,4 a 0,69 Correlación positiva moderada

0,7 a 0,89 Correlación positiva alta

0,9 a 0,99 Correlación muy positiva muy alta

1 Correlación positiva perfecta

COEFICIENTE DE CORRELACION DE KARL PEARSON

También se le conoce como el coeficiente de correlación producto-momento. Para datos

no agrupados, que será nuestro caso, se calcula aplicando la siguiente ecuación:

siendo “r” el coeficiente de correlación de Karl Pearson.

Veamos un ejemplo ilustrativo de cómo calcular dicho coeficiente de correlación. Para ello,

tenemos dos variables, X e Y, que nos mide la temperatura en una misma ciudad dos días

diferentes, tal y como sigue:

X 18 17 15 16 14 12 9 15 16 14 16 18 SX =180

Y 13 15 14 13 9 10 8 13 12 13 10 8 SY= 138

Para comenzar debemos calcular la media aritmética tal y como sigue:

Page 4: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

Posteriormente, completamos la tabla que sigue:

Finalizamos con la aplicación de la fórmula propuesta con anterioridad:

Se puede observar que existe una

correlación positiva moderada.

Todo este cálculo se hace mucho más fácil con una hoja de cálculo, donde nos bastaría

con introducir en dos columnas diferentes los valores que queremos “comparar” y aplicar la

fórmula “Coeficiente de correlación”, tal y como se observa a continuación:

Page 5: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

Una vez introducido los valores en ambas columnas e insertado el “coeficiente de

correlación”, el programa nos pedirá que indiquemos las celdas que corresponden a cada

variable, tal y como se observa en el siguiente esquema.

(COEF. DE.CORREL (A2:A13;B2:B13): esto nos indica que vamos a relacionar los valores

comprendidos entre las celdas A2 y A13 con aquellos comprendidos entre B2 y B13.

Puede observarse, que el

valor calculado con la hoja de

cálculo es idéntico al

calculado anteriormente de

manera “manual”.

Page 6: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

Podríamos finalizar el análisis de los datos anteriores, realizando un diagrama de

dispersión, para lo cual, volvemos a seleccionar los datos anteriores e insertamos “gráfica de

dispersión”, tal y como se observa a continuación:

Una vez realizado, obtendremos algo parecido a lo siguiente:

Nótese que la “nube de puntos” no sigue un patrón, al menos, claro de tendencia. Este

hecho quedaba previamente patente, ya que ambas variables tenían un coeficiente de correlación

moderado, con un valor “r” de 0,415.

0

2

4

6

8

10

12

14

16

0 5 10 15 20

Series1

Page 7: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

a) Durante el mes de Enero

Las cuatro sesiones del mes de Enero la dedicamos a calcular si existe correlación

entre el tamaño de los huevos y los días necesarios de incubación; realización de la

gráfica de la temperatura de incubación en el laboratorio (con su media incluida) y las

tasas de eclosión, mortalidad infantil y lo que nosotros hemos denominado tasa de

demora. Todo se realiza con una hoja de cálculo.

Durante la primera y segunda sesión, se realiza una introducción teórico-práctica

sobre el cálculo de la correlación entre dos variables, tal y como se observa en el

documento 5. Una vez leído y explicado dicho documento, se realizan las siguientes

actividades:

1.- ¿En qué se diferencia la correlación de la regresión?

2.- ¿Qué tipos de correlación existen según su signo? ¿En qué se diferencian?

3.- Observa las siguientes variables y calcula en cada caso: coeficiente de

correlación (con hoja de cálculo y “manual”) y diagrama de dispersión. Comenta los

resultados.

X 8 16 20 23 42 54 67 70 80

Y 1 2,3 4 4,1 6 8 9,1 11 13

X 5 3 8 19 22 31 14 2 1

Y 2 34 5 6 22 1 65 7 9

4.- Analiza la correlación y la regresión para las variables: “longitud del huevo” y

“días de incubación”. (SE COMENTAN LOS RESULTADOS POSTERIORMENTE)

a) Calcula el coeficiente de correlación con una hoja de cálculos.

b) ¿Qué tipo de correlación se establece?

b) ¿Se observa esa tendencia en la gráfica de dispersión?

Page 8: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

c) Coloca en la gráfica anterior la línea de tendencia, así como su ecuación.

COMENTARIO ACTIVIDAD 4

Para calcular la correlación entre la longitud del huevo y los días de incubación se

deben colocar las dos variables en dos columnas diferentes y buscar la fórmula

“coeficiente de correlación”, tras lo cual, seleccionamos los valores implicados y

observamos el resultado obtenido, tal y como sigue:

Una vez calculado el coeficiente de correlación entre las dos variables

anteriormente señaladas, pasamos a representar gráficamente los resultados

obtenidos, para lo cual, pulsamos el botón “insertar” y posteriormente “gráfica de

dispersión”, tal y como sigue:

Page 9: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

Una vez insertada la gráfica, calculamos la línea de tendencia que nos relacionará

ambas variables como sigue:

Page 10: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

Durante la sesión tercera del mes, realizamos la curva de la temperatura

existente en el laboratorio, para lo cual debemos anotar en una hoja de cálculo la

temperatura medida y el día que corresponde en dos columnas distintas, para

posteriormente, al igual que hemos hecho con la correlación, insertar una gráfica

(dispersión con línea que nos una los puntos) que nos relacione “día” y

“temperatura”. Tras darle el formato deseado se obtiene la siguiente gráfica:

Finalizaremos el mes de Enero (cuarta sesión) calculando como sigue a

continuación la tasa de eclosión y mortalidad infantil. La tasa de eclosión se calcula:

El cálculo de la tasa de eclosión se postergó hasta el mes de Enero porque desconocíamos el tiempo necesario para el desarrollo

embrionario del insecto. Entendemos por tanto, que aquellos huevos que no han eclosionado para estas fechas, ya no lo harán.

La tasa de mortalidad infantil se calcula como sigue:

15

17

19

21

23

25

27

29

13-sep 03-oct 23-oct 12-nov 02-dic 22-dic 11-ene

Te

mp

era

tura

(ºC

)

Page 11: Dpto. Biología-Geología IES Castillo de Cote Cultura científica · También se le conoce como el coeficiente de correlación producto-momento. Para datos no agrupados, que será

Dpto. Biología-Geología IES Castillo de Cote Cultura científica

Al igual que la tasa de eclosión, la tasa de mortalidad infantil se calcula este mes porque la mayoría de los insectos eclosionados ya

han alcanzado para esta fecha un estadio de preadulto o adulto, por lo que, no se pueden producir más muertes en estado de ninfa.