19
1 1 2 3 Guadalupe Ruiz Merino - Curso de Estadística Avanzada CURSO DE CURSO DE ESTAD ESTADÍ STICA AVANZADA STICA AVANZADA Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1 I 1.1 Introducción a la correlación 1.2 Diagramas de dispersión 1.3 Coeficientes de correlación 1.4 Errores de interpretación 1.1 Introducci 1.1 Introducción a la correlaci n a la correlación 1.2 Diagramas de dispersi 1.2 Diagramas de dispersión 1.3 Coeficientes de correlaci 1.3 Coeficientes de correlación 1.4 Errores de interpretaci 1.4 Errores de interpretación SESIÓN 1 CORRELACIÓN SESI SESIÓN 1 N 1 CORRELACI CORRELACIÓN Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 II SESIÓN 2 REGRESIÓN LINEAL SIMPLE SESI SESIÓN 2 N 2 REGRESI REGRESIÓN LINEAL N LINEAL SIMPLE SIMPLE 2.1 Introducción a la regresión 2.2 Modelo de regresión 2.3 Errores comunes de la regresión 2.1 Introducci 2.1 Introducción a la regresi n a la regresión 2.2 Modelo de regresi 2.2 Modelo de regresión 2.3 Errores comunes de la regresi 2.3 Errores comunes de la regresión n 2 Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1 I 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE DISPERSIÓN 1.3 COEFICIENTES DE CORRELACIÓN 1.4 ERRORES DE INTERPRETACIÓN En la mayor parte de los diseños de investigación se trata de descubrir relaciones entre diferentes variables POR EJEMPLO… Un estudio que encuentra concentraciones superiores de anticuerpos entre los sujetos que recibieron las mayores dosis de una vacuna VARIABLES: Concentración de anticuerpos y vacuna RELACIÓN: A mayor dosis de vacuna, mayor concentración de anticuerpos …CONCLUSIÓN: Esta intervención probablemente resulta positiva para la prevención

SESIÓN 1 CORRELACIÓN - ffis.es · II1 2 3 SESIÓN 2 REGRESIÓN LINEAL SIMPLE SESIÓN 2 ... (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la

  • Upload
    lebao

  • View
    224

  • Download
    0

Embed Size (px)

Citation preview

1

1 2 3

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

CURSO DE CURSO DE ESTADESTADÍÍSTICA AVANZADASTICA AVANZADA

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 Introducción a la correlación1.2 Diagramas de dispersión1.3 Coeficientes de correlación1.4 Errores de interpretación

1.1 Introducci1.1 Introduccióón a la correlacin a la correlacióónn1.2 Diagramas de dispersi1.2 Diagramas de dispersióónn

1.3 Coeficientes de correlaci1.3 Coeficientes de correlacióónn1.4 Errores de interpretaci1.4 Errores de interpretacióónn

SESIÓN 1

CORRELACIÓNSESISESIÓÓN 1N 1

CORRELACICORRELACIÓÓNN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IISESIÓN 2

REGRESIÓN LINEAL SIMPLE

SESISESIÓÓN 2N 2REGRESIREGRESIÓÓN LINEAL N LINEAL

SIMPLESIMPLE

2.1 Introducción a la regresión2.2 Modelo de regresión

2.3 Errores comunes de la regresión

2.1 Introducci2.1 Introduccióón a la regresin a la regresióónn2.2 Modelo de regresi2.2 Modelo de regresióónn

2.3 Errores comunes de la regresi2.3 Errores comunes de la regresióón n

2

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

En la mayor parte de los diseños de investigación s e trata de descubrir relaciones entre diferentes variables

POR EJEMPLO…

Un estudio que encuentra concentraciones superiores de anticuerpos entre los sujetos que recibieron las mayores dosis de una vacuna

VARIABLES: Concentración de anticuerpos y vacuna

RELACIÓN: A mayor dosis de vacuna, mayor concentración de anticuerpos

…CONCLUSIÓN:

Esta intervención probablemente resulta positiva para la prevención

2

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

En el ejemplo anterior, estamos suponiendo que se v alora si una variable con varias categorías tiene relación c on otra variable cuantitativa

¿y si queremos relacionar los pesos de unos niños recién nacidos con los pesos de sus madres?

En el ejemplo anterior, estamos suponiendo que se v alora si una variable con varias categorías tiene relación con otra variable cuantitativa Vacunados con altas

dosis/Vacunados con bajas dosis/No vacunadosConcentración de anticuerpos

PERO…

En este caso tenemos dos variables cuantitativasdos variables cuantitativas

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOSUNA PRUEBA DE GRUPOS CON DATOS PAREADOS

Cuando se realiza un diseño experimental con datos pareados tiene sentido:

El estudio de la relación entre las respuestas a lo s dos tratamientos

Estos dos análisis estudian aspectos totalmente dif erentes de las relaciones entre las variables

La comparación de las medias de las respuestas a lo s dos tratamientos

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOSUNA PRUEBA DE GRUPOS CON DATOS PAREADOS

EJEMPLOExperimento con 8 ratas para comparar dossomníferos diferentes T1 y T2

Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicadoa las 8 ratas los dos somníferos . Queremos contestar a las siguientes preguntas:

a ¿Existe una relación entre los efectos de los somníferos T1 y T2?

b ¿Cuál de los dos es más eficaz?

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOSUNA PRUEBA DE GRUPOS CON DATOS PAREADOS

EJEMPLOExperimento con 8 ratas para comparar dossomníferos diferentes T1 y T2

Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicadoa las 8 ratas los dos somníferos . Queremos contestar a las siguientes preguntas:

a ¿Existe una relación entre los efectos de los somníferos T1 y T2?

b ¿Cuál de los dos es más eficaz?

Implica un estudio de relación entre las variables:

Minutos de sueño bajo el somnífero T1

Minutos de sueño bajo el somnífero T2

X

Y

3

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOSUNA PRUEBA DE GRUPOS CON DATOS PAREADOS

EJEMPLOExperimento con 8 ratas para comparar dossomníferos diferentes T1 y T2

Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicadoa las 8 ratas los dos somníferos . Queremos contestar a las siguientes preguntas:

a ¿Existe una relación entre los efectos de los somníferos T1 y T2?

b ¿Cuál de los dos es más eficaz?

Se trata de una relación entre dos variables cuantitativas

Aplicaremos la prueba de independencia

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOSUNA PRUEBA DE GRUPOS CON DATOS PAREADOS

EJEMPLOExperimento con 8 ratas para comparar dossomníferos diferentes T1 y T2

Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicadoa las 8 ratas los dos somníferos . Queremos contestar a las siguientes preguntas:

a ¿Existe una relación entre los efectos de los somníferos T1 y T2?

b ¿Cuál de los dos es más eficaz?

Implica el estudio de la relación entre la variable tipo de tratamiento (X e Y) y la variable tiempo de sueño

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOSUNA PRUEBA DE GRUPOS CON DATOS PAREADOS

EJEMPLOExperimento con 8 ratas para comparar dossomníferos diferentes T1 y T2

Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicadoa las 8 ratas los dos somníferos . Queremos contestar a las siguientes preguntas:

a ¿Existe una relación entre los efectos de los somníferos T1 y T2?

b ¿Cuál de los dos es más eficaz?

Se trata de una relación entre un carácter cualitativo (X e Y) y uno cuantitativo (tiempo)

Aplicaremos la prueba de comparación de dos medias en grupos de datos pareados

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Si trabajamos con dos variables cuantitativas caben dos posibilidades:

Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA)

1

Aplicar las técnicas de correlación o regresión2

4

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Si trabajamos con dos variables cuantitativas caben dos posibilidades:

Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA)

1

Aplicar las técnicas de correlación o regresión2

¡PROBLEMA!:

Perderemos información al tratar como si fueran iguales a todos los sujetos clasificados dentro de una categoría cuando realmente puede existir una amplia variabilidad

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Si trabajamos con dos variables cuantitativas caben dos posibilidades:

Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA)

1

Aplicar las técnicas de correlación o regresión2POR EJEMPLO:

Para estudiar la relacirelaci óón n entre la edad y el perentre la edad y el per íímetro metro de la cinturade la cintura , podría agrupar la edad en <45 y >=45

PERO…

De esa manera trataremos igual a una persona de 90 años que a una de 45

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Si trabajamos con dos variables cuantitativas caben dos posibilidades:

Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar asíel análisis de la varianza (ANOVA)

1

Aplicar las técnicas de correlación o regresión2

VENTAJA:

Aportan respuestas más precisas

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Si trabajamos con dos variables cuantitativas caben dos posibilidades:

Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar asíel análisis de la varianza (ANOVA)

1

Aplicar las técnicas de correlación o regresión2

Pueden parecer métodos similares, pero se trata de dos procedimientos distintos tanto conceptualmente como en sus aplicaciones prácticas

5

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Vamos a desarrollar pruebas estadísticas para estud iar si existe relación o dependencia entre dos caracteres cuantitativos, basadas en el cálculo de un ííndice Rndice R

¿Cuál es la diferencia fundamental entre la prueba de independencia basada en la χχχχ2 y la de la R?

La mayor potencia de la prueba basada en la R, pues to que las variables estudiadas, por ser cuantitativas, co ntienen mayor información que las cualitativas

Es la prueba más potente que existe de relación entre dos variables

¡IMPORTANTE!

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

La finalidad de la correlación es…

Examinar la direcciExaminar la direcci óón y la fuerza de la n y la fuerza de la asociaciasociaci óón entre dos variables cuantitativas n entre dos variables cuantitativas

Lo que nos permite…

� Conocer la “intensidad” de la relación

� Saber si, al aumentar el valor de una variable, aum enta o disminuye el valor de la otra variable

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

EJEMPLOEJEMPLO

“Porcentaje de adultos de cada uno de los 15 países miembros de la UE que consideran que el precio que tienen los alime ntos les influye

a la hora de elegirlos”

Queremos ver si esta percepción tiene relación con el precio que de hecho tienen realmente los alimentos en cada uno de los 15 países

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

EJEMPLOEJEMPLO

En cada país existirán dos variables:

Influencia del precio (segInfluencia del precio (seg úún la encuesta)n la encuesta)

Precio realPrecio real

� La primera aproximación para valorar la asociación entre las dos variables suele ser hacer un diagrama de dispersidiagrama de dispersi óónn

� Con la nube de puntos podemos apreciar si existe un a tendencia entre las variables

6

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

EJEMPLOEJEMPLO

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Además de la prueba de independencia tendremos dos tipos de problemas:

Problemas de correlaciProblemas de correlaci óónn1

Problemas de regresiProblemas de regresi óón n 2

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Además de la prueba de independencia tendremos dos tipos de problemas:

Problemas de correlaciProblemas de correlaci óónn1

Problemas de regresión 2

� Problemas de relación entre dos variables aleatorias

� En este caso R es una estimación del llamado coeficiente de correlación entre las dos variables

� El coeficiente de correlación, además de servir para estudiar la independencia entre las dos variables, mide la intensidad de dicha relación

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Además de la prueba de independencia tendremos dos tipos de problemas:

Problemas de correlaciProblemas de correlaci óónn1

Problemas de regresión 2

� Los problemas de correlación, por ser problemas de relación entre dos variables aleatorias, no permiten dar interpretaciones causales

� Cuando las dos variables aleatorias siguen una distribución normal se demuestra que las líneas que mejor describen la relación entre ellas son las rectas de regresión

7

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

EJEMPLOEJEMPLO

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Además de la prueba de independencia tendremos dos tipos de problemas:

Problemas de correlación1

Problemas de regresiProblemas de regresi óón n 2

� Cuando una de las variables es aleatoria y la otra controlada.

� Es especialmente importante la recta de regresión que permite predecir el valor más probable de la variable aleatoria en función de cada uno de los distintos valores que puede tomar la variable controlada

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓNN

Si se desea medir o cuantificar el grado de asociac ión entre dos variables se debe calcular un coeficiente de correlacicoeficiente de correlaci óón n

Hay dos coeficientes de correlación que se usan fre cuentemente:

El coeficiente de correlaciEl coeficiente de correlaci óón de n de PearsonPearson ((paramparam éétricotrico ))1

El coeficiente de correlaciEl coeficiente de correlaci óón de n de SpearmanSpearman (no (no paramparam éétricotrico ))2

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

CONDICIONES DE APLICACICONDICIONES DE APLICACI ÓÓN DE LA CORRELACIN DE LA CORRELACI ÓÓNN

Variables cuantitativasVariables cuantitativas1

Variables normalesVariables normales2

Variables independientesVariables independientes2

Ambas variables examinadas han de ser cuantitativas

Sólo puede haber una observación de cada variable para cada individuo

Requisito sólo para el coeficiente de Pearson, pero no para el de Spearman

Para las variables ordinales se puede usar el coeficiente de Spearman

8

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

INTERPRETACIINTERPRETACIÓÓN DEL COEFICIENTE DE CORRELACIN DEL COEFICIENTE DE CORRELACI ÓÓNN

Si X e Y son dos variables aleatorias independientes entre sí

Rxy=0

Por tanto si el coeficiente de correlación es distinto de cero

Las variables aleatorias son dependientes

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

INTERPRETACIINTERPRETACIÓÓN DEL COEFICIENTE DE CORRELACIN DEL COEFICIENTE DE CORRELACI ÓÓNN

Supongamos que las variables siguen una distribució n normal

Entonces nos interesa contrastar la siguiente hipót esis:

H0: ρxy=0 H0: Independencia de X e Y

H1: ρxy≠0 H1: Dependencia de X e Y

Valores usuales de significación: α = 0.01, 0.05, 0.1

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

DEFINICIDEFINICIÓÓNN

Un diagrama de dispersión es la forma mforma m áás directa e intuitivas directa e intuitivade formarnos una primera impresión sobre el tipo de relación existente entre dos variables

GrGrááfico en el que una de las variables (fico en el que una de las variables ( XiXi) se ) se coloca en el eje de coloca en el eje de abcisasabcisas , la otra (, la otra ( YiYi) en el de ) en el de ordenadas y los pares (ordenadas y los pares ( xi,yixi,yi ) se representan como ) se representan como una nube de puntosuna nube de puntos

La forma de la nube de puntos nos informa sobre el tipo de relación existente entre las variables

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

ICCÁÁLCULO DEL DIAGRAMA DE DISPERSILCULO DEL DIAGRAMA DE DISPERSI ÓÓN CON EL SPSSN CON EL SPSS

9

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

ICCÁÁLCULO DEL DIAGRAMA DE DISPERSILCULO DEL DIAGRAMA DE DISPERSI ÓÓN CON EL SPSSN CON EL SPSS

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

IREPRESENTACIREPRESENTACIÓÓN DE DIAGRAMA DE DISPERSIN DE DIAGRAMA DE DISPERSI ÓÓN CON EL SPSSN CON EL SPSS

$80.000$60.000$40.000$20.000$0

Salario inicial

$125.000

$100.000

$75.000

$50.000

$25.000

$0

Sal

ario

act

ual

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Además un diagrama de dispersión también puede util izarse como una forma de cuantificar el grado de relacicuantificar el grado de relaci óón lineal n lineal existente entre dos variablesexistente entre dos variables

Basta con observar el grado en el que la nube de puntos se ajusta a una línea recta

PARA ELLO…

SIN EMBARGO…

Utilizar un diagrama de dispersión como una forma de cuantificar la relación entre dos variables no es tan útil como puede parecer en un principio

10

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

¿POR QUÉ?

Esto es debido a que la relación entre dos variable s no siempre es perfecta o nula

Normalmente ni lo uno ni lo otro

Hay nubes de puntos a las que es posible ajustar un a línea recta mejor de lo que es posible hacerlo a ot ras

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

El ajuste de una recta a una nube de puntos no pare ce una cuestión de todo o nada, sino más bien de gradogrado

Se necesita algún índice numérico capaz de cuantifi car ese grado de ajuste

Estos índices numéricos se denominan coeficientes de coeficientes de correlacicorrelaci óónn

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Definimos los dos coeficientes siguientes:

Coeficiente de correlaciCoeficiente de correlaci óón mn m úúltipleltiple1

Coeficiente de correlaciCoeficiente de correlaci óón parcialn parcial2

11

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Definimos los dos coeficientes siguientes:

Coeficiente de correlaciCoeficiente de correlaci óón mn m úúltipleltiple

Coeficiente de correlación parcial

1

2

Indica la relación entre una de las variables y el conjunto de las restantes variables.

EJEMPLOS:

� Coeficiente de Pearson

� Coeficiente de Spearman

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Definimos los dos coeficientes siguientes:

Coeficiente de correlación múltiple1

Coeficiente de correlaciCoeficiente de correlaci óón parcialn parcial2

Indica la relación directa entre dos de las variables, es decir, la correlación entre dos de las variables eliminando el efecto de las restantes variables

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE PEARSONN DE PEARSON

� Es el más utilizado

� Mide la intensidad de la relación entre dos variabl es cuantitativas

� Es un método paramétrico (utiliza para su cálculo la media, la varianza, etc..) por ello requiere criter ios de normalidad para las variables analizadas

� Se conoce simplemente con el nombre de coeficiente de correlación, sin más apellidos

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE PEARSONN DE PEARSON

Puede tomar valores entre -1 y +1…

+1

-1

0

Relación perfecta en sentido negativo

Relación perfecta en sentido positivo

Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación

12

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE PEARSONN DE PEARSON

1 Perfecta

0,5

0,9

0,8

Excelente

Buena

Regular

Mala

Según su valor la relación entre las variables será:

POR EJEMPLO

Hay una correlación perfecta (R=+1) entre el peso medido en libras y el peso medido en kilos

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE PEARSONN DE PEARSON

En relación con la recta de regresión, su valor será mayor cuanto mayor sea la concentración de los puntos alrededor de la línea recta:

+1

-1

0

Los puntos forman una línea recta perfecta creciente

Cuanto más cercanos a 0 sean los valores significaráuna mayor dispersión de los puntos en el gráfico

Los puntos forman una línea recta perfecta decreciente

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE PEARSONN DE PEARSON

Es una medida abstracta que no posee unidades, es adimensional

Se cumplen las siguientes propiedades:

R=0 No existe correlación

Al aumentar una de las variables aumenta la otra

Al aumentar una de las variables disminuye la otra

R>0

R<0

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE PEARSONN DE PEARSON

La expresión matemática para el coeficiente de Pearson parece compleja pero esconde un planteamiento sencillo

R estará próximo a 1 (en valor absoluto) cuando las dos variables x e y estén intensamente relacionadas, es decir, cuando varíen casi enteramente al unísono

A este concepto de variación al unísono se le llama covarianza

Se entiende con facilidad si nos fijamos en que la relacionar una variable consigo misma obtenemos el grado máximo de asociación

13

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

SALIDA DEL COEFICIENTE DE PEARSON SPSSSALIDA DEL COEFICIENTE DE PEARSON SPSS

Correlaciones

Meses desde

el contrato Salario inicial Salario actual Correlación de Pearson 1 -,020 ,084 Sig. (bilateral) ,668 ,067

Meses desde el contrato

N 474 474 474 Correlación de Pearson -,020 1 ,880(**) Sig. (bilateral) ,668 ,000

Salario inicial

N 474 474 474 Correlación de Pearson ,084 ,880(**) 1 Sig. (bilateral) ,067 ,000

Salario actual

N 474 474 474

** La correlación es significativa al nivel 0,01 (bilateral).

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE SPEARMANN DE SPEARMAN

� Es un estimador no paramétrico que se utiliza en aquellos casos donde las variables examinadas no cumplen necesariamente criterios de normalidad

� Como sucede con otros métodos no paramétricos se basa en la sustitución de los valores originales po r sus números de orden o rangos

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE SPEARMANN DE SPEARMAN

Diferencia con el coeficiente de Pearson

El Coeficiente de Spearman no estima específicamente una asociación lineal entre las variables, sino ssóólo una asociacilo una asociaci óón en generaln en general

� En vista de que no todas las relaciones que se encu entran son lineales, el Coeficiente de Spearman debería usarse más

� Además, no requiere supuestos previos sobre la dist ribución de los datos

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN DE SPEARMANN DE SPEARMAN

VENTAJAS

� Es un método no paramétrico y permite la construcción de intervalos de confianza

� Estima el grado de asociación de cualquier tipo, sin exigir que tenga que ser lineal

� Existe otro coeficiente de correlación no paramétric o menos usado que el de Spearman, que se llama tautau de de KendallKendall

� Está especialmente indicado con variables ordinales, pero siempre se puede usar también el de Spearman

14

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

COEFICIENTE DE CORRELACICOEFICIENTE DE CORRELACI ÓÓN PARCIALN PARCIAL

Permiten estudiar la relación existente entre dos v ariables controlando el posible efecto de una o más variable s extrañas

POR EJEMPLO Sabemos que la correlación entre inteligencia y rendimiento escolar es alta y positiva

SIN EMBARGOSi controlamos el efecto de una tercera variable (número de horas de estudio) la correlación entre inteligencia y rendimiento desciende

POR TANTOLa relación entre inteligencia y rendimiento estest áácondicionadacondicionada por la variable número de horas de estudio

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

La correlación se aplica con el objetivo de medir e l grado de grado de asociaciasociaci óónn entre dos variables cuantitativas

¡OJO!

En ningún momento se habla de que una de ellas sea la ““ causacausa ”” y la otra el ““ efectoefecto ””

No es relevante el eje que ocupa cada variable y son intercambiables mutuamente

SONSIMÉTRICAS

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

En la correlación no se distingue la variable depen diente de la independiente

La correlación de “x” con respecto a “y” es la misma que la correlación de “y” con respecto a “x”

En ocasiones pueden aparecer asociaciones fortuitas …

POREJEMPLO

Puede aparecer una alta correlación negativaentre el índice de natalidad nacional y laproducción anual de acero ¡¡¡¡!!!!

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Puede presentarse un “factor no considerado” que acl are nuestros hallazgos

Se trataría de una tercera variable en juego a la q ue se llama factor de confusifactor de confusi óónn

POREJEMPLO

Puede aparecer una correlación inversa entrela ingesta dietética total (calorías consumidas)y el peso corporal

¿Cómo puede ser que los individuos que más calorías consumen estén más delgados…?

15

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Puede presentarse un “factor no considerado” que acl are nuestros hallazgos

Se trataría de una tercera variable en juego a la q ue se llama factor de confusifactor de confusi óónn

POREJEMPLO

Puede aparecer una correlación inversa entrela ingesta dietética total (calorías consumidas)y el peso corporal

¿Cómo puede ser que los individuos que más calorías consumen estén más delgados…?

La explicación proviene de considerar una tercera variable en juego: el nivel de ejercicio el nivel de ejercicio ff íísico mantenido en el tiempo libresico mantenido en el tiempo libre

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

Puede presentarse un “factor no considerado” que acl are nuestros hallazgos

Se trataría de una tercera variable en juego a la q ue se llama factor de confusifactor de confusi óónn

POREJEMPLO

Puede aparecer una correlación inversa entrela ingesta dietética total (calorías consumidas)y el peso corporal

¿Cómo puede ser que los individuos que más calorías consumen estén más delgados…?

La explicación proviene de considerar una tercera variable en juego: el nivel de ejercicio físico mantenido en el tiempo libre

Quienes más calorías consumen son los que más ejercicio físico realizan

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

No basta que un coeficiente de correlación sea de g ran magnitud para considerar que la asociación entre do s variables sea causal…

…sino que hay que mantener una cierta prudencia y p ensar en terceras variables que puedan explicar la asocia ción encontrada

Los coeficientes de correlación miden la asociación entre dos variables, pero no se no se debe confundir una asociacidebe confundir una asociaci óón estadn estad íística stica con una relacicon una relaci óón causan causa --efectoefecto

ENRESUMEN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

A veces se usa la correlación equivocadamente para estimar en qué grado dos sistemas de medida de una misma var iable concuerdan

POREJEMPLO

¿Qué concordancia existe entre el peso que unindividuo declara que tiene y el que realmenteaparece en la báscula cuando se le pesa?

Los coeficientes de correlación estiman la asociaci ón, pero no la concordancia

Si todos se quitasen sistemáticamente, digamos el 1 0% de su peso, la correlación sería perfecta pero la concordancia pero la concordancia entre los dos pesos serentre los dos pesos ser íía muy malaa muy mala

16

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

¡OJO!

Existe el peligro tanto con la correlación, como co n otros procedimientos, de que las observaciones o puntos que se estudien sean sólo una fracción sesgada

Para estimar cuál es el grado de concordancia entre dos observaciones que pretenden medir lo mismo…

…existen otros métodos específicos distintos de la correlación

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 31

I1.1 INTRODUCCIÓN A

LA CORRELACIÓN1.2 DIAGRAMAS DE

DISPERSIÓN1.3 COEFICIENTES DE

CORRELACIÓN1.4 ERRORES DE

INTERPRETACIÓN

En el ejemplo que veíamos al principio de los preci os de los productos en distintos países…..

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IISESIÓN 2

REGRESIÓN LINEAL SIMPLE

SESISESIÓÓN 2N 2REGRESIREGRESIÓÓN LINEAL N LINEAL

SIMPLESIMPLE

2.1 Introducción a la regresión2.2 Modelo de regresión

2.3 Errores comunes de la regresión

2.1 Introducci2.1 Introduccióón a la regresin a la regresióónn2.2 Modelo de regresi2.2 Modelo de regresióónn

2.3 Errores comunes de la regresi2.3 Errores comunes de la regresióón n

2

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II1.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

RECORDATORIORECORDATORIO……

¿PARA QUÉ SIRVE EL ANOVAANOVA?

Para comprobar si una variable con más de dos categorías (“factores”) tiene relación con una segunda variable que es cuantitativa

� A esta segunda variable que supone la respuesta al factor se lellama variable dependientevariable dependiente

�� Pretendemos demostrar que depende de la otra variable (factor)

variable dependiente

El factor es, por lo tanto, la variable independientevariable independiente

variable independiente

2

17

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIRECORDATORIORECORDATORIO……

Hay dos problemas que no se pueden solucionar con el análisis de la varianza:

El ANOVA se queda corto1

Hay factores que tienen tantas categorías que realm ente se parecen más a una variable cuantitativa, o puede qu e nos interese usar como variable independiente una variable que e s cuantitativa

2

Indica si hay o no una asociación estadística entre dos variables, pero no define exactamente cuál es la magnitud de esa relación

¿Cuánto aumenta la variable dependiente por cada unidad de aumento de la independiente?

LA REGRESIÓNVIENE A RESOLVER

ESTOS DOS PROBLEMAS

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II� Como hemos visto, la correlación sirve para medir la fuerza con que están asociadas dos variable cuantitativas

� Esa fuerza se expresa con un númeroCOEFICIENTE DECORRELACIÓN

La regresión sirve para detallar más…

Está dirigida a describir de una manera más completa ccóómo es la mo es la relacirelaci óón entre ambas variablesn entre ambas variables ……

…de tal manera que se puede predecir (con un cierto margen de error) cuál va a ser el valor de una variable una v ez que se sabe el valor de la otra

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IISi la asociación entre ambas variables es débil

Pero cuando la asociación es fuerte…

La regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas

Esta predicción puede ser bastante imprecisa

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IILa regresión supone que hay una variable fija, cont rolada por el investigador y otra variable que no está cont roladaLa regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controladaLa regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada

variable indepediente o predictora

variable de respuesta o depediente

La correlación supone que ninguna ninguna variabevariabe es fijaes fija, las dos están fuera del control del investigador

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

18

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IILa regresión en su forma más sencilla se llama regresiregresi óón n lineal simplelineal simple

TTéécnica estadcnica estad íística que analiza la relacistica que analiza la relaci óón n entre dos variables cuantitativas, tratando de entre dos variables cuantitativas, tratando de verificar si dicha relaciverificar si dicha relaci óón es linealn es lineal

Sin embargo, a diferencia de lo que ocurría con la correlación, ahora no se puede considerar que ambas variables te ngan un papel simétrico

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

IIEn la regresión, cada una de las dos variables dese mpeña una función diferente y en consecuencia tienen una consideración distinta:

A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la ”y”)

A la variable predictora o “causa” se le denomina variable independiente y ocupa el eje de abcisas (eje horizontal)

variable respuesta

variable predictora

Suele ser un factor previamente determinado o una característica más fácil de medir que la que se pretende explicar a partir de ella

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II� La correlación y la regresión tienen distintas fina lidades

� Es bastante raro que esté indicado aplicar simultáne amente ambas técnicas para alcanzar los objetivos de un de terminado análisis estadístico

� Con frecuencia se confunden ambas técnicas y se pie nsa que son una sola

21.1 INTRODUCCIÓN A

LA REGRESIÓN1.2 MODELO DE

REGRESIÓN1.4 ERRORES COMUNES

DE LA REGRESIÓN

ALGUNAS ACLARACIONESALGUNAS ACLARACIONES ……

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

1.1 INTRODUCCIÓN A LA REGRESIÓN

1.2 MODELO DE REGRESIÓN

1.4 ERRORES COMUNES DE LA REGRESIÓN

Medir el grado o fuerza de la asociación entre dos variables cuantitativas

OBJETIVO DE LACORRELACIÓN

A través del coeficiente de correlación

No estima la bondad del ajuste de unos datos a un modelo

Buscar la línea que mejor se ajusta a los puntos

OBJETIVO DE LAREGRESIÓN

19

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

1.1 INTRODUCCIÓN A LA REGRESIÓN

1.2 MODELO DE REGRESIÓN

1.4 ERRORES COMUNES DE LA REGRESIÓN

EJEMPLOEJEMPLO

El ejemplo más intuitivo es ccóómo se relacionan la talla y la edadmo se relacionan la talla y la edad

Por cada incremento de edad (por lo menos hasta los 25 años) se produce un incremento de altura. Es decir…

y = a + b*x

constante llamada ordenada en el origenordenada en el origen

(en nuestro caso: cuánto mediría un recién nacido)

pendientependiente: incremento de y por cada unidad de incremento de x

(en nuestro caso: cuántos centímetros crece un niño al año)

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

1.1 INTRODUCCIÓN A LA REGRESIÓN

1.2 MODELO DE REGRESIÓN

1.4 ERRORES COMUNES DE LA REGRESIÓN

EJEMPLOEJEMPLO

Sin embargo, a pesar de ser este un modelo de fácil comprensión,tiene errores…

Nunca será posible hacer predicciones perfectaspredicciones perfectas de la estatura que tendrá un niño una vez que se conoce su edad

Aunque la edad tiene un efecto importante sobre la estatura, este efecto está afectado por un cierto grado de variabilidad aleatoriavariabilidad aleatoria

Guadalupe Ruiz Merino - Curso de Estadística Avanzada

1 2 3

II2

1.1 INTRODUCCIÓN A LA REGRESIÓN

1.2 MODELO DE REGRESIÓN

1.4 ERRORES COMUNES DE LA REGRESIÓN

EJEMPLOEJEMPLO

Las observaciones de dos variables no suelen trazar una línea rectaperfecta sino que existe un cierto grado de dispersión entornoa una imaginaria línea recta que los atravesaría por el centro

y = a + b*x + e error residualerror residual: expresa el desajuste de los datos respecto al modelo lineal

e

� es una cantidad variable de un sujeto a otro y pued e ser positiva o negativa

� equivale a lo que habría que añadir o quitar a la p redicción que hace el modelo para que coincida exactamente co n lo observado en cada sujeto