10
Epidemiología 17 Aclaraciones 2004 en la última página REGRESIÓN NO LINEAL Y MÚLTIPLE CONCEPTOS PREVIOS: A la hora de analizar variables, puedo hacerlo de forma independiente (univariante) o conjuntamente (multivariante). Para este último, los modelos de regresión son los más usados. Tipos de modelos de regresión : lineal (simple o múltiple), logística y análisis de la Supervivencia. Antes de introducirnos en el tema de la clase, haremos un pequeño recuerdo de la regresión lineal simple : La estadística trata de relacionar variables y cuantificar la relación entre ellas. En la regresión lineal simple se relacionan dos variables. Generalmente estas variables no tienen el mismo peso, es decir, que no son igual de importantes: una es más fácil de medir o identificar (variable independiente) y es causa de la otra (variable dependiente). El análisis de regresión es útil para determinar la posible forma de relación entre dos variables cuantitativas que siguen una distribución normal, y por tanto, se puede usar para hacer predicciones o estimar el valor de una variable que corresponde para un valor de otra. Ej: si conocemos la relación entre las variables semanas de gestación/peso de RN, podríamos estimar el valor de una de ellas (peso) que correspondería a un determinado valor para las semanas de gestación que conocemos. En este análisis disponemos de dos variables de interés, x e y: Variable x = variable independiente, predictora o explicativa. Es controlada por el investigador (en el ejemplo anterior serían las semanas de gestación ). Variable y = variable dependiente, respuesta o explicada. La relación entre ambas variables sigue un modelo o ecuación lineal: y = f(x); y = a + bx. (ecuación de una recta ) 1

EpiClin17 2005-Regresion I

Embed Size (px)

DESCRIPTION

EpiClin17 2005-Regresion I

Citation preview

Page 1: EpiClin17 2005-Regresion I

Epidemiología 17Aclaraciones 2004 en la última página

REGRESIÓN NO LINEAL Y MÚLTIPLE

CONCEPTOS PREVIOS:A la hora de analizar variables, puedo hacerlo de forma independiente (univariante) o conjuntamente (multivariante). Para este último, los modelos de regresión son los más usados.Tipos de modelos de regresión: lineal (simple o múltiple), logística y análisis de la Supervivencia.

Antes de introducirnos en el tema de la clase, haremos un pequeño recuerdo de la regresión lineal simple:

La estadística trata de relacionar variables y cuantificar la relación entre ellas. En la regresión lineal simple se relacionan dos variables. Generalmente estas variables no tienen el mismo peso, es decir, que no son igual de importantes: una es más fácil de medir o identificar (variable independiente) y es causa de la otra (variable dependiente).

El análisis de regresión es útil para determinar la posible forma de relación entre dos variables cuantitativas que siguen una distribución normal, y por tanto, se puede usar para hacer predicciones o estimar el valor de una variable que corresponde para un valor de otra. Ej: si conocemos la relación entre las variables semanas de gestación/peso de RN, podríamos estimar el valor de una de ellas (peso) que correspondería a un determinado valor para las semanas de gestación que conocemos.

En este análisis disponemos de dos variables de interés, x e y:Variable x = variable independiente, predictora o explicativa. Es controlada por el investigador (en el ejemplo anterior serían las semanas de gestación ).Variable y = variable dependiente, respuesta o explicada.

La relación entre ambas variables sigue un modelo o ecuación lineal: y = f(x); y = a + bx. (ecuación de una recta )

OBJETIVOS DEL PROCEDIMIENTO DE REGRESIÓN:

- Estudiar relaciones entre variables.- Determinar el tipo de función matemática que relaciona de manera óptima

las variables.

1

Page 2: EpiClin17 2005-Regresion I

- Realizar las predicciones de la variable dependiente a partir de datos de la independiente.

- Pretender explicar el comportamiento de una variable a través de otra.

PROCEDIMIENTOS OPERATIVOS PARA LLEGAR A LOS OBJETIVOS: Condiciones previas a hacer el modelo

1.- Calcular los parámetros de regresión: ver si las dos variables están relacionadas.

Calculamos el coeficiente de correlación lineal de Pearson ( R ), que debe ser significativo, pero además debe ser un buen coeficiente de correlación (>0’7, luego veremos por qué 0’7) pues la significación es necesaria pero no suficiente.

Calculamos los coeficientes de regresión: a = representa el punto en el que la recta corta al eje verticalb = es la pendiente de la recta, e indica cuántas veces cambia el valor de y en función

de x ( así sé el peso que tiene la variable x para calcular la y ). b tiene que ser significativo, y esto va arrastrado por R que al ser significativo hace que b también lo sea.

Ho = hipótesis nula, indica que no hay relación entre las variables y ocurre cuando b = 0H1=hipótesis alternativa, indica que existe relación entre las dos variables, así que b ≠ 0.

Para conseguir el mejor modelo se utilizan dos procedimientos: - Procedimiento de ajuste de mínimos cuadrados. Es un modelo matemático que

trata de hacer mínimas las distancias entre el valor experimental y el teórico del modelo. Sirve para pasar de una nube de puntos a una recta.

- Distancia mínima = dispersión mínima.

Hay que tener en cuenta que como todo procedimiento estadístico, debe tener una medida de error, por eso todos los modelos deben acompañarse de una determinada significación ( error estándar ) tanto para la pendiente de la recta como para la ordenada en el origen. El error estándar de las variables se llama error estándar de los residuos, e indica la separación existente entre el valor teórico y el experimental. Es importante asegurarse de que los residuos sean pequeños.

Se determina el error estándar de los residuos o varianza residual. Llevados a la ecuación permiten hallar el error estándar de la recta.

Puesto que cada punto tiene un error, ya no nos sale una recta sino una banda de confianza. Esta banda de confianza se caracteriza por no ser fija: a medida que nos alejamos del punto central ( nuestro valor experimental ) hay más puntos predictivos y el error sería mayor.

2.- Cálculo de la calidad del modelo y la varianza de los resultados.

Después me planteo si la calidad del modelo es suficiente para hacer estimaciones ( el valor medio de y, es un valor estimado, existe una cierta dispersión que debe ser pequeña para que exista una buena bondad de ajuste )

Para ellos se calcula el coeficiente de determinación ( R2 ) o % de varianza que explica el modelo, que para el modelo lineal simple coincide con el coeficiente de correlación de Pearson al cuadrado. Mide la intensidad de la relación lineal entre dos variables cuantitativas ( es decir, nos está diciendo si el modelo que hemos hallado tiene una buena relación, y si hay o no mucho residuo ).

2

Page 3: EpiClin17 2005-Regresion I

En un modelo con ajuste ideal R =± 1, hay una relación perfecta entre x e y. Todos los puntos están en una recta, no hay residuo. El modelo teórico explica perfectamente el modelo experimental. Se considera un modelo con una bondad de calidad de ajuste suficiente cuando R2 ≥ 0,5 (lo menos que puedo pedir es que el modelo sea explicado al 50% o dicho de otro modo, que explique lo mismo que deja de explicar), así a partir de R = 0,7 (R2 = 0,49). Por eso decíamos antes que R, a parte de ser significativo, debía de ser > 0’7.

De todas formas, el concepto de coeficiente de determinación va más allá del mero R2, pero es que en nuestro caso concreto de R. lineal coincide con R2 porque (0’7)2 = 0’49 que sería el 50%.

Pero antes de todo debemos comprobar la homogeneidad de las dispersiones de los datos, y esto se hace con un análisis de la varianza de donde sale el valor F de Snédécor, si este valor supera el valor de la tabla de Snédécor, la desproporción resulta excesiva para ser atribuida al azar y las dispersiones difieren de una forma estadísticamente significativa con p < 0,05.

Por el contrario un modelo malo no explica toda la dispersión de los datos y R2

se aproxima a cero.Lo normal es que haya parte que no explica el modelo, y que se explique por el

azar ( dispersión residual = DR ) y por tanto se puede cuantificar la dispersión del modelo ( dispersión factorial = DF ) frente a la dispersión total ( DT ).

R2 = DF /DT

3.- Comprobar la validez teórica del modelo.

Pero podemos tener un modelo que cumpla las condiciones de significación y tener un coef, de determinación adecuado (0’55% por ejemplo) y sin embargo vemos que solamente se explica el 55% de la varianza en función de la var. Explicativa o indpte. Esto quiere decir que hay otros factores determinantes de y que no han sido tenidos en cuenta. Los residuos totales (todos los resultados experimentales) se deben distribuir aleatoriamente siguiendo una distribución normal con media = 0 para que el modelo sea perfecto; si no ocurre así, habrá factores no tenidos en cuenta.

REGRESIÓN MÚLTIPLECon la Regres. Múltiple nuestra idea es introducir más variables para intentar

explicar lo que queda por explicar; para ello deberemos ser más exigentes con R2.En la clínica es difícil que con una variable sólo se pueda predecir otra ( tendría que

existir mucha relación ). Lo ideal sería tener muchas, aunque luego se pongan unas en función de otras. En el modelo de regresión múltiple hay varias variables independientes ( x1, x2, x3 ..... xp )

Este modelo responde a y = a + b1x1 + b2x2 + ......+ bpxp. De tal forma que ya no será una recta, sino un plano o un hiperplano.

Para conseguir la regresión múltiple también se utiliza el modelo de mínimos cuadrados.

Debo plantearme la significación y la calidad de ajuste del modelo ( igual que en la regresión simple ) :

Si b = 0, no significativo ( b1 = b2 = b3 ..... = bp = 0) ( Ho )Si b ≠ 0, significativo ( H1, que será múltiple )Necesito hacer también un análisis multivarianza para calcular la F de

Snedecor, para ver que sea significativo globalmente.

3

Page 4: EpiClin17 2005-Regresion I

Aunque el modelo sea significativo, no significa que el valor de todos los coeficientes ( b ) sea significativo –pues conque uno lo sea, el modelo lo será también-, y es importante saber cuál no lo es porque entonces no aportaría casi nada; esto se sabe por el estadístico de Wald que tiene distribución t de student. Es importante tener en cuenta que si elimino alguna variable, los coeficientes de las otras cambian.

Lo más importante en la regresión múltiple es conocer:1.- Coeficiente de regresión ( a, b ) : Determina el peso de cada variable.2.- Coeficiente de correlación ( R ) : Son variables múltiples, pero siguen siendo lineales. Con dos variables este coeficiente es único, pero con más de dos existen distintos coeficientes de correlación:

- Coeficientes de correlación simples : Ryx1, Ryx2

- Coeficientes de correlación parciales: se pueden establecer por parejas- Coeficiente de correlación múltiple global- Coeficientes de regresión: b1, b2 ,b3...... bp

- Coeficiente de determinación múltiple= coeficiente de correlación múltiple al cuadrado. R2 = Df /Dt

MODELOS DE REGRESIÓN MÚLTIPLE:1. R, Lineal múltiple2. R. Logística3. R. de Cox

RLM RLOG RCOXVar. Dependiente Continua Dicotómica Tiempo hastaÍndice que explican b

(pendiente de la recta)OR HR

(similar al OR)

Calidad del modelo R2 Clasificación -2LL(log de la verosimilitud)

REGRESIÓN LINEAL MÚLTIPLEVARIABLES: respuesta (cuantitaiva continua) y la explicativa (son múltiples y pueden ser cuantis –preferentemente- o dicotómicas).SELECCIÓN DE VARIABLES

- ¿ Cuántas ? Se recomienda n/p 10, siendo n = tamaño muestral, p = nº variables.

- ¿ Cuáles ? Se elegirán aquellas variables que tengan aceptable significación, aportación al modelo y multicolinealidad (que estén poco relacionadas, porque si lo están mucho se repite la información y se pierde viabilidad).

- Método de selección. Hay dos opciones:

1.- Modelo ENTER: Incluye todas las variables posibles en el modelo. Se utiliza cuando no se tiene muy claro qué variables se quieren.

2.- Selección por ETAPAS: no nos interesan todas, sino las mejores. Tiene tres variantes:- BACKWARD: partimos de toda las variables posibles y eliminamos las no

significativas.- FOWARD: partimos de pocas variables y vamos añadiendo. Se introducen

las más significativas hasta llegar a una que no lo sea ( se introducen de más a menos significativa )

- STEPWIDE ( paso a paso ) : es el que más se utiliza. Empieza con un número determinado de variables y en cada caso replantea el modelo para

4

Page 5: EpiClin17 2005-Regresion I

decidir si se vuelve a introducir una variable que se sacó en el paso anterior o si se saca una que se introdujo previamente ( una variable puede dejar de ser importante al introducir otra o pasar a serlo ). Se diferencia de los anteriores en que se replantea el modelo en cada paso.

INFORMACIÓN OBTENIDA CON EL SPSS ¿ Cómo saber si el modelo está bien calculado cuando sale por un método informático o

nos lo dan hecho ? Hay que fijarse en lo siguiente :

Modelo ENTER:- Valor de F de Snédécor para significación del modelo. F es el cociente de varianzas.

Mide la dispersión y está íntimamente relacionado con R2.- Coeficiente de regresión y su significación.- Valores de β ( transformación del coeficiente de regresión ajustado a otras

variables )

Modelo con algunas variables:- Información anterior sobre las variables que constituyen el modelo.- Información sobre las variables que no entran en el modelo:

- Coeficiente de correlación parcial con la variable dependiente, eliminando la influencia de los valores independientes que ya están en el modelo.

- Valores de β y significación con el coeficiente de regresión- Tolerancia : % de la varianza de cada variable independiente que no está

explicada por las otras variables independientes que ya forman parte del modelo. La tolerancia es el complementario del coeficiente de determinación ( R2 ), y se puede calcular para cada coeficiente de determinación parcial ( 1 – Rx1

2, tolerancia parcial ). En criterios de selección de variables, no siempre se elige la que más relacionada está, a veces se elige la de mayor tolerancia.

Siempre se puede forzar que una variable entre en el modelo aún no siendo significativa ( simplemente porque nos interesa, porque sale mucho en la literatura ... )

CALIDAD: Se determina mediante R2. El R ajustado es un patrón de calidad que no depende del número de variables introducidas. Un R2 bajo no necesariamente indica que las variables seleccionadas no permitan estimar adecuadamente la var respuesta; es posible que la relación no sea lineal.

REGRESIÓN NO LINEALExisten fenómenos biológicos donde la relación no es una línea recta, así no

existe coeficiente de correlación de Pearson, pero existe relación y se puede hacer un modelo de relación que no es lineal. Debo plantearme la significación y la calidad de ajuste del modelo, y aunque no existe R, sí que existe el coeficiente de determinación :

R2 = Df /Dt 0,05

Así puedo hacer varios modelos ( lineales y no lineales ) y elijo el de mayor R 2; si existe poca diferencia elijo el lineal que es más fácil de usar que por ejemplo que un modelo exponencial. Es importante saber que el análisis multivariante y la regresión múltiple se hacen siempre en modelos lineales.

5

Page 6: EpiClin17 2005-Regresion I

Aclaraciones (2004)

Si existe un orden de prioridad entre distintas variables, entonces hablamos de REGRESIÓN. Toda la información no tiene el mismo nivel de importancia. P.e., queremos saber qué pasa con PA, se relaciona con la edad, dosis fármaco, duración del tratamiento... lo que quiero saber es el efecto de cada una de ellas sobre la PA y cuál influye más.

a) Regresión SIMPLE. Existen sólo 2 variantes: una variante RESPUESTA (PA) y otra que influye sobre ella (p.e. dosis de fármaco)

Se representa con una recta: y=a+bx, donde b es el coefiente de la variable independiente (coeficiente de regresión) y permite estimar el “peso” que tiene la variable independiente sobre la dependiente, dicho de otro modo, lo que influye la dosis de fármaco en los niveles de PA.

El modelo ha de ser: 1. significativo. Se expresa con la f de Snedecor2. garantizar una buena calidad de ajuste. Se mide con el coeficiente de

determinación (R²). Un modelo es bueno si R² es alto (lo más alto posible), siendo el máximo 1, debe ser al menos 0,5. Es decir, si R² está entre 0,5 y 1 podemos decir que el modelo tiene buena calidad de ajuste.

3. además hay que saber el intervalo de confianza del coeficiente de la variable independiente (coeficiente de regresión), o dicho de otra manera, el intervalo de confianza de b, en y=a+bx.

b) Regresión lineal MÚLTIPLE. Existen más de 2 variantes, con distinta importancia. Hay más variables independientes que se relacionan con la dependiente (y).

Entonces hay varios coeficientes de dispersión, uno por cada variable. Tendremos un modelo global significativo, pero con distintos coeficientes de dispersión, a su vez con distintos intervalos de confianza y calidades de ajuste.

Para poder utilizar este modelo las variables han de ser CUANTITATIVAS (medibles) y seguir la distribución NORMAL (esto quiere decir seguir la distribución de Gauss). Este punto es importante porque si no se cumplen estas dos premisas, estamos usando mal el modelo y el resultado no sería válido.

Esto que parece tan complicado, en realidad lo hace solito el ordenador. Ese es el punto de los apuntes “SELECCIÓN DE VARIABLES” , donde lo que explica es las distintas maneras de usar el ordenador para ir seleccionando variables significativas (hacia delante, hacia atrás), para el final quedarte con un modelo matemático que explique la relación de la PA, con todas las variables que has considerado (edad, dosis de fármaco, duración del tratamiento, etc.) seleccionando las más significativas, y desechando las que no lo son.

6