20
Guión Práctica III REGRESIÓN LINEAL MÚLTIPLE _____________________________________________________________________________ III.0. Archivos implicados en este guión (tipo) Tiempo_Recuperacion (SPSS). Insuficiencia_Renal (SPSS). III.1: Análisis con todas las variables: Actividad 1 Se desea determinar de qué depende el tiempo (y) que tarda una rata en recuperar su tensión arterial tras la administración de una droga hipotensora. Se sabe que hay al menos dos factores que pueden influir sobre dicho tiempo la dosis empleada (es de esperar que a mayor dosis, mayor tiempo de recuperación) y la presión sistólica media que la rata ha tenido durante la hipotensión (pues el efecto de la droga dependerá de la situación inicial de cada rata). El objetivo es conocer el efecto conjunto de las dos variables sobre el tiempo de recuperación. Los datos están en el archivo Tiempo_Recuperacion (que no recoge la dosis, sino el logaritmo de la dosis, pues de lo contrario surgen problemas con el modelo). ¡Es el mismo ejemplo de clase la interpretación de sus resultados es como allí! Notas previas Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la variable a predecir (y) es el “tiempo de recuperación” (tiempo), las variables de apoyo (x i ) son el “logaritmo de la dosis” (ldosis) y la “presión sistólica media” (presión). El objetivo es analizar el problema empleando la ecuación de regresión “tiempo = + 1 (ldosis) + 2 (presión). Para aplicar el modelo es preciso verificar las condiciones de aplicación del mismo: Normalidad + Linealidad + Homogeneidad de Varianzas ( + No Interacción). Petición de resultados: ventana principal Pulsando Analizar Regresión Lineales..., se abre la ventana general de la regresión lineal múltiple de abajo (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (tiempo) a la caja de Dependientes (variable y) y las variables ldosis y presión a la caja de Independientes (variables x 1 y x 2 ). Adicionalmente, pulsando en la caja Método se despliega la ventana de abajo (derecha). En ella se ha seleccionado Introducir a fin de ajustar el modelo con todas las variables que se pusieron en el cajón de Independientes. Más adelante se ilustrará la opción Pasos suc. (método paso a paso ascendente ). Petición de resultados: botones

Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

  • Upload
    others

  • View
    39

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

Guión Práctica III

REGRESIÓN LINEAL MÚLTIPLE _____________________________________________________________________________

III.0. Archivos implicados en este guión (tipo)

Tiempo_Recuperacion (SPSS). Insuficiencia_Renal (SPSS).

III.1: Análisis con todas las variables: Actividad 1

Se desea determinar de qué depende el tiempo (y) que tarda una rata en recuperar su tensión arterial tras la administración de una droga hipotensora. Se sabe que hay al menos dos factores que pueden influir sobre dicho tiempo la dosis empleada (es de esperar que a mayor dosis, mayor tiempo de recuperación) y la presión sistólica media que la rata ha tenido durante la hipotensión (pues el efecto de la droga dependerá de la situación inicial de cada rata). El objetivo es conocer el efecto conjunto de las dos variables sobre el tiempo de recuperación. Los datos están en el archivo Tiempo_Recuperacion (que no recoge la dosis, sino el logaritmo de la dosis, pues de lo contrario surgen problemas con el modelo).

¡Es el mismo ejemplo de clase la interpretación de sus resultados es como allí!

Notas previas

Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la variable a predecir (y) es el “tiempo de recuperación” (tiempo), las variables de apoyo (xi) son el “logaritmo de la dosis” (ldosis) y la “presión sistólica media” (presión).

El objetivo es analizar el problema empleando la ecuación de regresión “tiempo = + 1(ldosis) + 2(presión).

Para aplicar el modelo es preciso verificar las condiciones de aplicación del mismo: Normalidad + Linealidad + Homogeneidad de Varianzas ( + No Interacción).

Petición de resultados: ventana principal

Pulsando Analizar Regresión Lineales..., se abre la ventana general de la regresión lineal múltiple de abajo (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (tiempo) a la caja de Dependientes (variable y) y las variables ldosis y presión a la caja de Independientes (variables x1 y x2).

Adicionalmente, pulsando en la caja Método se despliega la ventana de abajo (derecha). En ella se ha seleccionado Introducir a fin de ajustar el modelo con todas las variables que se pusieron en el cajón de Independientes. Más adelante se ilustrará la opción Pasos suc. (método paso a paso ascendente).

Petición de resultados: botones

Page 2: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

22 Análisis Estadístico con Ordenador de Datos Médicos

En la parte inferior aparecen cuatro botones. Cada uno de ellos despliega una ventana de la que se sale

pulsando cuando se la haya rellenado convenientemente.

El botón despliega la ventana de más abajo (izquierda) que ya está rellenada en lo que interesa: Estimaciones (premarcada): para obtener las estimaciones puntuales de los parámetros del modelo +

sus errores estándar + el test de que son significativamente distintos de cero. Ajuste del modelo (premarcada), para obtener el coeficiente de determinación (corregido y no-

corregido). Intervalos de confianza (marcada de modo adicional) para obtener los intervalos de confianza de los

parámetros del modelo.

El botón no lo vemos.

El botón despliega la ventana de más abajo (derecha) con dos casillas ya marcadas: Valores pronosticados No tipificados (predicciones y) y Residuos No tipificados (residuos y y ). Esto obliga a SPSS a calcular tales valores en todos los individuos y a mostrarlos como nuevas variables que se añaden al final del archivo de datos de trabajo (PRE_1 y RES_1 respectivamente).

El botón muestra la ventana de más abajo (que dejamos como está). En ella se especifican los valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) típicos del procedimiento por pasos (que no es el del caso actual), así como que se desea que la ecuación a ajustar contenga el término a = altura en el origen (casilla Incluir constante en la ecuación). Si se desmarca esta última casilla, SPSS ajustará la ecuación y = ixi; como está marcada, ajustará lo tradicional: y = + ixi.

Tras todo ello, una vez regresados a la ventana principal, se pulsa para que SPSS responda a todo lo solicitado

Page 3: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 23

Resultados: interpretación y análisis de los mismos

La primera salida de SPSS es la tabla de abajo: indica las variables implicadas y el método elegido. Variables introducidas/eliminadas(b)

Modelo Variables

introducidas Variables

eliminadas Método 1 Presión

sistólica media,

Logaritmo de la dosis(a)

. Introducir

a Todas las variables solicitadas introducidas b Variable dependiente: Tiempo de recuperación

A continuación aparece el resumen que sigue, especificando los valores de R y R2 (corregido = 0,170 o no = 0,202) que, siendo similares, indica que el no corregido estima bien.

Resumen del modelo

Modelo R R cuadrado R cuadrado corregida

Error típ. de la estimación

1 ,449(a) ,202 ,170 14,83776 a Variables predictoras: (Constante), Presión sistólica media, Logaritmo de la dosis

La tercera tabla presenta el análisis de la varianza del test global, H0 1 = 2 = … = K=0 (independencia global)

H1 “En alguna ocasión i 0” (dependencia global). que en nuestro caso P = 0,004 rechazar la hipótesis nula concluir que al menos una de las dos variables está asociada con la variable dependiente. Si el test no diera significativo ninguna variable está asociada con la dependiente y el problema finaliza. ANOVA(b)

Modelo Suma de

cuadrados gl Media

cuadrática F Sig. Regresión 2783,220 2 1391,610 6,321 ,004(a) Residual

11007,949 50 220,159

1

Total

13791,170 52

a Variables predictoras: (Constante), Presión sistólica media, Logaritmo de la dosis

Page 4: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

24 Análisis Estadístico con Ordenador de Datos Médicos

b Variable dependiente: Tiempo de recuperación

La penúltima tabla que aparece (la última no interesa) es la de más abajo, la cual especifica lo siguiente (no se comenta la columna “Coeficientes estandarizados” pues no se la ha estudiado en clase): Fila 1: El estimador de (la altura en el origen) es a = 23,011, con un intervalo de confianza de

13,716 a 59,737 (al 95%) que contiene al 0 (lo que indica que es posible que α = 0). Esto se ve corroborado por el contraste de hipótesis para H0 ≡ α = 0, que da un valor P = 0,214 > 0,05 concluir H0 es aceptable un modelo sin término independiente. Como este no era el problema actual, el resultado no tiene interés.

Fila 2: El estimador de 1 (el coeficiente del “Logaritmo de la dosis”) es b1 = 23,639, con un intervalo de confianza de 9,884 a 37,393 (al 95%) que no contiene al 0 (lo que indica que 1 0). Esto se ve corroborado por el contraste de hipótesis para H0 ≡ β1 = 0, que da un valor P = 0,001 0,05 rechazar H0 para presiones fijadas, existe asociación entre la dosis y el tiempo la dosis añade información extra acerca del tiempo sobre la proporcionada por la presión.

Fila 3: Proporciona datos similares a los de la Fila 2, pero ahora para la variable “Presión sistólica media”, que también resulta ser significativa.

Como consecuencia de todo ello, tanto la dosis como la presión son relevantes para predecir el tiempo (no pudiéndose omitir ninguna de ellas sin una pérdida relevante de información).

Coeficientes(a)

Modelo Coeficientes no estandarizados

Coeficientes estandarizados t Sig.

Intervalo de confianza para B al 95%

B Error típ. Beta Límite inferior

Límite superior

1 (Constante) 23,011 18,285 1,258 ,214 -13,716 59,737 Logaritmo de

la dosis 23,639 6,848 ,494 3,452 ,001 9,884 37,393

Presión sistólica media

-,715 ,301 -,339-

2,371,022 -1,320 -,109

a Variable dependiente: Tiempo de recuperación

Verificación del modelo

Otro de los resultados que se solicitaron fueron las Predicciones y los Residuales. Si se observa el archivo de datos, al final del mismo aparecen estas dos variables: PRE_1 y RES_1 respectivamente (el 1 alude a que son los 1os valores solicitados (si se solicitara otra regresión también daría PRE_2 y RES_2).

Según se vio en las clases de teoría hay que verificar el modelo, lo que exige verificar lo siguiente: Normalidad: la variable y tiene que ser al menos continua: el “tiempo” lo es. Homogeneidad de varianzas: graficar RES_1 (eje y) vs. PRE_1 (eje x). Linealidad: graficar RES_1 (eje y) vs. ldosis (eje x) + RES_1 (eje y) vs. presión (eje x). No interacción: graficar RES_1 (eje y) vs. (ldosis)(presión) (eje x).

Lo último exige determinar la nueva variable (ldosis)(presión) = dp. Para ello (como se vio en la Troncal) hay que ejecutar Transformar Calcular variable hasta que aparezca la pantalla de más abajo que hay

que rellenar como se indica. Tras pulsar la variable queda creada al final del fichero.

La gráfica aludida en “Homogeneidad de varianzas” se obtiene como en la Troncal: Gráficos Cuadros

de diálogo antiguos Dispersión/Puntos Dispersión simple hasta que aparezca la

pantalla de más abajo que hay que rellenar como se indica. Tras pulsar SPSS sacará la gráfica solicitada en el Visor de Resultados: gráfica (a) de la siguiente página.

Las otras tres gráficas -“Linealidad en Dosis” gráfica (b), “Linealidad en Presión gráfica (c) y “No interacción” gráfica (d)- se obtienen de modo similar. Todas las gráficas se comentan al pié de ellas.

Page 5: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 25

La conclusión es que el modelo analizado en todo lo anterior es aceptable.

Page 6: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

26 Análisis Estadístico con Ordenador de Datos Médicos

Logaritmo de la dosis

3,002,502,001,501,00

Un

stan

dar

diz

ed R

esid

ual

40,00000

20,00000

0,00000

-20,00000

(a) Indicios de no “Homogeneidad de varianzas” (b) Lineal en la “Dosis”

dp

250,00200,00150,00100,0050,00

Un

stan

dar

diz

ed R

esid

ual

40,00000

20,00000

0,00000

-20,00000

(c) Lineal en la “Presión” (d) Lineal en la “DosisPresión”

III.2: Selección del mínimo conjunto de variables: Actividad 2

Se desea saber de qué variables depende fundamentalmente el valor hematocrito de un paciente renal tras una sesión de diálisis. Para ello se llevó a cabo un estudio con 96 pacientes renales en los que, tras una sesión de diálisis, se midieron diversas variables. Los datos están en el archivo Insuficiencia_Renal. Determinar el menor conjunto posible de variables que ayuden a predecir el valor hematocrito.

Notas previas

Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la variable a predecir (y) es el “valor hematocrito” (hematocrito), las variables de apoyo (xi) son cuatro: la “albúmina en sangre” (albúmina), el “nivel de creatinina” (creatinina), la “reducción de urea tras la sesión” (redurea) y la “dosis de eritropoyetina administrada” (dosis).

El objetivo es seleccionar el menor conjunto de variables xi que permiten predecir y. Para aplicar el modelo es preciso verificar las condiciones de aplicación del mismo: Normalidad +

Linealidad + Homogeneidad de Varianzas ( + No Interacción). No se verá puesto que ya se practicó con esto en el ejemplo anterior.

Petición de resultados

El modo de actuar es similar al del ejemplo anterior: pulsar Analizar Regresión Lineales..., introducir “hematocrito” en la caja Dependientes, el resto de las variables en la caja Independientes y, como única novedad, seleccionar Pasos suc. en la caja Método (pues se desea seleccionar el mínimo conjunto de variables por el método ascendente). La ventana principal de “Regresión lineal” quedará como abajo.

Page 7: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27

El resto de las selecciones son como antes. Con el botón aparece la ventana de abajo

(izquierda); tras marcar sus casillas como se indica se pulsa . Con el botón aparece la ventana de abajo (derecha); tras dejarla como está (pues ya tiene asignado todo lo que se precisa) se pulsa

. Una vez en la ventana principal, se pulsa para que SPSS proporciones los resultados que siguen.

Resultados: interpretación y análisis de los mismos

La primera salida de SPSS es similar a la de la tabla de abajo (“Variables introducidas /eliminadas”): por simplificación, en ella (y en adelante) se acortan los nombres de las variables. En ella se indican las variables que han sido introducidas en cada uno de los pasos del procedimiento, las que se han eliminado (aquí, ninguna) y el criterio empleado. En el ejemplo el proceso ha seguido tres pasos: en el primero se ha introducido REDUREA, en el segundo la DOSIS y en el último paso la ALBÚMINA (por tanto el modelo final contiene esas tres variables, pero no la CREATININA). Esto ya indica que para predecir el HEMATOCRITO basta considerar las variables REDUREA, DOSIS y ALBÚMINA (cada una de las cuales proporciona una información extra sobre el hematocrito a la que proporcionan las demás), pues la CREATININA no añade nada nuevo sobre las otras tres (su información está contenida en ellas).

Page 8: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

28 Análisis Estadístico con Ordenador de Datos Médicos

Variables introducidas/eliminadas(a)

Modelo Variables introducidas Variables

eliminadas Método 1

REDEUREA Por pasos (criterio: Prob. de F para entrar <= ,050,

Prob. de F para salir >= ,100).

2 DOSIS

Por pasos (criterio: Prob. de F para entrar <= ,050,Prob. de F para salir >= ,100).

3 ALBUMINA

Por pasos (criterio: Prob. de F para entrar <= ,050,Prob. de F para salir >= ,100).

a Variable dependiente: HEMATO

La segunda salida es similar a la de la tabla de abajo (“Resumen del modelo”). Ella presenta los valores del coeficiente de determinación para cada uno de los tres modelos. Nótese que R va aumentando conforme van entrando más variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes). Para el Modelo 1 (en el que sólo está REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor hematocrito se debe a la reducción de urea tras la sesión de hemodiálisis.

Resumen del modelo

Modelo R R cuadrado R cuadrado corregida

Error típ. de la estimación

1 ,248(a) ,061 ,051 3,69292 2 ,319(b) ,102 ,082 3,63209 3 ,394(c) ,155 ,128 3,54138

a Variables predictoras: (Constante), REDEUREA b Variables predictoras: (Constante), REDEUREA, DOSIS

c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBÚMINA

La tercera tabla (“ANOVA” de más abajo) presenta el análisis de la varianza del test global para cada uno de los modelos: H0 1 = 2 =… = K = 0 (independencia global) vs.H1 “En alguna ocasión i 0” (dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.

ANOVA(d)

Modelo Suma de

cuadrados gl Media

cuadrática F Sig. Regresión 83,786 1 83,786 6,144 ,015(a) Residual 1281,939 94 13,638

1

Total 1365,724 95 Regresión 138,859 2 69,429 5,263 ,007(b) Residual 1226,866 93 13,192

2

Total 1365,724 95 Regresión 211,919 3 70,640 5,633 ,001(c) Residual 1153,806 92 12,541

3

Total 1365,724 95 a Variables predictoras: (Constante), REDEUREA b Variables predictoras: (Constante), REDEUREA, DOSIS c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBÚMINA d Variable dependiente: HEMATOCRITO

La cuarta tabla (“Coeficientes” de más abajo) da los estimadores, intervalos y tests para los parámetros de cada uno de los modelos (también de modo similar al descrito en la Actividad 1). El mayor interés radica en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA 0,062DOSIS + 2,354ALBÚMINA para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la reducción de urea y la albúmina, pero disminuye con la dosis. El resto de las interpretaciones son como en la Actividad 1. Como ninguno de los valores P de esta tabla es 10% ninguna variable “sale del modelo”.

Finalmente, la tabla “Variables excluidas” de más abajo, muestra los tests para cada una de las variables candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas en el mismo). Así, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor más pequeño de

Page 9: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 29

P es el correspondiente a la variable DOSIS (P = 0,044 0,05) esa fue la variable que entró para formar el Modelo 2 acompañando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y DOSIS), quedaban fuera la albúmina y la creatinina y, como la de menor valor de P es la ALBÚMINA (P = 0,018 0,05) esa fue la variable que entró para formar el Modelo 3 acompañando a REDUREA y DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBÚMINA), la única que queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.

Coeficientes(a)

Coeficientes no estandarizados

Coeficientes estandarizados

Intervalo de confianza para B al 95%

Modelo B Error típ. Beta t Sig.

Límite inferior

Límite superior

(Constante) 16,774 5,104 3,287 ,001 6,640 26,9071 REDEUREA ,203 ,082 ,248 2,479 ,015 ,040 ,366

2 (Constante) 20,233 5,298 3,819 ,000 9,713 30,753REDEUREA ,195 ,081 ,238 2,415 ,018 ,035 ,356DOSIS -,053 ,026 -,201 -2,043 ,044 -,104 -,001

3 (Constante) 13,713 5,829 2,353 ,021 2,136 25,290REDEUREA ,165 ,080 ,201 2,067 ,042 ,006 ,323DOSIS -,062 ,026 -,236 -2,432 ,017 -,113 -,011ALBÚMINA 2,354 ,975 ,237 2,414 ,018 ,417 4,292

a Variable dependiente: HEMATOCRITO

Variables excluidas(d) Estadísticos

de colinealidad

Modelo Beta dentro t Sig. Correlación

parcial Tolerancia ALBÚMINA ,201(a) 2,022 ,046 ,205 ,978CREATININA -,129(a) -1,299 ,197 -,133 1,000

1

DOSIS -,201(a) -2,043 ,044 -,207 ,997ALBÚMINA ,237(b) 2,414 ,018 ,244 ,9562 CREATININA -,109(b) -1,100 ,274 -,114 ,988

3 CREATININA -,122(c) -1,270 ,207 -,132 ,985a Variables predictoras en el modelo: (Constante), REDEUREA b Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS c Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS, ALBÚMINA d Variable dependiente: HEMATOCRITO

Page 10: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones
Page 11: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

Guión Práctica IV

REGRESIÓN LOGÍSTICA _____________________________________________________________________________

IV.0. Archivos implicados en este guión (tipo)

Hiperutilizador (SPSS). Infeccion (SPSS).

IV.1: Actividad 1

Se desea determinar de qué depende la hiperutilización de los servicios de atención primaria (uso excesivo de los mismos). Para ello se tomó una muestra de 1.112 pacientes que habían acudido a las consultas de Atención Primaria de varios Centros de Salud y se les clasificó según las tres covariables Sexo, Edad y Sufrir Patología Crónica y según que hubieran sido en ese año Hiperutilizadores o no. Se desea determinar cuáles de las tres variables anteriores influyen en ser o no hiperutilizador (cuando se las considera actuando de modo conjunto). Los datos figuran en el archivo: Hiperutilizador.

¡Es el mismo ejemplo de clase la interpretación de sus resultados es como allí!

Notas previas

Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la variable cuya probabilidad p se desea predecir es el “ser hiperutilizador de los servicios de atención primaria” (Hiperutilización 0=No, 1=Sí 1 es la “enfermedad”), las variables de apoyo (xi), todas ellas dicotómicas, son el sexo (Sexo 0=Hombre, 1=Mujer 1 es el “factor de riesgo”), la edad (Edad 0=<65 años, 1=65 años 1 es el “factor de riesgo”) y la presencia de una patología crónica (Crónica 0=No, 1=Sí 1 es el “factor de riesgo”).

El objetivo es analizar el problema empleando la ecuación de regresión logística “logit (p) = + 1(Sexo) + 2(Edad) + 3(Crónica).

SPSS siempre entiende que la “enfermedad” (el problema) es el valor más alto de la variable que se señale como tal de ahí que antes se le asignara el valor 1 a la “sí hiperutilización”.

Petición de resultados: ventana principal

Pulsando Analizar Regresión Logística binaria...., se abre la ventana general de la regresión logística (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiper-utilización) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crónica a la caja de Covariables (variables x1, x2 y x3).

Adicionalmente, pulsando en la caja Método se despliega la ventana de abajo (derecha). En ella se ha seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se pusieron en el cajón de Covariables. La opción Adelante:Condicional (método paso a paso ascendente similar al ya visto en regresión múltiple) no la vemos, pero su objetivo es similar al del capítulo anterior.

Page 12: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

32 Análisis Estadístico con Ordenador de Datos Médicos

La ventana Variable de selección no la vemos.

Petición de resultados: botones

El botón (que se ilumina sólo cuando hay alguna variable en el cajón de las Covariables) permite indicar qué covariables son categóricas (pues SPSS trata todas las variables como numéricas -discretas o continuas- a menos que se le diga que son categóricas). Al pulsarlo aparece la ventana de abajo que ya está rellenada como se desea: como en nuestro caso todas las covariables son categóricas, se han pasado todas ellas de la caja Covariables a la caja Covariables categóricas. Hay que tener en cuenta que: Cada covariable categórica será sustituida por una o más covariables. Cuando la covariable es binaria (como las de nuestro caso) se creará una variable que tendrá un cero en

la categoría de referencia y un 1 en la categoría de riesgo. Cuando la covariable tiene K categorías, se crearán K1 covariables codificadas como se explicó en las

clases de teoría.

Aún falta por definir qué categoría es la de referencia (la de “no riesgo”) en cada una de las covariables categóricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo se ilustra como quedaría la ventana en nuestro ejemplo): En Contraste elegir siempre Indicador; En Categoría de referencia hay que indicar cuál es la categoría de “no riesgo” para la variable

seleccionada. SPSS ofrece por defecto la “Ultima” (dejarlo así cuando sea lo apropiado), pero en nuestro caso siempre es la “Primera” (pues el valor 0 alude siempre al “no riesgo”), que es la que hay que marcar en las tres variables.

Por último, para que el cambio sea efectivo hay que pulsar el botón Cambiar: en ese momento, en la ventana Covariables categóricas el texto “Sexo(indicador)” cambia a “Sexo(indicador(primera))” cuando se seleccionó “Primera”. Si se hubiera dejado “Ultima”, aparecería solo “Sexo(indicador)”

Page 13: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA IV: Regresión Logística 33

Pulsando se regresa a la pantalla principal (abajo): ahora ya indica de qué tipo es cada covariable.

El botón no lo vemos.

El botón permite obtener estadísticos y gráficos, o cambiar el criterio de construcción del modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se

sale pulsando y de la que conviene destacar:

Bondad de ajuste de Hosmer-Lemeshow: Test para verificar si el modelo de regresión logística ajusta bien o no a los datos H0: “El modelo ajusta bien” vs. H1: “El modelo no ajusta bien”. Si el test da significativo (P 0,10 en este caso), nada de lo que se calcule es válido.

IC para exp(B): Calcula el intervalo de confianza para las razones del producto cruzado de todas las variables presentes en el modelo. La ventana a su derecha permite fijar la confianza deseada (el 95% marcado por defecto).

Incluir constante en la ecuación: Si se marca, ajusta un modelo con término independiente ; si se quita la marca, ajusta un modelo sin término independiente . Lo usual es lo primero (por ello SPSS lo tiene marcado por defecto).

Page 14: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

34 Análisis Estadístico con Ordenador de Datos Médicos

Pulsando ya y a continuación aparecen los resultados siguientes:

Resultados: interpretación y análisis de los mismos

La primera salida de SPSS es la tabla de abajo: indica el número total de casos presentes en el estudio (1.112) y el de casos perdidos (0).

Resumen del procesamiento de los casos Casos no ponderados(a) N Porcentaje

Incluidos en el análisis 1112 100,0 Casos perdidos 0 ,0

Casos seleccionados

Total 1112 100,0 Casos no seleccionados 0 ,0 Total 1112 100,0

a Si está activada la ponderación, consulte la tabla de clasificación para ver el número total de casos.

La segunda salida de SPSS es la tabla de abajo: indica la codificación empleada para la variable dependiente, tanto real (No/Sí) como interna (0/1) ( etiquetas de valor). Se entiende que 1 = “enfermedad”.

Codificación de la variable dependiente Valor original

Valor interno

No 0Sí 1

La tercera salida de SPSS es la tabla de abajo: indica cómo se han codificado las variables categóricas del problema (todas en nuestro caso) y las frecuencias obtenidas. Obsérvese que como las tres covariables son binarias cada una da lugar a una sola covariable de valores 0/1.

Codificaciones de variables categóricas Codificación de parámetros

Frecuencia (1) No 655 ,000 Sufrir

enfermedad crónica

Sí 457 1,000

< 65 años 502 ,000 Edad cortada en 65 años

>=65 años 610 1,000

Hombre 475 ,000 Sexo Mujer 637 1,000

La cuarta salida de SPSS (abajo) no tiene interés.

Tabla de clasificación(a,b)

Observado Pronosticado

Ser hiperutilizador No Sí

Porcentaje correcto

Ser hiperutilizador

No 793 0 100,0

Sí 319 0 ,0

Paso 0

Porcentaje global 71,3 a En el modelo se incluye una constante. b El valor de corte es ,500

Page 15: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA IV: Regresión Logística 35

La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el término independiente (sin

interés).

Variables en la ecuación

B E.T. Wald gl Sig. Exp(B)

Paso 0 Constante -,911 ,066 188,645 1 ,000 ,402 La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,

consideradas individualmente, están asociadas o no con la variables dependiente es un análisis univariante. Como en todos los casos P ( Sig.) 5% considerada cada covariable individualmente (es decir, sin contemplar las otras), todas están asociadas con la hiperutilización. Su interés es menor.

Variables que no están en la ecuación

Puntuación gl Sig. SEXO(1) 13,353 1 ,000EDAD(1) 63,922 1 ,000

Variables

CRON(1) 88,726 1 ,000

Paso 0

Estadísticos globales 116,521 3 ,000

La séptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del método de construcción del modelo empleado solo nos interesa la fila Modelo (que es la que alude al método de “Introducir” que se ha empleado). Ella alude al test global H0: 1 = 2 = … = K = 0 (independencia global) vs. H1: “Alguna igualdad no es cierta” (dependencia global). En nuestro caso: Como 2

exp = 119,363 (g.l. = 3 = nº de covariables) da P = 0,000 0,05 al menos una de las variables

presentes en el modelo (que incluye a todas las variables) está asociada a la hiperutilización. Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable

influye en la infección).

Pruebas omnibus sobre los coeficientes del modelo

Chi-cuadrado gl Sig. Paso 119,364 3 ,000 Bloque 119,364 3 ,000

Paso 1

Modelo 119,364 3 ,000

Puesto que el test global dio significativo conviene ver las medidas de resumen de la octava salida de SPSS (tabla de abajo). Según ella, el 10,2% de la variabilidad de la hiperutilización es debida a la relación de esta variable con el sexo, la edad y el padecer una enfermedad crónica (en términos de la R2 de Cox-Snell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilización la explican las tres variables presentes en el modelo.

Resumen de los modelos

Paso -2 log de la

verosimilitud

R cuadrado de Cox y

Snell

R cuadrado de

Nagelkerke 1 1213,537(a) ,102 ,146

Para evaluar si el modelo logístico ajustado es el adecuado hay que contrastar H0: “Los datos de la muestra se representan bien por un modelo logístico” vs. H1: “Los datos de la muestra no se representan bien por un

modelo logístico”. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como 2exp = 1,719

(g.l. = 5 = nº de covariables) da P = 0,886 > 0,10 el test no es significativo y el modelo se ajusta bien a los datos puede aceptarse todo lo que sigue y lo anterior.

Page 16: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

36 Análisis Estadístico con Ordenador de Datos Médicos

Prueba de Hosmer y Lemeshow

Paso Chi-cuadrado gl Sig. 1 1,719 5 ,886

La décima salida de SPSS es la tabla de abajo (sin interés).

Tabla de clasificación(a)

Observado Pronosticado

Ser hiperutilizador

No Sí Porcentaje correcto

Ser hiperutilizador

No 793 0 100,0

Sí 319 0 ,0

Paso 1

Porcentaje global 71,3

La tabla más importante es la de la undécima y última salida de SPSS (abajo). Ella es la que proporciona (para el modelo que incluye las tres variables): Columna B: Los estimadores bi de las pendientes i de cada una de las variables y al estimador a de la

altura en el origen (en la última fila = “Constante”). Columna E.T.: Los valores de los errores típico o estándar ee (bi) y ee (a). Columnas Wald, gl y Sig.: Los resultados del test H0: i = 0 para cada variable y del test H0: = 0 para

la altura. Este test es fiable cuando es significativo, pero cuando no lo es (pero está cerca de la significación). En nuestro caso los resultados para las diferentes variables son: (a) Sexo: 2

exp =0,827 (g.l.=1) P = 0,363 >>0,05 teniendo en cuenta el efecto de la edad y del

padecimiento de alguna enfermedad crónica, el sexo no está asociado con la hiperutilización; (b) Edad: 2

exp =25,349 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y del

padecimiento de alguna enfermedad crónica, la edad sí está asociado con la hiperutilización; (c) Crónica: 2

exp =49,818 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y de la

edad, el padecimiento de alguna enfermedad crónica sí está asociado con la hiperutilización. Columna Exp(B): Las estimaciones de Oi (odds-ratio) para cada una de las variables del modelo la

fuerza de asociación de cada una de ellas con la hiperutilización. En el caso de la edad se obtiene un valor de 2,22 los pacientes que tienen 65 años o más tienen 2,22 veces más riesgo de ser hiperutilizadores que los que tienen menos de 65 años. El caso de “Constante” no tiene interés.

Columna I.C.: El intervalo de confianza (al 95%) para las Oi del párrafo anterior. En el caso del intervalo para el sexo el intervalo es (0,854; 1,54) ¡que contiene el valor 1! es posible que la hiperutilización sea independiente del sexo (en valores constantes de las demás variables), ¡lo que ya se había visto con el test de Wald!

Variables en la ecuación

I.C. 95,0% para EXP(B)

B E.T. Wald gl Sig. Exp(B) Inferior Superior SEXO(1) ,137 ,150 ,827 1 ,363 1,147 ,854 1,540EDAD(1) ,798 ,158 25,349 1 ,000 2,220 1,628 3,029CRÓNICA(1) 1,028 ,146 49,818 1 ,000 2,796 2,102 3,720

Paso 1(a)

Constante -1,968 ,146 180,451 1 ,000 ,140

a Variable(s) introducida(s) en el paso 1: SEXO, EDAD, CRÓNICA.

IV.2: Actividad 2

Estudiar qué variables influye sobre la presencia de una infección postoperatoria (en pacientes intervenidos de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:

Page 17: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA IV: Regresión Logística 37

TRATAMIENTO Grupo al que fueron asignados los pacientes: 0 = Antibióticos; 1 = Irrigación

NUPAC Número del paciente.

SEXO Sexo del paciente: 0 = Hombre; 1 = Mujer.

EDAD Edad del paciente (en años).

DURACLI Duración de la clínica (en horas).

TIPAPEN Tipo de apéndice: 1 = Normal; 2 = Flemonoso; 3 = Gangrenoso.

DURACINT Duración de la intervención (en minutos).

INFEC Infectado en las 72 horas posteriores a la operación: 0 = No; 1 = Sí.

¡Es el mismo ejemplo de clase la interpretación de sus resultados es como allí!

Notas previas

Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la variable cuya probabilidad p se desea predecir es el “sufrir una infección” (Infec 0=No, 1=Sí 1 es la “enfermedad”), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento dicotómico 1=Irrigación es el “factor de riesgo”), el sexo (Sexo dicotómico 1 es el “factor de riesgo”), la edad (Edad cuantitativo a más edad, más riesgo), la duración de la clínica (Duracli cuantitativo a más duración, más riesgo), el tipo de apéndice (Tipapen categórico con 3 clases dará lugar a dos variables Tipapen(1) Flemonoso sí/no y Tipapen(2) Gangrenoso sí/no si se entiende que Normal = categoría de no riesgo) y la duración de la intervención (Duracint cuantitativo a más duración, más riesgo).

El objetivo es analizar el problema empleando la ecuación de regresión logística “logit (p) = + 1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.

SPSS siempre entiende que la “enfermedad” (el problema) es el valor más alto de la variable que se señale como tal de ahí que antes se le asignara el valor 1 a la “sí infección”.

Petición de resultados

Pulsando Analizar Regresión Logística binaria...., se abre la ventana general de la regresión logística (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y dejado la selección de Introducir (para que así SPSS contemple a todas las variables).

Page 18: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

38 Análisis Estadístico con Ordenador de Datos Médicos

El siguiente paso consiste en indicarle a SPSS qué variables son categóricas (las demás las contemplará

como cuantitativas), para lo cual se pulsa el botón y, en la ventana que se obtiene (la de más abajo, que contempla las acciones que siguen) se pasan las covariables categóricas Tratamiento, Sexo y Tipapen del cajón Covariables al cajón Covariables categóricas.

El siguiente paso es identificar la categoría de referencia (de “no riesgo”) de cada una de estas covariables categóricas. Para ello, con cada una de las tres covariables implicadas hay que actuar así (abajo se indica cómo quedaría la ventana anterior tras las operaciones que siguen): Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibióticos era el de

menor riesgo de infección 0=Antibiótico es la categoría de referencia pinchar sobre la covariable Tratamiento en la caja de Covariables categóricas, seleccionar Primera en la opción Categoría de

referencia y pulsar el botón . Sexo: los investigadores no tenían claro cuál podía ser la categoría de referencia se puede elegir la

que sea si elegimos 0=Hombre (la “Primera”) se actuará igual que arriba (pero con la covariable Sexo).

Tipapen: el tipo de apéndice presenta tres categorías (de menos a más deterioro del apéndice) conforme mayor sea la categoría, más deteriorado estará el apéndice mayor riesgo de infección postoperatoria existirá el apéndice “1=Normal” será la categoría de referencia (de menor riesgo) y las categorías “2=Flemonoso” y “3=Gangrenoso” serán dos categorías de riesgo. Como “1=Normal” tiene el valor más bajo él se empleará como categoría de referencia la Primera actuar como arriba (pero con la covariable Tipapen).

Page 19: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

GUIÓN DE LA PRÁCTICA IV: Regresión Logística 39

Tras pulsar se regresa a la pantalla inicial en la que pulsaremos a fin de marcar “Bondad de ajuste” e “IC para exp(B)” como en la Actividad 1. La nueva ventana es la misma de entonces

(abajo aparece con las selecciones ya marcadas). Tras pulsar se regresa a la pantalla inicial, en la

que ya solo hay que pulsar para que SPSS dé las respuestas a lo solicitado.

Resultados: interpretación y análisis de los mismos

En lo que sigue solo se reseñan y comentan las salidas de mayor interés(el resto son similares a las de la Actividad 1)muchas de las cuales fueron comentadas con más profundidad en las clases de teoría

La primera salida de interés (abajo) alude a las codificaciones empleadas con las covariables categóricas: una variable para las dos dicotómicas (Sexo y Tratamiento) y dos variables para Tipapen (pues tiene 3 niveles), cada uno con indicación del valor que indica la ausencia de riesgo (el 0).

Codificaciones de variables categóricas

Codificación de parámetros

Frecuencia (1) (2) Normal 27 ,000 ,000Flemonoso 88 1,000 ,000

Tipo de apéndice

Gangrenoso 5 ,000 1,000Hombre 72 ,000 Sexo del paciente Mujer 48 1,000 Tratados con antibióticos

60 ,000 Tratamiento al que fueron asignados los pacientes Tratados con irrigación 60 1,000

La siguiente salida (abajo) proporciona el test global de independencia (fila Modelo). Como es significativo (P = 0,000) podemos decir que al menos una de las variables presentes en el modelo está asociada con la variable dependiente.

La tabla de abajo permite determinar la fuerza de la relación entre las 7 covariables estudiadas y la variable a predecir (Infección).

Resumen de los modelos

Paso -2 log de la

verosimilitud

R cuadrado de Cox y

Snell

R cuadrado de

Nagelkerke 1 42,344(a) ,308 ,599

Page 20: Guión Práctica III REGRESIÓN LINEAL MÚLTIPLEbioest/mtrabajo/Regresion lineal y logistica.pdfGUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 27 El resto de las selecciones

40 Análisis Estadístico con Ordenador de Datos Médicos

La tabla de abajo permite aceptar que el modelo logístico ajustado se ajusta bien a los datos (pues P = 0,480 > 0,10 se acepta H0).

Prueba de Hosmer y Lemeshow Paso Chi-cuadrado gl Sig. 1 7,538 8 ,480

La tabla más relevante es la de abajo: ella proporciona los estimadores puntuales y por intervalo de y de las siete i, permite determinar que la relación buscada es

Logit (p) = 11,422 + 0,282Tratamiento 0,374Sexo + 0,129Edad 0,043Duracli 0,435Tipapen(1) 0,326Tipapen(2) + 0,109Duracint

(en donde p alude a la probabilidad de padecer una infección), permite realizar el test de independencia para cada una de las 7 covariables (columna Wald, gl y Sig.) y evaluar la fuerza de la asociación entre la variable de respuesta y cada una de las covariables cuando el resto de las variables presentes en el modelo permanecen constantes (tres últimas columnas).

Variables en la ecuación

I.C. 95,0% para EXP(B)

B E.T. Wald gl Sig. Exp(B) Inferior SuperiorTRATAMIENTO(1) ,282 ,882 ,102 1 ,749 1,326 ,235 7,472SEXO(1) -,374 ,867 ,186 1 ,666 ,688 ,126 3,763EDAD ,129 ,035 13,888 1 ,000 1,138 1,063 1,217DURACLI -,043 ,023 3,455 1 ,063 ,958 ,915 1,002TIPAPEN ,231 2 ,891 TIPAPEN(1) -,435 ,906 ,230 1 ,631 ,647 ,110 3,824TIPAPEN(2) -,326 2,684 ,015 1 ,903 ,722 ,004 139,153DURACINT ,109 ,038 8,229 1 ,004 1,115 1,035 1,201

Paso 1(a)

Constante -11,422 2,859 15,956 1 ,000 ,000

a Variable(s) introducida(s) en el paso 1: TRATAMIENTO, SEXO, EDAD, DURACLI, TIPAPEN, DURACINT.